Zobrazeno 1 - 5
of 5
pro vyhledávání: '"Kerimkulov, B."'
Publikováno v:
SIAM J. Control Optim., 58(3), 1314-1340, 2020
Optimal control problems are inherently hard to solve as the optimization must be performed simultaneously with updating the underlying system. Starting from an initial guess, Howard's policy improvement algorithm separates the step of updating the t
Externí odkaz:
http://arxiv.org/abs/1812.07846
Publikováno v:
Applied Mathematics & Optimization. Dec2021, Vol. 84 Issue 3, p3417-3436. 20p.
We study the global convergence of policy gradient for infinite-horizon, continuous state and action space, entropy-regularized Markov decision processes (MDPs). We consider a softmax policy with (one-hidden layer) neural network approximation in a m
Externí odkaz:
https://explore.openaire.eu/search/publication?articleId=od______1032::200af7025765cc874a7bb1afc16a9b67
http://hdl.handle.net/10044/1/95337
http://hdl.handle.net/10044/1/95337
Akademický článek
Tento výsledek nelze pro nepřihlášené uživatele zobrazit.
K zobrazení výsledku je třeba se přihlásit.
K zobrazení výsledku je třeba se přihlásit.
Conference
Tento výsledek nelze pro nepřihlášené uživatele zobrazit.
K zobrazení výsledku je třeba se přihlásit.
K zobrazení výsledku je třeba se přihlásit.