Zobrazeno 1 - 10
of 28
pro vyhledávání: '"Kerimkulov, B"'
Publikováno v:
SIAM J. Control Optim., 58(3), 1314-1340, 2020
Optimal control problems are inherently hard to solve as the optimization must be performed simultaneously with updating the underlying system. Starting from an initial guess, Howard's policy improvement algorithm separates the step of updating the t
Externí odkaz:
http://arxiv.org/abs/1812.07846
Publikováno v:
Applied Mathematics & Optimization. Dec2021, Vol. 84 Issue 3, p3417-3436. 20p.
We study the global convergence of policy gradient for infinite-horizon, continuous state and action space, entropy-regularized Markov decision processes (MDPs). We consider a softmax policy with (one-hidden layer) neural network approximation in a m
Externí odkaz:
https://explore.openaire.eu/search/publication?articleId=od______1032::200af7025765cc874a7bb1afc16a9b67
http://hdl.handle.net/10044/1/95337
http://hdl.handle.net/10044/1/95337
Akademický článek
Tento výsledek nelze pro nepřihlášené uživatele zobrazit.
K zobrazení výsledku je třeba se přihlásit.
K zobrazení výsledku je třeba se přihlásit.
Autor:
Cuchiero, Christa1 (AUTHOR), Reisinger, Christoph2 (AUTHOR) christoph.reisinger@maths.ox.ac.uk, Rigger, Stefan3 (AUTHOR)
Publikováno v:
Annals of Operations Research. May2024, Vol. 336 Issue 1/2, p1315-1349. 35p.
Policy Iteration Method for Time-Dependent Mean Field Games Systems with Non-separable Hamiltonians.
Autor:
Laurière, Mathieu1 (AUTHOR), Song, Jiahao2 (AUTHOR), Tang, Qing2 (AUTHOR) tangqingthomas@gmail.com
Publikováno v:
Applied Mathematics & Optimization. Apr2023, Vol. 87 Issue 2, p1-34. 34p.
Conference
Tento výsledek nelze pro nepřihlášené uživatele zobrazit.
K zobrazení výsledku je třeba se přihlásit.
K zobrazení výsledku je třeba se přihlásit.
Autor:
Müller, Johannes, Montúfar, Guido
Publikováno v:
Information Geometry; 2024 Supplement1, Vol. 7, p485-523, 39p
Autor:
Müller, Johannes, Montúfar, Guido
Publikováno v:
Information Geometry; 2023 Supplement 1, Vol. 7, p485-523, 39p
Publikováno v:
Advanced Control for Applications; Jun2022, Vol. 4 Issue 2, p1-30, 30p