Zobrazeno 1 - 2
of 2
pro vyhledávání: '"Cicek, Dogan Can"'
Approximation of the value functions in value-based deep reinforcement learning induces overestimation bias, resulting in suboptimal policies. We show that when the reinforcement signals received by the agents have a high variance, deep actor-critic
Externí odkaz:
http://arxiv.org/abs/2109.11788
Akademický článek
Tento výsledek nelze pro nepřihlášené uživatele zobrazit.
K zobrazení výsledku je třeba se přihlásit.
K zobrazení výsledku je třeba se přihlásit.