Zobrazeno 1 - 2
of 2
pro vyhledávání: '"Wu, Xiapeng"'
Recent success in Deep Reinforcement Learning (DRL) methods has shown that policy optimization with respect to an off-policy distribution via importance sampling is effective for sample reuse. In this paper, we show that the use of importance samplin
Externí odkaz:
http://arxiv.org/abs/2302.02299
Akademický článek
Tento výsledek nelze pro nepřihlášené uživatele zobrazit.
K zobrazení výsledku je třeba se přihlásit.
K zobrazení výsledku je třeba se přihlásit.