Zobrazeno 1 - 2
of 2
pro vyhledávání: '"Coninx, Miranda"'
Learning optimal policies in sparse rewards settings is difficult as the learning agent has little to no feedback on the quality of its actions. In these situations, a good strategy is to focus on exploration, hopefully leading to the discovery of a
Externí odkaz:
http://arxiv.org/abs/2111.01919
Akademický článek
Tento výsledek nelze pro nepřihlášené uživatele zobrazit.
K zobrazení výsledku je třeba se přihlásit.
K zobrazení výsledku je třeba se přihlásit.