Zobrazeno 1 - 2
of 2
pro vyhledávání: '"Meng, Forrest"'
Robots often need to learn the human's reward function online, during the current interaction. This real-time learning requires fast but approximate learning rules: when the human's behavior is noisy or suboptimal, current approximations can result i
Externí odkaz:
http://arxiv.org/abs/2308.09863
Akademický článek
Tento výsledek nelze pro nepřihlášené uživatele zobrazit.
K zobrazení výsledku je třeba se přihlásit.
K zobrazení výsledku je třeba se přihlásit.