Policy Gradient Reinforcement Learning Without Regret

Autor: Dick, Travis B
Rok vydání: 2015
DOI: 10.7939/r30d4h
Databáze: OpenAIRE