Zobrazeno 1 - 10
of 127
pro vyhledávání: '"Heess, N"'
Akademický článek
Tento výsledek nelze pro nepřihlášené uživatele zobrazit.
K zobrazení výsledku je třeba se přihlásit.
K zobrazení výsledku je třeba se přihlásit.
Akademický článek
Tento výsledek nelze pro nepřihlášené uživatele zobrazit.
K zobrazení výsledku je třeba se přihlásit.
K zobrazení výsledku je třeba se přihlásit.
Neural information processing systems foundation. All rights reserved. Most deep reinforcement learning algorithms are data inefficient in complex and rich environments, limiting their applicability to many scenarios. One direction for improving data
Externí odkaz:
https://explore.openaire.eu/search/publication?articleId=doi_dedup___::8a58aca0985ad5d6f2398021287f8f35
https://ora.ox.ac.uk/objects/uuid:0cfdde8d-8b0b-440a-97b7-7d2a185d1ad6
https://ora.ox.ac.uk/objects/uuid:0cfdde8d-8b0b-440a-97b7-7d2a185d1ad6
Autor:
Galashov, A, Jayakumar, SM, Hasenclever, L, Tirumala, D, Schwarz, J, Desjardins, G, Czarnecki, WM, Teh, YW, Pascanu, R, Heess, N
Many real world tasks exhibit rich structure that is repeated across different parts of the state space or in time. In this work we study the possibility of leveraging such repeated structure to speed up and regularize learning. We start from the KL
Externí odkaz:
https://explore.openaire.eu/search/publication?articleId=doi_dedup___::bee681c2a811d4a8ce0e8cac42a6add3
http://arxiv.org/abs/1905.01240
http://arxiv.org/abs/1905.01240
We focus on the problem of learning a single motor module that can flexibly express a range of behaviors for the control of high-dimensional physically simulated humanoids. To do this, we propose a motor architecture that has the general structure of
Externí odkaz:
https://explore.openaire.eu/search/publication?articleId=doi_dedup___::5662841761d769c8395a61117ee287fb
https://ora.ox.ac.uk/objects/uuid:6a02be08-a2b6-46b5-a5cf-0ee99a23c67a
https://ora.ox.ac.uk/objects/uuid:6a02be08-a2b6-46b5-a5cf-0ee99a23c67a
Publikováno v:
Scopus-Elsevier
The policy gradients of the expected return objective can react slowly to rare rewards. Yet, in some cases agents may wish to emphasize the low or high returns regardless of their probability. Borrowing from the economics and control literature, we r
Externí odkaz:
https://explore.openaire.eu/search/publication?articleId=doi_dedup___::fea5f3b4726fcdc67e2c1f78f2258f98
http://arxiv.org/abs/1703.05820
http://arxiv.org/abs/1703.05820
Autor:
Jitkrittum, W, Gretton, A, Heess, N, Eslami, SMA, Lakshminarayanan, B, Sejdinovic, D, Szabo, Z
We propose an efficient nonparametric strategy for learning a message operator in expectation propagation (EP), which takes as input the set of incoming messages to a factor node, and produces an outgoing message as output. This learned operator repl
Externí odkaz:
https://explore.openaire.eu/search/publication?articleId=dedup_wf_001::24dc4f37911e0037f253463bb3a1aed6
https://ora.ox.ac.uk/objects/uuid:61de56f1-24b4-43c7-81cc-6a1ec756b3bf
https://ora.ox.ac.uk/objects/uuid:61de56f1-24b4-43c7-81cc-6a1ec756b3bf
Publikováno v:
Advances in Neural Information Processing Systems 27 (NIPS 2014)
Bayes-adaptive planning offers a principled solution to the exploration-exploitation trade-off under model uncertainty. It finds the optimal policy in belief space, which explicitly accounts for the expected effect on future rewards of reductions in
Externí odkaz:
https://explore.openaire.eu/search/publication?articleId=od______1874::ba0e9bdf7262c92e97a98af314cd340d
https://hdl.handle.net/21.11116/0000-0004-BFA7-9
https://hdl.handle.net/21.11116/0000-0004-BFA7-9
Akademický článek
Tento výsledek nelze pro nepřihlášené uživatele zobrazit.
K zobrazení výsledku je třeba se přihlásit.
K zobrazení výsledku je třeba se přihlásit.
Akademický článek
Tento výsledek nelze pro nepřihlášené uživatele zobrazit.
K zobrazení výsledku je třeba se přihlásit.
K zobrazení výsledku je třeba se přihlásit.