Zobrazeno 1 - 10
of 38
pro vyhledávání: '"Relative Value Iteration"'
Autor:
Hmedi, Hassan
In the past years, large-scale stochastic networks have been an intense subject of study due to their use in modelling a variety of systems including telecommunications, service and data centers, patient flows, etc. The optimal control of such system
Externí odkaz:
https://explore.openaire.eu/search/publication?articleId=doi_________::3dc411a5fb9ab076453e7a0958a2ec73
Akademický článek
Tento výsledek nelze pro nepřihlášené uživatele zobrazit.
K zobrazení výsledku je třeba se přihlásit.
K zobrazení výsledku je třeba se přihlásit.
Autor:
Vivek S. Borkar, Ari Arapostathis
Publikováno v:
SIAM Journal on Control and Optimization. 55:1711-1715
In A Relative Value Iteration Algorithm for Nondegenerate Controlled Diffusions, [SIAM J. Control Optim., 50 (2012), pp. 1886--1902], convergence of the relative value iteration for the ergodic control problem for a nondegenerate diffusion controlled
Conference
Tento výsledek nelze pro nepřihlášené uživatele zobrazit.
K zobrazení výsledku je třeba se přihlásit.
K zobrazení výsledku je třeba se přihlásit.
Autor:
Robert Louis Bray
Morton and Wecker (1977) stated that the value iteration algorithm solves a dynamic program's policy function faster than its value function when the limiting Markov chain is ergodic. I show that their proof is incomplete, and provide a new proof of
Externí odkaz:
https://explore.openaire.eu/search/publication?articleId=doi_dedup___::3bf1db1b19c82bfe3551b6ac4439aad1
https://hdl.handle.net/10419/217136
https://hdl.handle.net/10419/217136
Akademický článek
Tento výsledek nelze pro nepřihlášené uživatele zobrazit.
K zobrazení výsledku je třeba se přihlásit.
K zobrazení výsledku je třeba se přihlásit.
Akademický článek
Tento výsledek nelze pro nepřihlášené uživatele zobrazit.
K zobrazení výsledku je třeba se přihlásit.
K zobrazení výsledku je třeba se přihlásit.
Conference
Tento výsledek nelze pro nepřihlášené uživatele zobrazit.
K zobrazení výsledku je třeba se přihlásit.
K zobrazení výsledku je třeba se přihlásit.
Akademický článek
Tento výsledek nelze pro nepřihlášené uživatele zobrazit.
K zobrazení výsledku je třeba se přihlásit.
K zobrazení výsledku je třeba se přihlásit.
Autor:
Abhijit Gosavi
Publikováno v:
Procedia Computer Science. 12:90-95
Q-Learning is based on value iteration and remains the most popular choice for solving Markov Decision Problems (MDPs) via reinforcement learning (RL), where the goal is to bypass the transition probabilities of the MDP. Approximate policy iteration