Tuning heuristics and convergence analysis of reinforcement learning algorithm for online data-based optimal control design

Autor:	Fabio Nogueira Da Silva, João Viana da Fonseca Neto
Jazyk:	angličtina
Rok vydání:	2020
Předmět:	0209 industrial biotechnology reinforcement learning Optimal Control 02 engineering and technology Aprendizaje por Refuerzo Aprendizagem por Reforço Sintonización lcsh:Social Sciences optimal control 020901 industrial engineering & automation Tuning 0202 electrical engineering electronic engineering information engineering Control Óptimo Reinforcement learning algorithm Controle Ótimo Sintonia lcsh:Science (General) Realimentación de Salida General Environmental Science Mathematics Programación Dinámica Aproximada Approximate Dynamic Programming lcsh:LC8-6691 output feedback lcsh:Special aspects of education 020208 electrical & electronic engineering Programação Dinâmica Aproximada Reinforcement Learning lcsh:H Optimal control design Realimentação de Saída General Earth and Planetary Sciences tuning approximate dynamic programming Humanities Output Feedback lcsh:Q1-390
Zdroj:	Research, Society and Development, Vol 9, Iss 2, Pp e188922128-e188922128 (2020) Research, Society and Development; Vol. 9 No. 2; e188922128 Research, Society and Development; Vol. 9 Núm. 2; e188922128 Research, Society and Development; v. 9 n. 2; e188922128 Research, Society and Development Universidade Federal de Itajubá (UNIFEI) instacron:UNIFEI
ISSN:	2525-3409
Popis:	A heuristic for tuning and convergence analysis of the reinforcement learning algorithm for control with output feedback with only input / output data generated by a model is presented. To promote convergence analysis, it is necessary to perform the parameter adjustment in the algorithms used for data generation, and iteratively solve the control problem. A heuristic is proposed to adjust the data generator parameters creating surfaces to assist in the convergence and robustness analysis process of the optimal online control methodology. The algorithm tested is the discrete linear quadratic regulator (DLQR) with output feedback, based on reinforcement learning algorithms through temporal difference learning in the policy iteration scheme to determine the optimal policy using input / output data only. In the policy iteration algorithm, recursive least squares (RLS) is used to estimate online parameters associated with output feedback DLQR. After applying the proposed tuning heuristics, the influence of the parameters could be clearly seen, and the convergence analysis facilitated. Se presenta una heurística para el análisis de sintonía y convergencia del algoritmo de aprendizaje de refuerzo para el control con retroalimentación de salida con solo datos de entrada / salida generados por un modelo. Para promover el análisis de convergencia, es necesario realizar el ajuste de parámetros en los algoritmos utilizados para la generación de datos y resolver de forma iterativa el problema de control. Se propone una heurística para ajustar los parámetros del generador de datos creando superficies para ayudar en el proceso de análisis de convergencia y robustez de la metodología óptima de control online. El algoritmo probado es el regulador cuadrático lineal discreto (DLQR) con retroalimentación de salida, basado en algoritmos de aprendizaje de refuerzo a través del aprendizaje de diferencia temporal en el esquema de iteración de políticas para determinar la política óptima utilizando solo datos de entrada / salida. En el algoritmo de iteración de políticas, se utilizan mínimos cuadrados recursivos (RLS) para estimar los parámetros online asociados con la retroalimentación de salida DLQR. Después de aplicar las heurísticas de ajuste propuestas, se pudo ver claramente la influencia de los parámetros y se facilitó el análisis de convergencia. Uma heurística para sintonia e análise de convergência do algoritmo de aprendizado por reforço para controle com realimentação de saída com apenas dados de entrada / saída, gerados por um modelo, são apresentados. Para promover a análise de convergência, é necessário realizar o ajuste dos parâmetros nos algoritmos utilizados para a geração de dados, e iterativamente resolver o problema de controle. É proposta uma heurística para ajustar os parâmetros do gerador de dados criando superfícies para auxiliar no processo de análise de convergência e robustez da metodologia de controle ótimo on-line. O algoritmo testado é o regulador quadrático linear discreto (DLQR) com realimentação de saída, baseado em algoritmos de aprendizado por reforço através do aprendizado por diferença temporal no esquema de iteração de política para determinar a política ideal usando apenas dados de entrada / saída. No algoritmo de iteração de política, o RLS (Mínimos Quadrados Recursivos) é usado para estimar parâmetros on-line associados ao DLQR com realimentação de saída. Após a aplicação das heurísticas propostas para o ajuste, a influência dos parâmetros pôde ser vista claramente, e a análise de convergência e facilitada.
Databáze:	OpenAIRE
Externí odkaz:	https://explore.openaire.eu/search/publication?articleId=doi_dedup___::645ecaacc0225a9f14e6c83a9ab6009b https://rsd.unifei.edu.br/index.php/rsd/article/view/2128 Zobrazit plný text záznamu