Tuning heuristics and convergence analysis of reinforcement learning algorithm for online data-based optimal control design

Autor: Fabio Nogueira Da Silva, João Viana da Fonseca Neto
Jazyk: angličtina
Rok vydání: 2020
Předmět:
0209 industrial biotechnology
reinforcement learning
Optimal Control
02 engineering and technology
Aprendizaje por Refuerzo
Aprendizagem por Reforço
Sintonización
lcsh:Social Sciences
optimal control
020901 industrial engineering & automation
Tuning
0202 electrical engineering
electronic engineering
information engineering

Control Óptimo
Reinforcement learning algorithm
Controle Ótimo
Sintonia
lcsh:Science (General)
Realimentación de Salida
General Environmental Science
Mathematics
Programación Dinámica Aproximada
Approximate Dynamic Programming
lcsh:LC8-6691
output feedback
lcsh:Special aspects of education
020208 electrical & electronic engineering
Programação Dinâmica Aproximada
Reinforcement Learning
lcsh:H
Optimal control design
Realimentação de Saída
General Earth and Planetary Sciences
tuning
approximate dynamic programming
Humanities
Output Feedback
lcsh:Q1-390
Zdroj: Research, Society and Development, Vol 9, Iss 2, Pp e188922128-e188922128 (2020)
Research, Society and Development; Vol. 9 No. 2; e188922128
Research, Society and Development; Vol. 9 Núm. 2; e188922128
Research, Society and Development; v. 9 n. 2; e188922128
Research, Society and Development
Universidade Federal de Itajubá (UNIFEI)
instacron:UNIFEI
ISSN: 2525-3409
Popis: A heuristic for tuning and convergence analysis of the reinforcement learning algorithm for control with output feedback with only input / output data generated by a model is presented. To promote convergence analysis, it is necessary to perform the parameter adjustment in the algorithms used for data generation, and iteratively solve the control problem. A heuristic is proposed to adjust the data generator parameters creating surfaces to assist in the convergence and robustness analysis process of the optimal online control methodology. The algorithm tested is the discrete linear quadratic regulator (DLQR) with output feedback, based on reinforcement learning algorithms through temporal difference learning in the policy iteration scheme to determine the optimal policy using input / output data only. In the policy iteration algorithm, recursive least squares (RLS) is used to estimate online parameters associated with output feedback DLQR. After applying the proposed tuning heuristics, the influence of the parameters could be clearly seen, and the convergence analysis facilitated. Se presenta una heurística para el análisis de sintonía y convergencia del algoritmo de aprendizaje de refuerzo para el control con retroalimentación de salida con solo datos de entrada / salida generados por un modelo. Para promover el análisis de convergencia, es necesario realizar el ajuste de parámetros en los algoritmos utilizados para la generación de datos y resolver de forma iterativa el problema de control. Se propone una heurística para ajustar los parámetros del generador de datos creando superficies para ayudar en el proceso de análisis de convergencia y robustez de la metodología óptima de control online. El algoritmo probado es el regulador cuadrático lineal discreto (DLQR) con retroalimentación de salida, basado en algoritmos de aprendizaje de refuerzo a través del aprendizaje de diferencia temporal en el esquema de iteración de políticas para determinar la política óptima utilizando solo datos de entrada / salida. En el algoritmo de iteración de políticas, se utilizan mínimos cuadrados recursivos (RLS) para estimar los parámetros online asociados con la retroalimentación de salida DLQR. Después de aplicar las heurísticas de ajuste propuestas, se pudo ver claramente la influencia de los parámetros y se facilitó el análisis de convergencia. Uma heurística para sintonia e análise de convergência do algoritmo de aprendizado por reforço para controle com realimentação de saída com apenas dados de entrada / saída, gerados por um modelo, são apresentados. Para promover a análise de convergência, é necessário realizar o ajuste dos parâmetros nos algoritmos utilizados para a geração de dados, e iterativamente resolver o problema de controle. É proposta uma heurística para ajustar os parâmetros do gerador de dados criando superfícies para auxiliar no processo de análise de convergência e robustez da metodologia de controle ótimo on-line. O algoritmo testado é o regulador quadrático linear discreto (DLQR) com realimentação de saída, baseado em algoritmos de aprendizado por reforço através do aprendizado por diferença temporal no esquema de iteração de política para determinar a política ideal usando apenas dados de entrada / saída. No algoritmo de iteração de política, o RLS (Mínimos Quadrados Recursivos) é usado para estimar parâmetros on-line associados ao DLQR com realimentação de saída. Após a aplicação das heurísticas propostas para o ajuste, a influência dos parâmetros pôde ser vista claramente, e a análise de convergência e facilitada.
Databáze: OpenAIRE