Effect of Proof Noise on Optimal LQR Control via Q-Learning based on Adaptive Filtering

Autor: YÁNEZ, Williams Jesús López
Přispěvatelé: SOUZA, Francisco das Chagas de, FONSECA NETO, João Viana da, SERRA, Ginalber Luiz de Oliveira, RÊGO, Patrícia Helena Moraes, CORTES, Omar Andres Carmona
Jazyk: portugalština
Rok vydání: 2022
Předmět:
Zdroj: Biblioteca Digital de Teses e Dissertações da UFMA
Universidade Federal do Maranhão (UFMA)
instacron:UFMA
Popis: Submitted by Jonathan Sousa de Almeida (jonathan.sousa@ufma.br) on 2022-07-12T13:02:13Z No. of bitstreams: 1 WILLIAMSJESÚSLÓPEZYÁNEZ.pdf: 2848868 bytes, checksum: 1c7f933f0fd1e314b6e0d1a661d5467b (MD5) Made available in DSpace on 2022-07-12T13:02:13Z (GMT). No. of bitstreams: 1 WILLIAMSJESÚSLÓPEZYÁNEZ.pdf: 2848868 bytes, checksum: 1c7f933f0fd1e314b6e0d1a661d5467b (MD5) Previous issue date: 2022-05-13 UFMA Q-learning is a reinforcement learning (RL) method, model-free, that is used to solve the optimal control problem based on learning the action value function (or function Q). The usual way to learn the action value function is to solve a Bellman equation. In this thesis, to solve the Bellman equation in the LQR optimal control problem, an adaptive filtering algorithm based on the normalized least-mean-square (NLMS) algorithm is used instead of the recursive least-squares (RLS). A general requirement for achieving convergence in adaptive filtering algorithms is the excitation persistence condition. The persistence of excitation is a condition imposed so that the matrix formed by the regressor vectors has all columns linearly independent. In the context of optimal control via Q-learning, persistence of excitation is obtained by adding a probe noise to the control action. The probe noise affects real system states and may affect the performance of the adaptive filter in solving the Bellman equation. In this work, a study is carried out on the effect of probe noise based on the covariance matrices of the states and control inputs of the system, where a closed formula and convergence properties of such matrices are obtained. Furthermore, it is verified through numerical experiments that the NLMS algorithm presents superior performance when compared to the RLS algorithm, in cases where the probe noise has small variance. The use of the NLMS algorithm in our approach has two advantages: first, the NLMS algorithm presents lower computational complexity when compared to the RLS algorithm; the second, to obtain the persistence of the excitation condition, one can use probe noises with low variance, which is desirable in real-world applications. Q-learning é um método de aprendizagem por reforço (RL - reinforcement learning), livre de modelo, que é usado para resolver o problema de controle ótimo baseado na aprendiza- gem da função valor de ação (ou função Q). A maneira usual de aprender a função valor de ação é resolver uma equação de Bellman. Nesta tese, para resolver a equação de Bell- man no problema de controle ótimo LQR, um algoritmo de filtragem adaptativa baseado no algoritmo de mínimo quadrado médio normalizado (NLMS - normalized least-mean- squares) é usado ao invés do algoritmo de mínimos quadrados recursivos (RLS - recursive least-squares). Um requerimento geral para obter convergência em algoritmos de filtragem adaptativa é a condição de persistência de excitação. A persistência de excitação é uma condição imposta de maneira que a matriz formada pelos vetores de regressores tenha to- das as colunas linearmente independentes. No contexto de controle ótimo via Q-learning, a persistência de excitação é obtida adicionando um ruído de prova na ação de controle. O ruído de prova afeta os estados do sistema real e pode afetar o desempenho do filtro adaptativo na solução da equação de Bellman. Neste trabalho, realiza-se um estudo sobre o efeito do ruído de prova baseado nas matrizes de covariância dos estados e entradas de controle do sistema, onde uma fórmula fechada e propriedades de convergência de ditas matrizes são obtidas. Além disso, verifica-se através de experimentos numéricos que o algoritmo NLMS apresenta desempenho superior quando comparado ao algoritmo RLS, nos casos em que o ruído de prova tem pequena variância. O uso do algoritmo NLMS em nossa abordagem apresenta duas vantagens: a primeira, o algoritmo NLMS apresenta me- nor complexidade computacional quando comparado ao algoritmo RLS; a segunda, para obter a persistência da condição de excitação, pode-se usar ruídos de prova com baixa variância, o que é desejável em aplicações do mundo real.
Databáze: OpenAIRE