Anti-slip control with an actor-critic reinforcement learning algorithm

Autor:	Drechsler, Maikol Funk
Přispěvatelé:	Universidade Federal de Santa Catarina, Fiorentin, Thiago Antonio, Göllinger, Harald
Jazyk:	angličtina
Rok vydání:	2019
Předmět:	Controladores eletrônicos Algorítmos Redes neurais (Computação) Engenharia mecânica Aprendizado do computador
Zdroj:	Repositório Institucional da UFSC Universidade Federal de Santa Catarina (UFSC) instacron:UFSC
Popis:	Dissertação (mestrado) - Universidade Federal de Santa Catarina, Campus Joinville, Programa de Pós-Graduação em Engenharia e Ciências Mecânicas, Joinville, 2019. A implementação de controladores eletrônicos no setor automotivo melhorou significativamente a segurança, conforto e consumo de combustível dos veículos. Contudo, com a chegada de novas tecnologias como veículos elétricos e autônomos a demanda por controladores aumentou, ampliando desafios ainda presentes como controladores para sistemas completamente não lineares, a necessidade de dados dificilmente medidos ou dificuldade de definir modelos que representam o ambiente. Para avaliar as possibilidades de superar algumas destas restrições a presente pesquisa implementa diferentes algoritmos baseados em Machine Learning com Ator-Crítico para controlar o escorregamento do pneu de um kart elétrico de tração traseira. O controlador baseado em Machine Learning aprende por benefícios e punições o melhor comportamento a seguir e duas redes neurais são implementadas para julgar e controlar o sistema sem a necessidade de modelá-lo. Dois tipos diferentes de processo de aprendizado foram avaliados, incluindo algoritmos de aprendizagem iterativa e direta. O algoritmo proposto chamado Directly Trained Network Actor-Critic (DTNAC) simplificou o processo de aprendizado, permitindo a coleta de dados do ambiente em uma única vez e a realização do treinamento em uma estação off-line. Ambos controladores, cíclico e proposto foram avaliados nos estados nos quais foram treinados e em ambientes com diferentes pisos e manobras. A necessidade de aplicar a velocidade do veículo como uma entrada do controlador também foi analisada. Os controladores sem a velocidade do veículo como um dado de entrada apresentaram mais sensibilidade à qualidade dos dados usados no treinamento, enquanto o algoritmo que leva a velocidade em consideração apresentou um comportamento mais robusto. Todos os controladores avaliados apresentaram adequado controle do veículo nos estados treinados, contudo algumas limitações ocorrem quando a direção do veículo é simulada em manobras não treinadas. O algoritmo DTNAC com a velocidade do veículo como um dado de entrada do controlador, apresentou uma aplicação próspera. Quando treinado em solos de gelo e asfalto seco, o controlador foi capaz de governar o veículo na neve e no asfalto molhado em diferentes manobras, apresentando sucesso no controle de sistemas não-lineares sem a necessidade de modelar o sistema. Nos casos onde estão disponíveis dados que representem todos os estados, a remoção da velocidade do veículo como uma entrada também pode ser aplicada para reduzir a quantidade de dados medidos. Abstract: The implementation of electronic controllers in the automotive sector significantly improved vehicle safety, comfort and fuel consumption. However, with new technologies as electric and autonomous driving, the demand by controllers increase significantly and some challenges are still present, as the controller of a completely non-linear system, the necessity of data hardly measured or difficulty to define models that represent the environment. To evaluate the possibility of overcoming some of these restrictions, the present research implemented different Reinforcement Learning Actor-Critic algorithms to control the wheel slip of a rear traction electrical go-kart. These Machine Learning based controllers learn by rewards and punishments the best behaviour to follow and two deep networks are implemented to judge and control the system without the necessity of environment modelling. Two different types of learning process were evaluated, including iterative and direct learning algorithms. The proposed Directly Trained Network Actor-Critic (DTNAC) simplifies the learning process and permits to collect data from the environment a single time, realizing the training process in an off-line station. Both cyclic and proposal controllers were evaluated on the trained states and in distinct environments as varied grounds and maneuvres. The necessity of the vehicle velocity as an input of the controller was also analyzed. The controllers without the vehicle velocity as an input showed more sensibility to the training data quality, while the algorithm that took the vehicle velocity into account had more robust behaviours. All the evaluated controllers presented an adequate control of the vehicle on the trained states, however, some limitation occurs when the vehicle driving is simulated on non-trained manoeuvres. The DTNAC algorithm with vehicle velocity presents itself as a prosperous application. When trained in ice and dry-asphalt, the controller was able to deal with snow and wet asphalt floors in different manoeuvres showing success in non-linear conditions without the necessity of modelling the system. In cases where the data that represent all the possible states are available, the removal of the vehicle velocity also can be applied to reduce the number of measured variables.
Databáze:	OpenAIRE
Externí odkaz:	https://explore.openaire.eu/search/publication?articleId=od______3056::dfced346f8c61c6813abef1dda4d86b5 https://repositorio.ufsc.br/handle/123456789/220051 Zobrazit plný text záznamu