Aprenentatge profund per reforç aplicat al control automàtic de la locomoció de robots bípedes simplificats en entorns simulats

Autor: Castaño Ribes, Rafel
Přispěvatelé: Ventura Royo, Carles, Kanaan Izquierdo, Samir
Rok vydání: 2021
Předmět:
Zdroj: O2, repositorio institucional de la UOC
Universitat Oberta de Catalunya (UOC)
Popis: CONTEXT: L'objecte d'estudi d'aquest Treball Final de Màster és el control autònom de la locomoció bípeda (biped locomotion) mitjançant la intel·ligència artificial. FINALITAT: Conèixer l'estat de l'art d'aquest camp d'estudi i implementar una solució moderna a aquest problema en un entorn simplificat i simulat per programari. METODOLOGIA: 1) Es descriu amb detall el problema i es relaciona amb la disciplina de l'Aprenentatge (Profund) per Reforç ((Deep) Reinforcement Learning). 2) S'analitzen els fonaments teòrics d'aquesta disciplina i els principals mètodes d'aplicació al problema en qüestió. 3) S'analitza la plataforma OpenAI Gym i els entorns que ofereix; s'accepta com a plataforma sobre la qual desenvolupar el producte. 4) S'analitzen diferents biblioteques disponibles per a DRL i se n'escull una (la TF-Agents). 5) S'escull l'algorisme a implementar (l'algorisme NAF), i es dissenya el producte a desenvolupar. El disseny inclou un conjunt d'eines necessàries per al seu funcionament. Així mateix, es desenvolupa un wrapper per compactar sèries d'observacions de l'entorn, a l'estil de Mnih et al. (2015) amb les DQN contra Atari. 6) S'implementa el producte en Python. RESULTATS: 1) El wrapper implementat té un efecte positiu sobre l'aprenentatge dels agents. 2) L'agent desenvolupat funciona correctament i és capaç de resoldre el problema quan es combina amb el wrapper implementat. CONCLUSIONS: * El DRL és una disciplina complexa, especialment quan l'espai d'accions del problema és continu. * S'ha pogut aproximar una solució al problema mitjançant DRL. * La biblioteca TF-Agents, malgrat en desenvolupament, ha estat molt útil per aprofundir en el coneixement del DRL i llurs components. CONTEXT: The subject of this Master's Thesis is the autonomous control of biped locomotion by means of artificial intelligence. PURPOSE: To know the state of the art of this field and to implement a modern solution to this problem in a simplified software-simulated environment. METHODOLOGY: 1) The problem is described in detail and related to the (Deep) Reinforcement Learning (DRL) field. 2) Theoretical foundations of DRL and its main methods applicable are analyzed. 3) The OpenAI Gym platform and its environments are analyzed; They are accepted as the platform on which to develop the product. 4) Different libraries available for DRL are analyzed and one is chosen (the TF-Agents library). 5) The algorithm to be implemented is chosen (the NAF algorithm), and the product to be developed is designed. The design includes a set of tools needed for its operation. A wrapper is also developed to compact series of observations of the environment, based on Mnih et al. (2015) in their DQN vs Atari experiment. 6) The designed product is implemented in Python. RESULTS: 1) The implemented wrapper has a positive effect on the learning of the agents. 2) The developed agent works properly and is able to solve the problem when combined with the wrapper. CONCLUSIONS: * DRL is a complex discipline, especially when the action space of the problem is continuous. * The problem can be approximatedly solved using DRL. * The TF-Agents library, although under development, has been very useful in deepening in the knowledge of DRL and its components. CONTEXTO: El objeto de estudio de este Trabajo Final de Máster es el control autónomo de la locomoción bípeda (BIPED Locomotion) mediante la inteligencia artificial. FINALIDAD: Conocer el estado del arte de este campo de estudio e implementar una solución moderna a este problema en un entorno simplificado y simulado por software. METODOLOGÍA: 1) Se describe con detalle el problema y se relaciona con la disciplina del Aprendizaje (Profundo) para Refuerzo ((Deep) Reinforcement Learning). 2) Se analizan los fundamentos teóricos de esta disciplina y los principales métodos de aplicación al problema en cuestión. 3) Se analiza la plataforma Openair Gym y los entornos que ofrece; se acepta como plataforma sobre la que desarrollar el producto. 4) Se analizan diferentes bibliotecas disponibles para DRL y se escoge una (la TF-Agentes). 5) Se escoge el algoritmo a implementar (el algoritmo NAF), y se diseña el producto a desarrollar. El diseño incluye un conjunto de herramientas necesarias para su funcionamiento. Asimismo, se desarrolla un wrapper para compactar series de observaciones del entorno, al estilo de Mnih et al. (2015) con las DQN contra Atari. 6) Se implementa el producto en Python. RESULTADOS: 1) El wrapper implementado tiene un efecto positivo sobre el aprendizaje de los agentes. 2) El agente desarrollado funciona correctamente y es capaz de resolver el problema cuando se combina con el wrapper implementado. CONCLUSIONES: * El DRL es una disciplina compleja, especialmente cuando el espacio de acciones del problema es continuo. * Se ha podido aproximar una solución al problema mediante DRL. * La biblioteca TF-Agentes, a pesar en desarrollo, ha sido muy útil para profundizar en el conocimiento del DRL y sus componentes.
Databáze: OpenAIRE