Robots capaces de aprender y adaptarse al entorno a partir de sus propias experiencias

Autor:	Quintía Vidal, Pablo
Rok vydání:	2013
Předmět:	Aprendizaje por refuerzo Aprendizaje por experiencia Robótica Aprendizaje perceptual Adaptación en robots
Zdroj:	Minerva. Repositorio Institucional de la Universidad de Santiago de Compostela instname
Popis:	Entre los objetivos reconocidos en la robótica actual destaca la necesidad de disponer de robots adaptables, capaces de aprender del usuario y de la propia experiencia. Esta adaptación se debe extender a todo el tiempo de vida del robot, los errores y aciertos del robot deben permitir que éste pueda modificar su comportamiento futuro. En este sentido, el paradigma de aprendizaje por refuerzo resulta muy prometedor en la medida en que permite que un robot aprenda sin más información que un refuerzo extrínseco que indica cuando las acciones realizadas son correctas o no. Los algoritmos tradicionales de aprendizaje por refuerzo se limitan a comportamientos reactivos simples y rara vez se aplican al aprendizaje directo en robots moviéndose en entornos reales. De hecho, el aprendizaje por refuerzo suele ser lento y requerir un proceso de exploración costoso. Por otra parte, el tiempo de aprendizaje se incrementa de forma exponencial con el número de estados (situaciones significativamente diferentes) que puede encontrar el robot. Con el objetivo de superar estas limitaciones en esta tesis se abordaron cuatro grandes objetivos: a) Algoritmos más interpretables y con menos parámetros: los algoritmos clásicos de aprendizaje por refuerzo intentan predecir el refuerzo futuro que el robot va a recibir. Esta información es difícilmente interpretable, lo que hace difícil corroborar si el proceso de aprendizaje se está llevando a cabo de forma correcta. Se ha desarrollado un nuevo algoritmo, llamado I_Tbf, capaz de aprender a predecir “cuándo el robot va a cometer un fallo”. La discrepancia entre lo que el sistema predice y lo que realmente sucede nos permite detectar problemas y corregirlos durante el propio proceso de aprendizaje. Las ventajas obtenidas con este algoritmo son: buenos tiempos de aprendizaje, un reducido número de parámetros y mayor interpretabilidad del proceso de aprendizaje. b) Aprendizaje simultáneo de percepción y acción: hemos creado un sistema capaz de aprender al mismo tiempo el espacio de estados y la acción a ejecutar en cada uno de estos estados. Partiendo de nuestro algoritmo I_Tbf, el sistema itera la política de control tratando de maximizar el tiempo a fallo. El espacio de estados se crea de forma dinámica: partiendo de un conjunto vacío se añaden nuevos estados a medida que el robot encuentra nuevas situaciones que no ha visto antes. La creación dinámica del espacio de estados evita el proceso de creación y evaluación de representaciones de estados ad hoc. Para lograr la generación dinámica de estados hemos recurrido a la Teoría de Resonancia Adaptativa (ART) adaptándola a nuestro problema. c) Reducción del tiempo de aprendizaje a través de la creación de comités de aprendedores: para acelerar los procesos de aprendizaje resulta conveniente recurrir a estrategias habituales en el campo de las redes neuronales artificiales dirigidas a evitar el “sobre-aprendizaje” y la falta de generalización. Por este motivo, el uso de comités de “aprendedores” que, mediante diferentes estrategias de voto ponderado, son capaces de seleccionar la acción que debe ejecutar el robot en cada instante, permiten acelerar el proceso de aprendizaje mientras se mantiene una buena generalización. Gracias al incremento de estabilidad proporcionado por el comité, se puede introducir el concepto de aprendizaje continuo, donde el sistema es capaz de aprender durante todo el ciclo de vida del robot, sin que el comportamiento sufra grandes inestabilidades. Se han realizado pruebas donde la señal de refuerzo era proporcionada por un usuario humano. Pese a que dicha señal tenía una gran componente no determinista, gracias a la estabilidad proporcionada por el comité de aprendedores el sistema es capaz de alcanzar la convergencia en pocos minutos. d) Determinación de la relevancia sensorial: muchas de las entradas sensoriales proporcionadas por los modernos sensores de alta resolución son irrelevantes para la tarea que el robot está intentando aprender. Estas dimensiones irrelevantes pueden provocar errores en las estrategias de clustering. Esto es algo conocido como la maldición de las dimensiones. En esta tesis se ha investigado el uso de criterios estadísticos basados en la teoría de la información, y la información mutua, para determinar, de forma dinámica, el subconjunto de sensores que es realmente relevante para lo que el robot quiere aprender. El uso de este subconjunto de sensores proporciona una reducción significativa del tiempo de aprendizaje, así como un aumento de la robustez de los comportamientos.
Databáze:	OpenAIRE
Externí odkaz:	https://explore.openaire.eu/search/publication?articleId=dedup_wf_001::99537f41889a68e0b42e801a26eec4a3 http://hdl.handle.net/10347/9271 Zobrazit plný text záznamu