Meta-reinforcement learning for adaptive control

Autor: Jaafra, Yesmina
Přispěvatelé: Laboratoire des sciences de l'ingénieur, de l'informatique et de l'imagerie (ICube), École Nationale du Génie de l'Eau et de l'Environnement de Strasbourg (ENGEES)-Université de Strasbourg (UNISTRA)-Institut National des Sciences Appliquées - Strasbourg (INSA Strasbourg), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Institut National de Recherche en Informatique et en Automatique (Inria)-Les Hôpitaux Universitaires de Strasbourg (HUS)-Centre National de la Recherche Scientifique (CNRS)-Matériaux et Nanosciences Grand-Est (MNGE), Université de Strasbourg (UNISTRA)-Université de Haute-Alsace (UHA) Mulhouse - Colmar (Université de Haute-Alsace (UHA))-Institut National de la Santé et de la Recherche Médicale (INSERM)-Institut de Chimie du CNRS (INC)-Centre National de la Recherche Scientifique (CNRS)-Université de Strasbourg (UNISTRA)-Université de Haute-Alsace (UHA) Mulhouse - Colmar (Université de Haute-Alsace (UHA))-Institut National de la Santé et de la Recherche Médicale (INSERM)-Institut de Chimie du CNRS (INC)-Centre National de la Recherche Scientifique (CNRS)-Réseau nanophotonique et optique, Université de Strasbourg (UNISTRA)-Université de Haute-Alsace (UHA) Mulhouse - Colmar (Université de Haute-Alsace (UHA))-Centre National de la Recherche Scientifique (CNRS)-Université de Strasbourg (UNISTRA)-Centre National de la Recherche Scientifique (CNRS), Université de Strasbourg, Université de la Manouba (Tunisie), Aline Deruyver, Mohamed Sabeur Naceur, Institut National des Sciences Appliquées - Strasbourg (INSA Strasbourg), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Strasbourg (UNISTRA)-Centre National de la Recherche Scientifique (CNRS)-École Nationale du Génie de l'Eau et de l'Environnement de Strasbourg (ENGEES)-Réseau nanophotonique et optique, Centre National de la Recherche Scientifique (CNRS)-Université de Strasbourg (UNISTRA)-Université de Haute-Alsace (UHA) Mulhouse - Colmar (Université de Haute-Alsace (UHA))-Centre National de la Recherche Scientifique (CNRS)-Université de Strasbourg (UNISTRA)-Université de Haute-Alsace (UHA) Mulhouse - Colmar (Université de Haute-Alsace (UHA))-Matériaux et nanosciences d'Alsace (FMNGE), Institut de Chimie du CNRS (INC)-Université de Strasbourg (UNISTRA)-Université de Haute-Alsace (UHA) Mulhouse - Colmar (Université de Haute-Alsace (UHA))-Institut National de la Santé et de la Recherche Médicale (INSERM)-Centre National de la Recherche Scientifique (CNRS)-Institut de Chimie du CNRS (INC)-Université de Strasbourg (UNISTRA)-Institut National de la Santé et de la Recherche Médicale (INSERM)-Centre National de la Recherche Scientifique (CNRS)
Jazyk: francouzština
Rok vydání: 2020
Předmět:
Zdroj: Apprentissage [cs.LG]. Université de Strasbourg; Université de la Manouba (Tunisie), 2020. Français. ⟨NNT : 2020STRAD011⟩
Popis: With the advent of deep learning supported by substantial technological advances, the Artificial Intelligence has taken a decisive step towards the automation of large dimension tasks. Reinforcement learning has been revolutionized thanks to new representation concepts introduced by deep learning. However, the extension of this paradigm application to the real world has triggered new challenges of generalization and optimization associated with higher level of tasks non-stationarity. In this thesis, we are interested in the recent methodological evolution of machine learning towards meta-learning in order to remedy the deep learning limits. The proposed approach is built on the basis of a Markovian formulation gradually evolving along 2 axes of improvement. In terms of learning robustness, we integrate in the policy gradient expression, the advantage function estimated by a generalized version of temporal difference learning. Regarding the generalization capacity, we implement a gradient meta-optimizer, learning the evaluations of the base-level algorithm across tasks. The resulting generalizable model showed a rapid adaptation to new contexts of urban autonomous driving.; Avec l'avènement de l'apprentissage profond, l'intelligence artificielle a franchi un pas décisif vers l'automatisation des tâches de grande dimensionnalité. L'apprentissage par renforcement a été révolutionné grâce aux nouveaux concepts de représentation profonde. Toutefois, l'extension de l'application de ce paradigme vers la sphère du monde réel a engendré des nouveaux défis de généralisation et d'optimisation face à la non-stationnarité des tâches. Dans cette thèse, nous nous intéressons à l'évolution méthodologique récente de l'apprentissage automatique vers le méta-apprentissage afin de remédier aux limites de l'apprentissage profond. L'approche proposée est construite sur la base d'une formulation Markovienne évoluant graduellement selon 2 axes d'amélioration. Au niveau de la robustesse de l'apprentissage, nous intégrons dans l'expression du gradient de la politique la fonction avantage estimée par une version généralisée de l'apprentissage par différence temporelle. Concernant la capacité de généralisation, nous implémentons un méta-optimiseur de type gradient apprenant les évaluations de l'algorithme de base à travers les tâches. Le modèle généralisable obtenu a montré une adaptation rapide aux nouveaux contextes de conduite autonome en milieu urbain.
Databáze: OpenAIRE
Popis
Abstrakt:With the advent of deep learning supported by substantial technological advances, the Artificial Intelligence has taken a decisive step towards the automation of large dimension tasks. Reinforcement learning has been revolutionized thanks to new representation concepts introduced by deep learning. However, the extension of this paradigm application to the real world has triggered new challenges of generalization and optimization associated with higher level of tasks non-stationarity. In this thesis, we are interested in the recent methodological evolution of machine learning towards meta-learning in order to remedy the deep learning limits. The proposed approach is built on the basis of a Markovian formulation gradually evolving along 2 axes of improvement. In terms of learning robustness, we integrate in the policy gradient expression, the advantage function estimated by a generalized version of temporal difference learning. Regarding the generalization capacity, we implement a gradient meta-optimizer, learning the evaluations of the base-level algorithm across tasks. The resulting generalizable model showed a rapid adaptation to new contexts of urban autonomous driving.; Avec l'avènement de l'apprentissage profond, l'intelligence artificielle a franchi un pas décisif vers l'automatisation des tâches de grande dimensionnalité. L'apprentissage par renforcement a été révolutionné grâce aux nouveaux concepts de représentation profonde. Toutefois, l'extension de l'application de ce paradigme vers la sphère du monde réel a engendré des nouveaux défis de généralisation et d'optimisation face à la non-stationnarité des tâches. Dans cette thèse, nous nous intéressons à l'évolution méthodologique récente de l'apprentissage automatique vers le méta-apprentissage afin de remédier aux limites de l'apprentissage profond. L'approche proposée est construite sur la base d'une formulation Markovienne évoluant graduellement selon 2 axes d'amélioration. Au niveau de la robustesse de l'apprentissage, nous intégrons dans l'expression du gradient de la politique la fonction avantage estimée par une version généralisée de l'apprentissage par différence temporelle. Concernant la capacité de généralisation, nous implémentons un méta-optimiseur de type gradient apprenant les évaluations de l'algorithme de base à travers les tâches. Le modèle généralisable obtenu a montré une adaptation rapide aux nouveaux contextes de conduite autonome en milieu urbain.