Incremental Learning of Sensorimotor Rules in a Robot, from Motor Babbling to Tool-Use

Autor:	Braud, Raphaël
Přispěvatelé:	Equipes Traitement de l'Information et Systèmes (ETIS - UMR 8051), Ecole Nationale Supérieure de l'Electronique et de ses Applications (ENSEA)-Centre National de la Recherche Scientifique (CNRS)-CY Cergy Paris Université (CY), université de cergy-pontoise, philippe gaussier, alexandre pitti
Jazyk:	francouzština
Rok vydání:	2017
Předmět:	incremental learning tool-use Developmental robotics Robotique développementale utilisationd'outil apprentissage incrémental neural networks affordance [INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] [INFO.INFO-RB]Computer Science [cs]/Robotics [cs.RO] [PHYS.COND.CM-DS-NN]Physics [physics]/Condensed Matter [cond-mat]/Disordered Systems and Neural Networks [cond-mat.dis-nn] coordination sensorimotrice sensorimotor coordination réseau de neurones
Zdroj:	Robotique [cs.RO]. université de cergy-pontoise, 2017. Français
Popis:	Inspired by concepts found in developmental psychology, my work focuses on robotic learning through motor babbling in order to achieve low-level sensorimotor control and, subsequently, to progress to more high-level behaviours such as the use of tools. Tool-use raises several key issues related to the extension of the body schema and the ability to make sequences of actions. In this presentation I will discuss my research efforts in this area by presenting a model called "Dynamic Sensorimotor Model (DSM)". DSM learns sensorimotor laws by making predictions about sensory input variations, as a result of observing environmental phenomena and interacting with objects in the reaching space. Sensorimotor laws depend on; 1) motor magnitudes (e.g., motor commands in velocity) and 2) a given context (i.e., a sensory input vector). A predictor learns and refines sensorimotor laws either during the execution of a task or during a motor babbling phase. Learning laws is therefore independent of the execution of specific tasks and they can be exploited in both new contexts and/or for new tasks. DSM employs two mechanisms. First, a mechanism for motor simulations that considers the result of simulated motor inputs to determine appropriate motor commands to be performed towards a particular task. Second, a mechanism for context simulations that uses simulated sensory inputs in order to identify contexts that can potentially form sub-goals towards the completion of a task. The performance of the system is evaluated through a series of experiments conducted using both a simulated and a real robotic platform. The results demonstrate the ability of the system to complete reaching tasks and highlight its strength in making use of a nearby tool when the target is not within its reach. The ability to make sequences of actions on the fly is based on the accuracy of the contexts that the system gradually learns. The last part of my work focuses on improving the efficiency of making sequences of actions by offering the ability to categorize contexts based on the variations observed in the sensors with respect to the variation of the sensorimotor laws.; Ma thèse porte sur l'intégration développementale de différents systèmes d'apprentissage dans un robot, du babillage moteur à l'émergence de l'utilisation d'outils. L'utilisation d'outils recouvre de nombreuses problématiques, certaines bas niveau (comme l'extension du schéma corporel) et d'autres plus haut niveau (comme la capacité à faire une séquence d'actions). Nous avons pour cela proposé un modèle appelé Dynamic Sensorimotor Model (DSM). DSM apprend des lois sensorimotrices, qui consistent à prédire les variations sensorielles (comme le déplacement d'un objet dans l'espace visuel) en fonction : 1) De magnitudes motrices (comme des commandes en vitesse de servomoteurs). 2) D'un contexte donné (un vecteur de données sensorielles). Un tel prédicteur peut apprendre et affiner ses lois sensorimotrices dans n'importe quelle situation, que ce soit durant l'exécution d'une tâche ou durant une phase de babillage moteur. L'apprentissage de ces prédictions est donc indépendant de l'exécution de tâches particulières, et pourra être exploité dans de nouveaux contextes, et pour satisfaire de nouvelles tâches. Pour cela, DSM contient un mécanisme de simulation motrice mais aussi un mécanisme de simulation de contextes. Ces simulations portent ainsi sur : 1) Les entrées motrices, ce qui permet de déterminer les commandes motrices à effectuer en vue d'une tâche particulière. 2) Les entrées sensorielles, ce qui permet de proposer des contextes alternatifs au sein desquels les actions permettant la réalisation d'une tâche pourront être effectuées. Ces contextes alternatifs pourront alors se constituer en sous-buts permettant d'effectuer une séquence d'actions. Grâce à ces simulations, des expériences sur robot réel ont permis de satisfaire une tâche consistant à rejoindre une cible avec l'extrémité du bras, en faisant un détour pour saisir un outil. La saisie a comme propriété d'étendre le schéma corporel (le segment terminal du bras du robot). La capacité à faire des séquences à la volée repose sur les contextes qui auront été appris. Cela met en évidence l'importance d'avoir des contextes ne contenant que les données suffisantes à la prédiction, afin de générer, par le mécanisme de simulation, des sous-buts les plus minimaux possibles pour satisfaire un but donné. Notre modèle catégorise des lois additives afin de ne pas perturber les lois sensorimotrices précédemment apprises et ainsi apprendre des lois de manière incrémentale. Dans DSM, une nouvelle catégorie se caractérise par l'instauration d'une distance entre la configuration sensorielle correspondant au contexte actuel, dans lequel les lois courantes sont en échec, et le dernier contexte dans lequel ces lois s'appliquaient correctement. Cette distance entre contextes est donc multimodale, et indépendante de la topologie propre des senseurs d'entrée. Par contre, étant issue de deux situations à deux moments différents, cette distance dépend de l'exploration sensorimotrice du robot durant cet interval de temps. Pendant cette période, les senseurs qui auront suffisamment changés de valeurs apparaîtront comme discriminant un contexte par rapport à l'autre, bien qu'ils ne soient pas tous pertinents. Ce sera par l'action que les senseurs pertinents seront sélectionnés.
Databáze:	OpenAIRE
Externí odkaz:	https://explore.openaire.eu/search/publication?articleId=od_______212::dfdf741225ca68fcabb9d902151f1d78 https://hal.archives-ouvertes.fr/tel-01724183 Zobrazit plný text záznamu