Modèles inspirés de la psychologie du développement pour le raisonnement physique et social dans le cadre de l'action jointe humain-robot

Autor: Sallami, Yoan
Přispěvatelé: Équipe Robotique et InteractionS (LAAS-RIS), Laboratoire d'analyse et d'architecture des systèmes (LAAS), Université Toulouse Capitole (UT Capitole), Université de Toulouse (UT)-Université de Toulouse (UT)-Institut National des Sciences Appliquées - Toulouse (INSA Toulouse), Institut National des Sciences Appliquées (INSA)-Université de Toulouse (UT)-Institut National des Sciences Appliquées (INSA)-Université Toulouse - Jean Jaurès (UT2J), Université de Toulouse (UT)-Université Toulouse III - Paul Sabatier (UT3), Université de Toulouse (UT)-Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique (Toulouse) (Toulouse INP), Université de Toulouse (UT)-Université Toulouse Capitole (UT Capitole), Université de Toulouse (UT), Université Paul Sabatier - Toulouse III, Rachid Alami, STAR, ABES
Jazyk: angličtina
Rok vydání: 2021
Předmět:
Zdroj: Robotics [cs.RO]. Université Paul Sabatier-Toulouse III, 2021. English. ⟨NNT : 2021TOU30102⟩
Popis: In order to perform a collaborative task with a person, a robot needs to be able to reason about the objects and the people it interacts with. Developmental psychology gives a good insight into how children develop models of the world, which can help to design new robotic architectures for efficient and robust human-robot interactions. In the first place, we present an architecture based on a hybrid data structure that combines geometric and relational information and neural representations. This architecture aims to benefit from recent progress in computer vision and natural language processing while enabling efficient 3D reasoning by building on top of that a consistent 3D model of the world, which allows image rendering from any point of view in the scene. Then we explore two key reasoning modalities in the context of a human-robot joint action: physical reasoning and belief reasoning. Physical reasoning allows the robot to use Newtonian physics to reason about objects that are not visible while monitoring what is physically plausible to infer actions. In this thesis, we present a work inspired by developmental psychology in which we use a physics simulator to correct the position of perceived objects and infer the position of non-visible objects using Newtonian physics. The algorithm is also able to infer the human partner's actions by analyzing physical violations between the simulated world and the perceived one. Beliefs reasoning is another key feature for robots that assist humans. At its core, this reasoning is based on visual perspective taking: the ability to reason from the point of view of another person. In this thesis, we also show the modularity of the approach by binding ontology-based reasoners and the situation-assessment component developed that allows visual perspective-taking. This interaction allows querying entities generated by the perceptual and physical system using SPARQL language. We show interest in this approach with preliminary work on using neural-based language models that benefit from the expressiveness of SPARQL queries. We conclude with a discussion about the system's limitations and we open to future work that could lead to exciting research in this field.
Dans le but de réaliser une tâche collaborative avec une personne, un robot a besoin de raisonner à propos des objets et des personnes qui l'entourent. La psychologie développementale donne de bons indices à propos de comment les enfants développent leurs modèles du monde, ce qui peut aider à concevoir de nouvelles architectures robotiques pour des interactions efficientes et robustes. Dans un premier temps nous présenterons une architecture basée sur une data-structure hybride qui combine informations géométriques et relationnelles avec des représentations neurales. Cette architecture a pour but de bénéficier des avancées récentes en vision artificielle et en traitement de la parole, tout en permettant un raisonnement 3D efficace en construisant un modèle 3D cohérent qui permet de calculer le rendu d'une image depuis n'importe quel point de la scène. Ensuite nous explorons deux modalités clés dans le contexte de l'action conjointe entre un humain et un robot: le raisonnement physique et le raisonnement sur les croyances. Le raisonnement physique permet au robot d'utiliser la physique Newtonienne dans le but de raisonner sur les objets hors du champ de vue, tout en analysant ce qui est physiquement plausible dans le but d'inférer des actions. Dans cette thèse nous présenterons un travail inspiré par la psychologie développementale dans lequel on se sert d'un simulateur physique pour inférer la position des objets qui sont hors du champ de vue du robot, permettant au robot de calculer des relations géométriques entre les objets. De plus l'algorithme présenté permet d'inférer les actions de l'humain en analysant la divergence entre le modèle physique et les informations de perception. Le raisonnement sur les croyances est une autre capacité clé pour pouvoir assister/aider des personnes. Ce raisonnement est basé sur la prise de perspective: la capacité de raisonner depuis le point de vue d'une autre personne. Dans cette thèse nous soulignons la modularité des structures de données utilisées en intégrant le système développé et des logiciels de raisonnement basé sur des ontologies. Cette intégration permet de faire des requêtes SPARQL à propos des entités générés par le système physique et perceptuel. La pertinence de cette synergie est ensuite discutée avec un travail préliminaire sur l'intégration de modèles de langage profonds utilisant l'expressivité du SPARQL.On conclut avec une discussion sur les limites du système et une ouverture sur des travaux futurs pouvant être intéressant pour la recherche dans ce domaine.
Databáze: OpenAIRE