Data-driven 3D reasoning for augmented reality

Autor:	Garon, Mathieu
Jazyk:	francouzština
Rok vydání:	2022
Předmět:	Réalité augmentée. Imagerie tridimensionnelle.
Druh dokumentu:	Texte::Thèse::Thèse de doctorat
Popis:	La réalité augmentée (RA) est un paradigme informatique non conventionnel dans lequel l'utilisateur interagit naturellement avec des ordinateurs en visualisant des informations en 3D et en interagissant physiquement avec du contenu virtuel. L'insertion de contenu 3D dans l'environnement nécessite que l'appareil informatique mesure le monde qui nous entoure. Les capteurs sont cependant physiquement limités et renvoient des informations brutes incomplètes ou complexes. Distiller ces données en concepts plus abstraits est donc nécessaire pour permettre de raisonner sur des concepts tels que la géométrie ou l'interaction de la lumière avec la scène. Dans cette thèse, nous explorons une question critique dans le contexte de la RA : comment les caméras de qualité grand public et les approches basées sur les données peuvent-elles être combinées pour parvenir à un raisonnement 3D du monde pour les problèmes fondamentaux de la RA ? Nous répondons à cette affirmation en nous concentrant sur trois objectifs importants couramment rencontrés dans la plupart des applications de réalité augmentée. Tout d'abord, nous estimons une pose 3D robuste de diverses instances d'objets dans des séquences temporelles à l'aide d'une seule caméra RGB-D. Notre nouvelle méthode d'apprentissage par réseaux profond permet une estimation robuste et précise de la pose malgré la présence d'occlusion. De plus, nous améliorons la stratégie d'évaluation de suiveurs d'objets en six degrées de libertés avec une méthodologie méticuleuse et un nouvel ensemble de données. Nous démontrons que l'utilisation du système de coordonnées de l'objet estimé nous permet d'éffectuer le rendu de contenu virtuel sur des objets inanimés. Deuxièmement, nous détectons les articulations du haut du corps en 3D à l'aide d'un casque de réalité virtuelle muni de plusieurs caméras pour améliorer les interactions entre le contenu humain et virtuel. Notre méthode tire partie des multiples caméras à large champ de vision sur l'appareil pour estimer une position 3D précise des articulations du corps de l'utilisateur. L'architecture du réseau neuronal utilise explicitement la géométrie projective de chaque caméra pour estimer les caractéristiques 3D pouvant être utilisées lors de la régression des positions des différentes articulations ainsi que d'autres tâches telles que la segmentation du corps. Nos expériences démontrent que l'utilisation de sources de supervision faibles améliore la précision du suiveur tout en permettant de collecter des données qui ne contiennent pas de position d'articulation 3D en vérité terrain. Enfin, nous proposons une méthode pour raisonner sur des conditions de lumière variant dans l'espace à partir d'une seule image couleur. Estimer uniquement l'éclairage global n'est pas précis lorsque les sources lumineuses sont proches du sujet et lorsque les objets de la scène occultent les sources lumineuses, un scénario courant dans les scènes d'intérieur. Notre méthode prend une image couleur et une coordonnée d'image 2D comme entrée pour estimer une représentation harmonique sphérique de la lumière à ce point de la scène. Nous montrons que les prédictions sont cohérentes avec les sources de lumière 3D et l'occlusion. La méthode est également une solution en temps réel en utilisant une architecture légère et des harmoniques sphériques pour effectuer des rendus rapidement. Chacun de ces objectifs est soutenu par des expériences approfondies et des analyses de résultats et, espérons-le, aide à combler le fossé vers de meilleures expériences utilisateur en RA. Augmented Reality (AR) is an unconventional computing paradigm where the user interacts naturally with machines by visualizing information in 3D and physically interacting with virtual content. Inserting 3D content in the environment requires the computing device to measure the world surrounding us. Sensors are however physically limited and return incomplete or complex raw information. Distilling this data in more abstract concepts is thus mandatory to allow reasoning about numerous concepts such as geometry or light interaction with the scene. In this thesis, we explore a critical question in the context of AR: how consumer grade cameras and data-driven approaches can be combined to achieve 3D reasoning of the world for fundamental AR problems? We address this statement by focusing on three important objectives commonly encountered in most augmented reality applications. First, we estimate a robust 3D pose of various object instances in temporal sequences using a single RGB-D camera. Our novel deep learning framework allows robust and accurate pose estimation despite the presence of occlusion. We further improve the evaluation strategy of 6 DOF object trackers with a meticulous methodology and challenging new dataset. We demonstrate that using the estimated object reference allows us to render virtual content over inanimate objects. Second, we detect the upper body joints in 3D using an off-the-shelf head mounted display (HMD) to improve human and virtual content interactions. Our method takes advantage of the multiple wide field of view cameras on the HMD to estimate an accurate 3D position of the user body joints. The neural network architecture explicitly uses the projective geometry of each cameras to estimate 3D features that can be used to regress the joint position and other tasks such as body segmentation. Our experiments demonstrate that using weak sources of supervision enhance the accuracy of the tracker while allowing to gather data that does not contain ground truth 3D joint position. Finally, we propose a method to reason about spatially-varying light conditions from a single RGB image. Estimating only global lighting does not provide accurate illumination when light sources are near the subject and when objects in the scene occlude the light sources, a common scenario in indoor scenes. Our method takes an RGB image and 2D image coordinate as input to estimate a spherical harmonic representation of light at that point in the scene. We show that the predictions are consistent with 3D light sources and occlusion. The method is also a real-time solution for the full render pipeline by using a lightweight architecture and spherical harmonics. Each of these objectives is supported by extensive experiments and result analyzes and hopefully help closing the gap to better AR experiences.
Databáze:	Networked Digital Library of Theses & Dissertations
Externí odkaz:	http://hdl.handle.net/20.500.11794/100243 Zobrazit plný text záznamu