Indoor Scene Understanding using Non-Conventional Cameras

Autor: Fernandez-Labrador, Clara
Přispěvatelé: Imagerie et Vision Artificielle [Dijon] (ImViA), Université de Bourgogne (UB), Université Bourgogne Franche-Comté, Universidad de Zaragoza (Espagne), Cédric Demonceaux, Josechu Guerrero, STAR, ABES, Equipe VIBOT - VIsion pour la roBOTique [ImViA EA7535 - ERL CNRS 6000] (VIBOT), Centre National de la Recherche Scientifique (CNRS)-Imagerie et Vision Artificielle [Dijon] (ImViA), Université de Bourgogne (UB)-Université de Bourgogne (UB), Université de Bourgogne Franche-Comté (COMUE) (UBFC), FRA., Universidad Zaragoza (Spain), Cédric Demonceaux, José Josechu Guerrero
Jazyk: angličtina
Rok vydání: 2020
Předmět:
Zdroj: Image Processing [eess.IV]. Université Bourgogne Franche-Comté; Universidad de Zaragoza (Espagne), 2020. English. ⟨NNT : 2020UBFCK037⟩
Artificial Intelligence [cs.AI]. Université de Bourgogne Franche-Comté (COMUE) (UBFC), FRA.; Universidad Zaragoza (Spain), 2020. English
Popis: Humans understand environments effortlessly, under a wide variety of conditions, by the virtue of visual perception. Computer vision for similar visual understanding is highly desirable, so that machines can perform complex tasks by interacting with the real world, to assist or entertain humans. In this regard, we are particularly interested in indoor environments, where humans spend nearly all their lifetime.This thesis specifically addresses the problems that arise during the quest of the hierarchical visual understanding of indoor scenes.On the side of sensing the wide 3D world, we propose to use non-conventional cameras, namely 360º imaging and 3D sensors. On the side of understanding, we aim at three key aspects: room layout estimation; object detection, localization and segmentation; and object category shape modeling, for which novel and efficient solutions are provided.The focus of this thesis is on the following underlying challenges. First, the estimation of the 3D room layout from a single 360º image is investigated, which is used for the highest level of scene modelling and understanding. We exploit the assumption of Manhattan World and deep learning techniques to propose models that handle invisible parts of the room on the image, generalizing to more complex layouts. At the same time, new methods to work with 360º images are proposed, highlighting a special convolution that compensates the equirectangular image distortions.Second, considering the importance of context for scene understanding, we study the problem of object localization and segmentation, adapting the problem to leverage 360º images. We also exploit layout-objects interaction to lift detected 2D objects into the 3D room model.The final line of work of this thesis focuses on 3D object shape analysis. We use an explicit modelling of non-rigidity and a high-level notion of object symmetry to learn, in an unsupervised manner, 3D keypoints that are order-wise correspondent as well as geometrically and semantically consistent across objects in a category.Our models advance state-of-the-art on the aforementioned tasks, when each evaluated on respective reference benchmarks.
Les humains sont en mesure d’interpréter l’environnement qui les entourent avec peu d’effort grâce à système visuel très performant. Par analogie, un système de vision capable de recueillir les mêmes informations sur l’environnement est hautement souhaitable en robotique autonome pour effectuer des tâches complexes et ainsi interagir avec les humains.À cet égard, nous nous sommes particulièrement intéressés aux environnements intérieurs, dans lesquels les humains passent presque toute leur vie. Dans ce travail, pour faire une analyse efficace et rapide des scènes, nous avons opté pour l’utilisation de caméras non conventionnelles : l’imagerie 360° et les capteurs 3D. Ces systèmes ont la particularité d’acquérir en une seule prise de vue soit la totalité de l’environnement qui entoure le robot (caméras 360°) soit l’information 3D.C’est ainsi que cette thèse aborde les problèmes de description hiérarchique d’une scène d’intérieur avec des capteurs non conventionnels allant de l’estimation de la disposition des pièces ; de la détection et la localisation des objets à la modélisation de la forme des objets 3D.Ces différents points font l’objet de contribution dans ce travail. Dans un premier temps, nous nous sommes intéressés à l'estimation de la disposition 3D de la pièce à partir d'une seule image à 360°. Pour ce faire, nous exploitons l'hypothèse de Manhattan World et les techniques d'apprentissage profond pour proposer des modèles qui gèrent les parties occultées de la pièce sur l'image. A vu de la particularité des images considérées, nous avons développé de nouveaux filtres de convolution d’image tenant compte des fortes distorsions des images équirectangulaires.Par la suite, et dans l’objectif de permettre au robot de faire une analyse contextuelle de hauts niveaux de la scène qui l’entoure, nous nous sommes intéressés au problème de la localisation et de la segmentation des objets. C’est ainsi que nous avons une nouvelle fois exploité les images 360° en tenant compte de la disposition des objets 2D dans l’image dans le but de les décrire par leur modèle 3D en adéquation avec la disposition de la pièce préalablement estimée.La dernière contribution de ce travail tire parti des capteurs 3D pour étudier la forme des objets. Dans ce cadre, nous utilisons une modélisation explicite de la non-rigidité de objets et caractérisons leurs symétries afin de détecter, par un apprentissage profond non supervisé, ces points d’intérêt 3D.Toutes ces contributions nous ont permis de faire progresser l’état de l’art sur les problèmes posés et ont toutes fait l’objet d’évaluation sur des bases de données de référence dans notre communauté
Databáze: OpenAIRE