Designing Deep Architectures for Visual Understanding
Autor: | Mordan, Taylor |
---|---|
Přispěvatelé: | Machine Learning and Information Access (MLIA), LIP6, Sorbonne Université (SU)-Centre National de la Recherche Scientifique (CNRS)-Sorbonne Université (SU)-Centre National de la Recherche Scientifique (CNRS), Thales LAS France, Sorbonne Université, Matthieu Cord, Nicolas Thome, EDITE |
Jazyk: | angličtina |
Rok vydání: | 2018 |
Předmět: |
Apprentissage profond
Multitask learning Weakly supervised learning Object detection [INFO.INFO-CV]Computer Science [cs]/Computer Vision and Pattern Recognition [cs.CV] Deep learning Représentations par parties [INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] Apprentissage multi-tâche [INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG] Vision par ordinateur Détection d'objets Computer vision Apprentissage multitâche Apprentissage faiblement supervisé |
Zdroj: | Computer Vision and Pattern Recognition [cs.CV]. Sorbonne Université, 2018. English. ⟨NNT : 2018SORUS270⟩ Computer Vision and Pattern Recognition [cs.CV]. EDITE, 2018. English |
Popis: | Nowadays, images are ubiquitous through the use of smartphones and social media. It then becomes necessary to have automatic means of processing them, in order to analyze and interpret the large amount of available data. In this thesis, we are interested in object detection, i.e. the problem of identifying and localizing all objects present in an image. This can be seen as a first step toward a complete visual understanding of scenes. It is tackled with deep convolutional neural networks, under the Deep Learning paradigm.One drawback of this approach is the need for numerous labeled data to learn from. Since precise annotations are time-consuming to produce, we first rely on bigger datasets built with cheaper image-level labels. We design a global pooling function to work with them and to recover latent information about spatial localization of objects. We then deal with usual object-level annotations and introduce several new modules to learn part-based representations. By being more flexible than standard bounding boxes and exploiting latent object structure, they yield finer descriptions. We address the issue of efficiency in end-to-end learning both of these latent representations by leveraging fully convolutional networks. Besides, exploiting additional annotations on available images can be an alternative to having more images, especially when these are difficult to obtain. We formalize this problem as a specific kind of multi-task learning with a primary objective to focus on, and design a way to effectively learn from this auxiliary supervision under this framework. All models are thoroughly experimentally evaluated on standard datasets and achieve competitive results with the literature.; Aujourd’hui, les images sont omniprésentes à travers les smartphones et les réseaux sociaux. Il devient alors nécessaire d’avoir des moyens de traitement automatiques, afin d’analyser et d’interpréter les grandes quantités de données disponibles. Dans cette thèse, nous nous intéressons à la détection d’objets, i.e. au problème d’identification et de localisation de tous les objets présents dans une image. Cela peut être vu comme une première étape vers une interprétation complète des scènes. Nous l’abordons avec des réseaux de neurones convolutionnels, sous le paradigme de l’apprentissage profond.Un inconvénient de cette approche est le besoin de nombreuses données annotées pour l’apprentissage. Puisque les annotations précises sont longues à produire, nous utilisons d’abord des jeux de données plus gros construits à l’aide d’annotations au niveau de l’image, moins coûteuses à obtenir. Nous concevons une fonction d’agrégation globale pour travailler avec celles-ci et retrouver l’information latente sur la localisation spatiale des objets. Nous travaillons ensuite avec les annotations habituelles au niveau des objets, et introduisons plusieurs nouveaux modules pour apprendre des représentations par parties. En étant plus flexibles que les boîtes englobantes standards et en exploitant la structure latente des objets, elles donnent des descriptions plus précises. Nous traitons la question de l’efficacité dans l’apprentissage de bout en bout de ces deux types de représentation latente en tirant parti de réseaux complètement convolutionnels. En outre, l’exploitation d’annotations supplémentaires sur les images disponibles peut être une alternative à l’obtention de plus d’images, particulièrement quand celles-ci sont difficiles à acquérir. Nous formalisons ce problème comme un apprentissage multi-tâche spécifique avec un objectif primaire, et concevons une méthode pour apprendre à partir de cette supervision auxiliaire. Tous les modèles sont expérimentalement évalués sur des jeux de données standards et obtiennent des résultats compétitifs avec ceux de la littérature. |
Databáze: | OpenAIRE |
Externí odkaz: |