Exploration de la connaissance de domaine et de la physique pour l'apprentissage de la translation d'image-à-image
Autor: | Pizzati, Fabio <1993> |
---|---|
Přispěvatelé: | Systèmes de transport automatisés et sécurisés (ASTRA), Inria de Paris, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-VALEO, Université Paris sciences et lettres, Università degli studi (Bologne, Italie), Raoul De Charette, de Charette, Raoul, Prati, Andrea |
Rok vydání: | 2023 |
Předmět: |
Few-shot learning
ING-INF/05 Sistemi di elaborazione delle informazioni Apprentissage en faible exemple Apprentissage guidé par la physique Physics-guided learning Vision and physics GAN Biais de domaine Translation d'image-à-image [INFO.INFO-RB]Computer Science [cs]/Robotics [cs.RO] Vision et physique Image-to-image translation Domain bias |
Zdroj: | Robotics [cs.RO]. Université Paris sciences et lettres; Università degli studi (Bologne, Italie), 2022. English. ⟨NNT : 2022UPSLM064⟩ |
DOI: | 10.48676/unibo/amsdottorato/10499 |
Popis: | Image-to-image (i2i) translation networks can generate fake images beneficial for many applications in augmented reality, computer graphics, and robotics. However, they require large-scale datasets and high contextual understanding to be trained correctly. In this thesis, we propose strategies for solving these problems, improving performances of i2i translation networks by using domain- or physics-related priors. The thesis is divided into two parts. In Part I, we exploit human abstraction capabilities to identify existing relationships in images, thus defining domains that can be leveraged to improve data usage efficiency. We use additional domain-related information to train networks on web-crawled data, hallucinate scenarios unseen during training, and perform few-shot learning. In part II, we instead rely on physics priors. First, we combine realistic physics-based rendering with generative networks to boost outputs realism and controllability. Then, we exploit naive physical guidance to drive a manifold reorganization, which allows generating continuous conditions such as timelapses.; Les réseaux de translation d'image à image (i2i) peuvent générer des images synthétiques utiles pour de multiples applications en réalité augmentée, infographie et robotique. Cependant, ils nécessitent des jeux de données à grande échelle et une compréhension contextuelle élevée pour être entraînés correctement. Dans cette thèse, nous proposons des stratégies pour résoudre ces problèmes, en améliorant les performances des réseaux de translation i2i en utilisant des a priori liés au domaine ou à la physique. La thèse est divisée en deux parties. Dans la partie I, nous exploitons les capacités d'abstraction humaines pour identifier les relations existantes dans les images, définissant ainsi des domaines qui peuvent être exploités pour améliorer l'efficacité de l'utilisation des données. Nous utilisons des informations supplémentaires liées au domaine pour entraîner des réseaux sur des données extraites sur le web, pour halluciner des scénarios non observés lors de l'entraînement et pour apprendre avec peu d'exemples. Dans la partie II, nous nous appuyons plutôt sur des a priori physiques. Tout d'abord, nous combinons un rendu réaliste basé sur la physique avec des réseaux génératifs afin de renforcer le réalisme et la contrôlabilité des sorties. Ensuite, nous exploitons un guidage physique naïf pour piloter une réorganisation du manifold, ce qui permet une translation continu par exemple, pour des timelapses. |
Databáze: | OpenAIRE |
Externí odkaz: |