Knowledge Integration into Neural Networks for the purposes of Rare Visual Relation Detection

Autor: Plesse, François
Přispěvatelé: Centre d'Enseignement et de Recherche en Mathématiques et Calcul Scientifique (CERMICS), École des Ponts ParisTech (ENPC), Université Paris-Est, Françoise Prêteux, Bertrand Delezoide, STAR, ABES
Jazyk: francouzština
Rok vydání: 2020
Předmět:
Zdroj: Apprentissage [cs.LG]. Université Paris-Est, 2020. Français. ⟨NNT : 2020PESC1003⟩
Popis: Data shared throughout the world has a major impact on the lives of billions of people. It is critical to be able to analyse this data automatically in order to measure and alter its impact. This analysis is tackled by training deep neural networks, which have reached competitive results in many domains. In this work, we focus on the understanding of daily life images, in particular on the interactions between objects and people that are visible in images, which we call visual relations.To complete this task, neural networks are trained in a supervised manner. This involves minimizing an objective function that quantifies how detected relations differ from annotated ones. Performance of these models thus depends on how widely and accurately annotations cover the space of visual relations.However, existing annotations are not sufficient to train neural networks to detect uncommon relations. Thus we integrate knowledge into neural networks during the training phase. To do this, we model semantic relationships between visual relations. This provides a fuzzy set of relations that more accurately represents visible relations. Using the semantic similarities between relations, the model is able to learn to detect uncommon relations from similar and more common ones. However, the improved training does not always translate to improved detections, because the objective function does not capture the whole relation detection process. Thus during the inference phase, we combine knowledge to model predictions in order to predict more relevant relations, aiming to imitate the behaviour of human observers
Les données échangées en ligne ont un impact majeur sur les vies de milliards de personnes et il est crucial de pouvoir les analyser automatiquement pour en mesurer et ajuster l'impact. L'analyse de ces données repose sur l'apprentissage de réseaux de neurones profonds, qui obtiennent des résultats à l'état de l'art dans de nombreux domaines. En particulier, nous nous concentrons sur la compréhension des intéractions entre les objets ou personnes vivibles dans des images de la vie quotidienne, nommées relations visuelles.Pour cette tâche, des réseaux de neurones sont entraînés à minimiser une fonction d'erreur qui quantifie la différence entre les prédictions du modèle et la vérité terrain donnée par des annotateurs.Nous montrons dans un premier temps, que pour la détection de relation visuelles, ces annotations ne couvrent pas l'ensemble des vraies relations et sont, de façon inhérente au problème, incomplètes. Elle ne sont par ailleurs pas suffisantes pour entraîner un modèle à reconnaître les relations visuelles peu habituelles.Dans un deuxième temps, nous intégrons des connaissances sémantiques à ces réseaux pendant l'apprentissage. Ces connaissances permettent d'obtenir des annotations qui correspondent davantage aux relations visibles. En caractérisant la proximité sémantique entre relations, le modèle apprend ainsi à détecter une relation peu fréquente à partir d'exemples de relations plus largement annotées.Enfin, après avoir montré que ces améliorations ne sont pas suffisantes si le modèle annote les relations sans en distinguer la pertinence, nous combinons des connaissances aux prédictions du réseau de façon à prioriser les relations les plus pertinentes
Databáze: OpenAIRE