Représentation des mots et des connaissances: Construction, utilisation et évaluation des plongements euclidiens et hyperboliques
Autor: | Torregrossa, François |
---|---|
Přispěvatelé: | Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT), Solocal [Boulogne-Billancourt], Université rennes1, Guillaume Gravier, Vincent Claveau |
Jazyk: | francouzština |
Rok vydání: | 2021 |
Předmět: |
Machine Learning
[INFO.INFO-TT]Computer Science [cs]/Document and Text Processing Représentation des Connaissances Knowledge representation Ontologie Apprentissage automatique [INFO.INFO-NE]Computer Science [cs]/Neural and Evolutionary Computing [cs.NE] Classification Natural Language Processing Traitement automatique de la langue naturelle TALN [INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] |
Zdroj: | Traitement du texte et du document. Université rennes1, 2021. Français. ⟨NNT : ⟩ |
Popis: | Texts, graphs and hierarchies are heterogeneous form of data. In this thesis, we deal with these three categories by leveraging geometric spaces suiting each of them. Starting with the study of word embedding for representing texts, we try to evaluate their quality and provide properties highlighting effectiveness. Enriching those word embeddings with expert knowledge entails a better processing of an industrial task. Building from this fact, we develop new ways to accumulate structured knowledges (e.g. hierarchies) from free online sources (Linked Open Data), or, from information contained in flat contents such as texts (taxonomy induction) or other databases. These hierarchies are then represented using hyperbolic spaces, and we propose a new hyperbolic embedding method. The ultimate goal being to restrain information loss from the structure to the continuous space, and then to combine this new knowledge with traditional word embeddings.; Les données présentent des natures hétérogènes: textes, graphes et hiérarchies. Dans cette thèse, nous traitons l'ensemble des manières de représenter ces trois types en tirant profit d'espaces géométriques adaptés à chacun. Au départ, nous étudions les plongements de mots pour la représentation de textes et tentons d'évaluer leur qualité et de proposer des propriétés déterminant leur efficacité. L'enrichissement de ces plongements par des connaissances expertes nous permet de mieux traiter une tâche industrielle. À partir de ce constat, nous cherchons d'autres moyens pour obtenir des connaissances structurées (hiérarchies) à partir de sources disponibles gratuitement (Linked Open Data) ou à partir d'informations à plat contenus dans des textes (induction de taxonomies) ou d'autre types de bases de données. Ces hiérarchies de connaissances sont représentés au mieux par des plongements hyperboliques, et nous proposons une nouvelle méthode de plongement dans ces espaces. Le but est de limiter la perte d'information de la hiérarchie à l'espace continue, puis de déterminer une manière de combiner ces nouvelles connaissances dans les plongements de mots usuels. |
Databáze: | OpenAIRE |
Externí odkaz: |