Learning representations for reasoning : generalizing across diverse structures

Autor:	Zhu, Zhaocheng
Jazyk:	angličtina
Rok vydání:	2024
Předmět:	raisonnement apprentissage de représentation graphes de connaissances grands modèles de langage systèmes d’apprentissage automatique reasoning representation learning knowledge graphs large language models machine learning systems Artificial intelligence / Intelligence artificielle (UMI : 0800)
Druh dokumentu:	Diplomová práce
Popis:	Le raisonnement, la capacité de tirer des conclusions logiques à partir de connaissances existantes, est une caractéristique marquante de l’être humain. Avec la perception, ils constituent les deux thèmes majeurs de l’intelligence artificielle. Alors que l’apprentissage profond a repoussé les limites de la perception au-delà des performances humaines en vision par ordinateur et en traitement du langage naturel, les progrès dans les domaines du raisonnement sont loin derrière. L’une des raisons fondamentales est que les problèmes de raisonnement ont généralement des structures flexibles à la fois pour les connaissances (par exemple, les graphes de connaissances) et les requêtes (par exemple, les requêtes en plusieurs étapes), et de nombreux modèles existants ne fonctionnent bien que sur les structures vues pendant l’entraînement. Dans cette thèse, nous visons à repousser les limites des modèles de raisonnement en concevant des algorithmes qui généralisent à travers les structures de connaissances et de requêtes, ainsi que des systèmes qui accélèrent le développement sur des données structurées. Cette thèse est composée de trois parties. Dans la partie I, nous étudions des modèles qui peuvent généraliser de manière inductive à des graphes de connaissances invisibles, qui impliquent de nouveaux vocabulaires d’entités et de relations. Pour les nouvelles entités, nous proposons un nouveau cadre qui apprend les opérateurs neuronaux dans un algorithme de programmation dynamique calculant des représentations de chemin. Ce cadre peut être étendu à des graphes de connaissances à l’échelle d’un million en apprenant une fonction de priorité. Pour les relations, nous construisons un graphe de relations pour capturer les interactions entre les relations, convertissant ainsi les nouvelles relations en nouvelles entités. Cela nous permet de développer un modèle pré-entraîné unique pour des graphes de connaissances arbitraires. Dans la partie II, nous proposons deux solutions pour généraliser les requêtes en plusieurs étapes sur les graphes de connaissances et sur le texte respectivement. Pour les graphes de connaissances, nous montrons que les requêtes en plusieurs étapes peuvent être résolues par plusieurs appels de réseaux neuronaux graphes et d’opérations de logique floue. Cette conception permet la généralisation à de nouvelles entités, et peut être intégrée à notre modèle pré-entraîné pour prendre en charge des graphes de connaissances arbitraires. Pour le texte, nous concevons un nouvel algorithme pour apprendre des connaissances explicites sous forme de règles textuelles afin d’améliorer les grands modèles de langage sur les requêtes en plusieurs étapes. Dans la partie III, nous proposons deux systèmes pour faciliter le développement de l’apprentissage automatique sur des données structurées. Notre bibliothèque open source traite les données structurées comme des citoyens de première classe et supprime la barrière au développement d’algorithmes d’apprentissage automatique sur des données structurées, y compris des graphes, des molécules et des protéines. Notre système d’intégration de noeuds résout le goulot d’étranglement de la mémoire GPU des matrices d’intégration et s’adapte aux graphes avec des milliards de noeuds. Reasoning, the ability to logically draw conclusions from existing knowledge, is a hallmark of human. Together with perception, they constitute the two major themes of artificial intelligence. While deep learning has pushed the limit of perception beyond human-level performance in computer vision and natural language processing, the progress in reasoning domains is way behind. One fundamental reason is that reasoning problems usually have flexible structures for both knowledge (e.g. knowledge graphs) and queries (e.g. multi-step queries), and many existing models only perform well on structures seen during training. In this thesis, we aim to push the boundary of reasoning models by devising algorithms that generalize across knowledge and query structures, as well as systems that accelerate development on structured data. This thesis is composed of three parts. In Part I, we study models that can inductively generalize to unseen knowledge graphs, which involve new entity and relation vocabularies. For new entities, we propose a novel framework that learns neural operators in a dynamic programming algorithm computing path representations. This framework can be further scaled to million-scale knowledge graphs by learning a priority function. For relations, we construct a relation graph to capture the interactions between relations, thereby converting new relations into new entities. This enables us to develop a single pre-trained model for arbitrary knowledge graphs. In Part II, we propose two solutions for generalizing across multi-step queries on knowledge graphs and text respectively. For knowledge graphs, we show multi-step queries can be solved by multiple calls of graph neural networks and fuzzy logic operations. This design enables generalization to new entities, and can be integrated with our pre-trained model to accommodate arbitrary knowledge graphs. For text, we devise a new algorithm to learn explicit knowledge as textual rules to improve large language models on multi-step queries. In Part III, we propose two systems to facilitate machine learning development on structured data. Our open-source library treats structured data as first-class citizens and removes the barrier for developing machine learning algorithms on structured data, including graphs, molecules and proteins. Our node embedding system solves the GPU memory bottleneck of embedding matrices and scales to graphs with billion nodes.
Databáze:	Networked Digital Library of Theses & Dissertations
Externí odkaz:	http://hdl.handle.net/1866/40253 https://orcid.org/0009-0004-5425-330X Zobrazit plný text záznamu