Contributions à l'apprentissage de représentations à partir d'autoencodeurs de graphes et applications à la recommandation musicale

Autor: Salha-Galvan, Guillaume
Přispěvatelé: STAR, ABES
Rok vydání: 2022
Předmět:
DOI: 10.48550/arxiv.2205.14651
Popis: Graph autoencoders (GAE) and variational graph autoencoders (VGAE) emerged as two powerful groups of unsupervised node embedding methods, with various applications to graph-based machine learning problems such as link prediction and community detection. Nonetheless, at the beginning of this Ph.D. project, GAE and VGAE models were also suffering from key limitations, preventing them from being adopted in the industry. In this thesis, we present several contributions to improve these models, with the general aim of facilitating their use to address industrial-level problems involving graph representations.Firstly, we propose two strategies to overcome the scalability issues of previous GAE and VGAE models, permitting to effectively train these models on large graphs with millions of nodes and edges. These strategies leverage graph degeneracy and stochastic subgraph decoding techniques, respectively. Besides, we introduce Gravity-Inspired GAE and VGAE, providing the first extensions of these models for directed graphs, that are ubiquitous in industrial applications. We also consider extensions of GAE and VGAE models for dynamic graphs. Furthermore, we argue that GAE and VGAE models are often unnecessarily complex, and we propose to simplify them by leveraging linear encoders. Lastly, we introduce Modularity-Aware GAE and VGAE to improve community detection on graphs, while jointly preserving good performances on link prediction.In the last part of this thesis, we evaluate our methods on several graphsextracted from the music streaming service Deezer. We put the emphasis on graph-based music recommendation problems. In particular, we show that our methods can improve the detection of communities of similar musical items to recommend to users, that they can effectively rank similar artists in a cold start setting, and that they permit modeling the music genre perception across cultures. At the end of this thesis, we present two additional models, recently deployed in production on the Deezer service to recommend music to millions of users. While being less directly linked to GAE and VGAE models, they provide a complementary perspective on music recommendation topics related to the ones we previously studied.
Les autoencodeurs de graphes (GAE) et les autoencodeurs variationnels de graphes (VGAE) se sont imposés comme deux puissants groupes de méthodes permettant de construire des représentations vectorielles des nœuds d'un graphe de manière non-supervisée, avec des applications à divers problèmes d'apprentissage tels que la prédiction de liens manquants et la détection de communautés de nœuds. Néanmoins, au début de ce projet de thèse, les GAE et VGAE souffraient de limitations majeures. Ces dernières entravaient l'utilisation de ces modèles dans le cadre d'applications industrielles. Dans cette thèse, nous présentons plusieurs contributions permettant d'améliorer les GAE et VGAE afin de faciliter de telles utilisations.Tout d'abord, nous proposons deux stratégies permettant de surmonter les problèmes de passage à l'échelle des GAE et VGAE, et d'entraîner ces modèles sur des graphes ayant des millions de nœuds et d'arêtes. Ces stratégies exploitent respectivement des techniques de dégénérescence de graphes et de décodage stochastique de sous-graphes. Par ailleurs, nous présentons nos GAE et VGAE "inspirés de la gravité" (de l'anglais "Gravity-Inspired GAE and VGAE"), qui constituent les premières extensions de ces modèles destinées aux graphes dirigés, qui sont omniprésents dans les applications industrielles. Nous étudions également des extensions destinées aux graphes dynamiques. En outre, nous démontrons que les GAE et VGAE existants sont souvent inutilement complexes, et nous proposons donc de les simplifier en ayant recours à des encodeurs linéaires. Enfin, nous présentons nos GAE et VGAE "informés par la modularité'' (de l'anglais "Modularity-Aware GAE and VGAE"), qui permettent d'améliorer la détection de communautés de nœuds, tout en préservant de bonnes performances pour la prédiction de liens manquants.Dans la dernière partie de cette thèse, nous évaluons nos méthodes sur plusieurs graphes extraits du service de streaming musical Deezer. Nous nous concentrons sur des problèmes de recommandation musicale à partir de graphes. En particulier, nous montrons que nos méthodes permettent d'améliorer la détection de communautés d'entités musicales à recommander aux mêmes utilisateurs, mais aussi de mieux classer des artistes similaires dans un contexte de "démarrage à froid", et enfin de mieux modéliser la perception des genres musicaux à travers différentes cultures. Pour terminer, nous présentons également deux autres modèles, récemment déployés en production chez Deezer afin de recommander de la musique à des millions d'utilisateurs. Bien qu'étant moins directement liés aux GAE et VGAE, ils fournissent un point de vue complémentaire sur des sujets de recommandation musicale connexes à ceux étudiés précédemment.
Databáze: OpenAIRE