Statistics for Topological Descriptors using optimal transport
Autor: | Lacombe, Théo |
---|---|
Přispěvatelé: | Laboratoire d'informatique de l'École polytechnique [Palaiseau] (LIX), Centre National de la Recherche Scientifique (CNRS)-École polytechnique (X), Understanding the Shape of Data (DATASHAPE), Inria Sophia Antipolis - Méditerranée (CRISAM), Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Inria Saclay - Ile de France, Institut National de Recherche en Informatique et en Automatique (Inria), Institut Polytechnique de Paris, Steve Oudot, Marco Cuturi, École polytechnique (X)-Centre National de la Recherche Scientifique (CNRS) |
Jazyk: | angličtina |
Rok vydání: | 2020 |
Předmět: |
Barycenters
Algorithmes Diagrammes de persistance Analyse topologique des données Topological data analysis Barycentres Persistence diagrams Transport optimal [INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG] [MATH.MATH-ST]Mathematics [math]/Statistics [math.ST] Convergence de mesures positives Optimal transport Convergence of nonnegative measures [MATH.MATH-MG]Mathematics [math]/Metric Geometry [math.MG] Algorithms |
Zdroj: | Metric Geometry [math.MG]. Institut Polytechnique de Paris, 2020. English. ⟨NNT : 2020IPPAX036⟩ |
Popis: | Topological data analysis (TDA) allows one to extract rich information from structured data (such as graphs or time series) that occurs in modern machine learning problems. This information will be represented as descriptors such as persistence diagrams, which can be described as point measures supported on a half-plane. While persistence diagrams are not elements of a vector space, they can still be compared using partial matching metrics. The similarities between these metrics and those routinely used in optimal transport—another field of mathematics—are known for long, but a formal connection between these two fields is yet to come.The purpose of this thesis is to clarify this connection and develop new theoretical and computational tools to manipulate persistence diagrams, targeting statistical applications. First, we show how optimal partial transport with boundary, a variation of classic optimal transport theory, provides a formalism that encompasses standard metrics in TDA. We then show-case the benefits of this connection in different situations: a theoretical study and the development of an algorithm to perform fast estimation of barycenters of persistence diagrams, the characterization of continuous linear representations of persistence diagrams and how to learn such representations using a neural network, and eventually a stability result in the context of linearly averaging random persistence diagrams.; L’analyse topologique des données (ATD) permet d’extraire une information riche des données structurées (telles que les graphes ou les séries temporelles) présentes dans les problèmes modernes d’apprentissage. Elle va représenter cette information sous forme de descripteurs dont font partie les diagrammes de persistance, qui peuvent être décrits comme des mesures ponctuelles supportées sur un demi-plan. À défaut d’être de simples vecteurs, les diagrammes de persistance peuvent néanmoins être comparés entre eux à l’aide de métriques d’appariement partiel. La similarité entre ces métriques et les métriques usuelles du transport optimal - un autre domaine des mathématiques - est connue de longue date, mais un lien formel entre ces deux domaines restait à établir. L’objet de cette thèse est de clarifier cette connexion pour pouvoir utiliser les nombreux acquis du transport optimal afin de développer de nouveaux outils statistiques (théoriques et pratiques) pour manipuler les diagrammes de persistance. Dans un premier temps, nous montrons comment le transport optimal partiel avec frontière, une variante du transport optimal classique, nous fournit un formalisme qui contient les métriques usuelles de l’ATD. Nous illustrons ensuite les apports bénéfiques de cette reformulation dans différentes situations: étude théorique et algorithme pour l’estimation efficace des barycentres de diagrammes de persistance grâce au transport régularisé, caractérisation des représentations linéaires continues des diagrammes et leur apprentissage via un réseau de neurones versatile, ainsi qu’un résultat de stabilité des moyennes linéaires de diagrammes tirés aléatoirement. |
Databáze: | OpenAIRE |
Externí odkaz: |