Contributions à l'analyse de données non vectorielles

Autor: Villa-Vialaneix, Nathalie
Přispěvatelé: Unité de Mathématiques et Informatique Appliquées de Toulouse (MIAT INRA), Institut National de la Recherche Agronomique (INRA), Université de Toulouse, Marie-Laure Martin-Magniette
Jazyk: francouzština
Rok vydání: 2014
Předmět:
Zdroj: Statistiques [math.ST]. Université de Toulouse, 2014
Popis: This manuscript presents an overview of my research activity from my PhD until now. In particular, I describe my work on non-vectorial data analysis, which aims at providing tools to better understand data that are not given on the form of standard multivariate vectors. For instance, this field is interested by data described by curves (i.e., functional data or graph/network analysis). In the first part of the document, I will focus on exploratory data analysis and describe clustering and visualization methods for non-vectorial data analysis. These methods can be applied either to data described by a kernel or a dissimilarity matrix or to graph data. They rely on various approaches, some very generic are based on topographic maps and otherand more specific to graphs and are based on a quality criterion called modularity. In the second part of the document, work dealing with supervised methods are presented, that propose solutions to functional regression and discrimination problems. Similarly as what was already described in the unsupervised context, neural methods (multi-layer perceptron combined with an inverse regression approach) and kernel based methods (similar to SVM) are used. All along the manuscript, applications to real-world problems are presented: these are issued from Human Sciences (in particular from History) or from Systems Biology.; Ce document se propose de faire un résumé des travaux de recherche que j'ai réalisés à partir de ma thèse de doctorat. En particulier, j'y présente mes travaux menés autours de l'analyse de données non vectorielles, c'est-à-dire de données qui ne sont pas des observations de variables pouvant être décrites par des vecteurs multi-dimensionnels. Ce domaine trouve des applications naturelles dans l'analyse de données décrites par des courbes (dites « données fonctionnelles » et l'analyse de réseaux ou graphes). Dans une première partie, je présente une partie de mes travaux qui abordent ce type de données selon l'angle de l'analyse exploratoire (non supervisée) avec le développement d'approches de classification et de visualisation pour la fouille de données non vectorielles, que ces données soient décrites par un noyau ou une matrice de dissimilarité, ou bien soient modélisées par un graphe. Pour ce faire, j'ai étudié diverses approches, certaines génériques basées sur des méthodes de cartes topographiques, et d'autres plus spécifiques aux graphes, basées sur un critère de qualité appelé modularité. Dans une seconde partie, mon mémoire présente les travaux que j'ai menés sur des approches supervisées, pour l'apprentissage de problèmes de régression ou en discrimination, dans le cadre de l'analyse de données fonctionnelles : là encore, j'ai étudié des méthodes basées sur des approches neuronales (perceptrons multi-couches combinés à une méthode de régression inverse) ou sur des approches à noyau type SVM. Enfin, tout au long du manuscrit, je présenterai l'application que j'ai faite de ces approches à des problèmes réels, qu'ils soient issus des sciences humaines et sociales (en particulier l'histoire) ou bien posés par le développement de la biologie systémique.
Databáze: OpenAIRE