Méthode d'échantillonnage appliqué à la minimisation du risque empirique

Autor: Papa, Guillaume
Přispěvatelé: Laboratoire Traitement et Communication de l'Information (LTCI), Institut Mines-Télécom [Paris] (IMT)-Télécom Paris, Télécom ParisTech, Stéphan Clémençon, Pascal Bianchi, STAR, ABES
Jazyk: angličtina
Rok vydání: 2018
Předmět:
Zdroj: Machine Learning [stat.ML]. Télécom ParisTech, 2018. English. ⟨NNT : 2018ENST0005⟩
Popis: In this manuscript, we present and study applied sampling strategies, with problems related to statistical learning. The goal is to deal with the problems that usually arise in a context of large data when the number of observations and their dimensionality constrain the learning process. We therefore propose to address this problem using two sampling strategies: - Accelerate the learning process by sampling the most helpful. - Simplify the problem by discarding some observations to reduce complexity and the size of the problem. We first consider the context of the binary classification, when the observations used to form a classifier come from a sampling / survey scheme and present a complex dependency structure. for which we establish bounds of generalization. Then we study the implementation problem of stochastic gradient descent when observations are drawn non uniformly. We conclude this thesis by studying the problem of graph reconstruction for which we establish new theoretical results
Dans ce manuscrit, nous présentons et étudions des stratégies d’échantillonnage appliquées, à problèmes liés à l’apprentissage statistique. L’objectif est de traiter les problèmes qui surviennent généralement dans un contexte de données volumineuses lorsque le nombre d’observations et leur dimensionnalité contraignent le processus d’apprentissage. Nous proposons donc d’aborder ce problème en utilisant deux stratégies d’échantillonnage: - Accélérer le processus d’apprentissage en échantillonnant les observations les plus utiles. - Simplifier le problème en écartant certaines observations pour réduire la complexité et la taille du problème. Pour commencer, nous nous plaçons dans le contexte de la classification binaire, lorsque les observations utilisées pour former un classificateur sont issues d’un schéma d’échantillonnage/sondage et présentent une structure de dépendance complexe pour lequel nous établissons des bornes de généralisation. Ensuite nous étudions le problème d’implémentation de la descente de gradient stochastique quand les observations sont tirées non uniformément. Nous concluons cette thèse par l’étude du problème de reconstruction de graphes pour lequel nous établissons de nouveau résultat théoriques
Databáze: OpenAIRE