Appariement de descripteurs évoluant dans le temps : application à la comparaison d’assurance

Autor: Bedenel, Anne-Lise
Přispěvatelé: MOdel for Data Analysis and Learning (MODAL), Inria Lille - Nord Europe, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire Paul Painlevé - UMR 8524 (LPP), Université de Lille-Centre National de la Recherche Scientifique (CNRS)-Université de Lille-Centre National de la Recherche Scientifique (CNRS)-Evaluation des technologies de santé et des pratiques médicales - ULR 2694 (METRICS), Centre Hospitalier Régional Universitaire [Lille] (CHRU Lille)-Université de Lille-Centre Hospitalier Régional Universitaire [Lille] (CHRU Lille)-Université de Lille-École polytechnique universitaire de Lille (Polytech Lille)-Université de Lille, Sciences et Technologies, Université de Lille I, Christophe Biernacki, Laetitia Jourdan, Université de Lille-Centre Hospitalier Régional Universitaire [Lille] (CHRU Lille)-Université de Lille-Centre Hospitalier Régional Universitaire [Lille] (CHRU Lille)-École polytechnique universitaire de Lille (Polytech Lille)-Université de Lille, Sciences et Technologies, Laboratoire Paul Painlevé (LPP), Université de Lille-Centre National de la Recherche Scientifique (CNRS)-Université de Lille-Centre National de la Recherche Scientifique (CNRS)-Université de Lille, Sciences et Technologies-Inria Lille - Nord Europe, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Evaluation des technologies de santé et des pratiques médicales - ULR 2694 (METRICS), Université de Lille-Centre Hospitalier Régional Universitaire [Lille] (CHRU Lille)-Université de Lille-Centre Hospitalier Régional Universitaire [Lille] (CHRU Lille)-École polytechnique universitaire de Lille (Polytech Lille), Biernacki, Christophe
Jazyk: francouzština
Rok vydání: 2019
Předmět:
Zdroj: Méthodologie [stat.ME]. Université de Lille I, 2019. Français
Méthodologie [stat.ME]. Université de Lille I, 2019. Français. ⟨NNT : ⟩
Popis: In the online insurance comparison field, data constantly evolve, implying some difficulties toexploit them directly. Indeed, most of the classical learning methods, as supervised classification,require data descriptors equal to both learning and test samples. To answer business expectations,online forms where data come from are often changed. These constant modifications of featuresand data descriptors make analysis more complex because it has to work with the small amountof data. The goal of this thesis is to use data generated before the feature descriptors modification.By doing so, we generate new samples and increase the size of the observed sample after thedescriptors modification. We intend to perform a learning transfer between observed data beforeand after features modification. For each observation, only partial data is observed. Indeed,data are observed either before, or after feature modification which bring a problem of missingdata. Also, the links between data descriptors of the feature before and after the modificationare totally unknown. A probabilistic modelling of the problem has been suggested to modelizethe joint distribution of the feature before and after the modification of the data descriptors. Theproblem becomes an estimation problem in a graph where the model is unidentifiable. To ensurethe identifiability of the model, some business and technical constraints have been proposed andwe have to work with a reduced set of very parsimonious models. Two methods of estimationhave been intented. The first one is a method with estimation by profile likelihood and thesecond one is a method with join estimation of parameters by maximum likelihood. Workingwith missing data, these two methods rely on EM algorithms. The constraints set lead us towork with a set of models. A model selection step is required. For this step, two sets criteriaare proposed: a usual asymptotic criterium (BIC) and a non-asymptotic criterium (BIL) relyon Bayesian analysis. The BIL criterium consists in calculating the integrated likelihood ofobserved data in closed form where the calculation relies on an approximation non-asymptoticperformed in two-step. First step, the exact integration over the parameters. Second step, anapproximation of the sum over all possible values which may be taken by the observations comeafter the feature modification where the information is missing. This approximation is realizedthrough an importance sampling where the optimal importance function is estimated withGibbs sampler. To have an optimal method for both estimation, model selection and executiontime, two research strategies are suggested. The first strategy (EXsearch) is an exhaustive searchwhereas the second strategy (AGsearch) is a non-exhaustive strategy based on genetic algorithm,adapted to the problem and combining both estimation (continuous problem) and selection(combinatorial problem). A comparison of methods and criteria proposed is performed to detectthe strategy the most adapted in a business framework. This thesis finishes with an applicationof the method on real data.
Dans le domaine du web, et plus particulièrement de la comparaison d’assurances, les donnéesévoluent constamment, impliquant certaines difficultés pour les exploiter. En effet, la plupartdes méthodes d’apprentissage standards, telle que la classification supervisée, nécessitent d’avoirdes descripteurs de données identiques pour les échantillons d’apprentissage et de test. Or,afin de répondre aux attentes métiers, les formulaires en lignes d’où proviennent les donnéessont régulièrement modifiés. Ces modifications régulières des variables et des descripteurs dedonnées complexifient les analyses car elles nécessitent de travailler avec une faible quantité dedonnées. L’objectif de cette thèse est alors d’utiliser les données obtenues avant la modificationdes descripteurs de la variable pour générer de nouveaux échantillons et ainsi augmenter la tailledes échantillons observés après la modification des descripteurs. Nous proposons donc d’effectuerun transfert de connaissances entre les données observées avant et après la modification desvariables. Pour chaque individu, seule une donnée partielle est observée. En effet, les donnéessont observées soit avant, soit après la modification de la variable, entrainant un problème dedonnées manquantes et impliquant également que les liens entre les descripteurs de la variableavant et après la modification soient totalement inconnus. Une modélisation probabiliste duproblème est alors proposée afin de modéliser la loi jointe de la variable avant et après lamodification de ses descripteurs. Le problème revient alors à un problème d’estimation dansun graphe où le modèle n’est pas identifiable. Afin d’assurer l’identifiabilité du modèle, descontraintes métiers et techniques sont proposées, ce qui nous amène à travailler avec un ensembleréduit de modèles très parcimonieux. Deux méthodes d’estimation sont ensuite proposées :une méthode d’estimation par vraisemblance profilée et une méthode d’estimation jointe desparamètres par maximum de vraisemblance. Travaillant avec des données manquantes, cesdeux méthodes reposent sur des algorithmes EM. Les contraintes proposées nous amenant àtravailler avec un ensemble de modèles, une étape de sélection de modèle est alors nécessaire.Pour cette étape, deux critères sont proposés : un critère de sélection asymptotique (le critèreusuel BIC) et un critère non asymptotique (BIL) reposant sur l’analyse bayésienne. Le critèreBIL consiste à calculer la vraisemblance intégrée des données observées de manière exacte,dont le calcul passe par une approximation non asymptotique effectuée à travers deux étapes :l’intégration exacte de la distribution des données complètes sur les paramètres, suivie parune approximation de la somme sur toutes les valeurs possibles pouvant être prises par lesindividus venus après la modification de la variable, dont l’information est manquante. Cetteapproximation est réalisée par une stratégie bayésienne d’échantillonnage préférentiel dontla fonction d’importance optimale est estimée à l’aide d’un échantillonneur de Gibbs. Afind’avoir une méthode optimale aussi bien en termes d’estimation et de sélection de modèlequ’en terme de temps de calcul, deux stratégies de recherches sont proposées. La premièrestratégie (EXsearch) est une recherche exhaustive alors que la seconde stratégie (AGsearch)est une recherche non-exhaustive basée sur un algorithme génétique, adaptée au problème etcombinant à la fois l’estimation (problème continu) et la sélection (problème combinatoire). Uneanalyse comparative des méthodes et critères proposés est ensuite effectuée afin de détecter lastratégie la plus adaptée dans un cadre industriel. La thèse se termine par une application de laméthode sur des données réelles.
Databáze: OpenAIRE