Méthodes d'apprentissage statistique pour le scoring

Autor: Depecker, Marine
Jazyk: francouzština
Rok vydání: 2010
Předmět:
Druh dokumentu: Diplomová práce
Popis: Cette thèse porte sur le développement d'une méthode non-paramétrique pour l'apprentissage supervisé de règles d'ordonnancement à partir de données étiquetées de façon binaire. Cette méthode repose sur le partitionnement récursif de l'espace des observations et généralise la notion d'arbre de décision au problème de l'ordonnancement, les règles de score produites pouvant être représentées graphiquement par des arbres binaires et orientés. Afin de proposer une méthode d'apprentissage flexible, nous introduisons une procédure permettant, à chaque itération de l'algorithme, de scinder l'espace des observations selon diverses règles, adaptatives et complexes, choisies en fonction du problème considéré. De plus, pour lutter contre le phénomène de sur-apprentissage, nous proposons deux procédures de sélection de modèle, fondées sur la maximisation de l'ASC empirique pénalisée par une mesure de la complexité du modèle. Enfin, dans le but de réduire l'instabilité des arbres d'ordonnancement, inhérente à leur mode de construction, nous adaptons deux procédures d'agrégation de règles de prédiction ré-échantillonnées : le bagging (Breiman, 1996) et les forêts aléatoires (Random Forests, Breiman, 2001). Une étude empirique comparative entre différentes configurations de l'algorithme et quelques méthodes de l'état de l'art est présentée, ainsi que l'application à la problématique industrielle de l'objectivation des prestations d'un véhicule automobile. De plus, nous exploitons cette méthode de scoring pour introduire une heuristique de test d'homogénéité entre deux populations, permettant de généraliser les tests de rangs au cas multi-dimensionnel.
Databáze: Networked Digital Library of Theses & Dissertations