Cross-validation

Autor: Arlot , Sylvain
Přispěvatelé: Model selection in statistical learning (SELECT), Inria Saclay - Ile de France, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire de Mathématiques d'Orsay (LMO), Université Paris-Sud - Paris 11 (UP11)-Centre National de la Recherche Scientifique (CNRS)-Université Paris-Sud - Paris 11 (UP11)-Centre National de la Recherche Scientifique (CNRS), Laboratoire de Mathématiques d'Orsay (LMO), Université Paris-Sud - Paris 11 (UP11)-Centre National de la Recherche Scientifique (CNRS), Myriam Maumy-Bertrand, Gilbert Saporta, Christine Thomas-Agnan, Université Paris-Sud - Paris 11 (UP11)-Centre National de la Recherche Scientifique (CNRS)-Université Paris-Sud - Paris 11 (UP11)-Centre National de la Recherche Scientifique (CNRS)-Inria Saclay - Ile de France, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria), Model selection in statistical learning ( SELECT ), Institut National de Recherche en Informatique et en Automatique ( Inria ) -Institut National de Recherche en Informatique et en Automatique ( Inria ) -Laboratoire de Mathématiques d'Orsay ( LMO ), Université Paris-Saclay-Centre National de la Recherche Scientifique ( CNRS ) -Université Paris-Saclay-Centre National de la Recherche Scientifique ( CNRS ) -Centre National de la Recherche Scientifique ( CNRS ), Laboratoire de Mathématiques d'Orsay ( LMO ), Université Paris-Saclay-Centre National de la Recherche Scientifique ( CNRS )
Jazyk: francouzština
Rok vydání: 2018
Předmět:
Zdroj: Apprentissage statistique et donn\'ees massives
Myriam Maumy-Bertrand; Gilbert Saporta; Christine Thomas-Agnan. Apprentissage statistique et donn\'ees massives, Editions Technip, 2018, 9782710811824
Popis: International audience; This text is a survey on cross-validation. We define all classical cross-validation procedures, and we study their properties for two different goals: estimating the risk of a given estimator, and selecting the best estimator among a given family. For the risk estimation problem, we compute the bias (which can also be corrected) and the variance of cross-validation methods. For estimator selection, we first provide a first-order analysis (based on expectations). Then, we explain how to take into account second-order terms (from variance computations, and by taking into account the usefulness of overpenalization). This allows, in the end, to provide some guidelines for choosing the best cross-validation method for a given learning problem.; Ce texte présente un survol des connaissances actuelles sur la validation croisée. Après avoir défini l'ensemble des méthodes de validation croisée, on étudie leurs propriétés pour deux objectifs: estimer le risque d'un estimateur fixé, d'une part, et sélectionner le meilleur estimateur possible au sein d'une famille donnée, d'autre part. Pour l'estimation du risque, on calcule leur biais (ou on le corrige) et leur variance. Pour la sélection d'estimateurs, on procède d'abord à une analyse au premier ordre (sur la base de calculs d'espérances) puis on explique comment tenir compte de termes de second ordre (sur la base de calculs de variance, et en tenant compte de l'utilité de la surpénalisation). Ceci permet, au final, de dégager quelques principes pour choisir la meilleur méthode de validation croisée pour un problème d'apprentissage donné.
Databáze: OpenAIRE