Cross-validation
Autor: | Arlot , Sylvain |
---|---|
Přispěvatelé: | Model selection in statistical learning (SELECT), Inria Saclay - Ile de France, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire de Mathématiques d'Orsay (LMO), Université Paris-Sud - Paris 11 (UP11)-Centre National de la Recherche Scientifique (CNRS)-Université Paris-Sud - Paris 11 (UP11)-Centre National de la Recherche Scientifique (CNRS), Laboratoire de Mathématiques d'Orsay (LMO), Université Paris-Sud - Paris 11 (UP11)-Centre National de la Recherche Scientifique (CNRS), Myriam Maumy-Bertrand, Gilbert Saporta, Christine Thomas-Agnan, Université Paris-Sud - Paris 11 (UP11)-Centre National de la Recherche Scientifique (CNRS)-Université Paris-Sud - Paris 11 (UP11)-Centre National de la Recherche Scientifique (CNRS)-Inria Saclay - Ile de France, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria), Model selection in statistical learning ( SELECT ), Institut National de Recherche en Informatique et en Automatique ( Inria ) -Institut National de Recherche en Informatique et en Automatique ( Inria ) -Laboratoire de Mathématiques d'Orsay ( LMO ), Université Paris-Saclay-Centre National de la Recherche Scientifique ( CNRS ) -Université Paris-Saclay-Centre National de la Recherche Scientifique ( CNRS ) -Centre National de la Recherche Scientifique ( CNRS ), Laboratoire de Mathématiques d'Orsay ( LMO ), Université Paris-Saclay-Centre National de la Recherche Scientifique ( CNRS ) |
Jazyk: | francouzština |
Rok vydání: | 2018 |
Předmět: |
model selection
V-fold penalization bias-corrected cross-validation estimator selection estimation du risque leave-one-out sélection d'estimateurs [STAT.TH]Statistics [stat]/Statistics Theory [stat.TH] pénalisation V-fold [ STAT.TH ] Statistics [stat]/Statistics Theory [stat.TH] cross-validation V-fold cross-validation leave-p-out validation croisée V-fold [STAT.ML]Statistics [stat]/Machine Learning [stat.ML] [MATH.MATH-ST]Mathematics [math]/Statistics [math.ST] validation croisée corrigée overpenalization risk estimation surpénalisation [ MATH.MATH-ST ] Mathematics [math]/Statistics [math.ST] sélection de modèles [ STAT.ML ] Statistics [stat]/Machine Learning [stat.ML] validation croisée |
Zdroj: | Apprentissage statistique et donn\'ees massives Myriam Maumy-Bertrand; Gilbert Saporta; Christine Thomas-Agnan. Apprentissage statistique et donn\'ees massives, Editions Technip, 2018, 9782710811824 |
Popis: | International audience; This text is a survey on cross-validation. We define all classical cross-validation procedures, and we study their properties for two different goals: estimating the risk of a given estimator, and selecting the best estimator among a given family. For the risk estimation problem, we compute the bias (which can also be corrected) and the variance of cross-validation methods. For estimator selection, we first provide a first-order analysis (based on expectations). Then, we explain how to take into account second-order terms (from variance computations, and by taking into account the usefulness of overpenalization). This allows, in the end, to provide some guidelines for choosing the best cross-validation method for a given learning problem.; Ce texte présente un survol des connaissances actuelles sur la validation croisée. Après avoir défini l'ensemble des méthodes de validation croisée, on étudie leurs propriétés pour deux objectifs: estimer le risque d'un estimateur fixé, d'une part, et sélectionner le meilleur estimateur possible au sein d'une famille donnée, d'autre part. Pour l'estimation du risque, on calcule leur biais (ou on le corrige) et leur variance. Pour la sélection d'estimateurs, on procède d'abord à une analyse au premier ordre (sur la base de calculs d'espérances) puis on explique comment tenir compte de termes de second ordre (sur la base de calculs de variance, et en tenant compte de l'utilité de la surpénalisation). Ceci permet, au final, de dégager quelques principes pour choisir la meilleur méthode de validation croisée pour un problème d'apprentissage donné. |
Databáze: | OpenAIRE |
Externí odkaz: |