CorReg : Préselection de variables en régression linéaire avec fortes corrélations
Autor: | Théry, Clément, Biernacki, Christophe, Loridant, Gaétan |
---|---|
Přispěvatelé: | Théry, Clément, Laboratoire Paul Painlevé - UMR 8524 (LPP), Université de Lille-Centre National de la Recherche Scientifique (CNRS), MOdel for Data Analysis and Learning (MODAL), Inria Lille - Nord Europe, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire Paul Painlevé - UMR 8524 (LPP), Université de Lille-Centre National de la Recherche Scientifique (CNRS)-Université de Lille-Centre National de la Recherche Scientifique (CNRS)-Evaluation des technologies de santé et des pratiques médicales - ULR 2694 (METRICS), Centre Hospitalier Régional Universitaire [Lille] (CHRU Lille)-Université de Lille-Centre Hospitalier Régional Universitaire [Lille] (CHRU Lille)-Université de Lille-École polytechnique universitaire de Lille (Polytech Lille)-Université de Lille, Sciences et Technologies, ArcelorMittal, SFDS, Laboratoire Paul Painlevé (LPP), Université de Lille-Centre National de la Recherche Scientifique (CNRS)-Université de Lille-Centre National de la Recherche Scientifique (CNRS)-Université de Lille, Sciences et Technologies-Inria Lille - Nord Europe, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Evaluation des technologies de santé et des pratiques médicales - ULR 2694 (METRICS), Université de Lille-Centre Hospitalier Régional Universitaire [Lille] (CHRU Lille)-Université de Lille-Centre Hospitalier Régional Universitaire [Lille] (CHRU Lille)-École polytechnique universitaire de Lille (Polytech Lille), Université de Lille-Centre Hospitalier Régional Universitaire [Lille] (CHRU Lille)-Université de Lille-Centre Hospitalier Régional Universitaire [Lille] (CHRU Lille)-École polytechnique universitaire de Lille (Polytech Lille)-Université de Lille, Sciences et Technologies |
Jazyk: | francouzština |
Rok vydání: | 2014 |
Předmět: | |
Zdroj: | 46° journées de statistiques 46° journées de statistiques, SFDS, Jun 2014, Rennes, France |
Popis: | International audience; Résumé. La régression linéaire est pénalisée par l'usage de variables explicatives corrélées, situation fréquente pour les bases de données d'origine industrielleò u les corrélations sont nombreuses et enen a des estimateurs de forte variance. Lemo ele proposé ex-plicite les corrélations présentes sous la forme d'une famille de régressions linéaires en-tre covariables, permettant d'obtenir par marginalisation unmo ele de régression parci-monieux libéré des corrélations, facilement interprétable et consistant en une présélection de variables. La structure de corrélations est estiméè a l'aide d'un algorithme MCMC qui repose sur unmo ele génératif complet. Le package CorReg (sur le CRAN) permet la mise en oeuvre en R de cette méthode qui sera illustrée sur données simulées et sur données réelles issues de l'industrie sidérurgique. Mots-clés. Régression, corrélations, industrie, sélection de variables,mo eles génératifs Abstract. Linear regression is generally penalized by correlated covariates, frequent situation for industrial datasets, in particular impacting the variance of the estimators. The proposed generative model consists in modeling explicitly the correlations with a family of linear regressions between the covariates permitting to obtain by marginalization a parsimonious correlation-free regression model, easily understandable and that can be seen as a variable preselection. The structure of correlations is found with an MCMC algorithm. An R package (CorReg) available on the CRAN implements this new method which will be illustrated on both simulated datasets and real-life datasets from steel industry. |
Databáze: | OpenAIRE |
Externí odkaz: |