ABC random forests for Bayesian parameter inference
Autor: | Mathieu Ribatet, Arnaud Estoup, Jean-Michel Marin, Pierre Pudlo, Louis Raynal, Christian P. Robert |
---|---|
Přispěvatelé: | Institut Montpelliérain Alexander Grothendieck (IMAG), Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS), Model selection in statistical learning (SELECT), Laboratoire de Mathématiques d'Orsay (LMO), Université Paris-Sud - Paris 11 (UP11)-Centre National de la Recherche Scientifique (CNRS)-Université Paris-Sud - Paris 11 (UP11)-Centre National de la Recherche Scientifique (CNRS)-Inria Saclay - Ile de France, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria), Institut de Mathématiques de Marseille (I2M), Aix Marseille Université (AMU)-École Centrale de Marseille (ECM)-Centre National de la Recherche Scientifique (CNRS), University of Warwick [Coventry], CEntre de REcherches en MAthématiques de la DEcision (CEREMADE), Centre National de la Recherche Scientifique (CNRS)-Université Paris Dauphine-PSL, Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL), Centre de Recherche en Economie et en Statistique (CREST-INSEE), Institut national de la statistique et des études économiques (INSEE), Centre de Biologie pour la Gestion des Populations (UMR CBGP), Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-Institut National de la Recherche Agronomique (INRA)-Centre international d'études supérieures en sciences agronomiques (Montpellier SupAgro)-Université de Montpellier (UM)-Institut de Recherche pour le Développement (IRD [France-Sud])-Institut national d’études supérieures agronomiques de Montpellier (Montpellier SupAgro), Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro)-Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro), National Research Fund ANR (France) through the European Union program ERA-Net BiodivERsA (project EXOTIC), National Research Fund ANR (France) through the INRA scientific department SPE (AAP-SPE 2016), ANR-16-CE02-0015,SWING,Invasion mondiale de la drosophile à aile tachetée: Génétique, plasticité et potentiel évolutif(2016), ANR-10-LABX-0020,NUMEV,Digital and Hardware Solutions and Modeling for the Environement and Life Sciences(2010), European Project: 266546,EC:FP7:ENV,FP7-ERANET-2010-RTD,BIODIVERSA2(2010), Inria Saclay - Ile de France, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire de Mathématiques d'Orsay (LMO), Centre National de la Recherche Scientifique (CNRS)-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS)-Université Paris-Saclay, Université Paris Dauphine-PSL-Centre National de la Recherche Scientifique (CNRS), Université Paris-Sud - Paris 11 (UP11)-Centre National de la Recherche Scientifique (CNRS)-Université Paris-Sud - Paris 11 (UP11)-Centre National de la Recherche Scientifique (CNRS), Université Paris Dauphine-PSL, Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-Centre National de la Recherche Scientifique (CNRS), Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS)-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS), Centre National de la Recherche Scientifique (CNRS)-École Centrale de Marseille (ECM)-Aix Marseille Université (AMU) |
Jazyk: | angličtina |
Rok vydání: | 2019 |
Předmět: |
FOS: Computer and information sciences
Statistics and Probability Biometry Computer science Calibration (statistics) Bayesian probability Posterior probability Inference Machine Learning (stat.ML) Bayesian inference Biochemistry Statistics - Computation Methodology (stat.ME) 03 medical and health sciences Bayes' theorem Statistics - Machine Learning Humans Computer Simulation QA Molecular Biology Computation (stat.CO) Statistic Statistics - Methodology ComputingMilieux_MISCELLANEOUS 030304 developmental biology 0303 health sciences Likelihood Functions QH 030302 biochemistry & molecular biology Bayes Theorem [INFO.INFO-MO]Computer Science [cs]/Modeling and Simulation Computer Science Applications Random forest Statistics::Computation Computational Mathematics Genetics Population Computational Theory and Mathematics Approximate Bayesian computation Algorithm |
Zdroj: | Bioinformatics Bioinformatics, Oxford University Press (OUP), 2019, 35 (10), pp.1720-1728. ⟨10.1093/bioinformatics/bty867⟩ Bioinformatics, Oxford University Press (OUP), 2018, ⟨10.1093/bioinformatics/bty867⟩ Bioinformatics, 2019, 35 (10), pp.1720-1728. ⟨10.1093/bioinformatics/bty867⟩ |
ISSN: | 1367-4803 1367-4811 1460-2059 |
DOI: | 10.1093/bioinformatics/bty867⟩ |
Popis: | This preprint has been reviewed and recommended by Peer Community In Evolutionary Biology (http://dx.doi.org/10.24072/pci.evolbiol.100036). Approximate Bayesian computation (ABC) has grown into a standard methodology that manages Bayesian inference for models associated with intractable likelihood functions. Most ABC implementations require the preliminary selection of a vector of informative statistics summarizing raw data. Furthermore, in almost all existing implementations, the tolerance level that separates acceptance from rejection of simulated parameter values needs to be calibrated. We propose to conduct likelihood-free Bayesian inferences about parameters with no prior selection of the relevant components of the summary statistics and bypassing the derivation of the associated tolerance level. The approach relies on the random forest methodology of Breiman (2001) applied in a (non parametric) regression setting. We advocate the derivation of a new random forest for each component of the parameter vector of interest. When compared with earlier ABC solutions, this method offers significant gains in terms of robustness to the choice of the summary statistics, does not depend on any type of tolerance level, and is a good trade-off in term of quality of point estimator precision and credible interval estimations for a given computing time. We illustrate the performance of our methodological proposal and compare it with earlier ABC methods on a Normal toy example and a population genetics example dealing with human population evolution. All methods designed here have been incorporated in the R package abcrf (version 1.7) available on CRAN. Main text: 24 pages, 6 figures Supplementary Information: 14 pages, 5 figures |
Databáze: | OpenAIRE |
Externí odkaz: |