ABC random forests for Bayesian parameter inference

Autor: Mathieu Ribatet, Arnaud Estoup, Jean-Michel Marin, Pierre Pudlo, Louis Raynal, Christian P. Robert
Přispěvatelé: Institut Montpelliérain Alexander Grothendieck (IMAG), Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS), Model selection in statistical learning (SELECT), Laboratoire de Mathématiques d'Orsay (LMO), Université Paris-Sud - Paris 11 (UP11)-Centre National de la Recherche Scientifique (CNRS)-Université Paris-Sud - Paris 11 (UP11)-Centre National de la Recherche Scientifique (CNRS)-Inria Saclay - Ile de France, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria), Institut de Mathématiques de Marseille (I2M), Aix Marseille Université (AMU)-École Centrale de Marseille (ECM)-Centre National de la Recherche Scientifique (CNRS), University of Warwick [Coventry], CEntre de REcherches en MAthématiques de la DEcision (CEREMADE), Centre National de la Recherche Scientifique (CNRS)-Université Paris Dauphine-PSL, Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL), Centre de Recherche en Economie et en Statistique (CREST-INSEE), Institut national de la statistique et des études économiques (INSEE), Centre de Biologie pour la Gestion des Populations (UMR CBGP), Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-Institut National de la Recherche Agronomique (INRA)-Centre international d'études supérieures en sciences agronomiques (Montpellier SupAgro)-Université de Montpellier (UM)-Institut de Recherche pour le Développement (IRD [France-Sud])-Institut national d’études supérieures agronomiques de Montpellier (Montpellier SupAgro), Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro)-Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro), National Research Fund ANR (France) through the European Union program ERA-Net BiodivERsA (project EXOTIC), National Research Fund ANR (France) through the INRA scientific department SPE (AAP-SPE 2016), ANR-16-CE02-0015,SWING,Invasion mondiale de la drosophile à aile tachetée: Génétique, plasticité et potentiel évolutif(2016), ANR-10-LABX-0020,NUMEV,Digital and Hardware Solutions and Modeling for the Environement and Life Sciences(2010), European Project: 266546,EC:FP7:ENV,FP7-ERANET-2010-RTD,BIODIVERSA2(2010), Inria Saclay - Ile de France, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire de Mathématiques d'Orsay (LMO), Centre National de la Recherche Scientifique (CNRS)-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS)-Université Paris-Saclay, Université Paris Dauphine-PSL-Centre National de la Recherche Scientifique (CNRS), Université Paris-Sud - Paris 11 (UP11)-Centre National de la Recherche Scientifique (CNRS)-Université Paris-Sud - Paris 11 (UP11)-Centre National de la Recherche Scientifique (CNRS), Université Paris Dauphine-PSL, Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-Centre National de la Recherche Scientifique (CNRS), Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS)-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS), Centre National de la Recherche Scientifique (CNRS)-École Centrale de Marseille (ECM)-Aix Marseille Université (AMU)
Jazyk: angličtina
Rok vydání: 2019
Předmět:
FOS: Computer and information sciences
Statistics and Probability
Biometry
Computer science
Calibration (statistics)
Bayesian probability
Posterior probability
Inference
Machine Learning (stat.ML)
Bayesian inference
Biochemistry
Statistics - Computation
Methodology (stat.ME)
03 medical and health sciences
Bayes' theorem
Statistics - Machine Learning
Humans
Computer Simulation
QA
Molecular Biology
Computation (stat.CO)
Statistic
Statistics - Methodology
ComputingMilieux_MISCELLANEOUS
030304 developmental biology
0303 health sciences
Likelihood Functions
QH
030302 biochemistry & molecular biology
Bayes Theorem
[INFO.INFO-MO]Computer Science [cs]/Modeling and Simulation
Computer Science Applications
Random forest
Statistics::Computation
Computational Mathematics
Genetics
Population

Computational Theory and Mathematics
Approximate Bayesian computation
Algorithm
Zdroj: Bioinformatics
Bioinformatics, Oxford University Press (OUP), 2019, 35 (10), pp.1720-1728. ⟨10.1093/bioinformatics/bty867⟩
Bioinformatics, Oxford University Press (OUP), 2018, ⟨10.1093/bioinformatics/bty867⟩
Bioinformatics, 2019, 35 (10), pp.1720-1728. ⟨10.1093/bioinformatics/bty867⟩
ISSN: 1367-4803
1367-4811
1460-2059
DOI: 10.1093/bioinformatics/bty867⟩
Popis: This preprint has been reviewed and recommended by Peer Community In Evolutionary Biology (http://dx.doi.org/10.24072/pci.evolbiol.100036). Approximate Bayesian computation (ABC) has grown into a standard methodology that manages Bayesian inference for models associated with intractable likelihood functions. Most ABC implementations require the preliminary selection of a vector of informative statistics summarizing raw data. Furthermore, in almost all existing implementations, the tolerance level that separates acceptance from rejection of simulated parameter values needs to be calibrated. We propose to conduct likelihood-free Bayesian inferences about parameters with no prior selection of the relevant components of the summary statistics and bypassing the derivation of the associated tolerance level. The approach relies on the random forest methodology of Breiman (2001) applied in a (non parametric) regression setting. We advocate the derivation of a new random forest for each component of the parameter vector of interest. When compared with earlier ABC solutions, this method offers significant gains in terms of robustness to the choice of the summary statistics, does not depend on any type of tolerance level, and is a good trade-off in term of quality of point estimator precision and credible interval estimations for a given computing time. We illustrate the performance of our methodological proposal and compare it with earlier ABC methods on a Normal toy example and a population genetics example dealing with human population evolution. All methods designed here have been incorporated in the R package abcrf (version 1.7) available on CRAN.
Main text: 24 pages, 6 figures Supplementary Information: 14 pages, 5 figures
Databáze: OpenAIRE