Přispěvatelé: |
Institut Français de Bioinformatique (IFB-CORE), Institut National de Recherche en Informatique et en Automatique (Inria)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Institut National de la Santé et de la Recherche Médicale (INSERM)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement (INRAE), South Green Bioinformatics Platform [Montpellier], Plant Health Institute of Montpellier (UMR PHIM), Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-Institut de Recherche pour le Développement (IRD)-Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement (INRAE)-Institut Agro Montpellier, Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro)-Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro)-Université de Montpellier (UM), Laboratoire de Biométrie et Biologie Evolutive - UMR 5558 (LBBE), Université Claude Bernard Lyon 1 (UCBL), Université de Lyon-Université de Lyon-Institut National de Recherche en Informatique et en Automatique (Inria)-VetAgro Sup - Institut national d'enseignement supérieur et de recherche en alimentation, santé animale, sciences agronomiques et de l'environnement (VAS)-Centre National de la Recherche Scientifique (CNRS), Centre de Biologie pour la Gestion des Populations (UMR CBGP), Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-Institut de Recherche pour le Développement (IRD [France-Sud])-Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement (INRAE)-Institut Agro Montpellier, Institut des Sciences de l'Evolution de Montpellier (UMR ISEM), Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-École Pratique des Hautes Études (EPHE), Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-Institut de recherche pour le développement [IRD] : UR226-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM), Work was funded by ANR Grant 18-CE02-0007 (Sthoriz) to DMDV, ANR Grant 19-CE45-0010 (Evoluthon) to ET, and European Research Council grant ERC-2015-CoG-683257 (ConvergeAnt project) to FD. This is also contribution of the Institut des Sciences de l’Evolution (ISEM ) de Montpellier., ANR-18-CE02-0007,STHORIZ,DETECTION DE LA DIVERSITÉ ÉTEINTE ET INCONNUE À L'AIDE DES TRANSFERTS HORIZONTAUX(2018), ANR-19-CE45-0010,Evoluthon,La vie articifielle comme banc d'essai pour l'évolution moléculaire(2019) |
Popis: |
The documented code of PhylteR is available at https://github.com/damiendevienne/phylter along with a thorough documentation. All data and scripts used in this study are available on the dedicated GitHub repository available at https://github.com/damiendevienne/phylter-data.; In phylogenomics, incongruences between gene trees, resulting from both artifactual and biological reasons, are known to decrease the signal-to-noise ratio and complicate species tree inference. The amount of data handled today in classical phylogenomic analyses precludes manual error detection and removal. However, a simple and efficient way to automate the identification of outlier sequences is still missing.Here, we present PhylteR, a method that allows a rapid and accurate detection of outlier sequences in phylogenomic datasets, i.e. species from individual gene trees that do not follow the general trend. PhylteR relies on DISTATIS, an extension of multidimensional scaling to 3 dimensions to compare multiple distance matrices at once. In PhylteR, distance matrices obtained either directly from multiple sequence alignments or extracted from individual gene phylogenies represent evolutionary distances between species according to each gene.On simulated datasets, we show that PhylteR identifies outliers with more sensitivity and precision than a comparable existing method. On a biological dataset of 14,463 genes for 53 species previously assembled for Carnivora phylogenomics, we show (i) that PhylteR identifies as outliers sequences that can be considered as such by other means, and (ii) that the removal of these sequences improves the concordance between the gene trees and the species tree. Thanks to the generation of numerous graphical outputs, PhylteR also allows for the rapid and easy visual characterisation of the dataset at hand, thus aiding in the precise identification of errors.PhylteR is distributed as an R package on CRAN and as containerized versions (docker and singularity). |