FEELnc: a tool for long non-coding RNA annotation and its application to the dog transcriptome
Autor: | Wucher, Valentin, Legeai, Fabrice, Hédan, Benoît, Rizk, Guillaume, Lagoutte, Lætitia, Leeb, Tosso, Jagannathan, Vidhya, Cadieu, Edouard, David, Audrey, Lohi, Hannes, Cirera, Susanna, Fredholm, Merete, Botherel, Nadine, Leegwater, Peter A J, Le Béguec, Céline, Fieten, Hille, Johnson, Jeremy, Alföldi, Jessica, André, Catherine, Lindblad-Toh, Kerstin, Hitte, Christophe, Derrien, Thomas |
---|---|
Přispěvatelé: | Institut de Génétique et Développement de Rennes (IGDR), Université de Rennes (UR)-Centre National de la Recherche Scientifique (CNRS)-Structure Fédérative de Recherche en Biologie et Santé de Rennes ( Biosit : Biologie - Santé - Innovation Technologique ), Scalable, Optimized and Parallel Algorithms for Genomics (GenScale), Inria Rennes – Bretagne Atlantique, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-GESTION DES DONNÉES ET DE LA CONNAISSANCE (IRISA-D7), Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)-Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)-Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT), Institut de Génétique, Environnement et Protection des Plantes (IGEPP), Institut National de la Recherche Agronomique (INRA)-Université de Rennes (UR)-AGROCAMPUS OUEST, Institute of Genetics, University of Bern, Helsingin yliopisto = Helsingfors universitet = University of Helsinki, Folkhälsan Institute of Genetics, Department of Veterinary Clinical and Animal Sciences, Faculty of Health and Medical Sciences, University of Copenhagen = Københavns Universitet (UCPH)-University of Copenhagen = Københavns Universitet (UCPH), IT University of Copenhagen (ITU), Universiteit Utrecht, Broad Institute of MIT and Harvard (BROAD INSTITUTE), Harvard Medical School [Boston] (HMS)-Massachusetts Institute of Technology (MIT)-Massachusetts General Hospital [Boston], Science for Life Laboratory, Uppsala University-Department of Medical Biochemistry and Microbiology, 7th PCRD 'Health programs' LUPA consortium [FP7] [GA: 201370], French National Research Agency [ANR-11-INBS-0003], European Young Investigator Award from European Science Foundation, European Research Council, ANR-11-INBS-0003,CRB-Anim,Réseau de Centres de Ressources Biologiques pour les animaux domestiques(2011), European Project: 201370,EC:FP7:HEALTH,FP7-HEALTH-2007-A,LUPA(2008), Université de Rennes 1 (UR1), Université de Rennes (UNIV-RENNES)-Université de Rennes (UNIV-RENNES)-Centre National de la Recherche Scientifique (CNRS)-Structure Fédérative de Recherche en Biologie et Santé de Rennes ( Biosit : Biologie - Santé - Innovation Technologique ), Université de Bretagne Sud (UBS)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National de Recherche en Informatique et en Automatique (Inria)-École normale supérieure - Rennes (ENS Rennes)-Centre National de la Recherche Scientifique (CNRS)-Université de Rennes 1 (UR1), Université de Rennes (UNIV-RENNES)-CentraleSupélec-IMT Atlantique Bretagne-Pays de la Loire (IMT Atlantique), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)-Université de Bretagne Sud (UBS)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-École normale supérieure - Rennes (ENS Rennes)-Centre National de la Recherche Scientifique (CNRS)-Université de Rennes 1 (UR1), Institut National de la Recherche Agronomique (INRA)-Université de Rennes 1 (UR1), Université de Rennes (UNIV-RENNES)-Université de Rennes (UNIV-RENNES)-AGROCAMPUS OUEST, Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro)-Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro), University of Helsinki, University of Copenhagen = Københavns Universitet (KU)-University of Copenhagen = Københavns Universitet (KU), IT University of Copenhagen, Structure Fédérative de Recherche en Biologie et Santé de Rennes ( Biosit : Biologie - Santé - Innovation Technologique )-Centre National de la Recherche Scientifique (CNRS)-Université de Rennes 1 (UR1), Université de Rennes (UNIV-RENNES)-Université de Rennes (UNIV-RENNES), Université de Rennes (UNIV-RENNES)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique Bretagne-Pays de la Loire (IMT Atlantique), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)-Université de Rennes 1 (UR1), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique Bretagne-Pays de la Loire (IMT Atlantique), ANR-11-INBS-0003/11-INBS-0003,CRB-Anim,Réseau de Centres de Ressources Biologiques pour les animaux domestiques(2011), Research Programs Unit, Hannes Tapani Lohi / Principal Investigator, Veterinary Biosciences, Veterinary Genetics, Research Programme for Molecular Neurology |
Jazyk: | angličtina |
Rok vydání: | 2017 |
Předmět: |
COMPARATIVE GENOMICS
PREDICTION Medical Biotechnology (with a focus on Cell Biology (including Stem Cell Biology) Molecular Biology Microbiology Biochemistry or Biopharmacy) 610 Medicine & health arn non codant Mice Open Reading Frames Dogs [SDV.BBM.GTP]Life Sciences [q-bio]/Biochemistry Molecular Biology/Genomics [q-bio.GN] Animals Humans RECONSTRUCTION RNA Messenger analyse du transcriptome Medicinsk bioteknologi (med inriktning mot cellbiologi (inklusive stamcellsbiologi) molekylärbiologi mikrobiologi biokemi eller biofarmaci) Genome IDENTIFICATION Sequence Analysis RNA HUMAN-CELLS génome Decision Trees Molecular Sequence Annotation QUANTIFICATION GENE CANCER [SDV.BIBS]Life Sciences [q-bio]/Quantitative Methods [q-bio.QM] EVOLUTION Benchmarking [SDV.GEN.GA]Life Sciences [q-bio]/Genetics/Animal genetics DIFFERENTIATION Gene Expression Regulation 1182 Biochemistry cell and molecular biology Methods Online 570 Life sciences biology 590 Animals (Zoology) RNA Long Noncoding Transcriptome Software |
Zdroj: | Nucleic Acids Research Nucleic Acids Research, 2017, 45 (8), pp.12. ⟨10.1093/nar/gkw1306⟩ Nucleic Acids Research, Oxford University Press, 2017, 45 (8), pp.12. ⟨10.1093/nar/gkw1306⟩ Wucher, Valentin; Legeai, Fabrice; Hédan, Benoît; Rizk, Guillaume; Lagoutte, Lætitia; Leeb, Tosso; Jagannathan, Vidhya; Cadieu, Edouard; David, Audrey; Lohi, Hannes; Cirera, Susanna; Fredholm, Merete; Botherel, Nadine; Leegwater, Peter A J; Le Béguec, Céline; Fieten, Hille; Johnson, Jeremy; Alföldi, Jessica; André, Catherine; Lindblad-Toh, Kerstin; ... (2017). FEELnc: a tool for long non-coding RNA annotation and its application to the dog transcriptome. Nucleic acids research, 45(8), e57. Information Retrieval Ltd. 10.1093/nar/gkw1306 Wucher, V, Legeai, F, Hédan, B, Rizk, G, Lagoutte, L, Leeb, T, Jagannathan, V, Cadieu, E, David, A, Lohi, H, Cirera Salicio, S, Fredholm, M, Botherel, N, Leegwater, P A J, Le Béguec, C, Fieten, H, Johnson, J J, Alföldi, J, André, C, Lindblad-Toh, K, Hitte, C & Derrien, T 2017, ' FEELnc : A tool for long non-coding RNA annotation and its application to the dog transcriptome ', Nucleic Acids Research, vol. 45, no. 8, e57 . https://doi.org/10.1093/nar/gkw1306 Nucleic Acids Research 8 (45), . (2017) |
ISSN: | 0305-1048 1362-4962 |
Popis: | International audience; Whole transcriptome sequencing (RNA-seq) has become a standard for cataloguing and monitoring RNA populations. One of the main bottlenecks, however, is to correctly identify the different classes of RNAs among the plethora of reconstructed transcripts, particularly those that will be translated (mRNAs) from the class of long non-coding RNAs (lncRNAs). Here, we present FEELnc (FlExible Extraction of LncRNAs), an alignment-free program that accurately annotates lncRNAs based on a Random Forest model trained with general features such as multi k-mer frequencies and relaxed open reading frames. Benchmarking versus five state-of-the-art tools shows that FEELnc achieves similar or better classification performance on GENCODE and NONCODE data sets. The program also provides specific modules that enable the user to fine-tune classification accuracy, to formalize the annotation of lncRNA classes and to identify lncRNAs even in the absence of a training set of non-coding RNAs. We used FEELnc on a real data set comprising 20 canine RNA-seq samples produced by the European LUPA consortium to substantially expand the canine genome annotation to include 10 374 novel lncRNAs and 58 640 mRNA transcripts. FEELnc moves beyond conventional coding potential classifiers by providing a standardized and complete solution for annotating lncRNAs and is freely available at https://github.com/tderrien/FEELnc. |
Databáze: | OpenAIRE |
Externí odkaz: |