FEELnc: a tool for long non-coding RNA annotation and its application to the dog transcriptome

Autor: Wucher, Valentin, Legeai, Fabrice, Hédan, Benoît, Rizk, Guillaume, Lagoutte, Lætitia, Leeb, Tosso, Jagannathan, Vidhya, Cadieu, Edouard, David, Audrey, Lohi, Hannes, Cirera, Susanna, Fredholm, Merete, Botherel, Nadine, Leegwater, Peter A J, Le Béguec, Céline, Fieten, Hille, Johnson, Jeremy, Alföldi, Jessica, André, Catherine, Lindblad-Toh, Kerstin, Hitte, Christophe, Derrien, Thomas
Přispěvatelé: Institut de Génétique et Développement de Rennes (IGDR), Université de Rennes (UR)-Centre National de la Recherche Scientifique (CNRS)-Structure Fédérative de Recherche en Biologie et Santé de Rennes ( Biosit : Biologie - Santé - Innovation Technologique ), Scalable, Optimized and Parallel Algorithms for Genomics (GenScale), Inria Rennes – Bretagne Atlantique, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-GESTION DES DONNÉES ET DE LA CONNAISSANCE (IRISA-D7), Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)-Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)-Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT), Institut de Génétique, Environnement et Protection des Plantes (IGEPP), Institut National de la Recherche Agronomique (INRA)-Université de Rennes (UR)-AGROCAMPUS OUEST, Institute of Genetics, University of Bern, Helsingin yliopisto = Helsingfors universitet = University of Helsinki, Folkhälsan Institute of Genetics, Department of Veterinary Clinical and Animal Sciences, Faculty of Health and Medical Sciences, University of Copenhagen = Københavns Universitet (UCPH)-University of Copenhagen = Københavns Universitet (UCPH), IT University of Copenhagen (ITU), Universiteit Utrecht, Broad Institute of MIT and Harvard (BROAD INSTITUTE), Harvard Medical School [Boston] (HMS)-Massachusetts Institute of Technology (MIT)-Massachusetts General Hospital [Boston], Science for Life Laboratory, Uppsala University-Department of Medical Biochemistry and Microbiology, 7th PCRD 'Health programs' LUPA consortium [FP7] [GA: 201370], French National Research Agency [ANR-11-INBS-0003], European Young Investigator Award from European Science Foundation, European Research Council, ANR-11-INBS-0003,CRB-Anim,Réseau de Centres de Ressources Biologiques pour les animaux domestiques(2011), European Project: 201370,EC:FP7:HEALTH,FP7-HEALTH-2007-A,LUPA(2008), Université de Rennes 1 (UR1), Université de Rennes (UNIV-RENNES)-Université de Rennes (UNIV-RENNES)-Centre National de la Recherche Scientifique (CNRS)-Structure Fédérative de Recherche en Biologie et Santé de Rennes ( Biosit : Biologie - Santé - Innovation Technologique ), Université de Bretagne Sud (UBS)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National de Recherche en Informatique et en Automatique (Inria)-École normale supérieure - Rennes (ENS Rennes)-Centre National de la Recherche Scientifique (CNRS)-Université de Rennes 1 (UR1), Université de Rennes (UNIV-RENNES)-CentraleSupélec-IMT Atlantique Bretagne-Pays de la Loire (IMT Atlantique), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)-Université de Bretagne Sud (UBS)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-École normale supérieure - Rennes (ENS Rennes)-Centre National de la Recherche Scientifique (CNRS)-Université de Rennes 1 (UR1), Institut National de la Recherche Agronomique (INRA)-Université de Rennes 1 (UR1), Université de Rennes (UNIV-RENNES)-Université de Rennes (UNIV-RENNES)-AGROCAMPUS OUEST, Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro)-Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro), University of Helsinki, University of Copenhagen = Københavns Universitet (KU)-University of Copenhagen = Københavns Universitet (KU), IT University of Copenhagen, Structure Fédérative de Recherche en Biologie et Santé de Rennes ( Biosit : Biologie - Santé - Innovation Technologique )-Centre National de la Recherche Scientifique (CNRS)-Université de Rennes 1 (UR1), Université de Rennes (UNIV-RENNES)-Université de Rennes (UNIV-RENNES), Université de Rennes (UNIV-RENNES)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique Bretagne-Pays de la Loire (IMT Atlantique), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)-Université de Rennes 1 (UR1), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique Bretagne-Pays de la Loire (IMT Atlantique), ANR-11-INBS-0003/11-INBS-0003,CRB-Anim,Réseau de Centres de Ressources Biologiques pour les animaux domestiques(2011), Research Programs Unit, Hannes Tapani Lohi / Principal Investigator, Veterinary Biosciences, Veterinary Genetics, Research Programme for Molecular Neurology
Jazyk: angličtina
Rok vydání: 2017
Předmět:
COMPARATIVE GENOMICS
PREDICTION
Medical Biotechnology (with a focus on Cell Biology (including Stem Cell Biology)
Molecular Biology
Microbiology
Biochemistry or Biopharmacy)

610 Medicine & health
arn non codant
Mice
Open Reading Frames
Dogs
[SDV.BBM.GTP]Life Sciences [q-bio]/Biochemistry
Molecular Biology/Genomics [q-bio.GN]

Animals
Humans
RECONSTRUCTION
RNA
Messenger

analyse du transcriptome
Medicinsk bioteknologi (med inriktning mot cellbiologi (inklusive stamcellsbiologi)
molekylärbiologi
mikrobiologi
biokemi eller biofarmaci)

Genome
IDENTIFICATION
Sequence Analysis
RNA

HUMAN-CELLS
génome
Decision Trees
Molecular Sequence Annotation
QUANTIFICATION
GENE
CANCER
[SDV.BIBS]Life Sciences [q-bio]/Quantitative Methods [q-bio.QM]
EVOLUTION
Benchmarking
[SDV.GEN.GA]Life Sciences [q-bio]/Genetics/Animal genetics
DIFFERENTIATION
Gene Expression Regulation
1182 Biochemistry
cell and molecular biology

Methods Online
570 Life sciences
biology
590 Animals (Zoology)
RNA
Long Noncoding

Transcriptome
Software
Zdroj: Nucleic Acids Research
Nucleic Acids Research, 2017, 45 (8), pp.12. ⟨10.1093/nar/gkw1306⟩
Nucleic Acids Research, Oxford University Press, 2017, 45 (8), pp.12. ⟨10.1093/nar/gkw1306⟩
Wucher, Valentin; Legeai, Fabrice; Hédan, Benoît; Rizk, Guillaume; Lagoutte, Lætitia; Leeb, Tosso; Jagannathan, Vidhya; Cadieu, Edouard; David, Audrey; Lohi, Hannes; Cirera, Susanna; Fredholm, Merete; Botherel, Nadine; Leegwater, Peter A J; Le Béguec, Céline; Fieten, Hille; Johnson, Jeremy; Alföldi, Jessica; André, Catherine; Lindblad-Toh, Kerstin; ... (2017). FEELnc: a tool for long non-coding RNA annotation and its application to the dog transcriptome. Nucleic acids research, 45(8), e57. Information Retrieval Ltd. 10.1093/nar/gkw1306
Wucher, V, Legeai, F, Hédan, B, Rizk, G, Lagoutte, L, Leeb, T, Jagannathan, V, Cadieu, E, David, A, Lohi, H, Cirera Salicio, S, Fredholm, M, Botherel, N, Leegwater, P A J, Le Béguec, C, Fieten, H, Johnson, J J, Alföldi, J, André, C, Lindblad-Toh, K, Hitte, C & Derrien, T 2017, ' FEELnc : A tool for long non-coding RNA annotation and its application to the dog transcriptome ', Nucleic Acids Research, vol. 45, no. 8, e57 . https://doi.org/10.1093/nar/gkw1306
Nucleic Acids Research 8 (45), . (2017)
ISSN: 0305-1048
1362-4962
Popis: International audience; Whole transcriptome sequencing (RNA-seq) has become a standard for cataloguing and monitoring RNA populations. One of the main bottlenecks, however, is to correctly identify the different classes of RNAs among the plethora of reconstructed transcripts, particularly those that will be translated (mRNAs) from the class of long non-coding RNAs (lncRNAs). Here, we present FEELnc (FlExible Extraction of LncRNAs), an alignment-free program that accurately annotates lncRNAs based on a Random Forest model trained with general features such as multi k-mer frequencies and relaxed open reading frames. Benchmarking versus five state-of-the-art tools shows that FEELnc achieves similar or better classification performance on GENCODE and NONCODE data sets. The program also provides specific modules that enable the user to fine-tune classification accuracy, to formalize the annotation of lncRNA classes and to identify lncRNAs even in the absence of a training set of non-coding RNAs. We used FEELnc on a real data set comprising 20 canine RNA-seq samples produced by the European LUPA consortium to substantially expand the canine genome annotation to include 10 374 novel lncRNAs and 58 640 mRNA transcripts. FEELnc moves beyond conventional coding potential classifiers by providing a standardized and complete solution for annotating lncRNAs and is freely available at https://github.com/tderrien/FEELnc.
Databáze: OpenAIRE