Decoding the oak genome: public release of sequence data, assembly, annotation and publication strategies

Autor: Jean-Marc Aury, Sébastien Duplessis, Joelle Amselem, Célia Michotey, Delphine Steinbach, Christophe Plomion, Catherine Bodénès, Valérie Barbe, Franck Salin, Jean-Charles Leplé, Patrick Wincker, Hélène Bergès, Nicolas Francillonne, Christophe Klopp, Florent Murat, Jérôme Salse, Barbara Estrada-Mairey, Isabelle Le Clainche, Antoine Kremer, Nathalie Boudet, Caroline Belser, Grégoire Le Provost, Thibault Leroy, Aurélie Canaguier, Christophe Boury, François Ehrenmann, Jonathan Mercier, Isabelle Lesur, Stéphanie Fouteau, Francis Martin, Hadi Quesneville, Cécile Guichard, Tina Alaeitabar, Christine Gaspin, Céline Lalanne, Karine Labadie, Arnaud Couloux, Corinne Da Silva, Patricia Faivre-Rampant
Přispěvatelé: Biodiversité, Gènes & Communautés (BioGeCo), Institut National de la Recherche Agronomique (INRA)-Université de Bordeaux (UB), Genoscope - Centre national de séquençage [Evry] (GENOSCOPE), Université Paris-Saclay-Direction de Recherche Fondamentale (CEA) (DRF (CEA)), Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA), Unité de Recherche Génomique Info (URGI), Institut National de la Recherche Agronomique (INRA), Centre National de Ressources Génomiques Végétales (CNRGV), Unité de recherche en génomique végétale (URGV), Institut National de la Recherche Agronomique (INRA)-Université d'Évry-Val-d'Essonne (UEVE)-Centre National de la Recherche Scientifique (CNRS), Interactions Arbres-Microorganismes (IAM), Institut National de la Recherche Agronomique (INRA)-Université de Lorraine (UL), Unité de Biométrie et Intelligence Artificielle de Toulouse [Castanet-Tolosan] (UBIA), Institut National de la Recherche Agronomique (INRA)-Plateforme bioinformatique du GIS GENOTOUL - Génopole Toulouse Midi-Pyrénées, Unité de recherche Amélioration, Génétique et Physiologie Forestières (AGPF), Génétique Diversité et Ecophysiologie des Céréales (GDEC), Institut National de la Recherche Agronomique (INRA)-Université Blaise Pascal - Clermont-Ferrand 2 (UBP), Génomique métabolique (UMR 8030), Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Université Paris-Saclay-Direction de Recherche Fondamentale (CEA) (DRF (CEA)), Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Université d'Évry-Val-d'Essonne (UEVE)-Centre National de la Recherche Scientifique (CNRS), Université Blaise Pascal - Clermont-Ferrand 2 (UBP)-Institut National de la Recherche Agronomique (INRA), Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Centre National de la Recherche Scientifique (CNRS)-Université d'Évry-Val-d'Essonne (UEVE), Unité de Biométrie et Intelligence Artificielle (ancêtre de MIAT) (UBIA), Centre National de la Recherche Scientifique (CNRS)-Université d'Évry-Val-d'Essonne (UEVE)-Institut National de la Recherche Agronomique (INRA), Université de Lorraine (UL)-Institut National de la Recherche Agronomique (INRA), Unité de recherche Amélioration, Génétique et Physiologie Forestières (UAGPF), Génétique Diversité et Ecophysiologie des Céréales - Clermont Auvergne (GDEC), Institut National de la Recherche Agronomique (INRA)-Université Clermont Auvergne (UCA)
Jazyk: angličtina
Rok vydání: 2015
Předmět:
Zdroj: Molecular Ecology Resources
Molecular Ecology Resources, Wiley/Blackwell, 2015, 16 (1), pp.254-265. ⟨10.1111/1755-0998.12425⟩
Molecular Ecology Resources, 2015, 16 (1), pp.254-265. ⟨10.1111/1755-0998.12425⟩
ISSN: 1755-098X
1755-0998
Popis: International audience; The 1.5 Gbp/2C genome of pedunculate oak (Quercus robur) has been sequenced. A strategy was established for dealing with the challenges imposed by the sequencing of such a large, complex and highly heterozygous genome by a whole-genome shotgun (WGS) approach, without the use of costly and time-consuming methods, such as fosmid or BAC clone-based hierarchical sequencing methods. The sequencing strategy combined short and long reads. Over 49 million reads provided by Roche 454 GS-FLX technology were assembled into contigs and combined with shorter Illumina sequence reads from paired-end and mate-pair libraries of different insert sizes, to build scaffolds. Errors were corrected and gaps filled with Illumina paired-end reads and contaminants detected, resulting in a total of 17,910 scaffolds (>2 kb) corresponding to 1.34 Gb. Fifty per cent of the assembly was accounted for by 1468 scaffolds (N50 of 260 kb). Initial comparison with the phylogenetically related Prunus persica gene model indicated that genes for 84.6% of the proteins present in peach (mean protein coverage of 90.5%) were present in our assembly. The second and third steps in this project are genome annotation and the assignment of scaffolds to the oak genetic linkage map. In accordance with the Bermuda and Fort Lauderdale agreements and the more recent Toronto Statement, the oak genome data have been released into public sequence repositories in advance of publication. In this presubmission paper, the oak genome consortium describes its principal lines of work and future directions for analyses of the nature, function and evolution of the oak genome.
Databáze: OpenAIRE