Le génome non codant, réservoir de nouveauté génétique

Autor: Papadopoulos, Christos
Přispěvatelé: Institut de Biologie Intégrative de la Cellule (I2BC), Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS), Université Paris-Saclay, Olivier Lespinet, Anne Lopes
Jazyk: angličtina
Rok vydání: 2022
Předmět:
Zdroj: Quantitative Methods [q-bio.QM]. Université Paris-Saclay, 2022. English. ⟨NNT : 2022UPASL001⟩
Popis: The noncoding genome plays an important role in de novo gene birth and the emergence of genetic novelty. Nevertheless, how the properties of noncoding sequences could promote the birth of novel genes and shape the structural diversity and evolution of proteins remains unclear. Therefore, by combining different bioinformatic approaches, I characterized the fold potential diversity of the amino acid sequences encoded by all intergenic ORFs (Open Reading Frames) of S. cerevisiae with the aim of (i) exploring whether the structural states' diversity of proteomes is already present in noncoding sequences, and (ii) estimating the potential of the noncoding genome to produce novel protein bricks that can either give rise to novel genes or be integrated into pre-existing proteins, thus participating in protein structure diversity and evolution. We showed that amino acid sequences encoded by most intergenic ORFs contain the elementary building blocks of protein structures. Moreover, they encompass the large structural state diversity of canonical proteins with strikingly the majority predicted as foldable. Then, I investigated the early stages of de novo gene birth by reconstructing the ancestral sequences of 70 yeast de novo genes and characterized the sequence and structural properties of intergenic ORFs with a strong translation signal based on multiple Ribosome Profiling experiments. Finally, we showed a strong correlation between the fold potential of de novo proteins and the one of their ancestral amino acid sequences, reflecting the relationship between the noncoding genome and the protein structure universe.; Le génome non codant joue un rôle important dans la naissance des gènes de novo et l'émergence de la nouveauté génétique. Néanmoins, comment les propriétés des séquences non codantes pourraient favoriser la naissance de nouveaux gènes et façonner la diversité structurelle et l'évolution des protéines reste incertaine. Par conséquent, en combinant différentes approches bioinformatiques, j'ai caractérisé le repliement potentiel de la diversité des séquences d'acides aminés codées par tous les ORF (Open Reading Frames) intergéniques de S. cerevisiae dans le but (i) d'explorer si la diversité des états structuraux des protéomes est déjà présente dans des séquences non codantes, et (ii) estimer le potentiel du génome non codant à produire de nouvelles briques protéiques qui peuvent soit donner naissance à de nouveaux gènes, soit être intégrées dans des protéines préexistantes, participant ainsi à la diversité et à l'évolution de la structure des protéines. Nous avons montré que les séquences d'acides aminés codées par la plupart des ORF intergéniques contiennent les blocs élémentaires des structures protéiques. De plus, ils englobent la grande diversité d'états structuraux des protéines canoniques, la majorité étant de manière surprenant prédite comme pliable. Ensuite, j'ai étudié les premiers stades de la naissance des gènes de novo en reconstruisant les séquences ancestrales de 70 gènes de novo de la levure et j'ai caractérisé les propriétés de la séquence et de la structure des ORF intergéniques avec un fort signal de traduction sur la base de plusieurs expériences de profilage des ribosomes. Enfin, nous avons montré une forte corrélation entre le potentiel de repliement des protéines de novo et celui de leurs séquences d'acides aminés ancestrales, reflétant la relation entre le génome non codant et l'univers de la structure des protéines.
Databáze: OpenAIRE