Přispěvatelé: |
Equipe de recherche européenne en algorithmique et biologie formelle et expérimentale (ERABLE), Inria Grenoble - Rhône-Alpes, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria), Laboratoire de Biométrie et Biologie Evolutive - UMR 5558 (LBBE), Université Claude Bernard Lyon 1 (UCBL), Université de Lyon-Université de Lyon-Institut National de Recherche en Informatique et en Automatique (Inria)-VetAgro Sup - Institut national d'enseignement supérieur et de recherche en alimentation, santé animale, sciences agronomiques et de l'environnement (VAS)-Centre National de la Recherche Scientifique (CNRS), Université Claude Bernard Lyon 1, Dr. Marie-France Sagot, Gutiérrez Rodrigo A. (Co-directeur) |
Popis: |
MicroRNAs (miRNAs) are small non-coding RNAs that are key players in the regulation of gene expression. miRNAs are involved in a wide range of biological processes including cell cycle, differentiation, apoptosis, and disease. In the last decade, with the increasing accessibility of high-throughput sequencing technologies, sRNAs-seq experiments have provided the opportunity to identify miRNAs, and to predict the miRNA-mRNA regulatory network to better understand their biological role and function. Different algorithms have been developed during the last years to achieve this, but it has proven difficult to achieve a complete characterization of miRNAs and of their targets that would enable to well identify and annotate them. The work in this thesis started by a participation in the experimental and bioinformatic analysis of dual miRNA-seq and mRNA-seq data obtained by profiling the host-pathogen interaction of Sus scrofa with the bacterium Mycoplasma hyopneumoniae. The experience I thus acquired with the current state-of-the-art tools for miRNA discovery and miRNA target prediction was essential to identify the weaknesses of the current tools and therefore the real need to develop new algorithms related to the first step of the analysis of miRNAs, namely their identification. This then represented the main objective of this thesis. With that objective in mind, I developed the BrumiR toolkit, which is a package composed of three tools: 1) a new discovery miRNA tool called BrumiR-core, 2) a specific genome mapper called BrumiR2Reference, and 3) a sRNA-seq read simulator called miRsim. In particular, BrumiR-core is a de novo algorithm based on a de Bruijn graph approach that is able to identify miRNAs directly and exclusively from sRNA-seq data. We benchmarked BrumiR using simulated and real sRNA-seq data of both animal and plant species. The results demonstrate that BrumiR reaches the highest recall for miRNA discovery, while at the same time being much faster and more efficient than the state-of-the-art tools evaluated. In summary, we present a new and versatile method that implements novel algorithmic ideas for the study of miRNAs that complements and extends the currently existing approaches. The code of the BrumiR toolkit is freely available in GitHub (https://github.com/camoragaq).; Les microARNs (miARNs) sont de petits ARNs non codants qui jouent un rôle clé dans la régulation de l’expression génique. Les miARNs sont impliqués dans un large éventail de processus biologiques, notamment le cycle cellulaire, la différenciation, l’apoptose et les maladies. Au cours de la dernière décennie, avec l’accessibilité croissante des technologies de séquençage à haut débit, les expériences de sARN-seq ont permis d’identifier les miARNs et de prédire le réseau de régulation miARN-ARNm pour mieux comprendre leur rôle et leur fonction biologiques. Différents algorithmes ont été développés au cours des dernières années pour y parvenir, mais il s’est avéré difficile de réaliser une caractérisation complète des miARNs et de leurs cibles qui permettrait de bien les identifier et les annoter. Les travaux de cette thèse ont débuté par une participation à l’analyse expérimentale et bioinformatique de données dual miARN-seq et mARN-seq obtenues en profilant l’interaction hôte-pathogène de Sus scrofa avec la bactérie Mycoplasma hyopneumoniae. L’expérience que j’ai ainsi acquise avec les outils de pointe pour la découverte de miARNs et la prédiction de leurs cibles a été essentielle pour identifier les faiblesses des algorithmes actuels et donc le réel besoin de développer de nouveaux algorithmes liés à la première étape de l’analyse de miARNs, à savoir leur identification. Cela a représenté alors l’objectif principal de cette thèse. Avec cet objectif à l’esprit, j’ai développé la boîte à outils BrumiR, qui est un package composé de trois parties : 1) un nouvel outil de découverte de miRNAs appelé BrumiR-core, 2) un algorithme spécifique d’alignement sur génome appelé BrumiR2Reference, et 3) un simulateur de lecture sARN-seq appelé miRsim. En particulier, BrumiR-core est un algorithme de novo basé sur une approche de graphe de de Bruijn qui est capable d’identifier les miARNs directement et exclusivement à partir de données de sARN-seq. Nous avons effectué un benchmark de BrumiR en utilisant des jeux de données simulées et réelles de sRNA-seq d’espèces animales et végétales. Les résultats montrent que BrumiR atteint le rappel le plus élevé pour la découverte de miARNs, tout en étant beaucoup plus rapide et plus efficace que les outils de pointe évalués. En résumé, nous présentons une nouvelle méthode polyvalente qui met en œuvre de nouvelles idées algorithmiques pour l’étude des miARNs qui complète et étend les approches actuellement existantes. Le code de la boîte à outils BrumiR est disponible gratuitement dans GitHub (https://github.com/camoragaq). |