Conception et mise en œuvre d'outils bioinformatiques pour l'analyse des données de séquençage d'ARN

Autor:	Lorenzi, Claudio
Přispěvatelé:	Institut de génétique humaine (IGH), Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS), Université Montpellier, William Ritchie
Jazyk:	angličtina
Rok vydání:	2021
Předmět:	Ngs Machine learning Algorithm development Data analysis Intelligence artificielle Développement d'algorithme Analyse des données [SDV.MHEP]Life Sciences [q-bio]/Human health and pathology
Zdroj:	Human health and pathology. Université Montpellier, 2021. English. ⟨NNT : 2021MONTT052⟩
Popis:	A large portion of the information contained in next-generation sequencing data is potentially lost through classical bioinformatics analysis. Both the mapping of sequencing reads to a genome or transcriptome and filtering results to focus on known gene regions eliminate useful information. This is especially true in cancer studies where patient transcriptomes or genomes may vary from their references.We created a novel approach that makes use of recent advances in genetic algorithms, neural networks and feature selection to comprehensively explore massive volumes of sequencing data to classify samples without these biases. Our approach, called GECKO for GEnetic Classification using k-mer Optimisation maximizes the sequencing information used when trying to explain the difference between 2 or more samples. Our algorithm has been effective at classifying data from large-scale cancer studies using mRNA-seq, circulating DNA or whole-genome resequencing.iMOKA (interactive multi-objective k-mer analysis) is a software that enables the comprehensive analysis of sequencing data from large cohorts to generate robust classification models or explore specific genetic elements associated with disease etiology. iMOKA uses a fast and accurate feature reduction step that combines a Naïve Bayes classifier augmented by an adaptive entropy filter and a graph-based filter to rapidly reduce the search space. By using a flexible file format and distributed indexing, iMOKA can easily integrate data from multiple experiments and also reduces disk space requirements and identifies changes in transcript levels and single nucleotide variants.Our software could be run on a desktop computer and enable scientists and clinicians to discover novel informative sequences in their own NGS data.Accurate quantification and detection of intron retention levels require specialized software. Building on our previous software, we have created a suite of tools: IRFinder-S, to analyse and explore intron retention events in multiple samples. Specifically, IRFinder-S allows a better identification of true intron retention events using a convolutional neural network, allows the sharing of intron retention results between labs, integrates a dynamic database to explore and contrast available samples and provides a tested method to detect differential levels of intron retention.; Une grande partie des informations contenues dans les données de séquençage de nouvelle génération est potentiellement perdue par l'analyse bioinformatique classique. L'alignement des lectures de séquençage sur un génome ou un transcriptome et le filtrage des résultats pour se concentrer sur des régions génétiques connues éliminent les informations utiles. Cela est particulièrement vrai dans les études sur le cancer où les transcriptomes ou les génomes des patients peuvent différer de leurs références.Nous avons créé une nouvelle approche qui utilise les avancées récentes dans les algorithmes génétiques, les réseaux de neurones et la sélection de caractéristiques pour explorer de manière exhaustive des volumes massifs de données de séquençage afin de classer les échantillons sans ces biais. Notre approche, appelée GECKO pour GEnetic Classification using k-mer Optimization, maximise les informations de séquençage utilisées pour tenter d'expliquer la différence entre 2 échantillons ou plus. Notre algorithme s'est avéré efficace pour classer les données d'études sur le cancer à grande échelle à l'aide du séquençage de l'ARNm, de l'ADN circulant ou du reséquençage du génome entier.iMOKA (interactive multi-objective k-mer analysis) est un logiciel qui permet l'analyse complète des données de séquençage de grandes cohortes pour générer des modèles de classification robustes ou explorer des éléments génétiques spécifiques associés à l'étiologie de la maladie. iMOKA utilise une étape de réduction de caractéristiques rapide et précise qui combine un classificateur Naïve Bayes augmenté d'un filtre d'entropie adaptatif et d'un filtre basé sur un graphique pour réduire rapidement l'espace de recherche. En utilisant un format de fichier flexible et une indexation distribuée, iMOKA peut facilement intégrer les données de plusieurs expériences et réduit également les besoins en espace disque et identifie les changements dans les niveaux de transcription et les variantes de nucléotide unique.Notre logiciel pourrait être exécuté sur un ordinateur de bureau et permettre aux scientifiques et aux cliniciens de découvrir de nouvelles séquences informatives dans leurs propres données NGS.La quantification et la détection précises des niveaux de rétention d'intron nécessitent un logiciel spécialisé. En nous appuyant sur notre logiciel précédent, nous avons créé une suite d'outils : IRFinder-S, pour analyser et explorer les événements de rétention d'intron dans plusieurs échantillons. Plus précisément, IRFinder-S permet une meilleure identification des véritables événements de rétention d'intron à l'aide d'un réseau de neurones convolutifs, permet le partage des résultats de rétention d'intron entre les laboratoires, intègre une base de données dynamique pour explorer et contraster les échantillons disponibles et fournit une méthode testée pour détecter les niveaux différentiels de rétention d'intron.
Databáze:	OpenAIRE
Externí odkaz:	https://explore.openaire.eu/search/publication?articleId=dedup_wf_001::8361d5dfab91433f3afb10465cdb862a https://tel.archives-ouvertes.fr/tel-03509333 Zobrazit plný text záznamu