Efficient quantification of meta'ome using lightweight alignment
Autor: | Alampalli, Shuba Varshini |
---|---|
Jazyk: | angličtina |
Rok vydání: | 2024 |
Předmět: | |
Druh dokumentu: | Doctoral Thesis<br />Doctoral Thesis |
DOI: | 10.25972/OPUS-33009 |
Popis: | Metagenome and metatranscriptome (Meta'ome) sequencing is used to study complex microbial communities. There are already methods that perform well for taxonomic assignment of metagenomic data, but for quantification of metatranscriptomic data, these methods only assign a small percentage of reads with their pre-compiled databases. In contrast to RNA-seq of a single species, in meta’omics studies, reads are assigned to multiple reference sequences due to microbial sequence similarity (ambiguous mapping). Alignment-free methods established for bulk RNA-seq data may be useful for resolving read ambiguity and quantifying meta'omic data. So far, the usage of alignment-free methods in meta’omics has focused on taxonomic abundances but does not provide quantifications of genes or gene families for functional characterization of the meta'ome. Salmon's lightweight alignment, an alignment-free method, quantifies gene abundances precisely despite including reads with mapping uncertainties such as sequencing errors and high-similarity sequences, making it a superior tool for quantifying meta'omic data that uses species' gene sequences as references. This work presents the application of lightweight alignment methods like Salmon to efficiently quantify meta’omic data. I begin by evaluating the existing pipelines/tools with unpublished metagenome and metatranscriptome datasets gathered to examine how the microbiome protects against Salmonella Typhimurium infection in a mouse typhoid model. This analysis revealed a lack of representation of microbiome-associated reference sequences in the pre-compiled databases of the available tools, as well as the difficulty to assign ambiguous mapping to one species in the presence of closely related reference sequences. As an initial proof of concept, Salmon's lightweight alignment assigned the majority of the reads to bacterial reference genomes combined with mouse metagenomic-assembled genomes (MAGs), resolving mapping ambiguity. I performed a simulation-based benchmark analysis using Salmon employing different reference sequence databases to examine the influencethe reference database. For an efficient and reproducible analysis, I developed FLAMe (Flexible Lightweight Alignment of Meta'ome), a Nextflow pipeline that uses Salmon's lightweight and selective alignment to quantify meta'omics data at the species gene level. I examined the influence of gut inflammation and subsequent Salmonella Typhimurium colonisation on the resident mouse gut microbiota using the FLAMe pipeline. This way, I was able to recover many taxonomic and functional groups which have previously been related to Salmonella pathogenesis in the gut. Taken together, this demonstrates that the pipeline quantifies meta'omic data efficiently and reliably. Lastly, I showed that FLAMe can be applied to different experimental setups that generate meta'omic data, which shows its versability in characterising the microbiome. Metagenomische und metatranskriptomische (Meta'ome) Sequenzierung ermöglicht die Untersuchung einer mikrobiellen Gemeinschaft in ihrer natürlichen Umgebung. Methoden für die taxonomische Bestimmung von metagenomischen Daten existieren, ordnen jedoch aufgrund ihrer begrenzten Datenbanken nur einen geringen Prozentsatz der metatranskriptomischen Reads zu.. Im Kontrast zur RNA-Sequenzierung einer einzelnen Spezies (RNA-seq) werden die Reads mehreren Referenzgenomen zugeordnet. Alignment-freie Methoden, die für RNA-seq bereits etabliert sind, können helfen die Zuweisung und Quantifizierung von Reads aus Meta'ome-Daten zu verbessern. In Meta’ome Studien wurden Alignment-freie Methoden bisher überwiegend zur Bestimmung der taxonomischen Zusammensetzung verwendet. Sie sind daher nicht geeignet, um die Expression von Genen oder Gen-Familien zu bestimmen, was für eine funktionelle Charakterisierung notwendig ist. Salmons “quasi-mapping”, ein Alignment-freier Ansatz, quantifiziert Genexpression mit hoher Genauigkeit, obwohl es Reads mit Sequenzierungsfehlern oder sehr ähnlichen Sequenzen mit einbezieht. Deswegen sollte es sich ebenfalls gut zur Meta'ome Quantifizierung eignen. Diese Arbeit zeigt die Anwendung von Alignment-freien Methoden wie Salmon auf Meta'ome-Daten. Zuerst evaluierte ich vorhandene Pipelines / Tools mit unseren eigenen metagenomischen und metatranskriptomischen Datensätze eines Maus-Typhus-Modells um zu untersuchen, wie das Mikrobiom vor einer Salmonella Typhimurium Infektion schützt. Dabei zeigte sich, dass viele mikrobiom-assoziierte Referenzgenome in den vorkompilierten Datenbanken der vorhandenen Tools fehlten. Zusätzlich bestehen Ambiguitäten bei der Zuordnung von Reads zu Referenzgenomen eng verwandter Spezien. Mit Salmon war es jedoch möglich, die Mehrheit der Reads einer Kombination des RefSeq Referenzgenoms und eines zusammengebauten Maus-Metagenom Referenzgenoms (MAG) zuzuordnen. Mit Hilfe von Simulationen untersuchte ich den Effekt von unterschiedlichen Referenz-Datenbanken auf die Quantifizierung mit Salmon. Für eine effiziente und reproduzierbare Analyse entwickelte ich FLAMe (Flexible Lightweight Alignment of Meta'ome), eine Nextflow Pipeline, die mit Salmons leichtem und selektivem Alignment von Meta'ome-Daten auf dem Level von Genen einzelner Spezies quantifiziert. Damit untersuchte ich den Einfluss von Darmentzündungen und anschließender Kolonisierung durch Salmonella Typhimurium auf das residente Maus-Mikrobiom. Dabei identifizierte ich zahlreiche taxonomische und funktionelle Gruppen, die bereits in früheren Studien mit der Pathogenese von Salmonella im Darm in Verbindung gebracht wurden. Insgesamt zeigte meine Analyse, dass die FLAMe Pipeline das Meta’ome effizient und zuverlässig quantifiziert. Zusätzlich wandte ich FLAMe auf weitere Meta'ome Experimente an. Dies zeigte, dass die Pipeline flexibel und vielseitig anwendbar ist |
Databáze: | Networked Digital Library of Theses & Dissertations |
Externí odkaz: |