Einrichtung eines Arbeitsablaufs für die Analyse von Fastq-Daten der Vogelgrippe, die mit Illumina-Sequenzierung erzeugt wurden

Autor: Polzer, Daniel
Jazyk: angličtina
Rok vydání: 2022
Předmět:
Popis: Die Geflügelpest ist eine Zoonose mit großen wirtschaftlichen Auswirkungen. Während eines Ausbruchs im Jahr 2003 starben mehr als 200 Millionen Stück Geflügel entweder an einer Infektion oder wurden getötet, um eine weitere Ausbreitung der Krankheit zu verhindern. Außerdem wurden einige Todesfälle bei Menschen gemeldet. Der wirtschaftliche Schaden lag in Europa und Ostasien zusammengenommen zwischen 10 und 16 Milliarden US-Dollar.1,2 Daher ist es nur logisch, dass die Vogelgrippe eine Krankheit ist, die sorgfältig überwacht werden sollte. Das Influenzavirus ist ein Virus mit einer Virushülle, die aus einer Lipiddoppelschicht besteht. Sie besitzen eine negativ-strängige ssRNA, die je nach Subtyp in sieben bis acht Segmente unterteilt ist (acht bei Influenza A und B, 7 bei Influenza C). Die Segmente 4 und 6 sind von besonderem Interesse, da sie für Hämagglutinin und Neuraminidase kodieren. Diese beiden Proteine existieren in einer Vielzahl von Subtypen. Diese Subtypen werden zur Klassifizierung von Influenzaviren verwendet. Darüber hinaus ist durch Mutationen im Hämagglutinin eine Veränderung der Pathogenität möglich. 3,4,5,6 Um diese Mutationen zu erkennen, ist eine Sequenzierung des viralen Genoms erforderlich. Mit Sequenziermethoden der nächsten Generation wie Illumina wird eine große Menge an Daten erzeugt. Für die Analyse dieser Daten sind spezielle Software-Tools erforderlich. Um die Wahrscheinlichkeit menschlicher Fehler zu verringern, empfiehlt es sich, die Tools in einer automatisierten Pipeline zu verwenden. 7 In dieser Arbeit wurde eine Pipeline zur Analyse von Fastq-Dateien erstellt, die durch Illumina-Sequenzierung von Influenza-A-Viren erzeugt wurden. Diese Pipeline erzeugt automatisch eine Berichtsdatei. Diese Pipeline wurde an Daten von drei verschiedenen Proben getestet und mit einer bereits etablierten Sequenzierungs- und Analysemethode verglichen. Mit dieser Pipeline konnte für alle drei Proben der richtige Hämagglutinin- und Neuraminidase-Subtyp bestimmt werden. Außerdem konnte die Spaltstelle des Hämagglutinins bei allen drei Proben bestimmt werden. Mit der Referenzmethode konnte die Spaltstelle nur für zwei dieser Proben bestimmt werden. Mithilfe der Pipeline wurden phylogenetische Bäume für Hämagglutinin und Neuraminidase erstellt und die Proben auf spezifische Punktmutationen getestet Avian Influenza is a zoonotic disease with a high economic impact. During an outbreak in 2003 more than 200 million poultry either died from an infection or were killed to prevent further spread of the disease. Additionally, some cases of human death were reported. The economic damage in Europe and East Asia combined ranged somewhere between 10 and 16 billion US dollars.1,2 Therefor it stands to reason, that avian influenza is a disease that should be carefully monitored. The influenza virus is a virus with viral envelop composed of a lipid bilayer. They possess a negative stranded ssRNA, which is segmented in seven to eight segments depending on the subtype (eight for Influenza A and B, 7 for influenza C). The segments 4 and 6 are of special interest since they code for hemagglutinin and neuraminidase. These to proteins exist in a variety of subtypes. These subtypes are used to classify influenza viruses. Additionally due to mutations in hemagglutinin a shift in pathogenicity is possible.3,4,5,6 To recognize these mutations sequencing of the viral genome is required. Using next generation sequencing methods like Illumina, a large amount of data is generated. Analysing this data requires special software tools. To reduce the possibility of human errors it is recommended to use the tools in an automated pipeline.7 In this thesis a pipeline was established to analyse Fastq-files generated by Illumina sequencing of influenza A viruses. This pipeline automatically generates a report file. This pipeline was tested on data from three different samples and compared to an already established sequencing and analysis method. Using this pipeline, the correct hemagglutinin and neuraminidase subtype could be determined for all three samples. Additionally, the cleavage site of hemagglutinin of all three samples could be determined. The reference method was only able to determine the cleavage site for two of these samples. Using the pipeline phylogenetic trees for hemagglutinin and neuraminidase were generated and the samples were screened for specific point mutations. Abweichender Titel laut Übersetzung der Verfasserin/des Verfassers Masterarbeit Wien, FH Campus Wien 2022
Databáze: OpenAIRE