Bioinformatic tools for analyzing epigenomic profiling data

Autor: Dinh, Quang Huy
Jazyk: angličtina
Rok vydání: 2012
DOI: 10.25365/thesis.23136
Popis: Epigenetik, die Erforschung der biologischen Information in Genomen ausserhalb der DNA Sequenz, hat durch die rasche Entwicklung der Hochdurchsatz-Techniken besonders viele Impulse bekommen. Deshalb spielt die Bioinformatik eine wichtige Rolle bei der Analyse der ausserordentlich grossen Datenmengen und der Formulierung biologischer Hypothesen in der Epigenetik. DNA Methylierung ist ein wichtiger epigenetischer Parameter in der normalen und pathologischen Entwicklungsbiologie. Genomweite DNA Methylierungsprofile werden hauptsächlich durch Bisulfit-Konversion genomischer DNA erstellt, bei der unmethyliertes Cytosin (C) in Thymin (T) umgewandelt wird, gefolgt von Hochdurchsatz-Sequenzierung (BS-Seq). Die Umwandlung von C zu T erschwert die Zuordnung der Einzelsequenzen zum Referenzgenom in mehrerer Hinsicht. Ausserdem kann mit der herkömmlichen Technik die Heterogenität der DNA Methylierung in Material aus mehreren Zellen oder Geweben nicht berücksichtigt werden. Das beeinträchtigt die Genauigkeit bei der Bestimmung der genomischen Methylierungsmuster. Deshalb sind neue bioinformatische Methoden erforderlich, um zellspezifische DNA Methylierung zu erkennen. Aufgrund der schnell wachsenden Datenmengen ist die gleichzeitige Erfassung mehrerer epigenetischer Parameter in Form von Chromatineigenschaften in verschiedenen Proben, Bedingungen oder Organismen eine weitere Herausforderung und ein wenig bearbeitetes Gebiet der Bioinformatik, jedoch Voraussetzung zur Entdeckung eines chromatin-basierten epigenetischen Codes. Vergleichende bioinformatische Ansätze werden hierbei durch unterschiedliche Verteilung und/oder Spannweite der Parameter erschwert. In dieser Dissertation stelle ich von mir entwickelte bioinformatische Methoden zu diesen Themenbereichen vor und zeige deren Anwendung auf Daten aus dem Modellorganismus Arabidopsis thaliana. Als erstes habe ich ein neues und hochauflösendes Verfahren zur Analyse von BS-Seq Daten entwickelt, welches auf dem „Smith-Waterman local alignment“ Prinzip beruht. Zweitens habe ich einen effizienten Algorithmus konzipiert, um den Grad der Heterogenität in BS-Seq Daten zu bestimmen. Drittens habe ich eine Methode entworfen, mit der man zahlreiche epigenetische Parameter und deren genomweite Profile zusammenfassen, vergleichen und optisch darstellen kann, um die weitere Analyse und Interpretation zu erleichtern.
Epigenetics, investigating the biological information of genomes not only encoded in the DNA sequence, has become a hot topic boosted by rapid development of high-throughput technologies. In the light of that, bioinformatics plays an important role in analyzing the massive datasets to further examine the data and to formulate biological hypotheses. DNA methylation is one important epigenetic mark in developmental and disease bi- ology. One widely-used technique to profile genome-wide DNA methylation is based on bisulfite conversion of unmethylated cytosines (C) to thymines (T), followed by deep sequencing technology, called BS-Seq data. The C-T conversion raises a number of challenges in mapping the bisulfite-converted short reads to the reference genome. Besides, the current technology cannot consider the heterogeneity of DNA methylation from mixtures of cells. This affects the accuracy of estimating the DNA methylation patterns in the genome. Hence, new bioinformatics methods are required to estimate the cell-type specific DNA methylation. Integrating multiple datasets of profiling epigenetic/chromatin marks for many different samples, conditions and organisms is also an underdeveloped field in bioinformatics, given the rapid growth of biological data. It is essential for further studies to find epigenomic patterns like a chromatin-based epigenetic code. However, comparative bioinformatics procedure is difficult because of different distributions or different scales of the marks. In this thesis, I have developed bioinformatics tools and applied them to the model organism, Arabidopsis thaliana. First, I have implemented a new and sensitive analysis tool for analyzing BS-Seq data based on Smith-Waterman local alignment mapping. Second, I have developed an efficient algorithm to deal with heterogeneity in DNA methylation data derived from BS-Seq. Finally, I have suggested a method to integrate epigenomic signals from multiple genome-wide profiling data for further data mining purpose, e.g. epigenetic signature discovery.
Databáze: OpenAIRE