Design and practical usage of web biological databases for the annotation and classification of proteins

Autor: Hermoso Pulido, Toni
Jazyk: katalánština
Rok vydání: 2015
Předmět:
Zdroj: TDX (Tesis Doctorals en Xarxa).
Druh dokumentu: Doctoral Thesis
Popis: En l'anomenada societat de la informació, les dades representen unes parts estructurals clau en la generació del coneixement. De la mateixa manera, la Bioinformàtica depèn en darrer terme d'una adequada gestió i processament de les dades que s'originen de les anàlisis tant tradicionals com d'alt rendiment. Com a objectiu principal d'aquesta tesi, s'han compilat diferents aproximacions pràctiques per a la manipulació de les dades de seqüenciació de proteïnes i les anàlisis resultants que s'hi apliquen. En tot cas, com a pas preliminar, eines i algorismes bioinformàtics preexistents s'han adaptat abans al paradigma de la informació actual, bàsicament centrat en el World Wide Web. Després d'una pertinent adaptació d'aquestes aplicacions (en aquest document: ProtLoc, TransMem, TranScout i Bypass), esdevé possible encarar el processament massiu de dades proteiques que s'han originat dels darrers projectes de seqüenciació de genomes. Els resultats d'aquestes anàlisis es fan disponibles per a la comunitat científica d'arreu del món mitjançant bases de dades biològiques basades en el web, de ple accés i d'ús amigable. Com exemples, es presenten dos casos: TrSDB, un compendi de factors de transcripció coneguts i putatius de diferents organismes models, i ArchDB, una base de dades web estructural de llaços de proteïnes. Com a pas posterior, a partir del programa Bypass —una eina basada en lògica difusa per a la reanotació i avaluació d'alineaments proteics obtinguts amb cerca per homologia— s'implementa un entorn complet d'anotació i gestió de seqüències. Com a punt fort, el sistema també és suficientment flexible i modular per a permetre l'entrada de diferents tipus de dades (p. ex., Gene Ontology) o comunicar-se amb altres aplicacions ja existents i potencialment futures. De forma paral·lela, i aprofitant l'explosió de dades crues de seqüenciació i la curació de les bases de dades, es presenta una caracterització bioinformàtica d'una nova família de metal·locarboxipeptidases. Mitjançant aproximacions computacionals, va ser possible plantejar unes primeres hipòtesis per a l'activitat enzimàtica i la història filogenètica d'aquest grup de proteïnes. Notablement, llur identificació pot representar un enfocament esperançador per a tractar processos biològics com ara la malària o desordres neuronals, on aquestes molècules s'hi troben implicades estretament.
En la llamada sociedad de la información, los datos representan unas partes estructurales clave en la generación del conocimiento. Del mismo modo, la Bioinformática depende en último término de una adecuada gestión y procesado de los datos que se originan de los análisis tanto tradicionales como de alto rendimiento. Como objetivo principal de esta tesis, se han compilado diferentes aproximaciones prácticas para la manipulación de los datos de secuenciación de proteínas y los análisis resultantes que se aplican. En todo caso, como paso preliminar, herramientas y algoritmos bioinformáticos preexistentes se han adaptado antes al paradigma de la información actual, básicamente centrado en el World Wide Web. Después de una pertinente adaptación de estas aplicaciones (en este documento: ProtLoc, TransMem, TranScout y Bypass), se hace posible encarar el procesamiento masivo de datos proteicos que se han originado de los últimos proyectos de secuenciación de genomas. Los resultados de estos análisis se hacen disponibles para la comunidad científica mundial mediante bases de datos biológicas basadas en el web, de pleno acceso y de uso amigable. Como ejemplos, se presentan dos casos: TrSDB, un compendio de factores de transcripción conocidos y putativos de diferentes organismos modelos, y ArchDB, una base de datos web estructural de lazos de proteínas. Como paso posterior, a partir del programa Bypass —una herramienta basada en lógica difusa para la reanotación y evaluación de alineamientos proteicos obtenidos a partir de búsqueda por homología— se implementa un entorno completo de anotación y gestión de secuencias. Como punto fuerte, el sistema también es suficientemente flexible y modular para permitir la entrada de diferentes tipos de datos (p. ej., Gene Ontology) o comunicarse con otras aplicaciones ya existentes y potencialmente futuras. De forma paralela, y aprovechando la explosión de datos crudos de secuenciación y la curación de las bases de datos, se presenta una caracterización bioinformática de una nueva familia de metalocarboxipeptidasas. Mediante aproximaciones computacionales, fue posible plantear unas primeras hipótesis para la actividad enzimática y la historia filogenética de este grupo de proteínas. Notablemente, su identificación puede representar un enfoque esperanzador para tratar procesos biológicos como por ejemplo la malaria o desórdenes neuronales, donde estas moléculas se encuentran implicadas estrechamente.
In the so-called Information society, data represent a key structural parts of knowledge generation. Likewise, present-day Bioinformatics ultimately relies on the proper management and processing of data originated from both traditional and high-throughput biological analyses. As a primary aim of this thesis, different practical approaches for the handling of raw protein sequence data and their applied resulting Bioinformatics analyses are compiled. Nonetheless, as a preliminary step, pre-existing Bioinformatics tools and algorithms are adapted to the characteristics of current informational paradigm, basically revolving around the World Wide Web. After a proper adaptation of those applications (in this document: ProtLoc, TransMem, TranScout and Bypass), it becomes possible to face the massive processing of protein data originating from the last genome sequencing projects. The outcomes of these analyses are made available for the world-wide scientific community in the form of user-friendly and fully accessible web-based biological databases. As examples, two cases are presented: TrSDB, a compendium of well-known and putative transcription factors from different model organisms, and ArchDB, a structural web database of protein loops. As a further step, starting from Bypass program —a fuzzy-logic based tool for the re-annotation and evaluation of protein homology search alignments—, a complete annotation and sequence management framework is deployed. As as strong point, the system is also flexible and modular enough for allowing the input of different data (e. g. Gene Ontology) or cross-communicate with other future and existing applications. Parallely to this, and also taking advantage of the explosion of raw sequence data and database curation, a Bioinformatics characterization of a new metallacarboxypeptidase family is introduced. By using computational means, it was possible to present a first hypotheses for the enzymatic activity and phylogenetical history of these group of proteins. Notably, their actual identification may represent an enlightening focus for dealing with biological processes such as malaria or neurodegenerative disorders, where these molecules are intimately linked.
Databáze: Networked Digital Library of Theses & Dissertations