Abordagem Computacional para Identificar Novos SNVs em Bases de Dados de ESTs

Autor: Sousa, Rodrigo Guarischi Mattos Amaral de
Jazyk: portugalština
Rok vydání: 2012
Předmět:
Druh dokumentu: Dissertação de Mestrado
Popis: Indivíduos não relacionados apresentam apenas 1% de diferenças entre seus genomas. Estas variações ocorrem na forma de substituições, inserções, deleções, rearranjos complexos ou até estruturais. Dentre essas variações, aquelas que apresentam uma frequência populacional acima de 1% são denominadas de polimorfismos. Tais variações são responsáveis por diferenças que vão desde a resposta imunológica até o tratamento com drogas, incluindo sensitividade das células tumorais, níveis de plasma, efeitos colaterais e toxicidade. A forma mais comum de polimorfismo genético entre humanos são os polimorfismo de base única ou Single Nucleotide Polymorphisms (SNPs), sendo mais de 47 milhões descritos no dbSNP, um banco de dados de pequenos polimorfismos do NCBI. No presente estudo, foi estabelecida uma abordagem computacional, com etapas de exclusão de regiões parálogas ou de baixa qualidade, com o objetivo de identificar variantes genéticas em sequências expressas gerados pelo método de Open Reading Frame ESTs (ORESTES) durante o Projeto Genoma Humano do Câncer. Diferentemente de outros softwares de detecção de polimorfismos, a abordagem computacional descrita neste estudo leva em consideração a informação a priori do número de bibliotecas distintas que reportaram a mesma variação. Foram identificadas 1900 mutações (853 sinônimas e 1047 não-sinônimas) presentes em duas ou mais bibliotecas distintas, que foram validados in-silico contra o dbSNP v130. O resultado da análise identificou 901 mutações já descritas no dbSNP (47,42%). Para confirmação da análise, foram selecionadas 10 mutações (6 novas e 4 já presentes no dbSNP) para validação pelo método de High Resolution Melt (HRM), seguido da caracterização por sequenciamento de DNA. Nesse caso, o resultado foi a validação de 50% das mutações selecionadas. A análise de interação protéica, Protein-Protein Interaction (PPI), realizada com as mutações não-sinônimas localizadas em domínios funcionais, revelou redes gênicas mais complexas em tecidos tumorais do que nos tecidos normais. Esta observação ratificou a literatura a respeito da transformação tumorigênica ser desencadeada pela combinação de mutações que ativam uma série de processos biológicos, para isso, afetando genes, vias gênicas e networks de vias gênicas relacionados. Em resumo, o presente estudo descreve uma abordagem computacional eficiente para identificação de mutações em dados de sequências expressas, além de avaliar o papel das mutações na tumorigênese.
Unrelated humans have only 1% of non-simularity in their genome. These variations occur as substitutions, insertions, deletions, or even complex structural rearrangements. Among these variations, those which show a population frequency above 1% are called polymorphisms. Such variations are responsible for differences ranging from the immune response to treatment with drugs, including sensitivity of tumor cells, plasma levels, toxicity and side effects. The most common form of genetic polymorphism among human are Single Nucleotide Polymorphisms (SNPs), with more than 47 million reported in dbSNP, a database of small polymorphisms from NCBI. In this study, we established a computational approach, with steps to exclude low quality and paralogous regions, aiming to identify genetic variants in expressed sequences generated by the method of Open Reading Frame ESTs (ORESTES) for the Human Cancer Genome Project. Unlike other polymorphisms detection softwares, the computational approach described in this study takes into account the a priori information about the number of different libraries that reported the same variation. We identified 1900 mutations (853 synonymous and 1047 nonsynonymous) present in two or more different libraries, these mutations were in-silico validated against the dbSNP V130. The analysis result showed 901 mutations already described in dbSNP (47.42%). To confirm the analysis, we selected 10 mutations (six new and four already present in dbSNP) for validation by the method of High Resolution Melt (HRM), followed by characterization by DNA sequencing. In this case, the result was the validation of 50 % of the selected mutations. The Protein-Protein Interaction analysis (PPI), performed with non-synonymous mutations located in functional domains, showed more complex gene networks in tumor tissues than in normal tissues. This observation confirmed the literature regarding the tumorigenic transformation is triggered by the combination of mutations that activate a number of biological processes, thereby, affecting genes, gene pathways and networks of related gene pathways. In summary, this study describes an efficient computational approach to identify mutations in expressed sequence data, besides to evaluate the role of mutations in tumorigenesis.
Databáze: Networked Digital Library of Theses & Dissertations