Identificação de RNA não codificador utilizando redes neurais artificiais de treinamento não supervisionado

Autor: Silva, Tulio Conrado Campos da
Jazyk: portugalština
Rok vydání: 2012
Předmět:
Zdroj: Repositório Institucional da UnBUniversidade de BrasíliaUNB.
Druh dokumentu: masterThesis
Popis: Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas Departamento de Ciência da Computação, 2012.
Submitted by Elna Araújo (elna@bce.unb.br) on 2012-06-21T21:31:21Z No. of bitstreams: 1 2012_TulioConradoCamposdaSilva.pdf: 4592113 bytes, checksum: aec465e9c017ed15dd0f0c16eef5d9de (MD5)
Approved for entry into archive by Jaqueline Ferreira de Souza(jaquefs.braz@gmail.com) on 2012-06-22T11:53:59Z (GMT) No. of bitstreams: 1 2012_TulioConradoCamposdaSilva.pdf: 4592113 bytes, checksum: aec465e9c017ed15dd0f0c16eef5d9de (MD5)
Made available in DSpace on 2012-06-22T11:53:59Z (GMT). No. of bitstreams: 1 2012_TulioConradoCamposdaSilva.pdf: 4592113 bytes, checksum: aec465e9c017ed15dd0f0c16eef5d9de (MD5)
Experimentos diversos no campo da Biologia Molecular revelaram que alguns tipos de ácido ribonucléico (RNA) podem estar diretamente envolvidos na expressão gênica e do fenótipo, alem de sua já conhecida função na síntese de proteínas. De modo geral, RNAs podem ser divididos em duas classes: RNA mensageiro (mRNA), que são traduzidos para proteínas, e RNA não codificador (ncRNA), que exerce papéis celulares importantes além de codificação de proteínas. Nos últimos anos, vários métodos computacionais baseados em diferentes teorias e modelos foram propostas para distinguir mRNA de ncRNA. Dentre os métodos mais atuais, destacam-se o uso de gramáticas estocásticas livres de contexto, informações termodinâmicas, teorias probabilíticas e algoritmos de aprendizado de máquina, sendo esses últimos abordagens muitos maleáveis e de menor complexidade. Particularmente, os métodos por aprendizado de máquina que utilizam redes neurais artificiais de treinamento não supervisionado constituem uma promissora linha de pesquisa, por sua grande plasticidade e capacidade de classificação do conjunto de dados de ncRNAs por critérios bem estabelecidos. Essa ultima técnica e extensivamente abordada no presente trabalho, mais precisamente utilizando Mapa Auto Organiz avel (SOM), Learning Vector Quantization (LVQ) e as redes Teoria da Ressonância Adaptativa (ART), para o problema de distinguir ncRNAs de mRNAs em um dado transcriptoma. As acuracias obtidas para as duas abordagens, em teste, ou estudo de caso, realizado com pequenos ncRNAs de 4 organismos logeneticamente distantes atingiram 98%. Os critérios para classificação de ncRNA foram otimizados através da Análise de Componentes Principais (PCA), reduzindo o numero de suas variáveis em 32% sem reduzir a acurácia obtida no estudo de caso. ___ ABSTRACT
Several experiments conducted in the Molecular Biology eld have shown that some types of RNA may control gene expression and phenotype by themselves, besides their traditional role of allowing protein synthesis. Roughly speaking, RNA can be divided into two classes: messenger RNA (mRNA), that are translated into proteins, and non-coding RNA (ncRNA), which play several important cellular roles besides protein coding. In recent years, many computational methods based on deferent theories and models have been proposed to distinguish mRNA from ncRNA. Among the newest methods, it is noteworthy the use of stochastic context free grammars, thermodynamical information, probabilistic theories and machine learning algorithms, which are very adaptive and lowcomplexity approaches. Particularly, machine learning methods that uses non-supervised learning articial neural networks are a promising research eld, for they are highly plastic and are able to classify ncRNA data using well established criteria. The present work extensively approaches the latter technique, particularly Self-Organizing Maps (SOM), Learning Vector Quantization (LVQ) and Adaptive Resonance Theory (ART) algorithms for distinguishing ncRNA from coding RNA in a given transcriptome. A test case was developed using biological data from 4 phylogenetically distant organisms. Using this test case, the trained networks achieved 98% accuracy. The classication criteria used by the developed methods have been further optimized using Principal Components Analysis (PCA), reducing 32% of the number of extracted numerical variables without reducing the assessed accuracy.
Databáze: Networked Digital Library of Theses & Dissertations