Codificação de Seqüências de Aminoácidos e sua Aplicação na Classificação de Proteínas com Redes Neurais Artificiais

Autor: Thiago de Souza Rodrigues
Jazyk: portugalština
Rok vydání: 2007
Zdroj: Biblioteca Digital de Teses e Dissertações da UFMGUniversidade Federal de Minas GeraisUFMG.
Druh dokumentu: Doctoral Thesis
Popis: T his work aims to develop a protein coding system in which sequences with different numbers of amino acids can be converted in vectors with the same dimension to be functionally classified by Artificial Neural Networks. The proposed scheme uses sliding windows with previous defined length. The sliding windows run over the sequence, and results in a vector containing informa-tion about the sequence. The coding method must result in unambiguous vectors, must consider the similarity between amino acids and must consider small regions with similarity in which the sliding windows must have a relevancy proporcional to their length. In this word we presented a study of similarity and dissimilarity measure bet-ween amino acid sequences, where the pair-to-pair alignment is the metric more frequently used. Some problems using the pair-to-pair alignment to measure dis-similarity is shown, where other metrics became more effective. In other to use these metrics it is necessary a coding scheme called Sequence Coding by Sliding Window, which generates vectors with the same dimension. This coding scheme was used to classify amino acid sequences using Artificial Neural Networks. We present a comparison between both coding schemes, in which amino acids sequences from proteins of 10 bacteria were coded and used to train Artificial Neural Networks to classify these sequences according to the Cluster of Orthologous Groups (COG). Two groups of sequences derived from proteins of Chromobacterium vio-laceum and Chlamydophila felis were selected in other to test our method. The comparison shows the superiority of the proposed coding scheme in which the information stored in the resulting vectors allows the Artificial Neural Networks to classify the two sets of proteins according the COG functional classes. All sequences that were classified in a different way by the Artificial Neural Networks, had its classification verified by CD-Search alignment against the COG data base. The results showed that some sequences are classified incoherently in the public data bases. The Artificial Neural Networks trained with the vectors generated by the E-SCSW scheme were able to classify correctly 184 sequences derived from Chromobacterium violaceum and 94 from Chlamydophila felis. This work has the main contribution of developing a new protein coding method in which Artificial Neural Networks are used. The verification of the results showed that the public repositories contain some inconsistencies and that the amino acid sequences deposited should be verified in a frequent basis. The proposed codifica-tion method can thus be used as a complement to the traditional protein classifi-cation methods which are based in a par-to-par alignment.
Este trabalho visa propor um sistema de codificação de proteínas de modo que seqüências contendo diferentes quantidades de aminoácidos possam ser convertidas em vetores de mesma dimensão para serem classificadas funcionalmente por Redes Neurais Artificiais. O método proposto utiliza janelas deslizantes de tamanhos previamente definidos, que percorrem a seqüência a ser codificada de modo a resultar em um vetor con-tendo informações sobre a seqüência propriamente dita. O esquema de codifica-ção deve resultar em vetores não ambíguos, deve considerar a similaridade entre os aminoácidos e deve considerar pequenas regiões de similaridade dando uma relevância proporcional ao tamanho da janela deslizante. Uma comparação entre o método proposto e o método utilizado na literatura é realizada, onde sequências de aminoácidos correspondentes às proteínas de 10 bactérias foram codificadas e utilizadas para treinamento de Redes Neurais Artifi-ciais a fim de classificar essas seqüências de acordo com as classes funcionais da base de dados do Cluster of Orthologous Groups (COG). A comparação mostra a superioridade do esquema de codificação proposto visto que a informação armazenada nos vetores resultantes permitiu que as Redes Neu-rais Artificiais classificassem corretamente os dois conjuntos de sequências de ami-noácidos de acordo com as classes funcionais do COG de várias sequências que não haviam sido anteriormente classificadas. As Redes Neurais Artificiais treinadas com os vetores gerados pelo esquema E-SCSW tiveram taxa de acerto que variou de 90, 2% à 100% para as proteínas da Chromobacterium violaceum e de 62, 5% à 100% para as proteínas da Chlamydophila felis. Todas as proteínas, cujos vetores correspondentes foram classificados pelas Re-des Neurais Artificiais de forma diferente com a classificação encontrada nos ban-cos de dados, tiveram sua classificação verificada através do alinhamento realizado pelo CD-Search e a base de dados do COG. As Redes Neurais Artificiais treinadas com os vetores gerados pelo esquema E-SCSW foram capazes de reclassificar cor-retamente 184 proteínas da Chromobacterium violaceum e 94 proteínas da Chlamy-dophila felis as quais haviam sido classificadas de maneira inconsistente nos banco de dados públicos. Este trabalho tem como principal contribuição um novo método de codificação de sequências de aminoácidos onde Redes Neurais Artificiais possam utilizar os ve-tores resultantes como conjunto de entrada. A verificação dos resultados mostrou que os bancos de dados públicos possuem algumas inconsistências e que as pro-teínas depositadas necessitam ser verificadas com uma certa freqüência. O método de codificação aqui proposto poderia portanto ser utilizado como um complemento aos métodos tradicionais de classificação de proteínas que utilizam como base o alinhamento par-a-par.
Databáze: Networked Digital Library of Theses & Dissertations