Representação vetorial de sequências e textos para aprimorar a consistência da taxonomia bacteriana

Autor: Pierri, Camilla Reginatto de, 1987
Přispěvatelé: Raittz, Roberto Tadeu, 1966, Universidade Federal do Paraná. Setor de Ciências Biológicas. Programa de Pós-Graduação em Ciências (Bioquímica), Pedrosa, Fabio O., 1947
Rok vydání: 2022
Předmět:
Zdroj: Repositório Institucional da UFPR
Universidade Federal do Paraná (UFPR)
instacron:UFPR
Popis: Orientador: Prof. Dr. Fabio de Oliveira Pedrosa Coorientador: Prof. Dr. Roberto Tadeu Raittz Tese (doutorado) - Universidade Federal do Paraná, Setor de Ciências Bioquímica, Programa de Pós-Graduação em Ciências – Bioquímica. Defesa : Curitiba, 02/05/2022 Inclui referências Resumo: A grande quantidade de dados genômicos e literatura científica depositada nos bancos de dados atualmente leva ao entendimento de que as características taxonômicas de um organismo podem ser construídas a partir de uma estrutura evolutiva abrangente. Entretanto, mesmo com um legado importante de supervisão humana na taxonomia em geral e, particularmente, na taxonomia de bactérias, a classificação dos organismos nem sempre é consistente com os agrupamentos inferidos pela análise de dados moleculares. Além disso, não existem ferramentas para integrar dados de sequenciamento molecular e literatura científica, o que aponta para a fragilidade no suporte dos modelos taxonômicos atuais. Essa dificuldade é problemática e foi relatada em diversos estudos recentes. As técnicas de Mineração de dados (MD) e Mineração de textos (MT) baseadas em representação vetorial de sequências biológicas e de textos da literatura científica podem viabilizar a integração de forma consistente da expertise humana com informações moleculares para criar modelos taxonômicos. Nesta perspectiva, o objetivo desta tese é propor um modelo de suporte à taxonomia bacteriana baseado em técnicas de MD e MT para análise de Big Data. Este modelo explora os padrões de dados moleculares disponíveis nas bases de dados públicos, orientado por diretrizes gerais dos especialistas humanos. Foram utilizadas tecnologias vetoriais desenvolvidas in-house para explorar o Big Data na área biológica, tendo como principal elemento a representação vetorial. A nova metodologia prosposta explora a união dos modelos SWeeP e BIOTEXT, que permite a comparação e exploração de dados genômicos com agilidade além de possibilitar execução de mineração de texto usando o arsenal de ferramentas de bioinformática. Foram conduzidos estudos de caso do domínio Bacteria, com foco no tema Fixação Biológica do Nitrogênio. Por meio da representação vetoral de sequencias biológicas geradas pelo SWeeP, foram estudados os genomas completos dos gêneros de bactérias Azoarcus-Aromatoleum e foram identificadas inconsistências na classificação taxonômica que não haviam sido relatadas até o momento. Isto confirma que o SWeeP é uma forte ferramenta para apoiar a análise e discussão dos modelos taxonômicos. Aqui, foi proposto um modelo de suporte à taxonomia bacteriana, EGenera, que busca contemplar as regras gerais da expertise humana e explorar os recursos disponíveis de dados moleculares, realizando uma análise global do domínio Bacteria por meio de técnicas de aprendizado de máquina. Os resultados mostram que a máquina é capaz de aprender com a experiência humana. Por meio da análise automática de agrupamentos de gêneros, é possível incorporar o conhecimento a priori e o conhecimento em nível molecular à taxonomia bacteriana, de forma automática, rápida e consistente. Abstract: The large amount of genomic data and scientific literature deposited in databases today leads to the understanding that the taxonomic characteristics of an organism can be constructed from a comprehensive evolutionary framework. However, even with an important legacy of human oversight in taxonomy in general and in the taxonomy of bacteria in particular, the classification of organisms is not always consistent with the groupings inferred by the analysis of molecular data. In addition, there are no tools to integrate molecular sequencing data and scientific literature, which points to the weakness in support of current taxonomic models. This difficulty is problematic and has been reported in several recent studies. Data Mining (MD) and Text Mining (MT) techniques based on vector representation of biological sequences and texts from scientific literature can enable the consistent integration of human expertise with molecular information to create taxonomic models. In this perspective, the objective of this thesis is to propose a model to support bacterial taxonomy based on MD and MT techniques for Big Data analysis. This model explores molecular data patterns available in public databases, guided by general guidelines from human experts. Vector technologies developed in-house were used to explore Big Data in the biological area, having vector representation as the main element. The proposed new methodology explores the union of SWeeP and BIOTEXT models, which allows the comparison and exploration of genomic data with agility, in addition to enabling the execution of text mining using the arsenal of bioinformatics tools. Case studies were conducted in the Bacteria domain, focusing on the topic Biological Nitrogen Fixation. Through the vector representation of biological sequences generated by SWeeP, the complete genomes of the Azoarcus-Aromatoleum bacteria genera were studied and inconsistencies in the taxonomic classification were identified that had not been reported so far. This confirms that SWeeP is a strong tool to support the analysis and discussion of taxonomic models. Here, a model to support bacterial taxonomy, EGenera, was proposed, which seeks to contemplate the general rules of human expertise and explore the available resources of molecular data, performing a global analysis of the Bacteria domain through machine learning techniques. The results show that the machine is capable of learning from human experience. Through automatic analysis of genera clusters, it is possible to incorporate a priori knowledge and knowledge at the molecular level into bacterial taxonomy, automatically, quickly and consistently.
Databáze: OpenAIRE