Agrupamento de instâncias em classes de equivalência para lidar com o problema da dimensionalidade em inferência de redes gênicas
Autor: | Montoya Cubas, Carlos Fernando |
---|---|
Přispěvatelé: | Martins Junior, David Corrêa, Barrera, Júnior, Braga Neto, Ulisses de Mendonça, Hashimoto, Ronaldo Fumio, Santos, Carlos da Silva dos |
Jazyk: | portugalština |
Rok vydání: | 2020 |
Předmět: |
FEATURE SELECTION
PROBLEMA DA DIMENSIONALIDADE DIMENSIONALITY PROBLEM REDES DE REGULAÇÃO GÊNICA SELEÇÃO DE CARACTERÍSTICAS INFERÊNCIA DE REDES GÊNICAS NETWORK INFERENCE RETICULADOS BOOLEANOS BOOLEAN LATTICE PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO - UFABC BOOLEAN NETWORKS GENE REGULATORY NETWORKS REDES BOOLEANAS |
Zdroj: | Repositório Institucional da UFABC Universidade Federal do ABC (UFABC) instacron:UFABC |
Popis: | Orientador: Prof. Dr. David Corrêa Martins Junior Tese (doutorado) - Universidade Federal do ABC, Programa de Pós-Graduação em Ciência da Computação, Santo André, 2020. A inferência de redes de interação gênica a partir de perfis de expressão é um dos problemas importantes pesquisados em biologia sistêmica, sendo considerado um problema em aberto. Diversas técnicas matemáticas, estatísticas e computacionais têm sido desenvolvidas para modelar, inferir e simular mecanismos de regulação gênica, sendo o problema de inferência o foco desta proposta. Tal proposta tem por objetivo continuar as pesquisas realizadas no mestrado, as quais envolveram o estudo de métodos de inferência de redes gênicas baseados em seleção de características (seleção do melhor conjunto de genes preditores do comportamento de um dado gene alvo em termos de suas expressões temporais de mRNA), propondo alternativas para aumentar o poder de estimação estatística em situações típicas nas quais o conjunto de amostras com perfis de expressão gênica é bem limitado e possuem elevada dimensionalidade (número de genes). Mais concretamente, no mestrado foram propostos m'métodos para aliviar o problema da dimensionalidade na inferência de redes Booleanas, através de partições no reticulado Booleano induzidas por combinações lineares dos valores dos genes preditores (instâncias dos preditores). Cada valor de combinação linear determina uma classe de equivalência entre as instâncias dos genes preditores. Neste trabalho de doutorado, o problema de agrupamento de instâncias foi reformulado como um problema de busca no reticulado de partições, além de formular estratégias de busca nesse reticulado com base em informações a priori (por exemplo: que uma rede gênica tende a ser composta majoritariamente por funções lineares e de canalização) para examinar um subespaço de partições potencialmente relevantes sem abrir mão da eficiência computacional. Adicionalmente desenvolvemos um método de transferência de aprendizado supervisionado obtido da inferência de redes geradas aleatoriamente (sintéticas) que busca estimar as dimensões corretas (graus) dos conjuntos de genes preditores para os respectivos genes alvos. Resultados experimentais através de dados simulados e dados reais de microarray do Plasmodium falciparum, um agente causador da malária, indicam que os métodos desenvolvidos, especialmente o método que busca por funções de canalização, obtêm redes competitivas tanto do ponto de vista topológico, como do ponto de vista da dinâmica da expressão gênica gerada pelas redes inferidas. A principal vantagem desses m'métodos de agrupamento 'e a superior capacidade de generalização para gerar o próximo estado do sistema com base em estados iniciais sorteados e que não estejam no conjunto de amostras de treinamento. Além disso, a adoção da estratégia de transferência de aprendizado dos graus se mostrou efetiva, conferindo uma vantagem a todos os m'métodos de inferência de redes gênicas considerados, incluindo o m'todo original sem agrupamento de instâncias. The inference of gene interaction networks from expression profiles is one of the relevant problems in systems biology, being considered an open problem. Several mathematical, statistical and computational techniques have been developed to model, infer and simulate gene regulation mechanisms, whereas the inference problem is the focus of this work. Our proposal is a continuation of the research conducted during the masters, which involved the study of gene networks inference based on feature selection (selection of the best subset of genes for predicting the behavior of a given target in terms of their temporal mRNA expressions), proposing alternatives to increase the statistical estimation power in typical situations where the set of samples with gene expression profiles is very limited and presents high dimensionality (number of genes). More concretely, during the masters we proposed methods to alleviate the curse of dimensionality in Boolean Networks inference, through Boolean lattice partitions induced by a linear combination of the predictor genes values (predictor instances). Each linear combination value determines an equivalence class between the predictor instances. In this work, the problem of instances grouping was reformulated as a partition lattice search problem, besides idealizing search strategies in this lattice based on prior information (eg. gene networks tend to be mostly composed by linear and canalizing functions) to examine a partition subspace potentially relevant without forgetting computational efficiency. In addition, we developed a method which transfers the supervised learning achieved from randomly generated (synthetic) networks inference aiming to estimate the correct dimension (degree) of the predictor gene sets for the corresponding target genes. Experimental results through simulated data and real microarray data from Plasmodium falciparum, a malaria agent, indicate that the developed methods, especially the method which searches for canalizing functions, achieves competitive networks considering both topology and gene expression dynamics generated by the inferred networks. The main advantage of these methods is the superior capacity of generalization to predict the next system state based on randomly chosen initial states which are not in the training set. Besides, the adoption of the strategy for transfer learning of the degrees sounds effective, benefitting all gene network inference methods considered, even the original method which does not group instances. |
Databáze: | OpenAIRE |
Externí odkaz: |