Predição da abundância de proteínas por métricas de uso de códons utilizando aprendizado de máquina

Autor:	Ferreira, Maurício Alexander de Moura
Přispěvatelé:	Silveira, Sabrina de Azevedo, Silveira, Wendel Batista da
Jazyk:	angličtina
Rok vydání:	2020
Předmět:	Modelos matemáticos Genética Fisiologia e Ecologia de Micro-organismos Códons Proteínas Engenharia Metabólica
Zdroj:	LOCUS Repositório Institucional da UFV Universidade Federal de Viçosa (UFV) instacron:UFV
Popis:	Conselho Nacional de Desenvolvimento Científico e Tecnológico - CNPQ Proteínas são as principais moléculas responsáveis por processos fisiológicos na célula, e o conhecimento de suas abundâncias é crucial para pesquisas em biologia sistêmica do metabolismo. A abundância de proteínas é determinada por uma série de fatores, como abundância de mRNA, eficiência da tradução, taxas de turnover de proteínas e viés no uso de códons. Recentemente, novas plataformas para simulação de fenótipos têm sido desenvolvidas, integrando dados de eficiência catalítica e abundância de proteína a modelos metabólicos em escala genômica. Entretanto, o uso destes modelos é dificultado pela indisponibilidade de dados de abundância de muitas proteínas, principalmente por limitações analíticas como espectrometria de massas. Além disso, muitos dos esforços em proteômica quantitativa têm sido focados em espécies-modelo, como Saccharomyces cerevisiae e Escherichia coli, o que limita abordagens sistêmicas em espécies não modelos. O viés no uso de códons é um fenômeno que afeta diretamente a dinâmica da tradução, o que impacta na quantidade de proteína presente na célula. Dessa forma, muitas métricas foram desenvolvidas para explicar matematicamente esse fenômeno. Neste trabalho, foram exploradas as diferenças no uso de códons entre sequências codificantes de proteínas de S. cerevisiae de alta e baixa abundância. Estes dados foram utilizados para o treinamento de algoritmos de aprendizado de máquina, com o intuito de gerar modelos capazes de predizer a abundância de proteínas. As abundâncias preditas foram então integradas em modelos metabólicos em escala genômica, e os fenótipos simulados apresentaram boa correspondência com valores experimentais. Isso demonstra que estes modelos preditivos são ferramentas valiosas para a biologia sistêmica do metabolismo e para a engenharia metabólica. Palavras-chave: Uso de códons. Modelagem metabólica. Engenharia metabólica. Proteins are responsible for most physiological processes in the cell, and their abundance provides crucial information for systems biology research. Protein abundance is determined by a number of factors, such as mRNA abundance, translation efficiency, protein turnover rate, and codon usage bias. New frameworks of genome-scale metabolic models have been recently developed to simulate phenotypes taking into account protein abundance data along with enzyme kinetics. However, these models still have the limitation of dataset availability, which impairs their reconstruction. This is due to limitations in absolute protein quantification methods, such as mass spectrometry. Moreover, absolute protein quantification has been mostly limited to model species, such as Escherichia coli and Saccharomyces cerevisiae, which hinders system biology endeavours in non-model species. Codon usage bias directly affects translation dynamics, which in turn affects protein levels, and many metrics for codon usage have been developed in order to clarify this phenomenon. In this study, it was evaluated the effect of codon usage bias of genes in protein abundance. Notably, many differences regarding codon usage patterns between genes coding for highly abundant proteins and genes coding for less abundant proteins were observed. Based on these differences, various codon metrics coupled with machine learning algorithms were applied to predict the absolute abundance of proteins used by S. cerevisiae. The machine learning models predicted protein abundances from codon usage metrics with remarkable accuracy. Upon integration of the predicted protein abundance in enzyme-constrained genome-scale metabolic models, the simulated phenotypes closely matched experimental data, which demonstrates that the built predictive models are valuable tools for systems metabolic engineering approaches Keywords: Codon usage bias. Metabolic modelling. Metabolic engineering.
Databáze:	OpenAIRE
Externí odkaz:	https://explore.openaire.eu/search/publication?articleId=od______3056::907746d4d2068a4d09a84b020955b604 Zobrazit plný text záznamu