Efficiency of machine learning and neural networks in genomic prediction and identification of markers
Autor: | Costa, Weverton Gomes da |
---|---|
Přispěvatelé: | Cruz, Cosme Damião |
Jazyk: | portugalština |
Rok vydání: | 2022 |
Předmět: | |
Zdroj: | LOCUS Repositório Institucional da UFV Universidade Federal de Viçosa (UFV) instacron:UFV |
Popis: | A seleção genômica ampla (Genome Wide Selection - GWS), utiliza marcadores moleculares distribuídos ao longo de todo o genoma a fim de predizer o mérito genético de plantas e animais. Os métodos de aprendizado de máquina (ML) e redes neurais artificiais (ANN) não são parametrizados e podem desenvolver modelos mais precisos e parcimoniosos para análise de GWS. Com o intuito de avaliar diferentes métodos de ML e ANN para avaliar a predição baseada em GWS, propusemos duas questões a serem respondidas por esse projeto de pesquisa. A primeira é que métodos diferentes proporcionariam previsões diversas de acordo com a complexidade da característica analisada e a segunda seria que a identificação de marcadores associados aos QTLs (Quantitative Trait Locis), também dependeria da complexidade da característica e do método analisado. Dois artigos foram desenvolvidos para responder essas questões. No primeiro artigo, o objetivo foi avaliar a precisão geral e a variabilidade do desempenho de predição de métodos baseados em ML (Decision Tree, Boosting, Bagging, Random Forest e MARS - Multivariate Adaptive Regression Splines) e ANN (Multilayer Perceptron, Radial Basis Function) comparadas ao G-BLUP em análises de predição genômica para características simuladas com diferentes números de genes na presença de epistasia e com diferentes graus de herdabilidades. No segundo artigo, o objetivo foi avaliar os métodos na associação de marcadores importantes identificados com as regiões de presença do QTLs, por meio do conjunto de dados simulado, considerando características com diferentes números de genes na presença de epistasia e de diferentes herdabilidade. Uma população F 2 em equilíbrio de Hardy-Weinberg foi simulada, constituída por 1000 indivíduos e 10 grupos de ligação de 200 cM, cada, correspondendo a 4010 SNP (Single Nucleotide Polymorphism). Na predição, o aumento no número de QTL, beneficiou principalmente os métodos de redes neurais e o G-BLUP para R² e REQM. Para os demais métodos, nos cenários de 40 QTLs ou mais, o aumento do número de QTLs afetou positivamente os resultados dos parâmetros avaliados. A variação na herdabilidade provocou efeito inverso nos valores de R² e REQM. Os métodos MARS não aditivos apresentaram R² alto para caracteres oligogênicas e para características poligênicas com alta herdabilidade e com 240 QTLs ou mais. Com relação a identificação de marcadores associados aos QTLs, a maioria dos métodos apresentaram maior índice de acertos na identificação dos marcadores em cenários com menor número de QTLs e com maior herdabilidade. A MARS 3 e o Boosting apresentaram alta capacidade de identificar os marcadores de importância, considerando as regiões associadas aos QTLs. O maior índice de erros também ocorreu em cenários com menor número de QTLs, mas com menor herdabilidade. A herdabilidade afetou positivamente o índice relativo na identificação dos marcadores associados aos QTLs. Nos cenários de 40 QTLs ou mais, o aumento do número de QTLs também afetou positivamente o índice relativo para a maioria dos métodos. Contudo, os melhores resultados foram encontrados para o cenário com maior herdabilidade e com 8 QTLs. Os métodos MARS 1, MARS 2, Boosting e Bagging foram os mais efetivos na detecção de marcadores importantes ao longo do genoma, principalmente para as características com 8 e 240 QTLs. A variação na herdabilidade e no número de QTLs impactou o desempenho dos métodos tanto para predição quanto para identificação dos marcadores associados a QTLs. Assim, a distribuição dos QTL nos grupos de ligação pode ser o principal atributo a ser avaliado na predição dos valores genéticos e identificação de marcas associadas à QTLs, quando o experimento é bem conduzido a fim de se obter um maior valor para a herdabilidade. Os métodos de ML e de ANN demonstraram alto potencial para predição de valores genéticos em caracteres com efeitos dominantes e epistáticos. Já para a identificação de marcadores associados às regiões de presença de QTLs, os métodos de aprendizado de máquinas são mais eficientes. O uso de diferentes métodos estatísticos, redes neurais e aprendizado de máquina resultou em diferentes consequências influenciadas pela complexidade e particularidade das características analisadas. Portanto, recomenda-se que ao avaliar a predição de valores genéticos e a importância de marcadores, o uso de múltiplas abordagens seja utilizado, a fim de escolher o melhor método a ser utilizado. Palavras-chave: Inteligência artificial. Seleção Genômica ampla. Importância de variáveis. Característica Quantitativa. Genomic wide selection (GWS) uses molecular markers distributed throughout the genome in order to predict the genetic merit of plants and animals. Machine learning (ML) and artificial neural networks (ANN) methods are not parameterized and can develop more accurate and parsimonious models for GWS analysis. In order to evaluate different ML and ANN methods to evaluate prediction based on GWS, we proposed two questions to be answered by this research project. The first is that different methods would provide different predictions according to the complexity of the analyzed traits and the second would be that the identification of markers associated with QTLs (Quantitative Trait Locus), would also depend on the complexity of the trait and the analyzed method. Two articles were developed to answer these questions. In the first article, the objective was to evaluate the general accuracy and the variability of the prediction performance of methods based on ML (Decision Tree, Boosting, Bagging, Random Forest, and MARS - Multivariate Adaptive Regression Splines) and ANN (Multilayer Perceptron, Radial Basis). Function) compared to G-BLUP in genomic prediction analyses for simulated traits with different numbers of genes in the presence of epistasis and with different degrees of heritability. In the second article, the objective was to evaluate the methods in the association of important markers identified with the regions of the presence of QTLs, through the simulated dataset, considering traits with different numbers of genes in the presence of epistasis and heritability different. An F2 population in Hardy-Weinberg equilibrium was simulated, consisting of 1000 individuals and 10 linkage groups of 200 cM each, corresponding to 4010 SNP (Single Nucleotide Polymorphism). For prediction, the increase in the number of QTLs mainly benefited the neural network methods and the G-BLUP for R² and REQM. For the other methods, in the scenarios of 40 QTLs or more, the increase in the number of QTLs positively affected the results of the evaluated parameters. The variation in heritability caused an inverse effect on the values of R² and REQM. Non-additive MARS methods showed high R² for oligogenic traits and for polygenic traits with high heritability and 240 QTLs or more. Regarding the identification of markers associated with QTLs, most methods showed a higher rate of success in identifying markers in scenarios with fewer QTLs and higher heritability. MARS 3 and Boosting showed a high ability to identify important markers, considering the regions associated with QTLs. The highest error rate also occurred in scenarios with fewer QTLs, but with lower heritability. Heritability positively affected the relative index in the identification of markers associated with QTLs. In scenarios of 40 QTLs or more, increasing the number of QTLs also positively affected the relative index for most methods. However, the best results were found for the scenario with the highest heritability and with 8 QTLs. The MARS 1, MARS 2, Boosting and Bagging methods were the most effective in detecting important markers along the genome, mainly for traits with 8 and 240 QTLs. The variation in heritability and in the number of QTLs impacted the performance of the methods for both prediction and identification of markers associated with QTLs. Thus, the distribution of QTLs in linkage groups can be the main attribute to be evaluated in the prediction of breeding values and identification of marks associated with QTLs, when the experiment is well conducted in order to obtain a greater value for heritability. The ML and ANN methods showed high potential for predicting genetic values in traits with dominant and epistatic effects. As for the identification of markers associated with regions of the presence of QTLs, machine learning methods are more efficient. The use of different statistical methods, neural networks, and machine learning resulted in different consequences influenced by the complexity and particularity of the analyzed traits. Therefore, it is recommended that when evaluating the prediction of breeding values and the importance of markers, the use of multiple approaches is used, in order to choose the best method to be used. Keywords: Artificial intelligence. Genomic wide selection. Variables importance. Quantitative Trait Loci. |
Databáze: | OpenAIRE |
Externí odkaz: |