Imputação de dados em experimentos com interação genótipo por ambiente: uma aplicação a dados de algodão
Autor: | Sergio Arciniegas Alarcón |
---|---|
Jazyk: | portugalština |
Rok vydání: | 2009 |
Předmět: | |
Zdroj: | Biblioteca Digital de Teses e Dissertações da USPUniversidade de São PauloUSP. |
Druh dokumentu: | masterThesis |
Popis: | Os experimentos multiambientes são um tipo especial dos experimentos bifatoriais, muito usados em melhoramento genético de plantas, nos quais algumas cultivares são avaliadas em diferentes locais. Geralmente nesses estudos se encontra uma resposta diferencial das cultivares em cada local que é chamada de interação genótipo x ambiente ou G x E, que é bem explicada por modelos de efeitos aditivos e interação multiplicativa (AMMI). Frequentemente os experimentos G x E podem ser desbalanceados e um ou vários genótipos não serem testados em alguns locais. Às vezes para o pesquisador recomendar os ambientes pode ser de interesse obter estimativas daquelas combinações genótipo ambiente que não foram testadas e tais estimativas podem ser calculadas explorando a informação inerente a aquelas combinações que foram atualmente obtidas. Além do interesse do pesquisador por essas estimativas, os da- dos ausentes podem causar alguma modificação na estimação tradicional dos parâmetros nos modelos AMMI, pois para estimar os parâmetros é necessário um processo sequencial fazendo uma análise de variância com uma posterior decomposição por valor singular da matriz de residuais, a qual não pode ser calculada se existir uma matriz de interação com dados faltantes. Para resolver esses problemas Bergamo (2007) e Bergamo et al. (2008) propuseram uma nova técnica através do uso de imputação múltipla livre de distribuição (IMLD) e é por essa razão que se decidiu avaliar o recente desenvolvimento comparando-o com algumas metodologias de imputação que têm sido usadas com sucesso nos experimentos G x E com dados ausentes como os mínimos quadrados alternados ALS(0), ALS(1) (CALINSKI et al., 1992) e estimativas robustas r-AMMI1 e r-AMMI2 (DENIS; BARIL, 1992). Assim, foi de- senvolvido um estudo de simulação baseado em uma matriz de dados reais genótipos (15) ambientes (27) do ensaio estadual de algodoeiro herbáceo 2000/01 (FARIAS, 2005), fazendo retiradas aleatórias de 10%, 20% e 30%, imputando os dados e comparando os métodos através da raiz quadrada da diferença preditiva média (RMSPD), a estatística de similari- dade de Procrustes e o coe
ciente de correlação não paramétrico de Spearman. Também foi feita uma análise sobre a escolha de componentes multiplicativos de um modelo AMMI quando se têm matrizes completadas (observados + imputados). Os resultados do estudo de simulação mostraram que segundo a distribuição da RMSPD padronizada, o método r- AMMI1 é o melhor, superando o IMLD. Entretanto, utilizando a estatística de Procrustes se encontrou que completando matrizes com ALS(0) se obtém a maior similaridade com relação à matriz de dados originais, também foi mostrado que os cinco métodos considerados têm uma alta correlação entre as imputações e os correspondentes dados reais. Finalmente, recomenda-se utilizar a imputação de dados para a estimação dos parâmetros de um modelo AMMI sob ocorrência de dados ausentes, mas para determinar o número de componentes multiplicativos é preferível tomar a decisão somente sobre a informação observada. The multienvironment trials are a special type of the two-factor experiments, widely used in genetic improvement of plants, where some cultivars are assessed in diferent locations. Generally, in these studies there is a di¤erential response of cultivars in each location that is called genotype environment interaction, or G x E, which is well explained by the additive main e¤ects and multiplicative interaction models (AMMI). Often the experiments GE may be unbalanced and one or several genotypes were not tested in some locations. Sometimes for the environments recommendations, the researcher may be interested in obtain estimates of those combinations G x E that were not tested and such estimates can be calcu- lated using the information of those combinations that were actually obtained. Additionally to the interest of the researchers in these estimates, the missing data may cause some pro- blems in the classical estimation of parameters in the AMMI models, because the parameter estimation need of a sequential process doing an analysis of variance followed by a singular value decomposition, which can not be calculated if there is a matrix of interaction with missing data. To solve these problems Bergamo (2007) and Bergamo et al. (2008) proposed a new technique using the distribution free multiple imputation (IMLD), and for this reason was decided to evaluate the recent development through the comparison with some methods of imputation that have been used successfully in experiments GE with missing data like the AMMI estimates based on alternating least squares ALS(0), ALS(1) (CALINSKI et al. 1992) and AMMI estimates with robust sub-model r-AMMI1 and r-AMMI2 (DENIS; BARIL, 1992). Thus, was developed a simulation study based on a matrix of true data genotypes (15) environments (27) of the upland cotton variety trials (ensaio estadual de algodoeiro her- báceo) 2000/01 (FARIAS, 2005), doing missed random (10%, 20%, 30%), imputing the data and comparing the methods through the root mean square predictive di¤erence (RMSPD) of the true value, the Procrustes statistic and the Spearman´s ranks correlation coe¢ cient. Also was made an analysis on the choice of the multiplicative components of an AMMI model after imputation on the complete data sets (observed + imputed). The results of the simulation study has shown that according to the distribution of RMSPD standardized, the r-AMMI1 method is better than the IMLD. However, using the Procrustes statistic was found that imputing data matrix with ALS(0), is obtained the greatest similarity related to the true data matrix. The ve methods considered show high correlation between the true and the imputed missing values. Finally, is recommended using the imputation data for the estimation of the parameters of an AMMI model under the presence of missing data, but for choosing the number of multiplicative terms is preferable take the decision only on the observed information. |
Databáze: | Networked Digital Library of Theses & Dissertations |
Externí odkaz: |