Acessibilidade / Reportar erro

Imputação múltipla livre de distribuição em tabelas incompletas de dupla entrada

Distribution-free multiple imputation in incomplete two-way tables

Resumos

O objetivo deste trabalho foi propor um novo algoritmo de imputação múltipla livre de distribuição, por meio de modificações no método de imputação simples recentemente desenvolvido por Yan para contornar o problema de desbalanceamento de experimentos. O método utiliza a decomposição por valores singulares de uma matriz e foi testado por meio de simulações baseadas em duas matrizes de dados reais completos, provenientes de ensaios com eucalipto e cana-de-açúcar, com retiradas aleatórias de valores em diferentes percentagens. A qualidade das imputações foi avaliada por uma medida de acurácia geral que combina a variância entre imputações e o viés quadrático médio delas em relação aos valores retirados. A melhor alternativa para imputação múltipla é um modelo multiplicativo que inclui pesos próximos a 1 para os autovalores calculados com a decomposição. A metodologia proposta não depende de pressuposições distribucionais ou estruturais e não tem restrições quanto ao padrão ou ao mecanismo de ausência dos dados.

dados ausentes; decomposição por valores singulares; ensaios multiambiente; experimentos desbalanceados; interação genótipo x ambiente; melhoramento de plantas.


The objective of this work was to propose a new distribution-free multiple imputation algorithm, through modifications of the simple imputation method recently developed by Yan in order to circumvent the problem of unbalanced experiments. The method uses the singular value decomposition of a matrix and was tested using simulations based on two complete matrices of real data, obtained from eucalyptus and sugarcane trials, with values deleted randomly at different percentages. The quality of the imputations was evaluated by a measure of overall accuracy that combines the variance between imputations and their mean square deviations in relation to the deleted values. The best alternative for multiple imputation is a multiplicative model that includes weights near to 1 for the eigenvalues calculated with the decomposition. The proposed methodology does not depend on distributional or structural assumptions and does not have any restriction regarding the pattern or the mechanism of the missing data.

missing data; singular value decomposition; multi-environment trials; unbalanced experiments; genotype x environment interaction; plant breeding.


Introdução

No melhoramento genético de plantas, ensaios multiambientais são importantes para testar a adaptação geral e específica das cultivares. O cultivo em diferentes ambientes geralmente mostra flutuação significativa no desempenho relativo das cultivares. Essa flutuação é influenciada por condições ambientais e é conhecida como interação genótipo por ambiente (GxE) (Dias & Krzanowski, 2003DIAS, C.T. dos S.; KRZANOWSKI, W.J.Model selection and cross validation in additive main effect and multiplicative interaction models. Crop Science, v.43, p.865-873, 2003. DOI: 10.2135/cropsci2003.0865.
https://doi.org/10.2135/cropsci2003.0865...
).

Embora os experimentos com interação GxE sejam planejados para serem balanceados, é comum a ocorrência de valores ausentes por diversos motivos, como a retirada de genótipos de baixo desempenho, a consideração de novos genótipos, erros humanos e causas naturais (Rodrigues et al., 2011RODRIGUES, P.C.; PEREIRA, D.G.S.; MEXIA, J.T. A comparison between joint regression analysis and the additive main and multiplicative interaction model: the robustness with increasing amounts of missing data. Scientia Agricola, v.68, p.697-705, 2011. DOI: 10.1590/S0103-90162011000600012.
https://doi.org/10.1590/S0103-9016201100...
). Assim, experimentos desbalanceados são usualmente obtidos e não podem ser analisados diretamente por metodologias clássicas eficientes, como a do modelo de efeitos principais aditivos e interação multiplicativa (AMMI) ou da análise biplot GGE (Yan et al., 2007YAN, W.; KANG, M.S.; MA, B.; WOODS, S.; CORNELIUS, P.L. GGE biplot vs. AMMI analysis of genotype-by-environment data. Crop Science, v.47, p.641-653, 2007. DOI: 10.2135/cropsci2006.06.0374.
https://doi.org/10.2135/cropsci2006.06.0...
; Yang et al., 2009; Gauch Junior, 2013YANG, R.-C.; CROSSA, J.; CORNELIUS, P.L.; BURGUEÑO, J. Biplot analysis of genotype x environment interaction: proceed with caution. Crop Science, v.49, p.1564-1576, 2009. DOI: 10.2135/cropsci2008.11.0665.
https://doi.org/10.2135/cropsci2008.11.0...
). A principal dificuldade nesse sentido é que essas metodologias envolvem a decomposição por valores singulares (DVS) das matrizes, a qual não existe para matrizes com dados ausentes (Gabriel, 2002GABRIEL, K.R. Le biplot - outil d'exploration de données multidimensionelles. Journal de la Société Française de Statistique, v.143, p.5-55, 2002.).

As seguintes alternativas possibilitariam a análise de experimentos incompletos sobre a interação GxE: extração de um subconjunto balanceado que elimine os genótipos ou os ambientes com dados faltantes (Ceccarelli et al., 2007CECCARELLI, S.; GRANDO, S.; BAUM, M. Participatory plant breeding in water-limited environments. Experimental Agriculture, v.43, p.411-435, 2007. DOI: 10.1017/S0014479707005327.
https://doi.org/10.1017/S001447970700532...
; Yan et al., 2011YAN, W.; PAGEAU, D.; FRÉGEAU-REID, J.; DURAND, J. Assessing the representativeness and repeatability of test locations for genotype evaluation. Crop Science, v.51, p.1603-1610, 2011. DOI: 10.2135/cropsci2011.01.0016.
https://doi.org/10.2135/cropsci2011.01.0...
); preenchimento das parcelas vazias com médias ambientais; e preenchimento dos dados faltantes com estimativas obtidas por métodos que envolvam, por exemplo, o uso de modelos multiplicativos ou de modelos lineares mistos (Arciniegas-Alarcón et al., 2011ARCINIEGAS-ALARCÓN, S.; GARCÍA-PEÑA, M.; DIAS, C.T. dos S. Data imputation in trials with genotype x environment interaction. Interciencia, v.36, p.444-449, 2011.; Kumar et al., 2012KUMAR, A.; VERULKAR, S.B.; MANDAL, N.P.; VARIAR, M.; SHUKLA, V.D.; DWIVEDI, J.L.; SINGH, B.N.; SINGH, O.N.; SWAIN, P.; MALL, A.K.; ROBIN, S.; CHANDRABABU, R.; JAIN, A.; HAEFELE, S.M.; PIEPHO, H.P.; RAMAN, A. High-yielding, drought-tolerant, stable rice genotypes for the shallow rainfed lowland drought-prone ecosystem. Field Crops Research, v.133, p.37-47. 2012. DOI: 10.1016/j.fcr.2012.03.007.
https://doi.org/10.1016/j.fcr.2012.03.00...
). Essas estratégias podem resolver o problema de desbalanceamento, mas nenhuma delas é simples e efetiva (Yan, 2013YAN, W. Biplot analysis of incomplete two-way data. Crop Science, v.53, p.48-57, 2013. DOI: 10.2135/cropsci2012.05.0301.
https://doi.org/10.2135/cropsci2012.05.0...
). A primeira não utiliza toda a informação disponível; a segunda pode resultar em problemas no caso de grande quantidade de observações ausentes, além de superestimar ou subestimar o valor real; e a terceira demanda múltiplos passos e procedimentos complexos (Yan, 2013YAN, W. Biplot analysis of incomplete two-way data. Crop Science, v.53, p.48-57, 2013. DOI: 10.2135/cropsci2012.05.0301.
https://doi.org/10.2135/cropsci2012.05.0...
).

Recentemente, Yan (2013)YAN, W. Biplot analysis of incomplete two-way data. Crop Science, v.53, p.48-57, 2013. DOI: 10.2135/cropsci2012.05.0301.
https://doi.org/10.2135/cropsci2012.05.0...
propôs um procedimento iterativo, baseado na DVS, para imputar dados faltantes em uma tabela de dupla entrada. O procedimento fornece imputação simples, mas, conforme Josse & Husson (2012a)JOSSE, J.; HUSSON, F.Selecting the number of components in principal component analysis using cross-validation approximations. Computational Statistics and Data Analysis, v.56, p.1869-1879, 2012b. DOI: 10.1016/j.csda.2011.11.012.
https://doi.org/10.1016/j.csda.2011.11.0...
e Buuren (2012)BUUREN, S. van. Flexible imputation of missing data. Boca Raton: CRC Press, 2012. 343p. DOI: 10.1201/b11826.
https://doi.org/10.1201/b11826....
advertem, não leva em conta a incerteza produzida pelas imputações. Desse modo, se os parâmetros forem estimados a partir dos dados imputados, os erros-padrão serão subestimados, ou seja, os intervalos de confiança e os testes perderão a validade, mesmo que o modelo de imputação esteja correto.

A imputação múltipla (IM) pode resolver esse tipo de problema (Rubin, 1978, 1987RUBIN, D.B. Multiple imputation in sample surveys - a phenomenological Bayesian approach to nonresponse. Proceedings of the Survey Research Methods Section, American Statistical Association, p.20-34, 1978. Available at: <https://www.amstat.org/sections/srms/proceedings/papers/1978_004.pdf>. Accessed on: 14 Aug. 2014.
https://www.amstat.org/sections/srms/pro...
). Descrições mais recentes da técnica são encontradas em Zhang (2003)ZHANG, P. Multiple imputation: theory and method. International Statistical Review, v.71, p.581-592, 2003. DOI: 10.1111/j.1751-5823.2003.tb00213.x.
https://doi.org/10.1111/j.1751-5823.2003...
, Harel & Zhou (2007)HAREL, O.; ZHOU, X.-H. Multiple imputation: review of theory, implementation, and software. Statistics in Medicine, v.26, p.3057-3077, 2007. DOI: 10.1002/sim.2787.
https://doi.org/10.1002/sim.2787....
, Allison (2012)ALLISON, P.D. Handling missing data by maximum likelihood. 2012. Available at: <http://www.statisticalhorizons.com/wp-content/uploads/MissingDataByML.pdf>. Accessed on: 14 Aug. 2014.
http://www.statisticalhorizons.com/wp-co...
e Rässler et al. (2013)RÄSSLER, S.; RUBIN, D.B. ; ZELL, E.R. Imputation. WIREs Computational Statistics, v.5, p.20-29, 2013. DOI: 10.1002/wics.1240.
https://doi.org/10.1002/wics.1240....
. Segundo Bergamo (2007)BERGAMO, G.C. Imputação múltipla livre de distribuição utilizando a decomposição por valor singular em matriz de interação. 2007. 89p. Tese (Doutorado) - Universidade de São Paulo, Piracicaba., a IM envolve três passos distintos: imputação, em que os valores ausentes são estimados M vezes e geram M conjuntos de dados completados (observados+imputados); análise, em que os M conjuntos de dados completados são analisados com procedimentos estatísticos apropriados para o problema em estudo; e combinação, em que os M conjuntos separados de resultados são combinados em uma única inferência.

A etapa mais crítica é a imputação, e o modelo utilizado nesse passo não precisa ser o mesmo que o usado na etapa de análise, o que torna a IM mais atrativa, pois nem sempre o modelo mais adequado para imputar é o mais adequado para analisar. Ao combinar os resultados das M análises, a variância da estimativa combinada consiste na variância dentro das imputações e na variância entre imputações; portanto, as incertezas dos dados imputados são incorporadas à inferência final.

Na literatura sobre experimentos GxE incompletos, há vários sistemas de imputação (Arciniegas-Alarcón et al., 2013ARCINIEGAS-ALARCÓN, S.; GARCÍA-PEÑA, M.; KRZANOWSKI, W.J.; DIAS, C.T. dos S.Deterministic imputation in multienvironment trials. ISRN Agronomy, v.2013, 2013. DOI: 10.1155/2013/978780.
https://doi.org/10.1155/2013/978780....
), mas a maioria deles não quantifica a incerteza sobre os valores reais a serem imputados. Nos casos em que é possível estimar essa incerteza, como com o uso da IM paramétrica, os sistemas dependem fortemente das distribuições de probabilidade e do mecanismo de ausência dos dados (Little & Rubin, 2002LITTLE, R.J.A.; RUBIN, D.B. Statistical analysis with missing data. 2nd ed. Hoboken: Wiley, 2002. 408p. DOI: 10.1002/9781119013563.
https://doi.org/10.1002/9781119013563....
).

O objetivo deste trabalho foi propor um novo algoritmo de imputação múltipla livre de distribuição, por meio de modificações no método de imputação simples recentemente desenvolvido por Yan para contornar o problema de desbalanceamento de experimentos.

Material e Métodos

Yan (2013)YAN, W. Biplot analysis of incomplete two-way data. Crop Science, v.53, p.48-57, 2013. DOI: 10.2135/cropsci2012.05.0301.
https://doi.org/10.2135/cropsci2012.05.0...
descreveu um método de imputação que usa a DVS para realizar a análise biplot (Gabriel, 1971, 2002GABRIEL, K.R. Le biplot - outil d'exploration de données multidimensionelles. Journal de la Société Française de Statistique, v.143, p.5-55, 2002.), a partir de dados incompletos. Por essa razão, García-Peña et al. (2014)GARCÍA-PEÑA, M.; ARCINIEGAS-ALARCÓN, S.; BARBIN, D. Imputação de dados climáticos utilizando a decomposição por valores singulares: uma comparação empírica. Revista Brasileira de Meteorologia, v.29, 2014. DOI: 10.1590/0102-778620130005.
https://doi.org/10.1590/0102-77862013000...
chamaram o método de "imputação biplot", notação que também será utilizada no presente trabalho para designar o algoritmo, descrito a seguir.

Considere a matriz X, de dimensão (n×p) com elementos xij (i=1,...,n; j=1,...,p), em que alguns desses elementos estão ausentes (xijaus). Na imputação biplot, os dados faltantes são inicialmente imputados pela média dos valores observados em suas respectivas colunas, o que resulta numa matriz X completada. As colunas da matriz X completada são, então, padronizadas ao se subtrair mj de cada elemento e dividir o resultado por sj; em que mj representa a média da j-ésima coluna e sj, o desvio-padrão. Os elementos padronizados são notados por pij e modelados por meio de um biplot bidimensional (Yan & Holland, 2010YAN, W.; HOLLAND, J.B. A heritability-adjusted GGE biplot for test environment evaluation. Euphytica, v.171, p.355-369, 2010. DOI: 10.1007/s10681-009-0030-5.
https://doi.org/10.1007/s10681-009-0030-...
):

Os valores pij são decompostos em dois componentes principais (CP), com valores singulares λk, autovetores para as linhas αik e autovetores para as colunas γjk, para cada um dos k-ésimos CP; em que εij é o resíduo para a linha i na coluna j. A matriz com elementos padronizados pij é denotada por P. Em seguida, calcula-se a DVS da matriz P, e os valores pij são atualizados com uso de apenas dois CP da DVS, o que resulta numa nova matriz, denominada P(2), com elementos pij(2). Todos os elementos pij(2) são, então, retornados à sua escala original por meio da expressão (2) de dimensão (n×p). Os elementos ausentes (2). Por último, o processo da imputação biplot passa por iteração até que se alcance estabilidade nas imputações. Por exemplo, as iterações são realizadas até que, d / ȳ<0,01, que define, de X na matriz X original são imputados pelo correspondente valor . Assim, obtém-se uma nova matrix X

em que: d representa a diferença entre os valores preditos, para todos os valores ausentes na iteração atual (xi) e na iteração anterior ij é o valor observado (não ausente) na i-ésima linha e na j-ésima coluna, e N é o número total de valores observados. são os valores preditos para o i-ésimo dado faltante na iteração atual e na iteração anterior, respectivamente. Além disso, uma grande média pode ser calculada como ȳ, em que: y; na é o número total de valores ausentes na matriz X; e xi e

Para realizar a imputação múltipla a partir do algoritmo descrito, sugerem-se duas aproximações que estão de acordo com os trabalhos de Bergamo et al. (2008)BERGAMO, G.C.; DIAS, C.T. dos S.; KRZANOWSKI, W.J.Distribution-free multiple imputation in an interaction matrix through singular value decomposition. Scientia Agricola, v.65, p.422-427, 2008. DOI: 10.1590/S0103-90162008000400015.
https://doi.org/10.1590/S0103-9016200800...
e Srivastava & Dolatabadi (2009)SRIVASTAVA, M.S.; DOLATABADI, M. Multiple imputation and other resampling scheme for imputing missing observations. Journal of Multivariate Analysis, v.100, p.1919-1937, 2009. DOI: 10.1016/j.jmva.2009.06.003.
https://doi.org/10.1016/j.jmva.2009.06.0...
.

Srivastava & Dolatabadi (2009)SRIVASTAVA, M.S.; DOLATABADI, M. Multiple imputation and other resampling scheme for imputing missing observations. Journal of Multivariate Analysis, v.100, p.1919-1937, 2009. DOI: 10.1016/j.jmva.2009.06.003.
https://doi.org/10.1016/j.jmva.2009.06.0...
propuseram IM com uso dos resíduos simples do modelo de regressão linear clássico Y=Qβ+E, em que o vetor Y (n×1) representa a variável dependente; Q (n×p) é a matriz de delineamento que contém as variáveis independentes; β (p×1) é o vetor desconhecido de parâmetros de regressão; e E (n×1) é o vetor de erros aleatórios independentes e identicamente distribuídos. Assume-se que os dados ausentes somente podem ocorrer no vetor Y e que todas as observações das variáveis independentes são disponíveis e completas. Portanto, o modelo pode ser reescrito como (Y0/YA)=(Q0/QA)β+E, em que Y0 (n1×1) corresponde ao subvetor dos n1 dados observados e YA (n0×1) ao subvetor que contém n0 valores ausentes, ao se levar em conta que n0+n1=n. A matriz Q é decomposta de forma semelhante. Assim, a imputação múltipla é obtida da seguinte maneira: ŶAt=QA(Qt0Q0)-1QT0Y0+Et, em que t=1,...,M, sendo M o número de imputações para cada dado faltante; e Et é a t-ésima amostra aleatória com reposição de tamanho n0 obtida do vetor de resíduos. Esse vetor é calculado pela expressão e = (n1 / n1 - p)0,5 (Y0 - Q0b1), em que b1 é a estimativa de mínimos quadrados de β, baseada unicamente nos dados observados, ou seja, b1=(Qt0Q0)-1QT0Y0.

A primeira modificação proposta no algoritmo de imputação biplot é a seguinte. O método fornece no final, depois de atingir convergência, uma matriz X(2), que contém tanto imputações para valores ausentes quanto estimativas dos valores observados. Por essa razão, como passo intermediário para produzir imputação múltipla, pode-se calcular a matriz de resíduos simples para os dados observados por meio da diferença entre a matriz original e a matriz que contém as imputações, isto é, t (n×p), em que t =1, ..., M, e cada elemento de Ωt é escolhido aleatoriamente com reposição dos elementos de (2)t.. Naturalmente, a matriz tem dimensão (n×p) e é incompleta, porque somente podem ser obtidos os resíduos para (np-na) dados. A partir dos resíduos que podem ser efetivamente calculados em da matriz X original pelos valores correspondentes de cada uma das t matrizes definidas por X. Em seguida, a imputação múltipla é realizada ao se substituir os elementos ausentes , são construídas t matrizes diferentes, denotadas por Ω

No presente trabalho, adotou-se M=5, uma vez que esse número permite atingir alta eficiência estatística em muitas aplicações práticas (Buuren, 2012BUUREN, S. van. Flexible imputation of missing data. Boca Raton: CRC Press, 2012. 343p. DOI: 10.1201/b11826.
https://doi.org/10.1201/b11826....
). Dessa forma, obteve-se a imputação múltipla com resíduos simples por meio de um modelo multiplicativo. Esse método foi denominado IMBiplotRes.

Bergamo et al. (2008)BERGAMO, G.C.; DIAS, C.T. dos S.; KRZANOWSKI, W.J.Distribution-free multiple imputation in an interaction matrix through singular value decomposition. Scientia Agricola, v.65, p.422-427, 2008. DOI: 10.1590/S0103-90162008000400015.
https://doi.org/10.1590/S0103-9016200800...
, no entanto, propuseram fazer imputação múltipla por meio de um esquema que utiliza a combinação de duas DVS de uma matriz para imputar cada dado faltante, com mudanças nos expoentes das matrizes de autovalores obtidas a partir das decomposições. Os autores sugeriram que os expoentes fossem escolhidos do intervalo entre 0,4 e 0,6; em percentagem, a escolha seria 40, 45, 50, 55 e 60%, para M=5. Desse modo, a segunda proposta para produzir imputação múltipla, com uso da imputação biplot como base, consiste em substituir o modelo biplot bidimensional pelo modelo:

em que w pode ser considerado como o peso para o autovalor λk, e a inclusão de diferentes pesos produzirá diferentes imputações para cada valor ausente.

Diferentemente do estudo de Bergamo et al. (2008)BERGAMO, G.C.; DIAS, C.T. dos S.; KRZANOWSKI, W.J.Distribution-free multiple imputation in an interaction matrix through singular value decomposition. Scientia Agricola, v.65, p.422-427, 2008. DOI: 10.1590/S0103-90162008000400015.
https://doi.org/10.1590/S0103-9016200800...
, essa segunda proposta realiza apenas uma DVS, na etapa de imputação, para todos os dados ausentes, e w pode assumir qualquer valor no intervalo entre 0 e 1. Por essa razão, foram considerados, no presente trabalho, cinco grupos de avaliação. Assim, o método foi denominado IMBiplotGh, em que h representa o grupo e h=1, ..., 5. Os algoritmos são, respectivamente: IMBiplotG1, com w=0, 0,05, 0,1, 0,15 e 0,2; IMBiplotG2, com w=0,25, 0,30, 0,35, 0,40 e 0,45; IMBiplotG3, com w=0,5, 0,55, 0,60, 0,65 e 0,7; IMBiplotG4, com w=0,75, 0,80, 0,85, 0,90 e 0,95; e IMBiplotG5, com w=0,96, 0,97, 0,98, 0,99 e 1.

Pesos menores do que 0 e maiores do que 1 foram avaliados previamente, mas, em ambos os casos, o algoritmo apresentou problemas de convergência. Além disso, os pesos também devem ser incluídos no algoritmo de imputação biplot depois de se calcular a DVS de P, ou seja, na atualização dos valores pij.

Para avaliar os métodos de imputação propostos, foram usados dois conjuntos de dados reais balanceados provenientes de experimentos GxE, publicados em Lavoranti (2003)LAVORANTI, O.J. Estabilidade e adaptabilidade fenotípica através da reamostragem "Bootstrap" no modelo AMMI. 2003. 166 p. Tese (Doutorado) - Escola Superior de Agricultura Luiz de Queiroz, Piracicaba. e Santos (2008)SANTOS, É.G.D. dos. Interação genótipos x locais em cana-de-açúcar e perspectivas de estratificação ambiental. 2008. 63p. Dissertação (Mestrado) - Escola Superior de Agricultura Luiz de Queiroz, Piracicaba.. Em cada caso, os dados foram obtidos a partir de delineamentos experimentais aleatorizados em blocos com repetições; porém, cada um desses trabalhos oferece uma excelente descrição do planejamento, se detalhes específicos fossem requeridos. O primeiro conjunto de dados (Lavoranti, 2003LAVORANTI, O.J. Estabilidade e adaptabilidade fenotípica através da reamostragem "Bootstrap" no modelo AMMI. 2003. 166 p. Tese (Doutorado) - Escola Superior de Agricultura Luiz de Queiroz, Piracicaba.) é composto por uma matriz de dimensão 20×7, isto é, 20 progênies de Eucalyptus grandis, avaliadas em sete locais das regiões Sul e Sudeste do Brasil, tendo-se estudado a variável altura média (m). O segundo conjunto de dados (Santos, 2008SANTOS, É.G.D. dos. Interação genótipos x locais em cana-de-açúcar e perspectivas de estratificação ambiental. 2008. 63p. Dissertação (Mestrado) - Escola Superior de Agricultura Luiz de Queiroz, Piracicaba.) refere-se a uma matriz de dimensão 15×13, proveniente de um experimento com 15 variedades de cana-de-açúcar (Saccharum officinarum L.), em 13 locais do Brasil. A variável coletada foi teor de açúcar médio (pol de cana, %).

Cada matriz de dados originais foi submetida a retiradas aleatórias, em diferentes percentagens. Foram retirados 10, 20 e 35% dos dados, uma vez que, segundo Yan (2013)YAN, W. Biplot analysis of incomplete two-way data. Crop Science, v.53, p.48-57, 2013. DOI: 10.2135/cropsci2012.05.0301.
https://doi.org/10.2135/cropsci2012.05.0...
, o número de dados ausentes em GxE geralmente é menor que 40%. O processo foi repetido 1.000 vezes, em cada conjunto de dados, para cada percentagem de retirada, tendo-se obtido 3.000 matrizes diferentes com dados ausentes. No total, foram gerados 6.000 conjuntos de dados incompletos, e, em cada um deles, os dados foram imputados com os seis algoritmos de IM descritos, por meio de um programa computacional implementado no R (R Development Core Team, 2014R DEVELOPMENT CORE TEAM. R: a language and environment for statistical computing. Vienna: R Foundation for Statistical Computing, 2014.).

O processo de retirada aleatória para uma matriz X (n×p) foi o seguinte: números aleatórios entre 0 e 1 foram gerados no R com a função "runif"; para um valor fixo de r (0<r<1), se o (pi+j)-ésimo número aleatório for menor do que r, então o elemento na posição (i+1, j) da matriz foi deletado (i=0, 1, ..., n-1; j=1, ..., p). A proporção esperada de dados ausentes na matriz será r (Krzanowski, 1988KRZANOWSKI, W.J. Missing value imputation in multivariate data using the singular value decomposition of a matrix. Biometrical Letters, v.25, p.31-39, 1988.). Essa técnica foi utilizada com r=0,1, 0,2 e 0,35.

Para medir a exatidão das imputações, foram adotadas as estatísticas Tacc, VE e VQM, utilizadas por Bergamo et al. (2008)BERGAMO, G.C.; DIAS, C.T. dos S.; KRZANOWSKI, W.J.Distribution-free multiple imputation in an interaction matrix through singular value decomposition. Scientia Agricola, v.65, p.422-427, 2008. DOI: 10.1590/S0103-90162008000400015.
https://doi.org/10.1590/S0103-9016200800...
. A estatística Tacc é uma medida de acurácia geral composta pela soma da variância combinada entre imputações dentro de posições (VE) e o viés quadrático médio entre a média das imputações e o valor original retirado no estudo de simulação (VQM). As estatísticas são apresentadas pela equação Tacc=VE+VQM, com

em que na é o número total de valores retirados da matriz GxE - cada valor retirado (l) tem sua correspondente posição (i, j) na matriz, isto é, na i-ésima linha e na j-ésima coluna; M é o número de imputações para o valor ausente l; l é a média das imputações produzidas para o valor ausente l; e VOl é o valor original l no conjunto de dados original completo. é a m-ésima imputação para o dito valor, obtida por meio de um dos métodos propostos; Ȳ

Considerou-se um bom método de imputação aquele que apresentou, conjuntamente, os menores valores de VE e VQM. Ressalta-se que apenas o valor reduzido de VE não significaria uma boa qualidade da imputação, uma vez que o método pode ser tendencioso.

Resultados e Discussão

O método de imputação IMBiplotRes, para o conjunto de dados de eucalipto, forneceu sempre a maior variância entre imputações (VE), independentemente da percentagem de imputação, enquanto o algoritmo com menor variância foi o IMBiplotG2, seguido pelo IMBiplotG1 e pelo IMBiplotG3 (Tabela 1). No entanto, para que se possa tomar uma decisão definitiva sobre qual seria o melhor algoritmo, é necessário que se analise ainda o VQM e a medida geral Tacc.

Tabela 1.
Média e mediana da variância combinada entre imputações (VE) e do viés quadrático médio (VQM), sob diferentes percentagens (10, 20 e 35%) de retirada aleatória de dados, para o conjunto de dados de eucalipto (Eucalyptus grandis).

No mesmo conjunto de dados, o método com o menor viés para as percentagens de imputação foi o IMBiplotG5, seguido pelo IMBiplotG4 e pelo IMBiplotRes (Tabela 1). Em todos os casos, os sistemas de imputação mais viesados, ou seja, com maiores valores de VQM, foram IMBiplotG1 e IMBiplotG2. Assim, o algoritmo IMBiplotG5, por ter apresentado menor VQM, permitiu que se atingisse a maior similaridade entre as imputações e seus valores originais, o que resulta em maior precisão. Destaca-se que os métodos com menor VE acabaram sendo os mais tendenciosos. Além disso, observou-se que o VQM aumentou à medida que a percentagem de imputação também aumentava, para todos os sistemas, o que é esperado, pois, se a informação disponível na matriz diminuir, o erro no modelo de imputação deve aumentar.

Contudo, para decidir qual seria o melhor método de imputação, a estatística de acurácia geral Tacc também deve ser considerada. Essa estatística leva em conta tanto a variância entre imputações quanto o viés quadrático médio (Figura 1). Todos os sistemas de imputação apresentam distribuições aproximadamente simétricas. O algoritmo com menor parâmetro de centralidade (distribuição mais próxima de zero) foi o IMBiplotG5, seguido do IMBiplotG4, em todas as percentagens de imputação consideradas. Assim, para 35% de retiradas aleatórias, as medianas da Tacc foram: 1,41 para IMBiplotG5; 1,46, para IMBiplotG4; 1,58, para IMBiplotG3; 1,67, para IMBiplotG2; 1,70, para IMBiplotRes; e 1,71, para IMBiplotG1. O algoritmo IMBiplotG5 também proporcionou o melhor desempenho nas outras percentagens; ou seja, apresentou as menores medianas dos valores de Tacc. Por último, ressalta-se que o algoritmo IMBiplotRes superou o IMBiplotG2 com as menores medianas de Tacc, nas taxas de 10 e 20% de imputação.

Figura 1.
Distribuição da medida de acurácia geral (Tacc), com uso dos algoritmos IMBiplotRes (Res) e IMBiplotGh (G1, G2, G3, G4 e G5), para o conjunto de dados de eucalipto (Eucalyptus grandis).

Para verificar a consistência dos resultados no estudo de simulação com dados de eucalipto, utilizou-se o conjunto de dados de cana-de-açúcar. Nesse conjunto de dados, o método com a menor média de variância entre imputações (VE) foi o IMBiplotG2, para todas as percentagens consideradas, seguido por IMBiplotG1 e IMBiplotG3 (Tabela 2). Entretanto, a variância foi maximizada com uso do IMBiplotRes, também em todas as situações simuladas. Portanto, tanto nos dados de eucalipto quanto nos de cana-de-açúcar, a VE teve o mesmo comportamento. Quanto ao VQM, o método com menor viés foi o IMBiplotG5, seguido pelo IMBiplotRes e pelo IMBiplotG4, em todas as percentagens consideradas. Os métodos mais tendenciosos foram, novamente, os com menor VE, ou seja, IMBiplotG1, IMBiplotG2 e IMBiplotG3. Da mesma forma, nos dados de cana-de-açúcar, também constatou-se que o VQM aumentava com o aumento na percentagem de retirada aleatória, para todos os sistemas considerados.

Tabela 2.
Média e mediana da variância combinada entre imputações (VE) e do viés quadrático médio (VQM), sob diferentes percentagens (10, 20 e 35%) de retirada aleatória de dados, para o conjunto de dados de cana-de-açúcar (Saccharum officinarum).

Quanto à distribuição da Tacc dos dados de cana-de-açúcar, os seis algoritmos foram agrupados conforme seu desempenho (Figura 2). Assim, o primeiro grupo, de alto desempenho, foi composto por IMBiplotG5, IMBiplotG4 e IMBiplotRes, e o segundo grupo, por IMBiplotG3, IMBiplotG2 e IMBiplotG1. Também, com os dados de cana-de-açúcar, o melhor método de imputação foi o IMBiplotG5, que minimizou a estatística de acurácia geral em todas as percentagens.

Figura 2.
Distribuição da medida de acurácia geral (Tacc), com uso dos algoritmos IMBiplotRes (Res) e IMBiplotGh (G1, G2, G3, G4 e G5), para o conjunto de dados de cana-de-açúcar (Saccharum officinarum).

Em ambos os estudos de simulação, o melhor desempenho foi atingido pelo IMBiplotG5, seguido do IMBiplotG4; portanto, os pesos w a serem considerados no modelo de imputação multiplicativo devem ser maiores do que 0,75. Esse resultado, no entanto, foi diferente do obtido no sistema de imputação descrito por Bergamo et al. (2008)BERGAMO, G.C.; DIAS, C.T. dos S.; KRZANOWSKI, W.J.Distribution-free multiple imputation in an interaction matrix through singular value decomposition. Scientia Agricola, v.65, p.422-427, 2008. DOI: 10.1590/S0103-90162008000400015.
https://doi.org/10.1590/S0103-9016200800...
, que propuseram o intervalo de 0,4 a 0,6.

Para confirmar os pesos encontrados no presente trabalho, procedeu-se a simulações com o conjunto de dados de produtividade média (kg ha-1) publicados por Yan et al. (2007)YAN, W.; KANG, M.S.; MA, B.; WOODS, S.; CORNELIUS, P.L. GGE biplot vs. AMMI analysis of genotype-by-environment data. Crop Science, v.47, p.641-653, 2007. DOI: 10.2135/cropsci2006.06.0374.
https://doi.org/10.2135/cropsci2006.06.0...
para 18 cultivares de trigo (Triticum aestivum L.), avaliadas em nove ambientes, em Ontário, no Canadá. Novamente, o IMBiplotG5 foi o método mais eficiente. Dessa forma, os pesos (ou expoentes) sugeridos para os autovalores de uma IM a partir da imputação biplot seriam: 0,96, 0,97, 0,98, 0,99 e 1. Destaca-se que o IMBiplotRes apresentou resultados inconsistentes, pois apresentou baixo desempenho no conjunto de eucalipto, mas fez parte dos melhores métodos no conjunto de dados de cana-de-açúcar.

Os algoritmos de IM apresentados no presente trabalho têm como base a imputação biplot de Yan (2013)YAN, W. Biplot analysis of incomplete two-way data. Crop Science, v.53, p.48-57, 2013. DOI: 10.2135/cropsci2012.05.0301.
https://doi.org/10.2135/cropsci2012.05.0...
, que utiliza uma aproximação de posto 2 para qualquer matriz GxE. Recentemente, Yang et al. (2009)YANG, R.-C.; CROSSA, J.; CORNELIUS, P.L.; BURGUEÑO, J. Biplot analysis of genotype x environment interaction: proceed with caution. Crop Science, v.49, p.1564-1576, 2009. DOI: 10.2135/cropsci2008.11.0665.
https://doi.org/10.2135/cropsci2008.11.0...
afirmaram que todas as matrizes não podem ser analisadas com essa aproximação, pois, para algumas matrizes experimentais, ela, e especificamente o biplot, não é suficiente nem apropriada para determinar genótipos ganhadores ou mega-ambientes. Por esse motivo, sugere-se o seguinte esquema simples de pré-processamento de dados, para uma matriz GxE incompleta.

Suponha a matriz GxE X (n×p) com dados ausentes. Antes de aplicar os métodos propostos aqui, deve-se encontrar o posto de X, e uma maneira rápida de fazê-lo é por meio de validação cruzada (VC). Na literatura, vários esquemas de VC sobre dados incompletos podem ser encontrados, mas os recomendados no presente trabalho são os fornecidos por Husson & Josse (2013)HUSSON, F.; JOSSE, J. missMDA: handling missing values with/in multivariate data analysis (principal component methods). Version 1.7. Available at: <http://CRAN.R-project.org/package=missMDA>. Accessed on: 15 out. 2013.
http://CRAN.R-project.org/package=missMD...
e Wong (2013)WONG, J. Imputation. Version 2.0.1. Available at: <http://CRAN.Rproject.org/package=imputation>. Accessed on: 15 out. 2013.
http://CRAN.Rproject.org/package=imputat...
, que implementaram, nos pacotes imputation e missMDA do R (R Development Core Team, 2014R DEVELOPMENT CORE TEAM. R: a language and environment for statistical computing. Vienna: R Foundation for Statistical Computing, 2014.), métodos que combinam a regularização com a análise de componentes principais (ACP), e a DVS com o algoritmo EM (Perry 2009PERRY, P.O. Cross-validation for unsupervised learning. 2009. 165p. Thesis (PhD) - Stanford University, Stanford.; Josse & Husson, 2012b)JOSSE, J.; HUSSON, F.Selecting the number of components in principal component analysis using cross-validation approximations. Computational Statistics and Data Analysis, v.56, p.1869-1879, 2012b. DOI: 10.1016/j.csda.2011.11.012.
https://doi.org/10.1016/j.csda.2011.11.0...
. Esses métodos proporcionam o posto da matriz X incompleta, que pode ser utilizado para IM com os sistemas sugeridos. Se o posto fosse diferente de 2, somente seria necessário inseri-lo no modelo multiplicativo de imputação. Finalmente, os algoritmos apresentados são de fácil implementação computacional e o código pode ser solicitado aos autores.

Conclusões

  1. Os métodos de imputação múltipla (IM) propostos não dependem de pressuposições distribucionais ou estruturais e não têm restrições quanto ao padrão ou ao mecanismo de ausência de dados em experimentos genótipo x ambiente (GxE), ou em qualquer conjunto de dados que possa ser arranjado de forma matricial.

  2. Com os sistemas de IM descritos, é possível obter uma estimativa da variância entre as imputações que represente a incerteza sobre os valores verdadeiros a serem imputados.

Agradecimentos

À Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (Capes), ao Programa de Estudantes-Convênio de Pós-graduação (PEC-PG), ao Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq) e à Academia de Ciências para os Países em Desenvolvimento (CNPq-TWAS), pelo apoio financeiro.

  • ALLISON, P.D. Handling missing data by maximum likelihood. 2012. Available at: <http://www.statisticalhorizons.com/wp-content/uploads/MissingDataByML.pdf>. Accessed on: 14 Aug. 2014.
    » http://www.statisticalhorizons.com/wp-content/uploads/MissingDataByML.pdf
  • ARCINIEGAS-ALARCÓN, S.; GARCÍA-PEÑA, M.; DIAS, C.T. dos S. Data imputation in trials with genotype x environment interaction. Interciencia, v.36, p.444-449, 2011.
  • ARCINIEGAS-ALARCÓN, S.; GARCÍA-PEÑA, M.; KRZANOWSKI, W.J.; DIAS, C.T. dos S.Deterministic imputation in multienvironment trials. ISRN Agronomy, v.2013, 2013. DOI: 10.1155/2013/978780.
    » https://doi.org/10.1155/2013/978780.
  • BERGAMO, G.C. Imputação múltipla livre de distribuição utilizando a decomposição por valor singular em matriz de interação. 2007. 89p. Tese (Doutorado) - Universidade de São Paulo, Piracicaba.
  • BERGAMO, G.C.; DIAS, C.T. dos S.; KRZANOWSKI, W.J.Distribution-free multiple imputation in an interaction matrix through singular value decomposition. Scientia Agricola, v.65, p.422-427, 2008. DOI: 10.1590/S0103-90162008000400015.
    » https://doi.org/10.1590/S0103-90162008000400015.
  • BUUREN, S. van. Flexible imputation of missing data. Boca Raton: CRC Press, 2012. 343p. DOI: 10.1201/b11826.
    » https://doi.org/10.1201/b11826.
  • CECCARELLI, S.; GRANDO, S.; BAUM, M. Participatory plant breeding in water-limited environments. Experimental Agriculture, v.43, p.411-435, 2007. DOI: 10.1017/S0014479707005327.
    » https://doi.org/10.1017/S0014479707005327.
  • DIAS, C.T. dos S.; KRZANOWSKI, W.J.Model selection and cross validation in additive main effect and multiplicative interaction models. Crop Science, v.43, p.865-873, 2003. DOI: 10.2135/cropsci2003.0865.
    » https://doi.org/10.2135/cropsci2003.0865.
  • GABRIEL, K.R. Le biplot - outil d'exploration de données multidimensionelles. Journal de la Société Française de Statistique, v.143, p.5-55, 2002.
  • GABRIEL, K.R. The biplot graphic display of matrices with application to principal component analysis. Biometrika, v.58, p.453-467, 1971. DOI: 10.1093/biomet/58.3.453.
    » https://doi.org/10.1093/biomet/58.3.453.
  • GARCÍA-PEÑA, M.; ARCINIEGAS-ALARCÓN, S.; BARBIN, D. Imputação de dados climáticos utilizando a decomposição por valores singulares: uma comparação empírica. Revista Brasileira de Meteorologia, v.29, 2014. DOI: 10.1590/0102-778620130005.
    » https://doi.org/10.1590/0102-778620130005.
  • GAUCH JUNIOR, H.G. A simple protocol for AMMI analysis of yield trials. Crop Science, v.53, p.1860-1869, 2013. DOI: 10.2135/cropsci2013.04.0241.
    » https://doi.org/10.2135/cropsci2013.04.0241.
  • HAREL, O.; ZHOU, X.-H. Multiple imputation: review of theory, implementation, and software. Statistics in Medicine, v.26, p.3057-3077, 2007. DOI: 10.1002/sim.2787.
    » https://doi.org/10.1002/sim.2787.
  • HUSSON, F.; JOSSE, J. missMDA: handling missing values with/in multivariate data analysis (principal component methods). Version 1.7. Available at: <http://CRAN.R-project.org/package=missMDA>. Accessed on: 15 out. 2013.
    » http://CRAN.R-project.org/package=missMDA
  • JOSSE, J.; HUSSON, F.Handling missing values in exploratory multivariate data analysis methods. Journal de la Société Française de Statistique, v.153, p.79-99, 2012a.
  • JOSSE, J.; HUSSON, F.Selecting the number of components in principal component analysis using cross-validation approximations. Computational Statistics and Data Analysis, v.56, p.1869-1879, 2012b. DOI: 10.1016/j.csda.2011.11.012.
    » https://doi.org/10.1016/j.csda.2011.11.012.
  • KRZANOWSKI, W.J. Missing value imputation in multivariate data using the singular value decomposition of a matrix. Biometrical Letters, v.25, p.31-39, 1988.
  • KUMAR, A.; VERULKAR, S.B.; MANDAL, N.P.; VARIAR, M.; SHUKLA, V.D.; DWIVEDI, J.L.; SINGH, B.N.; SINGH, O.N.; SWAIN, P.; MALL, A.K.; ROBIN, S.; CHANDRABABU, R.; JAIN, A.; HAEFELE, S.M.; PIEPHO, H.P.; RAMAN, A. High-yielding, drought-tolerant, stable rice genotypes for the shallow rainfed lowland drought-prone ecosystem. Field Crops Research, v.133, p.37-47. 2012. DOI: 10.1016/j.fcr.2012.03.007.
    » https://doi.org/10.1016/j.fcr.2012.03.007.
  • LAVORANTI, O.J. Estabilidade e adaptabilidade fenotípica através da reamostragem "Bootstrap" no modelo AMMI. 2003. 166 p. Tese (Doutorado) - Escola Superior de Agricultura Luiz de Queiroz, Piracicaba.
  • LITTLE, R.J.A.; RUBIN, D.B. Statistical analysis with missing data. 2nd ed. Hoboken: Wiley, 2002. 408p. DOI: 10.1002/9781119013563.
    » https://doi.org/10.1002/9781119013563.
  • PERRY, P.O. Cross-validation for unsupervised learning. 2009. 165p. Thesis (PhD) - Stanford University, Stanford.
  • R DEVELOPMENT CORE TEAM. R: a language and environment for statistical computing. Vienna: R Foundation for Statistical Computing, 2014.
  • RÄSSLER, S.; RUBIN, D.B. ; ZELL, E.R. Imputation. WIREs Computational Statistics, v.5, p.20-29, 2013. DOI: 10.1002/wics.1240.
    » https://doi.org/10.1002/wics.1240.
  • RODRIGUES, P.C.; PEREIRA, D.G.S.; MEXIA, J.T. A comparison between joint regression analysis and the additive main and multiplicative interaction model: the robustness with increasing amounts of missing data. Scientia Agricola, v.68, p.697-705, 2011. DOI: 10.1590/S0103-90162011000600012.
    » https://doi.org/10.1590/S0103-90162011000600012.
  • RUBIN, D.B. Multiple imputation for nonresponse in surveys. New York: John Wiley and Sons, 1987. 258p. DOI: 10.1002/9780470316696.
    » https://doi.org/10.1002/9780470316696.
  • RUBIN, D.B. Multiple imputation in sample surveys - a phenomenological Bayesian approach to nonresponse. Proceedings of the Survey Research Methods Section, American Statistical Association, p.20-34, 1978. Available at: <https://www.amstat.org/sections/srms/proceedings/papers/1978_004.pdf>. Accessed on: 14 Aug. 2014.
    » https://www.amstat.org/sections/srms/proceedings/papers/1978_004.pdf
  • SANTOS, É.G.D. dos. Interação genótipos x locais em cana-de-açúcar e perspectivas de estratificação ambiental. 2008. 63p. Dissertação (Mestrado) - Escola Superior de Agricultura Luiz de Queiroz, Piracicaba.
  • SRIVASTAVA, M.S.; DOLATABADI, M. Multiple imputation and other resampling scheme for imputing missing observations. Journal of Multivariate Analysis, v.100, p.1919-1937, 2009. DOI: 10.1016/j.jmva.2009.06.003.
    » https://doi.org/10.1016/j.jmva.2009.06.003.
  • WONG, J. Imputation. Version 2.0.1. Available at: <http://CRAN.Rproject.org/package=imputation>. Accessed on: 15 out. 2013.
    » http://CRAN.Rproject.org/package=imputation
  • YAN, W. Biplot analysis of incomplete two-way data. Crop Science, v.53, p.48-57, 2013. DOI: 10.2135/cropsci2012.05.0301.
    » https://doi.org/10.2135/cropsci2012.05.0301.
  • YAN, W.; HOLLAND, J.B. A heritability-adjusted GGE biplot for test environment evaluation. Euphytica, v.171, p.355-369, 2010. DOI: 10.1007/s10681-009-0030-5.
    » https://doi.org/10.1007/s10681-009-0030-5.
  • YAN, W.; KANG, M.S.; MA, B.; WOODS, S.; CORNELIUS, P.L. GGE biplot vs. AMMI analysis of genotype-by-environment data. Crop Science, v.47, p.641-653, 2007. DOI: 10.2135/cropsci2006.06.0374.
    » https://doi.org/10.2135/cropsci2006.06.0374.
  • YAN, W.; PAGEAU, D.; FRÉGEAU-REID, J.; DURAND, J. Assessing the representativeness and repeatability of test locations for genotype evaluation. Crop Science, v.51, p.1603-1610, 2011. DOI: 10.2135/cropsci2011.01.0016.
    » https://doi.org/10.2135/cropsci2011.01.0016.
  • YANG, R.-C.; CROSSA, J.; CORNELIUS, P.L.; BURGUEÑO, J. Biplot analysis of genotype x environment interaction: proceed with caution. Crop Science, v.49, p.1564-1576, 2009. DOI: 10.2135/cropsci2008.11.0665.
    » https://doi.org/10.2135/cropsci2008.11.0665.
  • ZHANG, P. Multiple imputation: theory and method. International Statistical Review, v.71, p.581-592, 2003. DOI: 10.1111/j.1751-5823.2003.tb00213.x.
    » https://doi.org/10.1111/j.1751-5823.2003.tb00213.x.

Datas de Publicação

  • Publicação nesta coleção
    Set 2014

Histórico

  • Recebido
    07 Abr 2014
  • Aceito
    27 Ago 2014
Embrapa Secretaria de Pesquisa e Desenvolvimento; Pesquisa Agropecuária Brasileira Caixa Postal 040315, 70770-901 Brasília DF Brazil, Tel. +55 61 3448-1813, Fax +55 61 3340-5483 - Brasília - DF - Brazil
E-mail: pab@embrapa.br