Sei sulla pagina 1di 2

UNIVERSIDADE FEDERAL DE VIOSA PS-GRADUAO EM GENTICA E MELHORAMENTO FIT 798-SEMINARIO EM GENTICA E MELHORAMENTO SEMINRIO DE TEMA LIVRE Prelecionista: Melissa

Pisaroglo de Carvalho Orientador: Luiz Alexandre Peternelli IMPUTAO DE DADOS Uma complicao comum na pesquisa cientifica a ocorrncia de dados faltantes ou dados perdidos (missing data). Determinar a abordagem analtica adequada para bancos de dados com observaes incompletas uma questo que pode ser bastante delicada, pois a utilizao de mtodos inadequados pode levar a concluses erradas sobre o conjunto de dados. Para contornar esse problema, surgiram tcnicas estatsticas que envolvem a substituio dos dados faltantes por estimativas de valores plausveis a serem imputados aos dados faltantes. Essa tcnica tem por objetivo completar os bancos de dados e possibilitar a anlise com todos os dados em estudo. Segundo Dias e Albieri (1992), mtodos ou procedimentos para imputao so aqueles que se preocupam em substituir os valores ausentes, de uma unidade ou de um item, por estimativas dos mesmos. As primeiras tcnicas de imputao desenvolvidas envolviam mtodos relativamente simples, tais como substituio dos dados faltantes pela mdia ou pela mediana da varivel, por interpolao ou at por regresso linear. Todos esses mecanismos permitem preencher dados faltantes atravs do que se chama imputao simples. A partir da tcnica de imputao mltipla de Rubin (1987), este procedimento tem se tornando cada vez mais popular. Para se definir o melhor mtodo de imputao a ser utilizado importante conhecer o mecanismo de no resposta, pois a partir dele pode se ter a idia a respeito do relacionamento entre a perda da informao e os valores das variveis presentes na matriz de dados. Os mecanismos de resposta so: Dado faltante completamente aleatrio (MCAR): se a distribuio dos dados faltantes no depende dos valores observados ou perdidos tem-se o chamado mecanismo de perda completamente ao acaso. Dados faltantes aleatrio (MAR); este mecanismo considerado mecanismo de perda previsvel, em que os dados so perdidos por um processo aleatrio, quando a probabilidade de no resposta depende dos dados presentes mas no dos ausentes. Dados faltantes no aleatrio (NMAR): o mecanismo de no resposta chamado de perda no ao acaso aquele em que a distribuio da matriz M depende dos valores faltantes da matriz X. Os mtodos de imputao se dividem em imputao simples ou nica e imputao mltipla. A imputao simples ou nica ocorre quando os dados perdidos so substitudos uma nica vez por algum dos mtodos citados a seguir (Engels, 2003). Dentre eles temos: imputao dedutiva, substituio por um valor de tendncia central, imputao geral aleatria, imputao pela mdia dentro de classes, imputao aleatria dentro de classes, hot deck, imputao por regresso preditiva ou regresso (mdia predita), imputao por regresso aleatria, imputao pela funo distncia, estimativa de mxima verossimilhana e mtodos de imputao nica para dados longitudinais. A imputao mltipla ocorre quando, para cada dado faltante, so

imputados vrios valores, por exemplo, m, ao invs de um. Com isso, so obtidos m bancos de dados completos e cada conjunto de dados analisado usando-se procedimentos para dados completos. Aps, obtm-se a estimativa pontual de um parmetro que obtido atravs da mdia das mltiplas imputaes e o seu erro padro obtido atravs da varincia das mltiplas imputaes. Esta a idia fundamental da imputao mltipla: associar a variabilidade aos resultados. Os mtodos de imputao mltipla para padro monotnico so: mtodo da regresso linear Bayesiana (BLR- Bayesian Linear Regression), mtodo da mdia preditiva (PMMPredictive Mean Matching). Para padro no monotnico so: MCMC( Markov Chain Monte Carlo): o mtodo de Monte Carlo baseado em Cadeia de Markov (MCMC) tem como objetivo simular distribuies multivariadas cujo limite uma cadeia de Markov estacionria que tem a distribuio que se deseja encontrar. E a metodologia adotada por Rubin (1987). A imputao uma poderosa ferramenta e tem a grande vantagem de flexibilidade em manusear os dados faltantes. Entretanto, importante que se tenha cautela, assim como em qualquer estatstica que se faa uso. claro que se o modelo de imputao no consegue capturar o mecanismo no resposta, as anlises de imputao estaro comprometidas. REFERNCIA BIBLIOGRAFICA DIAS, A. J. R., ALBIERI, S. Uso de imputao em pesquisas domiciliares. VIII Encontro Nacional de Estudos Populacionais. Anais...Volume 1: Informao Demogrfica, Fecundidade, Demogrfica Histrica, p. 11:26, So Paulo: ABEP,1992. Engels JM, Diehr P. Imputation of missing longitudinal data: a comparison of methods, Journal of Clinical Epidemiology, 2003; 56(10):968-76. RUBIN, D. B. Multiple Imputation for Nonresponse in Surveys . New York: John Wiley & Sons, 1987.

_____________________________ Melissa Pisaroglo de Carvalho Prelecionista

________________________________ Luiz Alexandre Peternelli Orientador

Potrebbero piacerti anche