Sei sulla pagina 1di 8

305

IMPUTACIN DE DATOS
*




GUILLERMO RAMREZ
( OCEI - VENEZUELA )

*
Transparencias utilizadas por el autor durante su presentacin de este tema en el Taller.
306 Imputacin de Datos

IMPUTACIN DE DATOS


INTRODUCCIN

En el anlisis de grandes volmenes de informacin es muy
frecuente encontrar la existencia de datos con valores
perdidos.
De hecho, los datos completos constituyen ms una
excepcin que la regla.

Esta situacin constituye una severa limitacin, puesto que
los mtodos estadsticos tradicionales estn diseados para
ser aplicados sobre conjuntos de datos completos.




Los continuos avances de la informtica han hecho posible
el surgimiento y puesta en prctica de nuevas metodologas
para el tratamiento de informacin con datos faltantes, los
cuales, en su mayora, producen resultados aceptables
cuando hay pocos valores perdidos.

A pesar de la variedad de mtodos existentes, el problema
permanece abierto, sin que hasta ahora parezca habrsele
hallado una solucin definitiva.

Imputacin de Datos 307



ALTERNATIVAS DE SOLUCIN

1.- Descartar los individuos o variables con valores perdidos

Esta modalidad resulta atractiva debido a su simplicidad, ya
que es posible analizar los datos sin necesidad de modificar
el mtodo estadstico utilizado.
Solamente es recomendable en situaciones con muy pocos
valores perdidos, diseminados a su vez sobre muy pocas
unidades, puesto que de otra manera la prdida de
informacin parcial til puede llegar a ser considerable.




2.- Estimar los valores perdidos utilizando algn mtodo de
imputacin

Una segunda opcin consiste en utilizar la informacin
contenida en los datos observados, para construir
estimaciones razonablesde los valores perdidos. Al ser
imputadas tales estimaciones en las observaciones perdidas,
se obtiene un juego de datos completo, susceptible de ser
analizado con los mtodos estadsticos estndar.



308 Imputacin de Datos



EVALUACIN DE LOS MTODOS DE IMPUTACIN

Una de las estrategias usualmente utilizadas requiere una
matriz de datos con propiedades conocidas, de la cual se
elimina aleatoriamente una cierta proporcin de valores
asumidos como perdidos, y que son posteriormente
estimados e imputados.
Luego se construyen ndices, tanto de la bondad de las
estimaciones como del grado de fidelidad con que son
reconstruidas las propiedades de la matriz original a partir
de la matriz imputada.



ALGUNAS TCNICAS DE IMPUTACIN

Imputacin por Medias

Este mtodo, propuesto por primera vez por Wilks (1932),
es posiblemente uno de los procedimientos de imputacin
ms antiguo y ms sencillo.
Consiste en estimar los valores perdidos de la j-sima
variable mediante la media de sus valores observados, la
cual ha sido llamada por Little y Rubin (1987), media de
los valores disponibles.

Imputacin de Datos 309


Imputacin por Regresin

Este mtodo, propuesto por Buck (1960), supone que las
filas de la matriz de datos constituyen una muestra aleatoria
de una poblacin normal multivariante. El vector de medias
y la matriz de varianzas y covarianzas de los datos
completos son utilizados como estimaciones de los
parmetros poblacionales, con los cuales se ajustan
ecuaciones en regresin para cada una de las variables con
datos perdidos, en trmino de las restantes.



Imputacin por Componentes Principales

Este mtodo, sugerido por Dear (1959) y descrito en detalle
por Beale y Little (1974), tiene como punto de partida una
matriz de datos estandarizada con datos completados
mediante el mtodo de Imputacin por Medias.
El proceso consiste en:
Aplicar un ACP sobre la matriz imputada.
Determinar las distancias entre cada unidad con datos
perdidos y las restantes, basndose en sus puntuaciones
sobre la primera componente.
Imputar como valor perdido, el valor observado
correspondiente al individuo ms cercano al que contiene la
informacin perdida.
310 Imputacin de Datos


Existen mtodos basados en procedimientos mximo-
verosmiles, y otros ms sofisticados basados en la
descomposicin de una matriz en valores singulares, como
es el caso del mtodo de Krzanowsky (1988) y el de
Gleason y Staelin (1975).

La mayora de todos estos mtodos parten de una premisa,
segn la cual los valores perdidos se producen por
mecanismos completamente aleatorios.




TCNICAS DE IMPUTACIN EN LA ENCUESTA DE
HOGARES

Imputacin Manual

En el proceso de revisin y codificacin de la EHM se
aplican diversos mtodos de imputacin en el caso de no
respuesta. Por ejemplo, no se permiten blancos en variables
claves como edad, sexo y aquellas relacionadas con la
situacin en el mercado laboral. Por lo tanto, se imputan
valores de acuerdo con ciertas especificaciones contenidas
en el Manual del Crtico-Codificador.



Imputacin de Datos 311


Ajustes en los Factores de Expansin

En la EHM pueden producirse dos tipos de no respuesta
que afectan los factores de expansin:
Prdida completa de un segmento
Prdida de viviendas en un segmento
En ambos casos se ajustan los FE, multiplicndolos
convenientemente de modo que se mantengan las
representatividades. Este proceso equivale a duplicar
registros con iguales caractersticas que los registros
perdidos.



Deteccin de zonas de no respuesta

En Venezuela, y probablemente en otros pases, el mayor
porcentaje de no respuesta se presenta en las clases altas
(alrededor del 30%). Adems ocurre que hay mayor no
respuesta en las grandes ciudades que en el resto del pas.
Los encuestadores realizan hasta tres intentos para obtener
la informacin, ms una ltima visita del supervisor. Luego
de esta cuarta visita no se insiste en la consecucin del dato.
Cuando se detectan zonas importantes de no respuesta, se
llevan a cabo campaas promocionales que tienen como
objetivo disuadir a los hogares a suministrar la informacin.

312 Imputacin de Datos



MTODO DE LAS ASIGNACIONES DINMICAS

Los mtodos de imputacin automtica mediante la tcnica
de asignacin dinmica (Hot Deck) tradicionalmente
utilizados en los Censos de Poblacin y Vivienda, no son
actualmente aplicados en la Encuesta de Hogares por
Muestreo en Venezuela.





COMENTARIOS FINALES

A diferencia de un Censo, en el caso de una encuesta por
muestreo la modificacin de un registro implica
modificaciones en todos los registros que l representa.

Existe una tendencia a no modificar la no respuesta,
codificarla como tal y dejarle al investigador la potestad de
utilizar o no un mtodo de imputacin.

Potrebbero piacerti anche