Sei sulla pagina 1di 3

Rev Chil Anest 2014; 43: 332-334

Bioestadstica y Epidemiologa

DATOS FALTANTES (MISSING VALUES)

Jorge Dagnino S.1

dos y se compromete la potencia del estudio. Esto


Los datos faltantes son un problema frecuente representa un grave problema para la confiabilidad
en los estudios mdicos; habitualmente no son de los resultados, donde los datos faltantes pueden
reportados y, si se menciona el hecho, no se estar relacionados con la efectividad de un trata-
explicita la manera en que fueron enfrentados. miento, los efectos adversos o el pronstico. A pe-
Los programas computacionales los manejan sar de ello, muchos textos no se refieren al proble-
en forma variable, lo que puede conducir a ma y muchos programas computacionales asumen
errores en los resultados y su interpretacin. que los datos estn completos. En 2012, el National
No hay ninguna forma totalmente satisfactoria Research Council de EE.UU. convoc a un comit
para el manejo de los datos faltantes, por lo para el estudio y proposiciones sobre los datos fal-
que se debe ser estricto en optimizar la reco- tantes.
leccin y registro de datos en la etapa de dise- La manera en que los programas computacio-
o y ejecucin. nales manejan los datos faltantes no es uniforme y
El sesgo que introduce o puede introducir la pueden introducir errores mayores en los resulta-
falta de datos es proporcional al nmero de dos y conclusiones. Ello se complica ms an si se
prdidas: ms de un 10% es inaceptable. adoptan diversas maneras de codificar los datos fal-
Alternativas para mitigar los datos faltantes: 1) tantes; si la estrategia incluye usar nmeros reales
Omitir variables con datos faltantes. 2) Omitir para sealar un dato faltante el programa puede in-
individuos en quienes hay datos faltantes. 3) cluirlos en los clculos distorsionando en mayor o
Estimar (imputar) los datos faltantes donde menor grado los resultados. Por otro lado, muchos
estos son reemplazados con valores predichos programas computacionales simplemente omiten
desde los datos presentes. del anlisis aquellos individuos que no tienen los
datos completos. Esto reduce el tamao muestral y
los autores pueden no detectarlo pues el programa
igual termina haciendo clculos y arrojando una p
Los datos faltantes se definen como valores no al final. En un ANOVA, por ejemplo, esta merma
disponibles que seran tiles o significativos para el slo se detecta en la reduccin de los grados de
anlisis de los resultados. Hay muchos tipos de da- libertad en la tabla de resultados; otros programas
tos faltantes y muchas razones por las cuales pue- comunican la reduccin con una nota al pie pero
den ocurrir. Estos dos factores son decisivos al en- aquellos autores que slo estn interesados en el
frentar la ausencia de datos en el momento de ana- valor de p pueden no advertirlo. Si en el manuscrito
lizar los resultados, donde lo principal es decidir si no aparece completo el anlisis del ANOVA, con
la prdida es aleatoria, es decir, afecta por igual a los grados de libertad usados en el clculo de F, los
todos los individuos, o bien puede ser debida a una lectores no tienen manera de detectar el error.
razn o razones especficas que pueden introducir El problema es ms frecuente en trabajos retros-
sesgos que invaliden los resultados. pectivos, especialmente cuando los datos recolec-
Es un problema muy frecuente en estudios m- tados rutinariamente son usados a posteriori con
dicos; no todos lo reportan y menos an comentan otros objetivos. Sin embargo, los datos faltantes
los mtodos usados, si alguno, para enfrentarlo. En son particularmente sensibles en estudios clnicos
ensayos clnicos aleatorios, la prdida de datos di- longitudinales en donde los resultados pueden de-
luye la aleatorizacin, introduce sesgos desconoci- terminar la presencia y extensin de los datos fal-

1
Profesor Titular
Divisin de Anestesiologa. Pontificia Universidad Catlica de Chile.

332
DATOS FALTANTES (MISSING VALUES)

tantes; por ejemplo, la presencia de efectos adver- aconseja o se puede enfrentar su ausencia.
sos puede condicionar el abandono de los pacien- 1) Completamente al azar: el hecho que falte una
tes o la prdida de seguimiento puede ser mayor observacin no est relacionado con el o los va-
en pacientes que fallecen. No hay ninguna manera lores faltantes ni con los valores existentes. Otra
completamente satisfactoria para manejar los datos manera de pensarlo es que cualquier valor tiene
faltantes por lo que se debe poner nfasis en optimi- la misma probabilidad de faltar que cualquier
zar la recoleccin y registro de los datos en la eta- otro. Por ejemplo, fallas ocasionales de equipos
pa de diseo y durante la ejecucin. En la etapa de que impiden hacer una medicin, olvido ocasio-
diseo se proponen diversas estrategias como por nal en registrar un dato, el encargado de hacer
ejemplo, disear los tratamientos (intervenciones) la medicin se enferm o prdidas de muestras
que tengan flexibilidad como para acomodar dife- porque se rompieron los tubos. Omitir del anli-
rentes preferencias, hacer el seguimiento lo ms sis a los individuos con datos faltantes no altera-
corto posible, evitar mediciones que por experien- ra la validez pero podra disminuir la potencia
cias previas tienen mayor probabilidad de faltar. del estudio. Estimar a priori posibles prdidas
En la etapa de ejecucin: poner metas y monitori- por este mecanismo debiera formar parte del
zar frecuentemente los datos faltantes, poner incen- protocolo en el clculo del tamao muestral.
tivos para los participantes junto con regulaciones 2) Al azar: una o varias caractersticas registradas
ticas estrictas, limitar las cargas o dificultades en pueden explicar la distribucin de los datos fal-
la recoleccin de los datos, ofrecer entrenamiento a tantes. Por ejemplo: el nivel de respuestas fal-
los participantes y facilitar los mtodos de registro. tantes en una encuesta est relacionado con el
Estas consideraciones deben estar definidas en el nivel socio-econmico, el nmero de pacientes
protocolo de los trabajos y descritas en el trabajo con un ECG preoperatorio est relacionado con
publicado. la edad de los pacientes, o un centro en un estu-
Al enfrentar el problema de datos faltantes, el dio multicntrico no mide una variable particu-
punto ms importante es decidir si estos pueden in- lar porque no cuenta con los medios para ello.
troducir sesgos en el anlisis. Si no se sabe nada El nombre es confundente por lo que algunos
sobre la o las causas por las cuales faltan datos es prefieren falta ignorable o manejable estads-
imposible descartar un posible sesgo y menos esti- ticamente.
mar su magnitud. Un segundo punto importante es 3) No al azar: los datos faltantes probablemente
la cantidad: si son pocos los datos faltantes, es pro- dependen o estn relacionados con datos no ob-
bable que su efecto sea menor pero si son muchos servados. Por ejemplo: falta de respuesta en un
su ausencia va comprometiendo progresivamente cuestionario, prdida durante el seguimiento. El
la validez de las conclusiones. Al respecto no hay sesgo o los sesgos que pueden introducirse son
una cifra mgica pero probablemente prdidas ma- evidentes e invalidan en mayor o menor medida
yores al 10% no son aceptables en la mayora de las los resultados.
circunstancias.
Principios para hacer inferencias sobre los datos Hay tres alternativas para lidiar con los datos
faltantes: faltantes: 1) Omitir variables con datos faltantes; 2)
- Definir, si es factible, si los datos faltantes son Omitir individuos en quienes hay datos faltantes.
significativos para el anlisis (y por ende cum- Estos dos mtodos son los que se usan probable-
plen con la definicin para ser datos faltantes). mente con mayor frecuencia pero, como producen
- Esto implica definir una medicin de un posible una prdida de informacin y potencia del estudio
efecto causal. y, adems, no modifican el riesgo de sesgos, no de-
- Documentar en lo posible la o las razones por- bieran ser usados; 3) Estimar (imputar) los datos
qu falta cada dato. faltantes donde estos son reemplazados con valores
- Decidir presunciones principales sobre el meca- predichos desde los datos presentes. La imputacin
nismo de datos faltantes siguiendo la clasifica- puede ser simple (por ejemplo, usar el ltimo valor
cin detallada ms abajo. Este raciocinio debe registrado, el basal o promedios) o a travs de ecua-
estar explcito para los lectores. ciones o modelos para calcular los valores faltantes
- Anlisis basado en las presunciones anteriores. (por ejemplo, asumir que una determinada variable
- Evaluar la robustez de estas presunciones. tiene una distribucin normal con una determinada
media y varianza). Toda imputacin basada en mo-
Los datos faltantes se clasifican en tres catego- delos se basa en presunciones no verificables por lo
ras usando una terminologa que puede confundir que no hay ningn mtodo o modelo generalmente
pero que est relacionada con la manera en que se recomendable ni completamente satisfactorio. Sin

Rev Chil Anest 2014; 43: 332-334 333


J. Dagnino S.

embargo, se estima que estos mtodos son preferi- datos faltantes.


bles a la omisin de casos o la imputacin simple. 2) Informar su magnitud. Mientras ms grande
Cualesquiera sea el mtodo usado debiera ha- sea el estudio, mayor el nmero de variables
cerse un anlisis de sensibilidad para evaluar si las medidas, ms largo en el tiempo, mayor nme-
conclusiones pueden variar si las presunciones so- ro de participantes, individuos o instituciones,
bre los datos faltantes cambian. As por ejemplo, mayor es la probabilidad de tener datos faltan-
en un estudio de mortalidad donde hay un cierto tes.
nmero de pacientes perdidos al seguimiento, se 3) Explicar las razones por las cuales faltan los da-
hace un anlisis imputando el mejor escenario, to- tos y determinar el tipo de datos faltantes.
dos los faltantes siguen vivos; en seguida se repite 4) Explicar el mtodo usado para lidiar con el pro-
el anlisis usando el peor escenario y se comparan blema: omitir variables, casos o imputacin.
las conclusiones. 5) Explicar el raciocinio, las presunciones del mo-
Una lista de verificacin para que el lector crti- delo usado para la imputacin y sus posibles
co pueda estimar si hay o no sesgos importantes o sesgos.
si no se pueden eliminar del todo: 6) Explicar si se hizo o no un anlisis de sensibili-
1) Todo estudio debiera mencionar si hubo o no dad.

REFERENCIAS cal Statistics. 3rd Ed, Oxford: OUP, 7. Little RJ, Cohen ML, Dickersin K,
2006. et al. The design and conduct of
1. Altman DG. Practical Statistics for 5. Donders ART, van der Heijden clinical trials to limit missing data.
Medical Research. London: Chap- GJMG, Stijnen T, Moons KGM. Statist Med 2012; 31: 3433-3443.
man & Hall, 1991. Review: A gentle introduction to 8. Little RJ, DAgostino RB, Cohen
2. Altman DG, Bland JM. Missing imputation of missing values. J ML, et al. The Prevention and
data. BMJ 2007; 334: 424. Clin Epidemiol 2006; 59: 1087- Treatment of Missing Data in
3. Armitage P, Berry G. Estadstica 1091. Clinical Trials. NEJM 2012; 367:
para la investigacin biomdica. 6. Hogan JW, Roy J, Korkontzelou 1355-1360.
3a ed. Barcelona: Harcourt Brace, C. Handling drop-out in longitudi- 9. Ware JH, Harrington D, Hunter
1997. nal studies. Statist Med 2004; 23: DJ, DAgostino RB. Missing Data.
4. Bland M. An Introduction to Medi- 1455-1497. NEJM 2012; 367:1353-1354.

Correspondencia a:
Dr. Jorge Dagnino S.
jdagnino@med.puc.cl

334 Rev Chil Anest 2014; 43: 332-334

Potrebbero piacerti anche