Sei sulla pagina 1di 6

DATOS ATPICOS (OUTLIERS)

Los casos atpicos son observaciones con caractersticas diferentes de las dems. Este
tipo de casos no pueden ser caracterizados categricamente como benficos o
problemticos sino que deben ser contemplados en el contexto del anlisis y debe
evaluarse el tipo de informacin que pueden proporcionar. Su principal problema radica
en que son elementos que pueden no ser representativos de la poblacin pudiendo
distorsionar seriamente el comportamiento de los contrastes estadsticos. Por otra
parte, aunque diferentes a la mayor parte de la muestra, pueden ser indicativos de las
caractersticas de un segmento vlido de la poblacin y, por consiguiente, una seal de
la falta de representatividad de la muestra.

Tipos de outliers
Los casos atpicos pueden clasificarse en 4 categoras.
La primera categora contiene aquellos casos atpicos que surgen de un error de
procedimiento, tales como la entrada de datos o un error de codificacin. Estos casos
atpicos deberan subsanarse en el filtrado de los datos, y si no se puede, deberan
eliminarse del anlisis o recodificarse como datos ausentes.
La segunda clase es la observacin que ocurre como consecuencia de un acontecimiento
extraordinario. En este caso, el outlier no representa ningn segmento vlido de la
poblacin y puede ser eliminado del anlisis.
La tercera clase contiene las observaciones cuyos valores caen dentro del rango de las
variables observadas pero que son nicas en la combinacin de los valores de dichas
variables. Estas observaciones deberan ser retenidas en el anlisis pero estudiando qu
influencia ejercen en los procesos de estimacin de los modelos considerados.
La cuarta y ltima clase comprende las observaciones extraordinarias para las que el
investigador no tiene explicacin. En estos casos lo mejor que se puede hacer es replicar
el anlisis con y sin dichas observaciones con el fin de analizar su influencia sobre los
resultados. Si dichas observaciones son influyentes el analista debera reportarlo en sus
conclusiones y debera averiguar el por qu de dichas observaciones
Identificacin de outliers
Los casos atpicos pueden identificarse desde una perspectiva univariante o
multivariante.
La perspectiva univariante examina la distribucin de observaciones para cada variable,
seleccionando como casos atpicos aquellos casos cuyos valores caigan fuera de los
rangos de la distribucin. La cuestin principal consiste en el establecimiento de un
umbral para la designacin de caso atpico. Esto se puede hacer grficamente mediante
histogramas o diagramas de caja o bien numricamente, mediante el clculo de
puntuaciones tipificadas. Para muestras pequeas (de 80 o incluso menos
observaciones), las pautas sugeridas identifican como atpicos aquellos casos con
valores estndar de 2.5 o superiores. Cuando los tamaos muestrales son mayores, las
pautas sugieren que el valor umbral sea 3.
DATOS AUSENTES (MISSING)
Los datos ausentes son algo habitual en el Anlisis Multivariante; de hecho, rara es la
investigacin en la que no aparece este tipo de datos.
En estos casos la ocupacin primaria del investigador debe ser determinar las razones
que subyacen en el dato ausente buscando entender el proceso principal de esta
ausencia para seleccionar el curso de accin ms apropiado.
Para ello se debe determinar cul es el proceso de datos ausentes, entendido como
cualquier evento sistemtico externo al encuestado (errores en la introduccin de
datos) o accin por parte del encuestado (tales como rehusar a contestar) que da lugar
a la ausencia de datos. En particular, el investigador debe analizar si existe algn patrn
no aleatorio en dicho proceso que pueda sesgar los resultados obtenidos debido a la
prdida de representatividad de la muestra analizada.
8.1 Tipos de valores ausentes
Se distinguen las dos situaciones siguientes:
1) Datos ausentes prescindibles: son resultado de procesos que se encuentran bajo el
control del investigador y pueden ser identificados explcitamente. En estos casos no se
necesitan soluciones especficas para la ausencia de datos dado que dicha ausencia es
inherente a la tcnica usada.
Ejemplos de estas situaciones son aquellas observaciones de una poblacin que no estn
incluidas en la muestra o los llamados datos censurados que son observaciones
incompletas como consecuencia del proceso de obtencin de datos seguido en el
anlisis.
2) Datos ausentes no prescindibles: son resultado de procesos que no se encuentran
bajo el control del investigador y/o no pueden ser identificados explcitamente.
Ejemplos de estas situaciones son los errores en la entrada de datos, la renuncia del
encuestado a responder a ciertas cuestiones o respuestas inaplicables.
En estos casos se debe analizar si existen o no patrones sistemticos en el proceso que
puedan sesgar los resultados obtenidos. Si los datos ausentes son no prescindibles
conviene, por lo tanto, analizar el grado de aleatoriedad presente en los mismos. Segn
este grado el proceso de datos ausentes se puede clasificar del siguiente modo:
1) Datos ausentes completamente aleatorios (MCAR): este es el mayor grado de
aleatoriedad y se da cuando los datos ausentes son una muestra aleatoria simple de la
muestra sin un proceso subyacente que tiende a sesgar los datos observados. En este
caso se podra solucionar el problema sin tener cuenta el impacto de otras variables
3) Datos ausentes aleatorios (MAR): en este caso el patrn de los datos ausentes en
una variable Y no es aleatorio sino que depende de otras variables de la muestra X.
Ahora bien, para cada valor de X, los valores observados de Y s representan una muestra
aleatoria de Y.
As, por ejemplo, si X es el sexo del encuestado e Y es su renta, un proceso
MAR se tendra si existen ms valores ausentes de Y en hombres que en mujeres y, sin
embargo, los datos son aleatorios para ambos sexos en el sentido de que, tanto en los
hombres como en las mujeres, el patrn de ausentes es completamente aleatorio. Si,
adems, tampoco existen diferencias por sexos los datos ausentes seran MCAR.
Si los datos ausentes son MAR cualquier solucin al problema deber tener en cuenta
los valores de X dado que afectan al proceso generador de datos ausentes.
3) Datos ausentes no aleatorios: en este caso existen patrones sistemticos en el
proceso de datos ausentes y habra que evaluar la magnitud del problema calibrando,
en particular, el tamao de los sesgos introducidos por dichos patrones. Si stos son
grandes habra que atacar el problema directamente intentando averiguar cules son
dichos valores.
8.2 Localizacin de datos ausentes
El primer paso en el tratamiento de datos ausentes consiste en evaluar la magnitud del
problema. Para ello se comienza analizando el porcentaje de datos ausentes por
variables y por casos.
Si existen casos con un alto porcentaje de datos ausentes se deberan excluir del
problema. As mismo si existe una variable con un alto porcentaje de este tipo de casos
su exclusin depender de la importancia terica de la misma y la posibilidad de ser
reemplazada por variables con un contenido informativo similar.
Como regla general, sin embargo, si dicha variable es dependiente debera ser eliminada
ya que cualquier proceso de imputacin de valores puede distorsionar la significacin
estadstica y prctica de los modelos estimados para ella.
8.3 Diagnstico de la aleatoriedad en el proceso de datos ausentes
Existen 3 mtodos:
a) Para cada variable Y formar dos grupos (observaciones ausentes y presentes en Y) y
aplicar contrastes de comparacin de dos muestras para determinar si existen
diferencias significativas entre los dos grupos sobre otras variables de inters. Si se
encuentran diferencias significativas el proceso de datos ausentes no es aleatorio.
b) Utilizar correlaciones dicotomizadas para evaluar la correlacin de los datos ausentes
en cualquier par de valores. Estas correlaciones indicaran el grado de asociacin entre
los valores perdidos sobre cada par de variables. Bajas correlaciones implican
aleatoriedad en el par de variables y que los datos ausentes pueden clasificarse como
MCAR. En caso contrario son MAR.
c) Realizar contrastes conjuntos de aleatoriedad que determinen si los datos ausentes
pueden ser clasificados como MCAR. Estos contrastes analizan el patrn de datos
ausentes sobre todas las variables y las compara con el patrn esperado para un proceso
de datos ausentes aleatorio. Si no se encuentran diferencias significativas el proceso
puede clasificarse como MCAR; en caso contrario deben utilizarse los procedimientos
a) y b) anteriores para identificar los procesos especficos de datos ausentes que no son
aleatorios.
8.4 Aproximaciones al tratamiento de datos ausentes
Si se encuentran procesos de datos ausentes MAR o no aleatorios, el investigador
debera aplicar slo el mtodo diseado especficamente para este proceso. Slo si el
investigador determina que el proceso de ausencia de datos puede clasificarse como
MCAR pueden utilizarse las siguientes aproximaciones:
a) Utilizar slo los casos completos: conveniente si el tamao muestral no se reduce
demasiado
b) Supresin de casos y/o variables con una alta proporcin de datos ausentes. Esta
supresin deber basarse en consideraciones tericas y empricas. En particular, si algn
caso tiene un dato ausente en una variable dependiente, habitualmente excluirlo puesto
que cualquier proceso de imputacin puede distorsionar los modelos estimados.
As mismo una variable independiente con muchos datos ausentes podr eliminarse si
existen otras variables muy similares con datos observados.
c) Imputar valores a los datos ausentes utilizando valores vlidos de otras variables y/o
casos de la muestra
8.3.1 Mtodos de imputacin
Los mtodos de imputacin pueden ser de tres tipos:
1) Mtodos de disponibilidad completa que utilizan toda la informacin disponible a
partir de un subconjunto de casos para generalizar sobre la muestra entera. Se utilizan
habitualmente para estimar medias, varianzas y correlaciones
2) Mtodos de sustitucin que estiman valores de reemplazo para los datos ausentes,
sobre la base de otra informacin existente en la muestra. As se podra sustituir
observaciones con datos ausentes por observaciones no maestrales o sustituir dichos
datos por la media de los valores observados o mediante regresin sobre otras variables
muy relacionadas con aquella a la que le faltan observaciones
3) Mtodos basados en modelos que construyen explcitamente el mecanismo por el
que se producen los datos ausentes y lo estiman por mxima verosimilitud. Entran en
esta categora el algoritmo EM o los procesos de aumento de datos.

CASO DE ESTUDIO CON DATOS DE UNA MINA DE ORO


Las muestras tomadas en un yacimiento de oro, configuran los siguientes datos expresados en
gr/ton.

0,1 0,2 0,5 1,0 1,2 2,1 2,5 3,0 5,1 10

Calcular las medidas estadsticas, analizar la variabilidad de los datos y la tendencia hacia
un modelo Normal o Log Normal.

Estructura de datos para un clculo manual


ID Xi (Xi - Media)^2 (Xi - Media)^3 (Xi - Media)^4 Hi*100
1 0,1 6,101 -15,069 37,220981 10
2 0,2 5,617 -13,312 31,549566 20
3 0,5 4,285 -8,870 18,360368 30
4 1 2,465 -3,870 6,075732 40
5 1,2 1,877 -2,571 3,522754 50
6 2,1 0,221 -0,104 0,048797 60
7 2,5 0,005 0,000 0,000024 70
8 3 0,185 0,080 0,034188 80
9 5,1 6,401 16,194 40,971521 90
10 10 55,205 410,172 3047,580984 100

Aplicando las formulas estadsticas, tenemos los siguientes resultados:

Medida Valor
media 2,570
mediana 1,650
Var 8,236
desv std 2,870
CV (%) 111,668
Q1 0,350
Q3 2,750
IQR 2,400
moment3 38,265
moment4 318,536
sk 1,619
E 1,696

Asociado al conjunto de datos de la mina de oro, observando el histograma


y las medidas estadsticas, notamos que hay valores OUTLIERS, fuera de la vecindad del
conjunto y uno de esos valores es el dato cuyo valor tiene 10 gr/ton, lo que hace que la
distribucin tenga un sesgo pronunciado con tendencia al modelo Log Normal y el
valor de la media no es representativo ya que tiene una tendencia hacia los valores
altos, mostrndose una gran diferencia entre el valor de la media y la mediana (0.92
gr/ton).
Esto implica que no podemos seguir con nuestro anlisis, ya que primero tenemos que
homogenizar nuestra data para no arrastrar errores, que podran repercutir ms
adelante cuando uno haga estimaciones y modelamientos, los mismos que devendran
en no confiables.
Vamos a eliminar el valor alto de 10 gr/ton de la data y veamos ahora cual es el
comportamiento el modelo y sus medidas estadsticas.

El modelo Log Normal est ms definido y ahora la diferencia entre la media y la mediana
es menor (0.54 grs/ton).

Los alumnos ahora comprendern porque es necesario hacer el anlisis estadstico, previo a
un anlisis espacial o geoestadistico, el objetivo es no incurrir en mayores errores.

CASO DE UN YACIMIENTO DE ORO CON 30 DATOS.


Leyes en grs/ton.
ID Xi ID Xi ID Xi
1 0,1 11 0,6 21 0,4
2 5,5 12 1,4 22 0,5
3 0,5 13 6,8 23 1,5
4 1,0 14 5,1 24 2,3
5 1,2 15 8,4 25 3,2
6 2,1 16 4,2 26 2,9
7 2,5 17 0,3 27 4,3
8 3,0 18 1,5 28 3,8
9 5,1 19 1,8 29 7,2
10 10,0 20 2,2 30 4,9
Histograma deducido en base a una tabla de frecuencias.

Observamos claramente que los datos tienden a un modelo Log Normal.

Potrebbero piacerti anche