Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
com
Cambio peridico
Cambio rpido
Burroughs, 2007
Clima inmvil pero con aumento de la amplitud Tendencia lineal y cambio de variabilidad
Burroughs, 2007
QUE ANALIZAR?
Variabilidad Tendencia
Ciclicidad
Burroughs, 2007
INDEPENDENCIA LINEAL
ESTACIONARIEDAD E
ANALISIS DE
El Anlisis exploratorio de datos (AED) surge de los trabajos realizados por Tukey (1977), desde entonces su uso se ha venido incrementando, ya que se ha comprobado que el examen previo de los datos es un paso necesario. Este anlisis toma su tiempo, y habitualmente se descuida por parte de los analistas de datos. Muchas veces las tareas implcitas en dicho examen pueden parecer insignificantes y sin consecuencias a primera vista, pero son una parte esencial de cualquier anlisis estadstico. El uso directo de la data sin evaluar su estructura, consistencia, presencia de valores atpicos y relaciones entre variables, entre otros, constituye un enfoque de caja negra que incrementa el grado de incertidumbre sobre la validez de los resultados obtenidos.
El AED consiste en el anlisis de los datos empleando una variedad de tcnicas (en su mayora grficas) para incrementar nuestro entendimiento sobre ellos y visualizar las relaciones existentes entre las variables analizadas. El AED es examinar los datos previamente a la aplicacin de cualquier tcnica estadstica.
El AED abarca un gran mbito; sin embargo, l proporciona mtodos grficos sencillos para organizar y preparar los datos, detectar fallas en el diseo y muestreo para recolectar los datos, tratamiento y evaluacin de datos ausentes, identificacin de valores atpicos y comprobacin de los supuestos subyacentes en la mayor parte de las tcnicas estadsticas.
Entre los objetivos mas relevantes del AED estn: 1. Maximizar nuestro entendimiento de los datos. 2. Describir la estructura subyacente que ellos tienen (normalidad, ultimodalidad, asimetra, curtosis, linealidad, homogeneidad entre grupos, homocedasticidad, etc.). 3. Detectar las variables importantes. 4. Detectar valores atpicos y anomalas. 5. Comprobar los supuestos implcitos en los anlisis. 6. Determinar los ajustes ptimos de los factores. 7. Proporcionar al analista informacin relevante en cuanto al modelo que mejor ajusta los datos, una lista de valores atpicos, sentido de certeza en las conclusiones, estimaciones de los parmetros, grado de incertidumbre sobre las estimaciones, lista de los variables importantes, conclusiones sobre las significancia estadstica de variables individuales.
Las tcnicas utilizadas en el AED son generalmente grficas, con algunas evaluaciones cuantitativas, la razn de esto a la naturaleza del anlisis que implica una exploracin de los datos sin restricciones, los grficos le dan al analsta la capacidad de realizarlo. Las tcnicas grficas del anlisis exploratorio se pueden agrupar en: 1. Grficos de datos crudos (histogramas, grficos de probabilidad, grficos de bloques, grficos de intervalos. 2. Grficos de estadsticos simples como la media y desviacin estndar, grfico de caja (box plot) y grficos de los efectos principales de los datos crudos. 3. Posicionar los grficos anteriores a objeto de incrementar la abilidad de reconocimiento de patrones, mediante la utilizacin de varios grficos por pgina. 4. Grficos de posicionamiento de los datos para reconocimiento de patrones y/o relaciones espaciales o temporales.
Entre las tcnicas mas utilizadas estn los grficos de dispersin (scatter plots), grficos de caracteres (character plots), grficos de caja (box plot), histogramas, grficos de probabilidad (probability plots), grficos de residuales y grficos de medias, entre otros.
2. Histogramas El propsito del histograma es el de resumir grficamente la distribucin del conjunto univariado de datos. Este tipo de grficos muestran en relacin a los datos: a) el centro, b) la dispersin, c) la asimetra, d) la presencia de valores atpicos y e) la ocurrencia de multiples modas, que son utilizados como indicadores del modelo de distribucin apropiado para los datos. El histograma presenta variantes como el histograma acumulativo y los histogramas acumulativos relativos.
3. Grfico de dispersin (scatter plot) Este tipo de grficos revela la relacin o asociacin existente entre dos variables. Tal relacin manifiesta en si misma una estructura no aleatoria. Los grficos de dispersin son una herramienta de diagnstico muy til para determinar asociaciones, pero si tal asociacin existe, el grfico podra o no sugerir el mecanismo de causa efecto subyacente. Este tipo de grficos nunca pueden probar la causa y efecto, solo es a travs de la investigacin que puede inferirse tal situacin. La Figura 4 muestra distintos grados de relacin existente entre parmetros climticos. La Figura 4a muestra una alta relacin entre la precipitacin media anual y la precipitacin media del mes de mayo, sealando una relacin positiva, en este caso los datos corresponden al promedio de 910 estaciones distribuidas en todo el territorio de Venezuela (perodo 19611990). La Figura 4b indica la relacin negativa existente entre la temperatura mxima mensual y la precipitacin promedio mensual, expresando una tendencia menos marcada que en el caso anterior, donde en la medida que las precipitacin promedio mensual es mayor la temperatura mxima promedio mensual es menor. A diferencia de esto, la Figura 4c (promedio de 910 estaciones para el perodo 1961-1990) indica la ausencia de relacin entre la ETP y el ndice hdrico segn Thornthwaite
4. Grfico de probabilidades Mediante este tipo de grficos se puede determinar si un conjunto de datos sigue una distribucin dada, como por ejemplo la distribucin normal. Los datos son graficados contra una distribucin terica de tal forma que los puntos deberan formar aproximadamente una lnea recta, el distanciamiento en relacin a la lnea recta indica un alejamiento en relacin a la distribucin especfica. El coeficiente de correlacin asociado con el ajuste lineal de la data en este tipo de grficos es una medida de la bondad de ajuste. Las figuras de probabilidad (Figura 5a y Figura 5b) sealan que para el caso de la distribucin de la temperatura media mensual a pesar que no alcanza una lnea recta es mas prxima a la distribucin normal que la distribucin que presenta la precipitacin media mensual, lo cual se corresponde con lo observado para la Figura 3.
5. Grfico de relacin medias locales - media general Estos grficos son utilizados para ver si las medias varan entre distintos grupos de la data. La agrupacin es determinada por el analista, los criterios son distintos, uno puede ser los niveles de los valores de una variable; en el caso de atributos distribuidos temporal o espacialmente el criterio sera en el primer caso perodos de tiempo (meses del ao), en el segundo sectores de una regin; de esta manera se puede determinar como son los cambios de la media o la mediana en funcin del tiempo o del espacio. Este tipo de grficos permite tambin evaluar la distribucin de la medias generadas por la agrupacin en relacin a la media general, esto es til para probar si se cumplen ciertos supuestos en algunos anlisis, como es la estacionaridad en el anlisis eoestadstico (Ovalles, 1988; 1996). Algunos autores (Cressie, 1993) han sealado que la media es un valor que probablemente no exista en el conjunto de datos; en consecuencia, recomiendan en su lugar utilizar la mediana. Esto grficos permiten detectar la presencia de tendencias generales. Sin embargo, las conclusiones sobre el comportamiento de algunas variables climticas deben ser muy bien avaluadas, ya que algunas de ellas tienen un comportamiento que es funcin de la escala de observacin.
La siguiente etapa en el AED esta referida a la evaluacin de los supuestos bsicos subyacentes a muchas tcnicas estadsticas como, por ejemplo, la normalidad, linealidad y homocedasticidad. 1. Normalidad: Muchos mtodos estadsticos se basan en la hiptesis de normalidad de la variable objeto de estudio. De hecho, si la falta de normalidad de la variable es suficientemente fuerte, muchos de los contrastes utilizados en los anlisis estadstico-inferenciales no son vlidos. Incluso aunque las muestras grandes tiendan a disminuir los efectos perniciosos de la no normalidad, el investigador debera evaluar la normalidad de todas las variables incluidas en el anlisis. 2. La linealidad es un supuesto implcito de todas las tcnicas multivariantes basadas en medidas de correlacin, tales como la regresin mltiple, regresin logstica, anlisis factorial y los modelos de ecuaciones estructurales. Es, adems, una forma indirecta de contrastar la normalidad conjunta de dos variables dado que si dicha hiptesis es cierta la relacin existente entre ellas deber ser lineal. 3. La homocedasticidad es una hiptesis muy habitual en algunas tcnicas estadsticas como el Anlisis de la Varianza, el Anlisis Discriminante y el Anlisis de Regresin. Dicha hiptesis se refiere a suponer la igualdad de varianzas de las variables dependientes en diversos grupos formados por los distintos valores de las variables independientes. Si dicha hiptesis no se verifica puede alterar la potencia y el nivel de significacin de los contrastes utilizados por dichas tcnicas y de ah el inters de analizar si se verifica o no y, en ste ltimo caso, poner los remedios oportunos.
Identificacin de valores atpicos (outliers) Los valores atpicos son observaciones con caractersticas diferentes de las dems. Este tipo de valores no pueden ser caracterizados categricamente como benficos o problemticos sino que deben ser contemplados en el contexto del anlisis y debe evaluarse el tipo de informacin que pueden proporcionar. Su principal problema radica en que son elementos que pueden no ser representativos de la poblacin pudiendo distorsionar seriamente el comportamiento de los contrastes estadsticos. Por otra parte, aunque diferentes a la mayor parte de la muestra, pueden ser indicativos de las caractersticas de un segmento vlido de la poblacin y, por consiguiente, una seal de la falta de representatividad de la muestra.
En el AED, adicional al examen grfico y la deteccin de valores atpicos, es necesario considerar el empleo de transformaciones de los datos (e.g. logartmica, inverso, raz, entre otras) a objeto de garantizar distribuciones de los datos lo mas cercano a la distribucin normal, lo cual es necesario para ciertos tipos de anlisis.
El AED conlleva a la realizacin del anlisis cuantitativo de los datos, estos tipos de tcnicas caen en dos categoras: a) tcnicas para estimacin de intervalos (tiene implicito el calculo de las medidas de concentracin y dispersin correspondientes) y b) pruebas de hiptesis. Los anlisis relativos a estas tcnicas pueden ser consultados en publicaciones especializadas en la materia.