Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Las respuestas a estas preguntas son demasiado complicadas para un simple anlisis
visual, e incluso se puede decir que van ms all de las posibilidades de visualizacin y
anlisis de paquetes de cartografa sencillos. Aunque los datos del ejemplo muestran la
distribucin de fsforo, potasio y nitrgeno en una zona de cultivo de maz, bien
podran ser datos de carcter demogrfico que representasen niveles de renta, educacin
o precios del terreno. O puestos a imaginar, tambin podran ser datos de seguimiento
de las ventas de tres productos diferentes... Y por qu no: mapas sanitarios con la
representacin de la incidencia de tres enfermedades distintas, o estadsticas policiales
geogrficamente referenciadas...
Con independencia de la naturaleza de los datos y el campo de aplicacin en el que
estemos trabajando, el procedimiento 'map-temtico' para analizar la similaridad
cartogrfica (Map Similarity) es el mismo.
En el anlisis visual y subjetivo inconscientemente movemos los ojos de un mapa a otro
tratando de hacer una valoracin de la distribucin de colores en cada zona. La
dificultad de este tipo de aproximaciones tiene una doble vertiente: a la vez hay que
recordar las tramas de colores y adems calcular las diferencias. Con un anlisis
cartogrfico cuantitativo hacemos lo mismo, pero con la diferencia de que en vez de
usar los colores y sus variaciones visuales, usamos
los valores cartogrficos verdaderos existentes en
el interior de los mapas. Adems, contamos con la
ventaja de que el ordenador no se cansa de calcular
como nuestros ojos y puede completar la
comparacin para todas las celdas del mapa en
cuestin de segundos (2 segundos concretamente
en el ejemplo anterior sobre un total de 3289
celdas).
La parte superior izquierda de la Figura 2, donde
vemos las tres 'tartas' de datos superpuestas,
muestra el proceso de captura de las tramas de
datos para la comparacin de dos posiciones.
Imaginemos un pincho que atraviesa las tres
'tartas' de datos por la localizacin 18, 45 (fila 18,
columna 45): obtendramos un valor de P de 11.0 ppm, niveles de K de 177.0 y 32.9 de
N. Este paso realizado con un anlisis a ojo nos permitira observar tramas de colores
rojo intenso, naranja oscuro y verde claro, respectivamente. La otra posicin que
analizamos para comparacin (fila 62, columna 32) tiene una trama de datos de P= 53.2,
K= 412.0 y N=27.9; si procedemos a simple vista vemos una trama de colores con verde
oscuro, verde oscuro y amarillo, respectivamente.
Figura 2. Unin conceptual entre el espacio geogrfico y el espacio de datos.
La parte derecha de la figura describe conceptualmente cmo calcula el ordenador la
relacin de similaridad, a partir de las tramas de datos comparadas. El hecho de que los
datos cartogrficos pueden ser expresados tanto en forma de espacio geogrfico como
en espacio de datos es clave para entender el proceso.
Figura 3. Mapa de Similaridad representando la relacin existente entre cada celda del
mapa y un punto concreto del mismo tomado como base de la comparacin.
El Mapa de Similaridad mostrado en la Figura 3 aplica todo lo dicho anteriormente
sobre la escala porcentual de similaridad a todas las celdas de un mapa, sobre las cuales
se ha calculado su distancia en el espacio de datos a un punto de comparacin. Los
tonos verdes indican tramas de datos bastante similares en los contenidos de P, K y N,
mientras que los tonos rojos indican puntos con valores bastante diferentes. Es
interesante ver que la mayor parte de las posiciones que podramos denominar como
'muy similares' estn situadas en la parte oeste del espacio analizado (en este caso, un
campo de cultivo).
Un mapa de similaridad como este que hemos mostrado puede ser una herramienta de
un valor incalculable cuando tratamos de averiguar las relaciones espaciales existentes
en un conjunto complejo de datos cartogrficos. Mientras el ser humano no puede
conceptualizar ms de tres variables a la vez (recordemos el espacio de datos que
imaginbamos como un cubo de cristal), con ordenadores podemos crear ndices de
similaridad que pueden trabajar con cualquier cantidad de mapas como variables de
entrada. Adems, las diferentes capas de estos ndices pueden ser ponderadas
debidamente para reflejar la importancia relativa en el proceso general de determinacin
de la similaridad, dando lugar a modelos ms o menos complejos.
En efecto, los Mapas de Similaridad son una aproximacin mucho ms depurada que el
puntero lser del conferenciante que veamos al principio recorriendo a toda velocidad
varios mapas similares para apuntar apreciaciones subjetivas acerca de la similaridad o
diferencia entre zonas. Aportamos de esta forma mediciones objetivas y cuantitativas
para cada punto de nuestro espacio de anlisis, llevando el anlisis cartogrfico al
terreno del mtodo cientfico de donde no debe salir.
IDENTIFICACIN DE ZONAS DE DATOS
En el punto anterior hemos introducido el concepto de 'distancia de datos' como
herramienta para medir la similaridad en un mapa. Con el software adecuado y un
simple click en una celda podemos saber en cualquier momento la similaridad del resto
de las celdas con respecto a la primera, en un rango entre 0 (cero por cien similar) y 100
(idntica trama de datos, es decir, idnticos valores en el conjunto de capas cartogrficas
analizadas). Dichas estadsticas hemos visto cmo pueden reemplazar a los tradicionales
anlisis visuales, llenos de subjetividad.
1/. Que los grupos sean tan diferentes como sea posible entre s (diferencia entre
grupos).
2/. Que estos grupos internamente estn formados por celdas con tramas
cartogrficas lo ms similares posibles entre s (similitud en el seno de cada
grupo).
Los dos mapas que estn a la derecha de la Figura 7 contienen los mismos datos pero
grafiados en tres y cuatro cmulos respectivamente. En los tres mapas de agrupamiento
que vemos (el grande central y los dos de la derecha), se ha asignado el color rojo a los
datos con respuestas relativamente bajas, mientras que el verde equivale a respuestas
relativamente altas. Fijmonos en cmo a medida que vamos pasando de dos a tres
clusters y luego a cuatro, las reas de los dos cmulos iniciales van siendo invadidas
paulatinamente por los nuevos grupos creados, de bordes hacia adentro.
El mecanismo para generar estos cmulos de datos o clusters es bastante sencillo.
Smplemente especificamos los mapas de entrada para el anlisis y el nmero de
clusters que queremos; luego, como por arte de magia, nos aparece un nuevo mapa con
nuevos agrupamientos discretos de los datos. Ahora en serio... qu hay detrs de este
supuesto milagro? Qu es lo que pasa dentro de la caja negra del ordenador cuando
decidimos ejecutar una tcnica de este tipo?
Ahora bien, cmo podemos saber si los resultados del agrupamiento son aceptables?
La mayor parte de los expertos en estadstica responderan a esta pregunta "es imposible
saberlo a ciencia cierta". No obstante, nosotros trataremos de buscar una respuesta.
Aunque hay algunos procedimientos bastante elaborados que se centran en las
asignaciones de los agrupamientos y en el estudio de los umbrales de tales grupos, la
estadstica tradicional -a travs de los ndices comunes que todos utilizamos- es una de
las formas ms utilizadas de comprobar la bondad de los resultados del clustering.
La Figura 9 muestra una tabla con estadsticas bsicas y tres grficos de apertura: uno
por cada capa cartogrfica (P, K y N) y cada uno con los resultados de los dos cmulos
realizados (cluster 1 y cluster 2). En la tabla de estadsticas bsicas se han incluido la
media, la desviacin tpica y los valores mximos y mnimos de cada cmulo. Lo ideal
sera que las medias entre los grupos fueran radicalmente diferentes y que las
desviaciones tpicas dentro de cada grupo fueran muy pequeas, lo que implicara que
existen grandes diferencias entre los grupos pero pequeas diferencias en el seno de
cada grupo.
Los grficos de apertura nos permiten visualizar estas diferencias. Dentro de estos
grficos las cajas estn centradas en la media (posicin) y se extienden hacia arriba y
abajo una desviacin tpica (ancho); los hilos de apertura que las acompaan se
extienden de los valores mximos a los mnimos, dndonos una idea del rango de
apertura que tiene la serie. Cuando los diagramas de dos clusters se solapan, como
ocurre en el caso de las respuestas del fsforo, quiere decir que dichos cmulos no son
muy distintos en lo que respecta a ese parmetro (o lo que es lo mismo, a ese eje en el
espacio de datos). Sin embargo, la separacin que existe en las cajas de los grficos de
K y N sugieren un mayor xito en la distincin de los clusters (especialmente en el caso
del potasio).
Dados estos resultados del ejemplo, un analista GIS dara por aceptable la
clasificacin... y yo espero que los expertos en estadstica acepten mis disculpas por
tratar un tema tan complejo de una forma tan breve y simplificada.
MAPAS DE PREDICCIN
Hablar del futuro de los Sistemas de Informacin Geogrfica es hablar de mapas que
puedan describir cosas que an no han sucecido... Suena un poco a ciencia ficcin pero
lo cierto es que las tcnicas de Data Mining espacial no paran de progresar e
inexorablemente nos llevan en esa direccin. Durante dcadas, la estadstica
convencional (no espacial) ha estado prediciendo cosas mediante el anlisis exhaustivo
de muestras de datos en busca de relaciones numricas (ecuaciones) que luego pueden
ser aplicadas a otros conjuntos de datos. Claro que cuando se realiza una aproximacin
basada en la estadstica tradicional sobre datos con una componente espacial, estamos
pasando por alto las relaciones geogrficas y el resultado al final es slo una tabla de
nmeros, precisamente por no tener en cuenta dicha componente espacial.
La simbiosis existente entre el anlisis estadstico predictivo y la cartografa parece
evidente. Despus de todo, los mapas no son ms que un conjunto organizado de
nmeros... y los Sistemas de Informacin Geogrfica nos permiten precisamente unir
Density Vegetation Index o NDVI) permite realizar esta tarea mediante el clculo de un
nuevo valor por celda que indica el estado de vigor de la vegetacin, segn la frmula:
NDVI = ( (Infrarrojo_Cercano - Rojo) / (Infrarrojo_Cercano + Rojo) )
La Figura 12 muestra precisamente ese proceso de clculo del ndice NDVI para un
ejemplo de celda:
NDVI = ( (121 - 14.7) / (121 + 14.7) ) = 106.3 / 135.7 = 0.783
ser ms preciso que si aplicamos una sola ecuacin de prediccin para todo el rea de
la explotacin. Esta tcnica se usa frecuentemente en estadstica convencional (no
espacial), donde determinados conjuntos de datos son agrupados por edad, ingresos,
nivel educativo u otro criterio antes de hacer su anlisis. En estadstica espacial
podemos aplicar ms criterios aparte de los referidos a la naturaleza de los datos; por
ejemplo, podemos agrupar por las condiciones de vecindad y/o proximidad.
Lo primero que hay que decir es que existen diversas alternativas para realizar la
estratificacin de los datos. Nosotros realizaremos la aproximacin conceptual al
procedimiento a partir de una subdivisin del mapa de error, que nos permitir ver qu
hay detrs de esta tcnica. En este sentido, si miramos el centro de la Figura 13 vemos
el histograma de frecuencias que hemos preparado del mapa de error. Las lneas verdes
que se pueden ver en el histograma indican puntos de ruptura de ms/menos una
desviacin tpica, que nos dividen todo el conjunto de datos en tres estratos:
Si ahora pasamos estas tres zonas al mapa de error, obtenemos el mapa que se puede ver
en la parte derecha de la Figura 13.
El razonamiento que hay detrs de la estratificacin consiste en que la ecuacin de
prediccin que hemos hecho anteriormente funciona bastante bien para la zona 2, pero
no tan bien para las zonas 1 y 3 (donde encontramos los valores extremos de sobreestimacin y sub-estimacin). Es decir, hay algo que provoca que la ecuacin en la zona
1 arroje valores sub-estimados y en la zona 3 sobre-estimados. Si esto es cierto, uno
podra pensar y con razn que una ecuacin nueva a medida para cada una de estas
zonas 'especiales' podra mejorar los resultados.
La siguiente figura presenta los resultados de derivar y aplicar tres ecuaciones de
prediccin a la vez:
Los criterios de estratificacin pueden ser muchos y la creatividad del analista SIG tiene
aqu campo para expandirse. De hecho, el proceso de identificar esquemas de