Sei sulla pagina 1di 17

Anlisis de Similaridad Cartogrfica y generacin de Mapas Predictivos

mediante Sistemas de Informacin Geogrfica GIS ::

CLCULO DE LA SIMILARIDAD CARTOGRFICA (MAP SIMILARITY)


A menudo vemos en conferencias al presentador de turno sealando con un puntero
lser sobre una proyeccin y afirmando "fjense en el parecido entre la distribucin de
casos entre esta parte y esta...", a la vez que mueve su puntero rpidamente entre dos
mapas parecidos situados uno al lado del otro y que sirven de ilustracin para sus
razonamientos.
Pero realmente cul es el parecido entre un caso y otro de ambos mapas? Realmente
similares o slo un poco similares? y... cmo es la similaridad en el resto de las partes
de los mapas? Mientras que un anlisis visual y subjetivo puede identificar relaciones
generales, necesitamos de una aproximacin cartogrfica cuantitativa para realizar un
escrutinio detallado y riguroso que nos permita extraer toda la informacin contenida en
las series de datos de ambos mapas.

Figure 1. Superficies cartogrficas de identificacin de la distribucin espacial de


Fsforo (P), Potasio (K) y Nitrgeno (N) sobre una misma zona de cultivo. (Click para
ampliar).
Echmos un vistazo a los tres mapas de la Figura 1. Podramos decir cules son las
zonas que muestran tramas similares? En concreto, si nos fijamos en la zona sureste de
los mapas: qu parecido hay entre las tres imgenes?

Las respuestas a estas preguntas son demasiado complicadas para un simple anlisis
visual, e incluso se puede decir que van ms all de las posibilidades de visualizacin y
anlisis de paquetes de cartografa sencillos. Aunque los datos del ejemplo muestran la
distribucin de fsforo, potasio y nitrgeno en una zona de cultivo de maz, bien
podran ser datos de carcter demogrfico que representasen niveles de renta, educacin
o precios del terreno. O puestos a imaginar, tambin podran ser datos de seguimiento
de las ventas de tres productos diferentes... Y por qu no: mapas sanitarios con la
representacin de la incidencia de tres enfermedades distintas, o estadsticas policiales
geogrficamente referenciadas...
Con independencia de la naturaleza de los datos y el campo de aplicacin en el que
estemos trabajando, el procedimiento 'map-temtico' para analizar la similaridad
cartogrfica (Map Similarity) es el mismo.
En el anlisis visual y subjetivo inconscientemente movemos los ojos de un mapa a otro
tratando de hacer una valoracin de la distribucin de colores en cada zona. La
dificultad de este tipo de aproximaciones tiene una doble vertiente: a la vez hay que
recordar las tramas de colores y adems calcular las diferencias. Con un anlisis
cartogrfico cuantitativo hacemos lo mismo, pero con la diferencia de que en vez de
usar los colores y sus variaciones visuales, usamos
los valores cartogrficos verdaderos existentes en
el interior de los mapas. Adems, contamos con la
ventaja de que el ordenador no se cansa de calcular
como nuestros ojos y puede completar la
comparacin para todas las celdas del mapa en
cuestin de segundos (2 segundos concretamente
en el ejemplo anterior sobre un total de 3289
celdas).
La parte superior izquierda de la Figura 2, donde
vemos las tres 'tartas' de datos superpuestas,
muestra el proceso de captura de las tramas de
datos para la comparacin de dos posiciones.
Imaginemos un pincho que atraviesa las tres
'tartas' de datos por la localizacin 18, 45 (fila 18,
columna 45): obtendramos un valor de P de 11.0 ppm, niveles de K de 177.0 y 32.9 de
N. Este paso realizado con un anlisis a ojo nos permitira observar tramas de colores
rojo intenso, naranja oscuro y verde claro, respectivamente. La otra posicin que
analizamos para comparacin (fila 62, columna 32) tiene una trama de datos de P= 53.2,
K= 412.0 y N=27.9; si procedemos a simple vista vemos una trama de colores con verde
oscuro, verde oscuro y amarillo, respectivamente.
Figura 2. Unin conceptual entre el espacio geogrfico y el espacio de datos.
La parte derecha de la figura describe conceptualmente cmo calcula el ordenador la
relacin de similaridad, a partir de las tramas de datos comparadas. El hecho de que los
datos cartogrficos pueden ser expresados tanto en forma de espacio geogrfico como
en espacio de datos es clave para entender el proceso.

El espacio geogrfico utiliza coordenadas (por ejemplo latitud-longitud) para localizar


los elementos del mundo real; en el ejemplo que estamos viendo un punto estara en la
parte sureste del mapa y otro en el noroeste. La expresin geogrfica del conjunto
completo de mediciones de que disponemos da lugar a su modelo de distribucin
espacial, plasmado en forma cartogrfica.
Por el contrario, el espacio de datos es un poco menos familiar para nosotros. A
primeras no podemos recorrer este espacio de datos como si fuera el espacio geogrfico,
pero podemos recurrir a una conceptualizacin del mismo que nos ayudar a entenderlo.
Pensemos en el espacio de datos como si fuera una caja cristal tridimensional en la cual
tenemos metidas un montn de bolas flotando en su interior. En el ejemplo que estamos
siguiendo, las magnitudes que definiran las dimensiones de la caja de cristal estn
definidas por los ejes de las mediciones de fsforo (P), potasio (K) y nitrgeno (N). Las
bolas flotantes, por su parte, representan tramas de datos para cada localizacin.
Las coordenadas que localizan de esta forma tridimensional la posicin de las bolas
tienen los valores 11.0, 177.0 y 32.9 para el punto de comparacin y valores bastantes
ms altos para el otro punto (53.9, 412.0 y 27.9). En consecuencia, la posicin de ambas
bolas difiere notablemente en el espacio de datos.
Lo importante aqu es comprender que la posicin de cualquier punto en el espacio de
datos (bolas flotantes) se corresponde con su trama de datos (pincho que atraviesa las
tres 'tartas' y extrae sus valores numricos). Si los tres valores en la trama de datos son
bajo, bajo, bajo, la bola aparecer en la esquina inferior izquierda del fondo del cubo
(que es el origen de los tres ejes) y si los tres valores son alto, alto, alto aparecer en la
esquina superior derecha del frente del cubo (la ms cercana a nuestro punto de vista en
el ejemplo). Si entendemos esto no nos ser difcil comprender que aquellos puntos que
estn ms cercanos entre s dentro de este espacio tridimensional sern ms similares
que aquellos que tienen posiciones relativas ms alejadas.
Volviendo al ejemplo, si vemos en la Figura 2 la bola que est ms cercana a nosotros
(por eso es ms grande), podemos ver que es a su vez la ms alejada en el espacio de
datos al punto tomado como comparacin. En consecuencia, es tambin el punto menos
similar a dicho punto de comparacin. Esta distancia existente entre los puntos ms
alejados se toma como referencia para establecer el criterio de 'ms diferente' en toda la
serie de datos, y se iguala al valor mnimo de 0% en una escala virtual de similaridad.
Por contra, un punto con una trama de datos idntica tendra una representacin
exactamente en el mismo punto del espacio de datos, lo que dara lugar a una distancia 0
de nuestro punto de comparacin y por tanto al valor mnimo de la escala virtual de
similaridad (100%).

Figura 3. Mapa de Similaridad representando la relacin existente entre cada celda del
mapa y un punto concreto del mismo tomado como base de la comparacin.
El Mapa de Similaridad mostrado en la Figura 3 aplica todo lo dicho anteriormente
sobre la escala porcentual de similaridad a todas las celdas de un mapa, sobre las cuales
se ha calculado su distancia en el espacio de datos a un punto de comparacin. Los
tonos verdes indican tramas de datos bastante similares en los contenidos de P, K y N,
mientras que los tonos rojos indican puntos con valores bastante diferentes. Es
interesante ver que la mayor parte de las posiciones que podramos denominar como
'muy similares' estn situadas en la parte oeste del espacio analizado (en este caso, un
campo de cultivo).
Un mapa de similaridad como este que hemos mostrado puede ser una herramienta de
un valor incalculable cuando tratamos de averiguar las relaciones espaciales existentes
en un conjunto complejo de datos cartogrficos. Mientras el ser humano no puede
conceptualizar ms de tres variables a la vez (recordemos el espacio de datos que
imaginbamos como un cubo de cristal), con ordenadores podemos crear ndices de
similaridad que pueden trabajar con cualquier cantidad de mapas como variables de
entrada. Adems, las diferentes capas de estos ndices pueden ser ponderadas
debidamente para reflejar la importancia relativa en el proceso general de determinacin
de la similaridad, dando lugar a modelos ms o menos complejos.
En efecto, los Mapas de Similaridad son una aproximacin mucho ms depurada que el
puntero lser del conferenciante que veamos al principio recorriendo a toda velocidad
varios mapas similares para apuntar apreciaciones subjetivas acerca de la similaridad o
diferencia entre zonas. Aportamos de esta forma mediciones objetivas y cuantitativas
para cada punto de nuestro espacio de anlisis, llevando el anlisis cartogrfico al
terreno del mtodo cientfico de donde no debe salir.
IDENTIFICACIN DE ZONAS DE DATOS
En el punto anterior hemos introducido el concepto de 'distancia de datos' como
herramienta para medir la similaridad en un mapa. Con el software adecuado y un
simple click en una celda podemos saber en cualquier momento la similaridad del resto
de las celdas con respecto a la primera, en un rango entre 0 (cero por cien similar) y 100
(idntica trama de datos, es decir, idnticos valores en el conjunto de capas cartogrficas
analizadas). Dichas estadsticas hemos visto cmo pueden reemplazar a los tradicionales
anlisis visuales, llenos de subjetividad.

No obstante, podemos extender la tcnica


anteriormente descrita mediante la aplicacin de un
crculo que establezca un rea sobre el que
computar la similaridad cartogrfica, a partir de las
tramas de datos contenidas en su interior. En este
caso, el ordenador calculara el valor medio de
cada parmetro (capa cartogrfica) para todo el
rea del crculo. Dicho valor medio sera tomado
como base para establecer la comparacin, y
posteriormente para el clculo del conjunto de distancias normalizadas en el espacio de
datos con respecto al resto de las celdas del mapa. El resultado sera un mapa que
mostrara la similaridad en cada punto con respecto a un rea de inters, en vez de como
hacamos antes (con respecto a un solo punto).
De la misma forma, en un estudio de mercado podramos tomar un mapa de ventas de
un producto para identificar zonas inusualmente altas en lo que a ventas se refiere, y
posteriormente generar un Mapa de Similaridad utilizando otros datos de carcter
demogrfico. Podramos de esta forma obtener puntos con una trama demogrfica
parecida en otros puntos de la ciudad. O un gestor forestal podra identificar reas con
condiciones de suelo, orientacin del terreno, etc. similares a las que exiten donde crece
un tipo de vegetacin que necesita reforestar.
Figura 4. Identificacin de ereas con mediciones inusualmente altas.
La clave para entender todo esto es la relacin existente entre el espacio de datos y el
espacio geogrfico propiamente dicho. Tal y como se muestra en la Figura 4, un
conjunto de datos espaciales puede ser visualizado bajo la forma de un histograma de
frecuencias o como un mapa convencional. Mientras que el mapa nos muestra 'dnde
estn las cosas', el histograma nos informa de 'con qu frecuencia ocurren las cosas', con
indepencia de dnde tienen lugar.
La parte superior izquierda de la Figura 4 muestra una representacin de un mapa en 2D
con una superficie 3D superpuesta donde se puede ver la cantidad relativa de fsforo (P)
en una explotacin agrcola. Fjese en los picos que se dan en los bordes de la
explotacin, con un pico que destaca sobre todos en la zona norte.
El histograma que encontramos a la derecha nos aporta una perspectiva diferente de los
datos. En vez de posicionar las mediciones en el espacio geogrfico, realiza un conteo
de las frecuencias relativas de cada caso en el espacio de datos (bsicamente este grfico
nos dice cuntos casos hay en el mapa de medidas entre 5 y 6, entre 6 y 7, entre 7 y 8,
etc.) El eje X del histograma se corresponde con lo que sera la Z del mapa
convencional (es decir, la cantidad de fsforo detectada). En este caso, los picos del
grfico nos indican qu intervalos de mediciones ocurren ms frecuentemente;
observemos la alta frecuencia que tienen los valores entorno a 11 partes por milln.
Bien, ahora vamos a realizar la unin entre el espacio geogrfico y el espacio de datos.
La parte sombreada en verde de los histogramas denota mediciones inusualmente altas.
Hemos empleado para ello el estadstico de la desviacin tpica sobre la media, con lo
que hemos realizado un corte que nos permite aislar las mediciones inusualmente altas
de acuerdo con el desarrollo de la serie de datos (esta cuestin ya la hemos visto en este

artculo anterior). Con dicha delimitacin hemos


trazado los mapas 2D y superficies 3D que estn en
la parte derecha de la Figura 4, repetidos tanto para
los valores de fsforo como de potasio.
Figura 5. Identificacin de zonas coincidencia
comunes a ambos espacios geogrfico y de datos.
La Figura 5 muestra cmo se pueden combinar las series de datos del fsforo (P) y del
potasio (K) para localizar reas en la explotacin que tengan niveles altos de ambos
elementos. El grfico de puntos negros que est flanqueado por los histogramas de
frecuencias se denomina grfico o diagrama de dispersin (scatter plot). Este tipo de
representaciones permite ver de forma grfica la ocurrencia conjunta de ambas series de
datos cartogrficos.
Cada punto negro en el grfico de dispersin representa de forma esquemtica una
localizacin en el terreno real, de tal manera que su posicin en el diagrama identifica
los niveles de P y K para esa celda del mapa. Aquellas bolas que caen dentro de la zona
sombreada en color verde se corresponden con celdas que tienen elementos
anormalmente altos de ambos componentes P y K (ya hemos visto antes qu
entendemos por 'anormalmente altos'). Por su parte, aquellos valores que caen a los dos
lados del recuadro verde se corresponden con celdas que tienen un componente alto,
pero no los dos.
La parte derecha de la Figura 5 muestra tres mapas alineados con lo que sera la
solucin geogrfica para la localizacin de zonas con ambos elementos qumicos altos
(P y K); primero la delimitacin de las zonas altas en P, luego las zonas altas en K y por
fin abajo del todo las zonas altas en P y K a la vez. Una forma bastante sencilla de
conseguir estas delimitaciones consiste en asignar un valor 1 a todas las celdas con
mediciones altas de P y K, en cada una de sus dos
capas independientes (pintadas de verde); al resto
de celdas las daramos un valor 0 (gris). Luego
multiplicamos una capa por la otra y al estar
compuestas de 0 y 1 slo nos dar valores verdes
(1) en aquellas zonas donde ambas capas P y K
tengan 1, mientras que nos dar valores grises (0)
en el resto de combinaciones, debido a que
multiplican por algn 0. Como podemos ver, este
tipo de tcnicas de 'cortes por niveles' nos permiten
cartografiar selectivamente cualquier tipo de trama
de datos que queramos... slo hay que asignar
valores 1 a los intervalos de datos que nos
interesan dentro de cada variable o capa
cartogrfica, y valores 0 al resto para luego realizar
una extraccin selectiva.
Figura 6. Clasificacin de 'Cortes por niveles' (Level-slice) sobre tres capas
cartogrficas.

Siguiendo con nuestra exposicin, en la Figura 6 se muestra otro ejemplo que va un


poco ms all de lo visto anteriormente. En este caso hemos aislado en el espacio de
datos el rea con niveles inusualmente altos de P, K y N, que se puede ver como una
sub-caja en 3D con bolas dispersas que caen en su interior.
Para conseguir esto hemos empleado un pequeo truco cartogrfico que nos ha
permitido conseguir la solucin mostrada en la figura anterior. En cada mapa individual
(o capa cartogrfica), hemos otorgado a las reas que llamamos inusualmente altas los
valores de P=1, K=2 y N=4, antes de cruzar entre s los mapas. El resultado tras este
cruce es un rango de coincidencia que va de cero (0+0+0=0, que seran las zonas grises
que carecen de inters por no tener alto ningn elemento), hasta siete (1+2+4=7, que
seran las zonas de altos niveles a la vez de P, de K y de N). Los valores que quedan
entre el 0 y el 7 nos identifican capas con otras combinaciones de elementos. Por
ejemplo, las zonas pintadas de amarillo tienen un valor de 3 lo que significa niveles
altos de P y K, pero no de N (1+2+0=3). El lector probblemente se est preguntando
qu pasara si tuvieramos ms capas cartogrficas que 3... en ese caso, garantizaramos
la identificacin unvoca de casos utilizando valores en progresin binaria creciente
(...8, 16, 32, etc.) para garantizar que las combinaciones de resultados sean nicas y
poder de este modo identificar qu categoras o valores dieron lugar en cada caso al
resultado.
Aunque la tcnica de 'Corte por niveles' (Level-slicing) no es una forma de clasificacin
demasiado sofisticada, nos sirve para ilustrar con claridad la importantsima unin que
subyace entre el espacio de datos y el espacio geogrfico. Este concepto que es a todas
luces fundamental, forma la base de muchos anlisis geoestadsticos... incluyendo las
tcnicas de agrupamiento (clustering) y regresin que veremos ms en profundidad a
continuacin.
CARTOGRAFA DE CMULOS DE DATOS Y AGRUPACIN
(CLUSTERING)
Recapitulando un poco hemos visto cmo analizar el parecido entre datos a partir de
mapas apilados con distintas capas temticas. La primera tcnica que veamos, y que
hemos dado en llamar Similaridad Cartogrfica (Map Similarity), nos permita generar
un nuevo mapa mostrando el parecido de todos los puntos del mapa con respecto a una
localizacin tomada como base para la comparacin y teniendo en cuenta todas las
capas cartogrficas apiladas. El resultado lo expresbamos en una escala relativa de
porcentajes que mostraban el parecido con respecto a la ubicacin base de la
comparacin.
La otra tcnica que hemos visto ha sido la denominada 'Corte por niveles' (Levelslicing) que nos permita especificar un rango de datos de inters para cada uno de los
mapas apilados, y luego generar mapas que cumplieran todas las combinaciones de
criterios: desde slo un criterio hasta todos los criterios cumplidos a la vez, as como las
posibles combinaciones correctamente identificadas que quedan en medio.
Ambas tcnicas son muy tiles a la hora de examinar las relaciones espaciales
subyacentes en los datos, pero exigen al usuario tener que especificar los parmetros
que desea para el anlisis. Pero... qu pasa si uno no sabe qu intervalos de corte usar
para el anlisis, o qu ubicaciones elegir como base de comparacin para analizar la

similaridad cartogrfica? Podramos plantearnos


con ciertas garantas que fuera el ordenador por s
mismo quien identificara los grupos de datos
similares? Qu clase de resultados dara este tipo
de clasificaciones automticas? Funcionaran?
Figura 7. Ejemplos de Agrupamiento Cartogrfico (Map Clustering).
La Figura 7 muestra algunos ejemplos de Agrupamiento Cartogrfico (Map Clustering).
Los mapas 'flotantes' que se pueden ver en la parte izquierda de la imagen son las capas
cartogrficas que nos sirven de base para el anlisis. Dichas capas son, como se puede
ver, los mismos mapas que hemos visto en los puntos anteriores de distribucin de
Fsforo (P), Potasio (K) y Nitrgeno (N) en una hipottica explotacin de maz. No
obstante, hacemos hincapi una vez ms en que la naturaleza de los datos puede ser
cualquiera: datos de geomrketing, caractersticas del medio natural, datos
demogrficos, etc... en fn, cualquier conjunto de capas cartogrficas relacionadas entre
s. El principio siempre es el mismo: el agrupamiento 'mira' la trama numrica de cada
ubicacin (el valor de cada celda y en cada mapa) y 'ordena' todas las ubicaciones en
grupos discretos.
El mapa que vemos en la parte central del grfico anterior muestra el resultado de
reclasificar los mapas P, K y N en dos cmulos de datos (clusters) tras el agrupamiento.
La trama de datos para cada ubicacin cartogrfica es usada para zonificar la
explotacin de maz en dos grupos o clusters separados que cumplan las siguientes
condiciones:

1/. Que los grupos sean tan diferentes como sea posible entre s (diferencia entre
grupos).
2/. Que estos grupos internamente estn formados por celdas con tramas
cartogrficas lo ms similares posibles entre s (similitud en el seno de cada
grupo).

Los dos mapas que estn a la derecha de la Figura 7 contienen los mismos datos pero
grafiados en tres y cuatro cmulos respectivamente. En los tres mapas de agrupamiento
que vemos (el grande central y los dos de la derecha), se ha asignado el color rojo a los
datos con respuestas relativamente bajas, mientras que el verde equivale a respuestas
relativamente altas. Fijmonos en cmo a medida que vamos pasando de dos a tres
clusters y luego a cuatro, las reas de los dos cmulos iniciales van siendo invadidas
paulatinamente por los nuevos grupos creados, de bordes hacia adentro.
El mecanismo para generar estos cmulos de datos o clusters es bastante sencillo.
Smplemente especificamos los mapas de entrada para el anlisis y el nmero de
clusters que queremos; luego, como por arte de magia, nos aparece un nuevo mapa con
nuevos agrupamientos discretos de los datos. Ahora en serio... qu hay detrs de este
supuesto milagro? Qu es lo que pasa dentro de la caja negra del ordenador cuando
decidimos ejecutar una tcnica de este tipo?

Figure 8. Las tramas de datos para cada punto del


espacio analizado son vistas en esta representacin
del espacio de datos como bolas flotantes.
La Figura 8 puede ayudarnos bastante a entender el
proceso. Las bolas flontantes identifican las tramas
de datos para cada punto del mapa y grafiadas
sobre tres ejes que forman el espacio de datos (P, K
y N). Recordamos, igualmente, que por trama de
datos entendemos el conjunto de valores de todas las capas temticas para una celda
dada, como si las capas cartogrficas fueran tres tartas apiladas y atravesramos las
mismas de arriba a abajo con un gran pincho que nos identificara qu sabor hemos
interceptado en cada uno de los pisos de la tarta.
Bien, volviendo a la Figura 8, la bola que aparenta estar ms cercana a nosotros (la ms
grande que est cerca de la arista derecha del cubo) se corresponde con valores altos en
todos los niveles de P, K y N. Por contra, la bola ms pequea que aparece en el
extremo opuesto del cubo (cerca del origen de los ejes), se corresponde con valores
bajos. Parece evidente, pues, que ambas bolas con respuestas tan opuestas pertenecen a
grupos de datos distintos.
Ser tarea de otro artculo el tratamiento en profundidad del algoritmo especfico
aplicado para el agrupamiento, pero en este caso nos basta con comprender que la base
del proceso est en la distancia en el espacio de datos que existe entre las bolas flotantes
(o lo que es lo mismo: las tramas de datos). As, grupos de bolas que estn relativamente
cercanas entre s forman un posible grupo, y aquellos cmulos de bolas que estn
alejados de este grupo mencionado forman otros potenciales clusters. En el ejemplo de
la figura anterior, las bolas rojas identifican un grupo con respuestas relativamente bajas
de los niveles P, K y N, mientras que las bolas verdes forman el cmulo de datos
(cluster) opuesto con respuestas relativamente altas. Todo esto traducido en forma de
mapa da lugar a la representacin cartogrfica de la parte inferior derecha de la Figura
8.
Sin embargo, identificar estos grupos de datos cercanos entre s en el espacio de datos
puede ser una tarea rdua. Lo ideal sera encontrarnos con una estructura de 'nubes' de
bolas en el espacio de datos para facilitar la tarea de identificacin de los clusters, pero
eso raramente ocurre, as que no queda otro remedio que aplicar ciertas reglas de
decisin que nos permitan partir los datos por
contornos que se tienen que corresponder con
respuestas similares en los datos. Se pueden aplicar
tcnicas ms o menos sofisticadas que ponderen
criterios en funcin de las tendencias de las series
de datos y otros recursos estadsticos expertos
como la consideracin de la autocorrelacin
espacial, el tratamiento categrico de los datos, etc.
Figura 9. Los resultados del agrupamiento se
pueden validar preliminarmente con estadstica
bsica.

Ahora bien, cmo podemos saber si los resultados del agrupamiento son aceptables?
La mayor parte de los expertos en estadstica responderan a esta pregunta "es imposible
saberlo a ciencia cierta". No obstante, nosotros trataremos de buscar una respuesta.
Aunque hay algunos procedimientos bastante elaborados que se centran en las
asignaciones de los agrupamientos y en el estudio de los umbrales de tales grupos, la
estadstica tradicional -a travs de los ndices comunes que todos utilizamos- es una de
las formas ms utilizadas de comprobar la bondad de los resultados del clustering.
La Figura 9 muestra una tabla con estadsticas bsicas y tres grficos de apertura: uno
por cada capa cartogrfica (P, K y N) y cada uno con los resultados de los dos cmulos
realizados (cluster 1 y cluster 2). En la tabla de estadsticas bsicas se han incluido la
media, la desviacin tpica y los valores mximos y mnimos de cada cmulo. Lo ideal
sera que las medias entre los grupos fueran radicalmente diferentes y que las
desviaciones tpicas dentro de cada grupo fueran muy pequeas, lo que implicara que
existen grandes diferencias entre los grupos pero pequeas diferencias en el seno de
cada grupo.
Los grficos de apertura nos permiten visualizar estas diferencias. Dentro de estos
grficos las cajas estn centradas en la media (posicin) y se extienden hacia arriba y
abajo una desviacin tpica (ancho); los hilos de apertura que las acompaan se
extienden de los valores mximos a los mnimos, dndonos una idea del rango de
apertura que tiene la serie. Cuando los diagramas de dos clusters se solapan, como
ocurre en el caso de las respuestas del fsforo, quiere decir que dichos cmulos no son
muy distintos en lo que respecta a ese parmetro (o lo que es lo mismo, a ese eje en el
espacio de datos). Sin embargo, la separacin que existe en las cajas de los grficos de
K y N sugieren un mayor xito en la distincin de los clusters (especialmente en el caso
del potasio).
Dados estos resultados del ejemplo, un analista GIS dara por aceptable la
clasificacin... y yo espero que los expertos en estadstica acepten mis disculpas por
tratar un tema tan complejo de una forma tan breve y simplificada.
MAPAS DE PREDICCIN
Hablar del futuro de los Sistemas de Informacin Geogrfica es hablar de mapas que
puedan describir cosas que an no han sucecido... Suena un poco a ciencia ficcin pero
lo cierto es que las tcnicas de Data Mining espacial no paran de progresar e
inexorablemente nos llevan en esa direccin. Durante dcadas, la estadstica
convencional (no espacial) ha estado prediciendo cosas mediante el anlisis exhaustivo
de muestras de datos en busca de relaciones numricas (ecuaciones) que luego pueden
ser aplicadas a otros conjuntos de datos. Claro que cuando se realiza una aproximacin
basada en la estadstica tradicional sobre datos con una componente espacial, estamos
pasando por alto las relaciones geogrficas y el resultado al final es slo una tabla de
nmeros, precisamente por no tener en cuenta dicha componente espacial.
La simbiosis existente entre el anlisis estadstico predictivo y la cartografa parece
evidente. Despus de todo, los mapas no son ms que un conjunto organizado de
nmeros... y los Sistemas de Informacin Geogrfica nos permiten precisamente unir

estos nmeros con su distribucin espacial.


Llevamos vistas en este artculo varias tcnicas
'descriptivas' para el anlisis de la similaridad, el
agrupamiento de datos, etc. Ahora nos toca el
siguiente paso lgico que es aplicar tcnicas
'predictivas' para generar mapas de extrapolacin.
La primera vez que yo us cartografa predictiva
fue en 1992 para extender los resultados de un
estudio de mercado de una compaa de telefona.
La direccin del cliente fue utilizada para
geocodificar las ventas de un nuevo producto que permita asignar a un mismo aparato
de telfono disponer de dos lneas con nmeros distintos y sonido de llamada tambin
distinto: uno para los ms jvenes de la casa y otro para los mayores. Poco a poco
emergi de la pantalla del ordenador un mapa de toda la ciudad con el patrn de ventas,
como si fuera uno de aquellos viejos mapas plagado de chinchetas. Pudimos ver que
algunas reas estaban respondiendo bastante bien, mientras que en otras las ventas iban
bastante peor.
Los datos demogrficos de la ciudad fueron analizados para calcular una ecuacin de
prediccin entre las ventas del producto y los datos censales. Es decir, escribimos la
ecuacin de prediccin viendo la relacin existente entre los datos del estudio de
mercado (sobre todo ventas) y los datos demogrficos, todo ello de una sola ciudad.
Luego esta ecuacin fue aplicada en otra ciudad utilizando sus propios datos censales
como elemento para 'resolver la ecuacin' y en consecuencia generar un nuevo mapa
predictivo de ventas. Con posterioridad dicho mapa predictivo de ventas fue cruzado
con la informacin de cableado e instalaciones de la compaa para identificar
elementos de la red que deberan ser reforzados o actualizados previamente al
lanzamiento del producto.
Figura 10. El mapa de la explotacin de maz (arriba) identifica la trama de datos a
predecir; las imgenes del rojo e infrarrojo cercano de abajo son utilizadas para
averiguar la relacin espacial.
Para ilustrar el procedimiento de Data Mining predictivo vamos a seguir con el ejemplo
de la explotacin de maz con la que venimos trabajando en este artculo. La parte de
arriba de la Figura 10 muestra la produccin de la explotacin para un momento dado
(ao 2000), con niveles que varan de 39 kg por hectrea (en rojo) a 279 en los valores
ms altos (pintados en verde). Al mapa de produccin de cultivo se le denomina la
'variable cartogrfica dependiente' porque identifica los datos de partida del fenmeno
que pretendemos predecir.
Las 'variables cartogrficas independientes' son las que figuran en la parte de abajo del
grfico, las cuales nos permitirn poner al descubierto las relaciones espaciales
existentes (ecuacin de prediccin). En el ejemplo que estamos viendo, utilizamos como
variables cartogrficas independientes dos imgenes areas; la imagen de la parte de
abajo a la izquierda indica la reflectancia relativa de luz roja que reflejan las copas de
las plantas en la explotacin; la imagen de abajo a la derecha presenta la respuesta en el
infrarrojo cercano de la misma explotacin (luz con una longitud de onda ligeramente
inferior al umbral mnimo que puede percibir el ojo humano).

Viendo estas tres imgenes parece imposible dar


con las relaciones que existen entre los tres
conjuntos de datos; sin embargo, el ordenador es
capaz de 'percibir' dichas relaciones
cuantitativamente. Cada posicin relativa en los
tres mapas (celda equivalente) tiene un valor en
cada una de los mapas. Y cada capa cartogrfica
(cada mapa) est compuesto de 3.287 celdas que
cubren la totalidad de la superficie de la
explotacin.
Figura 11. Las condiciones comunes para ambas imgenes de respuesta espectral y el
mapa de produccin de cultivo son representadas en los grficos de dispersin de la
parte derecha.
Por ejemplo, en la parte de arriba de la Figura 11 vemos que la celda ubicada en la fila
13 y columna 46 tiene una condicin 'comn' de 14.7 en la imagen del rojo y 218 en los
datos de produccin de cultivo. Las lneas rojas que aparecen en el grfico de dispersin
inmediatamente a su derecha muestran la posicin precisa del par de datos cartogrficos
X=14.7 e Y=218. Lo mismo podemos ver en la parte de abajo de la figura pero con los
datos del Infrarrojo cercano cruzados con la produccin de cultivo.
De hecho, las nubes de puntos azules que vemos en los grficos de dispersin
representan pares de datos para cada una de las 3.287 celdas con las que trabajamos para
representar la explotacin agrcola analizada. Una cosa ms, las lneas azules de los
grficos representan de forma grfica las ecuaciones de prediccin derivadas del anlisis
de regresin. En realidad, el fundamento matemtico detrs de este tipo de anlisis es
algo ms complejo, pero se podra decir que el objeto es conseguir la lnea que 'mejor se
adapte a los datos', es decir, con el mismo nmero de puntos por encima que por debajo
de la lnea.
En cierto modo, esta lnea azul derivada del anlisis de regresin identifica la
produccin media de cultivo para cada punto dentro del eje X (respuestas en el rojo e
infrarrojo respectivamente). Piense un momento sobre ello... No se podra utilizar este
tipo de anlisis de regresin como un mtodo para predecir la produccin en otra lugar o
en otro momento del tiempo? Es decir, tomar el anlisis de regresin como un modelo
predictivo en el cual introducimos un valor de respuesta en el infrarrojo (o rojo) para
otro momento del tiempo u otro lugar, y usar la ecuacin que deriva la lnea azul para
predecir la produccin de cultivo bajo esas condiciones. Repetir el proceso en todas las
celdas del mapa de la explotacin y de esa forma obtener un mapa predictivo de la
produccin prevista en funcin de los datos proporcionados por la imgen area. Ojal
fuera as de simple y de exacto...
Un problema muy importante es que el estadstico 'r-cuadrado' para ambas ecuaciones
del ejemplo es bastante pequeo (R=26% en el primer caso y R=4.7% en el segundo
caso). Y esto sugiere que las lneas de prediccin no se ajustan a las series de datos
demasiado bien.
Una manera de mejorar el modelo predictivo podra ser combinar la informacin de
ambas imgenes. El Indice Normalizado de Densidad de Vegetacin (Normalized

Density Vegetation Index o NDVI) permite realizar esta tarea mediante el clculo de un
nuevo valor por celda que indica el estado de vigor de la vegetacin, segn la frmula:
NDVI = ( (Infrarrojo_Cercano - Rojo) / (Infrarrojo_Cercano + Rojo) )

La Figura 12 muestra precisamente ese proceso de clculo del ndice NDVI para un
ejemplo de celda:
NDVI = ( (121 - 14.7) / (121 + 14.7) ) = 106.3 / 135.7 = 0.783

El grfico de dispersin a la derecha de la misma


Figura 12 muestra los datos de produccin de
cultivo cruzados con el ndice NDVI, incluyendo la
lnea de regresin calculada para el conjunto de las
celdas con que grafiamos el mapa de toda la
explotacin. Fjese que en este caso el valor de R
es ahora bastante mayor (30%), lo que indica que
el ndice NDVI es un mejor elemento predictivo de
la produccin.
Figura 12. Las imgenes de respuesta en el rojo e
infrarrojo cercano han sido combinadas ahora para
derivar el ndice NDVI, que es un mejor elemento
predictivo de la productividad de los cultivos.
La parte de abajo de la figura se centra en evaluar
el rendimiento de la ecuacin de prediccin en todo el mbito de la explotacin agrcola
analizada. As, los dos mapas ms pequeos de la izquierda muestran los datos
disponibles de produccin para el ao 2000 (izquierda) y el mapa de prediccin del
rendimiento futuro (derecha). Como era previsible, el mapa futuro no contiene la misma
amplitud de valores extremos (mximos y mnimos) que podemos ver en la versin del
ao 2000.
Y otra cosa importante; el mapa de abajo a la derecha estima el error del clculo
previsto, mediante una simple resta de los valores de produccin obtenidos en el 2000
del nuevo mapa de previsin (procediendo celda por celda, como en todos los procesos
que estamos describiendo). Este mapa de error sugiere que las cbalas hechas no son del
todo malas: el error medio est en torno a 2.62 kg/ha (en sobreestimacin) y el 67% de
la superficie de la explotacin est dentro de los 20 kg/ha. Tambin es importante
resear que la mayor parte de la sobreestimacin ocurre a lo largo del eje de la
explotacin, mientras que las subestimaciones estn esparcidas a lo largo de dos
curiosas bandas que aparecen con orientacin Noreste-Suroeste.
Algunos me podrn decir que evaluar una ecuacin de prediccin sobre los mismos
datos que se usaron para generarla no es un verdadero proceso de validacin, y
ciertamente tendran razn. No obstante, este procedimiento s que proporciona al
menos una verificacin emprica de la tcnica descrita, y nos permite vislumbrar que
con algo ms de refinamiento sobre el modelo predictivo, ste puede ser til en el
pronstico de producciones de cultivos antes de haber plantado nada.

Seguidamente analizaremos algunas de estas tcnicas de refinamiento de la prediccin y


qu otra informacin til podemos extraer de los mapas el error.
ESTRATIFICACIN DE MAPAS PARA MEJORAR LOS CLCULOS
PREDICTIVOS
Acabamos de ver un procedimiento para realizar mapas predictivos a partir de series de
datos interrelacionadas entre s y de una misma zona. Aunque lo hemos explicado muy
brevemente, porque el procedimiento en s lo es, la teora que soporta este mtodo, sus
consideraciones profundas y sus limitaciones podran llevar toda una asignatura
semestral, sin duda alguna.
En un anlisis basado en datos raster como el que acabamos de ver, partimos de la
premisa de que cada celda de las capas cartogrficas tomadas como base, tiene el dato
correcto. A partir de ah, toda la amalgama de nmeros que resultan de 'atravesar' de
arriba a abajo las capas cartogrficas 'apiladas' son analizadas segn el procedimiento
expuesto para obtener una ecuacin de prediccin que se supone modeliza las relaciones
espaciales existentes entre los datos.
En el ejemplo que hemos puesto en el punto anterior, usbamos el anlisis de regresin
para relacionar un mapa con el ndice NDVI con un mapa de produccin de cultivo de
una explotacin de maz, tomado con mediciones empricas. La ecuacin resultante
veamos que nos permita derivar un nuevo mapa de produccin futura prevista a partir
de la ecuacin de regresin, pudiendo comprobar a posteriori la bondad de la prediccin
(error cometido).

Figura 13. Estratificacin de la explotacin del ejemplo en funcin de los errores en la


prediccin.
En la parte izquierda de la Figura 13 tenemos descrito el proceso que ya hemos visto
anteriormente para el clculo del mapa de error; dicho procedimiento consiste en restar
los valores del mapa de produccin actuales (procedentes de mediciones empricas) del
mapa de prediccin calculado, lo cual da lugar al mapa de error. Con este mapa de error
en la mano, hemos visto que las predicciones realizadas no eran del todo malas: un error
medio de 2.62 kg/ha con un el 67% de la superficie analizada dentro de los 20 kg/ha del
mapa de produccin. Sin embargo, algunas celdas estaban muy lejos de lo esperado con
144 kg/ha (de sobre estimacin) y 173 kg/ha (de subestimacin).
Una manera para mejorar las predicciones realizadas es estratificar los datos mediante la
fragmentacin de los mismos en grupos de caractersticas similares. La idea es que si
hacemos ecuaciones a medida para cada uno de los estratos de datos, el resultado final

ser ms preciso que si aplicamos una sola ecuacin de prediccin para todo el rea de
la explotacin. Esta tcnica se usa frecuentemente en estadstica convencional (no
espacial), donde determinados conjuntos de datos son agrupados por edad, ingresos,
nivel educativo u otro criterio antes de hacer su anlisis. En estadstica espacial
podemos aplicar ms criterios aparte de los referidos a la naturaleza de los datos; por
ejemplo, podemos agrupar por las condiciones de vecindad y/o proximidad.
Lo primero que hay que decir es que existen diversas alternativas para realizar la
estratificacin de los datos. Nosotros realizaremos la aproximacin conceptual al
procedimiento a partir de una subdivisin del mapa de error, que nos permitir ver qu
hay detrs de esta tcnica. En este sentido, si miramos el centro de la Figura 13 vemos
el histograma de frecuencias que hemos preparado del mapa de error. Las lneas verdes
que se pueden ver en el histograma indican puntos de ruptura de ms/menos una
desviacin tpica, que nos dividen todo el conjunto de datos en tres estratos:

Zona 1, formada por celdas inusualmente sub-estimadas en lo que a produccin


prevista se refiere (en rojo).
Zona 2, formada por las celdas dentro del error tpico de la serie (en amarillo).
Zona 3, formada por celdas inusualmente sobre estimadas (verde).

Si ahora pasamos estas tres zonas al mapa de error, obtenemos el mapa que se puede ver
en la parte derecha de la Figura 13.
El razonamiento que hay detrs de la estratificacin consiste en que la ecuacin de
prediccin que hemos hecho anteriormente funciona bastante bien para la zona 2, pero
no tan bien para las zonas 1 y 3 (donde encontramos los valores extremos de sobreestimacin y sub-estimacin). Es decir, hay algo que provoca que la ecuacin en la zona
1 arroje valores sub-estimados y en la zona 3 sobre-estimados. Si esto es cierto, uno
podra pensar y con razn que una ecuacin nueva a medida para cada una de estas
zonas 'especiales' podra mejorar los resultados.
La siguiente figura presenta los resultados de derivar y aplicar tres ecuaciones de
prediccin a la vez:

Figura 14. Tras realizar la


estratificacin de los datos, las ecuaciones de prediccin pueden ser particularizadas
para cada zona resultante.
En la parte izquierda vemos el esquema del procedimiento: partiendo del mapa de zonas
de error en el cual hemos distinguido tres zonas, hemos cruzado dicho mapa con los

valores del ndice NDVI y los valores del mapa de


produccin, resultando tres ecuaciones de
prediccin separadas (una para cada zona de
datos). En cada celda del mapa, el algoritmo
utilizado ahora tiene una diferencia: primero
comprueba el valor que tiene en el mapa de zonas
de error y luego enva los datos al grupo adecuado
para el anlisis de regresin. Es decir, primero se
agrupan los datos en series independientes segn la
zona y luego se genera la ecuacin de regresin
tambin por zonas individuales. Los estadsticos de la 'r-cuadrado' resultantes para cada
ecuacin (0.68, 0.60 y 0.42 respectivamente) sugieren que las ecuaciones se adaptan y
describen bastante bien las series de datos, con lo cual deberan ser buenos elementos
para la prediccin.
Por ltimo, la parte derecha de la misma Figura 14 muestra el mapa de prediccin
generado como consecuencia de aplicar las tres ecuaciones a la vez sobre los datos del
ndice NDVI (lo que hemos llamado en el grfico 'Prediccin Compuesta'.
Figura 15. Las predicciones, sean estratificadas o generales, pueden ser comparadas y
comprobadas utilizando tcnicas estadsticas.
Hablemos ahora de la comparacin y comprobacin de las predicciones entre s. En la
Figura 15 (parte izquierda) tenemos una comparacin visual entre los mapas de
produccin y dos predicciones (general y estratificada). La estratificada muestra
estimaciones detalladas y de mayor precisin que la prediccin general. El mapa de
error para la prediccin estratificada (que le podemos ver en grande) nos indica que el
80% de las estimaciones realizadas (celdas) estn dentro de un error de +/- 20 kg/ha, y
que el error medio es de slo 4 kg/ha. La horquilla entre mximos y mnimos va de
-81.2 a 113, as que no nos podemos quejar de las predicciones realizadas usando un
conjunto bastante limitado de datos (el ndice NDVI y el mapa de produccin actual
empricamente medido); y lo ms importante: todo esto lo podemos saber antes de que
los agricultores hayan movido un solo grano de tierra.
Antes de terminar, quisiera resaltar un par de cosas acerca de este ejemplo de Data
Mining Espacial que acabamos de ver. En primer lugar, es importante destacar que
existen muchsimos otros mtodos de estratificacin de datos cartogrficos, por
ejemplo:

Por zonas geogrficas. Criterios tales como proximidad al borde de la


explotacin.
Por zonas cartogrficas dependientes, tales como reas de baja productividad de
cultivo, reas de produccin media y reas de muy alta productividad.
Por zonas de datos (ya hemos visto cmo se hace esto), aplicando un criterio,
por ejemplo, como los niveles de nutrientes presentes en el suelo.
Por zonas cartogrficas correlacionadas, usando el microrrelieve como elemento
diferenciador (identificacin de pequeas 'sierras' divisorias, depresiones, etc.

Los criterios de estratificacin pueden ser muchos y la creatividad del analista SIG tiene
aqu campo para expandirse. De hecho, el proceso de identificar esquemas de

estratificacin coherentes, consistentes y sobre todo tiles desde el punto de vista de su


aplicacin y resultados es un campo emergente de investigacin en las ciencias
espaciales de hoy en da.
En segundo lugar, quisiera resaltar tambin que los mapas de error son claves en el
proceso de evaluacin y refinamiento de las ecuaciones de prediccin. Este aspecto es
especialmente importante en los casos en los que pretendemos hacer una extrapolacin
de los datos que vaya muy lejos en el tiempo y/o espacio. Es importante destacar que la
tcnica de utilizar los mismos datos de partida para la evaluacin de las predicciones no
siempre es oportuna (en los ejemplos que hemos visto en este artculo lo hemos hecho
por claridad en la exposicin y porque basta para comprender el proceso, pero a efectos
de casos prcticos reales no es lo ms adecuado).
Siempre que nos sea posible, deberemos contrastar las ecuaciones de prediccin y los
mapas derivados de ellas con datos reales de otros lugares y/o momentos temporales
para tener una idea real del rendimiento del modelo. Este es un imperativo que no se
debe olvidar en ningn mtodo sometido al mtodo cientfico.
Finalmente, quisiera terminar diciendo que por supuesto el Data Mining Espacial no se
restringe en su aplicacin a la gestin agrcola (lo que se ha dado en llamar Agricultura
de Precisin). Este tipo de mtodos nos permiten una aplicacin potencial en cualquier
campo en el que dispongamos de un conjunto de datos cartogrficos interrelacionados
entre s. Ya dimos algunas ideas a lo largo de este artculo de aplicaciones con modelos
predictivos para estudios de geomrketing.
Lo importante es que empecemos a ver los conjuntos de capas cartogrficas de una
misma explotacin agrcola, ciudad, etc. como una nica fuente de datos que
debidamente organizada y analizada cartogrficamente puede revelarnos sus relaciones
espaciales ocultas y ser un excelente arma de planificacin... y eso que slo hemos
descubierto un mnimo de los secretos que los datos ocultan dentro de s.

Potrebbero piacerti anche