Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
El anlisis de Cluster (Cluster Analysis, con siglas CA) tiene como objetivo agrupar
cualquier conjunto de elementos en grupos homogneos llamados clusters, ( los elementos
de un mismo cluster son semejantes entre s, y los elementos de un cluster cualquiera no
son tan semejantes a los elementos de cualquier otro cluster).
Mtodos Jerrquicos.
Mtodos de optimizacin.
Euclideana.
Cuando son slo dos las variables numricas entonces sta distancia viene dada por :
VAR. 1 VAR. 2
ELEMENTO A X1 Y1
ELEMENTO B X2 Y2
d AB = (X2-X1)2 +(Y2-Y1)2
Y es la distancia en lnea recta en el plano x y entre los puntos determinados por las
coordenadas (x1, y1) y (x2, y2).
Cuando son tres las variables numricas entonces sta distancia viene dada por :
ELEMENTO A X1 Y1 Z3
ELEMENTO B X2 Y2 Z3
d AB = (X2-X1)2 +(Y2-Y1)2+(Z2-Z1)2
1
Y es la distancia en lnea recta en el espacio xyz entre los puntos determinados por las
coordenadas (x1, y1, z1) y (x2, y2, z2).
La frmula euclideana de d AB se puede generalizar para ms de tres variables.
Euclideana al cuadrado. Tiene la misma frmula que la medida anterior pero sin raz
cuadrada. Tiene la ventaja sobre aquella que en que utiliza menos clculos manuales para
obtenerse, pero es ms afectada por los datos atpicos (Datos
con valores extraos muy grandes, obtenidos por errores en las mediciones)
d AB = (X2-X1)2 +(Y2-Y1)2+(Z2-Z1)2
Chebichev : Es fuertemente afectada por datos atpicos. Toma slo en cuenta las
variables ms distanciadas entre s.
D AB = mayor de { (X2-X1 ) (Y2-Y1) (Z2-Z1) .........}
Mahalanobis: Esta distancia remueve la correlacin entre las variables. Es una de las
distancias ms utilizadas y con ms ventajas tericas y prcticas que las otras distancias.
No existe un consenso generalizado acerca de cul sea la mejor distancia, cada una
adolece de debilidades y cada una tiene propiedades deseables y ventajas. Unas distancias
pueden ser mejor que otras en ciertos casos pero en otros casos pueden no ser mejor. Ms
an, en ejemplos muy especficos donde se tiene control estricto de las condiciones y del
entorno, los grandes estadsticos no coinciden en la distancia que ellos consideran
apropiada. Esperemos que en un futuro cercano concreten acuerdos en este tipo de
opiniones y que los acuerdos se pasmen en artculos de investigacin y en libros. En el
presente, la literatura cientfica en este tema es todava escasa y laxa. No obstante, el
investigador, an si desconoce las caractersticas de las distancias, puede escoger alguna
de las distancias mas recomendadas; y puede perder cuidado, puede dejarse de preocupar
acerca de la conveniencia de esa eleccin, pues seguramente la distancia elegida le
redituar resultados satisfactorios. Puede, casi sin objecin alguna, utilizar la distancia de
mahalanobis la euclideana.
MTODOS JERRQUICOS
2
a) Vecino ms cercano (Single linkage, nearest neighbor)
Con ste mtodo la distancia entre dos clusters se define como la distancia
entre los elementos ms cercanos entre s (cada elemento pertenece a cada
cluster), con l se da lugar a crear clusters alargados y a veces deformes, y no
muy homogneos. Es poco afectado por los datos atpicos. Tiene tendencia a
producir dendogramas en forma de cadena. Aunque han adquirido cierta
popularidad en taxonoma no se recomienda su uso (* ver nota ) .
b) Vecino ms lejano enlace completo . (Complete linkage, furthest
neighbor)
Con ste mtodo la distancia entre dos clusters se define como la distancia
entre los elementos ms lejanos entre s (cada elemento pertenece a cada
cluster),
con l se tiende a crear clusters de similar tamao y variabilidad. Es tambin
menos sensible a datos atpicos que el mtodo anterior
c) Vinculacin intergrupos inponderado (Unweighted pair-group average)
Con ste mtodo la distancia entre dos clusters se define como el promedio
de todas las distancias entre cada par de elementos (donde cada par se entiende
el conformado por un elemento de cada uno de esos clusters). Es comn en
ecologa y taxonoma. Tiende a producir cluster ms o menos esfricos y con
varianzas que pueden diferir de manera significativa entre ellos.
d) Vinculacin intergrupos ponderado (Weighted pair-group average)
ste mtodo es muy similar al anterior salvo elimina la influencia de los
tamaos de los clusters en el orden de integracin de ellos.
e) Centroide intergrupos inponderado. (Unweighted pair-group centroid)
En este mtodo, la distancia entre dos clusters es determinada como la
diferencia entre centroides. ( El centroide de un cluster es el punto medio en el
espacio multidimensional definido por las dimensiones).Es popular entre los
bilogos. Junto con el de Ward, se ve menos afectado por datos atpicos que los
dems mtodos.
f) Ward.
ste mtodo une los clusters cuya unin conlleve el menor incremento de
varianza. Este mtodo tiende a unir los clusters con menor nmero de
observaciones, y resultar dichos clusters de tamao y forma similar. Junto con
el e), se ve menos afectado por datos atpicos que los dems mtodos. Es
quizs el mtodo ms utilizado.
(* nota: En la literatura se le critica esta desventaja al mtodo single linkage,; no obstante , Everitt (1993),
desarroll un ejemplo donde este mtodo fue el nico que acert para encontrar los acertados clusters con varias
variables binarias. Los mtodos del centroide y ward crearon inapropiados clusters esfricos en ese ejemplo. )
Una vez comprendidos los conceptos de distancia entre elementos y entre clusters
estamos en condiciones de analizar el desarrollo ordinario de los mtodos jerrquicos.
3
La caracterstica distintiva de los mtodos jerrquicos, en comparacin a los mtodos de
optimizacin, es que la decisin del nmero de clusters a considerar es una decisin que se
toma slo despus del desarrollo del procedimiento.
Los mtodos jerrquicos se subdividen en aglomerativos y divisivos. Los
aglomerativos inician el desarrollo considerando cada elemento como un cluster y luego
van agrupando esos elementos en nuevos clusters, gradualmente los clusters vienen a ser
ms grandes por las fusiones entre ellos, hasta conformar un solo cluster que es el
conjunto de todos los elementos. En los divisivos, se considera en un inicio el conjunto de
elementos como un slo cluster, luego se parte este conjunto en clusters ms pequeos, de
manera gradual se parten luego en ms pequeos, hasta que cada cluster est conformado
por un solo elemento. Los primeros requieren mucho menos clculos que los segundos y
son ms populares; por ello, el presente apunte estar solamente dirigido al estudio de los
mtodos aglomerativos.
Los pasos 2 y 3 son resueltos comnmente con el ordenador, el ordenador tambin despliega el dendograma y el
paso 6 es resuelto por el lector auxiliado del ordenador.
La resolucin de stos mtodos utilizando el paquete Statistica se puede resumir en los siguientes puntos:
4
Un dendograma cualquiera viene a ser el siguiente:
En el dendograma deslice hacia la izquierda una lnea vertical que corte las
ramificaciones horizontales hasta que se ramifiquen (a partir del corte) el nmero de
clusters a considerar. ( En el subcaptulo de Metodos de Optimizacin hablaremos de las
algunas tcnicas empleadas para elegir el nmero de clusters ) . Si deseamos considerar 4
clusters entonces esa lnea vertical se puede distinguir en el siguiente diagrama, adems
se distinguen los 4 clusters, que son los conjuntos de elementos encerrados en curvas en
la parte izquierda del diagrama:
5
MTODOS DE OPTIMIZACIN
En ellos se fija desde un principio el nmero de cluster a utilizar. En vista del vasto
nmero de mtodos de optimizacin slo abordaremos el mtodo que es el ms
utilizado, el mtodo de:
K- MEDIAS
4. Calcular las distancias DAB entre cada elemento y cada cc, se asigna cada elemento al cluster cuyo cc sea ms
cercano. ( Empezando por los elementos ms cercanos, Cada vez que se integra un elemento a un cluster, se
recalcula el centroide del cluster ).
5. Cuando se han asignada todos los elementos a cualquiera de los clusters, entonces se prueba el siguiente criterio
de optimizacin:
Se prueba si cambiando algn elemento de cluster se reduce la suma de cuadrados dentro de grupos (SCDG), si
se reduce entonces lo cambia y se recalculan los cc de los clusters afectados y regresamos al paso 4; si no se logra
cambiar entonces termina el proceso.
G p ng
SCDG = ( x i j g x j g ) 2
g=1 j=1 i=1
G = nmero de grupos
p = nmero de variables
n g =nmero de elementos en el grupo g-simo.
Los pasos 3, 4 y 5 los resuelve de manera exclusiva el ordenador, los pasos 1 y 2 los determina el lector
informndole al ordenador sus decisiones.
6
Cuntos clusters utilizar?
No existe tcnica estadstica que prevea el nmero de clusters que deban utilizarse y
que dicha tcnica garantice en todos los casos resultados convincentes. ; algunas tcnicas
son: el criterio de Hartigan, el criterio de Mojena, el criterio cbico de conglomerados
(implantado en el paquete SAS), validacin de pliegue de cruz (en el paquete Statistica)..
Corresponde en ltima instancia al investigador elegir el nmero de clusters, a veces
mediante juicios a priori, premisas tericas, sentido comn, intuicin, etc. Muchas veces,
el nmero de clusters que el investigador determine mediante sentido comn apoyndose
en premisas tericas es una mejor decisin que el nmero de clusters que el programa
estadstico le proponga, pues el programa estadstico generalmente propone ese nmero a
partir de las varianzas de los datos, lo cual es un procedimiento que no siempre tiene
sustento prctico ni emprico.
a. Criterio de Hartigan:
Inicie con G (G es el nmero de grupos) =1 y luego G=2, G=3, etc. Y evaluando en cada caso el
cociente:
(n =numero de elementos)
e introduciendo un grupo ms mientras F sea mayor a 10.
b. Criterio de parada:
Considere el eje horizontal del dendograma (eje de las distancias el las que
se unen los clusters) y busque en ese eje la diferencia mayor (espacio mayor)
busque alguna diferencia significativa entre las uniones consecutivas de clusters.
En ese espacio trace una lnea vertical, observe cuntas ramificaciones parten
hacia la derecha de esa lnea, el nmero de ramificaciones es el nmero de
clusters a considerar. Este criterio se justifica con el argumento de que ese
espacio grande entre uniones de clusters revela que los clusters antes y despus
del mismo no son demasiado homogneos entre s.
7
Resolucin de los mtodos de optimizacin con Statistica
La resolucin de stos mtodos (en particular el mtodo de K medias) utilizando el paquete Statistica se puede resumir
en los siguientes puntos:
ANEXO:
Las variables que manejan valores ms grandes por lo general tienen mayor varianza
(mayor dispersin en sus valores) y por lo tanto tienen tambin mayor influencia en la
8
conformacin de los clusters. Si es evidente esta diferencia de varianzas entre las variables
puede entonces considerarse la estandarizacin de las variables antes del anlisis. Si se
considera que la diferencia de varianzas es un aspecto informativo que debe tomarse en
cuenta entonces no deberan estandarizarse. Si existe duda entonces la mejor decisin es no
estandarizar las variables. Para estandarizar las variables con Statistica entonces siga la siguiente ruta: Data
Standardize ( Elegir todas las variables numricas ) Ok