Sei sulla pagina 1di 9

ANLISIS DE CLUSTER.

El anlisis de Cluster (Cluster Analysis, con siglas CA) tiene como objetivo agrupar
cualquier conjunto de elementos en grupos homogneos llamados clusters, ( los elementos
de un mismo cluster son semejantes entre s, y los elementos de un cluster cualquiera no
son tan semejantes a los elementos de cualquier otro cluster).

Las tcnicas principales en CA se clasifican en:

Mtodos Jerrquicos.
Mtodos de optimizacin.

Para analizar el desarrollo de los mtodos jerrquicos de optimizacin se requiere en


principio comprender el concepto de distancia entre elementos.

Distancia entre elementos.

Cuando los elementos registran datos provenientes de variables numricas


cuantitativas, entonces las principales medidas de distancia entre elementos son:

Euclideana.

Cuando son slo dos las variables numricas entonces sta distancia viene dada por :

VAR. 1 VAR. 2

ELEMENTO A X1 Y1
ELEMENTO B X2 Y2

d AB = (X2-X1)2 +(Y2-Y1)2

Y es la distancia en lnea recta en el plano x y entre los puntos determinados por las
coordenadas (x1, y1) y (x2, y2).

Cuando son tres las variables numricas entonces sta distancia viene dada por :

VAR.1 VAR.2 VAR.3

ELEMENTO A X1 Y1 Z3
ELEMENTO B X2 Y2 Z3

d AB = (X2-X1)2 +(Y2-Y1)2+(Z2-Z1)2

1
Y es la distancia en lnea recta en el espacio xyz entre los puntos determinados por las
coordenadas (x1, y1, z1) y (x2, y2, z2).
La frmula euclideana de d AB se puede generalizar para ms de tres variables.

Es la distancia ms utilizada y arroja resultados bastante confiables en casi todos los


casos; se recomienda cuando se desconoce acerca de una distancia apropiada a utilizar.

Euclideana al cuadrado. Tiene la misma frmula que la medida anterior pero sin raz
cuadrada. Tiene la ventaja sobre aquella que en que utiliza menos clculos manuales para
obtenerse, pero es ms afectada por los datos atpicos (Datos
con valores extraos muy grandes, obtenidos por errores en las mediciones)

d AB = (X2-X1)2 +(Y2-Y1)2+(Z2-Z1)2

Chebichev : Es fuertemente afectada por datos atpicos. Toma slo en cuenta las
variables ms distanciadas entre s.
D AB = mayor de { (X2-X1 ) (Y2-Y1) (Z2-Z1) .........}

Mahalanobis: Esta distancia remueve la correlacin entre las variables. Es una de las
distancias ms utilizadas y con ms ventajas tericas y prcticas que las otras distancias.

No existe un consenso generalizado acerca de cul sea la mejor distancia, cada una
adolece de debilidades y cada una tiene propiedades deseables y ventajas. Unas distancias
pueden ser mejor que otras en ciertos casos pero en otros casos pueden no ser mejor. Ms
an, en ejemplos muy especficos donde se tiene control estricto de las condiciones y del
entorno, los grandes estadsticos no coinciden en la distancia que ellos consideran
apropiada. Esperemos que en un futuro cercano concreten acuerdos en este tipo de
opiniones y que los acuerdos se pasmen en artculos de investigacin y en libros. En el
presente, la literatura cientfica en este tema es todava escasa y laxa. No obstante, el
investigador, an si desconoce las caractersticas de las distancias, puede escoger alguna
de las distancias mas recomendadas; y puede perder cuidado, puede dejarse de preocupar
acerca de la conveniencia de esa eleccin, pues seguramente la distancia elegida le
redituar resultados satisfactorios. Puede, casi sin objecin alguna, utilizar la distancia de
mahalanobis la euclideana.

MTODOS JERRQUICOS

Para comprender el desarrollo de los mtodos jerrquicos conviene previamente


comentar acerca de los distintos mtodos que se utilizan para definir la distancia entre dos
clusters cualquiera. Los mtodos ms comunes que miden la distancia entre clusters son:

2
a) Vecino ms cercano (Single linkage, nearest neighbor)
Con ste mtodo la distancia entre dos clusters se define como la distancia
entre los elementos ms cercanos entre s (cada elemento pertenece a cada
cluster), con l se da lugar a crear clusters alargados y a veces deformes, y no
muy homogneos. Es poco afectado por los datos atpicos. Tiene tendencia a
producir dendogramas en forma de cadena. Aunque han adquirido cierta
popularidad en taxonoma no se recomienda su uso (* ver nota ) .
b) Vecino ms lejano enlace completo . (Complete linkage, furthest
neighbor)
Con ste mtodo la distancia entre dos clusters se define como la distancia
entre los elementos ms lejanos entre s (cada elemento pertenece a cada
cluster),
con l se tiende a crear clusters de similar tamao y variabilidad. Es tambin
menos sensible a datos atpicos que el mtodo anterior
c) Vinculacin intergrupos inponderado (Unweighted pair-group average)
Con ste mtodo la distancia entre dos clusters se define como el promedio
de todas las distancias entre cada par de elementos (donde cada par se entiende
el conformado por un elemento de cada uno de esos clusters). Es comn en
ecologa y taxonoma. Tiende a producir cluster ms o menos esfricos y con
varianzas que pueden diferir de manera significativa entre ellos.
d) Vinculacin intergrupos ponderado (Weighted pair-group average)
ste mtodo es muy similar al anterior salvo elimina la influencia de los
tamaos de los clusters en el orden de integracin de ellos.
e) Centroide intergrupos inponderado. (Unweighted pair-group centroid)
En este mtodo, la distancia entre dos clusters es determinada como la
diferencia entre centroides. ( El centroide de un cluster es el punto medio en el
espacio multidimensional definido por las dimensiones).Es popular entre los
bilogos. Junto con el de Ward, se ve menos afectado por datos atpicos que los
dems mtodos.
f) Ward.
ste mtodo une los clusters cuya unin conlleve el menor incremento de
varianza. Este mtodo tiende a unir los clusters con menor nmero de
observaciones, y resultar dichos clusters de tamao y forma similar. Junto con
el e), se ve menos afectado por datos atpicos que los dems mtodos. Es
quizs el mtodo ms utilizado.

(* nota: En la literatura se le critica esta desventaja al mtodo single linkage,; no obstante , Everitt (1993),
desarroll un ejemplo donde este mtodo fue el nico que acert para encontrar los acertados clusters con varias
variables binarias. Los mtodos del centroide y ward crearon inapropiados clusters esfricos en ese ejemplo. )

DESARROLLO DE LOS MTODOS JERRQUICOS

Una vez comprendidos los conceptos de distancia entre elementos y entre clusters
estamos en condiciones de analizar el desarrollo ordinario de los mtodos jerrquicos.

3
La caracterstica distintiva de los mtodos jerrquicos, en comparacin a los mtodos de
optimizacin, es que la decisin del nmero de clusters a considerar es una decisin que se
toma slo despus del desarrollo del procedimiento.
Los mtodos jerrquicos se subdividen en aglomerativos y divisivos. Los
aglomerativos inician el desarrollo considerando cada elemento como un cluster y luego
van agrupando esos elementos en nuevos clusters, gradualmente los clusters vienen a ser
ms grandes por las fusiones entre ellos, hasta conformar un solo cluster que es el
conjunto de todos los elementos. En los divisivos, se considera en un inicio el conjunto de
elementos como un slo cluster, luego se parte este conjunto en clusters ms pequeos, de
manera gradual se parten luego en ms pequeos, hasta que cada cluster est conformado
por un solo elemento. Los primeros requieren mucho menos clculos que los segundos y
son ms populares; por ello, el presente apunte estar solamente dirigido al estudio de los
mtodos aglomerativos.

Pasos para desarrollar:


1. Elija una de las distancias entre elementos y escoja una de las distancias entre clusters.
2. Considere que, inicialmente, cada uno de los elementos es un cluster, luego proceda a unir el par de elementos
ms cercanos entre s ( esa cercana se mide en trminos de la distancia entre elementos elegida en el paso 1 ).
De esta forma se conforma un cluster formado por dos elementos.
3. Considere que uno de los clusters existentes es el referido en el paso 2) que est formado por dos elementos,
Proceda a unir de nuevo el par de clusters ms cercanos entre s. La distancia entre clusters formados por
elementos individuales es la distancia entre elementos elegida en el paso 1, pero la distancia entre el cluster
formado en el paso 2) y cualquier otro cluster es una distancia entre clusters.
4. Prosiga con el procedimiento de unin de clusters; el historial secuencia de uniones se representa mediante
una grfica llamada dendograma; en sta grfica se visualizan adems las distancias en las que se concretaron
las fusiones entre pares de clusters.
5. Decida el nmero de clusters a considerar.
6. En el dendograma deslice hacia la izquierda una lnea vertical imaginaria que corte las ramificaciones
horizontales del mismo, hasta que se ramifiquen (a partir del corte) el nmero de clusters a utilizar. En el
dendograma se visualizarn todos los elementos que conforman esos clusters definidos.

Los pasos 2 y 3 son resueltos comnmente con el ordenador, el ordenador tambin despliega el dendograma y el
paso 6 es resuelto por el lector auxiliado del ordenador.

Resolucin de los mtodos jerrquicos con Statistica

La resolucin de stos mtodos utilizando el paquete Statistica se puede resumir en los siguientes puntos:

Elegir la opcin Cluster Analysis de Multivariate Exploratory Techniques del comando


Statistics de la barra de herramientas:
Elegir Joining (Tree clustering)
Presionar el botn Variables:
Sealar las variables
Presionar OK:
Elegir Cases (rows) para especificar que los elementos se vaciaron en filas y no en
columnas. Elegir tambin la estrategia de unin y la distancia a emplear y presionar
OK:
Segn los requerimientos , elegir las opciones como Horizontal hierarchical tree plot,
Amalgation Schedule, Graph of amalgation schedule, etc.

4
Un dendograma cualquiera viene a ser el siguiente:

Recuerde que el dendograma es el historial secuencia de uniones de los clusters.


Por ejemplo, el elemento 1 (C_1) se uni con el elemento 5 (C_5) para formar un
cluster, dichos elementos estaban inicialmente entre s a una distancia de unas 8
unidades. Luego ste nuevo cluster se uni con el elemento 4 (C_4) para formar otro
cluster ms grande, ambos estaban a una distancia de unos 12 .5 unidades, etc.

En el dendograma deslice hacia la izquierda una lnea vertical que corte las
ramificaciones horizontales hasta que se ramifiquen (a partir del corte) el nmero de
clusters a considerar. ( En el subcaptulo de Metodos de Optimizacin hablaremos de las
algunas tcnicas empleadas para elegir el nmero de clusters ) . Si deseamos considerar 4
clusters entonces esa lnea vertical se puede distinguir en el siguiente diagrama, adems
se distinguen los 4 clusters, que son los conjuntos de elementos encerrados en curvas en
la parte izquierda del diagrama:

Como distinguir, el elemento 9 (C_9 ) es un elemento que por s slo conforma un


cluster, lo mismo sucede con el elemento 10. Otro cluster lo integran los elementos 1, 5,
4 y 24 y el resto de elementos se agrupan en un cluster ms grande.

5
MTODOS DE OPTIMIZACIN

En ellos se fija desde un principio el nmero de cluster a utilizar. En vista del vasto
nmero de mtodos de optimizacin slo abordaremos el mtodo que es el ms
utilizado, el mtodo de:

K- MEDIAS

Pasos para desarrollar:


1. Fijar el nmero de cluster a utilizar, no existe tcnica estadstica que prevea el nmero de clusters que deban
utilizarse y que dicha tcnica garantice en todos los casos resultados convincentes. Adems muchas de esas tcnicas
requieren ensayos previos de los mtodos jerrquicos; algunas tcnicas son: el criterio de Hartigan, el criterio de
Mojena, el criterio cbico de conglomerados (implantado en el paquete SAS), validacin de pliegue de cruz (en el
paquete Statistica). Se hablar de esas tcnicas ms adelante. Corresponde en ltima instancia al investigador elegir
el nmero de clusters, a veces mediante juicios a priori, premisas tericas, sentido comn, etc.
2. Escoger una medida de distancia entre elementos, pues a partir de stas se calcularn distancias D AB en el paso
4.
3. Ubicar los centroides de clusters (cc) iniciales, existen varias formas para ello:
a. Los cc son escogidos al azar de entre todos los elementos.
b. Se escogen como cc a elementos muy distantes entre s y preferentemente mas menos equidistantes
entre s.
c. Los primeros elementos de la lista vienen a ser los cc.

4. Calcular las distancias DAB entre cada elemento y cada cc, se asigna cada elemento al cluster cuyo cc sea ms
cercano. ( Empezando por los elementos ms cercanos, Cada vez que se integra un elemento a un cluster, se
recalcula el centroide del cluster ).
5. Cuando se han asignada todos los elementos a cualquiera de los clusters, entonces se prueba el siguiente criterio
de optimizacin:

Se prueba si cambiando algn elemento de cluster se reduce la suma de cuadrados dentro de grupos (SCDG), si
se reduce entonces lo cambia y se recalculan los cc de los clusters afectados y regresamos al paso 4; si no se logra
cambiar entonces termina el proceso.

G p ng
SCDG = ( x i j g x j g ) 2
g=1 j=1 i=1

G = nmero de grupos
p = nmero de variables
n g =nmero de elementos en el grupo g-simo.

Los pasos 3, 4 y 5 los resuelve de manera exclusiva el ordenador, los pasos 1 y 2 los determina el lector
informndole al ordenador sus decisiones.

6
Cuntos clusters utilizar?

No existe tcnica estadstica que prevea el nmero de clusters que deban utilizarse y
que dicha tcnica garantice en todos los casos resultados convincentes. ; algunas tcnicas
son: el criterio de Hartigan, el criterio de Mojena, el criterio cbico de conglomerados
(implantado en el paquete SAS), validacin de pliegue de cruz (en el paquete Statistica)..
Corresponde en ltima instancia al investigador elegir el nmero de clusters, a veces
mediante juicios a priori, premisas tericas, sentido comn, intuicin, etc. Muchas veces,
el nmero de clusters que el investigador determine mediante sentido comn apoyndose
en premisas tericas es una mejor decisin que el nmero de clusters que el programa
estadstico le proponga, pues el programa estadstico generalmente propone ese nmero a
partir de las varianzas de los datos, lo cual es un procedimiento que no siempre tiene
sustento prctico ni emprico.

Nosotros abordaremos las tcnicas siguientes:

a. Criterio de Hartigan:

Inicie con G (G es el nmero de grupos) =1 y luego G=2, G=3, etc. Y evaluando en cada caso el
cociente:

F = [ SCDG (G) SCDG (G+1) ] / [ SCDG (G+1) / (n-G-1) ]

(n =numero de elementos)
e introduciendo un grupo ms mientras F sea mayor a 10.

b. Criterio de parada:

Considere el eje horizontal del dendograma (eje de las distancias el las que
se unen los clusters) y busque en ese eje la diferencia mayor (espacio mayor)
busque alguna diferencia significativa entre las uniones consecutivas de clusters.
En ese espacio trace una lnea vertical, observe cuntas ramificaciones parten
hacia la derecha de esa lnea, el nmero de ramificaciones es el nmero de
clusters a considerar. Este criterio se justifica con el argumento de que ese
espacio grande entre uniones de clusters revela que los clusters antes y despus
del mismo no son demasiado homogneos entre s.

c. El criterio de validacin cruzada de pliegues, hallado en Statistica,


para emplearse siga la ruta: Statistics Data Mining k-Means Cluster Analysis
Validation V fold cross-validation Ok
d. Criterio Cbico de conglomerados , hallado en el paquete SAS.
e. La pseudoestadstica T2 de Hotelling, integrada en SAS
f. Estadstica F de Beale.(no se ha hallado en ningn paquete
comercial).

7
Resolucin de los mtodos de optimizacin con Statistica

La resolucin de stos mtodos (en particular el mtodo de K medias) utilizando el paquete Statistica se puede resumir
en los siguientes puntos:

Elija la opcin k-Means Cluster Analysis de Data Mining de la barra de herramientas


En el siguiente cuadro presione Variables:
Elija las variables cualitativas (Categorical Variable) y las variables numricas
(Continuous variables) y presione OK:
En el siguiente cuadro especifique el nmero de clusters que desea trabajar.
Presione la pestaa de k- Means:
Elija el tipo de eleccin de los centroides iniciales y el tipo de distancia entre clusters.
Segn los requerimientos , en el siguiente cuadro elegir opciones como Cluster
distances, Graph of continuous variable means , Sort by cluster number.
En el cuadro anterior presionar la pestaa de Advanced.
En el nuevo cuadro presionar Frequency table y Graph of distributions y
opcionalmente Analysis of variance.

ANEXO:

Cules mtodos utilizar, de optimizacin jerrquicos?

Los mtodos jerrquicos fueron excepcionalmente populares a principios del siglo


pasado; para muestras pequeas stos mtodos requieren pocos clculos; no obstante
cuando la muestra es muy grande (mayor de 1000 elementos) el nmero de clculos
requeridos aumenta de manera desproporcionada de forma que el procedimiento puede
averiarse con computadores ordinarios. stos mtodos presentan tambin el
inconveniente que las combinaciones iniciales indeseables mantienen sus efectos a lo largo
del anlisis y pueden dar lugar a resultados distorsionados.

Los mtodos de optimizacin han ganado paulatinamente popularidad; son menos


susceptibles a los datos atpicos, a la medida de distancia utilizada y a la inclusin de
variables irrelevantes. Existe un moderado consenso de opinin en el sentido de que stos
mtodos con cc iniciales aleatorios son menos convincentes que los jerrquicos, y que
stos mtodos con cc iniciales acertadamente escogidos pueden ser mejores que los
jerrquicos.

Una combinacin de ambos mtodos

Algunos expertos sugieren utilizar en un principio un mtodo jerrquico para definir el


nmero de clusters y la ubicacin grfica de los cc; luego emplear esta informacin en la
utilizacin de un mtodo de optimizacin con el mismo nmero de clusters y con los
mismos cc iniciales ya definidos.

Deben estandarizarse las variables numricas antes del anlisis de cluster?

Las variables que manejan valores ms grandes por lo general tienen mayor varianza
(mayor dispersin en sus valores) y por lo tanto tienen tambin mayor influencia en la

8
conformacin de los clusters. Si es evidente esta diferencia de varianzas entre las variables
puede entonces considerarse la estandarizacin de las variables antes del anlisis. Si se
considera que la diferencia de varianzas es un aspecto informativo que debe tomarse en
cuenta entonces no deberan estandarizarse. Si existe duda entonces la mejor decisin es no
estandarizar las variables. Para estandarizar las variables con Statistica entonces siga la siguiente ruta: Data
Standardize ( Elegir todas las variables numricas ) Ok

Potrebbero piacerti anche