Analisis de Cluster - Analisis de Cluster (Joaquin Manzano)

El anlisis cluster
J oaqun Alds Manzano

1
Universitat de Valncia
Dpto. de Direccin de Empresas Juan Jos Renau Piqueras
1
Estas notas son una seleccin de aquellos textos que, bajo mi punto de vista, mejor abordan
el tema analizado. Sus autores aparecen citados al principio de cada epgrafe, y a ellos hay
que referirse cuando se citen los contenidos de estas notas. Mi nica tarea ha sido la de selec-
cionar, ordenar y, en algunos casos traducir los textos originales.
El anlisis cluster
1. Qu es el anlisis cluster?
(Ferrn, 1996)
Dada una muestra de observaciones en un conjunto grande de variables
cuantitativas, el anlisis de conglomerados es una tcnica para agrupar a los
elementos de la muestra en grupos, denominados conglomerados (clusters), de
tal forma que, respecto a la distribucin de los valores de las variables, por un
lado, cada conglomerado sea lo ms homogneo posible y, por otro, los conglo-
merados sean muy distintos entre s.
La forma ms intuitiva de entender esta definicin puede ser mediante un
ejemplo tomado de Johnson y Wichern (1998). Supongamos que queremos
clasificar a 11 idiomas distintos: ingls (E), noruego (N), dans (Da), holands
(Du), alemn (D), espaol (Sp), italiano (I), polaco (P), hngaro (H) y finlan-
ds (Fi) segn se parezcan ms o menos unos a otros. Para ello, analizamos
cmo se deletrean los nmeros uno al diez en cada uno de los idiomas y
tomaremos como medida de similitud cuntos de estos nmeros comienzan por
la misma letra en distintos idiomas. El cuadro 1 ofrece la informacin de parti-
da:
Cuadro 1. Nmeros en 11 idiomas
kymmenen tiz dziesiec dieci diez diz zehn tien ti ti ten
yhdeksan kilenc dziewiec nove nueve neuf neun negen ni ni nine
kahdeksan nyolc osiem otto ocho huit acht acht otte atte eight
seitseman het siedem sette siete sept sieben zeven syv sju seven
kuusi hat szesc sei seis six sechs zes seks seks six
viisi ot piec cinque cinco cinq funf vijf fem fem five
neua negy cztery quattro cuatro quatre vier vier fire fire four
kolme harom trzy tre tres trois drei drie tre tre three
kaksi ketto dwa due dos deux zwei twee to to two
yksi egy jeden uno uno un eins een en en one
FI H P I SP FR G DU DA N E
y el cuadro 2 el nmero de concordancias:
Joaqun Alds Manzano
Anlisis cluster 2
Cuadro 2. Nmero de primeras letras concordantes
10 2 1 1 1 1 1 1 1 1 1 FI
10 0 0 0 0 1 2 2 2 1 H
10 6 7 5 2 0 4 3 3 P
10 9 9 3 1 5 4 4 I
10 8 3 1 5 4 4 SP
10 3 1 4 4 4 FR
10 5 5 6 4 G
10 4 5 3 DU
10 9 8 DA
10 8 N
10 E
FI H P I SP FR G DU DA N E
Para entender esta tabla, comentaremos el caso del espaol (Sp) y el ingls
(E). El nmero de concordancias es 4, que corresponden a los nmeros tres
(three), seis (six), siete (seven) y nueve (nine). A simple vista, ya se observa que
hay idiomas que tienen un nmero muy alto de concordancias, como es el caso
del ingls, el noruego y el dans y otros que se parecen muy poco a todos los
dems, como el finlands o el hngaro. Pues bien, el anlisis cluster, nos permi-
tir analizar de una manera ms objetiva estas similitudes y diferencias,
haciendo grupos de idiomas que se parecern mucho entre s y que diferirn lo
mximo posible unos de otros.
El grfico que nos permitir identificar adecuadamente estos grupos, es el
llamado dendograma. El correspondiente al ejemplo que acabamos de poner es
el siguiente:
Joaqun Alds Manzano
Anlisis cluster 3
Grfico 1. Dendograma
Dendrogram using Ward Method
Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
SP 7 -+
I 8 -+---+
FR 6 -+ +-------------------------------------------+
P 9 -----+ I
H 10 ---------+---------------------------+ I
FI 11 ---------+ I I
N 2 -+ +-----------+
DA 3 -+-------------+ I
E 1 -+ +---------------------+
DU 4 -----+---------+
G 5 -----+
En este dendograma podemos observar que, en un primer momento, son
agrupadas entre s, por ser las lenguas ms cercanas el espaol, italiano y
francs en un grupo y el noruego, dans e ingls en otro. En una segunda
etapa se asocian el alemn y el holands y se une el polaco al grupo del
espaol. En la medida en que queramos ser menos precisos con la clasificacin,
podemos desplazarnos hacia la derecha en la escala de distancias reescaladas y,
si lo hacemos, podremos agrupar al holands y alemn con el grupo del norue-
go, juntar el hngaro con el finlands e incluso, incluir en un solo grupo al
noruego, dans, ingls, holands, hngaro y finlands.
En ltimo trmino, encontraramos un grupo con todos los idiomas juntos.
Esta es una caracterstica muy importante del anlisis cluster. En un momento
determinado, el investigador ha de intervenir para determinar cual es, en su
opinin, el nmero de grupos ms adecuado entre que cada idioma sea un
grupo en s mismo o que todos pertenezcan al mismo grupo. En el desarrollo
del tema veremos como tomar esta decisin.
Joaqun Alds Manzano
Anlisis cluster 4
2. Un ejemplo de aplicacin del anlisis cluster
(Hair, Anderson, Tatham y Black, 1995)
Mantendremos en el desarrollo del anlisis cluster, los mismos pasos que hemos
venido siguiendo en temas anteriores y que son los seis que debe seguir el
establecimiento de cualquier modelo multivariante. Ilustraremos cada uno de
ellos con la aplicacin de un anlisis cluster a la base de datos de ejemplo de
HATCO.
Paso 1. Objetivos del anlisis cluster
El principal objetivo del anlisis cluster es dividir un conjunto de objetos en
dos o mas grupos, basndose en la similitud de un conjunto de variables que
los caracterizan. El uso ms tradicional del anlisis cluster ha sido el explorato-
rio, es decir, pretendiendo clasificar un conjunto de objetos. Pero el anlisis
cluster tambin puede utilizarse con fines confirmatorios. Si en base a los
fundamentos tericos del problema que estamos analizando, podemos suponer
que existe determinada estructura que siguen los individuos, sta puede compa-
rarse con la que se deriva del anlisis cluster.
En nuestro caso de ejemplo, podemos aplicar el anlisis cluster para uno de sus
usos ms habituales, el establecimiento de segmentos del mercado. Trataremos
de establecer grupos de clientes de HATCO, atendiendo a la imagen que tienen
de esta empresa de acuerdo con los habituales siete atributos X1 a X7. Nuestro
objetivo es segmentar a los clientes en grupos con percepciones similares de
HATCO. Si esto se lograra se podra, por ejemplo, formular distintas estrate-
gias de comunicacin para cada uno de ellos.
La seleccin de las variables que van a incluirse en el anlisis cluster debe
hacerse atendiendo tanto a cuestiones tericas como prcticas, es decir, debe
basarse tanto en la revisin de la literatura sobre el tema, como en investigacio-
nes pasadas. En todo caso, deben incluirse aquellas variables que: (1) caracteri-
cen a los objetos que van a clasificarse y (2) estn vinculadas a los objetivos de
la clasificacin. Es muy importante saber que el anlisis cluster no tiene forma
de saber qu variables son relevantes y cules no (no disponemos de coeficien-
tes con tests de significatividad). El anlisis cluster forma los grupos
atendiendo a todas las variables. El incluir variables irrelevantes, aumenta la
probabilidad de que aparezcan outliers que afecten a los resultados. Es muy
importante que el investigador revise los resultados para eliminar aquellas
variables que no difieran significativamente entre los grupos formados.
Joaqun Alds Manzano
Anlisis cluster 5
En nuestro caso, los anlisis anteriores que hemos realizado sobre la base de
datos de HATCO, parecen confirmar la relevancia de las variables
introducidas, sin embargo, no debe descartarse eliminar alguna que no difiera
entre los grupos formados.
P aso 2. Desarrollo del plan de anlisis
Una vez definidos los objetivos y seleccionadas las variables, el investigador
debe tomar tres decisiones antes de comenzar el proceso de anlisis:
1. Existen outliers? y si existen, deben ser eliminados?
2. Qu medida de la similitud entre los objetos debe utilizarse?
3. Deben estandarizarse los datos?
Debemos decir que no hay por lo general una respuesta definitiva para todas
estas preguntas y, segn el procedimiento que apliquemos, puede llegarse a
resultados diferentes con la misma base de datos. Al igual que ocurra con el
anlisis factorial, el anlisis cluster tiene, en algunos momentos, algo ms de
arte que de ciencia.
El anlisis cluster, como hemos dicho, es muy sensible a la existencia de outliers
(casos que son muy distintos de otros). Los outliers pueden representar, o bien
casos que de verdad difieren de la media de la poblacin, o bien que en nuestro
proceso de seleccin muestral hemos infrarrepresentado un segmento de pobla-
cin determinado.
Un procedimiento habitual de deteccin es la distancia D
2
de Mahalanobis, que
es una medida de la distancia en un espacio multidimensional de cada observa-
cin del centro (media) de todas las observaciones. Esta medida tiene propieda-
des estadsticas que permiten analizar la significatividad de las diferencias
detectadas. Se recomienda ser muy exigente en el nivel de significacin exigido
para clasificar a una observacin como outlier: 0.01. Otra alternativa es recurrir
a grficos que representen los valores que toman cada variable en los distintos
casos y ver si existe alguno con patrones muy distintos, pero para un nmero
importante de casos, este procedimiento puede ser farragoso.
La siguiente decisin es elegir la medida de similaridad que vaya a utilizarse.
Hemos dicho que dos objetos se podrn en un mismo grupo si estn cerca
uno de otro respecto a las variables que empleemos. Pero esa distancia debe ser
medida de alguna manera. Existen muchas medidas de la distancia. La ms
comn es la distancia eucldea o variaciones de la misma como la distancia
eucldea al cuadrado que es la recomendada en algunos mtodos como el de
Joaqun Alds Manzano
Anlisis cluster 6
Ward, dado que al no calcular la raz cuadrada facilita los clculos del ordena-
dor. Estas medidas se caracterizan porque no utilizan datos estandarizados y
plantean el problema de que pueden dar soluciones muy distintas con slo
cambiar la escala de medida de una variable determinada (pasar el tiempo de
minutos a segundos, por ejemplo). Por ello, si conceptualmente es posible,
debera estandarizarse los datos antes de aplicar este tipo de escalas, como
discutiremos ms tarde.
Existe otra medida de distancia, la distancia de Mahalanobis que incorpora
directamente un procedimiento de estandarizacin de los datos. Tiene el
problema, sin embargo, de que en caso de que exista un grupo de variables
muy correlacionadas, estas tengan un peso desproporcionado en la formacin
de los grupos.
En general, la recomendacin es que, dado que distintas medidas de distancia
pueden conducir a diferentes resultados del anlisis cluster, deben emplearse
varias y comparar los resultados buscando los que sean conceptualmente ms
coherentes. En el caso de que no se detecten correlaciones significativas entre
grupos de variables, la distancia de Mahalanobis es muy recomendable.
La tercera decisin que debe adoptarse, y que ya hemos apuntado, es si deben
o no estandarizarse los datos antes de aplicar el anlisis cluster. Recordemos
que muchas medidas de distancias son muy sensibles a variaciones de escala o
magnitud entre variables. As, por ejemplo, si quisiramos agrupar a los indivi-
duos por su edad, nivel de ingresos y actitud hacia un producto (medido en
una escala de 1 a 7), la mayor dispersin provendra del nivel de ingresos y
ocultara las diferencias de edad y de actitud hacia el producto. La forma ms
lgica de proceder es estandarizar las variables, es decir, restarles a cada una de
las puntuaciones su media y dividir por la desviacin tpica.
En nuestro ejemplo de HATCO no tiene sentido utilizar la distancia de
Mahalanobis porque ya detectamos elevadas correlaciones entre algunas varia-
bles y no hemos aplicado ningn tipo de estandarizacin, porque todas ellas
estaban medidas en una misma escala, como vimos en el primer tema.
Paso 3. Condiciones de aplicabilidad del anlisis cluster
El anlisis cluster, no pretende inferir resultados de una muestra hacia una
poblacin, sino slamente agrupar objetivamente por similitud los casos que
estemos investigando. Por tanto, aunque tiene fundamentos matemticos
Joaqun Alds Manzano
Anlisis cluster 7
complejos, no son demasiado relevantes las propiedades estadsticas de normali-
dad, linealidad y homoscedasticidad. El investigador, por el contrario, debe
prestar especial atencin a otros dos aspectos: la representatividad de la
muestra y la multicolinealidad.
El investigador debe ser consciente de que un anlisis cluster es tan bueno
como representativa sea la muestra a la que se ha aplicado, por lo tanto debe
prestarse tanta atencin como sea posible a llevar a cabo un muestreo adecua-
do. La eliminacin de outliers, es tambin muy importante para un buen anli-
sis cluster.
La multicolinealidad afecta muchsimo a los resultados porque, como hemos
indicado, aquellas variables que estn afectadas de esta propiedad tendrn una
influencia mayor en el establecimiento de los grupos. Vemoslo con un ejemplo.
Supongamos que queremos clasificar a una poblacin atendiendo a diez varia-
bles, ocho de las cuales tienen mucho que ver unas con otras (llevando el
ejemplo al extremo: el nivel de estudios y el nmero de aos de estudio...) y las
otras dos son independientes de las anteriores. Como el anlisis cluster pondera
a todas las variables por igual, el grupo de ocho, que no estn midiendo ocho
cosas distintas, sino la misma realidad, tendrn un peso muy superior a las
otras dos. Por este motivo el investigador debe cuidar de analizar la multicoli-
nealidad, tal y como describimos en el tema 1 y cuidarse de utilizar medidas de
distancia muy sensibles a esta propiedad, como la de Mahalanobis.
En nuestro ejemplo, supusimos que la muestra de encuestados de HATCO
estaba seleccionada correctamente y, como vimos en el tema 1, no se detecta-
ron problemas de multicolinealidad significativos.
Paso 4. Estimacin del modelo y ajuste global.
Para comenzar el proceso de agrupacin en el anlisis cluster, es necesario
elegir entre los distintos procedimientos disponibles, y esta no es una decisin
sencilla, porque existen muchsimos. El criterio general de todos ellos es
maximizar la distancia entre los grupos que se formen y minimizar la distancia
entre los distintos elementos de cada grupo, como se ilustra en la figura 2.
Joaqun Alds Manzano
Anlisis cluster 8
Figura 2 Ejemplo de distancias intra y entre clusters

Vari aci n entre cl usters
Vari aci n i ntra cl usters
En los mtodos jerrquicos, el anlisis comienza con tantos conglomerados
como individuos (cada individuo es un conglomerado inicial). A partir de estas
unidades iniciales se van formando nuevos conglomerados de forma ascendente
agrupando en cada etapa a los individuos de los dos conglomerados ms prxi-
mos. Al final del proceso todos los individuos estarn agrupados en un nico
conglomerado. La diferencia entre los diversos mtodos reside en la distancia
considerada para medir la proximidad entre conglomerados. Como ejemplo, en
el promedio entre grupos se define la distancia entre dos conglomerados como
el promedio de las distancias entre todos los pares de individuos, en los que
cada componente del par pertenece a un conglomerado distinto. Si el nmero
de individuos y variables es muy alto, requiere un nmero de clculos muy
elevados.
En los mtodos no jerrquicos, primero se determina el nmero de cluster que
se desea. As, una solucin de seis cluster no se forma al agrupar dos cluster de
la solucin de siete, sino que se busca la mejor solucin de seis clusters. Estos
mtodos necesitan que se les diga cual es el centroide inicial de cada conglome-
rado y el programa incluye todos los individuos que estn a una distancia
preestablecida de ese centro. A continuacin se calcula de nuevo el centro del
conglomerado con los individuos que se le han sumado y vuelve a incluir a los
individuos que estn a la distancia fijada. El procedimiento se detiene cuando
se d alguno de los criterios de parada. El principal problema de estos mtodos
es cmo seleccionar el centroide inicial.
Joaqun Alds Manzano
Anlisis cluster 9
Qu metodo utilizar? la recomendacin general es: ambos. Primero utilicemos
un mtodo jerrquico para establecer el nmero de clusters, una aproximacin
de los centroides y detectar los outliers. A continuacin con esta informacin
de partida se puede llevar a cabo un anlisis no jerrquico.
La ltima decisin era decidir cuntos conglomerados elegir. Ya se ha dicho
que no hay una solucin objetiva, sino que depende del criterio del investigador
y este criterio suele indicar: aquella solucin que sea ms coherente con la
lgica o los fundamentos tericos del problema.
Apliquemos lo expuesto al ejemplo de HATCO. En primer lugar llevaremos a
cabo un anlisis jerrquico mediante la siguiente sintaxis:
CLUSTER x1 x2 x3 x4 x5 x6 x7
/METHOD WARD
/MEASURE= SEUCLID
/PRINT SCHEDULE
/PLOT DENDROGRAM
/SAVE CLUSTER(2,5) .
La primera salida que obtenemos es el historial de conglomeracin que debe
leerse de la siguiente forma: en primer lugar, ha combinado los casos 15 y 20 y
que no volver a agruparse con otro hasta la etapa 60 en que se junta con el
19. En segundo lugar se han unido los casos 5 y 42 que en la etapa 94 se han
juntado con el caso nmero 7 y as sucesivamente. El historial nos proporciona
un coeficiente que, si toma un valor pequeo, indica que los casos que se han
unido eran parecidos y, por ello, no ha sido necesario realizar un gran esfuerzo
para unirlos. Cuando este coeficiente aumenta, quiere decir que la unin es ms
artificial.
La mejor forma de visualizar este historial de conglomeracin, es mediante el
dendograma, que aparece en la siguiente figura.
Joaqun Alds Manzano
Anlisis cluster 10
15 20 ,000 0 0 60
5 42 ,005 0 0 94
24 27 ,010 0 0 74
47 61 ,020 0 0 78
19 28 ,040 0 0 60
67 90 ,070 0 0 39
18 92 ,105 0 0 65
51 77 ,140 0 0 72
33 62 ,175 0 0 63
36 41 ,210 0 0 45
85 87 ,260 0 0 69
65 79 ,310 0 0 68
43 46 ,360 0 0 76
25 44 ,410 0 0 63
38 63 ,475 0 0 54
69 81 ,555 0 0 52
94 98 ,650 0 0 73
56 91 ,745 0 0 66
50 72 ,840 0 0 52
75 99 ,950 0 0 62
16 73 1,060 0 0 61
37 48 1,170 0 0 58
1 95 1,291 0 0 72
11 100 1,416 0 0 69
4 89 1,556 0 0 62
84 88 1,696 0 0 45
2 83 1,836 0 0 82
29 78 1,976 0 0 61
3 71 2,116 0 0 75
23 32 2,256 0 0 66
17 64 2,446 0 0 83
12 76 2,661 0 0 67
8 68 2,876 0 0 70
9 74 3,141 0 0 55
52 60 3,431 0 0 57
10 34 3,766 0 0 43
26 59 4,116 0 0 64
49 97 4,536 0 0 81
7 67 5,006 0 6 77
13 21 5,526 0 0 51
82 93 6,051 0 0 91
40 54 6,576 0 0 53
10 30 7,108 36 0 50
66 80 7,643 0 0 59
36 84 8,200 10 26 70
22 55 8,760 0 0 71
6 70 9,420 0 0 57
45 86 10,250 0 0 53
39 96 11,090 0 0 68
10 53 11,976 43 0 56
13 35 13,036 40 0 71
50 69 14,479 19 16 65
40 45 15,981 42 48 73
14 38 17,570 0 15 59
9 58 19,225 34 0 67
10 31 21,272 50 0 58
6 52 23,527 47 35 88
10 37 25,880 56 22 75
14 66 28,256 54 44 80
15 19 30,716 1 5 77
16 29 33,191 21 28 78
4 75 35,726 25 20 74
25 33 38,548 14 9 64
25 26 41,579 63 37 84
18 50 44,890 7 52 76
23 56 48,557 30 18 87
9 12 52,290 55 32 80
39 65 56,225 49 12 89
11 85 60,263 24 11 87
8 36 64,375 33 45 83
13 22 68,591 51 46 90
1 51 73,077 23 8 84
40 94 77,881 53 17 85
4 24 82,779 62 3 82
3 10 88,128 29 58 79
18 43 93,517 65 13 92
7 15 98,971 39 60 86
16 47 104,829 61 4 90
3 57 111,619 75 0 91
9 14 118,524 67 59 81
9 49 126,001 80 38 86
2 4 134,767 27 74 85
8 17 143,869 70 31 88
1 25 156,705 72 64 92
2 40 170,246 82 73 89
7 9 185,576 77 81 94
11 23 201,096 69 66 93
6 8 218,427 57 83 93
2 39 236,097 85 68 96
13 16 258,717 71 78 95
3 82 281,415 79 41 97
1 18 305,053 84 76 95
6 11 333,106 88 87 96
5 7 364,923 2 86 98
1 13 398,113 92 90 98
2 6 446,314 89 93 97
Etapa
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
Conglomerado
1
Conglomerado
2
Conglomerado que se combina
Coeficientes
Conglomerado
1
Conglomerado
2
Etapa en la que el conglomerado
aparece por primera vez
Prxima
etapa
Historial de conglomeracin
Joaqun Alds Manzano
Anlisis cluster 11
Figura 5.2. Dendograma
* * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * *
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
15 -+
20 -+
19 -+
28 -+-+
67 -+ I
90 -+ I
7 -+ +-+
49 -+ I I
97 -+ I I
66 -+-+ I
80 -+ I
38 -+ I
63 -+ +-------+
14 -+ I I
12 -+ I I
76 -+ I I
9 -+ I I
74 -+ I I
58 -+ I I
5 -+---+ I
42 -+ I
22 -+ +-----------------------------------+
55 -+-+ I I
13 -+ I I I
21 -+ +-+ I I
35 -+ I I I I
47 -+ I I I I
61 -+-+ I I I
16 -+ I I I
73 -+ I I I
29 -+ I I I
78 -+ +-------+ I
43 -+ I I
46 -+-+ I I
18 -+ I I I
92 -+ I I I
69 -+ I I I
81 -+ I I I
50 -+ +-+ I
72 -+ I I
26 -+ I I
59 -+ I I
33 -+ I I
62 -+ I I
25 -+-+ I
44 -+ I
51 -+ I
77 -+ I
1 -+ I
95 -+ I
82 -+-+ I
93 -+ I I
3 -+ I I
71 -+ +-------+ I
37 -+ I I I
48 -+ I I I
10 -+ I I I
34 -+-+ I I
30 -+ I I
53 -+ I I
31 -+ I I
57 -+ I I
65 -+ I I
79 -+-+ I I
39 -+ I +-------------------------------------+
96 -+ I I
94 -+ +---+ I
98 -+ I I I
40 -+ I I I
54 -+ I I I
45 -+-+ I I
86 -+ I I
2 -+ I I
83 -+ I I
24 -+ I I
27 -+ I I
75 -+ +---+
99 -+ I
4 -+ I
89 -+ I
56 -+ I
91 -+-+ I
23 -+ I I
32 -+ I I
85 -+ I I
87 -+-+ I
11 -+ I I
100 -+ +---+
52 -+ I
60 -+-+
6 -+ I
70 -+ I
17 -+ I
64 -+-+
8 -+
68 -+
36 -+
41 -+
84 -+
88 -+
Joaqun Alds Manzano
Anlisis cluster 12
Analizando este dendograma vemos que la solucin natural es la de dos grupos,
dado que a una distancia bastante cercana aparecen estas dos agrupaciones
que, adems, deben ser muy distintas puesto que slo se agrupan en una a una
distancia mucho mayor.
Dado que para pasar ahora al cluster no jerrquico, necesitamos informar al
programa de cules son los centroides iniciales de esos dos grupos (es decir la
media en los dos grupos de las siete variables que hemos utilizado en el cluster),
necesitamos obtener esta informacin. Como se ve en la sintaxis, hemos pedido
al programa que nos guarde en una variable a cul de los dos grupos pertenece
cada sujeto (realmente le hemos pedido que nos guarde el rango de soluciones
desde dos grupos hasta cinco):
/SAVE CLUSTER(2,5) .
luego tenemos una variable, que nos dice si un individuo pertenece al grupo 1 o
al 2. Basta que calculemos una tabla cruzada entre la pertenencia al grupo y
las variables X1 a X7 como la recogida en el cuadro 3
Cuadro 3 Medias de X1 a X7 en cada conglomerado
4,46
1,58
8,90
4,93
2,99
2,51
5,90
2,57
3,15
6,89
5,57
2,84
2,82
8,04
Rapidez de
servicio
nivel de
precios
flexibilidad
de precios
Imagen del
fabricante
Servicio
Imagen de
los
vendedores
Calidad del
producto
Rapidez de
servicio
nivel de
precios
flexibilidad
de precios
Imagen del
fabricante
Servicio
Imagen de
los
vendedores
Calidad del
producto
1
2
Ward
Method
Media
Joaqun Alds Manzano
Anlisis cluster 13
Pues bien, con esa informacin alimentamos el cluster no jerrquico mediante
la siguiente sintaxis:
QUICK CLUSTER X1 TO X7
/INITIAL = (4.46 1.58 8.90 4.93 2.99 2.51 5.90
2.57 3.15 6.89 5.57 2.84 2.82 8.04)
/CRITERIA = CLUSTERS (2)
/PRINT = CLUSTER ANOVA
/SAVE CLUSTER.
que nos ofrece los siguientes resultados. En primer lugar debemos comparar si
la solucin ptima de dos cluster difiere mucho de la que obtuvimos mediante
el cluster jerrquico. El cuadro 4, nos permite comprar los dos centroides:
Cuadro 4 Centroidejerrquico y no jerrquico
4.46 2.57
1.58 3.15
8.90 6.89
4.93 5.57
2.99 2.84
2.51 2.82
5.90 8.04
Rapidez de
servicio
nivel de
precios
flexibilidad
de precios
Imagen del
fabricante
Servicio
Imagen de
los
vendedores
Calidad del
producto
1 2
Conglomerado
Centros iniciales de los
conglomerados
Entrada desde el subcomando
INITIAL
Joaqun Alds Manzano
Anlisis cluster 14
4,38 2,57
1,58 3,21
8,90 6,80
4,93 5,60
2,96 2,87
2,53 2,82
5,90 8,13
Rapidez de
servicio
nivel de
precios
flexibilidad
de precios
Imagen del
fabricante
Servicio
Imagen de
los
vendedores
Calidad del
producto
1 2
Conglomerado
Centros de los conglomerados
finales
A simple vista se observa que los dos centroides son prcticamente idnticos,
luego el anlisis cluster no jerrquico viene a confirmar que la solucin que
obtuvimos con anterioridad es fiable. De todas formas, un buen indicador de la
calidad de los clusters obtenidos es si las medias de las variables en cada cluster
son significativamente distintas. En su momento indicamos que el objetivo es
que cada conglomerado sea cuanto ms distinto mejor de los dems. Si las
medias de las variables no difiereran significativamente entre un grupo y otro,
estos seran muy parecidos y la calidad del anlisis muy baja. El programa
efecta un anlisis de varianza que, en sntesis, viene a contrastar la hiptesis
nula de que las medias de cada variable en los dos conglomerados son las
mismas. Esta hiptesis debe poder rechazarse, por lo menos, para la mayora de
variables. El cuadro 5 resume esta informacin:
Joaqun Alds Manzano
Anlisis cluster 15
Cuadro 5. Diferencias de medias de cada variable en los dos conglomerados
81,563 1 ,930 98 87,717 ,000
66,457 1 ,766 98 86,753 ,000
109,637 1 ,823 98 133,175 ,000
11,302 1 1,178 98 9,596 ,003
,188 1 ,568 98 ,331 ,566
2,109 1 ,578 98 3,647 ,059
123,372 1 1,280 98 96,404 ,000
Rapidez de
servicio
nivel de
precios
flexibilidad
de precios
Imagen del
fabricante
Servicio
Imagen de
los
vendedores
Calidad del
producto
Media
cuadrtica gl
Conglomerado
Media
cuadrtica gl
Error
F Sig.
ANOVA
Las pruebas F slo se deben utilizar con una finalidad descriptiva puesto que los
conglomerados han sido elegidos para maximizar las diferencias entre los casos en
diferentes conglomerados. Los niveles crticos no son corregidos, por lo que no pueden
interpretarse como pruebas de la hiptesis de que los centros de los conglomerados son
iguales.
Analizando los valores p, se observa que solamente la variable X5 (y en el
extremo la X6) no presentan diferencias significativas entre los dos cluster,
luego la calidad del anlisis efectuado se confirma.
Paso 5. I nterpretacion de los conglomerados
La interpretacin de los conglomerados debe hacerse atendiendo a qu valores
medios toman en cada uno de ellos las variables que se han utilizado para
caracterizarlos (X1 a X7) que, recordemos, recogamos en la siguiene tabla:
Joaqun Alds Manzano
Anlisis cluster 16
4,38 2,57
1,58 3,21
8,90 6,80
4,93 5,60
2,96 2,87
2,53 2,82
5,90 8,13
Rapidez de
servicio
nivel de
precios
flexibilidad
de precios
Imagen del
fabricante
Servicio
Imagen de
los
vendedores
Calidad del
producto
1 2
Conglomerado
finales
Si eliminamos del anlisis la variable X5 (Servicio) que hemos visto que no
presenta resultados distintos en los dos conglomerados, y nos centramos en las
dems, podremos concluir que el conglomerado 1 est formado por aquellos
clientes que prestan especial atencin, respecto al segundo, a la rapidez del
servicio y la flexibilidad de precios. Por el contrario, el conglomerado 2 enfatiza
el nivel de precios, la imagen del fabricante y la de los vendedores y la calidad
del producto.
P aso 6. Validacin del modelo
La validacin del modelo pasa por que el investigador se asegure de que la
solucin es representativa de la poblacin y que ser aplicable a otros indivi-
duos que no estn en la muestra y ser estable en el tiempo. La forma habitual
de contrastar este hecho, es llevar a cabo otro anlisis no jerrquico, pero no
indicndole al programa el centroide de partida, sino dejando que este lo
establezca aleatoriamente. Si el anlisis es robusto, la solucin final no debera
diferir de la que se ha obtenido con anterioridad.
El cuadro 6, recoge el centroide de partida establecido aleatoriamente y la
solucin a la que llega el programa partiendo de l.
Joaqun Alds Manzano
Anlisis cluster 17
Cuadro 6. Nuevo anlisis no jerrquico
6,0 ,0
,9 2,1
9,6 6,9
7,8 5,4
3,4 1,1
4,6 2,6
4,5 8,9
Rapidez de
servicio
nivel de
precios
flexibilidad
de precios
Imagen del
fabricante
Servicio
Imagen de
los
vendedores
Calidad del
producto
1 2
Conglomerado
Centros iniciales de los
conglomerados
4,4 2,6
1,6 3,2
8,9 6,8
4,9 5,6
3,0 2,9
2,5 2,8
5,9 8,1
Rapidez de
servicio
nivel de
precios
flexibilidad
de precios
Imagen del
fabricante
Servicio
Imagen de
los
vendedores
Calidad del
producto
1 2
Conglomerado
finales
Puede comprobarse que, aunque los centroides de partida son radicalmente
distintos, los centroides finales son prcticamente idnticos y, adems, el anli-
sis de varianza recogido en el cuadro 7 vuelve a confirmar que las medias son
significativament distintas si descontamos el caso de X5
Joaqun Alds Manzano
Anlisis cluster 18
Cuadro 7 Anlisis de varianza
81,563 1 ,930 98 87,717 ,000
66,457 1 ,766 98 86,753 ,000
109,637 1 ,823 98 133,175 ,000
11,302 1 1,178 98 9,596 ,003
,188 1 ,568 98 ,331 ,566
2,109 1 ,578 98 3,647 ,059
123,372 1 1,280 98 96,404 ,000
Rapidez de
servicio
nivel de
precios
flexibilidad
de precios
Imagen del
fabricante
Servicio
Imagen de
los
vendedores
Calidad del
producto
Media
cuadrtica gl
Conglomerado
Media
cuadrtica gl
Error
F Sig.
ANOVA
Las pruebas F slo se deben utilizar con una finalidad descriptiva puesto que los
conglomerados han sido elegidos para maximizar las diferencias entre los casos en
diferentes conglomerados. Los niveles crticos no son corregidos, por lo que no pueden
interpretarse como pruebas de la hiptesis de que los centros de los conglomerados son
iguales.
El ltimo criterio para validar los cluster obtenidos, pasa por intentar determi-
nar si los sujetos que pertenecen a cada grupo, se comportan de distinta
manera respecto a variables que no se han incluido en el anlisis. Es decir, si
cada conglomerado est recogiendo a grupos con caractersticas distintas, cabe
esperar que esta diferencia se traduzca en actitudes o comportamientos
tambin distintos en otros mbitos. Por ejemplo, podemos plantearnos si
alguno de los dos grupos est ms satisfecho que otro respecto a HATCO
(X10) y utiliza ms o menos sus productos (X9). Estamos, de nuevo, ante un
anlisis de varianza que plantea la hiptesis nula de que la satisfaccin y el uso
es el mismo entre los dos conglomerados y cuya solucin se recoge en el cuadro
8.
Cuadro 8 Anlisis de varianza.
50 49,880 8,552 1,209 47,450 52,310 31,0 65,0
50 42,320 7,807 1,104 40,101 44,539 25,0 62,0
100 46,100 8,989 ,899 44,316 47,884 25,0 65,0
50 5,164 ,778 ,110 4,943 5,385 3,3 6,8
50 4,378 ,747 ,106 4,166 4,590 3,2 6,2
100 4,771 ,856 8,556E-02 4,601 4,941 3,2 6,8
1
2
Total
Ward
Method
1
2
Total
Ward
Method
Nivel de
uso
nivel de
satisfaccin
N Media
Desviacin
tpica
Error
tpico
Lmite
inferior
Lmite
superior
Intervalo de confianza
para la media al 95%
Mnimo Mximo
Descriptivos
Joaqun Alds Manzano
Anlisis cluster 19
1428,840 1 1428,840 21,312 ,000
6570,160 98 67,042
7999,000 99
15,445 1 15,445 26,545 ,000
57,021 98 ,582
72,466 99
Inter-grupos
Intra-grupos
Total
Inter-grupos
Intra-grupos
Total
Nivel de
uso
nivel de
satisfaccin
Suma de
cuadrados gl
Media
cuadrtica F Sig.
ANOVA
Se comprueba que el grupo 1 tiene un mayor nivel uso de los productos de
HATCO (49,88) que el 2 (42,30) y de satisfaccin (5,16 frente a 4.37) y que,
adems ambas diferencias son significativas (p<0.01). Este resultado tiene
importantes implicaciones para HATCO que deber mejorar los factores que
han sido peor valorado por el grupo 2, dado que es un grupo menos satisfecho,
concretamente, X1 y X3.
Referencias bibliogrficas
FERRN, M. (1996): SPSS para Windows. Programacin y anlisis estadstico.
Madrid: McGraw-Hill.
HAIR, J.F.; ANDERSON, R.E.; TATHAM, R.L. Y BLACK, W. (1995): Multivariate
Data Analysis. 4 Edicin. Englewood Cliffs: Prentice Hall.
JOHNSON, R.A. Y WICHERN, D. W. (1998): Applied Multivariate Statistical
Analysis. 4 Edicin. Englewood Cliffs: Prentice Hall.
Joaqun Alds Manzano
Anlisis cluster 20

Analisis de Cluster - Analisis de Cluster (Joaquin Manzano)

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Analisis de Cluster - Analisis de Cluster (Joaquin Manzano)

Caricato da

Copyright:

Formati disponibili

El anlisis cluster

J oaqun Alds Manzano

Potrebbero piacerti anche