Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Ce
e-
-d
in
ub
R
C.
e
im
Ja
c
-
R
Estadística Multivariante
A
C
Jaime C. Rubin-de-Celis
LI
22 de noviembre de 2012
B
PU
O
R
A
PI
O
C
O
N
ÍNDICE GENERAL ÍNDICE GENERAL
lis
Índice general
Ce
e-
-d
in
ub
R
C.
1. Análisis de Conglomerados 1
e
1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
im
1.2. Uso del Análisis de Conglomerados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
Ja
1.3. ¿En qué consiste? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
c
1.4. Etapas para la formación de Clústers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.4.1. Casos Atípicos (outliers) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
-
1.5. Medida de Similitud/Distancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
R
1.5.1. Distancias para Datos de Intervalo . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.5.2. Otras Distancias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
A
1.5.3. Distancias para Datos Binarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.6. Formación de los Clústers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.6.1. Procesos Jerárquicos . . . . . . . .
1.6.2. Procesos No-Jerárquicos . . . . . .
C .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
12
18
LI
1.6.3. Optimización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.7. Selección del número de Clústers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
B
Bibliografía 21
O
R
A
PI
O
C
O
N
lis
Índice de cuadros
Ce
e-
-d
in
ub
R
C.
1.1. Datos Binarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
e
1.2. Ejemplo Distancias Datos Binarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
im
Ja
c
-
R
A
C
LI
B
PU
O
R
A
PI
O
C
O
N
lis
Índice de figuras
Ce
e-
-d
in
ub
R
C.
1.1. Análisis de Conglomerados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
e
1.2. Distancias Entre e Inter Cluster . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
im
1.3. ¿Cuántos Clústers puede encontrar? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
Ja
1.4. Casos Atípicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
c
1.5. Ventas vs. Patentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.6. Análisis de Perfil de Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
-
1.7. Métodos (a) Aglomerativos (AGNES); y (b) Métodos Divisivos (DIANA) . . . . . . . . . 12
R
1.8. Métodos Aglomerativos: (a) Enlace Simple; (b) Enlace Completo; y (c) Enlace Promedio 12
1.9. Chaining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
A
1.10. Dendrograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.11. Dendrograma (Manhattan / Encadenamiento Simple) . . . . . . . . . . . . . . . . . . . . 15
C
1.12. Dendrograma (Distancia Euclideana / Encadenamiento Promedio) . . . . . . . . . . . . .
1.13. Dendrograma (Distancia Euclideana / Encadenamiento Promedio) . . . . . . . . . . . . .
16
16
LI
1.14. Dendrograma (Similitud de Jaccard / Centroides) . . . . . . . . . . . . . . . . . . . . . . 18
B
PU
O
R
A
PI
O
C
O
N
lis
Capítulo 1
Ce
e-
-d
in
Análisis de Conglomerados
ub
R
C.
e
im
Ja
1.1. Introducción
c
-
El análisis de conglomerados (clústers) busca la identificación de
grupos dentro de una población. Agrupa objetos (encuestados, productos,
R
empresas, variables, etc.) de modo que cada objeto sea similar a los otros
objetos en el clúster y diferente de los objetos en todos los otros grupos.
A
El análisis de conglomerados busca una estructura subyacente entre
las observaciones basada en un perfil multivariante. Este técnica busca
C
características compartidas entre individuos u objetos. Es un enfoque
que se basa en la clasificación de datos según una característica “natural”
LI
común a todos los objetos.
Este método engloba un grupo de técnicas multivariantes cuyo prin-
B
cipal propósito es agrupar objetos basándose en las características que Figura 1.1: Análisis de Conglo-
poseen. Es una técnica de clasificación sin supervisión: no existen clases merados
PU
o grupos predefinidos.
Al análisis de conglomerados se le conoce con muchos nombres dependiendo de los ojos (área del
conocimiento) con que se observe. Algunos de los métodos basado en este conjunto de técnicas multivariante
incluyen segmentación (Marketing), Análisis de Grupos Estratégicos (Estrategia), Análisis de Q (Psicología
R
Uso del Suelo (Geo-Agricultura): Identificación de superficies en base a su uso (cosecha) usando
satélites.
C
Seguros: Identificar grupos de asegurados para detectar aquellos que tienen altos costos por reclamos.
O
Planificación Urbana: Identificación de grupos de hogares de acuerdo al tipo de casa, valor, y ubicación
geográfica.
N
lis
Usando otras palabras, un buen análisis de clústers busca:
Ce
Una alta similitud intra-clase; y, una baja similitud entre-clases,
e-
-d
in
ub
R
C.
e
im
Ja
c
-
R
A
C
Figura 1.2: Distancias Entre e Inter Cluster
LI
La calidad del análisis de clúster depende de la medida de similitud o distancia que se ocupe. La calidad
B
Ejemplo 1.1.
Agrupe los siguientes animales: oveja, lagarto, gato, perro, gorrión, tiburón azul, víbora, gaviota, pez
dorado, rana, salmón.
Criterios de Agrupación
O
2004).
N
lis
Ce
e-
-d
in
ub
R
C.
e
im
Ja
Figura 1.3: ¿Cuántos Clústers puede encontrar?
c
-
2do. Paso: Seleccionar una medida de similitud.
R
La forma en que generalmente se hace es en términos de la distancia (ver siguiente sección) entre
A
cada par de casos; cuando la distancia es menor se considera que los casos son más parecidos entre sí.
Cuando las variables se miden en unidades muy diferentes, antes de agrupar los casos, se recomienda
C
estandarizar los datos para eliminar la influencia de la unidad de medición.
LI
3er. Paso: Seleccionar un procedimiento de agrupamiento.
Para este paso hay diversos métodos (se discuten más adelante).
B
Una vez que ya se ha hecho un clasificación, se decidirá con cuántos conglomerados se trabajará,
algunas veces esto es una decisión subjetiva del investigador.
5to. Paso: Interpretar y elaborar un perfil de los conglomerados.
En esta etapa se procederá a determinar las características de cada conglomerado que se conservará.
O
dos.
O
La distancia se expresa con una función de la forma: d(i, j). La definición de las distancias dependen
del tipo de datos que estemos ocupando: escala métrica, no-métrica, binaria, categórica, ordinal, etc.
En general, los datos están expresados en una matriz (sin estandarizar) con n observaciones (objetos) y
p variables, de la forma:
0 1
x11 ... x1k ... x1p
B ... ... ... ... ... C
B C
X=B
B xi1 ... xik ... xip C
C (1.1)
@ ... ... ... ... ... A
lis
xn1 ... xnk ... xnp
Ce
De ser necesario, los datos deben estandarizarse para eliminar los problemas asociados a escalas
e-
diferentes. Esto generalmente puede lograrse mediante el cálculo de los Z-score (con la Desviación Media
-d
Absoluta):
in
ub
1
R
mk = (x1k + x2k + . . . + xnk ) 8k 2 [1, . . . , p]
n
C.
1
e
sm
im
k = (|x1k mk | + |x2k mk |) + . . . + |xnk mk |
n
Ja
xik mk
c
Zik =
sm
k
-
Usar la desviación media absoluta (sm f ), en lugar de la desviación estándar, produce resultados más
R
robustos en el análisis de clúster. No obstante, también puede ocupar la desviación estándar:
A
n n
1X 1 X 2 (xik xk )
xk = xik s2k = (xik xk ) zik =
n i=1 n 1 sk
La matriz de datos estandarizados es entonces: C i=1
LI
0 1
z11 . . . z1k ... z1p
B ... ... ... ... ... C
B
B C
Z=B B zi1 . . . zik ... zip C
C (1.2)
@ ... ... A
PU
0 1
0
B d(2, 1) 0 C
B C
B d(3, 1) d(3, 2) C
R
D=B 0 C
B .. .. C
@ . . ... A
A
" # q1
p
X q
q
d(xi , xj ) = |xik xjk | = q
|xi1 xj1 |q + |xi2 xj2 |q + · · · + |xip xjp |q
O
k=1
donde xi = (xi1 , xi2 , . . . , xip ) , y xj = (xj1 , xj2 , . . . , xjp ) son dos vectores de dimensión p; y q es un entero
N
positivo.
Si q = 1, esta distancia se conoce como distancia de Manhattan o también llamada city-block.
Si q = 2, entonces tenemos Distancia Euclidiana:
q
d(xi , xj ) = |xi1 xj1 |2 + |xi2 xj2 |2 + · · · + |xip xjp |2
lis
También pueden usarse distancias ponderadas (ej. correlaciones Pearson-paramétricas), u otro tipo de
Ce
ponderación (w), como:
e-
q
-d
d(xi , xj ) = w1 |xi1 xj1 |2 + w2 |xi2 xj2 |2 + · · · + wp |xip xjp |2
in
ub
Ejemplo 1.2.
R
Suponga que existen 6 firmas (1-6) de las cuales se conoce su nivel de ventas (y) y el número de patentes
C.
que tienen registradas (x). Se desea conocer si existen grupos estratégicos dentro de esta industria. La
e
im
solución se hará ocupando Stata12.
Ja
1 . list
c
2 + - - - - - - - - - - - - - - - - - - -+
3 | firm x y |
-
4 | - - - - - - - - - - - - - - - - - - -|
5 1. | Firma 1 0 3 |
R
6 2. | Firma 2 1 2 |
7 3. | Firma 3 4 3.5 |
4. | Firma 4 5 5 |
A
8
9 5. | Firma 5 4 4 |
10 6. | Firma 6 1 1 |
11
12
+ - - - - - - - - - - - - - - - - - - -+
. label var firm " Firmas " C
LI
13 . label var x " Patentes "
14 . label var y " Ventas "
1 . egen zy = std ( y )
PU
2 . egen zx = std ( x )
3 . list
4 + - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -+
5 | firm x y zx zy |
6 | - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -|
7 1. | Firma 1 0 3 -1.205607 -.0583212 |
O
Considerando que los datos tienen magnitudes similares (y para simplificar la presentación de resultados),
PI
los datos no serán estandarizados, sin embargo, debe recordarse que ese paso es necesario en la mayoría de
los casos.
En adelante simplemente puede reemplazar las variables orginales (x, y) por estas nuevas variables
O
5
Firma 4
lis
4
Firma 5
Ce
Firma 3
e-
-d
3
Firma 1
Ventas
in
ub
R
2
Firma 2
C.
e
im
1
Firma 6
Ja
c
0
-
0 1 2 3 4 5
Patentes
R
Figura 1.5: Ventas vs. Patentes
A
C
Del gráfico anterior puede apreciarse que aparentemente existen (al menos) dos grupos. Las firmas 3,
4 y 5 poseen un nivel alto de patentes y también de ventas; por lo que aparentemente son parte de un
LI
mismo grupo. Les llamaremos las “innovadoras”.
Un case particular es el de la firma 1, ya que no tiene patentes pero sí Ventas por encima del promedio.
Esto supone que debe revisarse si no se trata de un caso atípico (outlier). Para ello revisamos el Perfil de
B
Variables:
PU
1 . gen n = _n
2 . label values n firm_ids
3 . profileplot y x , by ( n )
O 5
4
R mean
3
A
2
PI
1
0
y x
O
Variables
Firma 1 Firma 2
Firma 3 Firma 4
C
Firma 5 Firma 6
mean
O
La Figura 1.6 muestra un comportamiento atípico de la firma 1, sin embargo aún no puede descartarse;
deben realizarse primero calcularse las distancias y los agrupamientos correspondientes.
La matriz de distancias de Manhattan (city-block ) es:
1 . mat diss L1 = y x , L1
2
3 . mat list L1
4
5 symmetric L1 [6 ,6]
6 Firma_1 Firma_2 Firma_3 Firma_4 Firma_5 Firma_6
7 Firma_1 0
8 Firma_2 2 0
lis
9 Firma_3 4.5 4.5 0
10 Firma_4 7 7 2.5 0
Ce
11 Firma_5 5 5 .5 2 0
e-
12 Firma_6 3 1 5.5 8 6 0
-d
in
Nótese que el resultado anterior también puede obtenerse ocupando la Distancia de Minkowski de
ub
Grado 1:
R
1 . mat diss M1 = y x , Lpow (1)
C.
2
3 . mat list M1
e
im
4
Ja
5 symmetric M1 [6 ,6]
6 Firma_1 Firma_2 Firma_3 Firma_4 Firma_5 Firma_6
c
7 Firma_1 0
8 Firma_2 2 0
-
9 Firma_3 4.5 4.5 0
10 Firma_4 7 7 2.5 0
R
11 Firma_5 5 5 .5 2 0
12 Firma_6 3 1 5.5 8 6 0
A
En esta matriz de distancias, las menores valores están en d3,5 = 0,5 y en d2,6 = 1, por lo que podemos
esperara que éstos sean los primeros grupos que se formarían (en un método jerárquico). Esto también es
C
consistente si ocupamos distancias euclidianas. La matriz de distancias euclidianas es:
LI
1 . mat diss L2 = y x , L2
2
3 . mat list L2
B
4
5 symmetric L2 [6 ,6]
PU
1.5.2.1. Canberra
PI
p
X |xik xjk |
O
d(xi , xj ) = (1.3)
xik + xjk
k=1
C
Ejemplo 1.3.
Distancia de Canberra (continua del ejemplo anterior).
O
3 . mat list Cb
4
5 symmetric Cb [6 ,6]
6 Firma_1 Firma_2 Firma_3 Firma_4 Firma_5 Firma_6
7 Firma_1 0
8 Firma_2 1.2 0
9 Firma_3 1.0769231 .87272727 0
Nótese que en este caso el orden de agrupamiento es algo diferente a los casos anteriores. La menor
distancia está aún entre las firmas 3 y 5, sin embargo, la segunda menor distancia está entre las firmas
lis
4 y 5 (d4,5 = 0,22). Más aun, la tercera menor distancia es d3,4 = 0,29. Esto muestra que el orden de
Ce
agrupamiento será diferente, y eventualmente, dependiendo del Método de Agrupamiento, podríamos
e-
encontrar soluciones diferentes.
-d
cuando la distancia euclidiana (y también la de Manhattan) ponen a las firmas 2 y 6 como las más
in
cercanas (d2,6 = 1). Esto también es evidente de la Figura 1.5.
ub
R
C.
1.5.2.2. Czekanowski
e
im
Ja
2 p 3
c
X
62 mı́n(xik , xjk ) 7
-
6 k=1 7
d(xi , xj ) = 1 6 7 (1.4)
6 Xp 7
R
4 5
(xik + xjk )
k=1
A
1.5.2.3. Tchebyschev
C
LI
d(xi , xj ) = máx |xik xjk | (1.5)
i=1,2,...,n
B
Ejemplo 1.4.
PU
Distancia de Tchebyschev
1 . mat diss Tch = y x , maximum names ( firm )
2
3 . mat list Tch
4
O
9 Firma_3 4 3 0
10 Firma_4 5 4 1.5 0
A
11 Firma_5 4 3 .5 1 0
12 Firma_6 2 1 3 4 3 0
PI
O
1 1 xi · xj
d(xi xj ) = [1 cos(xi , xj )] = 1 (1.6)
2 2 kxi kkxj k
O
Donde
N
p
X
(xik ⇥ xjk )
k=1
cos(xi , xj ) = v
uX
u p 2 p
X
t xik ⇥ x2jh
lis
Ce
k=1 h=1
e-
Este último valor también se conoce como la Distancia Angular.
-d
in
Ejemplo 1.5.
ub
R
1 . mat diss ANG = y x , angle names ( firm ) dissim ( oneminus )
C.
2
e
3 . mat list ANG
im
4
Ja
5 symmetric ANG [6 ,6]
6 Firma_1 Firma_2 Firma_3 Firma_4 Firma_5 Firma_6
c
7 Firma_1 0
8 Firma_2 .10557281 0
-
9 Firma_3 .34149539 .07445304 0
10 Firma_4 .29289322 .0513167 .00221484 0
R
11 Firma_5 .29289322 .0513167 .00221484 0 0
12 Firma_6 .29289322 .0513167 .00221484 0 0 0
A
Nótese en la matriz anterior que las distancias entre las firmas 4, 5 , 6 es igual a 0 (d4,5 = d4,6 = d5,6 = 0).
Esto se debe a que esta medida de distancia, como su nombre indica, mide las distancias en ángulos; al
C
estar las firmas 4, 5 y 6 sobre la diagonal (45o ) (ver Figura 1.5), su distancia es igual a cero.
LI
1.5.2.5. Distancia de Mahalanobis
B
PU
d(x, y) = xT A 1
y A es definida positiva (1.7)
Mahalanobis, al permitirnos elegir la matriz A, entrega mayores posibilidades de controlar la geometría
de los potenciales clústers.
O
Objeto j
1 0 Suma
1 a b a+b
O
Objeto i 0 c d c+d
Suma a+c b+d p
C
b+c
N
sim(i, j) =
a+b+c+d
Similitud para variables asimétricas binarias:
b+c
sim(i, j) =
a+b+c
lis
Ce
b
e-
simRussel (i, j) =
a+b+c+d
-d
in
ub
Similitud de Hamann: Hamann (1961)
R
(a + d) (b + c)
C.
simHamann (i, j) =
a+b+c+d
e
im
Similitud de Czekanowski: También conocida como Similitud de Dice. Czekanowski (1932), Dice (1945),
Ja
Sørensen (1948).
c
2a
simDice (i, j) =
-
2a + b + c
R
Similitud de Ochiai: Ochiai (1957)
A
a
simOchiai (i, j) = p
(a + b)(a + c)
C
LI
B
PU
O
R
A
PI
O
C
O
N
Ejemplo 1.6.
Suponga que en una encuesta sobre acceso de tecnología para el hogar se obtuvieron los siguientes
resultados:
Cuadro 1.2: Ejemplo Distancias Datos Binarios
lis
Ce
Nombre Sexo TV Auto Casa Comp. Telef. Cable
e-
-d
Juan M 1 0 1 0 0 0
in
María F 1 0 1 0 1 0
ub
Pedro M 1 1 0 0 0 0
R
C.
“Sexo” es el único atributo simétrico, el resto son atributos asimétricos.
e
im
0 Total 1
Ja
1 1 2 1
c
Matriz de Frecuencia Binaria (Pedro, María):
0 2 5 3
-
Total 3 7 4
1
R
simJaccard (P edro, M aria) = = 0,2
1+1+3
A
1 . list
2
3
4 | name sex tv auto home C
+ - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -+
comp cell cable |
LI
5 | - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -|
6 1. | Juan Hombre 1 0 1 0 0 0 |
7 2. | Maria Mujer 1 0 1 0 1 0 |
B
8 3. | Pedro Hombre 1 1 0 0 0 0 |
9 + - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -+
10
PU
11 . mat diss SIM = sex tv auto home comp cell cable , Jaccard names ( name )
12
13 . mat list SIM
14
15 symmetric SIM [3 ,3]
O
Y, para obtener la matriz de distancias ocupada luego para la formación de clústers (note que la matriz
A
8 Maria .5 0
9 Pedro .66666667 .8 0
O
N
Procedimientos No-Jerarquicos
Procedimientos Compuestos
lis
Estos procesos puede clasificarse en métodos aglomerativos o métodos divisivos. Éstos están repre-
Ce
sentados os en la Figura 1.7. En el primer caso, como sugiere el nombre, el objetivo es ir agrupando las
e-
observaciones en función a su cercanía (o distancia). En el caso de los métodos divisivos, se parte con
-d
un único clúster que contiene a todas las observaciones y se va desagregando, de nuevo, en función a la
in
ub
distancia.
R
C.
e
im
Ja
c
-
(a) Métodos Aglomerativos
R
A
C
LI
(b) Métodos Divisivos
B
Figura 1.7: Métodos (a) Aglomerativos (AGNES); y (b) Métodos Divisivos (DIANA)
PU
Figura 1.8: Métodos Aglomerativos: (a) Enlace Simple; (b) Enlace Completo; y (c) Enlace Promedio
O
N
d(U V )W = mı́n[dU W , dV W ]
Una ventaja de este método es que puede identificar clústers que no necesariamente tienen una
forma elipsoidal.
Una desventaja es que no puede discriminar fácilmente entre grupos muy distantes. Esto sucede
porque el agrupamiento sucede muy pronto, ver la figura. Esta tendencia de formar clústers con
poca cohesión interna se conoce como chaining (ver Figura 1.9).
lis
Ce
e-
-d
in
ub
R
C.
e
im
Figura 1.9: Chaining
Ja
c
Complete Linkage. (Enlace Completo o «Vecino más lejano»)
-
Este algoritmo es similar al anterior, pero calcula la distancia entre los objetos más distantes.
De esta forma este algoritmo se asegura que todos los miembros de cada grupo estén dentro de
R
la mayor distancia posible.
A
Average Linkage. (Enlace Promedio o «Promedio de Grupo»)
P P
d(U V )W = i k C dik
NU V NW
LI
Donde:
dik = distancia entre objeto i en cluster ( U V ) y objecto k en clusterW .
B
Método de los Centroides. En este algoritmo la distancia entre clusters se calcula usando los centroides.
Los centroides son los valores medios de las observaciones de las variables en el valor teórico del
cluster.
O
Los nuevos clústers se crean de tal manera de que se minimice la suma de cuadrados total de
las distancias dentro de cada clúster.
O
Los métodos divisivos parten separando toda la muestra en dos grupos y luego se van retirando grupos
que son diferentes (mayor distancia o diferencia).
Este proceso puede realizarse en base al uso de las mismas distancias discutidas para los Métodos
O
Aglomerativos.
N
6
L2 dissimilarity measure
4
lis
Ce
e-
-d
in
2
ub
R
C.
e
im
0
1 2 6 3 5 4
Ja
Figura 1.10: Dendrograma
c
-
Ejemplo 1.7.
R
Distancia de Manhattan, Encadenamiento Simple
1 . cluster singlelinkage y x , L1 name ( L1 )
A
2
3 . cluster gen Grupos_L1 = group (2)
4
5
6
. table firm Grupos_L1
C
LI
7 ----------------------
8 | Grupos_L1
9 Firmas | 1 2
B
10 - - - - - - - - - -+ - - - - - - - - - - -
11 Firma 1 | 1
PU
12 Firma 2 | 1
13 Firma 3 | 1
14 Firma 4 | 1
15 Firma 5 | 1
16 Firma 6 | 1
17 ----------------------
O
Firma 2
lis
Ce
Firma 1
e-
-d
in
Firma 5
ub
R
Firma 3
C.
e
im
Firma 4
Ja
0 1 2 3 4 5
L1 dissimilarity measure
c
y1/y2 Valor de Corte
-
R
Figura 1.11: Dendrograma (Manhattan / Encadenamiento Simple)
A
Ejemplo 1.8.
1
Distancia Euclideana, Encadenamiento Promedio
. cluster avera gelink age y x , L2 name ( L2 )
C
LI
2
3 . cluster gen Grupos_L2 = group (2)
4
B
7 ----------------------
8 | Grupos_L2
9 Firmas | 1 2
10 - - - - - - - - - -+ - - - - - - - - - - -
11 Firma 1 | 1
12 Firma 2 | 1
O
13 Firma 3 | 1
14 Firma 4 | 1
15 Firma 5 | 1
R
16 Firma 6 | 1
17 ----------------------
18
A
21
22 . graph export dend_L2 . eps , replace
O
C
O
N
Firma 5
lis
Ce
Firma 3
e-
-d
in
Firma 6
ub
R
Firma 2
C.
e
im
Firma 1
Ja
0 1 2 3 4
L2 dissimilarity measure
c
y1/y2 Valor de Corte
-
R
Figura 1.12: Dendrograma (Distancia Euclideana / Encadenamiento Promedio)
A
Ejemplo 1.9.
1
Distancia de Canberra, Método de Ward
. cluster ward y x , canberra name ( Canberra )
C
LI
2
3 . cluster dend , hor labels ( firm ) ylabel ( , angle (0)) ///
4 title (" Dendrograma ( Distancia de Canberra / Ward )")
B
5
6 . graph export dend_Canberra . eps , replace
PU
Firma 2
R
Firma 4
A
Firma 5
PI
Firma 3
O
Firma 1
C
0 .5 1 1.5 2
Canberra dissimilarity measure
Nótese en este caso que la solución más apropiada es de 3 grupos. En caso de formar sólo dos grupos,
la firma 1 pasaría a formar parte del grupo compuesto por 3, 4 y 5; algo que no sucedió en los ejemplos
anteriores. Esto podría confirmar la sospecha de que la firma 1 es un caso atípico. Dado que el objetivo
acá es ver si existen grupos este caso debería ser tratado como un grupo de un miembro (o eventualmente
retirarse, por ejemplo, si después se pretende realizar un análisis de regresión con los datos agregados).
En el Dendrograma puede verse que incorporar la firma 1 al grupo (3/4/5) agregaría mucha entropia
(la línea de unión de la firma 1 al grupo está muy separada -hacia la derecha- del anterior agrupamiento).
Los grupos según esta medida de distancia y método de agrupamiento son:
lis
1 . cluster gen Canberra_3G = group (3)
Ce
2
e-
3 . table firm Canberra_3G
-d
4
in
5 ----------------------------
ub
6 | Canberra_3G
7 Firmas | 1 2 3
R
8 - - - - - - - - - -+ - - - - - - - - - - - - - - - - -
C.
9 Firma 1 | 1
10 Firma 2 | 1
e
im
11 Firma 3 | 1
12 Firma 4 | 1
Ja
13 Firma 5 | 1
c
14 Firma 6 | 1
15 ----------------------------
-
R
Ejemplo 1.10.
A
Análisis de Clúster con Datos Binarios, Similitud de Jaccard y agrupamiento a través del Método de
Centroides.
1
2
. list
C
LI
3 + - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -+
4 | name sex tv auto home comp cell cable |
5 | - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -|
B
6 1. | Juan Hombre 1 0 1 0 0 0 |
7 2. | Maria Mujer 1 0 1 0 1 0 |
PU
8 3. | Pedro Hombre 1 1 0 0 0 0 |
9 + - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -+
10
11 . cluster cent sex tv auto home comp cell cable , Jaccard name ( Jaccard )
12
13 . cluster gen Grupo s_Jacc ard = group (2)
O
14
15 . table name Grupos _Jacca rd
16
R
17 ---------------------------
18 Encuestado | Grupos _Jacca rd
19 | 1 2
A
20 - - - - - - - - - - -+ - - - - - - - - - - - - - - -
21 Juan | 1
PI
22 Maria | 1
23 Pedro | 1
24 - - - - - - - - - - -_ - - - - - - - - - - - - - - -
O
C
O
N
lis
Ce
.6
e-
-d
in
ub
.8
R
C.
e
im
Ja
1
Juan Maria Pedro
c
y1/y2 Valor Límite
-
R
Figura 1.14: Dendrograma (Similitud de Jaccard / Centroides)
A
1.6.2. Procesos No-Jerárquicos
C
Los procedimientos no jerárquicos se conocen como agrupación de k medias (k-means clustering). Estos
métodos se dividen en tres que son: umbral secuencial, umbral paralelo y división para la optimización. Estos
LI
métodos no-jerárquicos parten con la generación de una semilla y permiten en ocasiones que observaciones
queden fuera de algún clúster; i.e. el método de k medias es menos sensible a los outliers.
B
Ejemplo 1.11.
PU
5 ----------------------------
6 | km3
7 Firmas | 1 2 3
- - - - - - - - - -+ - - - - - - - - - - - - - - - - -
R
8
9 Firma 1 | 1
10 Firma 2 | 1
A
11 Firma 3 | 1
12 Firma 4 | 1
PI
13 Firma 5 | 1
14 Firma 6 | 1
15 ----------------------------
O
Nótese que en esta oportunidad, forzando la existencia de 3 clústers, Stata respeta esta condición
dejando como un único grupo a la Firma 1 (outlier).
C
2
3 + - - - - - - - - - - - - - - - - - - - - -+
4 | y x |
N
5 | - - - - - - - - - - - - - - - - - - - - -|
6 7. | 4.166667 4.333333 |
7 8. | 1.5 1 |
8 9. | 3 0 |
9 + - - - - - - - - - - - - - - - - - - - - -+
Sin embargo, con 2 medias, los resultados son consistentes con Métodos Jerárquicos.
lis
7 - - - - - - - - - -+ - - - - - - - - - - -
8 Firma 1 | 1
Ce
9 Firma 2 | 1
e-
10 Firma 3 | 1
-d
11 Firma 4 | 1
in
12 Firma 5 | 1
ub
13 Firma 6 | 1
R
14 ----------------------
15
C.
16 . list y x if km2 == .
e
17 + - - - - - - - - - - - - - - - - - - - - -+
im
18 | y x |
Ja
19 | - - - - - - - - - - - - - - - - - - - - -|
20 7. | 2 .6666667 |
c
21 8. | 4.166667 4.333333 |
22 + - - - - - - - - - - - - - - - - - - - - -+
-
R
1.6.2.1. Método del Umbral Secuencial
A
Se selecciona una primera semilla para un cluster. Esta semilla representa el centro del clúster. Todos
C
los objetos con una distancia menor al umbral son agregados a este clúster. A continuación se selecciona
una segunda semilla, y se incluyen todos los objetos que están a un distancia menor al umbral. Así,
LI
sucesivamente hasta obtener el número deseado de clusters.
Una vez que un objeto (observación) ha sida asignado a un clúster, no es considerado para las iteraciones
B
posteriores.
PU
umbral especificado.
1.6.3. Optimización
R
Este procedimiento es similar a los métodos anteriores, con la excepción que permite la reubicación de
A
los objetos. I.e. si en proceso de iteración, un objeto se acerca más a otro clúster, distinto del que tiene
asignado en ese momento, entonces este procedimiento cambia el objeto al clúster más cercano.
PI
Esto depende de la pregunta que busca responderse y de la teoría subyacente. No obstante, una forma
C
La buena noticia es que se ha demostrado empíricamente que los criterios “subjetivos” (ej. nivel de
N
entropía del dendrograma) son extremadamente consistentes con técnicas más elaboradas.
lis
en comparación a otros métodos jerárquicos.
Ce
e-
1.7.2. Métodos No-Jerárquicos
-d
in
Test de Hipótesis de comparación de medias entre clústers. Consiste en realizar una prueba simple
ub
de medias (con varianzas iguales), para cada una de las variables de estudio separadas según los clústers
R
encontrados.
C.
e
im
1.8. Validación Predictiva
Ja
Una forma de validar el análisis de clústers es a través de la Validación Predictiva. Ésta consiste en
c
dejar fuera del análisis de clúster una variable que se sabe que cambia según el clúster. Con esto, se puede
-
ver si luego del análisis de clúster la separación de la variable extra se cumple.
R
Esta variable de validación debe tener una fuerte base teórica para ser ocupada como tal.
A
C
LI
B
PU
O
R
A
PI
O
C
O
N
lis
Bibliografía
Ce
e-
-d
in
ub
R
Dubes, R. C. (1987). How many clusters are the best?- an experiment. Pattern Recognition, 20(6):645–663.
C.
e
Romesburg, C. (2004). Cluster Analysis for Researchers. Lulu.com.
im
Ja
c
-
R
A
C
LI
B
PU
O
R
A
PI
O
C
O
N