Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
ANÁLISIS DE CONGLOMERADOS
Lecturas obligatorias
2
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS INTRODUCCIÓN
Contextualización
3
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS INTRODUCCIÓN
Contextualización
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS INTRODUCCIÓN
X1 X2 X3 X4 Cluster
Obs1 5 2 1 3 1
Cluster 1 Obs2 3 3 4 2 2
Obs3 2 4 3 5 3
Obs4 5 3 2 4 1
Cluster 2 Obs5 . . . . 2
Obs6 . . . . 3
Obs7 . . . . 3
Cluster 3 Obs8 . . . . 1
Obs9 . . . . 3
Obs10 . . . . 2
“Jóvenes solteros”
“Familia tradicional”
“Maduros felices”
6
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS ¿CÓMO ANALIZA?
Y B (x2, y2)
*
y2-y1
A
*
(x1, y1)
x2-x1
X
2 2
d = (x2-x1) + (y2-y1)
Nombre en SPSS
Métodos de Métodos de Métodos de
1 Vinculación entre-grupos
vinculación centroide varianza
2 Vinculación intra-grupos
3 Vecino más próximo
- Promedio - Centroide (5) - Ward (7) 4 Vecino más lejano
- Entre grupos (1) - Mediana (6) 5 Agrupación de centroides
- Intra grupos (2) 6 Agrupación de medianas
- Ponderado
Nota: Los métodos en cursiva están 7 Método de Ward
- Único disponibles en SPSS. Redes Neuronales 8 Conglomerado de K-medias
- Ordinario (3) requiere de la herramienta de data 9 Análisis Factorial
- Densidad mining Clementine.
- Dos fases
- Completo (4)
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS ¿CÓMO ANALIZA?
Vinculación completa:
* * Máxima distancia
Jerárquico No jerárquico
* Vinculación media
*
(inter-grupos):
* * Distancia media
C *
*D
H* *E
11
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS ¿CÓMO ANALIZA?
C *
*D
H* *E
12
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS ¿CÓMO ANALIZA?
C *
*D
H* *E
13
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS ¿CÓMO ANALIZA?
C *
*D
H* *E
14
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS ¿CÓMO ANALIZA?
C *
8,5
*D
12,0 9,0
9,5
H* *E
15
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS ¿CÓMO ANALIZA?
10,5
C *
*D
d(C;AB)=max(dCA;dCB)
9,5
H* *E
16
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS ¿CÓMO ANALIZA?
7,0
d(C;AB)=min(dCA;dCB)
C *
Inconvenientes: Encadenamiento 8,5
*D
8,5
• Vinculación Intragrupos
• Vinculación intergrupos
• Mediana
• Centroide
• Ward C *
Tienden a obtener conglomerados de *D
tamaño similar. 9,0
Preferibles al resto de jerárquicos, especialmente
WARD y VINCULACIÓN INTERGRUPOS.
H* *E
18
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS ¿CÓMO ANALIZA?
20
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS ¿CÓMO ANALIZA?
3. Cuántos conglomerados
podemos distinguir en los datos.
21
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS ¿CÓMO ANALIZA?
OBS 2 *
Paso 0: OBS 3 *
Cada observación
Es considerada
como un OBS 4 *
conglomerado
independiente OBS 5 *
OBS 6 *
Medida de Distancia
22
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS ¿CÓMO ANALIZA?
OBS 1 *
Cluster 1
OBS 2 *
Paso 1: OBS 3 *
Se agrupan los dos
casos más próximos OBS 4 *
entre sí.
OBS 5 *
OBS 6 *
23
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS ¿CÓMO ANALIZA?
OBS 1 *
Cluster 1
OBS 2 *
Paso 2:
Se agrupan los OBS 3 *
siguientes casos con
menores distancias OBS 4 *
entre ellos.
OBS 5 *
Cluster 2
OBS 6 *
24
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS ¿CÓMO ANALIZA?
OBS 1 *
Cluster 1
OBS 2 *
Paso 3:
OBS 3 *
El caso 3 se une al
clúster 1 OBS 4 *
OBS 5 *
Cluster 2
OBS 6 *
25
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS ¿CÓMO ANALIZA?
OBS 1 *
OBS 2 *
Cluster 1-2
OBS 3 *
OBS 4 *
Paso 4:
Se juntan los dos OBS 5 *
clusters 1 y 2,
quedando un sólo OBS 6 *
caso desparejado:
un outlier.
0,2 0,4 0,6 0,8 1,0
26
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS ¿CÓMO ANALIZA?
Ejemplos de dendrogramas
Un buen resultado:
2 conglomerados
claros
Un mal resultado:
Tenemos un outlier (caso 1017)
y el dendrograma muestra
encadenamiento
Un mal resultado:
No hay Dendrograma típico al emplear
conglomerados Vecino Más Próximo
claros
27
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS ¿CÓMO ANALIZA?
Ejemplos de dendrogramas
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS ¿CÓMO ANALIZA?
29
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS ¿CÓMO ANALIZA?
Supongamos que el
número de grupos
k = 3.
30
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS ¿CÓMO ANALIZA?
Iteración 0
Se comienza con una
posición aleatoria de los
centroides.
31
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS ¿CÓMO ANALIZA?
Iteración 1
Se asigna cada caso
al centroide más
próximo.
32
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS ¿CÓMO ANALIZA?
Iteración 2
Se recoloca el centroide
en el centro de los puntos
asignados.
33
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS ¿CÓMO ANALIZA?
Iteración 3
Se continúa iterativamente
hasta que:
1. La distancia entre
centroides es máxima.
2. La distancia caso-
centroide es mínima.
34
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS ¿CÓMO ANALIZA?
- Ward y Vinculación INTERgrupos son los preferidos de entre los jerárquicos: estudios
de simulación han comprobado que adscriben cada elemento a su conglomerado
verdadero mejor que el resto (especialmente WARD). Tienden a ofrecer
conglomerados similares en tamaño y dispersión de sus elementos, de forma
redondeada.
36
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS FASES DEL ANÁLISS
1ª FASE: MÉTODOS
DETECCIÓN Y ELIMINACIÓN DE
JERARQUICOS
OUTLIERS
VINCULACIÓN INTRAGRUPOS:
Obtención de los segmentos ANÁLISIS DE LA ESTABILIDAD
ETAPAS PRELIMINARES
CUESTIONES PREVIAS
PLANTEAMIENTO DEL PROBLEMA ¿Cuál es el objetivo de mi estudio?
¿Busco explorar datos o confirmar hipótesis?
SELECCIÓN DE VARIABLES
¿Quiero encontrar segmentos o grupos?
DETECCIÓN Y ELIMINACIÓN DE
Las variables deben ser independientes, no
JERARQUICOS
OUTLIERS
correlacionadas. Si son ítems de un test
WARD: OBTENCIÓN DEL NÚMERO
mejor hacer un análisis factorial antes.
DE CONGLOMERADOS
Debe tener sentido agruparlas
VINCULACIÓN INTRAGRUPOS:
ANÁLISIS DE LA ESTABILIDAD Rubbish in, rubbish out.
El número de variables a introducir en el
CREACIÓN DEL FICHERO DE MEDIAS
DE CADA CONGLOMERADO
análisis no es importante (Md = 15).
Sí debe mantenerse un número suficiente de
2ª FASE: MÉTODO K-MEDIAS: casos por variable, idealmente 2m (m = nº
OBTENCIÓN DE LA SOLUCIÓN
CONGLOMERATIVA FINAL variables).
Por lo tanto, mejor muestras grandes y
PERFILADO DE LOS representativas.
CONGLOMERADOS
38
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS FASES DEL ANÁLISS
SELECCIÓN DE VARIABLES
DETECCIÓN Y ELIMINACIÓN DE
JERARQUICOS
PERFILADO DE LOS
CONGLOMERADOS
39
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS FASES DEL ANÁLISS
DETECCIÓN Y ELIMINACIÓN DE
JERARQUICOS
OUTLIERS
sólo el dendrograma.
WARD: OBTENCIÓN DEL NÚMERO
DE CONGLOMERADOS El dendrograma nos muestra 3 grupos
claros:
VINCULACIÓN INTRAGRUPOS:
ANÁLISIS DE LA FIABILIDAD
PERFILADO DE LOS
CONGLOMERADOS
40
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS FASES DEL ANÁLISS
SELECCIÓN DE VARIABLES
DETECCIÓN Y ELIMINACIÓN DE
JERARQUICOS
OUTLIERS
VINCULACIÓN INTRAGRUPOS:
ANÁLISIS DE LA ESTABILIDAD
41
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS FASES DEL ANÁLISS
SELECCIÓN DE VARIABLES
DETECCIÓN Y ELIMINACIÓN DE
JERARQUICOS
OUTLIERS
VINCULACIÓN INTRAGRUPOS:
ANÁLISIS DE LA ESTABILIDAD
PERFILADO DE LOS
CONGLOMERADOS
42
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS FASES DEL ANÁLISS
DETECCIÓN Y ELIMINACIÓN DE
JERARQUICOS
OUTLIERS
VINCULACIÓN INTRAGRUPOS:
ANÁLISIS DE LA ESTABILIDAD Se copian los datos en un fichero de datos,
nombrando a las variables exactamente igual
CREACIÓN DEL FICHERO DE MEDIAS e incluyendo una variable que se debe llamar
DE CADA CONGLOMERADO necesariamente cluster_
2ª FASE: MÉTODO K-MEDIAS:
OBTENCIÓN DE LA SOLUCIÓN
CONGLOMERATIVA FINAL
PERFILADO DE LOS
CONGLOMERADOS
43
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS FASES DEL ANÁLISS
DETECCIÓN Y ELIMINACIÓN DE
JERARQUICOS
OUTLIERS
La variable que se crea en el archivo de datos
WARD: OBTENCIÓN DEL NÚMERO tras un k medias se reconoce bien respecto de un
DE CONGLOMERADOS método jerárquico.
VINCULACIÓN INTRAGRUPOS:
ANÁLISIS DE LA ESTABILIDAD
44
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS FASES DEL ANÁLISS
DETECCIÓN Y ELIMINACIÓN DE
JERARQUICOS
OUTLIERS
Debemos cruzarlos con otras variables del
WARD: OBTENCIÓN DEL NÚMERO cuestionario (no utilizadas para crear los
DE CONGLOMERADOS grupos) con el fin de perfilarlos, saber un
poco más de ellos.
VINCULACIÓN INTRAGRUPOS:
ANÁLISIS DE LA ESTABILIDAD Para ello se utilizan:
PERFILADO DE LOS
CONGLOMERADOS
45
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS FASES DEL ANÁLISS
SELECCIÓN DE VARIABLES
DETECCIÓN Y ELIMINACIÓN DE
JERARQUICOS
OUTLIERS
VINCULACIÓN INTRAGRUPOS:
ANÁLISIS DE LA ESTABILIDAD
PERFILADO DE LOS
CONGLOMERADOS
46