Sei sulla pagina 1di 46

TEMA 6

ANÁLISIS DE CONGLOMERADOS

Facultade de Psicoloxía. Campus Sur, s/n. 15782 Santiago de Compostela


www.usc.es/psicom

Dr. Jesús Varela Mallou


Dr. Antonio Rial Boubeta
Dr. Eduardo Picón Prado
Análisis Multivariante
Santiago de Compostela, 2018
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS INTRODUCCIÓN

Lecturas obligatorias

Picón, E. Varela, J. y Real, E. (2003):


Clasificación y Segmentación Post Hoc
mediante el Análisis de Conglomerados.
En J.P. Lévy y J. Varela (Dirs.): Análisis
Multivariante para las Ciencias Sociales.
Madrid: Pearson Educación.

2
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS INTRODUCCIÓN

Contextualización

Métodos de Dependencia: Se asume que una variable (Y) depende de (es


causada o determinada por) otras variables (X1, X2 etc.)

Ejemplos: Regresión, ANOVA, Análisis Discriminante

Métodos de Independencia: No se asume que ninguna variable sea causada o


determinada por otras. Básicamente tenemos X1, X2 ….Xn (pero no Y)

Ejemplos: Análisis de Conglomerados, Análisis Factorial, etc.

Cuándo se usan métodos de independencia se deja que los datos


hablen por ellos mismos. No hay modelización previa.

3
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS INTRODUCCIÓN

Contextualización

Análisis Factorial: Cuando lo que interesa son agrupar variables .

Análisis Clúster: Cuando lo que interesa son agrupar observaciones.

Principio rector: Maximización de la homogeneidad intra grupos (conglomerados,


segmentos) y simultáneamente Maximización de la heterogeneidad inter grupos.

 
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS INTRODUCCIÓN

Dos fases fundamentales. 1ª: Obtención de segmentos

X1 X2 X3 X4 Cluster
Obs1 5 2 1 3 1
Cluster 1 Obs2 3 3 4 2 2
Obs3 2 4 3 5 3
Obs4 5 3 2 4 1
Cluster 2 Obs5 . . . . 2
Obs6 . . . . 3
Obs7 . . . . 3
Cluster 3 Obs8 . . . . 1
Obs9 . . . . 3
Obs10 . . . . 2

Resultado final: En el fichero de datos, una nueva variable que asigna


cada observación a un conglomerado específico.
5
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS INTRODUCCIÓN

Dos fases fundamentales. 2ª: Perfilado de segmentos

Resultado final: Una tabla de contingencia entre la variable de agrupamiento y una


serie de variables sociodemográficas o de otro tipo (distintas de las utilizadas para
establecer los conglomerados).

Cluster 1 Cluster 2 Cluster 3


Edad 32 44 56
% Mujeres 31 54 46
Tamaño de la familia 1.4 2.9 2.1
Opinión 1 3.2 4.0 2.6
Opinión 2 2.1 3.4 3.2
Opinión 3 2.2 3.3 3.0

“Jóvenes solteros”

“Familia tradicional”

“Maduros felices”
6
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS ¿CÓMO ANALIZA?

¿Cómo se construyen los conglomerados?

El análisis estadístico necesita:


1. Una MEDIDA para calcular la distancia entre dos sujetos, lo distintos
que son.
2. Un criterio, una regla, un MÉTODO PARA AGRUPARLOS y asignarlos a
cada conglomerado.
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS ¿CÓMO ANALIZA?

¿La medida? Distancia Euclídea (por defecto en SPSS)

Y B (x2, y2)
*

y2-y1

A
*
(x1, y1)
x2-x1
X
2 2
d = (x2-x1) + (y2-y1)

Otras distancias disponibles en SPSS: City-Block (usa  de distancias absolutas en


vez de la distancia al cuadrado de las coordenadas), Minkowski, Coseno,
Chebychev, Correlación de Pearson.

El tipo de medida seleccionada influye poco en los resultados finales.


8
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS ¿CÓMO ANALIZA?

¿El método de agrupamiento? Hay muchos y muy diferentes

Métodos sin solapamiento Métodos con solapamiento

Jerárquicos Iterativos - k-centroides con solapamiento


- k-medias con solapamiento
- Umbral secuencial - Análisis de Clases Latentes
- Umbral paralelo - AC Borroso
Aglomerativos Divisivos - Redes Neuronales - Factorial Tipo-Q (9)
- Partición óptima (8)

Nombre en SPSS
Métodos de Métodos de Métodos de
1 Vinculación entre-grupos
vinculación centroide varianza
2 Vinculación intra-grupos
3 Vecino más próximo
- Promedio - Centroide (5) - Ward (7) 4 Vecino más lejano
- Entre grupos (1) - Mediana (6) 5 Agrupación de centroides
- Intra grupos (2) 6 Agrupación de medianas
- Ponderado
Nota: Los métodos en cursiva están 7 Método de Ward
- Único disponibles en SPSS. Redes Neuronales 8 Conglomerado de K-medias
- Ordinario (3) requiere de la herramienta de data 9 Análisis Factorial
- Densidad mining Clementine.
- Dos fases
- Completo (4)
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS ¿CÓMO ANALIZA?

Principales tipologías de agrupamiento


Sin solapamiento Con solapamiento
Vinculación única:
* * Mínima distancia

Vinculación completa:
* * Máxima distancia
Jerárquico No jerárquico

* Vinculación media
*
(inter-grupos):
* * Distancia media

Aglomerativo Divisivo * * * * Método de centroide:


* ¤ ¤ * Distancia entre centros
* * * *
1a 1b
1a 1b
* Método de Ward:
*
1c 1b1 * ¤
* ¤* Minimización de la
1b2 * * *
2 * varianza intragrupos
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS ¿CÓMO ANALIZA?

¿CÓMO FUNCIONAN LOS PROCEDIMIENTOS JERÁRQUICOS (AGLOMERATIVOS)?

¿Qué par de elementos se unirán primero?


*G
A* *B

C *
*D

H* *E
11
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS ¿CÓMO ANALIZA?

Depende de la medida de distancia que utilicemos, pero supongamos


que A-B y D-E. Surgen así dos conglomerados.
*G
A* *B

C *
*D

H* *E
12
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS ¿CÓMO ANALIZA?

El siguiente punto más próximo a estos dos conglomerados es C. ¿A


dónde será adscrito?
*G
A* *B

C *
*D

H* *E
13
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS ¿CÓMO ANALIZA?

A dónde se encuentre más próximo (distancia euclídea), pero... EXISTEN


VARIAS POSIBILIDADES (métodos de agrupamiento).
*G
A* *B

C *
*D

H* *E
14
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS ¿CÓMO ANALIZA?

A dónde se encuentre más próximo (distancia euclídea), pero... EXISTEN


VARIAS POSIBILIDADES (métodos de agrupamiento):
*G
A* *B

10,5 8,5 7,0 11,0

C *
8,5
*D
12,0 9,0

9,5

H* *E
15
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS ¿CÓMO ANALIZA?

VECINO MÁS LEJANO (COMPLETE LINKAGE): Adscribe C al conglomerado


cuya distancia el caso más alejado de ese conglomerado es menor.
*G
A* *B

10,5

C *
*D
d(C;AB)=max(dCA;dCB)

9,5

H* *E
16
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS ¿CÓMO ANALIZA?

VECINO MÁS PRÓXIMO (SINGLE LINKAGE): Adscribe C al conglomerado


cuyo distancia al caso más cercano de ese conglomerado es menor.
*G
A* *B

7,0

d(C;AB)=min(dCA;dCB)

C *
Inconvenientes:  Encadenamiento 8,5
*D

Ventajas: Detecta muy bien “outliers”.


H* *E
17
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS ¿CÓMO ANALIZA?

MÉTODOS BASADOS EN PUNTUACIONES MEDIAS: Adscribe C al


conglomerado cuya promedio de distancias es menor.
*G
A* *B

8,5
• Vinculación Intragrupos
• Vinculación intergrupos
• Mediana
• Centroide
• Ward C *
Tienden a obtener conglomerados de *D
tamaño similar. 9,0
Preferibles al resto de jerárquicos, especialmente
WARD y VINCULACIÓN INTERGRUPOS.

H* *E
18
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS ¿CÓMO ANALIZA?

MÉTODOS BASADOS EN PUNTUACIONES MEDIAS: Adscribe C al


conglomerado cuya distancia es menor a...

Vinculación INTERgrupos: Media de todas las distancias entre C y cada uno de


los elementos del conglomerado.

Vinculación INTRAgrupos: Incluye además las distancias dentro de cada


conglomerado, es decir, todas las posibles.
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS ¿CÓMO ANALIZA?

MÉTODOS BASADOS EN PUNTUACIONES MEDIAS: Adscribe C al


conglomerado cuya distancia es menor a...

Centroide: Centro de simetría del cluster, calculado como la media de las


distancias de todos sus elementos:

Mediana: Centroides calculados sólo con valores centrales.

Ward: Proporciona la menor suma de cuadrados intragrupos. En vez de utilizar


las distancias entre casos utiliza esta medida de variabilidad.

20
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS ¿CÓMO ANALIZA?

Todos estos métodos JERÁRQUICOS...

... como resultado de su proceso


aglomerativo, ofrecen un
DENDROGRAMA, una representación
gráfica en forma de árbol que
muestra:

1. Qué elementos se han ido


uniendo en cada paso.

2. Cómo se organizan los casos.

3. Cuántos conglomerados
podemos distinguir en los datos.

21
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS ¿CÓMO ANALIZA?

¿CÓMO SE CREA EL DENDROGRAMA?


OBS 1 *

OBS 2 *

Paso 0: OBS 3 *
Cada observación
Es considerada
como un OBS 4 *
conglomerado
independiente OBS 5 *

OBS 6 *
Medida de Distancia

0,2 0,4 0,6 0,8 1,0

22
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS ¿CÓMO ANALIZA?

OBS 1 *
Cluster 1
OBS 2 *

Paso 1: OBS 3 *
Se agrupan los dos
casos más próximos OBS 4 *
entre sí.

OBS 5 *

OBS 6 *

0,2 0,4 0,6 0,8 1,0

23
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS ¿CÓMO ANALIZA?

OBS 1 *
Cluster 1
OBS 2 *
Paso 2:
Se agrupan los OBS 3 *
siguientes casos con
menores distancias OBS 4 *
entre ellos.

OBS 5 *
Cluster 2
OBS 6 *

0,2 0,4 0,6 0,8 1,0

24
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS ¿CÓMO ANALIZA?

OBS 1 *
Cluster 1
OBS 2 *

Paso 3:
OBS 3 *
El caso 3 se une al
clúster 1 OBS 4 *

OBS 5 *
Cluster 2
OBS 6 *

0,2 0,4 0,6 0,8 1,0

25
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS ¿CÓMO ANALIZA?

OBS 1 *

OBS 2 *
Cluster 1-2
OBS 3 *

OBS 4 *

Paso 4:
Se juntan los dos OBS 5 *
clusters 1 y 2,
quedando un sólo OBS 6 *
caso desparejado:
un outlier.
0,2 0,4 0,6 0,8 1,0

26
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS ¿CÓMO ANALIZA?

Ejemplos de dendrogramas

Un buen resultado:
2 conglomerados
claros

Un mal resultado:
Tenemos un outlier (caso 1017)
y el dendrograma muestra
encadenamiento
Un mal resultado:
No hay Dendrograma típico al emplear
conglomerados Vecino Más Próximo
claros

27
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS ¿CÓMO ANALIZA?

Ejemplos de dendrogramas
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS ¿CÓMO ANALIZA?

¿Y QUÉ HAY DE LOS MÉTODOS ITERATIVOS?

No agrupan los datos por similaridad entre ellos  No crean un dendrograma.

Son métodos que van ajustando iterativamente los centroides de un número


fijo de conglomerados k a los datos.

• Cada paso de un método jerárquico va agrupando casos similares en un


mismo cluster.
• Cada paso de un método iterativo va recolocando los centroides para que
estén óptimamente posicionados en el centro real del conglomerado.

29
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS ¿CÓMO ANALIZA?

¿CÓMO FUNCIONA K-MEDIAS?

Supongamos que el
número de grupos
k = 3.

30
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS ¿CÓMO ANALIZA?

¿CÓMO FUNCIONA K-MEDIAS?

Iteración 0
Se comienza con una
posición aleatoria de los
centroides.

31
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS ¿CÓMO ANALIZA?

¿CÓMO FUNCIONA K-MEDIAS?

Iteración 1
Se asigna cada caso
al centroide más
próximo.

32
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS ¿CÓMO ANALIZA?

¿CÓMO FUNCIONA K-MEDIAS?

Iteración 2
Se recoloca el centroide
en el centro de los puntos
asignados.

33
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS ¿CÓMO ANALIZA?

¿CÓMO FUNCIONA K-MEDIAS?

Iteración 3
Se continúa iterativamente
hasta que:

1. La distancia entre
centroides es máxima.

2. La distancia caso-
centroide es mínima.

34
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS ¿CÓMO ANALIZA?

¿QUÉ MÉTODO ES PREFERIBLE?

VENTAJAS DE LOS JERÁRQUICOS

- Proporcionan una fotografía de cómo estan organizados los datos  El investigador


puede ver cuántos conglomerados “existen” en los datos.

- Pueden calcularse los centros de esos conglomerados: centroides (medias).

- Vecino Más Próximo es especialmente bueno para localizar outliers.

- Ward y Vinculación INTERgrupos son los preferidos de entre los jerárquicos: estudios
de simulación han comprobado que adscriben cada elemento a su conglomerado
verdadero mejor que el resto (especialmente WARD). Tienden a ofrecer
conglomerados similares en tamaño y dispersión de sus elementos, de forma
redondeada.

DESVENTAJAS DE LOS JERÁRQUICOS


- Cualquiera de los métodos jerárquicos por separado funciona peor que k-medias.
35
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS ¿CÓMO ANALIZA?

¿QUÉ MÉTODO ES PREFERIBLE?

VENTAJAS DE LOS ITERATIVOS


- K medias es el método más robusto respecto a presencia de outliers y errores en
las medidas de distancia.

DESVENTAJAS DE LOS ITERATIVOS


- Requiere que el investigador especifique previamente tanto el número de
conglomerados como sus centros iniciales.

¿SOLUCIÓN? Combinar ambos procedimientos, utilizando:


1. Jerárquico para eliminar outliers, determinar el numero de clusters y sus
centros iniciales.
2. K-medias para obtener la solución conglomerativa final.

36
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS FASES DEL ANÁLISS

Fases a la hora de ejecutar un Análisis de Conglomerados


PLANTEAMIENTO DEL PROBLEMA

Etapas preliminares SELECCIÓN DE VARIABLES

VECINO MÁS PRÓXIMO:

1ª FASE: MÉTODOS
DETECCIÓN Y ELIMINACIÓN DE

JERARQUICOS
OUTLIERS

WARD: OBTENCIÓN DEL NÚMERO


DE CONGLOMERADOS

VINCULACIÓN INTRAGRUPOS:
Obtención de los segmentos ANÁLISIS DE LA ESTABILIDAD

CREACIÓN DEL FICHERO DE MEDIAS


DE CADA CONGLOMERADO

2ª FASE: MÉTODO K-MEDIAS:


OBTENCIÓN DE LA SOLUCIÓN
CONGLOMERATIVA FINAL

Descripción de los segmentos PERFILADO DE LOS CONGLOMERADOS


37
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS FASES DEL ANÁLISS

ETAPAS PRELIMINARES
CUESTIONES PREVIAS
PLANTEAMIENTO DEL PROBLEMA  ¿Cuál es el objetivo de mi estudio?
 ¿Busco explorar datos o confirmar hipótesis?
SELECCIÓN DE VARIABLES
 ¿Quiero encontrar segmentos o grupos?

VECINO MÁS PRÓXIMO: SELECCIÓN DE VARIABLES


1ª FASE: MÉTODOS

DETECCIÓN Y ELIMINACIÓN DE
 Las variables deben ser independientes, no
JERARQUICOS

OUTLIERS
correlacionadas. Si son ítems de un test
WARD: OBTENCIÓN DEL NÚMERO
mejor hacer un análisis factorial antes.
DE CONGLOMERADOS
 Debe tener sentido agruparlas
VINCULACIÓN INTRAGRUPOS:
ANÁLISIS DE LA ESTABILIDAD  Rubbish in, rubbish out.
 El número de variables a introducir en el
CREACIÓN DEL FICHERO DE MEDIAS
DE CADA CONGLOMERADO
análisis no es importante (Md = 15).
 Sí debe mantenerse un número suficiente de
2ª FASE: MÉTODO K-MEDIAS: casos por variable, idealmente 2m (m = nº
OBTENCIÓN DE LA SOLUCIÓN
CONGLOMERATIVA FINAL variables).
 Por lo tanto, mejor muestras grandes y
PERFILADO DE LOS representativas.
CONGLOMERADOS

38
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS FASES DEL ANÁLISS

OBTENCIÓN DE LOS SEGMENTOS

PLANTEAMIENTO DEL PROBLEMA

SELECCIÓN DE VARIABLES

VECINO MÁS PRÓXIMO: Posibles outliers. El


número indica la posición
1ª FASE: MÉTODOS

DETECCIÓN Y ELIMINACIÓN DE
JERARQUICOS

OUTLIERS que ocupan en el fichero.


Se ocultan de los análisis
WARD: OBTENCIÓN DEL NÚMERO y se vuelve a ejecutar
DE CONGLOMERADOS este método para
comprobar el efecto
VINCULACIÓN INTRAGRUPOS: sobre el dendrograma.
ANÁLISIS DE LA ESTABILIDAD

CREACIÓN DEL FICHERO DE MEDIAS


DE CADA CONGLOMERADO

2ª FASE: MÉTODO K-MEDIAS:


OBTENCIÓN DE LA SOLUCIÓN
CONGLOMERATIVA FINAL

PERFILADO DE LOS
CONGLOMERADOS

39
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS FASES DEL ANÁLISS

OBTENCIÓN DE LOS SEGMENTOS

PLANTEAMIENTO DEL PROBLEMA


Para determinar el número de
SELECCIÓN DE VARIABLES conglomerados “natural” existen criterios
numéricos y gráficos.
VECINO MÁS PRÓXIMO:
SPSS no ofrece numéricos y de los gráficos
1ª FASE: MÉTODOS

DETECCIÓN Y ELIMINACIÓN DE
JERARQUICOS

OUTLIERS
sólo el dendrograma.
WARD: OBTENCIÓN DEL NÚMERO
DE CONGLOMERADOS El dendrograma nos muestra 3 grupos
claros:
VINCULACIÓN INTRAGRUPOS:
ANÁLISIS DE LA FIABILIDAD

ACIÓN DEL FICHERO DE MEDIAS


DE CADA CONGLOMERADO

2ª FASE: MÉTODO K-MEDIAS:


OBTENCIÓN DE LA SOLUCIÓN Para validar esta solución, se recomienda
CONGLOMERATIVA FINAL utilizar, además, otro procedimiento 

PERFILADO DE LOS
CONGLOMERADOS

40
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS FASES DEL ANÁLISS

OBTENCIÓN DE LOS SEGMENTOS

PLANTEAMIENTO DEL PROBLEMA

SELECCIÓN DE VARIABLES

VECINO MÁS PRÓXIMO:


1ª FASE: MÉTODOS

DETECCIÓN Y ELIMINACIÓN DE
JERARQUICOS

OUTLIERS

WARD: OBTENCIÓN DEL NÚMERO


DE CONGLOMERADOS

VINCULACIÓN INTRAGRUPOS:
ANÁLISIS DE LA ESTABILIDAD

CREACIÓN DEL FICHERO DE MEDIAS


DE CADA CONGLOMERADO
El análisis del CAMBIO EN EL
2ª COEFICIENTE
FASE: MÉTODODE CONGLOMERACIÓN
K-MEDIAS:
indica DE
OBTENCIÓN queLA3SOLUCIÓN
conglomerados es
además la opción
CONGLOMERATIVA mejor desde un
FINAL
punto de vista estadístico.
PERFILADO DE LOS
CONGLOMERADOS

41
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS FASES DEL ANÁLISS

OBTENCIÓN DE LOS SEGMENTOS

PLANTEAMIENTO DEL PROBLEMA

SELECCIÓN DE VARIABLES

VECINO MÁS PRÓXIMO:


1ª FASE: MÉTODOS

DETECCIÓN Y ELIMINACIÓN DE
JERARQUICOS

OUTLIERS

WARD: OBTENCIÓN DEL NÚMERO


DE CONGLOMERADOS

VINCULACIÓN INTRAGRUPOS:
ANÁLISIS DE LA ESTABILIDAD

CREACIÓN DEL FICHERO DE MEDIAS


DE CADA CONGLOMERADO

2ª FASE: MÉTODO K-MEDIAS:


OBTENCIÓN DE LA SOLUCIÓN
CONGLOMERATIVA FINAL

PERFILADO DE LOS
CONGLOMERADOS

42
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS FASES DEL ANÁLISS

OBTENCIÓN DE LOS SEGMENTOS

PLANTEAMIENTO DEL PROBLEMA


PASOS
SELECCIÓN DE VARIABLES
Se calculan las medias de cada variable para
cada uno de los 3 conglomerados.
VECINO MÁS PRÓXIMO:
1ª FASE: MÉTODOS

DETECCIÓN Y ELIMINACIÓN DE
JERARQUICOS

OUTLIERS

WARD: OBTENCIÓN DEL NÚMERO


DE CONGLOMERADOS

VINCULACIÓN INTRAGRUPOS:
ANÁLISIS DE LA ESTABILIDAD Se copian los datos en un fichero de datos,
nombrando a las variables exactamente igual
CREACIÓN DEL FICHERO DE MEDIAS e incluyendo una variable que se debe llamar
DE CADA CONGLOMERADO necesariamente cluster_
2ª FASE: MÉTODO K-MEDIAS:
OBTENCIÓN DE LA SOLUCIÓN
CONGLOMERATIVA FINAL

PERFILADO DE LOS
CONGLOMERADOS

43
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS FASES DEL ANÁLISS

OBTENCIÓN DE LOS SEGMENTOS

PLANTEAMIENTO DEL PROBLEMA


En esta última fase final especificamos:
SELECCIÓN DE VARIABLES
1. 3 como número de conglomerados.

VECINO MÁS PRÓXIMO: 2. El fichero de medias recién creado como


centros iniciales.
1ª FASE: MÉTODOS

DETECCIÓN Y ELIMINACIÓN DE
JERARQUICOS

OUTLIERS
La variable que se crea en el archivo de datos
WARD: OBTENCIÓN DEL NÚMERO tras un k medias se reconoce bien respecto de un
DE CONGLOMERADOS método jerárquico.

VINCULACIÓN INTRAGRUPOS:
ANÁLISIS DE LA ESTABILIDAD

CREACIÓN DEL FICHERO DE MEDIAS


DE CADA CONGLOMERADO

2ª FASE: MÉTODO K-MEDIAS:


OBTENCIÓN DE LA SOLUCIÓN
CONGLOMERATIVA FINAL

Importante informar del % de casos reasignados a


PERFILADO DE LOS otro conglomerado.
CONGLOMERADOS

44
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS FASES DEL ANÁLISS

PERFILADO DE LOS SEGMENTOS

PLANTEAMIENTO DEL PROBLEMA

SELECCIÓN DE VARIABLES IMPORTANTÍSIMA FASE

VECINO MÁS PRÓXIMO: Tenemos ya los conglomerados formados…


pero ahora qué hacemos con ellos??
1ª FASE: MÉTODOS

DETECCIÓN Y ELIMINACIÓN DE
JERARQUICOS

OUTLIERS
Debemos cruzarlos con otras variables del
WARD: OBTENCIÓN DEL NÚMERO cuestionario (no utilizadas para crear los
DE CONGLOMERADOS grupos) con el fin de perfilarlos, saber un
poco más de ellos.
VINCULACIÓN INTRAGRUPOS:
ANÁLISIS DE LA ESTABILIDAD Para ello se utilizan:

CREACIÓN DEL FICHERO DE MEDIAS - Contrastes F si se cruza la variable de


DE CADA CONGLOMERADO conglomerados con una variable métrica.

2ª FASE: MÉTODO K-MEDIAS: - Contrastes X2 si se cruzan con una variable


OBTENCIÓN DE LA SOLUCIÓN categórica.
CONGLOMERATIVA FINAL

PERFILADO DE LOS
CONGLOMERADOS

45
ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS FASES DEL ANÁLISS

PERFILADO DE LOS SEGMENTOS

PLANTEAMIENTO DEL PROBLEMA

SELECCIÓN DE VARIABLES

VECINO MÁS PRÓXIMO:


1ª FASE: MÉTODOS

DETECCIÓN Y ELIMINACIÓN DE
JERARQUICOS

OUTLIERS

WARD: OBTENCIÓN DEL NÚMERO


DE CONGLOMERADOS

VINCULACIÓN INTRAGRUPOS:
ANÁLISIS DE LA ESTABILIDAD

CREACIÓN DEL FICHERO DE MEDIAS


DE CADA CONGLOMERADO

2ª FASE: MÉTODO K-MEDIAS:


OBTENCIÓN DE LA SOLUCIÓN
CONGLOMERATIVA FINAL

PERFILADO DE LOS
CONGLOMERADOS

46

Potrebbero piacerti anche