Sei sulla pagina 1di 15

ANLISIS CLUSTER

Estudio de Caso: 14-1.sav


UNIVERSIDAD GALILEO
FACULTAD DE CIENCIA, TECNOLOGA E INDUSTRIA
DOCTORADO EN ADMINISTRACIN CON ESPECIALIDAD
EN FINANZAS







ARQ. ALVARO COUTIO G.
Carnet 1300-4393
ANLISIS CLUSTER

1

Contenido
INTRODUCCIN .............................................................................................................................. 2
1. INFORMACIN CASO DE ESTUDIO ..................................................................................... 3
2. ANLISIS ................................................................................................................................... 3
2.1. DECRIPTIVOS ....................................................................................................................... 3
2.1.1. Estadsticos descriptivos ..................................................................................................... 3
2.1.2. Estadsticos descriptivos ..................................................................................................... 4
3. Grfico de dispersin .................................................................................................................. 4
4. Correlaciones: ............................................................................................................................. 5
A. ANLISIS JERARQUICO DE CONGLOMERADOS......................................................... 5
5. Conglomerado ............................................................................................................................. 6
5.1. Resumen del procesamiento de los casos ................................................................................ 6
6. Vinculacin promedio (inter-grupos) .......................................................................................... 7
6.1. Historial de conglomeracin ................................................................................................... 7
6.2. Conglomerado de pertenencia ................................................................................................. 8
6.3. Dendograma: ........................................................................................................................... 9
B. ANLISIS NO JERRQUICO DE CONGLOMERADOS: .............................................. 10
7. Anlisis de conglomerados y K-medias .................................................................................... 10
7.1. Centros iniciales de los conglomerados ................................................................................ 10
7.2. Historial de relaciones ........................................................................................................... 10
7.3. Pertenencia a los conglomerados .......................................................................................... 10
7.3.1. Pertenencia conglomerados ordenados por grupo (Realizado en excel) ........................... 11
7.4. Centros de los conglomerados finales ................................................................................... 11
7.5. Distancias entre los centros de los conglomerados finales .................................................... 12
7.6. ANOVA ................................................................................................................................ 12
7.7. Nmero de casos en cada conglomerado .............................................................................. 12
8. CONCLUSIONES: ................................................................................................................... 12
9. BIBLIOGRAFA ....................................................................................................................... 13

ANLISIS CLUSTER

2

INTRODUCCIN
El anlisis clster es un conjunto de tcnicas multivariante utilizadas para clasificar a un
conjunto de individuos en grupos homogneos. Por lo tanto, se utiliza la informacin de
una serie de variables para cada sujeto u objeto y, conforme a estas variables se mide la
similitud entre ellos. Una vez medida la similitud se agrupan en: grupos homogneos
internamente y diferentes entre s. La "nueva dimensin" lograda con el clster se
aprovecha despus para facilitar la aproximacin "segmentada" de un determinado anlisis.
En consecuencia, el objetivo es obtener clasificaciones (clusterings), teniendo, por lo tanto,
el anlisis un marcado carcter exploratorio y de agrupacin.
En el campo de los bienes races y construccin, es de utilidad cuando la empresa desea
clasificar a sus consumidores en tipos segn sus distintas percepciones de determinados
atributos del proyecto: Calidad, precio, servicios, especificaciones, entorno, acceso,
distancias a puntos estratgicos de conveniencia, reas de la ciudad, zonas, niveles de
violencia, entre otras. Para ello, se disea una muestra con 100 clientes a los que se
cuestiona sobre su percepcin, en una escala de intervalos, de las anteriores caractersticas
de los productos de la empresa. El resultado final consiste en disear diferentes estrategias
de promocin en funcin de sus diversos perfiles.
En el siguiente anlisis, se procede a realizar un estudio de caso mediante el anlisis
clster, el cual est dividido en el proceso de anlisis, resultados, conceptos y conclusiones.






ANLISIS CLUSTER

3

1. INFORMACIN CASO DE ESTUDIO
1. Con la tcnica de Anlisis de conglomerados clasificar a los jvenes (base de datos
14-1) segn:
Nmero de veces que van anualmente al futbol (futbol)
La paga semanal que reciben (paga2)
El nmero de horas semanales que ven la televisin.
Preguntas
1. Utilizar anlisis clster jerrquico y no jerrquico (con todos los conglomerados).Para
homogenizar las variables, estandarcelas por medio del procedimiento descriptivos
pidiendo que guarde los valores tipificados como variables.
2. Utilice estas variables tipificadas (en la base de datos original).
3. Indique que casos quedan en cada conglomerado para cada uno de los procedimientos:
3.1. jerrquico
3.2. no jerrquico.
4. Proponga un nombre para cada conglomerado.
Como primer paso,
Cargue en SPSS el archivo de nombre 14-1.sav, (archivo abrir datos) se trata de
clasificar a los jvenes por el nmero de veces que van anualmente al futbol, la pagas
semanal que reciben y el nmero de horas que ven la televisin.
2. ANLISIS
2.1. DECRIPTIVOS
2.1.1. Estadsticos descriptivos
Estadsticos descriptivos

N Mnimo Mximo Media Desv. tp.
ASISTENCIA ANUAL AL FUTBOL 14 0 8 3.71 3.429
PAGA SEMANAL EN PTAS 14 1000 2500 1557.14 730.347
HORAS SEMANALES TV 14 5 22 15.86 5.051
N vlido (segn lista) 14


ANLISIS CLUSTER

4

Como paso siguiente, se procede a tipificar
1
las variables, ya que, al trabajar con
distancias, todas las variables han de venir medidas en las mismas unidades.
Para ste anlisis realizamos los siguientes pasos:
1. Analizar
1.1. Estadsticos descriptivos
1.1.1. Descriptivos
1.1.1.1. Guardar valores tipificados como variables
2.1.2. Estadsticos descriptivos
Estadsticos descriptivos

N Mnimo Mximo Media Desv. tp.
Puntuacin Z: ASISTENCIA ANUAL AL FUTBOL 14 -1.08319 1.24983 .0000000 1.00000000
Puntuacin Z: PAGA SEMANAL EN PTAS 14 -.76285 1.29097 .0000000 1.00000000
Puntuacin Z: HORAS SEMANALES TV 14 -2.14934 1.21607 .0000000 1.00000000
N vlido (segn lista) 14

El siguiente paso, es realizar grficos de dispersin
2
en tres dimensiones para las
tres variables tipificadas con el objeto de observar los posibles grupos.
Para ste anlisis realizamos los siguientes pasos:
1. Grficos
1.1. Dispersin
1.1.1. Seleccionamos 3D (Variables tipificadas: Eje X: futbol, Eje Y: Paga2, Eje Z:
TV)
3. Grfico de dispersin



1
Tipificar las variables: Procedimiento para estandarizar las variables y que exista as una comparabilidad
entre las variables. (Prez Lpez, 2004, pg. 447)
2
Grfico de dispersin: Observa la relacin entre dos o ms variables. (Prez Lpez, 2004, pg. 82)
ANLISIS CLUSTER

5

Interpretacin:
Se observa que se podra agrupar a los individuos en tres grupos.
Es siguiente paso es realizar un anlisis de correlaciones bivariadas
3
:

Para ste anlisis realizamos los siguientes pasos:
1. analizar
1.1. Correlaciones
1.1.1. Bivariadas
4. Correlaciones:
Correlaciones
Puntuacin Z:
ASISTENCIA
ANUAL AL
FUTBOL
Puntuacin Z:
PAGA
SEMANAL EN
PTAS
Puntuacin Z:
HORAS
SEMANALES
TV
Puntuacin Z: ASISTENCIA ANUAL AL
FUTBOL
Correlacin de Pearson 1 -.291 -.229
Sig. (bilateral)

.313 .431
N 14 14 14
Puntuacin Z: PAGA SEMANAL EN PTAS
Correlacin de Pearson -.291 1 .025
Sig. (bilateral) .313

.932
N 14 14 14
Puntuacin Z: HORAS SEMANALES TV
Correlacin de Pearson -.229 .025 1
Sig. (bilateral) .431 .932

N 14 14 14
Se observa que existen tres grupos.
A. ANLISIS JERARQUICO
4
DE CONGLOMERADOS
El siguiente paso es realizar un anlisis de jerrquico
Para ste anlisis realizamos los siguientes pasos:
1. Analizar
1.1. Clasificar
1.1.1. Conglomerado jerrquico
1.1.1.1. Variables: Tipificadas
1.1.1.1.1. Estadsticos

3
Correlaciones Bivariadas: Permite comprobar la independencia de las variables continuas. (Prez Lpez,
2004, pg. 446)
4
Anlisis jerrquico: Procedimiento que intenta identificar grupos relativamente homogneos de casos o de
variables basndose en caractersticas seleccionadas, mediante un algoritmo que comienza con cada caso o
cada variable en un conglomerado diferente y combina los conglomerados hasta que slo queda uno. (Prez
Lpez, 2004, pg. 440)
ANLISIS CLUSTER

6

a. Historial de conglomeracin
b. Rangos 2 4
1.1.1.1.2. Grficos
a. Dendograma
b. Horizontal
1.1.1.1.3. Mtodo
1.1.1.1.4. Guardar
1.1.1.1.5. Rango 2 4
5. Conglomerado
5.1. Resumen del procesamiento de los casos
Resumen del procesamiento de los casos
a,b

Casos
Vlidos Perdidos Total
N Porcentaje N Porcentaje N Porcentaje
14 100.0 0 .0 14 100.0
a. distancia eucldea al cuadrado usada
b. Vinculacin promedio (Inter-grupos)
Interpretacin:
Se muestran el nmero de porcentaje de casos vlidos analizados, el nmero y
porcentaje de casos con valores perdidos en alguna de las variables incluidas en los
anlisis y el tamao total de la muestra, que no es otra cosa que la suma de los casos
vlidos y los perdidos. (Anliss de conglomerados, 2014, pg. 477)
En la tabla siguiente, se muestra el historial del proceso de conglomeracin, etapa por
etapa. Por lo tanto en cada etapa se unen dos elementos, como la muestra analizada tienen
14 casos slo se realizan 13 etapas de fusin.




ANLISIS CLUSTER

7

6. Vinculacin promedio (inter-grupos)
6.1. Historial de conglomeracin
5

Historial de conglomeracin
Etapa Conglomerado que se combina Coeficientes Etapa en la que el conglomerado aparece
por primera vez
Prxima etapa
Conglomerado 1 Conglomerado 2 Conglomerado 1 Conglomerado 2
1 3 9 .000 0 0 8
2 2 8 .000 0 0 9
3 7 10 .104 0 0 6
4 5 11 .379 0 0 5
5 5 13 .575 4 0 9
6 7 14 .679 3 0 10
7 1 6 1.065 0 0 11
8 3 4 1.065 1 0 10
9 2 5 1.640 2 5 12
10 3 7 5.138 8 6 12
11 1 12 5.157 7 0 13
12 2 3 6.565 9 10 13
13 1 2 8.378 11 12 0

Interpretacin
La columna conglomerado que se combina informa sobre los conglomerados o casos
fundidos en cada etapa. En la primera etapa se han fundido los casos 3 y 9 del archivo de
datos. Como el anlisis se inicia con todos los casos separados en conglomerados
individuales, la primera etapa siempre se refiere a casos individuales. A partir de ese
momento, estos dos casos constituyen el conglomerado 3 y son indivisibles en las etapas
posteriores.
La Columna Coeficientes, ofrece el valor de la distancia la que se encuentran los casos
antes de la fusin. En la primera etapa, la distancia a la que se encuentran los casos 3 y 9
vale 0, lo que significa que se trata de casos con idnticas puntuaciones.
La columna Etapa en la que el conglomerado aparece por primera vez recoge la etapa
en la que se han formado los conglomerados que se estn fundiendo en cada momento. El

5
Historial de conglomeracin: Muestra los casos o conglomerados combinados en cada etapa, las distancias
entre los casos o los conglomerados que se combinan, as como el ltimo nivel del proceso de aglomeracin
en el que cada caso o variable se uni a su conglomerado correspondiente. (Prez Lpez, 2004, pg. 441)
RANGO DE SOLUCIONES 3 O 4 CLUSTER
ANLISIS CLUSTER

8

valor 0 indica que el conglomerado correspondiente es un caso individual. Un valor mayor
que o indica el nmero de etapa en la que se form el conglomerado. En nuestro caso, el
valor 0 nos indica que los conglomerados son casos individuales, lo que significa el
surgimiento de 4 conglomerados.
La columna Prxima etapa, indica la etapa en la que el conglomerado que se acaba de
formar volver a fundirse con otros elementos. En nuestro caso es en las etapas 5, 6, 8 y 9
respectivamente.
6.2. Conglomerado de pertenencia
6

Conglomerado de pertenencia
Caso 4 conglomerados 3 conglomerados 2 conglomerados
1 1 1 1
2 2 2 2
3 3 3 2
4 3 3 2
5 2 2 2
6 1 1 1
7 3 3 2
8 2 2 2
9 3 3 2
10 3 3 2
11 2 2 2
12 4 1 1
13 2 2 2
14 3 3 2

6
Conglomerado de pertenencia: Permite guardar los conglomerados de pertenencia para una solucin nica
o un rango de soluciones. Las variables pueden emplearse en anlisis posteriores para explorar otras
diferencias entre los grupos. (Prez Lpez, 2004, pg. 442)
Interpretacin:
Se refiere al conglomerado de pertenencia al que pertenece cada caso.
ANLISIS CLUSTER

9

6.3. Dendograma
7
:


Interpretacin:
Para interpretar estos resultados se recuerda que el objetivo es agrupar los individuos
considerando sus caractersticas. Por lo tanto, tener un solo grupo no aporta informacin.
En consecuencia, sabiendo que a menor distancia los conglomerados son ms homogneos,
es conveniente detener el proceso de unin cuando las lneas horizontales sean muy largas:
en el caso de estudio, se detiene el proceso en la distancia 16,4 obteniendo 4 clusters.
Se observa en el dendograma la conformacin de 4 grupos:
Grupo A: 3, 9, 4, (Tienen poco dinero, les gusta futbol, y lo ven por la TV)
Grupo B: 7, 10, 14 (Tienen poco dinero, no les gusta el futbol, si les gusta la TV)
Grupo C: 2, 8, 5, 11, 13 (Tienen dinero para ir al futbol pero el futbol les es
indiferente, si les gasta la TV)
Grupo D: 1, 6, 12 (Poco dinero, no les interesa el futbol, no le interesa la TV)
El siguiente paso es el realizar un anlisis no jerrquico

7
Dendograma: Se usan para evaluar la cohesin de los conglomerados que se han formado y proporcionar
informacin sobre el nmero adecuado de conglomerados que deben conservarse. (Prez Lpez, 2004, pg.
443)
ANLISIS CLUSTER

10

B. ANLISIS NO JERRQUICO
8
DE CONGLOMERADOS:
Para ste anlisis realizamos los siguientes pasos:
2. Analizar
2.1. Clasificar
2.1.1. Conglomerado de K-medias
2.1.1.1. Variables: Tipificadas
2.1.1.2. Numero de conglomerados 4
2.1.2. Opciones
2.1.2.1. Informacin de conglomerados de cada caso
7. Anlisis de conglomerados y K-medias
7.1. Centros iniciales de los conglomerados
Centros iniciales de los conglomerados

Conglomerado
1 2 3
Puntuacin Z(ftbol) ASISTENCIA ANUAL AL
FUTBOL
1.24983 -.79156 .95821
Puntuacin Z(paga2) PAGA SEMANAL EN PTAS -.76285 1.29097 -.76285
Puntuacin Z: Puntuacin Z: HORAS SEMANALES TV -2.14934 -.56562 1.21607
7.2. Historial de relaciones
Historial de iteraciones
a

Iteracin
Cambio en los centros de los conglomerados
1 2 3
1 .516 .753 .754
2 .000 .261 .243
3 .000 .000 .000
a. Se ha logrado la convergencia debido a que los centros de los conglomerados no presentan ningn cambio o ste es pequeo. El cambio
mximo de coordenadas absolutas para cualquier centro es de .000. La iteracin actual es 3. La distancia mnima entre los centros iniciales
es de 3.233.
7.3. Pertenencia a los conglomerados
Pertenencia a los conglomerados
Nmero de caso Conglomerado Distancia
1 1 .516
2 2 .984
3 3 1.281
4 3 .990
5 2 .828
6 1 .516

8
Anlisis no jerrquico: Procedimiento que intenta identificar grupos de casos relativamente homogneos
basndose en las caractersticas seleccionadas y utilizando un algoritmo que pueden gestionar un gran
nmero de casos. (Prez Lpez, 2004, pg. 437)
ANLISIS CLUSTER

11

7 3 .990
8 2 .984
9 3 1.281
10 3 1.258
11 2 .397
12 2 2.070
13 2 .591
14 3 1.216
7.3.1. Pertenencia conglomerados ordenados por grupo (Realizado en Excel)
Pertenencia a los conglomerados
Nmero de caso Conglomerado Distancia
1
1 .516
6 1 .516
2 2 .984
5 2 .828
8 2 .984
11 2 .397
12 2 2.070
13 2 .591
3 3 1.281
4 3 .990
7 3 .990
9 3 1.281
10 3 1.258
14
3 1.216
Interpretacin:
Se observa en la tabla de pertenencia la conformacin de 3 grupos:
Grupo A: 1, 6 (Poco inters, en el futbol, poco inters en TV, poco dinero para esos
fines, prefieren otro tipo de entretenimiento y diversin)
Grupo B: 2, 5, 8, 11, 12, 13 (Tienen dinero, no les interesa el futbol)
Grupo C: 3, 4, 7, 9, 10, 14. (Les interesa la TV, No tienen dinero para asistir a los
partidos en vivo y si les interesa ver el futbol por la TV)
7.4. Centros de los conglomerados finales
Centros de los conglomerados finales

Conglomerado
1 2 3
Puntuacin Z(ftbol) ASISTENCIA ANUAL AL FUTBOL
1.10402 -.45133 .08332
Puntuacin Z(paga2) PAGA SEMANAL EN PTAS
-.76285 .97149 -.71721
Puntuacin Z: Puntuacin Z: HORAS SEMANALES TV
-1.65443 -.20268 .75415
ANLISIS CLUSTER

12

7.5. Distancias entre los centros de los conglomerados finales
Distancias entre los centros de los conglomerados finales
Conglomerado 1 2 3
1

2.745 2.616
2 2.745

2.013
3 2.616 2.013


7.6. ANOVA
ANOVA

Conglomerado Error F Sig.
Media cuadrtica gl Media cuadrtica gl
Puntuacin Z(ftbol)
ASISTENCIA ANUAL AL
FUTBOL
1.851 2 .845 11 2.189 .158
Puntuacin Z(paga2) PAGA
SEMANAL EN PTAS
4.956 2 .281 11 17.661 .000
Puntuacin Z: Puntuacin Z:
HORAS SEMANALES TV
4.567 2 .352 11 12.991 .001
Las pruebas F slo se deben utilizar con una finalidad descriptiva puesto que los conglomerados han sido elegidos para maximizar las
diferencias entre los casos en diferentes conglomerados. Los niveles crticos no son corregidos, por lo que no pueden interpretarse como
pruebas de la hiptesis de que los centros de los conglomerados son iguales.

7.7. Nmero de casos en cada conglomerado
Nmero de casos en cada conglomerado
Conglomerado
1 2.000
2 6.000
3 6.000
Vlidos 14.000
Perdidos .000
Interpretaciones.
8. CONCLUSIONES:
El clster es una tcnica de clasificacin que sirve para poder detectar y describir
subgrupos de sujetos o variables homogneas en funcin de los valores observados dentro
de un conjunto aparentemente heterogneo. Se fundamenta en el estudio de las distancias
entre ellos, permitiendo en el anlisis, cuantificar el grado de similitud, en el caso de las
proximidades, y el grado de diferencia, en el caso de las distancias. Como resultado
aparecen agrupaciones homogneas.
A diferencia de otras pruebas de clasificacin, el investigador no tiene conocimiento de
la existencia de los subgrupos o conglomerados, ni del nmero resultante, ni de las
ANLISIS CLUSTER

13

caractersticas que los definen. Por lo tanto, es una tcnica exploratoria y descriptiva sin
variables dependientes.
El objetivo fundamental de esta tcnica es la configuracin de grupos similares y
homogneos para poder entender y estudiar mejor los fenmenos sociales y educativos. En
el campo de los bienes races e inmobiliario, nos ayuda en estudiar a los diferentes grupos
de clientes para los proyectos segn sus caractersticas, as como tambin puede ayudar en
el rea urbanstica donde nos puede orientar en el crecimiento de las poblaciones en las
ciudades.
9. BIBLIOGRAFA
(Mayo de 2014). Recuperado el Mayo de 2014, de
http://www.uam.es/personal_pdi/ciencias/ajustel/docencia/ad/AD10_11_Discrimina
nte.pdf
(Mayo de 2014). Recuperado el Mayo de 2014, de
ftp://public.dhe.ibm.com/software/analytics/spss/documentation/statistics/20.0/es/cli
ent/Manuals/IBM_SPSS_Statistics_Base.pdf
(Mayo de 2014). Recuperado el Mayo de 2014, de
http://halweb.uc3m.es/esp/Personal/personas/jmmarin/esp/GuiaSPSS/22conglj.pdf
Google. (Ayo de 2014). Recuperado el Mayo de 2014, de
file:///C:/Users/DELL/Downloads/8099-15991-1-PB.pdf
Google. (Mayo de 2014). Recuperado el Mayo de 2014, de
file:///C:/Users/DELL/Downloads/8099-15991-1-PB.pdf
Google. (Mayo de 2014). Recuperado el Mayo de 2014, de
https://www.google.com.gt/url?sa=t&rct=j&q=&esrc=s&source=web&cd=6&ved=
0CEkQFjAF&url=http%3A%2F%2Fpersonal.us.es%2Fanalopez%2Fpracticasac1.p
pt&ei=DpaHU-
6YII7JsQT2t4HoDQ&usg=AFQjCNGp3PxExsXuzuUbmcGQ3vEq1zLa_w
ANLISIS CLUSTER

14

Google. (Mayo de 2014). Recuperado el Mayo de 2014, de
http://rua.ua.es/dspace/bitstream/10045/12079/1/Capitulo9.pdf
You tube. (Mayo de 2014). Recuperado el Mayo de 2014, de
http://www.youtube.com/watch?v=IYg0npCrSGw
You Tube. (Mayo de 2014). Recuperado el Mayo de 2014, de
http://www.youtube.com/watch?v=07lCKn6EEMQ
De la Fuente Fernandez, S. (Mayo de 2014). Google. Recuperado el Mayo de 2014, de
http://www.fuenterrebollo.com/Economicas/ECONOMETRIA/SEGMENTACION/
CONGLOMERADOS/conglomerados.pdf
IBM SPSS Statistics Base 20. (Mayo de 2014). Google. Recuperado el Mayo de 2014, de
ftp://public.dhe.ibm.com/software/analytics/spss/documentation/statistics/20.0/es/cli
ent/Manuals/IBM_SPSS_Statistics_Base.pdf
Lind, D. A., Marchal, W. G., & Wathen, S. .. (2008). Estadstica aplicada a los negocios y
la economa. Mxico D. F.: McGraw-Hill Interamericana.
Martinez Miranda, M. D. (Mayo de 2014). Google. Recuperado el Mayo de 2014, de
http://www.ugr.es/~curspss/archivos/Cluster/cluster.pdf
Prez Lpez, C. (2004). Tcnicas de Anlisis Multivariante de Datos. Madrid: PEARSON
EDUCACIN, S. A.
villardn, J. L. (Mayo de 2014). Google. Obtenido de
http://benjamindespensa.tripod.com/spss/AC.pdf

Potrebbero piacerti anche