0 valutazioniIl 0% ha trovato utile questo documento (0 voti)
108 visualizzazioni15 pagine
El análisis clúster es un conjunto de técnicas multivariante utilizadas para clasificar a un conjunto de individuos en grupos homogéneos. Por lo tanto, se utiliza la información de una serie de variables para cada sujeto u objeto y, conforme a estas variables se mide la similitud entre ellos. Una vez medida la similitud se agrupan en: grupos homogéneos internamente y diferentes entre sí. La "nueva dimensión" lograda con el clúster se aprovecha después para facilitar la aproximación "segmentada" de un determinado análisis. En consecuencia, el objetivo es obtener clasificaciones (clusterings), teniendo, por lo tanto, el análisis un marcado carácter exploratorio y de agrupación.
El análisis clúster es un conjunto de técnicas multivariante utilizadas para clasificar a un conjunto de individuos en grupos homogéneos. Por lo tanto, se utiliza la información de una serie de variables para cada sujeto u objeto y, conforme a estas variables se mide la similitud entre ellos. Una vez medida la similitud se agrupan en: grupos homogéneos internamente y diferentes entre sí. La "nueva dimensión" lograda con el clúster se aprovecha después para facilitar la aproximación "segmentada" de un determinado análisis. En consecuencia, el objetivo es obtener clasificaciones (clusterings), teniendo, por lo tanto, el análisis un marcado carácter exploratorio y de agrupación.
El análisis clúster es un conjunto de técnicas multivariante utilizadas para clasificar a un conjunto de individuos en grupos homogéneos. Por lo tanto, se utiliza la información de una serie de variables para cada sujeto u objeto y, conforme a estas variables se mide la similitud entre ellos. Una vez medida la similitud se agrupan en: grupos homogéneos internamente y diferentes entre sí. La "nueva dimensión" lograda con el clúster se aprovecha después para facilitar la aproximación "segmentada" de un determinado análisis. En consecuencia, el objetivo es obtener clasificaciones (clusterings), teniendo, por lo tanto, el análisis un marcado carácter exploratorio y de agrupación.
UNIVERSIDAD GALILEO FACULTAD DE CIENCIA, TECNOLOGA E INDUSTRIA DOCTORADO EN ADMINISTRACIN CON ESPECIALIDAD EN FINANZAS
ARQ. ALVARO COUTIO G. Carnet 1300-4393 ANLISIS CLUSTER
1
Contenido INTRODUCCIN .............................................................................................................................. 2 1. INFORMACIN CASO DE ESTUDIO ..................................................................................... 3 2. ANLISIS ................................................................................................................................... 3 2.1. DECRIPTIVOS ....................................................................................................................... 3 2.1.1. Estadsticos descriptivos ..................................................................................................... 3 2.1.2. Estadsticos descriptivos ..................................................................................................... 4 3. Grfico de dispersin .................................................................................................................. 4 4. Correlaciones: ............................................................................................................................. 5 A. ANLISIS JERARQUICO DE CONGLOMERADOS......................................................... 5 5. Conglomerado ............................................................................................................................. 6 5.1. Resumen del procesamiento de los casos ................................................................................ 6 6. Vinculacin promedio (inter-grupos) .......................................................................................... 7 6.1. Historial de conglomeracin ................................................................................................... 7 6.2. Conglomerado de pertenencia ................................................................................................. 8 6.3. Dendograma: ........................................................................................................................... 9 B. ANLISIS NO JERRQUICO DE CONGLOMERADOS: .............................................. 10 7. Anlisis de conglomerados y K-medias .................................................................................... 10 7.1. Centros iniciales de los conglomerados ................................................................................ 10 7.2. Historial de relaciones ........................................................................................................... 10 7.3. Pertenencia a los conglomerados .......................................................................................... 10 7.3.1. Pertenencia conglomerados ordenados por grupo (Realizado en excel) ........................... 11 7.4. Centros de los conglomerados finales ................................................................................... 11 7.5. Distancias entre los centros de los conglomerados finales .................................................... 12 7.6. ANOVA ................................................................................................................................ 12 7.7. Nmero de casos en cada conglomerado .............................................................................. 12 8. CONCLUSIONES: ................................................................................................................... 12 9. BIBLIOGRAFA ....................................................................................................................... 13
ANLISIS CLUSTER
2
INTRODUCCIN El anlisis clster es un conjunto de tcnicas multivariante utilizadas para clasificar a un conjunto de individuos en grupos homogneos. Por lo tanto, se utiliza la informacin de una serie de variables para cada sujeto u objeto y, conforme a estas variables se mide la similitud entre ellos. Una vez medida la similitud se agrupan en: grupos homogneos internamente y diferentes entre s. La "nueva dimensin" lograda con el clster se aprovecha despus para facilitar la aproximacin "segmentada" de un determinado anlisis. En consecuencia, el objetivo es obtener clasificaciones (clusterings), teniendo, por lo tanto, el anlisis un marcado carcter exploratorio y de agrupacin. En el campo de los bienes races y construccin, es de utilidad cuando la empresa desea clasificar a sus consumidores en tipos segn sus distintas percepciones de determinados atributos del proyecto: Calidad, precio, servicios, especificaciones, entorno, acceso, distancias a puntos estratgicos de conveniencia, reas de la ciudad, zonas, niveles de violencia, entre otras. Para ello, se disea una muestra con 100 clientes a los que se cuestiona sobre su percepcin, en una escala de intervalos, de las anteriores caractersticas de los productos de la empresa. El resultado final consiste en disear diferentes estrategias de promocin en funcin de sus diversos perfiles. En el siguiente anlisis, se procede a realizar un estudio de caso mediante el anlisis clster, el cual est dividido en el proceso de anlisis, resultados, conceptos y conclusiones.
ANLISIS CLUSTER
3
1. INFORMACIN CASO DE ESTUDIO 1. Con la tcnica de Anlisis de conglomerados clasificar a los jvenes (base de datos 14-1) segn: Nmero de veces que van anualmente al futbol (futbol) La paga semanal que reciben (paga2) El nmero de horas semanales que ven la televisin. Preguntas 1. Utilizar anlisis clster jerrquico y no jerrquico (con todos los conglomerados).Para homogenizar las variables, estandarcelas por medio del procedimiento descriptivos pidiendo que guarde los valores tipificados como variables. 2. Utilice estas variables tipificadas (en la base de datos original). 3. Indique que casos quedan en cada conglomerado para cada uno de los procedimientos: 3.1. jerrquico 3.2. no jerrquico. 4. Proponga un nombre para cada conglomerado. Como primer paso, Cargue en SPSS el archivo de nombre 14-1.sav, (archivo abrir datos) se trata de clasificar a los jvenes por el nmero de veces que van anualmente al futbol, la pagas semanal que reciben y el nmero de horas que ven la televisin. 2. ANLISIS 2.1. DECRIPTIVOS 2.1.1. Estadsticos descriptivos Estadsticos descriptivos
N Mnimo Mximo Media Desv. tp. ASISTENCIA ANUAL AL FUTBOL 14 0 8 3.71 3.429 PAGA SEMANAL EN PTAS 14 1000 2500 1557.14 730.347 HORAS SEMANALES TV 14 5 22 15.86 5.051 N vlido (segn lista) 14
ANLISIS CLUSTER
4
Como paso siguiente, se procede a tipificar 1 las variables, ya que, al trabajar con distancias, todas las variables han de venir medidas en las mismas unidades. Para ste anlisis realizamos los siguientes pasos: 1. Analizar 1.1. Estadsticos descriptivos 1.1.1. Descriptivos 1.1.1.1. Guardar valores tipificados como variables 2.1.2. Estadsticos descriptivos Estadsticos descriptivos
N Mnimo Mximo Media Desv. tp. Puntuacin Z: ASISTENCIA ANUAL AL FUTBOL 14 -1.08319 1.24983 .0000000 1.00000000 Puntuacin Z: PAGA SEMANAL EN PTAS 14 -.76285 1.29097 .0000000 1.00000000 Puntuacin Z: HORAS SEMANALES TV 14 -2.14934 1.21607 .0000000 1.00000000 N vlido (segn lista) 14
El siguiente paso, es realizar grficos de dispersin 2 en tres dimensiones para las tres variables tipificadas con el objeto de observar los posibles grupos. Para ste anlisis realizamos los siguientes pasos: 1. Grficos 1.1. Dispersin 1.1.1. Seleccionamos 3D (Variables tipificadas: Eje X: futbol, Eje Y: Paga2, Eje Z: TV) 3. Grfico de dispersin
1 Tipificar las variables: Procedimiento para estandarizar las variables y que exista as una comparabilidad entre las variables. (Prez Lpez, 2004, pg. 447) 2 Grfico de dispersin: Observa la relacin entre dos o ms variables. (Prez Lpez, 2004, pg. 82) ANLISIS CLUSTER
5
Interpretacin: Se observa que se podra agrupar a los individuos en tres grupos. Es siguiente paso es realizar un anlisis de correlaciones bivariadas 3 :
Para ste anlisis realizamos los siguientes pasos: 1. analizar 1.1. Correlaciones 1.1.1. Bivariadas 4. Correlaciones: Correlaciones Puntuacin Z: ASISTENCIA ANUAL AL FUTBOL Puntuacin Z: PAGA SEMANAL EN PTAS Puntuacin Z: HORAS SEMANALES TV Puntuacin Z: ASISTENCIA ANUAL AL FUTBOL Correlacin de Pearson 1 -.291 -.229 Sig. (bilateral)
.313 .431 N 14 14 14 Puntuacin Z: PAGA SEMANAL EN PTAS Correlacin de Pearson -.291 1 .025 Sig. (bilateral) .313
.932 N 14 14 14 Puntuacin Z: HORAS SEMANALES TV Correlacin de Pearson -.229 .025 1 Sig. (bilateral) .431 .932
N 14 14 14 Se observa que existen tres grupos. A. ANLISIS JERARQUICO 4 DE CONGLOMERADOS El siguiente paso es realizar un anlisis de jerrquico Para ste anlisis realizamos los siguientes pasos: 1. Analizar 1.1. Clasificar 1.1.1. Conglomerado jerrquico 1.1.1.1. Variables: Tipificadas 1.1.1.1.1. Estadsticos
3 Correlaciones Bivariadas: Permite comprobar la independencia de las variables continuas. (Prez Lpez, 2004, pg. 446) 4 Anlisis jerrquico: Procedimiento que intenta identificar grupos relativamente homogneos de casos o de variables basndose en caractersticas seleccionadas, mediante un algoritmo que comienza con cada caso o cada variable en un conglomerado diferente y combina los conglomerados hasta que slo queda uno. (Prez Lpez, 2004, pg. 440) ANLISIS CLUSTER
6
a. Historial de conglomeracin b. Rangos 2 4 1.1.1.1.2. Grficos a. Dendograma b. Horizontal 1.1.1.1.3. Mtodo 1.1.1.1.4. Guardar 1.1.1.1.5. Rango 2 4 5. Conglomerado 5.1. Resumen del procesamiento de los casos Resumen del procesamiento de los casos a,b
Casos Vlidos Perdidos Total N Porcentaje N Porcentaje N Porcentaje 14 100.0 0 .0 14 100.0 a. distancia eucldea al cuadrado usada b. Vinculacin promedio (Inter-grupos) Interpretacin: Se muestran el nmero de porcentaje de casos vlidos analizados, el nmero y porcentaje de casos con valores perdidos en alguna de las variables incluidas en los anlisis y el tamao total de la muestra, que no es otra cosa que la suma de los casos vlidos y los perdidos. (Anliss de conglomerados, 2014, pg. 477) En la tabla siguiente, se muestra el historial del proceso de conglomeracin, etapa por etapa. Por lo tanto en cada etapa se unen dos elementos, como la muestra analizada tienen 14 casos slo se realizan 13 etapas de fusin.
ANLISIS CLUSTER
7
6. Vinculacin promedio (inter-grupos) 6.1. Historial de conglomeracin 5
Interpretacin La columna conglomerado que se combina informa sobre los conglomerados o casos fundidos en cada etapa. En la primera etapa se han fundido los casos 3 y 9 del archivo de datos. Como el anlisis se inicia con todos los casos separados en conglomerados individuales, la primera etapa siempre se refiere a casos individuales. A partir de ese momento, estos dos casos constituyen el conglomerado 3 y son indivisibles en las etapas posteriores. La Columna Coeficientes, ofrece el valor de la distancia la que se encuentran los casos antes de la fusin. En la primera etapa, la distancia a la que se encuentran los casos 3 y 9 vale 0, lo que significa que se trata de casos con idnticas puntuaciones. La columna Etapa en la que el conglomerado aparece por primera vez recoge la etapa en la que se han formado los conglomerados que se estn fundiendo en cada momento. El
5 Historial de conglomeracin: Muestra los casos o conglomerados combinados en cada etapa, las distancias entre los casos o los conglomerados que se combinan, as como el ltimo nivel del proceso de aglomeracin en el que cada caso o variable se uni a su conglomerado correspondiente. (Prez Lpez, 2004, pg. 441) RANGO DE SOLUCIONES 3 O 4 CLUSTER ANLISIS CLUSTER
8
valor 0 indica que el conglomerado correspondiente es un caso individual. Un valor mayor que o indica el nmero de etapa en la que se form el conglomerado. En nuestro caso, el valor 0 nos indica que los conglomerados son casos individuales, lo que significa el surgimiento de 4 conglomerados. La columna Prxima etapa, indica la etapa en la que el conglomerado que se acaba de formar volver a fundirse con otros elementos. En nuestro caso es en las etapas 5, 6, 8 y 9 respectivamente. 6.2. Conglomerado de pertenencia 6
6 Conglomerado de pertenencia: Permite guardar los conglomerados de pertenencia para una solucin nica o un rango de soluciones. Las variables pueden emplearse en anlisis posteriores para explorar otras diferencias entre los grupos. (Prez Lpez, 2004, pg. 442) Interpretacin: Se refiere al conglomerado de pertenencia al que pertenece cada caso. ANLISIS CLUSTER
9
6.3. Dendograma 7 :
Interpretacin: Para interpretar estos resultados se recuerda que el objetivo es agrupar los individuos considerando sus caractersticas. Por lo tanto, tener un solo grupo no aporta informacin. En consecuencia, sabiendo que a menor distancia los conglomerados son ms homogneos, es conveniente detener el proceso de unin cuando las lneas horizontales sean muy largas: en el caso de estudio, se detiene el proceso en la distancia 16,4 obteniendo 4 clusters. Se observa en el dendograma la conformacin de 4 grupos: Grupo A: 3, 9, 4, (Tienen poco dinero, les gusta futbol, y lo ven por la TV) Grupo B: 7, 10, 14 (Tienen poco dinero, no les gusta el futbol, si les gusta la TV) Grupo C: 2, 8, 5, 11, 13 (Tienen dinero para ir al futbol pero el futbol les es indiferente, si les gasta la TV) Grupo D: 1, 6, 12 (Poco dinero, no les interesa el futbol, no le interesa la TV) El siguiente paso es el realizar un anlisis no jerrquico
7 Dendograma: Se usan para evaluar la cohesin de los conglomerados que se han formado y proporcionar informacin sobre el nmero adecuado de conglomerados que deben conservarse. (Prez Lpez, 2004, pg. 443) ANLISIS CLUSTER
10
B. ANLISIS NO JERRQUICO 8 DE CONGLOMERADOS: Para ste anlisis realizamos los siguientes pasos: 2. Analizar 2.1. Clasificar 2.1.1. Conglomerado de K-medias 2.1.1.1. Variables: Tipificadas 2.1.1.2. Numero de conglomerados 4 2.1.2. Opciones 2.1.2.1. Informacin de conglomerados de cada caso 7. Anlisis de conglomerados y K-medias 7.1. Centros iniciales de los conglomerados Centros iniciales de los conglomerados
Conglomerado 1 2 3 Puntuacin Z(ftbol) ASISTENCIA ANUAL AL FUTBOL 1.24983 -.79156 .95821 Puntuacin Z(paga2) PAGA SEMANAL EN PTAS -.76285 1.29097 -.76285 Puntuacin Z: Puntuacin Z: HORAS SEMANALES TV -2.14934 -.56562 1.21607 7.2. Historial de relaciones Historial de iteraciones a
Iteracin Cambio en los centros de los conglomerados 1 2 3 1 .516 .753 .754 2 .000 .261 .243 3 .000 .000 .000 a. Se ha logrado la convergencia debido a que los centros de los conglomerados no presentan ningn cambio o ste es pequeo. El cambio mximo de coordenadas absolutas para cualquier centro es de .000. La iteracin actual es 3. La distancia mnima entre los centros iniciales es de 3.233. 7.3. Pertenencia a los conglomerados Pertenencia a los conglomerados Nmero de caso Conglomerado Distancia 1 1 .516 2 2 .984 3 3 1.281 4 3 .990 5 2 .828 6 1 .516
8 Anlisis no jerrquico: Procedimiento que intenta identificar grupos de casos relativamente homogneos basndose en las caractersticas seleccionadas y utilizando un algoritmo que pueden gestionar un gran nmero de casos. (Prez Lpez, 2004, pg. 437) ANLISIS CLUSTER
11
7 3 .990 8 2 .984 9 3 1.281 10 3 1.258 11 2 .397 12 2 2.070 13 2 .591 14 3 1.216 7.3.1. Pertenencia conglomerados ordenados por grupo (Realizado en Excel) Pertenencia a los conglomerados Nmero de caso Conglomerado Distancia 1 1 .516 6 1 .516 2 2 .984 5 2 .828 8 2 .984 11 2 .397 12 2 2.070 13 2 .591 3 3 1.281 4 3 .990 7 3 .990 9 3 1.281 10 3 1.258 14 3 1.216 Interpretacin: Se observa en la tabla de pertenencia la conformacin de 3 grupos: Grupo A: 1, 6 (Poco inters, en el futbol, poco inters en TV, poco dinero para esos fines, prefieren otro tipo de entretenimiento y diversin) Grupo B: 2, 5, 8, 11, 12, 13 (Tienen dinero, no les interesa el futbol) Grupo C: 3, 4, 7, 9, 10, 14. (Les interesa la TV, No tienen dinero para asistir a los partidos en vivo y si les interesa ver el futbol por la TV) 7.4. Centros de los conglomerados finales Centros de los conglomerados finales
Conglomerado 1 2 3 Puntuacin Z(ftbol) ASISTENCIA ANUAL AL FUTBOL 1.10402 -.45133 .08332 Puntuacin Z(paga2) PAGA SEMANAL EN PTAS -.76285 .97149 -.71721 Puntuacin Z: Puntuacin Z: HORAS SEMANALES TV -1.65443 -.20268 .75415 ANLISIS CLUSTER
12
7.5. Distancias entre los centros de los conglomerados finales Distancias entre los centros de los conglomerados finales Conglomerado 1 2 3 1
2.745 2.616 2 2.745
2.013 3 2.616 2.013
7.6. ANOVA ANOVA
Conglomerado Error F Sig. Media cuadrtica gl Media cuadrtica gl Puntuacin Z(ftbol) ASISTENCIA ANUAL AL FUTBOL 1.851 2 .845 11 2.189 .158 Puntuacin Z(paga2) PAGA SEMANAL EN PTAS 4.956 2 .281 11 17.661 .000 Puntuacin Z: Puntuacin Z: HORAS SEMANALES TV 4.567 2 .352 11 12.991 .001 Las pruebas F slo se deben utilizar con una finalidad descriptiva puesto que los conglomerados han sido elegidos para maximizar las diferencias entre los casos en diferentes conglomerados. Los niveles crticos no son corregidos, por lo que no pueden interpretarse como pruebas de la hiptesis de que los centros de los conglomerados son iguales.
7.7. Nmero de casos en cada conglomerado Nmero de casos en cada conglomerado Conglomerado 1 2.000 2 6.000 3 6.000 Vlidos 14.000 Perdidos .000 Interpretaciones. 8. CONCLUSIONES: El clster es una tcnica de clasificacin que sirve para poder detectar y describir subgrupos de sujetos o variables homogneas en funcin de los valores observados dentro de un conjunto aparentemente heterogneo. Se fundamenta en el estudio de las distancias entre ellos, permitiendo en el anlisis, cuantificar el grado de similitud, en el caso de las proximidades, y el grado de diferencia, en el caso de las distancias. Como resultado aparecen agrupaciones homogneas. A diferencia de otras pruebas de clasificacin, el investigador no tiene conocimiento de la existencia de los subgrupos o conglomerados, ni del nmero resultante, ni de las ANLISIS CLUSTER
13
caractersticas que los definen. Por lo tanto, es una tcnica exploratoria y descriptiva sin variables dependientes. El objetivo fundamental de esta tcnica es la configuracin de grupos similares y homogneos para poder entender y estudiar mejor los fenmenos sociales y educativos. En el campo de los bienes races e inmobiliario, nos ayuda en estudiar a los diferentes grupos de clientes para los proyectos segn sus caractersticas, as como tambin puede ayudar en el rea urbanstica donde nos puede orientar en el crecimiento de las poblaciones en las ciudades. 9. BIBLIOGRAFA (Mayo de 2014). Recuperado el Mayo de 2014, de http://www.uam.es/personal_pdi/ciencias/ajustel/docencia/ad/AD10_11_Discrimina nte.pdf (Mayo de 2014). Recuperado el Mayo de 2014, de ftp://public.dhe.ibm.com/software/analytics/spss/documentation/statistics/20.0/es/cli ent/Manuals/IBM_SPSS_Statistics_Base.pdf (Mayo de 2014). Recuperado el Mayo de 2014, de http://halweb.uc3m.es/esp/Personal/personas/jmmarin/esp/GuiaSPSS/22conglj.pdf Google. (Ayo de 2014). Recuperado el Mayo de 2014, de file:///C:/Users/DELL/Downloads/8099-15991-1-PB.pdf Google. (Mayo de 2014). Recuperado el Mayo de 2014, de file:///C:/Users/DELL/Downloads/8099-15991-1-PB.pdf Google. (Mayo de 2014). Recuperado el Mayo de 2014, de https://www.google.com.gt/url?sa=t&rct=j&q=&esrc=s&source=web&cd=6&ved= 0CEkQFjAF&url=http%3A%2F%2Fpersonal.us.es%2Fanalopez%2Fpracticasac1.p pt&ei=DpaHU- 6YII7JsQT2t4HoDQ&usg=AFQjCNGp3PxExsXuzuUbmcGQ3vEq1zLa_w ANLISIS CLUSTER
14
Google. (Mayo de 2014). Recuperado el Mayo de 2014, de http://rua.ua.es/dspace/bitstream/10045/12079/1/Capitulo9.pdf You tube. (Mayo de 2014). Recuperado el Mayo de 2014, de http://www.youtube.com/watch?v=IYg0npCrSGw You Tube. (Mayo de 2014). Recuperado el Mayo de 2014, de http://www.youtube.com/watch?v=07lCKn6EEMQ De la Fuente Fernandez, S. (Mayo de 2014). Google. Recuperado el Mayo de 2014, de http://www.fuenterrebollo.com/Economicas/ECONOMETRIA/SEGMENTACION/ CONGLOMERADOS/conglomerados.pdf IBM SPSS Statistics Base 20. (Mayo de 2014). Google. Recuperado el Mayo de 2014, de ftp://public.dhe.ibm.com/software/analytics/spss/documentation/statistics/20.0/es/cli ent/Manuals/IBM_SPSS_Statistics_Base.pdf Lind, D. A., Marchal, W. G., & Wathen, S. .. (2008). Estadstica aplicada a los negocios y la economa. Mxico D. F.: McGraw-Hill Interamericana. Martinez Miranda, M. D. (Mayo de 2014). Google. Recuperado el Mayo de 2014, de http://www.ugr.es/~curspss/archivos/Cluster/cluster.pdf Prez Lpez, C. (2004). Tcnicas de Anlisis Multivariante de Datos. Madrid: PEARSON EDUCACIN, S. A. villardn, J. L. (Mayo de 2014). Google. Obtenido de http://benjamindespensa.tripod.com/spss/AC.pdf