SPSS Orientado A Mercados PDF

Esta obra esta bajo una licencia reconocimiento-no comercial 2.
5
Colombia de creativecommons. Para ver una copia de esta
licencia, visite http://creativecommons.org/licenses/by/2.5/co/ o
envi una carta a creative commons, 171second street, suite 30 San
Francisco, California 94105, USA
SPSS ORIENTADO A LA
GESTION DE MERCADOS
Autores:
MARTHA GUEVARA PEUELA

HCTOR JAVIER CORTS SUREZ
Director Unidad Informtica: Henry Martnez Sarmiento
Tutor Investigacin: Maria Alejandra Enrquez
Coordinadores: Maria Alejandra Enrquez

Leydi Diana Rincn Rincn
Coordinador Servicios Web: Daniel Alejandro Ardila
Analista de Infraestructura
y Comunicaciones: Adelaida Amaya
Analista de Sistemas de
Informacin: lvaro Enrique Palacios Villamil
Lder de Gestin de
Recurso Humano: Islena del Pilar Gonzalez
UNIVERSIDAD NACIONAL COLOMBIA

FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA Y COMUNICACIONES
BOGOT D.C.
ENERO DE 2006
SPSS ORIENTADO A LA
GESTION DE MERCADOS
Director Unidad Informtica: Henry Martnez Sarmiento
Tutor Investigacin: Mara Alejandra Enrquez
Auxiliares de Investigacin:
Adriana Lucia Castelblanco Leidy Viviana Avils

Alexis de Jess Moros Leydy Johana Poveda
Andrs Ricardo Romero Liliana Paola Rincn
Brayan Ricardo Rojas Luis Alfonso Nieto
Carlos Hernn Porras Luz Karina Ramos
Catherin Cruz Pinzn Maria Teresa Mayorga
Cristian Gerardo Gil Miller Giovanny Franco
Daniel Alejandro Melo Nubia Yolima Cucarian
Diana Patricia Garca Rafael Leonardo Saavedra
Diego Fernando Rubio Sandra Liliana Barrios
Edwin Montao Sandra Milena Crdenas
German David Riveros Sandra Mnica Bautista
Guillermo Alberto Ariza Sonia Janeth Ramrez
Juan Felipe Rincn Yaneth Adriana Can
Este trabajo es resultado del esfuerzo de todo el

equipo perteneciente a la Unidad de Informtica.
Se prohbe la reproduccin parcial o total de este

documento, por cualquier tipo de mtodo fotomecnico
y/o electrnico, sin previa autorizacin de la
Universidad Nacional de Colombia.
UNIVERSIDAD NACIONAL COLOMBIA

BOGOT D.C.
ENERO 2006
SPSS Aplicado a la Gestin de Mercados
Tabla De Contenido
Tabla De Contenido........................................................................................................................ 1
Tabla De Ilustraciones Y Tablas ................................................................................................... 5
Resumen ............................................................................................................................................ 9
Abstract ............................................................................................................................................. 9
Introduccin .................................................................................................................................... 10
Objetivos ......................................................................................................................................... 11
OBJETIVO GENERAL .............................................................................................................. 11
OBJETIVOS ESPECIFICOS ...................................................................................................... 11
1. Marco Terico ...................................................................................................................... 12
1.1. SPSS................................................................................................................................. 12
1.2. Segmentacin De Mercados ................................................................................... 13
1.2.1. Proceso de Segmentacin de mercados................................................... 14
1.2.2. Tipos de Segmentacin de mercados ....................................................... 14
1.2.3. Segmentacin de mercados usando SPSS ................................................ 15
2. rboles De Clasificacin .................................................................................................. 16
2.1. Pasos ................................................................................................................................... 18
3. Anlisis Cluster O Anlisis De Conglomerados Para La Segmentacin De

Mercados ......................................................................................................................................... 19
3.1. Pasos para el anlisis de Conglomerados ............................................................... 19
3.1.1. Formulacin del Problema................................................................................ 20
3.1.2. Seleccin de una Medida de Similitud ............................................................ 20
3.1.3. Estandarizacin de Datos ................................................................................. 20
3.1.4. Supuestos del Anlisis ........................................................................................ 20
UNIVERSIDAD NACIONAL COLOMBIA 1

3.1.5. Seleccin del Procedimiento de Agrupacin ................................................ 20
3.1.6. Decisin del Nmero de Conglomerados.................................................... 21
3.1.7. Interpretacin y Elaboracin del Perfil de los Clusters ............................. 21
3.1.8. Validacin de Conglomerados Obtenidos .................................................... 22
4. Anlisis De Conglomerados En Dos Fases ..................................................................... 23
4.1. Pasos para el anlisis de conglomerados en dos fases ........................................ 23
4.2. Medida de distancia ..................................................................................................... 24
4.3. Nmero de conglomerados: ..................................................................................... 24
4.4. Recuento de variables continuas .............................................................................. 25
4.5. Criterio de conglomeracin: ..................................................................................... 25
4.6. Opciones ....................................................................................................................... 25
4.7. Asignacin de memoria: ............................................................................................. 26
4.8. Tipificacin de variables: ............................................................................................ 26
4.9. Opciones avanzadas .................................................................................................... 26
4.10. Grficos:......................................................................................................................... 26
4.11. Resultados ..................................................................................................................... 27
4.12. Ejemplo .............................................................................................................................. 32
4.11.1. Conglomerados en dos fases ........................................................................... 33
4.11.2. Perfiles de los conglomerados ......................................................................... 35
4.11.3. Frecuencias........................................................................................................... 36
4.11.4. Importancia de los atributos ............................................................................ 36
4.11.5. Porcentaje Intra-conglomerado ...................................................................... 36
4.11.6. Variacin Intra-conglomerado ......................................................................... 37
4.11.7. Importancia segn agrupacin ......................................................................... 40

5. Anlisis De Conglomerados Jerrquico ........................................................................... 44
5.1. Pasos para el anlisis de conglomerados jerrquico ............................................ 45
5.2. Dendrograma:............................................................................................................... 45
5.3. Clases de mtodos de Conglomeracin ................................................................ 45
5.4. Medida ............................................................................................................................ 47
5.4.1. Medida de intervalo............................................................................................ 47
5.4.2. Medida de Frecuencias:........................................................................................ 48
5.4.3. Medida Binaria: .................................................................................................... 48
5.5. Ejemplo: ......................................................................................................................... 48
5.5.1. Grficos................................................................................................................. 49
5.5.2. Mtodo de conglomeracin ............................................................................. 50
5.5.3. Conglomerados jerrquicos ............................................................................. 51
5.5.4. Vinculacin de centroides................................................................................. 51
5.5.5. Dendrograma ...................................................................................................... 53
6. Conglomerados De K Medias ............................................................................................ 55
6.1. Preparando el anlisis ................................................................................................. 56
6.2. Resultados del anlisis ................................................................................................ 59
7. Anlisis Factorial Para La Reduccin De Datos ..................................................... 65
7.1. Que Buscar Cuando Se Realiza Un Analisis Factorial ......................................... 65
7.2. Principios ....................................................................................................................... 66
7.3. Anlisis factorial en SPSS ............................................................................................ 66
7.4. Etapas en un anlisis factorial. ................................................................................... 67
7.4.1. Extraccin de factores....................................................................................... 68
7.4.2. Rotacin De Factores........................................................................................ 70

7.4.3. Descriptivos ......................................................................................................... 71
8. Conclusiones ......................................................................................................................... 81
9. Bibliografia .............................................................................................................................. 82

Tabla De Ilustraciones Y Tablas

Ilustracin 1. Ejemplo de rbol de Clasificacin generado por SPSS 16
Ilustracin 2. Conglomerados en dos Fases 24
Ilustracin 3. Conglomerados en dos fases: Opciones 25
Ilustracin 4. Conglomerados en dos fases: Grficos 27
Ilustracin 5. Conglomerados en dos fases: Resultados 27
Ilustracin 6. Variacin Intra- Conglomerado 30
Ilustracin 7. Ajuste de Bonferroni aplicado 31
Ilustracin 8. Ajuste de Bonferroni Aplicado2 32
Ilustracin 9. Anlisis de Conglomerados en dos Fases 33
Ilustracin 10. Conglomerados en dos fases: Grficos 33
Ilustracin 11. Tamao de los Conglomerados 36
Ilustracin 12. Porcentaje dentro del Conglomerado de sexo 37
Ilustracin 13. Variacin Intra- Conglomerado 1 38
Ilustracin 14.Variacin Intra-Conglomerado 2 39
Ilustracin 15. Variacin Intra-Conglomerado 3 39
Ilustracin 16.Variacin Intra-Conglomerado 4 40
Ilustracin 17. Ajuste de Bonferroni Aplicado-Sexo 41
Ilustracin 18. Ajuste de Bonferroni Aplicado- Salario Actual 41
Ilustracin 19. Ajuste de Bonferroni Aplicado: Salario Inicial 42
Ilustracin 20. Ajuste de Bonferroni aplicado: Meses desde el contrato 42
Ilustracin 21. AJuste de Bonferroni: Experiencia Previa en meses 43
Ilustracin 22. Mtodos de enlace para el Conglomerado 46

Ilustracin 23. Mtodos de Agrupacin por Aglomeracin 47
Ilustracin 24. Men: Anlisis de Conglomerados Jerrquico 49
Ilustracin 25.Anlisis de Conglomerados Jerrquicos: Estadsticos 49
Ilustracin 26. Anlisis de Conglomerados Jerrquicos: Grficos 50
Ilustracin 27. Mtodos de Conglomeracin 50
Ilustracin 28. Diagrama de tmpanos Vertical 53
Ilustracin 29. Dendograma 54
Ilustracin 30. Diagrama de dispersin primer grupo 55
Ilustracin 31. Diagrama de dispersin segundo grupo 56
Ilustracin 32. Ruta conglomerados K medias 57
Ilustracin 33. Cuadro de dialogo K medias 57
Ilustracin 34. Iterar 58
Ilustracin 35. Guardar 58
Ilustracin 36. Opciones 59
Ilustracin 37. Grafico de dispersin conglomerados finales primer grupo 63
Ilustracin 38. Grafico de dispersin conglomerados finales segundo grupo 64
Ilustracin 39. Anlisis factorial 67
Ilustracin 40. matriz de covarianza 67
Ilustracin 41. Cuadro de dialogo anlisis factorial 69
Ilustracin 42. Cuadro de Dialogo Anlisis factorial- Extraccin 69
Ilustracin 43. Cuadro de Dialogo Anlisis factorial- Rotacin. 71
Ilustracin 44. Cuadro de Dialogo Anlisis factorial- Descriptivos. 72
Ilustracin 45. Detalle estadsticos. 74
Ilustracin 46. Detalle matriz reproducida 76

Ilustracin 47. Detalle varianza total 77
Ilustracin 48. Grafico de sedimentacin. 78
Ilustracin 49. Analisis factorial- puntuaciones factoriales 80
Tabla 1. Agrupacin Automtica ................................................................................................ 28
Tabla 2. Distribucin de los Conglomerados .......................................................................... 29
Tabla 3. Perfiles de los Conglomerados ................................................................................... 29
Tabla 4. Frecuencias de Conglomerados.................................................................................. 29
Tabla 5. Distribucin de Conglomerados ................................................................................ 34
Tabla 6. Perfiles de los Conglomerados ................................................................................... 35
Tabla 7. Frecuencias de los Conglomerados ........................................................................... 36
Tabla 8. Resumen del procesamiento de los casos ................................................................ 50
Tabla 9. Matriz de Distancias ...................................................................................................... 51
Tabla 10. Historial de Conglomeracin .................................................................................... 52
Tabla 11. Diagrama de tmpanos Vertical ............................................................................... 52
Tabla 12. Cuadro conglomerados iniciales primer grupo..................................................... 59
Tabla 13. Cuadro conglomerados iniciales segundo grupo .................................................. 59
Tabla 14. Cuadro historial de iteraciones primer grupo ...................................................... 60
Tabla 15. Cuadro historial de iteraciones segundo grupo.................................................... 60
Tabla 16. Conglomerados finales primer grupo...................................................................... 61
Tabla 17. Conglomerados finales segundo grupo ................................................................... 61
Tabla 18. ANOVA ......................................................................................................................... 61
Tabla 19. Casos por conglomerado primer grupo ................................................................. 62
Tabla 20. Casos por conglomerado segundo grupo .............................................................. 62

Tabla 21. Estadsticos descriptivos ............................................................................................. 72
Tabla 22. Comunalidades iniciales .............................................................................................. 73
Tabla 23. Matriz reproducida ...................................................................................................... 75
Tabla 24.Prueba KMO .................................................................................................................. 77
Tabla 25. Varianza total explicada .............................................................................................. 77
Tabla 26. Matriz de componentes. ............................................................................................. 79
Tabla 27. Matriz de componentes rotados .............................................................................. 80

Resumen
Esta investigacin dedicada a varias herramientas tiles que incluye el programa

estadstico SPSS para la realizacin de una investigacin de mercados, en este caso para
la realizacin de la segmentacin de mercados.
El documento empieza con un pequeo marco terico dedicado a la segmentacin y a

explicar brevemente el programa, despus se empieza a explicar concisamente un
modulo llamado rboles de clasificacin, para luego entrar de lleno al estudio por
conglomerados mediante una introduccin a la forma en que se realizan generalmente,
y se describen tres formas para realizarlos, anlisis de dos fases, el conglomerado
jerrquico y el sistema K medias. Para finalizar se explora el sistema de reduccin de
datos mediante anlisis factorial.
Abstract
This investigation is dedicated to several useful tools of the statistical program SPSS for
the accomplishment of an investigation of markets, in this case for the accomplishment
of the segmentation of markets includes.
The document begins with a little theoretical frame dedicated to the segmentation and
to explain the program briefly, later begins to explain concisely the modulate call
Answer Tree, soon to enter completely the cluster analysis by means of an
introduction the form in which they are made generally, and three forms are described
to make them, analysis of two phases, the hierarchic cluster and system K means. In
order to finalize the system of reduction of data by factorial analysis is explored.

Introduccin
SPSS es una potente herramienta para el anlisis estadstico, la cual posee aplicaciones
para gran variedad de ciencias y reas del conocimiento. Teniendo en cuenta los
mdulos que esta herramienta presenta para el anlisis y estudios de mercados, es
necesario implementar una lnea de investigacin dedicada al estudio de las ventajas y
aprovechamiento de los recursos ofrecidos.

Objetivos
OBJETIVO GENERAL
Aprovechar en mayor medida la licencia adquirida de SPSS por la Universidad Nacional
de Colombia a travs del estudio de las herramientas de mercados que ofrece la
aplicacin adquirida y brindar soporte a la carrera de administracin para que sea de
amplia utilidad a la comunidad estudiantil.
OBJETIVOS ESPECIFICOS
Estudiar las diferentes funciones, mdulos o herramientas especficas o
aplicables al estudio de mercados que ofrece SPSS.
Generar un manual completo referente a las herramientas para el anlisis y
gestin de mercados con la ayuda de SPSS.
Crear un programa detallado para la gestin de un curso libre o capacitacin
para la Facultad de Ciencias Econmicas.

1. Marco Terico
A nivel mundial la tendencia clave que afectar a la estrategia de mercadotecnia en el

siglo XXI ser el comercio global; porque no hay duda alguna de que el mundo se est
convirtiendo en una economa global y en un mercado completamente abierto en
todos los pases; en los cules la competencia ya no solo se centra con las empresas
productoras de la ciudad o del pas sino con las empresas que estn dedicadas a
satisfacer las mismas necesidades a los clientes potenciales.
Eso significa que la situacin se va a volver ms difcil. Cuando la competencia se

desarrolle globalmente, todo el mundo intentar arrebatarle el negocio a todo el
mundo. El siglo XXI har que el siglo XX parezca una reunin para tomar el t. Se va a
ver una serie de cambios masivos en respuesta a esos desarrollos globales. Aunque lo
que debiera suceder es exactamente lo contrario. Conceptualmente, cuanto ms
grande es el mercado, ms especializados debemos ser para poder tener xito.1
Es aqu donde aparece la estrategia de mercados como una herramienta para que la
empresa pueda definir ms claramente su segmento de mercado y pueda dirigir con
ms eficiencia y eficacia sus esfuerzos para satisfacer a sus clientes de la mejor manera.
Es clave que las empresas logren profundizar en el conocimiento de su mercado para

que de esta forma pueda adaptar su oferta y su estrategia de mercado a los
requerimientos de ste. Es en este punto donde la segmentacin entra o tomar parte
de todo proceso de planeacin y toma como un factor primordial el reconocimiento
de que el mercado es heterogneo, y pretende dividirlo en grupos o segmentos
homogneos, que pueden ser elegidos como un mercado objetivo de la empresa. As
pues, la segmentacin implica un proceso de diferenciacin de las necesidades dentro
de un mercado.2
1.1. SPSS
El programa SPSS (Statistical Package for the Social Sciences) es un conjunto de
paquetes y herramientas de tratamiento de datos y anlisis estadstico. Al igual, que el
resto de aplicaciones que utilizan como soporte el sistema operativo Windows y
1
Tomado de: http://www.coparmex.org.mx/contenidos/publicaciones/Entorno/2002/mar02/e.htm
2
REYES, Rafael. La Estrategia de Mercados en el Siglo XXI, Revista entorno No.163, Confederacin
Patronal de la Repblica Mexicana, Mxico, Marzo 2002.

funcionan mediante mens desplegables y cuadros de dialogo que permiten hacer la

mayor parte del trabajo simplemente utilizando el Mouse.
SPSS es un paquete de software usado para conducir los anlisis estadsticos, manipular
datos, generar tablas y grficos que resumen datos.
Los anlisis estadsticos se extienden desde estadstica descriptiva bsica, tales como
promedios y frecuencias, a la estadstica deductiva avanzada, tales como modelos de la
regresin, anlisis de variacin y anlisis factorial.
1.2. Segmentacin De Mercados

La segmentacin de mercado es un proceso que consiste en dividir el mercado total de
un bien o servicio en varios grupos ms pequeos e internamente homogneos. La
esencia de la segmentacin es conocer realmente a los consumidores. Uno de los
elementos decisivos del xito de una empresa es su capacidad de segmentar
adecuadamente su mercado.3
La segmentacin es tambin un esfuerzo por mejorar la precisin del mercadeo de una

empresa. Es un proceso de incorporacin: agrupar en un segmento de mercado a
personas con necesidades semejantes.
El comportamiento del consumidor suele ser demasiado complejo como para

explicarlo con una o dos caractersticas, se deben tomar en cuenta varias dimensiones,
partiendo de las necesidades de los consumidores.
Las principales ayudas de la segmentacin de mercados son:4
Permitir la identificacin de las necesidades de los clientes especficamente dentro

de un sub-mercado y as mismo lograr un diseo ms eficaz de la mezcla de
mercado para satisfacerlas de la mejor manera.
Al tener claramente definido el segmento de mercado al que se quiere dirigir la
oferta del producto se pueden establecer de una mejor manera el precio, la
seleccin de los canales de distribucin y adems los medios publicitarios que sern
usados.
Cuando una empresa pequea esta pensando en penetrar un mercado puede lograr
una mejor posicin si logra especializarse mas en la satisfaccin de una necesidad
ms especifica.
3
STANTON, ET AL. Fundamentos de Marketing, McGrawHIl, Mxico, 1999.
4
KOTLER, Phillip. Direccin de Marketing. La edicin del milenio PrenticeHall, Mxico., 2001.

Al especificar el segmento se reducen el nmero de potenciales competidores.

La segmentacin permite la especializacin lo que puede generar oportunidades de
crecimiento y al mismo tiempo la creacin de ventajas competitivas.
1.2.1. Proceso de Segmentacin de mercados
Para la segmentacin se deben realizar los siguientes pasos:
ESTUDIO:
Se examina el mercado para determinar las necesidades especficas satisfechas por las
ofertas actuales, las que no lo son y las que podran ser reconocidas. Se llevan acabo
una investigacin exploratoria y se organizan sesiones de grupos para entender mejor
las motivaciones, actitudes y conductas de los consumidores. Se renen datos sobre
los atributos y la importancia que se les da, conciencia de marca y calificaciones de
marcas, patrones de uso y actitudes hacia la categora de los productos; as como,
datos demogrficos, psicogrficos, etc.
ANLISIS:
Se interpretan los datos para eliminar las variables y agrupar o construir el segmento
con los consumidores que comparten un requerimiento en particular y lo que los
distingue de los dems segmentos del mercado con necesidades diferentes.
PREPARACIN DE PERFILES:
Se prepara un perfil de cada grupo en trminos de actitudes distintivas, conductas,

demografa, etc. Se nombra a cada segmento con base a su caracterstica dominante. La
segmentacin debe repetirse peridicamente porque los segmentos cambian. Tambin
se investiga la jerarqua de atributos que los consumidores consideran al escoger una
marca, este proceso se denomina particin de mercados. Esto puede revelar
segmentos nuevos de mercado.5
1.2.2. Tipos de Segmentacin de mercados6
Segmentacin Geogrfica: subdivisin de mercados con base en su ubicacin. Posee

caractersticas mensurables y accesibles.
Segmentacin Demogrfica: se utiliza con mucha frecuencia y est muy relacionada
con la demanda y es relativamente fcil de medir. Entre las caractersticas
demogrficas ms conocidas estn: la edad, el gnero, el ingreso y la escolaridad.
Segmentacin Psicogrfica: Consiste en examinar atributos relacionados con
pensamientos, sentimientos y conductas de una persona. Utilizando dimensiones de
5
Tomado de: http://www.monografias.com/trabajos13/segmenty/segmenty.shtml
6
STANTON, ob.cit.

personalidad, caractersticas del estilo de vida y valores.

Segmentacin por comportamiento: se refiere al comportamiento relacionado con
el producto, utiliza variables como los beneficios deseados de un producto y la tasa
a la que el consumidor utiliza el producto.
1.2.3. Segmentacin de mercados usando SPSS7
Para la realizacin de investigacin de mercados se emplean las diferentes tcnicas

estadsticas que proporciona SPSS, como el anlisis cluster, anlisis factorial,
segmentacin de mercados con programas como CHAID y AnswerTree, anlisis
discriminante, el anlisis conjunto (CONJOINT), modelado de ecuaciones
estructurales con un programa denominado AMOS, y el diseo de redes neuronales
con Neural Connection.
7
Market Segmentation Using SPSS, SPSS Inc. Estados Unidos De America, 2003.

2. rboles De Clasificacin
Los rboles de clasificacin son un Nuevo modulo que ofrece SPSS el cual permite
identificar grupos, descubrir relaciones entre los grupos y pronosticar eventos futuros.
Los rboles de clasificacin y decisin se pueden usar para la segmentacin,
estratificacin, prediccin, reduccin de datos, examinar variables identificar
interacciones, fundir categoras y categorizar variables.
Los rboles pueden se usados para la creacin de bases de datos para tomar
decisiones en mercadeos ya que se puede elegir alguna variable respuesta para la
segmentacin, se pueden crear perfiles mediante cualquier atributo de las variables.
Adems el apoyo a la investigacin de mercados debido a que permite al realizar
encuestas de satisfaccin la creacin de variables en escala que midan dicha
satisfaccin, asimismo la creacin de perfiles de niveles de satisfaccin de acuerdo a las
respuestas de distintas preguntas. Se pueden crear grupos de riesgos basados en la
informacin que se posea de los clientes o trabajadores. Igualmente permite tener ms
seguridad en el establecimiento de objetivos ya que permite realizar pronsticos.
Ilustracin 1. Ejemplo de rbol de Clasificacin generado por SPSS
El procedimiento de rbol de Clasificacin crea a un modelo de la clasificacin tipo

rbol. Clasifica los casos en los grupos o predice valores de una pendiente (objetivo) la
variable basada en los valores de la variable independiente (predictora). El
procedimiento proporciona las herramientas para un anlisis exploratorio y para la
confirmacin de la clasificacin.
El procedimiento puede usarse para:
SEGMENTACIN: Identifica personas que probablemente pertenecen a un grupo en

particular.

ESTRATIFICACIN: Asigna varias categoras a los casos tales como alto, medio y bajo
riesgo.
PREDICCIN: Crea las reglas y las usa para predecir los eventos futuros, como la
probabilidad que alguien solicite un prstamo o el valor de reventa potencial de un
vehculo o casa.
REDUCCION DE DATOS Y PROYECCION DE VARIABLES: Selecciona un

subconjunto til de predictoras de un juego grande de variables para lograr construir
un modelo paramtrico formal.
IDENTIFICACIN DE LA INTERACCIN: Identifica relaciones que slo pertenecen

subgrupos especficos y los especifica en un modelo paramtrico formal.
A diferencia de otros mtodos de clasificacin como el Anlisis Cluster, AnswerTree

permite realizar clasificacin de clientes en funcin de una variable criterio, as como
realizar pronsticos con probabilidades conocidas, por tal motivo, se considera una
herramienta con gran poder predictivo.
Ofrece la posibilidad de usar cuatro potentes algoritmos de segmentacin y una

interfase intuitiva y fcil de manejar. Los resultados son sencillos de interpretar y
entender dada su interfaz grafica o presentacin de los resultados en forma de rbol.
AnswerTree lee datos en distintos formatos a travs de conexiones ODBC Standard y

puede ser ejecutado como un programa independiente o integrado dentro de SPSS
Base8.
Crea modelos gilmente gracias a su asistente de rbol.
Adems se pueden escoger entre tres distintos algoritmos predeterminado de

clasificacin:
CHAID: Es un algoritmo estadstico multidireccional que explora datos rpida y

eficientemente, tambin construye segmentos y perfiles en funcin de la variable
respuesta establecida.
CHAID exhaustivo: examina todas las particiones posibles de una variable predoctora.
rboles de clasificacin y regresin (CRT): Produce subconjuntos de datos

homogneos y precisos.
QUEST: Selecciona variables de manera insesgada y construye rboles binarios

precisos de manera rpida y eficiente.
8
http://www.spss.com/la/apps/data-mining2.htm

2.1. Pasos
Qu algoritmo seleccionar?
Cul ser la variable dependiente, target u objetivo?
Seleccionar las variables independientes. Por ejemplo, edad, sexo, salario, categora
laboral, etc. que nos ayudarn a crear los perfiles.
Despus de lo anterior, AnswerTree generar el rbol respectivo; el cual puede ser

aplicado a nuestra base de datos con el fin de generar listados de clientes que
responder a determinadas caractersticas. Por ejemplo. Clientes dispuestos a adquirir
determinado producto, satisfaccin de los clientes, entre otras.

3. Anlisis Cluster O Anlisis De Conglomerados Para

La Segmentacin De Mercados
El anlisis de Conglomerados o anlisis Cluster o es una tcnica estadstica
exploratoria, multivariable, para el anlisis de datos, diseada para indicar las
agrupaciones naturales dentro de un grupo de datos y como tal, realizar segmentacin
de mercados. Cluster sugiere varias maneras potencialmente tiles de agrupar a
clientes. Se conoce tambin como anlisis de clasificacin o taxonoma numrica.
Su origen se halla en la Biologa y la botnica, por la necesidad de agrupar las especies

en familias lo ms homogneamente posible
El anlisis cluster se ha desarrollado en diversos datos de marketing, como posicin

geogrfica, comportamiento del consumidor, rangos de productos, informacin de uso,
necesidades o ventajas. En este sentido, ste anlisis contribuye a la identificacin de
grupos de consumidores con comportamientos semejantes, identificacin de hbitos
de compra, identificacin de grupos de productos competitivos, oportunidades de
mercado.
Por ejemplo, el anlisis cluster puede ser empleado para identificar ciudades o
localidades para lanzar un nuevo producto. Se aplica el anlisis a todo el mercado, de
all se determinan grupos que renen determinadas caractersticas y se analiza cual de
ellos es el que ms se acomoda al perfil de nuestro producto.
Para comprender de una forma sencilla, el anlisis cluster se basa en el concepto

simple de repartir las observaciones de los datos en los grupos homogneos basados
en la proximidad o relacin del uno al otro. Se pueden encontrar los siguientes tipos
anlisis cluster: Conglomerados en dos fases, anlisis de k medias y anlisis de
conglomerados jerrquicos.
Entonces, surge una pregunta, En que difiere el anlisis de conglomerados del anlisis
discriminante?, la respuesta es que el anlisis de conglomerados como el discriminante
se basa en la clasificacin. No obstante, el anlisis discriminante requiere del
conocimiento previo de la participacin en el grupo de cada caso analizado, con el fin
de desarrollar la regla de clasificacin. Por el contrario, en el anlisis de conglomerados
no hay informacin preliminar de la participacin de los casos en los grupos. Esta
participacin se define cuando se realiza el anlisis.
Se debe decidir si se emplea un mtodo de agrupacin o un mtodo de agregacin.
3.1. Pasos para el anlisis de Conglomerados

Para realizar anlisis de conglomerados se debe tener en cuenta los siguientes pasos:

3.1.1. Formulacin del Problema
Se debe tener claro en que variables se va a basar la agrupacin. Si se incluyen

variables irrelevantes se puede distorsionar la solucin de agrupacin y sus posteriores
anlisis. Un criterio para seleccionar las variables es la investigacin previa y tener en
cuenta las hiptesis que se prueban.
3.1.2. Seleccin de una Medida de Similitud
Como el objeto del anlisis de Conglomerados es agrupar dependiendo de la similitud,

se necesitan medidas para evaluar las diferencias y similitudes entre los objetos. La
medida de Similaridad permite realizar comparacin entre objetos, donde los objetos
con distancias reducidas tienen mayor parecido que aquellos que tienen distancias
mayores, por lo tanto se agrupan dentro del mismo cluster.
Para medir la similitud entre los objetos de un anlisis cluster existen tres mtodos.
Medidas de Correlacin
Medidas de Distancia
Medidas de Asociacin
Las medidas de correlacin y las medidas de distancia requieren datos mtricos, y las
medidas de asociacin requieren datos no mtricos.
3.1.3. Estandarizacin de Datos
Cuando se ha seleccionado la medida para cuantificar la similaridad entre objetos, se

debe realizar una estandarizacin de los datos, ya que las variables con mayor
desviacin tpica tienen un mayor impacto en el resultado final de similaridad. Por
ejemplo, si se quiere hacer un anlisis del consumidor y conocer que variables afectan
de una manera significativa su decisin de compra y se tienen las variables edad,
ingresos y gusto por el producto. Se puede notar que cada variable tiene una escala
diferente, aos, pesos, escala de 1 a 10; si se realizara un grfico de distancias la
variable ms representativa seria sin duda los ingresos. En este orden de ideas, es
necesario ser consciente del peso implcito de las varibles que hacen parte del estudio
y realizar una estandarizacin de stas.
3.1.4. Supuestos del Anlisis
Se debe tener en cuenta la representividad de la muestra y multicolinealidad.
3.1.5. Seleccin del Procedimiento de Agrupacin

Se encuentran dos tipos de procedimientos los jerrquicos y los no jerrquicos.

El anlisis de conglomerado jerrquico se encarga de desarrollar una jerarqua o
estructura en forma de rbol, tal es el caso de los dendogramas que arroja el anlisis
de conglomerado jerrquico en spss. Los mtodos jerrquicos pueden ser por
Aglomeracin o por Divisin. Para el mtodo de conglomerados no jerrquico el caso
de agrupacin de k medias es el ms representativo. Ms adelante se explicar con ms
detalle.
3.1.6. Decisin del Nmero de Conglomerados
Esta decisin es un poco subjetiva. Sin embargo, para el caso del anlisis cluster
jerrquico, las distancias entre los clusters pueden ser una gua til o calcular varias
soluciones de aglomeracin para luego decidir cul es la mejor.
En el caso del anlisis cluster no jerrquico, se puede realizar un grfico para comparar
el nmero de grupos con la relacin entre la varianza total de los grupos y la varianza
entre los grupos. En la parte del grfico que presente una curva se estara indicando el
nmero idneo de grupos.
Si aparece un grupo de un solo miembro, se debe estudiar su representatividad.
3.1.7. Interpretacin y Elaboracin del Perfil de los Clusters
En este paso se pretende examinar la variacin de los clusters, donde se observan las
caractersticas de cada uno y se analizan las variables que intervienen en su
conformacin.

El anlisis de perfiles se encarga de describir las caractersticas propias de cada cluster

y no describe lo que determina la conformacin de cada cluster.
3.1.8. Validacin de Conglomerados Obtenidos
Este paso hace referencia al hecho de asegurarse que los cluster resultantes sean
representativos de la poblacin, sean generalizables a otros objetos y estables con el
transcurso del tiempo.
Para realizar dicha validacin se pueden realizar los siguientes pasos:
Realizar el anlisis con los mismos datos y utilizar distintas medidas de distancia
y comparar los resultados
Emplear distintos mtodos de conglomerados y comparar resultados
Realizar submuestras, hacer anlisis por separado y comparar resultados y
centroides arrojados.

4. Anlisis De Conglomerados En Dos Fases

Este procedimiento es una herramienta exploratoria que permite descubrir las
agrupaciones o conglomerados de un conjunto de datos. Es til cuando se tienen
grandes archivos de datos.
Realiza Tratamiento o conglomerados de variables categricas y continuas, seleccin

automtica del nmero de conglomerados, construye un rbol de caractersticas de
conglomerados (CF) que resume los registros.
Este anlisis es robusto, ya que tiene en cuenta la independencia y distribuciones de

probabilidad. Emplea una medida de distancia de probabilidad que asume que las
variables en el modelo de conglomerado son independientes. Adems, se asume que
cada variable continua tiene una distribucin normal y cada variable categrica tiene
distribucin multinomial.
Para determinar el nmero ms conveniente de conglomerados se emplea el criterio

Bayesiano de Schwarz's (BIC) o el criterio de informacin Akaike.
4.1. Pasos para el anlisis de conglomerados en dos

fases
Se llega al anlisis de conglomerados en dos fases mediante el Men analizar, Clasificar,
Conglomerado en dos fases.

Ilustracin 2. Conglomerados en dos Fases
Como se puede notar hay dos cuadros para clasificar las variables categricas y
continuas a analizar. En este caso se coloc como variable categrica el sector y como
variable continua los ingresos y la identificacin del cliente.
4.2. Medida de distancia

Determina cmo se calcula la similaridad entre dos conglomerados.
Medida de Log-verosimilitud: Realiza una distribucin de probabilidad entre las

variables.
Variables continuas => Distribucin normal
Variables categricas => Multinomiales
Medida Eucldea: Distancia segn una "lnea recta" entre dos conglomerados. Slo se
puede utilizar cuando todas las variables son continuas.
4.3. Nmero de conglomerados:

Donde se especifica cmo se va a determinar el nmero de conglomerados
Determinar automticamente: Como su nombre lo indica, determina automticamente el

nmero "ptimo". Adicionalmente, se puede introducir un entero positivo para
especificar el nmero mximo de conglomerados.

Especificar nmero fijo: Permite establecer el nmero de conglomerados de la solucin.
4.4. Recuento de variables continuas

Realiza un resumen del cuadro de dilogo de opciones donde se especifica las variables
para tipificar y asumidas como tipificadas.
4.5. Criterio de conglomeracin:

Existen dos opciones: El criterio de informacin bayesiano (BIC) y el criterio de
informacin de Akaike (AIC).
4.6. Opciones
En la parte de opciones se desprende el siguiente cuadro de dilogo, donde se le puede
dar un Tratamiento a los valores atpicos durante la conglomeracin.
Ilustracin 3. Conglomerados en dos fases: Opciones
Si se selecciona la opcin de realizar el tratamiento del ruido y el rbol CF se llena o

no puede aceptar ningn caso ms en un nodo hoja y no hay ningn nodo hoja que se
pueda dividir se har volver a desarrollar el rbol y los valores atpicos se colocan all,
de lo contrario se descartan dichos valores.

4.7. Asignacin de memoria:

Permite especificar la cantidad mxima de memoria en megabytes (MB) que puede
utilizar el algoritmo de conglomeracin. Si se supera este mximo, utilizar el disco
para almacenar la informacin que no se pueda colocar en la memoria.
4.8. Tipificacin de variables:

El algoritmo de conglomeracin trabaja con variables continuas tipificadas. Las
variables continuas que no estn tipificadas deben colocarse en el espacio de variables
"Para tipificar" y las variables que estn tipificadas se colocan como variables Asumidas
como tipificadas.
4.9. Opciones avanzadas

Se aplican al rbol de caractersticas de conglomerados (CF)
Umbral del cambio en distancia inicial: Se emplea para incrementar la

distancia inicial del rbol de conglomerados.
N mximo de ramas (por nodo hoja): Nmero mximo de nodos que
puede tener una hoja.
Profundidad Mxima del rbol (Niveles): Nmero mximo de niveles que
puede tener un rbol.
Mximo nmero posible de nodos: Indica el nmero mximo de nodos del
rbol CF que genera el procedimiento Cada nodo requiere como mnimo 16
Bytes.
Actualizacin del modelo de conglomerados: Esta opcin permite
importar y actualizar modelos de conglomerados que se han generado en
anlisis anteriores.
4.10. Grficos:
Cuando se da click sobre la opcin grfico aparece el siguiente cuadro de dilogo:

Ilustracin 4. Conglomerados en dos fases: Grficos
En este caso se seleccion la opcin de grafico de prelacin de importancia de las

variables y un nivel de confianza de 95%.
4.11. Resultados
Ilustracin 5. Conglomerados en dos fases: Resultados
En el grupo de estadsticas se seleccion criterio de informacin AIC o BIC.
Luego de determinar las variables, establecer las opciones, grficos y resultados se da

click en aceptar y me proporciona los resultados.

En nuestro caso arrojo la siguiente tabla de agrupacin automtica:
Criterio Razn de Razn de

Nmero de bayesiano de Cambio en cambios en medidas de
conglomerados Schwarz (BIC) BIC(a) BIC(b) distancia(c)
1 5373,494
2 3495,637 -1877,857 1,000 1,426
3 2191,641 -1303,996 ,694 5,795
4 2002,874 -188,767 ,101 1,128
5 1840,444 -162,430 ,086 1,115
6 1699,361 -141,083 ,075 1,360
7 1607,235 -92,126 ,049 1,217
8 1539,318 -67,917 ,036 1,025
9 1474,111 -65,207 ,035 1,423
10 1441,338 -32,773 ,017 1,000
11 1408,573 -32,765 ,017 1,203
12 1388,714 -19,859 ,011 1,013
13 1369,690 -19,024 ,010 1,352
14 1367,035 -2,656 ,001 1,103
15 1368,712 1,678 -,001 1,078
Tabla 1. Agrupacin Automtica
a Los cambios proceden del nmero anterior de conglomerados de la tabla.
b Las razones de los cambios estn relacionadas con el cambio para la solucin de los dos
conglomerados.
c Las razones de las medidas de la distancia se basan en el nmero actual de conglomerados frente al
nmero de conglomerados anterior.
Esta tabla resume el proceso por el cual se seleccionaron los conglomerados. El

criterio de conglomeracin (En este caso Criterio bayesiano de Schwarz (BIC)) es
calculado para cada nmero potencial de conglomerados.
Los valores ms pequeos del Criterio bayesiano de Schwarz (BIC) indican la mejor
solucin de conglomerado. Sin embargo, se presentan problemas de conglomeracin
ya que el BIC disminuye cuando se incrementan los conglomerados.
La siguiente tabla muestra la frecuencia de cada conglomerado, de los 100 datos fueron
excluidos 12 del anlisis por ser valores perdidos. Los 1488 casos restantes fueron
distribuidos as: 476 para el primer conglomerado, 516 para el segundo conglomerado
y 496 para el tercer conglomerado.
% de
N combinados % del total
Conglomerado 1 476 32,0% 31,7%
2 516 34,7% 34,4%
3 496 33,3% 33,1%
Combinados 1488 100,0% 99,2%
Casos excluidos 12 ,8%

Total 1500 100,0%
Tabla 2. Distribucin de los Conglomerados
Beneficios Nmero ID del cliente
Media Desv. tpica Media Desv. tpica

Conglomerado 1 $2,545.64 $1,032.650 786,21 457,140
2 $2,481.21 $977.318 813,82 461,348
3 $2,525.49 $975.901 804,24 472,507
Combinados $2,516.58 $994.586 801,79 463,595
Tabla 3. Perfiles de los Conglomerados
La tabla de perfiles de conglomerados presenta la media y desviacin estndar de cada

conglomerado. El sector en el conglomerado 1 tiene unos beneficios o ingresos
medios de $2,545.64.
Sector
Administracin Comercio Universidad

Frecuencia Porcentaje Frecuencia Porcentaje Frecuencia Porcentaje
Conglomerado 1 0 ,0% 0 ,0% 476 100,0%
2 0 ,0% 516 100,0% 0 ,0%
3 496 100,0% 0 ,0% 0 ,0%
Combinados 496 100,0% 516 100,0% 476 100,0%
Tabla 4. Frecuencias de Conglomerados
La tabla de frecuencia de conglomerados por Sector presenta con mayor claridad las
propiedades de los conglomerados. El conglomerado tres comprende completamente
el Sector de Administracin, el conglomerado 2 esta compuesto por el Sector
Comercio.
Variacin Intra-Conglomerado
El siguiente grafico resume el comportamiento de las frecuencias por conglomerado y

la media para cada uno de ellos.
Intervalos de confianza al 95% simultneos para las medias

2700
2600
2500
Beneficios
2400
2300
N= 476 516 496
1 2 3
Conglomerado
La lnea de referencia es la media global = 2516,58
Ilustracin 6. Variacin Intra- Conglomerado
Importancia Segn Variable Continua
Conglomerado 1
El siguiente grafico representa la importancia segn variable continua. Las variables se

ubican en el eje Y en orden descendente de acuerdo a la importancia. La lnea vertical
punteada indica los valores crticos para determinar la significancia de cada variable.
Para considerar una variable significativa la t de student debe exceder la lnea punteada
en direccin positiva o negativa.
Una t negativa indica que generalmente la variable toma valores ms pequeos que sus
valores medios dentro del conglomerado, mientras que una t positiva indica que la
variable toma valores ms grandes que los valores medios. En este conglomerado la
variable beneficios tiene valores positivos.
Desde que las medidas de importancia para todas las variables excedan el valor crtico
en el grfico, se puede concluir que todas las variables continuas contribuyen a la
formacin del conglomerado.

Importancia Segn Variable Continua

Nmero de conglomerados en dos fases = 1
Ajuste de Bonferroni aplicado
Nmero ID del client
Beneficios
Valor crtico
Variable
Estadstico de contr
aste
-3 -1 1 3
-2 0 2
t de Student
Ilustracin 7. Ajuste de Bonferroni aplicado
Conglomerado 2
En este grafico se demuestra que las variables no son importantes para la formacin
del conglomerado porque no alcanzan a exceder el valor crtico.

Nmero de conglomerados en dos fases = 2
Beneficios
Nmero ID del client

Valor crtico
Variable
Estadstico de contr
aste
-3 -1 1 3
-2 0 2
t de Student
Ilustracin 8. Ajuste de Bonferroni Aplicado2
Empleando el anlisis de Conglomerados Jerrquico en dos fases se dividieron los

sectores de acuerdo a los ingresos en tres grupos. Para obtener conglomerados ms
selectos es conveniente emplear ms variables por ejemplo, estrato, experiencia, nivel
de satisfaccin, entre otras.
4.12. Ejemplo:
Con el archivo de datos de empleados analizar y aplicar conglomerado en dos fases
para las variables salario actual, salario inicial, meses desde el contrato y experiencia
previa a partir de la variable categrica sexo.
Se realizan los pasos que se mencionaron anteriormente, arroja el cuadro de dilogo y

se seleccionan las variables.

Ilustracin 9. Anlisis de Conglomerados en dos Fases
Despus se especifica que realice grfico de porcentajes intra-conglomerado y grfico

de sectores de los conglomerados, que ordene las variables por conglomerado y arroje
medida de distancia chi-cuadrado o prueba t de significancia.
Ilustracin 10. Conglomerados en dos fases: Grficos
Se oprime aceptar y arroja los siguientes resultados, que el investigador debe analizar.
4.11.1. Conglomerados en dos fases
Del archivo de datos de empleados que tiene un total de 474 casos se realiz el
anlisis de Conglomerados en dos fases. Como variable categrica se tomo el sexo y

como variable continua el salario actual, salario inicial, meses de contrato y experiencia
previa en meses. El siguiente cuadro de distribucin de conglomerados muestra tres
conglomerados
Para el primer conglomerado hay 216 casos
Para el segundo conglomerado hay 194 casos
Para el tercer conglomerado hay 64 casos. No hay casos pedidos.
% de
N combinados % del total
Conglomerado 1 216 45,6% 45,6%
2 194 40,9% 40,9%
3 64 13,5% 13,5%
Combinados 474 100,0% 100,0%
Total 474 100,0%
Tabla 5. Distribucin de Conglomerados

4.11.2. Perfiles de los conglomerados
Este cuadro representa la media y desviacin estndar por cada variable continua de anlisis. Por ejemplo,el conglomerado uno que representa
un 45,6% del total tiene una media de salario actual de $26,031.92 y una Desviacin tpica de $ 7,558.021, teniendo en cuenta que si se saca la
media del salario actual de todos los datos es de $34 419.57 y la desviacin tpica es de $17,075.661.
Centroides
Salario actual Salario inicial Meses desde el contrato Experiencia previa (meses)
Media Desv. tpica Media Desv. tpica Media Desv. tpica Media Desv. tpica
Conglomerado 1 $26,031.92 $7,558.021 $13,091.97 $2,935.599 80,38 9,676 77,04 95,012
2 $31,866.01 $6,761.617 $16,069.64 $2,660.667 81,80 10,327 121,35 117,674
3 $70,468.36 $16,514.008 $33,128.91 $9,731.349 81,48 10,503 82,13 74,085
Combinados $34,419.57 $17,075.661 $17,016.09 $7,870.638 81,11 10,061 95,86 104,586
Tabla 6. Perfiles de los Conglomerados

4.11.3. Frecuencias
El conglomerado 1 esta compuesto por 216 casos o 100% de las mujeres.

El conglomerado 2 esta compuesto por 194 casos o 75,2% de los hombres
El conglomerado 3 esta compuesto por 64 casos, es decir 24.8% de hombres.
Sexo
Hombre Mujer
Frecuencia Porcentaje Frecuencia Porcentaje
Conglomerado 1 0 ,0% 216 100,0%
2 194 75,2% 0 ,0%
3 64 24,8% 0 ,0%
Combinados 258 100,0% 216 100,0%
Tabla 7. Frecuencias de los Conglomerados
4.11.4. Importancia de los atributos
Este grfico muestra el tamao de cada conglomerado. El conglomerado 1 tiene el 46%

de los casos, lo que equivale a 216
Tamao de conglomerado
64 / 14%
216 / 46%
194 / 41%
Ilustracin 11. Tamao de los Conglomerados
4.11.5. Porcentaje Intra-conglomerado
En este grafico se muestra como la variable categorica sexo se distribuye entre los
conglomerados. As: El conglomerado 1 esta conformado en un 100% por mujeres, el
conglomerado 2 esta conformado en 100% por hombres y el conglomerado 3 esta
conformado por el 100% de hombres. En el total de casos hay 43% de mujeres y 57%
aprox. de hombres.
Porcentaje dentro el Conglomerado de Sexo
Ilustracin 12. Porcentaje dentro del Conglomerado de sexo
4.11.6. Variacin Intra-conglomerado
A continuacin se presentan los grficos de variacin al interior de cada

conglomerado. Es decir, el comportamiento de frecuencias por conglomerado o
medias de cada uno.

80000
70000
60000
50000
Salario actual
40000
30000
20000
N= 216 194 64
1 2 3
Conglomerado
Ilustracin 13. Variacin Intra- Conglomerado 1
Este grfico dice que en el primer conglomerado, compuesto por 216 personas, en su
totalidad mujeres, el salario actual varia entre 23000 y 27000.
En el conglomerado 2, compuesto por 194 hombres, el salario actual oscila entre $

32000 y $34000 y en el conglomerado 3 compuesto por 64 hombres el salario actual
varia entre 63000 y 75000 aprox. El salario promedio para todos los casos se
encuentra en 34419,57. Aqu se puede notar la importancia de los conglomerados
porque si se analizara de manera global el salario actual promedio sera $34419,57, sin
tener en cuenta que las mujeres no ganan ms de $28000 y que hay un grupo de
hombres (64) que tienen un salario alto ($70000), que se aleja bastante del salario
actual medio.

86
84
Meses desde el contrato
82
80
78
76
N= 216 194 64
1 2 3
Conglomerado
Ilustracin 14.Variacin Intra-Conglomerado 2
40000
30000
20000
Salario inicial
10000
N= 216 194 64
1 2 3
Conglomerado
Ilustracin 15. Variacin Intra-Conglomerado 3

Interval os de confi anza al 95% si mul tneos para l as medi as
160
140
120
100
80
60
40
N= 216 194 64
1 2 3
Conglomerado
La lnea de ref erencia es la media global = 95,86
Ilustracin 16.Variacin Intra-Conglomerado 4
El grfico muestra que el conglomerado 1, compuesto por las mujeres, tiene 78 meses
de experiencia. Y el conglomerado dos tiene 120 meses de experiencia y el
conglomerado 3 tiene 81,5 meses de experiencia. El bajo salario de las mujeres se
puede ver asociado a que tienen una experiencia menor. El salario del conglomerado 2
se asocia tambin a una mayor experiencia, pero en el caso del conglomerado tres no
hay asociacin entre el salario actual y la experiencia, ya que tienen el salario ms alto
pero su experiencia en meses es inferior a la del conglomerado dos.
4.11.7. Importancia segn agrupacin
Los siguientes son los grficos que se crearon por conglomerados.

Sexo
2
Conglomerado
3
Valor crtico
Estadstico de contr
aste
0 100 200 300
Chi-cuadrado
Ilustracin 17. Ajuste de Bonferroni Aplicado-Sexo
Salario actual
3
Conglomerado
2 Valor crtico
Estadstico de contr
aste
-20 -10 0 10 20
t de Student
Ilustracin 18. Ajuste de Bonferroni Aplicado- Salario Actual
El anterior grafico representa la importancia segn Conglomerado. Como se puede

notar los conglomerados se ubican en el eje Y dependiendo de su importancia. Debido
a que la t de Student excede los valores crticos se puede considerar que los
conglomerados 1, 2 y 3 son significativos, desde el punto de vista de la variable salario
actual.
En los conglomerados 1 y 2 se toman valores ms pequeos que sus valores medios y

en el conglomerado tres se toman valores ms grandes que los valores medios.
Salario inicial
3
Conglomerado
2 Valor crtico
Estadstico de contr
aste
-30 -20 -10 0 10 20
t de Student
Ilustracin 19. Ajuste de Bonferroni Aplicado: Salario Inicial
Para la variable salario inicial, los conglomerados son significativo
Meses desde el contrato

2
Conglomerado
3 Valor crtico
Estadstico de contr
aste
-3 -2 -1 0 1 2 3
t de Student
Ilustracin 20. Ajuste de Bonferroni aplicado: Meses desde el contrato
Para la variable Meses de Contrato, ningn conglomerado es significativo

Experiencia previa (meses)

1
Conglomerado
3 Valor crtico
Estadstico de contr
aste
-4 -3 -2 -1 0 1 2 3 4
t de Student
Ilustracin 21. AJuste de Bonferroni: Experiencia Previa en meses
Para la variable Experiencia previa (meses), los conglomerados 1 y 2 son significativos,

mientras que el conglomerado 3 no es significativo.

5. Anlisis De Conglomerados Jerrquico

Esta metodologa trata de identificar grupos o segmentos relativamente homogneos
de casos (o de variables) basndose en las caractersticas propias de cada uno,
mediante un algoritmo que comienza con cada caso o variable en particular y hace
diferentes combinaciones hasta dejar un grupo uniforme. El calculo de la distancia o
similaridad entre las variables o grupos se realiza mediante la tcnica de Proximidades.
Con el anlisis de conglomerados jerrquico, se pueden agrupar los consumidores de

un determinado producto en una ciudad para establecer estrategias de marketing.
Adicionalmente, podra agrupar ciudades en diferentes grupos de acuerdo a sus
caractersticas de consumo, cultura, labor de recompra, etc., para generar estrategias
similares donde existen segmentos con comportamientos afines y as ser ms eficientes
en el momento de lanzar estrategias.
El criterio base para cada conglomerado es la distancia. Las variables que se encuentran
ms cercanas a otras deben pertenecer al mismo conglomerado, y las variables que se
encuentran ms dispersas deben pertenecer a conglomerados diferentes.
Este procedimiento es til para encontrar agrupaciones naturales de casos o variables.

Tiene mayor efectividad cuando el archivo de datos a analizar contiene un nmero
pequeo de datos (Menos de 100 datos) para ser conglomerado.
Para un conjunto de datos, los conglomerados que se construyen dependen de la

especificacin de los siguientes parmetros:
Mtodo de Conglomeracin: Define los criterios para la formacin de conglomerados.

Por ejemplo, al calcular la distancia entre dos conglomerados, se pueden usar las
variables ms cercanas entre conglomerados o el par de variables ms cercanas.
Media: Define la formula para calcular la distancia. Por ejemplo, la medida de distancia
Euclidea calcula la distancia como una "lnea recta" entre dos conglomerados. La
medida de intervalo asume que las variables son escalas, la medida de cuenta asume
que hay nmeros discretos; y la medida binaria asume que las variables toman
nicamente dos valores.
Estandarizacin: Permite igualar los resultados de variables medidas en diferentes

escalas.
Los fabricantes de automviles necesitan poder estimar el mercado actual para

determinar la competencia probable para sus vehculos. Si los automviles se agrupan
segn los datos disponibles, esta tarea puede ser automtica empleando el anlisis
cluster.
Se busca informacin de varios fabricantes y modelos de vehculos en el archivo de

spss. Empleando el anlisis de conglomerados Jerrquico se pueden agrupar los
automviles de ms altas ventas segn sus precios y propiedades fsicas.

Primero es necesario definir que casos se van a analizar, para tal motivo se debe abrir
el archivo que contiene los casos, luego acceder al men Datos, Seleccionar Casos y
de all filtrar los datos mediante una muestra aleatoria de datos o si cumplen una serie
de condiciones, luego se realiza al anlisis de conglomerado Jerrquico como tal.
5.1. Pasos para el anlisis de conglomerados jerrquico

Se realiza mediante el men Analizar, clasificar, Conglomerados jerrquicos.
Para conglomerar casos se debe seleccionar como mnimo una variable numrica, para
conglomerar variables, se deben seleccionar como por lo menos tres variables
numricas.
En la opcin de etiquetar los datos mediante se puede seleccionar una variable de

identificacin para etiquetar los datos, esta opcin slo se activa cuando se
conglomeran variables.
5.2. Dendrograma:
Representa paso por paso la solucin de conglomeracin Jerrquica, muestra los
conglomerados que se combinan y los valores de los coeficientes de distancia. Las
lneas verticales simbolizan combinacin de casos. Son empleados para evaluar la
cohesin de los conglomerados que se han creado y determinar el nmero adecuado
de conglomerados que deben permanecer en el estudio.
En la parte izquierda se muestran los casos. En el eje horizontal se muestra la distancia

entre los conglomerados cuando se efecta la unin, las lneas verticales representan
los grupos que estn unidos. La posicin de la lnea en la escala indica las distancias en
las que se unieron los grupos.
El rbol de clasificacin para determinar el nmero de conglomerados es un proceso

subjetivo. Generalmente se comienza buscando los intervalos entre las uniones a lo
largo del eje horizontal.
5.3. Clases de mtodos de Conglomeracin

En el link de Mtodo de Conglomeracin las opciones disponibles son:
Vinculacin Inter-grupos
Vinculacin intra-grupos
Vecino ms prximo,
Vecino ms lejano
Agrupacin de centroides
Agrupacin de medianas
Mtodo de Ward

Ilustracin 22. Mtodos de enlace para el Conglomerado 9
El mtodo de enlace sencillo se basa en la distancia mnima o la regla del vecino ms

prximo, los primeros objetos conglomerados son aquellos que tienen una distancia
mnima. Este mtodo pierde efectividad cuando los conglomerados no estn bien
definidos
El mtodo del enlace completo se basa en la distancia mxima entre los objetos o el
mtodo del vecino ms lejano.
En el mtodo del enlace promedio la distancia de los conglomerados se determina

por el promedio de las distancias entre los dos pares de objetos
Los Mtodos de Varianza tratan generar conglomerados con el fin de reducir la
varianza dentro de los grupos. El procedimiento Ward es empleado con frecuencia.
Para cada uno de los conglomerados se calculan las medias de las variables. Luego, se
calcula la distancia euclidiana cuadrada para las medias de los grupos.
9
Figura tomada de Artculos de estadstica CRM, Data Mining, investigacin mercados, satisfaccifghetn
clientes__.htm

Ilustracin 23. Mtodos de Agrupacin por Aglomeracin 10
En el Mtodo Centroide, la distancia entre dos grupos es la distancia entre sus

centroides.
5.4. Medida
Existen tres posibles casos de medida: Intervalo, Frecuencia, binaria.
5.4.1. Medida de intervalo
Para los datos de intervalo existen las siguientes medidas:
Distancia eucldea: La raz cuadrada de la suma de los cuadrados de las diferencias

entre los valores de los elementos. sta medida viene predeterminada para los
datos de intervalo.
Distancia eucldea al cuadrado: La suma de los cuadrados de las diferencias entre los
valores de los elementos.
Correlacin de Pearson: La correlacin producto-momento entre dos vectores de
valores.
Coseno: El coseno del ngulo entre dos vectores de valores.
Chebychev: La diferencia absoluta mxima entre los valores de los elementos.
Bloque: La suma de las diferencias absolutas entre los valores de los elementos. Se
le conoce como la distancia de Manhattan.
Minkowski: p-sima raz de la suma de las diferencias absolutas elevada a la
potencia p-sima entre los valores de los elementos.
Personalizada: r-sima raz de la suma de las diferencias absolutas elevada a la
potencia p-sima entre los valores de los elementos.
10
Figura tomada de Artculos de estadstica CRM, Data Mining, investigacin mercados, satisfaccifghetn
clientes__.htm

5.4.2. Medida de Frecuencias:
Las opciones disponibles son:
Medida de chi-cuadrado: Esta medida se basa en la prueba de chi cuadrado de

igualdad para dos conjuntos de frecuencias. sta medida viene por defecto.
Medida de Phi-cuadrado: Esta medida es igual a la medida de chi-cuadrado
normalizada por la raz cuadrada de la frecuencia combinada.
5.4.3. Medida Binaria:
Las opciones disponibles son:
Distancia eucldea, Distancia eucldea al cuadrado, Diferencia de tamao, Diferencia de

configuracin, Varianza, Dispersin, Forma, Concordancia simple, Correlacin phi de 4
puntos, Lambda, D de Anderberg, Dice, Hamann, Jaccard, Kulczynski 1, Kulczynski 2,
Lance y Williams, Ochiai, Rogers y Tanimoto, Russel y Rao, Sokal y Sneath 1, Sokal y
Sneath 2, Sokal y Sneath 3, Sokal y Sneath 4, Sokal y Sneath 5, Y de Yule y Q de Yule.
Si se desea, se puede cambiar los campos Presente y Ausente para especificar los
valores que indican que una caracterstica est presente o ausente. El procedimiento
ignorar todos los dems valores.
En el caso de que se desee saber si un cliente tiene un determinado servicio es

conveniente elegir medidas binarias, por ejemplo Simple matching y Jaccard.
5.5. Ejemplo:
Del una muestra del 10% del archivo Coches. Sav identificar las variables ms
homogneas mediante el anlisis de Conglomerados Jerrquico, con el fin de
determinar las variables que tienen una mayor influencia para el comprador y la
relacin entre ellas en el momento de adquirir carro.
Se accede al men de Conglomerados Jerrquico, se pasan las variables a analizar al

lado derecho y se selecciona la opcin de conglomerar variables.

Ilustracin 24. Men: Anlisis de Conglomerados Jerrquico
Luego se accede a la opcin de estadsticos que arroja el siguiente cuadro de dilogo:
Ilustracin 25.Anlisis de Conglomerados Jerrquicos: Estadsticos
Si se desea se puede seleccionar la opcin de Historial de Conglomeracin y Matriz de

distancias, para tener mayor claridad del origen de los resultados.
5.5.1. Grficos
Al acceder al link de Grficos se activa la siguiente ventana, donde se puede

seleccionar Dendograma y la cantidad de conglomerados que se desea obtener.

Ilustracin 26. Anlisis de Conglomerados Jerrquicos: Grficos
5.5.2. Mtodo de conglomeracin
En la parte inferior del cuadro conglomerado Jerrquico se visualiza la opcin de

mtodo, que al hacer clic aparece el siguiente cuadro de dilogo:
Ilustracin 27. Mtodos de Conglomeracin
Para este ejemplo, se emple como mtodo de conglomeracin agrupacin de

centroides y como medida de intervalo Distancia eucldea al cuadrado.
Cuando se ejecuta el procedimiento presenta los siguientes resultados:
Casos
Validos Perdidos Total
N Porcentaje N Porcentaje N Porcentaje
52 100,0% 0 ,0% 52 100,0%
Tabla 8. Resumen del procesamiento de los casos

En esta tabla se resume la cantidad de datos analizados y los casos perdidos.
5.5.3. Conglomerados jerrquicos
Caso Archivo matricial de entrada

Aceleracin 0
a 100 km/h Ao del Pas de Nmero de
Cilindrada en cc Potencia (CV) Peso total (kg) (segundos) modelo origen cilindros
Cilindrada en 630723266,0
cc ,000 591455574,000 335180113,000 626687223,940 607976848,000 629228337,000
00
Potencia (CV) 591455574,000 ,000 41450837,000 536234,140 156730,000 665212,000 619725,000
Peso total (kg) 52284171,00
335180113,000 41450837,000 ,000 50971884,740 45192481,000 51875656,000
0
Aceleracin 0
a 100 km/h 626687223,940 536234,140 50971884,740 ,000 192437,740 9612,140 5809,140
(segundos)
Ao del
607976848,000 156730,000 45192481,000 192437,740 ,000 285960,000 260343,000
modelo
Pas de origen 630723266,000 665212,000 52284171,000 9612,140 285960,000 ,000 925,000
Nmero de
629228337,000 619725,000 51875656,000 5809,140 260343,000 925,000 ,000
cilindros
Tabla 9. Matriz de Distancias
En la matriz de distancias se mide, como su nombre lo indica, la distancia entre cada

una de las variables, por este motivo la distancias entre las mismas variables es cero.
Los valores representan la similaridad o disimilaridad entre cada par de variables. Los
valores ms grandes indican que las variables son muy diferentes, como es el caso de
las variables Cilindrada en cc y Peso Total (kg) que presentan una alta disimilaridad
con respecto a las dems variables. No obstante, se nota la alta similaridad entre las
variables pas de origen con la Aceleracin 0 a 100 km/h (segundos) y con el
Nmero de Cilindros y la variable Nmero de cilindros con la variable Aceleracin
0 a 100 km/h (segundos). De estos resultados, se puede concluir que para el
comprador es importante la aceleracin y el nmero de cilindros de los autos y estas
variables tienen una alta relacin con el pas de origen.
5.5.4. Vinculacin de centroides
Etapa en la que el
Conglomerado que se conglomerado aparece
combina por primera vez
Conglome Conglome Conglome Conglome Prxima

Etapa rado 1 rado 2 Coeficientes rado 1 rado 2 etapa
1 6 7 925,000 0 0 2
2 4 6 7479,390 0 1 4
3 2 5 156730,000 0 0 4
4 2 4 385653,227 3 2 5
5 48245686,42
2 3 4 0 6
2
6 563416670,9
1 2 0 5 0
37
Tabla 10. Historial de Conglomeracin
Esta tabla es un resumen numrico de la solucin del conglomerado que muestra

como se juntan los casos por conglomerados en cada fase del anlisis.
En la etapa 1 se combina el caso 6 con el caso 7 porque tienen las distancias ms

pequeas. La prxima etapa hace referencia a la siguiente etapa en la que aparecer el
conglomerado. En la etapa 4 se unen los conglomerados creados en la etapa 3 y 2, esto
se puede observar en las filas que especifican la etapa en la que el conglomerado
aparece por primera vez (En la tabla se encuentran de color rojo). El conglomerado
resultante aparece nuevamente en la fase 5.
Dependiendo de los casos la anterior tabla se va haciendo ms larga, sin embargo es

importante y ms fcil observar la columna de coeficientes que observar los intervalos
en el dendrograma. Una buena solucin de conglomerado arroja saltos repentinos o
inesperados en el coeficiente de distancia.
Caso
Aceleracin 0 a 100
Cilindrada en cc
Ao del modelo
km/h (segundos)
Peso total (kg)
Pas de origen
Potencia (CV)
Nmero de
cilindros
Nmero de
conglomerados
1 X X X X X X X X X X X X X
2 X X X X X X X X X X X X
3 X X X X X X X X X X X
4 X X X X X X X X X X
5 X X X X X X X X X
6 X X X X X X X X
Tabla 11. Diagrama de tmpanos Vertical
En esta tabla se da una representacin de cmo los casos se unen en cada fase del
anlisis. No obstante, antes de hacer el anlisis es conveniente ir al men edicin,
opciones, procesos y activar la opcin de permitir el Autoprocesamiento y
Cluster_Table_Icicle_Create para que arroje el Diagrama de tmpanos en forma de
grfico y sea mucho ms fcil de analizar.
Diagrama de tmpanos verti cal
Caso
Aceler acin 0 a 100 km/h (segundos)

Nmero de cilindros
Cilindrada en cc
Ao del modelo
Peso total (kg)
Pas de origen
Potencia (CV)
Nmero de conglomerados
1
2
3
4
5
6
Ilustracin 28. Diagrama de tmpanos Vertical
En cada fase se unen dos conglomerados y cada barra blanca representa el lmite entre
conglomerados. En este caso, las variables peso total y nmero de cilindros hacen
presencia en el conglomerado 1 y 2, las variables nmero de cilindros y pas de origen
se encuentran en todos los conglomerados, la variable pas de origen y Aceleracin 0 a
100 km/h (segundos) se encuentran en 5 conglomerados, las variables potencia y
cilindrada en cc se encuentran slo en el primer conglomerado.
Dentro de las filas cada parte negra indica que los casos son agrupados como un
conglomerado. En el conglomerado 1 se encuentran todas las variables, en el
conglomerado 2 se encuentran el conglomerado de la variable cilindrada y el otro
conglomerado agrupa las dems variables.
En el conglomerado tres se pueden distinguir tres grupos de variables,
Peso
Cilindrada
Nro de cilindros, pas de origen, aceleracin, ao del modelo, y potencia.
Y as sucesivamente en el conglomerado 4, 5 y 6.
5.5.5. Dendrograma
* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S *
* * * * *
Dendrogram using Centroid Method
Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
ORIGEN 6
CILINDR 7
ACEL 4
CV 2
AO 5
PESO 3
MOTOR 1
Ilustracin 29. Dendograma
Este dendograma o diagrama de rbol representa los pasos para llegar a la solucin de
conglomerados jerrquicos, muestra la combinacin de las variables, se puede notar
que las variables origen, cilindrada, aceleracin, potencia y ao presentan similaridad,
mientras que las variables aceleracin, peso y motor presentan disimilaridad, ya que la
distancia a la que se unieron estas variables es alta.

6. Conglomerados De K Medias
Esta herramienta trata de identificar grupos de casos relativamente homogneos

basndose en las caractersticas seleccionadas y empleando algoritmos, para lo cual es
indispensable introducir el nmero de conglomerados que se desea obtener.
Este mtodo de agrupacin que se basa en la distancia que existe entre un grupo de
casos y un caso especfico central denominado centroide, Este tipo de clasificacin es
til cuando se posee un gran nmero de casos y se puede utilizar de manera
exploratoria para comenzar a identificar grupos de casos.
Para realizar un ejemplo, se tiene la base de datos de Ruspini 11. Lo primero que se
debe hacer para tener una idea acerca de cuantos conglomerados se puedan obtener
de los datos que se tiene es la realizacin de un diagrama de dispersin, este se realiza
en la herramienta grficos interactivos Grficos de dispersin, en este caso se
contrastan las variables 2 y 3:

10 0

75

V2

50

25

0
0 50 10 0 15 0
V3
Ilustracin 30. Diagrama de dispersin primer grupo
11
Datos simulados por Ruspini Ruspini, E.H. (1970), "Numerical Methods for Fuzzy Clustering,"
Information Science, 2, 319-350. Representan 75 datos bidimensionales simulados de cuatro
distribuciones distintas

Se puede observar claramente que los casos se agrupan en cuatro conjuntos, esta
informacin es importante para elegir el nmero de conglomerados que se desea
realizar.
Al contrastar las variables V1 y V2 se obtiene el siguiente grafico:

75

50

V1

25

0
0 25 50 75 10 0
V2
Ilustracin 31. Diagrama de dispersin segundo grupo
En este caso no son tan claros los grupos que se desean realizar pero si se observa
muy bien existen espacios entre algunos datos que pueden ayudar a la realizacin del
conglomerado en este caso 3
6.1. Preparando el anlisis

De esta forma procedemos a realizar la clasificacin de conglomerados mediante el
sistema K medias; para utilizar este procedimiento se va al men analizar clasificar
conglomerado de k medias.

Ilustracin 32. Ruta conglomerados K medias
Ya en el cuadro de dialogo se eligen las variables con las que se quieren realizar los
conglomerados y se trasladan a las listas de variables, las variables de cadena slo
pueden utilizarse para etiquetar datos.
Ilustracin 33. Cuadro de dialogo K medias
En la opcin de N de Conglomerados se encuentra por defecto 2, si se desea un

nmero mayor de conglomerados se puede introducir el nuevo nmero, para las
primeras variables se realizaran 4 conglomerados y para el segundo grupo 3.

Este tipo de clasificacin tiene dos mtodos para realizar la aglomeracin:
Iterar y clasificar: Esta tcnica exploratoria no se queda solo con el primer

centro que encuentra sino que sigue buscando dentro de la base para buscar el
mas conveniente se pueden realizar varias iteraciones, estn predeterminadas
10; se pueden utilizar mas pero de todos modos el proceso de iteracin se
detendr cuando el cambio entre los centros llegue a cero, aunque esta opcin
tambin se puede cambiar a gusto del investigador, en la opcin iterar.
Clasificar: Esta opciones conforma con los centros obtenidos inicialmente al
activa esta opcin se desactiva Iterar en el cuadro de dialogo.
Iterar: En este link se especifica el nmero mximo de iteraciones y criterio de

convergencia, adems se puede seleccionar la opcin de usar medias actualizadas.
Ilustracin 34. Iterar
Guardar: Permite guardar el conglomerado de pertenencia (el conglomerado al cual

pertenece cada caso) y la distancia de este desde centro del conglomerado. Esta es
informacin es de gran ayuda para la construccin de diagramas de dispersin por
conglomerados. Para este ejemplo se seleccionan las dos opciones para ver ms
claramente los conglomerados en un futuro diagrama de dispersin.
Ilustracin 35. Guardar
Opciones: En la parte de estadsticos se puede escoger si se quiere tener en la

respuesta los centros que obtuvo inicialmente, si se quiere obtener una tabla de
resumen del anlisis de varianza de los casos para la realizacin de un anlisis
descriptivo. La informacin del conglomerado muestra los casos utilizados para la
aglomeracin y su conglomerado asignado.

Ilustracin 36. Opciones
Luego se comienza a realizar el conglomerado de k medias como tal, donde se

especifica un nmero de conglomerados igual a 4 y en opciones que realice la tabla
anova.
6.2. Resultados del anlisis

Despus de preparar el anlisis se pueden obtener los siguientes resultados:
Centros i ni ciales de los conglomerados
Conglomerado
1 2 3 4
V3 21 63 126 155
V2 83 5 111 55
Tabla 12. Cuadro conglomerados iniciales primer grupo
Centros i niciales de los conglomerados
Conglomerado
1 2 3
V1 1 68 60
V2 4 58 117
Tabla 13. Cuadro conglomerados iniciales segundo grupo
La anterior tabla muestra los centros de conglomerados iniciales y muestra los valores
centrales para cada una de las variables en sus distintos conglomerados
El historial de iteraciones muestra el progreso del proceso de conglomeracin en cada

etapa. En las primeras interacciones el centro de conglomerado cambia en grandes
proporciones, mientras que en las ltimas interacciones se presentan ajustes menores
hasta llegar a cero a la convergencia que se haya seleccionado en las opciones de
iteracin.

a
Historial de iteraci ones
Cambio en los centros de los conglomerados

It erac in 1 2 3 4
1 14, 157 15, 275 16, 972 14, 253
2 ,000 ,000 ,000 ,000
a. Se ha logrado la conv ergencia debido a que los
centros de los conglomerados no present an ningn
cambio o ste es pequeo. El cambio mximo de
coordenadas abs olutas para cualquier c entro es de
,000. La it eracin actual es 2. La distancia mnima
ent re los c entros iniciales es de 63,063.
Tabla 14. Cuadro historial de iteraciones primer grupo
a
Historial de iteraci ones
Cambio en los centros de los

conglomerados
It erac in 1 2 3
1 25, 574 15, 641 16, 264
2 2, 283 2, 344 2, 293
3 ,755 1, 083 ,000
4 ,752 1, 115 ,000
5 ,000 ,000 ,000
a. Se ha logrado la c onv ergencia debido a que los
centros de los conglomerados no presentan ningn
cambio o ste es pequeo. El cambio mx imo de
coordenadas absolutas para cualquier cent ro es de
,000. La it eracin actual es 5. La distancia mnima
ent re los c entros iniciales es de 59,540.
Tabla 15. Cuadro historial de iteraciones segundo grupo
En el segundo grupo de variables es ms notorio el proceso de iteracin, y para ambos

grupos se puede observar en la informacin que ofrece el programa el cambio mximo
absoluto para cualquier centro y la distancia mnima que existe entre los centros que
se plantaron al inicio.
Posteriormente de las iteraciones se puede observar los centros de conglomerados

finales para el estudio:

Centros de los conglomerados finales
Conglomerado
1 2 3 4
V3 19 65 115 146
V2 69 20 98 44
Tabla 16. Conglomerados finales primer grupo
Centros de los conglomerados finales
Conglomerado
1 2 3
V1 18 57 53
V2 28 64 100
Tabla 17. Conglomerados finales segundo grupo
Como en las opciones se eligi que mostrara la tabla Anova, esta aparece en el
resultado final e indica que variables contribuyen en mayor medida a la solucin del
conglomerado, teniendo muy en cuenta la explicacin que el mismo programa da
sobre su interpretacin:
ANOVA
Conglomerado Error
Media Media
cuadrt ica gl cuadrt ica gl F Sig.
V3 56590,892 3 81, 004 71 698,620 ,000
V2 20573,380 3 100,419 71 204,874 ,000
Las pruebas F slo se deben ut ilizar con una f inalidad descriptiv a puesto que los
conglomerados han s ido elegidos para maximizar las dif erencias ent re los casos en
dif erentes conglomerados. Los niv eles crt icos no s on c orregidos , por lo que no
pueden interpretars e como pruebas de la hiptesis de que los c entros de los
conglomerados s on iguales.
Tabla 18. ANOVA
Finalmente muestra que cantidad de casos han sido asignados a los diferentes
conglomerados que se han creado

Nmero de casos en cada conglomerado

Conglomerado 1 15, 000
2 20, 000
3 17, 000
4 23, 000
Vlidos 75, 000
Perdidos ,000
Tabla 19. Casos por conglomerado primer grupo
En este caso se puede ver que al primer conglomerado se le asignaron 15 casos de los
75 incluidos en la base de datos, al segundo 20, al tercer conglomerado 17 y por
ultimo 23 casos al cuarto conglomerado, del mismo modo se puede observar el
numero de casos que se no se utilizaron por ser valores perdidos.
Nmero de casos en cada conglomerado

Conglomerado 1 35, 000
2 24, 000
3 16, 000
Vlidos 75, 000
Perdidos ,000
Tabla 20. Casos por conglomerado segundo grupo
En este grupo de variables se interpretan de igual manera los casos por conglomerado
Para terminar el anlisis es muy aclaratorio observar grficamente como quedaron los
diferentes conglomerados, para esto fue que se guardaron los conglomerados de
pertenencia los cuales generaron una nueva variable llamada qcl_1 y cuya etiqueta es
Numero inicial de casos; con esta nueva variable como leyenda se disea un nuevo
grafico de dispersin:


Nme ro inicial de casos
1
2
10 0

3

4

75

V2

50

25

0
0 50 10 0 15 0
V3
Ilustracin 37. Grafico de dispersin conglomerados finales primer grupo
De esta forma se puede observar muy claramente los cuatro conglomerados que se
crearon los cuales por ejemplo podran definir los clientes de una empresa comercial
en los que la variable V2 podra representar las cantidades compradas y la variable V3
el precio, de esta forma la empresa tendra de la muestra seleccionada 4 grupos
distintos de clientes:
1. Los que compran mucho a un bajo precio

2. Los que compran poco cuando el precio se acerca o supera 50
3. Los que compran mucho cuando el precio supera los cien
4. Los que compran relativamente poco cuando el precio es mayor a cien.
De esta forma se puede ver que para la empresa es rentable tener precios mayores a
50 ya que en este rango de precios se encuentra su mayora de clientes, adems el
conglomerado tres que es el de mayor compra de productos supera el precio de 100
(de esto se deduce que la empresa vende un giffen12).
12
BIEN GIFFEN. Bien inferior en el que al aumentar su precio aumenta su demanda.

Para el segundo grupo de datos el grafico de dispersin da de la siguiente manera:
75

Nme ro inicial de casos

1

2

3

50

V1

25

0
0 25 50 75 10 0
V2
Ilustracin 38. Grafico de dispersin conglomerados finales segundo grupo
En este caso los conglomerados como ya se dijo no son tan claros como en el primer
grupo de variables, se puede observar como un caso en especial del conglomerado 3
parece que hace mas parte del conglomerado dos y como algunos del conglomerado 1
tambin parece que hacen mas parte del conglomerado 2; Pero como se puede
recordar al principio se aclaro que este tipo de clasificacin era una manera de
explorar los datos.

7. Anlisis Factorial Para La Reduccin De Datos
En el rea de la segmentacin de mercados, el anlisis factorial sirve especialmente

para ayudar a reducir las muchas variables disponibles a una base de las variables
compuestas (factores) con el propsito de realizar una segmentacin tipo cluster,
anlisis discriminante o una regresin logstica. Mediante este mtodo se toma un gran
nmero de variables y se investiga para ver si tiene un pequeo nmero de factores en
comn que expliquen su nter correlacin y que cada grupo sea independiente entre si.
7.1. Que Buscar Cuando Se Realiza Un Anlisis Factorial

Segn Malhotra (1997)13 el Anlisis Factorial puede aplicarse en diferentes campos del
marketing como:
Segmentacin de Mercados: Para identificar las variables subyacentes en las

cuales se deben agrupar los clientes. As, por ejemplo, los compradores de
automviles nuevos pueden agruparse sobre la base de la importancia que dan
a la economa, la comodidad, el desempeo, el lujo, el servicio postventa, etc.
Investigacin de Productos: Para identificar los atributos de las marcas que
influyen en la eleccin del consumidor. La eleccin de un jabn de tocador se
puede determinar por la frescura, proteccin que proporciona, suavidad,
marca, entre otras.
Publicidad: Para comprender los hbitos de consumo del mercado meta. Los
consumidores de comida rpida pueden tener una audiencia especfica de
programas de televisin, escuchar determinado tipo de msica, tener gustos
similares que nos permiten clasificar nuestro grupo de inters.
Estudios sobre Precios: Para identificar las caractersticas de los consumidores
sensibles al precio. Estos consumidores pueden ser de clase media,
preocupados por la economa, caseros, vivir en un lugar determinado, etc.
Hay dos preguntas principales que se deben tener en cuenta cuando se realiza un
anlisis factorial: cuntos (si existen) factores hay? y que representan? Estas preguntas
estn muy relacionadas porque en la prctica del estudio de mercados raramente se
conservaran los factores que no se puedan identificar y nombrar.
Al realizar el anlisis se tiene muy en cuenta la interpretacin del analista ya que el
13
Malhotra, Naresh K.. Investigacin de mercados un enfoque prctico Naresh K. Malhotra ; tr. Verania
de Parres Crdenas. 2a. ed..-- Mxico: Prentice Hall: Pearson Educacin: Addison Wesley 1997. Pg. 120

tendr los criterios para decidir que factores se mantienen o se dejan.
7.2. Principios
La primera parte del anlisis se basa en la matriz de correlaciones, la que muestra los
coeficientes de correlacin (su variabilidad) entre cada par de variables.
El anlisis factorial funciona mediante la matriz de correlaciones que relaciona las

variables que se descompondrn en factores. El argumento bsico es que las variables
estn correlacionadas porque comparten unos o ms componentes comunes, y si no
fuera as no habra necesidad de realizar anlisis factorial. Un modelo del uno-factor
para tres variables puede ser representado matemticamente como sigue (Vs son las
variables, Fs son los factores, Es representan la variacin que es nica a cada uno
variable (sin correlacin con el componente de E de los otros)):
Cada variable se compone del factor comn (F1) multiplicado por un coeficiente (L1, L2,
L3 , los lambdas) ms un componente nico o aleatorio. Si el factor fuera medible (que
no es) esta ecuacin sera una regresin simple.
7.3. Anlisis factorial en SPSS

El anlisis factorial intenta identificar variables subyacentes, o factores, que expliquen la
configuracin de las correlaciones dentro de un conjunto de variables observadas. El
anlisis factorial se suele utilizar en la reduccin de los datos para identificar un
pequeo nmero de factores que explique la mayora de la varianza observada en un
nmero mayor de variables manifiestas. Tambin puede utilizarse para generar
hiptesis relacionadas con los mecanismos causales o para inspeccionar las variables
para anlisis subsiguientes (por ejemplo, para identificar la colinealidad antes de realizar
un anlisis de regresin lineal).

Ilustracin 39. Anlisis factorial
El procedimiento de anlisis factorial ofrece un alto grado de flexibilidad:
Existen siete mtodos de extraccin factorial disponibles.

Existen cinco mtodos de rotacin disponibles.
Existen tres mtodos disponibles para calcular las puntuaciones factoriales; y las
puntuaciones pueden guardarse como variables para anlisis adicionales.
7.4. Etapas en un anlisis factorial.

El mtodo es desarrollado principalmente en cuatro pasos:
1. La matriz de correlacin o de covarianza es calculada. En el caso de que una

variable muestre bajos coeficientes de correlacin con las otras variables, esta
puede ser eliminada y, por lo tanto, obtener la nueva matriz de correlacin. Sin
embargo, es necesario que observe los valores de su comunidad y las cargas
factoriales.
Ilustracin 40. Matriz de covarianza

2. Las cargas factoriales son estimadas. En este parte, es necesario establecer el

mtodo empleado para la extraccin de los factores ya sea por componentes
principales u otro mtodo de extraccin.
3. Las cargas factoriales son rotadas a fin de obtener cargas ms fcilmente

interpretables. Los mtodos de rotacin genera cargas para cada factor ya sea
grandes o pequeas, pero no de valores intermedios. Esta rotacin permite reducir
el nmero de factores a la estructura ms simple que describe los datos, esto es,
encontrar una solucin final.
4. Para cada caso, los puntajes pueden ser calculados para cada factor y almacenados
para usarlos como variables de entrada en otros procedimientos.
7.4.1. Extraccin de factores.
Para este caso se utilizara la base de datos mundo 95 que trae SPSS, es un estudio
realizado en 109 pases acerca de datos demogrficos.
Utilizamos las variables:
Esperanza de vida femenina

Mortalidad infantil (muertes por 1000 nacimientos vivos)
Personas Alfabetizadas (%)
Tasa de natalidad (por 1.000 habitantes)
Tasa de mortalidad (por 1.000 habitantes)
Fertilidad: nmero promedio de hijos
Habitantes en ciudades (%)
Log(10) de PIB_CAP
Aumento de la poblacin (% anual)
Tasa Nacimientos/Defunciones
Log(10) de Poblacin

Ilustracin 41. Cuadro de dialogo anlisis factorial
Son muchos los mtodos que pueden emplearse para extraer los factores iniciales de
la matriz de correlacin. En general, estos mtodos son complejos numricamente. El
SPSS proporciona de siete mtodos de extraccin, sin embargo, el ms ampliamente
usado en la prctica es el mtodo de extraccin por componentes principales.
Ilustracin 42. Cuadro de Dialogo Anlisis factorial- Extraccin
1. Anlisis de componentes principales. Mtodo de extraccin de factores

utilizado para formar combinaciones lineales no correlacionadas de las variables
observadas. La primera componente tiene la varianza mxima. Las componentes
sucesivas explican progresivamente proporciones menores de la varianza y no
estn correlacionadas las unas con las otras. El anlisis de componentes principales
se utiliza para obtener la solucin factorial inicial. Puede utilizarse cuando una
matriz de correlaciones es singular.
2. Mtodo de mnimos cuadrados no ponderados. Mtodo de extraccin

factorial que minimiza la suma de los cuadrados de las diferencias entre las matrices
de correlaciones observada y reproducida, ignorando las diagonales.
3. Mtodo de mnimos cuadrados generalizados. Mtodo de extraccin de

factores que minimiza la suma de los cuadrados de las diferencias entre las matrices
de correlacin observada y reproducida. Las correlaciones se ponderan por el
inverso de su unicidad, de manera que las variables que tengan un valor alto de
unicidad reciban un peso menor que las que tengan un valor bajo de unicidad.
4. Mtodo de mxima verosimilitud. Mtodo de extraccin factorial que

proporciona las estimaciones de los parmetros que con mayor probabilidad han
producido la matriz de correlaciones observada, si la muestra procede de una
distribucin normal multivariada. Las correlaciones se ponderan por el inverso de
la unicidad de las variables y se emplea un algoritmo iterativo.
5. Factorizacin de ejes principales. Mtodo de extraccin de factores que parte

de la matriz de correlaciones original con los cuadrados de los coeficientes de
correlacin mltiple insertados en la diagonal principal como estimaciones iniciales
de las comunalidades. Las saturaciones factoriales resultantes se utilizan para
estimar de nuevo las comunalidades y reemplazan a las estimaciones previas en la
diagonal de la matriz. Las iteraciones continan hasta que los cambios en las
comunalidades, de una iteracin a la siguiente, satisfagan el criterio de convergencia
para la extraccin.
6. Alfa. Mtodo de extraccin factorial que considera a las variables incluidas en el

anlisis como una muestra del universo de las variables posibles. Este mtodo
maximiza el Alfa de Cronbach para los factores.
7. Factorizacin imagen. Mtodo de extraccin de factores, desarrollado por

Guttman y basado en la teora de las imgenes. La parte comn de una variable,
llamada la imagen parcial, se define como su regresin lineal sobre las restantes
variables, en lugar de ser una funcin de los factores hipotticos.
7.4.2. Rotacin De Factores
Con frecuencia es muy difcil interpretar los factores iniciales. Por consiguiente la
solucin inicial se rota con el propsito de generar una solucin que permita la
interpretacin. Existen dos amplios tipos de rotacin: (1) rotacin ortogonal, que
mantiene a los factores no correlacionados entre s y (2) rotacin oblicua, la cual
permite que los factores se correlacionen entre s, la idea bsica de la rotacin es
generar factores que tengan algunas variables muy correlacionadas y otras poco
correlacionadas. Esto evita tener el problema de factores con todas las variables que
presentan correlaciones de medio rango y, por tanto, permite una interpretacin ms
fcil. El SPSS dispone de cinco mtodos de rotacin.

Ilustracin 43. Cuadro de Dialogo Anlisis factorial- Rotacin.
1. Mtodo varimax. Mtodo de rotacin ortogonal que minimiza el nmero de

variables que tienen saturaciones altas en cada factor. Simplifica la interpretacin de
los factores.
2. Criterio Oblimin directo. Mtodo para la rotacin oblicua (no ortogonal.

Cuando delta es igual a cero (el valor por defecto) las soluciones son las ms
oblicuas. A medida que delta se va haciendo ms negativo, los factores son menos
oblicuos. Para anular el valor por defecto 0 para delta, introduzca un nmero
menor o igual que 0,8.
3. Mtodo quartimax. Mtodo de rotacin que minimiza el nmero de factores

necesarios para explicar cada variable. Simplifica la interpretacin de las variables
observadas.
4. Mtodo equamax. Mtodo de rotacin que es combinacin del mtodo varimax,

que simplifica los factores, y el mtodo quartimax, que simplifica las variables. Se
minimiza tanto el nmero de variables que saturan alto en un factor como el
nmero de factores necesarios para explicar una variable.
5. Rotacin promax. Rotacin oblicua que permite que los factores estn
correlacionados. Puede calcularse ms rpidamente que una rotacin oblimin
directa, por lo que es til para conjuntos de datos grandes.
7.4.3. Descriptivos
Esta opcin permite obtener estadsticos descriptivos de las variables que usamos para
el anlisis factorial adems de varias opciones estadsticas y matriciales para un mejor
estudio de la matriz de correlaciones.

Ilustracin 44. Cuadro de Dialogo Anlisis factorial- Descriptivos.
Descriptivos univariados: muestra para cada variable, nmero de casos validos,

la desviacin estndar y la media.
Estad sticos descri ptivos
Des v iac in
Media t pica N del anlisis
Esperanza de v ida
69, 94 10, 695 105
f emenina
Mortalidad inf antil
(muertes por 1000 43, 317 38, 3699 105
nac imientos v iv os)
Pers onas Alf abetizadas
78, 14 23, 056 105
(%)
Tas a de natalidad (por 1.
26, 124 12, 3582 105
000 habitant es)
Tas a de mort alidad (por
9, 62 4, 277 105
1. 000 habit antes)
Fert ilidad: nmero
3, 551 1, 8909 105
promedio de hijos
Habitant es en c iudades
57, 02 24, 010 105
(%)
Log(10) de PIB_CAP 3, 4086 ,62725 105
Aumento de la poblacin
1, 696 1, 1929 105
(% anual)
Tas a
Nac imient os/ Def unc iones 3, 1868 2, 09158 105
Log(10) de Poblac in 4, 1252 ,65961 105
Tabla 21. Estadsticos descriptivos
Como se puede observar son los estadsticos para cada variable que interviene en el
estudio.
Solucin inicial: con esta opcin se obtienen las comunalidades iniciales, los

autovalores de la matriz analizada y los porcentajes de varianza que esta

relacionada a cada factor que ha sido extrado; las comunalidades son la
proporcin de la varianza que puede ser explicada por el modelo factorial en
cada variable, en este caso se puede observar que son altos los niveles que
posee cada variable que fue utilizada para la extraccin de los factores en este
caso.
Comunali dades
Inic ial Extraccin

Esperanza de v ida
1, 000 ,965
f em enina
Mortalidad inf ant il
(m uertes por 1000 1, 000 ,944
nac imient os v iv os)
Personas Alf abetizadas
1, 000 ,857
(%)
Tas a de nat alidad (por 1.
1, 000 ,965
000 habitant es)
Tas a de m ortalidad (por
1, 000 ,911
1. 000 habitantes )
Fert ilidad: nm ero
1, 000 ,927
promedio de hijos
Habit ant es en ciudades
1, 000 ,719
(%)
Log(10) de PIB_CAP 1, 000 ,813
Aumento de la poblacin
1, 000 ,958
(% anual)
Tas a
Nac im ient os/D ef unciones 1, 000 ,951
Log(10) de Poblacin 1, 000 ,939

Mt odo de extraccin: Anlisis de C omponent es principales.
Tabla 22. Comunalidades iniciales
Dentro de los estadsticos que ofrece la matriz de correlaciones tenemos:
Coeficientes: Muestra los coeficientes de correlacin de cada variable.

Determinante: Aade a la matriz de correlaciones su determinante, el cual sirve
para analizar la pertinencia del anlisis ya que si este es muy cercano a cero
indica que las variables utilizadas estn linealmente relacionadas, pero si este es
cero indica dependencia lineal entre ellas lo cual no sirve para la realizacin del
anlisis.

Coeficientes de cada
variable
Determinante
Ilustracin 45. Detalle estadsticos.
Para el caso se puede observar que el determinante es muy cercano a cero 1.506
x10-8 lo que indica que este estudio factorial es muy indicado para este caso.
Reproducida: La matriz reproducida es la matriz de correlaciones que se

obtiene de la solucin factorial, en la diagonal de esta matriz se encuentran la
comunalidades finales inmediatamente debajo se muestra la matriz de
correlacione residuales que tiene la diferencia de de las correlaciones
observadas y las reproducidas, si el modelo es bueno los factores con residuos
altos debe ser pequeo, Si el modelo es bueno y el numero de factores el
adecuado esta la matriz de correlaciones debe poderse reproducir.

Correlaci ones reproducidas
Mortalidad
inf ant il
(muertes por Tas a de Tas a de Fert ilidad:
Personas 1000 Producto nat alidad mortalidad Tas a nmero Esperanza
Habit ant es en Esperanza de Alf abetizadas nac imient os interior bruto (por 1.000 (por 1.000 Nac imient os/ promedio Log(10) de de v ida
ciudades (%) v ida f emenina (%) v iv os ) per-capita habitant es) habitant es) Def unciones de hijos Poblacin masculina
Correlac in reproducida Habit ant es en ciudades b
,703 ,800 ,703 -, 790 ,563 -, 676 -, 570 ,000 -, 658 -, 270 ,790
(%)
Esperanza de v ida b
,800 ,975 ,878 -, 958 ,656 -, 867 -, 703 -, 070 -, 856 -, 077 ,959
f emenina
Personas Alf abetizadas b
,703 ,878 ,838 -, 874 ,671 -, 873 -, 502 -, 274 -, 856 -, 011 ,847
(%)
Mortalidad inf ant il b
(muertes por 1000 -, 790 -, 958 -, 874 ,946 -, 672 ,872 ,652 ,119 ,858 ,096 -, 939
Producto interior brut o b
,563 ,656 ,671 -, 672 ,646 -, 735 -, 183 -, 423 -, 700 -, 202 ,614
per-capita
Tas a de nat alidad (por 1. b
-, 676 -, 867 -, 873 ,872 -, 735 ,951 ,374 ,469 ,927 -, 055 -, 821
000 habitant es)
Tas a de mortalidad (por b
-, 570 -, 703 -, 502 ,652 -, 183 ,374 ,937 -, 551 ,403 -, 034 -, 741
1. 000 habitantes )
Tas a b
Nac imient os/D ef unciones ,000 -, 070 -, 274 ,119 -, 423 ,469 -, 551 ,939 ,428 -, 162 ,006
Fert ilidad: nmero b

-, 658 -, 856 -, 856 ,858 -, 700 ,927 ,403 ,428 ,907 -, 099 -, 814
promedio de hijos
Log(10) de Poblacin -, 270 -, 077 -, 011 ,096 -, 202 -, 055 -, 034 -, 162 -, 099 ,935b -, 081
Esperanza de v ida b
,790 ,959 ,847 -, 939 ,614 -, 821 -, 741 ,006 -, 814 -, 081 ,950
masculina
Res iduala Habit ant es en ciudades
-, 034 -, 049 ,046 ,056 ,041 ,048 ,004 ,050 ,097 -, 036
(%)
Esperanza de v ida
-, 034 -, 012 -, 004 -, 008 ,001 ,000 -, 011 ,009 -, 008 ,023
f emenina
-, 049 -, 012 -, 028 -, 117 ,004 ,017 ,003 -, 010 -, 039 -, 039
(%)
(muertes por 1000 ,046 -, 004 -, 028 ,025 -, 003 -, 016 -, 005 -, 014 ,010 ,002
Producto interior brut o
,056 -, 008 -, 117 ,025 ,067 ,014 ,069 ,105 ,118 ,030
per-capita
Tas a de nat alidad (por 1.
,041 ,001 ,004 -, 003 ,067 ,011 -, 003 ,049 ,036 ,012
000 habitant es)
Tas a de mortalidad (por
,048 ,000 ,017 -, 016 ,014 ,011 ,041 ,021 ,031 -, 002
1. 000 habitantes )
Tas a
Nac imient os/D ef unciones ,004 -, 011 ,003 -, 005 ,069 -, 003 ,041 ,002 ,027 -, 012
Fert ilidad: nmero

,050 ,009 -, 010 -, 014 ,105 ,049 ,021 ,002 ,055 ,020
promedio de hijos
Log(10) de Poblacin ,097 -, 008 -, 039 ,010 ,118 ,036 ,031 ,027 ,055 ,002
Esperanza de v ida
-, 036 ,023 -, 039 ,002 ,030 ,012 -, 002 -, 012 ,020 ,002
masculina
Mt odo de extraccin: Anlisis de Componentes principales.
a. Los residuos se calculan entre las correlaciones observ adas y reproduc idas. Hay 9 (16,0%) residuales no redundantes con v alores absolut os may ores que 0,05.
b. Comunalidades reproducidas
Tabla 23. Matriz reproducida

Diagonal de Comunalidades
Residuos
Ilustracin 46. Detalle matriz reproducida
KMO y Prueba de esfericidad de Bartlett: Kaiser-Meyer-Olkin (KMO) es la

medida de adecuacin maestral este toma valores entre 0 y 1; los datos
menores a 0.5 dan al investigador la nocin de que no es muy buena idea
realizar el anlisis factorial con los datos que se tienen. La prueba de esfericidad
es el estadstico de prueba para la hiptesis nula de que la matriz de
correlaciones es una matriz identidad, lo que querra decir que no existen
correlaciones significativas entre las variables lo que supone que la realizacin
de anlisis factorial no seria adecuado.

KMO y prueba de Bartl ett

Medida de adecuac in muest ral de
Kaiser-Mey er-Olkin. ,862
Prueba de esf ericidad Chi-cuadrado

1785,571
de Bartlet t aproximado
gl 55
Sig. ,000
Tabla 24.Prueba KMO
Despus del cuadro de varianza total explicada la cual nos permite ver cuales factores
son los mas apropiados para el estudio, aquellos cuyos autovalores sean mayores que
1y que preferiblemente al realizar la suma de las saturaciones y la rotacin de factores
sigan siendo mayores que 1 y logren explicar en gran cantidad la varianza total de las
variables.
Varianza total expl icada
Sumas de las sat urac iones al c uadrado Suma de las saturaciones al cuadrado
Autov alores iniciales de la extraccin de la rotac in
% de la % de la % de la
Componente Tot al v arianza % acumulado Tot al v arianza % acumulado Tot al v arianza % acumulado
1 6, 887 62, 610 62, 610 6, 887 62, 610 62, 610 6, 874 62, 488 62, 488
2 1, 790 16, 275 78, 885 1, 790 16, 275 78, 885 1, 773 16, 118 78, 606
3 1, 049 9, 539 88, 425 1, 049 9, 539 88, 425 1, 080 9, 819 88, 425
4 ,567 5, 151 93, 576
5 ,292 2, 654 96, 230
6 ,171 1, 553 97, 783
7 ,106 ,961 98, 744
8 ,074 ,676 99, 420
9 ,038 ,349 99, 770
10 ,016 ,150 99, 920
11 ,009 ,080 100,000
Mt odo de extraccin: Anlis is de Componentes principales.
Tabla 25. Varianza total explicada
Ilustracin 47. Detalle varianza total

Para este ejemplo podemos ver como el primer factor explica gran cantidad de la
varianza y que adems se cuenta con otros dos factores que sirven para el modelo ya
que el total supera 1 y adems entre los tres logran explicar el 88.42% de la varianza
total de las variables del modelo.
Este cuadro se puede ver de una manera grafica mediante el grafico de sedimentacin:
Grfico de sedimentacin
5
Autovalor
1 2 3 4 5 6 7 8 9 10 11
Nmero de componente
Ilustracin 48. Grafico de sedimentacin.
Este es el grafico de los autovalores generados por el anlisis y al verlo ya se puede

hacer una idea de los factores que ms explicaran el modelo, ya que cuando la grafica
se torna muy plana estos son componentes residuales que no son importantes para el
anlisis.
Una de las partes ms importantes del anlisis es la matriz de componentes o

estructura factorial ya que su nombre cambia dependiendo el mtodo de extraccin
utilizado ya que esta nos permite ver las correlaciones o saturaciones que mas explica
cada factor y de esta manera ver que variables estn mas relacionadas con cada factor
y de esta manera podemos nombrar cada factor para su estudio.

a
Matri z de componentes
Componente
1 2 3
Esperanza de v ida
,978 ,134 ,024
f emenina
(muertes por 1000 -, 969 -, 082 ,009
Esperanza de v ida
,952 ,207 ,037
masculina
-, 926 ,301 -, 055
000 habitant es)
,910 -, 096 ,034
(%)
Fert ilidad: nmero
-, 909 ,264 -, 109
promedio de hijos
,798 ,179 -, 184
(%)
,716 -, 283 -, 232
per-capita
Tas a
Nac imient os/ Def unciones -, 202 ,947 ,045

-, 616 -, 701 -, 256
1. 000 habit antes)
Log(10) de Poblacin -, 071 -, 231 ,936
Mt odo de extraccin: Anlis is de componentes principales.
a. 3 componentes ext ra dos
Tabla 26. Matriz de componentes.
En esta tabla podemos observar que las esperanzas de vida masculina y femenina,
personas alfabetizadas, habitantes en ciudades y producto interno bruto saturan
positivamente el primer factor y como la mortalidad infantil y la tasa de natalidad lo
hacen negativamente en este caso podramos denominar el factor como calidad de vida
y esperanza de vida. El segundo factor es saturado por la tasa de
nacimientos/defunciones y por la tasa de mortalidad, este factor se podra denominar
simplemente tasa de nacimientos/defunciones y el tercer factor solamente es saturado
por el log 10 de la poblacin; como se puede ver todos los factores son
independientes entre ellos lo que comprueba que el anlisis es apropiado para este
caso.

Y adems es importante tener en cuenta la matriz ya rotada:
a
Matri z de componentes rotados
Componente
1 2 3
Esperanza de v ida
,970 ,179 -, 026
f emenina
(muertes por 1000 -, 964 -, 121 ,049
Esperanza de v ida
,941 ,253 -, 028
masculina
-, 940 ,243 -, 088
000 habitant es)
Fert ilidad: nmero
-, 922 ,197 -, 134
promedio de hijos
,914 -, 048 ,029
(%)
,786 ,176 -, 235
(%)
,725 -, 290 -, 191
per-capita
Tas a
Nac imient os/ Def unciones -, 247 ,928 -, 132

-, 586 -, 764 -, 101
1. 000 habit antes)
Log(10) de Poblacin -, 044 -, 050 ,964
Mt odo de extraccin: Anlis is de componentes principales.

Mt odo de rotacin: Normalizacin Varimax con Kaiser.
a. La rot acin ha conv ergido en 4 iteraciones.
Tabla 27. Matriz de componentes rotados
En este caso las saturaciones no cambian mucho lo que permite seguir con los factores
que ya se haban elegido.
Para finalizar el anlisis entre las opciones que ofrece la reduccin factorial esta el
clculo de las puntuaciones que servirn para la realizacin de la regresin lineal con
los nuevos factores que se obtuvieron
Ilustracin 49. Analisis factorial- puntuaciones factoriales

8. Conclusiones
El anlisis de conglomerados jerrquicos y el anlisis de conglomerados de k medias

son mtodos de anlisis de tipo aglomerativo, ya que parten de casos
individuales y van agrupando casos hasta llegar a grupos o conglomerados
homogneos.
Si se tiene un gran nmero de casos para conglomerar es conveniente emplear
el mtodo de conglomerado jerrquico en dos fases.
Si se tiene un gran nmero de casos para conglomerar y todas las variables son
escalares se puede emplear el anlisis de Anlisis de Conglomerados de K Medias.
Si se desea examinar la estructura de las variables y son variables escalares, se
puede realizar mediante el anlisis factorial.

9. Bibliografia
REYES, Rafael. La Estrategia de Mercados en el Siglo XXI, Revista entorno No.163,

Confederacin Patronal de la Repblica Mexicana, Mxico, Marzo 2002.
STANTON, ET AL. Fundamentos de Marketing, McGrawHIl, Mxico, 1999.
KOTLER, Phillip. Direccin de Marketing. La edicin del milenio PrenticeHall,

Mxico., 2001
Market Segmentation Using SPSS, SPSS Inc. Estados Unidos De America, 2003.
Malhotra, Naresh K.. Investigacin de mercados un enfoque prctico Naresh K.

Malhotra ; tr. Verania de Parres Crdenas. 2a. ed..-- Mxico : Prentice Hall : Pearson
Educacin : Addison Wesley 1997.
http://www.spss.com/la/apps/data-mining2.htm
http://www.estadistico.com/arts.html?20001023


SPSS Orientado A Mercados PDF

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

SPSS Orientado A Mercados PDF

Caricato da

Copyright:

Formati disponibili

Esta obra esta bajo una licencia reconocimiento-no comercial 2.

MARTHA GUEVARA PEUELA

Director Unidad Informtica: Henry Martnez Sarmiento

Tutor Investigacin: Maria Alejandra Enrquez

Coordinadores: Maria Alejandra Enrquez

Coordinador Servicios Web: Daniel Alejandro Ardila

UNIVERSIDAD NACIONAL COLOMBIA

Director Unidad Informtica: Henry Martnez Sarmiento

Tutor Investigacin: Mara Alejandra Enrquez

Adriana Lucia Castelblanco Leidy Viviana Avils

Este trabajo es resultado del esfuerzo de todo el

Se prohbe la reproduccin parcial o total de este

UNIVERSIDAD NACIONAL COLOMBIA

Tabla De Ilustraciones Y Tablas ................................................................................................... 5

OBJETIVO GENERAL .............................................................................................................. 11

OBJETIVOS ESPECIFICOS ...................................................................................................... 11

1. Marco Terico ...................................................................................................................... 12

1.2. Segmentacin De Mercados ................................................................................... 13

1.2.1. Proceso de Segmentacin de mercados................................................... 14

1.2.2. Tipos de Segmentacin de mercados ....................................................... 14

1.2.3. Segmentacin de mercados usando SPSS ................................................ 15

2. rboles De Clasificacin .................................................................................................. 16

2.1. Pasos ................................................................................................................................... 18

3. Anlisis Cluster O Anlisis De Conglomerados Para La Segmentacin De

3.1. Pasos para el anlisis de Conglomerados ............................................................... 19

3.1.1. Formulacin del Problema................................................................................ 20

3.1.2. Seleccin de una Medida de Similitud ............................................................ 20

3.1.3. Estandarizacin de Datos ................................................................................. 20

3.1.4. Supuestos del Anlisis ........................................................................................ 20

UNIVERSIDAD NACIONAL COLOMBIA 1

3.1.5. Seleccin del Procedimiento de Agrupacin ................................................ 20

3.1.6. Decisin del Nmero de Conglomerados.................................................... 21

3.1.7. Interpretacin y Elaboracin del Perfil de los Clusters ............................. 21

3.1.8. Validacin de Conglomerados Obtenidos .................................................... 22

4. Anlisis De Conglomerados En Dos Fases ..................................................................... 23

4.1. Pasos para el anlisis de conglomerados en dos fases ........................................ 23

4.2. Medida de distancia ..................................................................................................... 24

4.3. Nmero de conglomerados: ..................................................................................... 24

4.4. Recuento de variables continuas .............................................................................. 25

4.5. Criterio de conglomeracin: ..................................................................................... 25

4.6. Opciones ....................................................................................................................... 25

4.7. Asignacin de memoria: ............................................................................................. 26

4.8. Tipificacin de variables: ............................................................................................ 26

4.9. Opciones avanzadas .................................................................................................... 26

4.11. Resultados ..................................................................................................................... 27

4.12. Ejemplo .............................................................................................................................. 32

4.11.1. Conglomerados en dos fases ........................................................................... 33

4.11.2. Perfiles de los conglomerados ......................................................................... 35

4.11.4. Importancia de los atributos ............................................................................ 36

4.11.5. Porcentaje Intra-conglomerado ...................................................................... 36

4.11.6. Variacin Intra-conglomerado ......................................................................... 37

4.11.7. Importancia segn agrupacin ......................................................................... 40

UNIVERSIDAD NACIONAL COLOMBIA 2

5. Anlisis De Conglomerados Jerrquico ........................................................................... 44

5.1. Pasos para el anlisis de conglomerados jerrquico ............................................ 45

5.3. Clases de mtodos de Conglomeracin ................................................................ 45

5.4. Medida ............................................................................................................................ 47

5.4.1. Medida de intervalo............................................................................................ 47

5.4.2. Medida de Frecuencias:........................................................................................ 48

5.4.3. Medida Binaria: .................................................................................................... 48

5.5. Ejemplo: ......................................................................................................................... 48

5.5.2. Mtodo de conglomeracin ............................................................................. 50

5.5.3. Conglomerados jerrquicos ............................................................................. 51