Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
5
Colombia de creativecommons. Para ver una copia de esta
licencia, visite http://creativecommons.org/licenses/by/2.5/co/ o
envi una carta a creative commons, 171second street, suite 30 San
Francisco, California 94105, USA
SPSS ORIENTADO A LA
GESTION DE MERCADOS
Autores:
Analista de Infraestructura
y Comunicaciones: Adelaida Amaya
Analista de Sistemas de
Informacin: lvaro Enrique Palacios Villamil
Lder de Gestin de
Recurso Humano: Islena del Pilar Gonzalez
Auxiliares de Investigacin:
Tabla De Contenido
Tabla De Contenido........................................................................................................................ 1
Resumen ............................................................................................................................................ 9
Abstract ............................................................................................................................................. 9
Introduccin .................................................................................................................................... 10
Objetivos ......................................................................................................................................... 11
1.1. SPSS................................................................................................................................. 12
4.10. Grficos:......................................................................................................................... 26
4.11.3. Frecuencias........................................................................................................... 36
5.2. Dendrograma:............................................................................................................... 45
5.5.1. Grficos................................................................................................................. 49
8. Conclusiones ......................................................................................................................... 81
9. Bibliografia .............................................................................................................................. 82
Resumen
Abstract
This investigation is dedicated to several useful tools of the statistical program SPSS for
the accomplishment of an investigation of markets, in this case for the accomplishment
of the segmentation of markets includes.
The document begins with a little theoretical frame dedicated to the segmentation and
to explain the program briefly, later begins to explain concisely the modulate call
Answer Tree, soon to enter completely the cluster analysis by means of an
introduction the form in which they are made generally, and three forms are described
to make them, analysis of two phases, the hierarchic cluster and system K means. In
order to finalize the system of reduction of data by factorial analysis is explored.
Introduccin
SPSS es una potente herramienta para el anlisis estadstico, la cual posee aplicaciones
para gran variedad de ciencias y reas del conocimiento. Teniendo en cuenta los
mdulos que esta herramienta presenta para el anlisis y estudios de mercados, es
necesario implementar una lnea de investigacin dedicada al estudio de las ventajas y
aprovechamiento de los recursos ofrecidos.
Objetivos
OBJETIVO GENERAL
Aprovechar en mayor medida la licencia adquirida de SPSS por la Universidad Nacional
de Colombia a travs del estudio de las herramientas de mercados que ofrece la
aplicacin adquirida y brindar soporte a la carrera de administracin para que sea de
amplia utilidad a la comunidad estudiantil.
OBJETIVOS ESPECIFICOS
Estudiar las diferentes funciones, mdulos o herramientas especficas o
aplicables al estudio de mercados que ofrece SPSS.
Generar un manual completo referente a las herramientas para el anlisis y
gestin de mercados con la ayuda de SPSS.
Crear un programa detallado para la gestin de un curso libre o capacitacin
para la Facultad de Ciencias Econmicas.
1. Marco Terico
Es aqu donde aparece la estrategia de mercados como una herramienta para que la
empresa pueda definir ms claramente su segmento de mercado y pueda dirigir con
ms eficiencia y eficacia sus esfuerzos para satisfacer a sus clientes de la mejor manera.
1.1. SPSS
El programa SPSS (Statistical Package for the Social Sciences) es un conjunto de
paquetes y herramientas de tratamiento de datos y anlisis estadstico. Al igual, que el
resto de aplicaciones que utilizan como soporte el sistema operativo Windows y
1
Tomado de: http://www.coparmex.org.mx/contenidos/publicaciones/Entorno/2002/mar02/e.htm
2
REYES, Rafael. La Estrategia de Mercados en el Siglo XXI, Revista entorno No.163, Confederacin
Patronal de la Repblica Mexicana, Mxico, Marzo 2002.
SPSS es un paquete de software usado para conducir los anlisis estadsticos, manipular
datos, generar tablas y grficos que resumen datos.
Los anlisis estadsticos se extienden desde estadstica descriptiva bsica, tales como
promedios y frecuencias, a la estadstica deductiva avanzada, tales como modelos de la
regresin, anlisis de variacin y anlisis factorial.
3
STANTON, ET AL. Fundamentos de Marketing, McGrawHIl, Mxico, 1999.
4
KOTLER, Phillip. Direccin de Marketing. La edicin del milenio PrenticeHall, Mxico., 2001.
ESTUDIO:
Se examina el mercado para determinar las necesidades especficas satisfechas por las
ofertas actuales, las que no lo son y las que podran ser reconocidas. Se llevan acabo
una investigacin exploratoria y se organizan sesiones de grupos para entender mejor
las motivaciones, actitudes y conductas de los consumidores. Se renen datos sobre
los atributos y la importancia que se les da, conciencia de marca y calificaciones de
marcas, patrones de uso y actitudes hacia la categora de los productos; as como,
datos demogrficos, psicogrficos, etc.
ANLISIS:
Se interpretan los datos para eliminar las variables y agrupar o construir el segmento
con los consumidores que comparten un requerimiento en particular y lo que los
distingue de los dems segmentos del mercado con necesidades diferentes.
PREPARACIN DE PERFILES:
5
Tomado de: http://www.monografias.com/trabajos13/segmenty/segmenty.shtml
6
STANTON, ob.cit.
7
Market Segmentation Using SPSS, SPSS Inc. Estados Unidos De America, 2003.
2. rboles De Clasificacin
Los rboles de clasificacin son un Nuevo modulo que ofrece SPSS el cual permite
identificar grupos, descubrir relaciones entre los grupos y pronosticar eventos futuros.
Los rboles de clasificacin y decisin se pueden usar para la segmentacin,
estratificacin, prediccin, reduccin de datos, examinar variables identificar
interacciones, fundir categoras y categorizar variables.
Los rboles pueden se usados para la creacin de bases de datos para tomar
decisiones en mercadeos ya que se puede elegir alguna variable respuesta para la
segmentacin, se pueden crear perfiles mediante cualquier atributo de las variables.
Adems el apoyo a la investigacin de mercados debido a que permite al realizar
encuestas de satisfaccin la creacin de variables en escala que midan dicha
satisfaccin, asimismo la creacin de perfiles de niveles de satisfaccin de acuerdo a las
respuestas de distintas preguntas. Se pueden crear grupos de riesgos basados en la
informacin que se posea de los clientes o trabajadores. Igualmente permite tener ms
seguridad en el establecimiento de objetivos ya que permite realizar pronsticos.
ESTRATIFICACIN: Asigna varias categoras a los casos tales como alto, medio y bajo
riesgo.
PREDICCIN: Crea las reglas y las usa para predecir los eventos futuros, como la
probabilidad que alguien solicite un prstamo o el valor de reventa potencial de un
vehculo o casa.
CHAID exhaustivo: examina todas las particiones posibles de una variable predoctora.
8
http://www.spss.com/la/apps/data-mining2.htm
2.1. Pasos
Qu algoritmo seleccionar?
Seleccionar las variables independientes. Por ejemplo, edad, sexo, salario, categora
laboral, etc. que nos ayudarn a crear los perfiles.
Por ejemplo, el anlisis cluster puede ser empleado para identificar ciudades o
localidades para lanzar un nuevo producto. Se aplica el anlisis a todo el mercado, de
all se determinan grupos que renen determinadas caractersticas y se analiza cual de
ellos es el que ms se acomoda al perfil de nuestro producto.
Entonces, surge una pregunta, En que difiere el anlisis de conglomerados del anlisis
discriminante?, la respuesta es que el anlisis de conglomerados como el discriminante
se basa en la clasificacin. No obstante, el anlisis discriminante requiere del
conocimiento previo de la participacin en el grupo de cada caso analizado, con el fin
de desarrollar la regla de clasificacin. Por el contrario, en el anlisis de conglomerados
no hay informacin preliminar de la participacin de los casos en los grupos. Esta
participacin se define cuando se realiza el anlisis.
Para medir la similitud entre los objetos de un anlisis cluster existen tres mtodos.
Medidas de Correlacin
Medidas de Distancia
Medidas de Asociacin
Las medidas de correlacin y las medidas de distancia requieren datos mtricos, y las
medidas de asociacin requieren datos no mtricos.
Esta decisin es un poco subjetiva. Sin embargo, para el caso del anlisis cluster
jerrquico, las distancias entre los clusters pueden ser una gua til o calcular varias
soluciones de aglomeracin para luego decidir cul es la mejor.
En el caso del anlisis cluster no jerrquico, se puede realizar un grfico para comparar
el nmero de grupos con la relacin entre la varianza total de los grupos y la varianza
entre los grupos. En la parte del grfico que presente una curva se estara indicando el
nmero idneo de grupos.
Si aparece un grupo de un solo miembro, se debe estudiar su representatividad.
En este paso se pretende examinar la variacin de los clusters, donde se observan las
caractersticas de cada uno y se analizan las variables que intervienen en su
conformacin.
Este paso hace referencia al hecho de asegurarse que los cluster resultantes sean
representativos de la poblacin, sean generalizables a otros objetos y estables con el
transcurso del tiempo.
Para realizar dicha validacin se pueden realizar los siguientes pasos:
Realizar el anlisis con los mismos datos y utilizar distintas medidas de distancia
y comparar los resultados
Emplear distintos mtodos de conglomerados y comparar resultados
Realizar submuestras, hacer anlisis por separado y comparar resultados y
centroides arrojados.
Como se puede notar hay dos cuadros para clasificar las variables categricas y
continuas a analizar. En este caso se coloc como variable categrica el sector y como
variable continua los ingresos y la identificacin del cliente.
Medida Eucldea: Distancia segn una "lnea recta" entre dos conglomerados. Slo se
puede utilizar cuando todas las variables son continuas.
4.6. Opciones
En la parte de opciones se desprende el siguiente cuadro de dilogo, donde se le puede
dar un Tratamiento a los valores atpicos durante la conglomeracin.
4.10. Grficos:
Cuando se da click sobre la opcin grfico aparece el siguiente cuadro de dilogo:
4.11. Resultados
b Las razones de los cambios estn relacionadas con el cambio para la solucin de los dos
conglomerados.
c Las razones de las medidas de la distancia se basan en el nmero actual de conglomerados frente al
nmero de conglomerados anterior.
Los valores ms pequeos del Criterio bayesiano de Schwarz (BIC) indican la mejor
solucin de conglomerado. Sin embargo, se presentan problemas de conglomeracin
ya que el BIC disminuye cuando se incrementan los conglomerados.
La siguiente tabla muestra la frecuencia de cada conglomerado, de los 100 datos fueron
excluidos 12 del anlisis por ser valores perdidos. Los 1488 casos restantes fueron
distribuidos as: 476 para el primer conglomerado, 516 para el segundo conglomerado
y 496 para el tercer conglomerado.
% de
N combinados % del total
Conglomerado 1 476 32,0% 31,7%
2 516 34,7% 34,4%
3 496 33,3% 33,1%
Combinados 1488 100,0% 99,2%
UNIVERSIDAD NACIONAL COLOMBIA 28
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA Y COMUNICACIONES
SPSS Aplicado a la Gestin de Mercados
Sector
La tabla de frecuencia de conglomerados por Sector presenta con mayor claridad las
propiedades de los conglomerados. El conglomerado tres comprende completamente
el Sector de Administracin, el conglomerado 2 esta compuesto por el Sector
Comercio.
Variacin Intra-Conglomerado
2600
2500
Beneficios
2400
2300
N= 476 516 496
1 2 3
Conglomerado
Conglomerado 1
Para considerar una variable significativa la t de student debe exceder la lnea punteada
en direccin positiva o negativa.
Una t negativa indica que generalmente la variable toma valores ms pequeos que sus
valores medios dentro del conglomerado, mientras que una t positiva indica que la
variable toma valores ms grandes que los valores medios. En este conglomerado la
variable beneficios tiene valores positivos.
Desde que las medidas de importancia para todas las variables excedan el valor crtico
en el grfico, se puede concluir que todas las variables continuas contribuyen a la
formacin del conglomerado.
Beneficios
Valor crtico
Variable
Estadstico de contr
aste
-3 -1 1 3
-2 0 2
t de Student
Conglomerado 2
En este grafico se demuestra que las variables no son importantes para la formacin
del conglomerado porque no alcanzan a exceder el valor crtico.
Beneficios
Estadstico de contr
aste
-3 -1 1 3
-2 0 2
t de Student
4.12. Ejemplo:
Con el archivo de datos de empleados analizar y aplicar conglomerado en dos fases
para las variables salario actual, salario inicial, meses desde el contrato y experiencia
previa a partir de la variable categrica sexo.
Se oprime aceptar y arroja los siguientes resultados, que el investigador debe analizar.
Del archivo de datos de empleados que tiene un total de 474 casos se realiz el
UNIVERSIDAD NACIONAL COLOMBIA 33
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA Y COMUNICACIONES
SPSS Aplicado a la Gestin de Mercados
% de
N combinados % del total
Conglomerado 1 216 45,6% 45,6%
2 194 40,9% 40,9%
3 64 13,5% 13,5%
Combinados 474 100,0% 100,0%
Total 474 100,0%
Este cuadro representa la media y desviacin estndar por cada variable continua de anlisis. Por ejemplo,el conglomerado uno que representa
un 45,6% del total tiene una media de salario actual de $26,031.92 y una Desviacin tpica de $ 7,558.021, teniendo en cuenta que si se saca la
media del salario actual de todos los datos es de $34 419.57 y la desviacin tpica es de $17,075.661.
Centroides
Salario actual Salario inicial Meses desde el contrato Experiencia previa (meses)
Media Desv. tpica Media Desv. tpica Media Desv. tpica Media Desv. tpica
Conglomerado 1 $26,031.92 $7,558.021 $13,091.97 $2,935.599 80,38 9,676 77,04 95,012
2 $31,866.01 $6,761.617 $16,069.64 $2,660.667 81,80 10,327 121,35 117,674
3 $70,468.36 $16,514.008 $33,128.91 $9,731.349 81,48 10,503 82,13 74,085
Combinados $34,419.57 $17,075.661 $17,016.09 $7,870.638 81,11 10,061 95,86 104,586
4.11.3. Frecuencias
Sexo
Hombre Mujer
Frecuencia Porcentaje Frecuencia Porcentaje
Conglomerado 1 0 ,0% 216 100,0%
2 194 75,2% 0 ,0%
3 64 24,8% 0 ,0%
Combinados 258 100,0% 216 100,0%
Tamao de conglomerado
64 / 14%
216 / 46%
194 / 41%
En este grafico se muestra como la variable categorica sexo se distribuye entre los
conglomerados. As: El conglomerado 1 esta conformado en un 100% por mujeres, el
conglomerado 2 esta conformado en 100% por hombres y el conglomerado 3 esta
UNIVERSIDAD NACIONAL COLOMBIA 36
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA Y COMUNICACIONES
SPSS Aplicado a la Gestin de Mercados
conformado por el 100% de hombres. En el total de casos hay 43% de mujeres y 57%
aprox. de hombres.
80000
70000
60000
50000
Salario actual
40000
30000
20000
N= 216 194 64
1 2 3
Conglomerado
Este grfico dice que en el primer conglomerado, compuesto por 216 personas, en su
totalidad mujeres, el salario actual varia entre 23000 y 27000.
86
84
Meses desde el contrato
82
80
78
76
N= 216 194 64
1 2 3
Conglomerado
40000
30000
20000
Salario inicial
10000
N= 216 194 64
1 2 3
Conglomerado
160
140
120
100
80
60
40
N= 216 194 64
1 2 3
Conglomerado
El grfico muestra que el conglomerado 1, compuesto por las mujeres, tiene 78 meses
de experiencia. Y el conglomerado dos tiene 120 meses de experiencia y el
conglomerado 3 tiene 81,5 meses de experiencia. El bajo salario de las mujeres se
puede ver asociado a que tienen una experiencia menor. El salario del conglomerado 2
se asocia tambin a una mayor experiencia, pero en el caso del conglomerado tres no
hay asociacin entre el salario actual y la experiencia, ya que tienen el salario ms alto
pero su experiencia en meses es inferior a la del conglomerado dos.
Sexo
Ajuste de Bonferroni aplicado
2
Conglomerado
3
Valor crtico
Estadstico de contr
aste
0 100 200 300
Chi-cuadrado
Salario actual
Ajuste de Bonferroni aplicado
3
Conglomerado
2 Valor crtico
Estadstico de contr
aste
-20 -10 0 10 20
t de Student
Salario inicial
Ajuste de Bonferroni aplicado
3
Conglomerado
2 Valor crtico
Estadstico de contr
aste
-30 -20 -10 0 10 20
t de Student
2
Conglomerado
3 Valor crtico
Estadstico de contr
aste
-3 -2 -1 0 1 2 3
t de Student
1
Conglomerado
3 Valor crtico
Estadstico de contr
aste
-4 -3 -2 -1 0 1 2 3 4
t de Student
El criterio base para cada conglomerado es la distancia. Las variables que se encuentran
ms cercanas a otras deben pertenecer al mismo conglomerado, y las variables que se
encuentran ms dispersas deben pertenecer a conglomerados diferentes.
Media: Define la formula para calcular la distancia. Por ejemplo, la medida de distancia
Euclidea calcula la distancia como una "lnea recta" entre dos conglomerados. La
medida de intervalo asume que las variables son escalas, la medida de cuenta asume
que hay nmeros discretos; y la medida binaria asume que las variables toman
nicamente dos valores.
Primero es necesario definir que casos se van a analizar, para tal motivo se debe abrir
el archivo que contiene los casos, luego acceder al men Datos, Seleccionar Casos y
de all filtrar los datos mediante una muestra aleatoria de datos o si cumplen una serie
de condiciones, luego se realiza al anlisis de conglomerado Jerrquico como tal.
Para conglomerar casos se debe seleccionar como mnimo una variable numrica, para
conglomerar variables, se deben seleccionar como por lo menos tres variables
numricas.
5.2. Dendrograma:
Representa paso por paso la solucin de conglomeracin Jerrquica, muestra los
conglomerados que se combinan y los valores de los coeficientes de distancia. Las
lneas verticales simbolizan combinacin de casos. Son empleados para evaluar la
cohesin de los conglomerados que se han creado y determinar el nmero adecuado
de conglomerados que deben permanecer en el estudio.
Vinculacin Inter-grupos
Vinculacin intra-grupos
Vecino ms prximo,
Vecino ms lejano
Agrupacin de centroides
Agrupacin de medianas
Mtodo de Ward
El mtodo del enlace completo se basa en la distancia mxima entre los objetos o el
mtodo del vecino ms lejano.
9
Figura tomada de Artculos de estadstica CRM, Data Mining, investigacin mercados, satisfaccifghetn
clientes__.htm
5.4. Medida
Existen tres posibles casos de medida: Intervalo, Frecuencia, binaria.
10
Figura tomada de Artculos de estadstica CRM, Data Mining, investigacin mercados, satisfaccifghetn
clientes__.htm
Si se desea, se puede cambiar los campos Presente y Ausente para especificar los
valores que indican que una caracterstica est presente o ausente. El procedimiento
ignorar todos los dems valores.
5.5. Ejemplo:
Del una muestra del 10% del archivo Coches. Sav identificar las variables ms
homogneas mediante el anlisis de Conglomerados Jerrquico, con el fin de
determinar las variables que tienen una mayor influencia para el comprador y la
relacin entre ellas en el momento de adquirir carro.
5.5.1. Grficos
Casos
Validos Perdidos Total
N Porcentaje N Porcentaje N Porcentaje
52 100,0% 0 ,0% 52 100,0%
Los valores representan la similaridad o disimilaridad entre cada par de variables. Los
valores ms grandes indican que las variables son muy diferentes, como es el caso de
las variables Cilindrada en cc y Peso Total (kg) que presentan una alta disimilaridad
con respecto a las dems variables. No obstante, se nota la alta similaridad entre las
variables pas de origen con la Aceleracin 0 a 100 km/h (segundos) y con el
Nmero de Cilindros y la variable Nmero de cilindros con la variable Aceleracin
0 a 100 km/h (segundos). De estos resultados, se puede concluir que para el
comprador es importante la aceleracin y el nmero de cilindros de los autos y estas
variables tienen una alta relacin con el pas de origen.
Etapa en la que el
Conglomerado que se conglomerado aparece
combina por primera vez
4 2 4 385653,227 3 2 5
5 48245686,42
2 3 4 0 6
2
6 563416670,9
1 2 0 5 0
37
Tabla 10. Historial de Conglomeracin
Caso
Aceleracin 0 a 100
Cilindrada en cc
Ao del modelo
km/h (segundos)
Peso total (kg)
Pas de origen
Potencia (CV)
Nmero de
cilindros
Nmero de
conglomerados
1 X X X X X X X X X X X X X
2 X X X X X X X X X X X X
3 X X X X X X X X X X X
4 X X X X X X X X X X
5 X X X X X X X X X
6 X X X X X X X X
En esta tabla se da una representacin de cmo los casos se unen en cada fase del
anlisis. No obstante, antes de hacer el anlisis es conveniente ir al men edicin,
opciones, procesos y activar la opcin de permitir el Autoprocesamiento y
Cluster_Table_Icicle_Create para que arroje el Diagrama de tmpanos en forma de
grfico y sea mucho ms fcil de analizar.
UNIVERSIDAD NACIONAL COLOMBIA 52
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA Y COMUNICACIONES
SPSS Aplicado a la Gestin de Mercados
Caso
Cilindrada en cc
Ao del modelo
Peso total (kg)
Pas de origen
Potencia (CV)
Nmero de conglomerados
1
2
3
4
5
6
En cada fase se unen dos conglomerados y cada barra blanca representa el lmite entre
conglomerados. En este caso, las variables peso total y nmero de cilindros hacen
presencia en el conglomerado 1 y 2, las variables nmero de cilindros y pas de origen
se encuentran en todos los conglomerados, la variable pas de origen y Aceleracin 0 a
100 km/h (segundos) se encuentran en 5 conglomerados, las variables potencia y
cilindrada en cc se encuentran slo en el primer conglomerado.
Dentro de las filas cada parte negra indica que los casos son agrupados como un
conglomerado. En el conglomerado 1 se encuentran todas las variables, en el
conglomerado 2 se encuentran el conglomerado de la variable cilindrada y el otro
conglomerado agrupa las dems variables.
Peso
Cilindrada
Nro de cilindros, pas de origen, aceleracin, ao del modelo, y potencia.
Y as sucesivamente en el conglomerado 4, 5 y 6.
5.5.5. Dendrograma
* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S *
* * * * *
C A S E 0 5 10 15 20 25
UNIVERSIDAD NACIONAL COLOMBIA 53
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA Y COMUNICACIONES
SPSS Aplicado a la Gestin de Mercados
ORIGEN 6
CILINDR 7
ACEL 4
CV 2
AO 5
PESO 3
MOTOR 1
Este dendograma o diagrama de rbol representa los pasos para llegar a la solucin de
conglomerados jerrquicos, muestra la combinacin de las variables, se puede notar
que las variables origen, cilindrada, aceleracin, potencia y ao presentan similaridad,
mientras que las variables aceleracin, peso y motor presentan disimilaridad, ya que la
distancia a la que se unieron estas variables es alta.
6. Conglomerados De K Medias
Este mtodo de agrupacin que se basa en la distancia que existe entre un grupo de
casos y un caso especfico central denominado centroide, Este tipo de clasificacin es
til cuando se posee un gran nmero de casos y se puede utilizar de manera
exploratoria para comenzar a identificar grupos de casos.
Para realizar un ejemplo, se tiene la base de datos de Ruspini 11. Lo primero que se
debe hacer para tener una idea acerca de cuantos conglomerados se puedan obtener
de los datos que se tiene es la realizacin de un diagrama de dispersin, este se realiza
en la herramienta grficos interactivos Grficos de dispersin, en este caso se
contrastan las variables 2 y 3:
10 0
75
V2
50
25
0
0 50 10 0 15 0
V3
11
Datos simulados por Ruspini Ruspini, E.H. (1970), "Numerical Methods for Fuzzy Clustering,"
Information Science, 2, 319-350. Representan 75 datos bidimensionales simulados de cuatro
distribuciones distintas
Se puede observar claramente que los casos se agrupan en cuatro conjuntos, esta
informacin es importante para elegir el nmero de conglomerados que se desea
realizar.
75
50
V1
25
0
0 25 50 75 10 0
V2
En este caso no son tan claros los grupos que se desean realizar pero si se observa
muy bien existen espacios entre algunos datos que pueden ayudar a la realizacin del
conglomerado en este caso 3
Ya en el cuadro de dialogo se eligen las variables con las que se quieren realizar los
conglomerados y se trasladan a las listas de variables, las variables de cadena slo
pueden utilizarse para etiquetar datos.
Conglomerado
1 2 3 4
V3 21 63 126 155
V2 83 5 111 55
Conglomerado
1 2 3
V1 1 68 60
V2 4 58 117
La anterior tabla muestra los centros de conglomerados iniciales y muestra los valores
centrales para cada una de las variables en sus distintos conglomerados
a
Historial de iteraci ones
a
Historial de iteraci ones
Conglomerado
1 2 3 4
V3 19 65 115 146
V2 69 20 98 44
Conglomerado
1 2 3
V1 18 57 53
V2 28 64 100
Como en las opciones se eligi que mostrara la tabla Anova, esta aparece en el
resultado final e indica que variables contribuyen en mayor medida a la solucin del
conglomerado, teniendo muy en cuenta la explicacin que el mismo programa da
sobre su interpretacin:
ANOVA
Conglomerado Error
Media Media
cuadrt ica gl cuadrt ica gl F Sig.
V3 56590,892 3 81, 004 71 698,620 ,000
V2 20573,380 3 100,419 71 204,874 ,000
Las pruebas F slo se deben ut ilizar con una f inalidad descriptiv a puesto que los
conglomerados han s ido elegidos para maximizar las dif erencias ent re los casos en
dif erentes conglomerados. Los niv eles crt icos no s on c orregidos , por lo que no
pueden interpretars e como pruebas de la hiptesis de que los c entros de los
conglomerados s on iguales.
Finalmente muestra que cantidad de casos han sido asignados a los diferentes
conglomerados que se han creado
En este caso se puede ver que al primer conglomerado se le asignaron 15 casos de los
75 incluidos en la base de datos, al segundo 20, al tercer conglomerado 17 y por
ultimo 23 casos al cuarto conglomerado, del mismo modo se puede observar el
numero de casos que se no se utilizaron por ser valores perdidos.
En este grupo de variables se interpretan de igual manera los casos por conglomerado
Para terminar el anlisis es muy aclaratorio observar grficamente como quedaron los
diferentes conglomerados, para esto fue que se guardaron los conglomerados de
pertenencia los cuales generaron una nueva variable llamada qcl_1 y cuya etiqueta es
Numero inicial de casos; con esta nueva variable como leyenda se disea un nuevo
grafico de dispersin:
Nme ro inicial de casos
1
2
10 0
3
4
75
V2
50
25
0
0 50 10 0 15 0
V3
De esta forma se puede observar muy claramente los cuatro conglomerados que se
crearon los cuales por ejemplo podran definir los clientes de una empresa comercial
en los que la variable V2 podra representar las cantidades compradas y la variable V3
el precio, de esta forma la empresa tendra de la muestra seleccionada 4 grupos
distintos de clientes:
De esta forma se puede ver que para la empresa es rentable tener precios mayores a
50 ya que en este rango de precios se encuentra su mayora de clientes, adems el
conglomerado tres que es el de mayor compra de productos supera el precio de 100
(de esto se deduce que la empresa vende un giffen12).
12
BIEN GIFFEN. Bien inferior en el que al aumentar su precio aumenta su demanda.
75
Nme ro inicial de casos
1
2
3
50
V1
25
0
0 25 50 75 10 0
V2
En este caso los conglomerados como ya se dijo no son tan claros como en el primer
grupo de variables, se puede observar como un caso en especial del conglomerado 3
parece que hace mas parte del conglomerado dos y como algunos del conglomerado 1
tambin parece que hacen mas parte del conglomerado 2; Pero como se puede
recordar al principio se aclaro que este tipo de clasificacin era una manera de
explorar los datos.
Hay dos preguntas principales que se deben tener en cuenta cuando se realiza un
anlisis factorial: cuntos (si existen) factores hay? y que representan? Estas preguntas
estn muy relacionadas porque en la prctica del estudio de mercados raramente se
conservaran los factores que no se puedan identificar y nombrar.
13
Malhotra, Naresh K.. Investigacin de mercados un enfoque prctico Naresh K. Malhotra ; tr. Verania
de Parres Crdenas. 2a. ed..-- Mxico: Prentice Hall: Pearson Educacin: Addison Wesley 1997. Pg. 120
7.2. Principios
La primera parte del anlisis se basa en la matriz de correlaciones, la que muestra los
coeficientes de correlacin (su variabilidad) entre cada par de variables.
Cada variable se compone del factor comn (F1) multiplicado por un coeficiente (L1, L2,
L3 , los lambdas) ms un componente nico o aleatorio. Si el factor fuera medible (que
no es) esta ecuacin sera una regresin simple.
4. Para cada caso, los puntajes pueden ser calculados para cada factor y almacenados
para usarlos como variables de entrada en otros procedimientos.
Para este caso se utilizara la base de datos mundo 95 que trae SPSS, es un estudio
realizado en 109 pases acerca de datos demogrficos.
Son muchos los mtodos que pueden emplearse para extraer los factores iniciales de
la matriz de correlacin. En general, estos mtodos son complejos numricamente. El
SPSS proporciona de siete mtodos de extraccin, sin embargo, el ms ampliamente
usado en la prctica es el mtodo de extraccin por componentes principales.
Con frecuencia es muy difcil interpretar los factores iniciales. Por consiguiente la
solucin inicial se rota con el propsito de generar una solucin que permita la
interpretacin. Existen dos amplios tipos de rotacin: (1) rotacin ortogonal, que
mantiene a los factores no correlacionados entre s y (2) rotacin oblicua, la cual
permite que los factores se correlacionen entre s, la idea bsica de la rotacin es
generar factores que tengan algunas variables muy correlacionadas y otras poco
correlacionadas. Esto evita tener el problema de factores con todas las variables que
presentan correlaciones de medio rango y, por tanto, permite una interpretacin ms
fcil. El SPSS dispone de cinco mtodos de rotacin.
5. Rotacin promax. Rotacin oblicua que permite que los factores estn
correlacionados. Puede calcularse ms rpidamente que una rotacin oblimin
directa, por lo que es til para conjuntos de datos grandes.
7.4.3. Descriptivos
Esta opcin permite obtener estadsticos descriptivos de las variables que usamos para
el anlisis factorial adems de varias opciones estadsticas y matriciales para un mejor
estudio de la matriz de correlaciones.
Des v iac in
Media t pica N del anlisis
Esperanza de v ida
69, 94 10, 695 105
f emenina
Mortalidad inf antil
(muertes por 1000 43, 317 38, 3699 105
nac imientos v iv os)
Pers onas Alf abetizadas
78, 14 23, 056 105
(%)
Tas a de natalidad (por 1.
26, 124 12, 3582 105
000 habitant es)
Tas a de mort alidad (por
9, 62 4, 277 105
1. 000 habit antes)
Fert ilidad: nmero
3, 551 1, 8909 105
promedio de hijos
Habitant es en c iudades
57, 02 24, 010 105
(%)
Log(10) de PIB_CAP 3, 4086 ,62725 105
Aumento de la poblacin
1, 696 1, 1929 105
(% anual)
Tas a
Nac imient os/ Def unc iones 3, 1868 2, 09158 105
Como se puede observar son los estadsticos para cada variable que interviene en el
estudio.
Solucin inicial: con esta opcin se obtienen las comunalidades iniciales, los
Comunali dades
Coeficientes de cada
variable
Determinante
Para el caso se puede observar que el determinante es muy cercano a cero 1.506
x10-8 lo que indica que este estudio factorial es muy indicado para este caso.
Mortalidad
inf ant il
(muertes por Tas a de Tas a de Fert ilidad:
Personas 1000 Producto nat alidad mortalidad Tas a nmero Esperanza
Habit ant es en Esperanza de Alf abetizadas nac imient os interior bruto (por 1.000 (por 1.000 Nac imient os/ promedio Log(10) de de v ida
ciudades (%) v ida f emenina (%) v iv os ) per-capita habitant es) habitant es) Def unciones de hijos Poblacin masculina
Correlac in reproducida Habit ant es en ciudades b
,703 ,800 ,703 -, 790 ,563 -, 676 -, 570 ,000 -, 658 -, 270 ,790
(%)
Esperanza de v ida b
,800 ,975 ,878 -, 958 ,656 -, 867 -, 703 -, 070 -, 856 -, 077 ,959
f emenina
Personas Alf abetizadas b
,703 ,878 ,838 -, 874 ,671 -, 873 -, 502 -, 274 -, 856 -, 011 ,847
(%)
Mortalidad inf ant il b
(muertes por 1000 -, 790 -, 958 -, 874 ,946 -, 672 ,872 ,652 ,119 ,858 ,096 -, 939
nac imient os v iv os)
Producto interior brut o b
,563 ,656 ,671 -, 672 ,646 -, 735 -, 183 -, 423 -, 700 -, 202 ,614
per-capita
Tas a de nat alidad (por 1. b
-, 676 -, 867 -, 873 ,872 -, 735 ,951 ,374 ,469 ,927 -, 055 -, 821
000 habitant es)
Tas a de mortalidad (por b
-, 570 -, 703 -, 502 ,652 -, 183 ,374 ,937 -, 551 ,403 -, 034 -, 741
1. 000 habitantes )
Tas a b
Nac imient os/D ef unciones ,000 -, 070 -, 274 ,119 -, 423 ,469 -, 551 ,939 ,428 -, 162 ,006
Diagonal de Comunalidades
Residuos
Despus del cuadro de varianza total explicada la cual nos permite ver cuales factores
son los mas apropiados para el estudio, aquellos cuyos autovalores sean mayores que
1y que preferiblemente al realizar la suma de las saturaciones y la rotacin de factores
sigan siendo mayores que 1 y logren explicar en gran cantidad la varianza total de las
variables.
Varianza total expl icada
Sumas de las sat urac iones al c uadrado Suma de las saturaciones al cuadrado
Autov alores iniciales de la extraccin de la rotac in
% de la % de la % de la
Componente Tot al v arianza % acumulado Tot al v arianza % acumulado Tot al v arianza % acumulado
1 6, 887 62, 610 62, 610 6, 887 62, 610 62, 610 6, 874 62, 488 62, 488
2 1, 790 16, 275 78, 885 1, 790 16, 275 78, 885 1, 773 16, 118 78, 606
3 1, 049 9, 539 88, 425 1, 049 9, 539 88, 425 1, 080 9, 819 88, 425
4 ,567 5, 151 93, 576
5 ,292 2, 654 96, 230
6 ,171 1, 553 97, 783
7 ,106 ,961 98, 744
8 ,074 ,676 99, 420
9 ,038 ,349 99, 770
10 ,016 ,150 99, 920
11 ,009 ,080 100,000
Mt odo de extraccin: Anlis is de Componentes principales.
Para este ejemplo podemos ver como el primer factor explica gran cantidad de la
varianza y que adems se cuenta con otros dos factores que sirven para el modelo ya
que el total supera 1 y adems entre los tres logran explicar el 88.42% de la varianza
total de las variables del modelo.
Este cuadro se puede ver de una manera grafica mediante el grafico de sedimentacin:
Grfico de sedimentacin
5
Autovalor
1 2 3 4 5 6 7 8 9 10 11
Nmero de componente
a
Matri z de componentes
Componente
1 2 3
Esperanza de v ida
,978 ,134 ,024
f emenina
Mortalidad inf ant il
(muertes por 1000 -, 969 -, 082 ,009
nac imientos v iv os)
Esperanza de v ida
,952 ,207 ,037
masculina
Tas a de natalidad (por 1.
-, 926 ,301 -, 055
000 habitant es)
Personas Alf abetizadas
,910 -, 096 ,034
(%)
Fert ilidad: nmero
-, 909 ,264 -, 109
promedio de hijos
Habit ant es en ciudades
,798 ,179 -, 184
(%)
Producto interior brut o
,716 -, 283 -, 232
per-capita
Tas a
Nac imient os/ Def unciones -, 202 ,947 ,045
En esta tabla podemos observar que las esperanzas de vida masculina y femenina,
personas alfabetizadas, habitantes en ciudades y producto interno bruto saturan
positivamente el primer factor y como la mortalidad infantil y la tasa de natalidad lo
hacen negativamente en este caso podramos denominar el factor como calidad de vida
y esperanza de vida. El segundo factor es saturado por la tasa de
nacimientos/defunciones y por la tasa de mortalidad, este factor se podra denominar
simplemente tasa de nacimientos/defunciones y el tercer factor solamente es saturado
por el log 10 de la poblacin; como se puede ver todos los factores son
independientes entre ellos lo que comprueba que el anlisis es apropiado para este
caso.
a
Matri z de componentes rotados
Componente
1 2 3
Esperanza de v ida
,970 ,179 -, 026
f emenina
Mortalidad inf ant il
(muertes por 1000 -, 964 -, 121 ,049
nac imientos v iv os)
Esperanza de v ida
,941 ,253 -, 028
masculina
Tas a de natalidad (por 1.
-, 940 ,243 -, 088
000 habitant es)
Fert ilidad: nmero
-, 922 ,197 -, 134
promedio de hijos
Personas Alf abetizadas
,914 -, 048 ,029
(%)
Habit ant es en ciudades
,786 ,176 -, 235
(%)
Producto interior brut o
,725 -, 290 -, 191
per-capita
Tas a
Nac imient os/ Def unciones -, 247 ,928 -, 132
En este caso las saturaciones no cambian mucho lo que permite seguir con los factores
que ya se haban elegido.
Para finalizar el anlisis entre las opciones que ofrece la reduccin factorial esta el
clculo de las puntuaciones que servirn para la realizacin de la regresin lineal con
los nuevos factores que se obtuvieron
8. Conclusiones
9. Bibliografia
Market Segmentation Using SPSS, SPSS Inc. Estados Unidos De America, 2003.
http://www.spss.com/la/apps/data-mining2.htm
http://www.estadistico.com/arts.html?20001023