Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
MERCADO II
Magister en Marketing
Paola Andrea Vidal Brignole
D. VERIFICACIÓN DE SUPUESTOS
OBJETIVOS ESPECÍFICOS
Resumir la información encerrada en la matriz de datos por medio de un conjunto
más pequeño (y manejable) de datos, el cual contenga un alto porcentaje de la
información contenida en la estructura original. De este modo, se podría conformar
una nueva matriz de datos, la que puede ser usada como entrada para otro análisis
cuantitativo.
Definir factores mediante agrupaciones de las variables originales. Aquí es
relevante la búsqueda de variables sustitutas. Alternativamente, podrían utilizarse
estos factores para definir un nuevo conjunto de variables (y también una nueva
matriz de datos).
Interpretar cada factor de acuerdo a los significados que tienen las variables que
lo conforman, siendo fundamental la interpretación de constructos. Se busca, para
cada grupo, el concepto común que mejor represente a las variables del grupo.
Interpretación:
- Correlación Parcial: Si existe una estructura común subyacente en la data, las
correlaciones parciales en general deben ser bajas (menores a 0,3).
- MSA: Deben ser sobre 0,7 para que cada variable se adecue de manera
correcta al análisis (si es bajo esto significa que la variable no se
correlaciona con las otras). Si está bajo el corte, se evalúa si eliminar la(s)
variables, o no hacer el análisis factorial.
KMO para medir lo consecuente del análisis factorial (MSA general).
∑𝑖 ∑𝑖≠𝑗 𝑟𝑖𝑗 2
𝐾𝑀𝑂 𝑀𝑆𝐴 =
∑𝑖 ∑𝑖≠𝑗 𝑟𝑖𝑗 2 + ∑𝑖 ∑𝑖≠𝑗 𝑎𝑖𝑗 2
Debería ser mayor a 0,7 para aplicar este modelo. Si es bajo eso, no se adecua
bien el modelo, debido a que un factorial no es adecuado cuando la agrupación de
variables tiene una correlación baja entre sí. La recomendación es eliminar
variables con bajo MSA, para luego considerar la medida global.
Se rechaza si el valor p < 0,05. A mayor tamaño muestral (n), tiende a rechazar H0.
TÉCNICAS DEL ANÁLISIS FACTORIAL
Dos principales procedimientos para la extracción de factores:
Análisis factorial común se utiliza cuando el objetivo es la interpretación.
Componentes principales se utiliza cuando el objetivo es la reducción de datos,
se toma en cuenta la varianza total de la nube de puntos. Es el más utilizado y el
que nosotros estudiaremos.
El primer factor F1 se elige buscando el eje asociado que produzca la máxima varianza
de los puntajes factoriales. El cociente entre esta varianza S2F1 y la varianza total m es
el porcentaje de la varianza explicada por el primer factor.
El segundo factor es elegido dentro de los factores cuyos ejes asociados son
perpendiculares al eje de F1. Específicamente, se elige aquel eje que contiene la
máxima varianza residual (no explicada por F1).
Proceso se repite construyendo nuevos factores (ortogonales a los anteriores) que
expliquen el máximo posible de varianza residual. La ortogonalidad garantiza que la
covarianza entre cualquier par de factores es 0.
Conveniente que las cargas factoriales sean cercanas a 1 ó 0, para que cada
variable original esté altamente correlacionada con un único factor.
Un factor podría estar ligado principalmente a dos o más variables originales.
El concepto (constructo) que se asocia a cada factor proviene de considerar sus
variables relacionadas como un todo.
La rotación se realiza una vez que los factores han sido seleccionados.
Después de rotar; se obtienen nuevos puntajes factoriales.
Las rotaciones ortogonales se visualizan mejor si se procede a graficar variables
originales y factores en un espacio particular (un espacio de transformaciones).
Para obtener los valores de las variables originales a partir de los puntajes factoriales
se pueden utilizar ecuaciones de regresión.
𝑋𝑖 = 𝑟𝑋𝑖 𝐹1 𝐹1 + 𝑟𝑋𝑖 𝐹2 𝐹2 +. . +𝑟𝑋𝑖 𝐹𝑡 𝐹𝑡
Una vez realizado el análisis factorial, se podría querer realizar subsecuentes análisis
utilizando variables originales, en vez de factores. Con esta finalidad, se seleccionan
variables sustitutas. En general, se elige como variable sustituta a aquella variable que
tiene la carga más elevada en ese factor.
- VARIANZA MÍNIMA EXPLICADA POR CADA FACTOR (AUTOVALOR > 1) conservar los
factores cuyo valor propio es mayor a 1, es decir, que represente/explique más de 1
variable; no es relevante un factor que explique menos de una variable ya que en ese
caso es mejor la variable por si sola (que es igual a un autovalor de 1). Ej: 2,2; significa
que explica 2,2 variables.
- Gráfico de Sedimentación: grafica la tabla de autovalores (número componentes;
autovalores). La cantidad de componentes (factores) a seleccionar corresponde al
punto en donde se quiebra notablemente la pendiente.
Una vez que se han seleccionado los factores, podemos calcular la varianza de cada
variable original que queda explicada por los factores seleccionados. Si se mantienen los
m factores, esta varianza es 1. Sin embargo, si el número de factores se ha reducido, esta
varianza podría cambiar.
ANÁLISIS FACTORIAL
Analizar, Reducción de Dimensiones, Factor, agregar las variables.
DESCRIPTIVOS: solución inicial, coeficientes, niveles de significación,
determinante, KMO y prueba de esfericidad de Bartlett, Anti-imagen.
EXTRACCIÓN: componentes principales, matriz de correlaciones
solución factorial sin rotar, gráfico de sedimentación, *basado en
autovalor o número de factores (según lo que se quiera hacer).
ROTACIÓN: varimax, solución rotada, gráfico de sedimentación.
PUNTUACIONES: *regresión
OPCIONES: excluir casos según lista, ordenados por tamaño.
ANÁLISIS DE REGRESIÓN LINEAL
A. REGRESIÓN SIMPLE
OBJETIVOS:
Realización de Pronósticos (Importante en este caso un valor grande de R2 error
estándar de la estimación se sea pequeño con respecto a sy).
Estimar el porcentaje de la variabilidad que explica una variable numérica de otra
variable también numérica (respuesta)
VARIABLES
Variable predictora/independiente: X
Variable de criterio/depediente: Y
𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝜀
*ε : error (variable aleatoria)
Ŷ = 𝛽̂0 + 𝛽̂1 𝑋
𝑆 = ∑(𝑦𝑖 − ŷ𝑖 )2
1
∑𝒏𝟏(𝒙𝒊 − 𝒙
̅)(𝒚𝒊 − ȳ) 𝑪𝒐𝒗(𝒙, 𝒚)
̂𝟏 =
𝜷 = ̂𝟎 = 𝒚
𝜷 ̅ − 𝒃𝟏 𝒙
̅
𝒏
̅) 𝟐
∑𝟏 (𝒙𝒊 − 𝒙 𝒔𝟐𝒙
Se entiende que 𝛽̂0 y 𝛽̂1 en la ecuación de regresión muestral son estimaciones de los
parámetros β1 y β0 del modelo estadístico.
SUPUESTOS:
1. MEDIA CONDICIONADA NULA: Para cada x, la distribución de probabilidad de u
(residuos) es normal con media 0. E(u|X) = 0
Retener H0
Normalidad entre Y e Xi
PROPIEDADES:
Centroide punto (𝑥̅ , 𝑦̅), pertenece a la recta de regresión.
∑𝑛𝑖=1 𝜀̂𝑖 = 0
∑𝑛𝑖=1 𝑥𝑖 𝜀̂𝑖 = 0
RESIDUOS
Diferencia entre el valor observado de respuesta y la predicción entregada por el
modelo estimado.
𝒖 = 𝒚𝒊 − ŷ𝒊
Estimador Insesgado de la
̂ )𝟐
∑(𝒚 − 𝒚 varianza del error, σ2
𝒔𝒆 = √
𝒏−𝟐
𝐼𝐶 = 𝑦̂ ± 𝑡𝑠𝑦̂
𝑠𝑦
𝛽1 = 𝑟
𝑠𝑥 𝑦𝑥
Una consecuencia de esta relación es que si los puntajes de X e Y están estandarizados,
entonces la ecuación de regresión que se obtiene es:
𝑦̂ = 𝑟𝑦𝑥 𝑥
PRUEBA DE HIPÓTESIS
La prueba T y la F son equivalentes en la regresión simple.
𝑯𝟎 : 𝜷 𝟏 = 𝟎 ; 𝑯 𝟏 : 𝜷 𝟏 ≠ 𝟎
̂
𝛽
Estadístico (gl= n – 2) 𝑇 = 𝑠 1
̂1
𝛽
𝑆𝐶𝑅
1 𝐶𝑀𝑅
𝐹= =
𝑆𝐶𝐸 𝐶𝑀𝐸
(𝑛 − 2)
B. REGRESIÓN MÚLTIPLE
OBJETIVOS PRINCIPALES
Predicción: se busca el máximo poder predictivo seleccionando un modelo que
presente el máximo R2 ajustado (o, equivalentemente, seleccionando un modelo que
presente una mínima varianza estimada del error).
Explicación: se busca priorizar los predictores, según sean las magnitudes de sus
efectos individuales sobre la predicción. Es de interés:
– Analizar la naturaleza de las relaciones entre la variable de criterio y las
variables predictoras, por medio del estudio de diferentes transformaciones.
– Estudiar interrelaciones entre variables independientes con el objetivo de
buscar un conjunto óptimo de predictores que presenten baja
multicolinealidad.
La construcción de modelos de regresión múltiple, basada en la selección de variables
que presentan altas correlaciones con la variable de criterio (y bajas correlaciones entre sí)
es limitada ya que podría no reconocer modelos que tienen mayor poder predictivo. Sin
embargo, si es importante que ocurra este punto.
El tamaño de la muestra, debido al sesgo que presenta R2, debe cumplir una razón entre
los casos y variables de 5 a 1 (ideal 15 a 1 ó 20 a 1). Si se utiliza regresión por pasos, 50 a 1.
Considera más de una variable predictora, y podría realizar pronósticos más ajustados.
Modelo teórico:
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 +. . +𝛽𝑛 𝑋𝑛 + 𝜀𝑖
PROCEDIMIENTOS COMPUTACIONALES
Se refleja en:
Relativamente bajos valores t.
Errores estándares de los coeficientes de regresión (𝛽̂ ) grandes.
Aparición de valores no plausibles para los coeficientes de la regresión
¿Cómo medirlo?
1. R2j: obtener los R2 de las regresiones de cada uno de los predictores respecto a las
restantes variables predictoras. Si el mayor R2j es cercano a 1, se puede
tentativamente diagnosticar multicolinealidad aproximada.
2. TOLERANCIA (TI): porcentaje de la variabilidad del predictor Xi que no está
explicada por la variabilidad de los restantes predictores, es decir, cuánto por si
sola una variable está explicando a la variable dependiente. Una T muy pequeña
significa que la variable es prácticamente una combinación lineal de las otras.
Buscamos tolerancias altas para, que por sí sola, la variable independiente esté
aportando a la dependiente.
𝑇 = 1 − 𝑅𝑗 2
2. AUTOCORRELACIÓN
Cuando existe cierto tipo de correlación entre los residuales. Es positiva si la
tendencia es que el próximo residual tengo el mismo signo (en caso contrario, se dice
que la autocorrelación es negativa). SE BUSCA QUE NO HAYA AUTOCORRELACIÓN.
¿Cómo se mide?
Estadístico de Durbin-Watson: permite detectar autocorrelación positiva.
𝑨𝒖𝒕𝒐𝒄𝒐𝒓𝒓𝒆𝒍𝒂𝒄𝒊ó𝒏 𝑵𝒆𝒈𝒂𝒕𝒊𝒗𝒂 > 𝟏, 𝟓
3. HETEROCEDASTICIDAD
Cuando la magnitud de los residuales está relacionada con el tamaño de una de las
variables independientes.
¿Cómo se mide?
Se revela por medio de los gráficos de residuales (residuales v/s variable
dependiente o independiente).
A través de los coeficientes de correlación entre los residuales y cada una de
las variables independientes.
∑(𝑦 − 𝑦̂)2
𝑠𝑒 = √
𝑛−𝑚−1
- m = número de variables predictoras.
- n = tamaño de la muestra.
No puede ser menor que el más grande de los r2 simples obtenidos correlacionando
cada uno de los predictores con la variable criterio.
Existe una variable supresora cuando esta variable xi presenta una correlación simple
muy baja; sin embargo, el R2 del modelo que contiene a xi y xj es sustancialmente más alto
que el r2 simple de la variable xj. Se evidencia esto cuando el coeficiente parcial de
regresión presenta un signo opuesto al esperado. Estas variables producen dificultades de
interpretación, por lo que si la finalidad principal del análisis es la explicación, lo
recomendable es remover tales variables del modelo.
R2 AJUSTADO
Considera el efecto de la inclusión de más variables predictoras controlando el posible
aumento del Se.
2
𝑛−1
𝑅𝐴𝑑𝑗 = 1 − (1 − 𝑅 2 )
𝑛−𝑚−1
COEFICIENTES ESTANDARIZADOS/TIPIFICADOS
Son los coeficientes de regresión que se obtienen cuando se estandarizan los puntajes
de cada una de las variables, tanto las predictoras como la de criterio. En este caso, la
constante de regresión es siempre igual a 0.
Muestran las correlaciones entre Xi e Y. Mientras más grande el beta, más importante
es, y este debe ser señalado como la variable más importante.
𝑠𝑥𝑖
𝑖 − é𝑠𝑖𝑚𝑜 𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑒𝑠𝑡𝑎𝑛𝑑𝑎𝑟𝑖𝑧𝑎𝑑𝑜 = 𝑏𝑖
𝑠𝑦
COEFICIENTE DE REGRESIÓN SEMIPARCIAL
Es el coeficiente de correlación entre Y y los residuos obtenidos al regresar la variable
independiente Xj por las otras variables predictoras.
𝑟𝑦𝑥𝑗(𝑥𝑘,𝑥𝑙,… ) = 𝑟𝑦𝑒𝑥
𝑗
𝟐
𝒓𝒚𝒆𝒙 mide el porcentaje de la variabilidad total de Y que es explicado sólo por X j.
𝒋
2
𝑏
𝑟𝑦𝑒𝑥 =
𝑗 𝑎+𝑏+𝑐+𝑑
Se asocia al incremento de R2, cuando Xj se agrega al modelo con los otros predictores.
Además de ser la correlación semiparcial menor a la parcial, ambos siempre son del
mismo signo.
REGLA UNIVERSAL:
Valor p < α Rechazamos H0
Caso contrario Retenemos H0
La hipótesis alternativa establece que a lo menos uno de los coeficientes del modelo
de regresión es diferente de 0, es decir, a lo menos una de las variables predictoras
es significativa en la regresión.
SCR
SCE
STC
𝐻0 : 𝛽𝑖 = 0
𝛽̂𝑖
𝑡=
𝑆𝐸(𝛽̂𝑖 )
Si el R2 del modelo es pequeño entonces 𝑆𝐸(𝛽̂𝑖 ) tenderá a ser mayor
Cuando la regresión es para definición de segmentos, es típico que la regresión
utilizada produzca R2 bajos; tan bajos como 0,1 o menor.
Por lo tanto, el ajuste del modelo se mide a través del Se2 y no del R2; sin embargo, existe
la alternativa del Radj2.
Aceptamos que hay contribución significativa de una cierta variable al modelo con todas
2
las variables si podemos inferir que ∆𝑝 > 𝜎(𝑝+1) . Es decir, que el incremento en el número
de variables sea mayor a la varianza estimada del error en el modelo con las p + 1
variables.
Pruebas F parciales: en el test F de Fisher con gl = 1 en el numerador y gl= n – p -1 en el
denominador, decide si el decrecimiento en SCE cuando una variable se agrega al modelo
formado por p variables, contribuye significativamente al mejoramiento de tal modelo
cuando esta variable ingresa como última variable al modelo formado por las restantes. Es
equivalente a las pruebas t.
𝑆𝐶𝐸(𝑝−1) − 𝑆𝐶𝐸(𝑝)
𝐹=
𝑆𝐶𝐸(𝑝−1)
(𝑛 − 𝑝 − 1)
C DE MASLLOWS
Número aleatorio que muestra cuanto se aleja ese modelo, del aquel que contiene
todas las variables incluidas. Ahí tenemos que comparar y buscar el óptimo. Un buen
modelo es el que más se acerca al valor k + 1 (𝐶𝑘+1 = 𝑘 + 1 idealmente).
1 − 𝑅𝑘
𝐶𝑘+1 = (𝑛 − 𝑇 − 1) − (𝑛 − 2(𝑘 + 1))
1 − 𝑅𝑇2
Objetivo: comprender las diferencias entre los dos grupos en que ha sido dividida la
muestra, y predecir la probabilidad de que un objeto pertenezca a uno de los
segmentos basado en las variables independientes estudiadas.
Se construye una función discriminante (índice Z) tomando como base una cierta
combinación lineal de las variables predictoras. Esta función se utiliza para asignar
puntajes a los individuos (puntajes discriminantes), que permiten identificar la categoría a
la que pertenece un individuo. Función discriminante:
𝒁 = 𝒂 + 𝒌𝟏 𝑿𝟏 + 𝒌𝟐 𝑿𝟐 +. . . +𝒌𝒎 𝑿𝒎
- Z = puntaje discriminante
- Km = pesos discriminantes (coeficientes de las funciones canónicas)
K2
Z = -3,141 + 0,142*Ingreso -0,007*Area
K3 + 0,336*Actitud
Cte
𝑑𝐴 𝑛𝐵
=
𝑑𝐵 𝑛𝐴
Criterio Discriminante
Puntaje Crítico: determinar cuáles valores de Z corresponden a individuos del
grupo A y cuales a individuos del grupo B.
Criterio del Punto Medio: En el criterio del punto medio, se elige al promedio
de los puntajes de los centroides (gran centroide) como el puntaje crítico. Es
eficiente siempre que (si no se cumplen ambos, el punto crítico debería
desplazarse en forma conveniente):
● Sea igualmente probable que un nuevo individuo pertenezca al grupo A
o al B
● El costo de clasificar erróneamente a un individuo de A sea igual al
costo de clasificar erróneamente a un individuo de B.
El máximo valor de C es el
valor propio de la función
discriminante.
𝑆𝐶𝐵
𝐶𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝐶𝑎𝑛ó𝑛𝑖𝑐𝑎 = √
𝑆𝐶𝑇
Lambda de Wilks: estadístico que indica el poder que tiene cada variable para
discriminar. Mientras más cercano a 0, más poder de discriminación, por lo que nos
ayuda más a discriminar entre los dos grupos). Valor igual a 1 significa que la variable
no tiene poder de discriminación entre los grupos. Es posible obtener un estadístico F
procedente de un ANOVA.
𝐻0 = 𝜇(𝑋𝐴 ) = 𝜇(𝑋𝐵 )
Consistencia Interna: el modelo presenta consistencia interna cuando existe igual orden
en los coeficientes estandarizados y la matriz de estructura (o por lo menos en las
primeras variables). Cuando se logra, significa que la calidad de los resultados es confiable.
Estadísticos de Clasificación
1. Covarianzas Poblacionales (de los grupos) son Iguales: se testea con el M de Box.
Buscamos retener la hipótesis nula, por lo tanto, buscamos que el valor p sea mayor a
0,05. Si no se cumple, revisar las correlaciones porque pueden haber problemas de
multicolinealidad.
El corte entre los segmentos relevantes se recomienda que sea entre 5 y 20, para que no
haya ni poca, ni mucha diferencia.
Debemos encontrar aquellas variables que diferencian a cada grupo. Para esto:
- Evidenciar diferencias estadísticamente significativas entre los segmentos:
ANOVA, buscamos rechazar la hipótesis nula. La idea es determinar cuáles
variables discriminan entre segmentos.
H0: u1 = u2 = … = un
H1: no todas las medias son iguales
Ver si los distintos modelos forman los mismos conglomerados con los mismos objetos.
Esto se realiza a través de tablas de contingencia:
1) Y v/s modelo
18
20
10
13 12 23
Aporte de Información
Supuesto: la decisión considera, en forma conjunta, todos los atributos principales que
definen esa categoría de productos.
El consumidor asigna utilidades a los diferentes niveles de los atributos, para luego
combinar apropiadamente estas utilidades para obtener la utilidad global que tiene cada
producto que se ofrece en el mercado.
Objetivos:
- Determinar la importancia relativa que los consumidores asignan a los atributos
que definen una cierta categoría de productos.
- Determinar las utilidades que los consumidores otorgan a los niveles de los
atributos.
Procedimiento
El respondiente evalúa los estímulos (presentados de alguna de las dos formas indicadas)
de alguna de las siguientes maneras:
- Utilizando una escala ordinal (ranking)
- Utilizando una escala métrica
Perfil Completo/Total
𝑚 𝑘𝑖
La validez del modelo puede establecerse por medio de la correlación por rangos de
Sperman, si la data es ordinal y la r de Pearson si la data es numérica. Es la correlación
entre lo que predice el modelo y la evaluación original de la persona. Mientras más
cercano a 1 mejor.
Una de las principales decisiones en el análisis de los datos dice relación con el nivel de
agregación que se utilizara respecto al target. Si hay segmentos definidos en el target,
podría ser de interés la posible asociación de estos segmentos con los perfiles promedio
de utilidades parciales que presentan o alguna otra medida agregada. Un análisis de
conglomerados realizado sobre los perfiles de utilidad de los individuos podría conducir a
nuevas segmentaciones del target. Alternativamente, la segmentación podría proceder
sobre los perfiles de importancias relativas de los atributos.
Una vez realizado el análisis, en base a los individuos, se tiene información que permitirá:
- Desarrollar nuevos productos que maximicen la cuota de mercado.
- Desarrollar productos que se dirijan a grupos concretos de individuos
- Caracterizar compra por segmentos demográficos.
- Adaptar el estudio a poblaciones específicas.
- Comparar el mercado con un nuevo producto y sin el.
- Las funciones de valor parcial, usualmente representadas mediante gráficos,
muestren las utilidades parciales de cada atributo. Hay una función por cada
atributo.