Sei sulla pagina 1di 22

Modelos

Cuantitativos y
Optimización
Sesión 6

Mg. Noelia Delgadillo Rodríguez


RELACIÓN ENTRE STC, SCR Y SCE
• La relación entre STC, SCR Y SCE es uno de los resultados mas
importantes de la estadística.
• 𝑆𝑇𝐶 = 𝑆𝐶𝑅 + 𝑆𝐶𝐸 (1)
• Donde:
• STC: suma total de cuadrados
• SCR: suma de los cuadrados debido a la regresión
• SCE: suma de los cuadrados debido al error.
ANALISIS DE VARIANZA. PRUEBA GLOBAL
DE LOS COEFICIENTES DE REGRESIÓN
• El análisis de varianza se utiliza en este caso para determinar si existe o no
regresion lineal en la población de la variable dependiente Y con todas las
variables independientes en conjunto (análisis global de los coeficientes de
regresión). Las hipótesis nula y alternativa de la prueba son:
• 𝐻0 : 𝛽1 = 𝛽2 = ⋯ = 𝛽𝑘 = 0
• 𝐻𝑎 : 𝑎𝑙 𝑚𝑒𝑛𝑜𝑠 𝑢𝑛𝑎 𝑑𝑒 𝑙𝑎𝑠 𝛽𝑖 ≠ 0
• La prueba F de la hipótesis nula 𝐻0 contra 𝐻𝑎 se obtiene de la partición de
varianza de Y en varianza residual (no explicada) y varianza explicada por la
regresion lineal, cuyas sumas de cuadrados respectivamente son:
• (La identidad de suma de cuadrados)
• 𝑆𝑇𝐶 = 𝑆𝐶𝐸 + 𝑆𝐶𝑅
• σ𝑛𝑖=1 𝑦𝑖 − 𝑦ത 2
= σ𝑛𝑖=1 𝑦𝑖 − 𝑦ො𝑖 2
+ σ𝑛𝑖=1 𝑦ො𝑖 − 𝑦ത 2

• Donde:
• 𝑆𝑇𝐶 = σ𝑛𝑖=1 𝑦𝑖 − 𝑦ത 2 se la suma de cuadrados total. Refleja la variabilidad de los valores
de Y con respecto a la media 𝑦.

• 𝑆𝐶𝐸 = σ𝑛𝑖=1 𝑦𝑖 − 𝑦ො𝑖 2
es la suma de cuadrados de los errores o residuales ( varianza no
explicada).
• 𝑆𝐶𝑅 = σ𝑛𝑖=1 𝑦ො𝑖 − 𝑦ത 2
es la suma de cuadrados de la regresión (varianza explicada por la
regresión).
• Los grados de libertad respectivos de las sumas de cuadrados son:
• 𝑆𝑇𝐶 = 𝑆𝐶𝐸 + 𝑆𝐶𝑅
• 𝑛−1= 𝑛−𝑘−1 +𝑘
• La distribución F con grados de libertad k y (n-k-1), esto es,
𝑆𝐶𝑅/𝑘 𝐶𝑀𝑅
• 𝐹= = tiene distribución F(k,n-k-1)
𝑆𝐶𝐸/(𝑛−𝑘−1) 𝐶𝑀𝐸
• En donde:
𝑆𝐶𝑅
• 𝐶𝑀𝑅 = 𝑦 𝐶𝑀𝐸 = 𝑆𝐶𝐸/(𝑛 − 𝑘 − 1)
𝑘
• Son los cuadrados medios de regresión y de error respectivamente.
• Dado el nivel de significación 𝛼, y los grados de libertad k y (n-k-1), en la tabla F
se encuentra el valor critico 𝑐 = 𝐹1−𝛼,𝑘,𝑛−𝑘−1 .
• La regla de decisión consiste en rechazar la hipótesis nula:𝐻0 : 𝛽1 =
𝛽2 = ⋯ = 𝛽𝑘 = 0, si el valor calculado de F es mayor que el valor
critico c. No rechazar 𝐻0 en caso contrario.
• La prueba de hipótesis de análisis global se resume en la siguiente
taba de análisis de varianza (ANOVA):
Fuente de variación Suma de cuadrados Grados de libertad Cuadrados medios F calculada

Regresion SCR 1 CMR=SCR/k 𝐶𝑀𝑅


𝐹=
𝐶𝑀𝐸
Error o residual SCE n-k-1 CME=SCE/(n-k-1)
Total SCT n-1
• Las sumas de cuadrados SCT, SCR y SCE se calculan utilizando las siguientes
expresiones:
• 𝑆𝑇𝐶 = σ𝑛𝑖=1 𝑦𝑖 − 𝑦ത 2
= σ𝑛𝑖=1 𝑦𝑖 2 − 𝑛 𝑦ത 2

• 𝑆𝐶𝐸 = σ𝑛𝑖=1 𝑦𝑖 − 𝑦ො𝑖 2 es la suma de cuadrados de los errores o residuales


( varianza no explicada).
• 𝑆𝐶𝑅 = σ𝑛𝑖=1 𝑦ො𝑖 − 𝑦ത 2
= 𝑏1 𝑆𝑋1 𝑌 + 𝑏2 𝑆𝑋2𝑌
• Donde 𝑆𝑋1 𝑌 = σ𝑛𝑖=1 𝑥1 𝑦 − 𝑛 𝑥ҧ1 𝑦ത y 𝑆𝑋2 𝑌 = σ𝑛𝑖=1 𝑥2 𝑦 − 𝑛 𝑥ҧ2 𝑦ത
• 𝑆𝐶𝐸 = 𝑆𝐶𝑇 − 𝑆𝐶𝑅
Ejemplo 1:
• Para el ejemplo de la muestra de 10 familias y utilizando el nivel de
significación 0.05 investigue si alguna de las variables independientes
tiene un coeficiente de regresion significativo.
• Solución
• La hipótesis nula y alternativa de esta prueba ANOVA o prueba global
son:
• 𝐻0 : 𝛽1 = 𝛽2 = 0
• 𝐻𝑎 : 𝑎𝑙 𝑚𝑒𝑛𝑜𝑠 𝑢𝑛𝑎 𝑑𝑒 𝑙𝑎𝑠 𝛽𝑖 ≠ 0
• De los datos del ejemplo de la muestra de 10 familias resultan:
• 𝑆𝑇𝐶 = σ𝑛𝑖=1 𝑦𝑖 2 − 𝑛 𝑦ത 2 = 10 840 − 10 ∗ 32.2 2 = 471.6
• 𝑆𝑋1 𝑌 = σ𝑛𝑖=1 𝑥1 𝑦 − 𝑛 𝑥ҧ1 𝑦ത = 2158 − 10 ∗ 6.2 ∗ 32.2 = 161.6
• 𝑆𝑋2 𝑌 = σ𝑛𝑖=1 𝑥2 𝑦 − 𝑛 𝑥ҧ2 𝑦ത = 1653 − 10 ∗ 4.6 ∗ 32.2 = 171.8
• 𝑆𝐶𝑅 = 𝑏1 𝑆𝑋1 𝑌 + 𝑏2 𝑆𝑋2𝑌 = 0.509 ∗ 161.6 + 2.195 ∗ 171.8 = 459.365
• 𝑆𝐶𝐸 = 𝑆𝐶𝑇 − 𝑆𝐶𝑅 = 471.6 − 459.365 = 12.235
• Los grados de libertad SCR, SCE y SCT son respectivamente 2, 7 y 9.
459.365 12.235
• 𝐶𝑀𝑅 = = 229.6825, 𝐶𝑀𝐸 = = 1.74786
2 7
𝐶𝑀𝑅 229.6825
•𝐹= = = 131.409
𝐶𝑀𝐸 1.74786
• Al nivel de significación 5% y con los grados de libertad 2 y 7 en la
tabla de probabilidades de la F se encuentra el valor critico 𝐹0.95,2,7 =
4.74. Dado que el valor calculado f=131.409>4.74, debemos rechazar
𝐻0 : 𝛽1 = 𝛽2 = 0. En consecuencia, de esta prueba global, podemos
inferir que por o menos uno de los coeficientes de regresion
poblacional es diferente de cero y que existe regresion global de Y con
𝑋1 y 𝑋2 .
• Observe que la probabilidad P es P=P[F(2,7)>131.4.9]=0.0000
COEFICIENTE DE DETERMINACIÓN MULTIPLE
• Después de hallar la ecuación de regresión multiple debemos conocer
la bondad de ajuste a los datos de la muestra.
• El coeficiente de determinación multiple se define en forma similar al
coeficiente de determinación simple, para k=2 variables
independiente,
𝑆𝐶𝐸
• 𝑅2 =1− (5)
𝑆𝑇𝐶
• Donde:
• STC: suma total de cuadrados.
• SCE: suma de los cuadrados debido al error.
Observación:
• El coeficiente de determinación multiple 𝑅2 mide el porcentaje de la
varianza de Y que queda explicada al conocer dos o mas variables
independientes. Cuanto mayor es el valor de 𝑅2 menor es la
dispersión y mayor el ajuste del plano de regresión a los datos.
Ejemplo 2:
• Para el ejemplo de la muestra de 10 familias el coeficiente de
determinación es:
𝑆𝐶𝐸 12.235
• 𝑅2 =1− =1− = 0.974
𝑆𝑇𝐶 471.6
• Entonces podemos decir que aproximadamente el 97.4% de la
variabilidad de los gastos mensuales (Y) queda estadísticamente
explicado por los ingresos familiares ( 𝑋1 ) y por el número de
integrantes de las familias (𝑋2 ).
𝑆𝐶𝐸
• 𝑅2 = 1−
𝑆𝑇𝐶
𝑆𝑇𝐶−𝑆𝐶𝐸 𝑆𝐶𝑅 459.345675
• 𝑅2 = = = = 0.974
𝑆𝑇𝐶 𝑆𝑇𝐶 471.6
• 𝑆𝑇𝐶 − 𝑆𝐶𝐸 = 𝑆𝐶𝑅
ഥ=32.2
𝒚
𝑋1 𝑋𝟐 Y 𝑦ො = 18.947 + 0.509𝑥1 + 2.195𝑥2 ഥ
𝑦ො𝒊 − 𝒚 ഥ
𝑦ො𝒊 − 𝒚 𝟐

10 9 45 43.792 11.592 134.374464


9 8 40 41.088 8.888 78.996544
8 6 38 36.189 3.989 15.912121
7 6 35 35.68 3.48 12.1104
7 5 32 33.485 1.285 1.651225
6 4 30 30.781 -1.419 2.0135
6 3 28 28.586 -3.614 13.060996
4 2 27 25.373 -6.827 46.607929
3 2 25 24.864 -7.336 53.816896
2 1 22 22.16 -10.04 100.8016
62 46 322 459.345675
• Del ejemplo de la muestra de 10 familias determine la suma total de cuadrados (STC).
Familias i 𝑋1 𝑋𝟐 Y 𝑦𝑖 − 𝑦ത 𝑦𝑖 − 𝑦ത 2

1 10 9 45 12.8 163.84
2 9 8 40 7.8 60.84
3 8 6 38 5.8 33.64
4 7 6 35 2.8 7.84
5 7 5 32 -0.2 0.04
6 6 4 30 -2.2 4.84
7 6 3 28 -4.2 17.64
8 4 2 27 -5.2 27.04
9 3 2 25 -7.2 51.84
10 2 1 22 -10.2 104.04
TOTAL 62 46 322 471.6
• Del ejemplo de la muestra de 10 familias determine la suma total de cuadrados (SCE).
𝑋1 𝑋𝟐 𝑦ො = 18.947 + 0.509𝑥1 + 2.195𝑥2 𝑦𝑖 − 𝑦ො𝑖 2
Familias i Y 𝑦𝑖 − 𝑦ො𝑖
1 10 9 45 43.792 1.208 1.459264
2 9 8 40 41.088 -1.088 1.183744
3 8 6 38 36.189 1.811 3.279721
4 7 6 35 35.68 -0.68 0.4624
5 7 5 32 33.485 -1.485 2.205225
6 6 4 30 30.781 -0.781 0.609961
7 6 3 28 28.586 -0.586 0.343396
8 4 2 27 25.373 1.627 2.647127
9 3 2 25 24.864 0.136 0.018496
10 2 1 22 22.16 -0.16 0.0256
TOTAL 62 46 322 12.234934
• Cuando el tamaño de la muestra es pequeño (n), el índice de
determinación multiple 𝑅2 tiende a estar positivamente sesgada.
• Para corregir este sesgo se utiliza el coeficiente e índice de
determinación multiple corregido (o ajustado) que se denota por 𝑅2 y
se define por:
𝐶𝑀𝐸
• 𝑅2 =1−
𝐶𝑀𝑇
• Donde:
• CME: cuadrados medios por el error
• CMT: cuadrados medios por el total
Ejemplo 3:
• Aplicando a los datos del ejemplo de las 10 familias el coeficiente
multiple corregido es:
𝐸𝐶𝑀 1.748
• 𝑅2 =1− =1− = 0.967
𝐶𝑀𝑇 52.4
• Donde:
• K=2
𝑆𝐶𝐸 12.235
• 𝐸𝐶𝑀 = = = 1.748
𝑛−𝑘−1 7
𝑆𝐶𝑇 471.6
• 𝐶𝑀𝑇 = = = 52.4
𝑛−1 10−1
COEFICIENTE DE CORRELACIÓN MULTIPLE
• La raíz cuadrada positiva del coeficiente de determinación multiple se
denomina coeficiente de correlación multiple que denotamos por R.
• Este número mide la relación entre las variables independientes
consideradas como grupo y la variables dependiente Y.
• El coeficiente de correlación muestral es:
• 𝑅 = 𝑅2 (6)
Ejemplo 4:
• Para el ejemplo de la muestra de las 10 familias , el coeficiente de
correlación multiple de Y con 𝑋1 y 𝑋2 es:
• 𝑅 = 0.974 = 0.987
• Dado que en el análisis de varianza se encuentra que es significativa la
regresión global de Y con 𝑋1 𝑦 𝑋2 se concluye que existe correlación
lineal múltiple.

Potrebbero piacerti anche