Sei sulla pagina 1di 48

Diapositivas Preparadas por

JOHN S. LOUCKS
St. Edward’s University
Adaptadas por
José Luis Martínez Pichardo
Instituto Tecnológico de Celaya

© 2002 South-Western/Thomson Learning Slide 1


Regresión Múltiple
 Modelo de Regresión Múltiple
 Método de Mínimos Cuadrados
 Coeficiente de Determinación Múltiple
 Suposiciones del Modelo
 Pruebas de Significancia
 Uso de la Ecuación de Regresión Estimada para
Estimar y Predecir
 Variables Independientes Cualitativas
 Análisis Residual

Slide 2
Modelo de Regresión Múltiple

 Modelo de Regresión Múltiple

y = 0 + 1x1 + 2x2 + . . . + pxp + 

 Ecuación de Regresión Múltiple

E(y) = 0 + 1x1 + 2x2 + . . . + pxp

 Ecuación Estimada de Regresión Múltiple

y^ = b0 + b1x1 + b2x2 + . . . + bpxp

Slide 3
Método de Mínimos Cuadrados

 Criterio de Mínimos Cuadrados


min  ( y i  y^i ) 2
 Cálculo de Valores de los Coeficientes
Las fórmulas para determinar los coeficientes de
regresión b0, b1, b2, . . . bp implican el uso del álgebra
de matrices. Se pueden usar paquetes de software
computarizado para desarrollar estos cálculos.
 Nota sobre la Interpretación de los Coeficientes de
Regresión
bi representa una estimación del cambio en y
correspondiente a un cambio unitario en xi cuando
todas las otras variables independientes se
mantienen constantes.
Slide 4
Estimación de los Coeficientes de Regresión

 Los coeficientes de regresión para 2 variables


independientes se obtienen resolviendo el sistema de
ecuaciones normales siguiente por cualquier método
apropiado para resolver sistemas de ecuaciones
lineales:

∑Y = na + b1 ∑X1 + b2 ∑X2
∑X1Y = a∑X1 + b1∑X²1 + b2 ∑X1 X2
∑X2Y = a∑X2 + b1∑X1 X2 + b2 ∑X²2

Slide 5
Ejemplo

 Al propietario de Showtime Movies Theaters, Inc., le


gustaría estimar el ingreso bruto semanal como una
función de los gastos de publicidad. Los datos
históricos para una muestra de ocho semanas son los
siguientes:
Ingreso bruto Publicidad en Publicidad en
semanal ($1000s) televisión ($1000s) periódicos ($1000s)
96 5.0 1.5
90 2.0 2.0
95 4.0 1.5
92 2.5 2.5
95 3.0 3.3
94 3.5 2.3
94 2.5 4.2
94 3.0 2.5

Slide 6
Ejemplo

a) Desarrollar una ecuación de regresión estimada con


la cantidad de publicidad en televisión como
variable independiente.
b) Desarrollar una ecuación de regresión estimada con
la cantidad de publicidad en televisión y la cantidad
de publicidad en radio como variables
independientes.
c) Es el coeficiente de la ecuación de regresión para los
gastos de publicidad en televisión el mismo en la
parte (a) y en la parte (b)? Interpretar el coeficiente
en cada caso.

Slide 7
Estimación de los Coeficientes de Regresión

 Los coeficientes de regresión para k variables


independientes se obtienen resolviendo el sistema de
ecuaciones normales siguiente por cualquier método
apropiado para resolver sistemas de ecuaciones
lineales:

nb0 + b1 ∑X1i + b2 ∑X2i + . . . + bk ∑Xki = ∑Yi


b0 ∑X1i + b1 ∑X²1i + b2 ∑X1i X2i + . . . + bk ∑X1i Xki = ∑X1iYi
. . .
. . .
. . .
b0 ∑Xki + b1 ∑Xki X1i + b2 ∑Xki X2i + . . . + bk ∑X²ki = ∑XkiYi

Slide 8
Ejemplo

 En química analítica, el análisis de los rayos X


fluorescentes es una herramienta para estimar
porcentajes de ingredientes en mezclas con multitud
de componentes. Con frecuencia, la estimación de
concentraciones depende en gran medida de la
habilidad del usuario para ajustar los modelos de
regresión adecuados. En el documento “Corrections
for Matrix Effects in X-Ray FluorescenceAnalysis Using
Multiple Regression Methods”, publicado en Analytical
Chemistry (Vol. 37, 1965), se probaron cuatro
suspensiones para propulsión que contenían cuatro
ingredientes. Las concentraciones de los
componentes variaba en las suspensiones para
producir estándares del tipo de calibración. Los datos
son como sigue:
Slide 9
Ejemplo

y X1 X2 X3 X4
0.5514 1.1240 0.8980 0.8219 0.9906
0.4426 0.9285 0.8872 0.9308 0.9944
0.5631 1.1214 0.8030 0.7668 1.1221
0.5624 1.1635 0.7806 0.9272 0.9832
0.4505 0.9415 0.8064 0.9026 1.1127
0.5290 1.0712 0.8404 0.8662 1.0836
0.4702 09561 0.8731 0.8206 1.0290
0.5001 1.0186 0.8431 0.8346 1.0591
0.4425 0.9039 0.8314 0.7596 1.0994

Slide 10
Ejemplo

La respuesta yi es la concentración medida de un


ingrediente A. El valor medido Xi es la “relación de
intensidad” asociada con el ingrediente A, y los valores
de X2, X3, y X4 son las relaciones de intensidad para los
componentes adicionales en la suspensión. Como
resultado de los efectos de mejora y absorción, la
respuesta y se pronostica mejor después de realizar la
regresión en contra de los valores de intensidad
asociados con todos los componentes.
Ajustar este modelo de regresión lineal múltiple a los
datos proporcionados y estimar la concentracióndel
ingrediente A para una mezcla cuyas relaciones de
intensidad de rayos X son, respectivamente, X = 1.091,
X2 = 0.855, X3 = 0.758 y X4 = 1.005.
Slide 11
Ejemplo: Solución

De los datos proporcionados se encuentra que n = 9 y

∑X1i = 9.2278 ∑X2i = 7.6532 ∑X3i = 7.6303


∑X4i = 9.4741 ∑X²1i = 9.5394 ∑X²2i = 6.5172
∑X²3i = 6.5015 ∑X²4i = 9.9974 ∑X1iX2i = 7.8510
∑X1i X3i = 7.8257 ∑X1i X4i = 9.7037 ∑X2i X3i = 6.4943
∑X2i X4i = 8.0421 ∑X3i X4i = 8.0182 ∑yi = 4.5118
∑X1i yi = 4.6663 ∑X2i yi = 3.8375 ∑X3i yi = 3.8226
∑X4i yi = 4.7456

Insertando estos valores en las ecuaciones normales se


obtiene:
Slide 12
Ejemplo: Solución

9bo + 9.2287b1 + 7.6532b2 + 7.6303b3 + 9.4741b4 = 4.5118


9.2287bo + 9.5394b1 + 7.8510b2 + 7.8257b3 + 9.7037b4 = 4.6663
7.6532bo + 9.8510b1 + 6.5172b2 + 6.4943b3 + 8.0421b4 = 3.8375
7.6303bo + 7.8257b1 + 6.4943b2 + 6.5015b3 + 8.0182b4 = 3.8226
9.4741bo + 9.7037b1 + 8.0421b2 + 8.0182b3 + 9.9974b4 = 4.7456

La solución de este conjunto de ecuaciones da las


estimaciones únicas
bo = -0.3004, b1 = 0.5387, b2 = 0.1770, b3 = -0.0704, b4 = 0.1506.

Por lo tanto, la ecuación de regresión es


y’ = -0.3004 + 0.5387X1 + 0.1770X2 – 0.0704X3 + 0.1506X4
Slide 13
Ejemplo: Solución

Para una mezcla cuyas intensidades de rayos X son X1


= 1.091, X2 = 0.855, X3 = 0.758 y X4 = 1.005, la
concentración estimada del componente A es

y = -0.3004 + (0.5387) (1.091) + (0.1770) (0.855) – (0.0704)


(0.758) + (0.1506) (1.005)

y = 0.5366.

Slide 14
Estimación de los Coeficientes de Regresión

 En notación matricial el modelo expresado por la


ecuación anterior es
Y = Xβ + ε
en donde

y1 1 x11 x21 . . . xk1


y2 1 x12 x22 . . . xk2
y= . , X= . . . .
. . . . .
. . . . .
yn 1 x1n x2n xkn

Slide 15
Estimación de los Coeficientes de Regresión

β0 ε1
β1 ε2
β= . , ε= .
. .
. .
βk εn

En general, y es un vector de n x 1 de las observaciones,


X es una matriz de n x p de los niveles de las
variables regresoras, β es un vector de p x 1 de los
coeficientes de regresión y ε es un vector de n x 1 de
errores aleatorios.
Slide 16
Estimación de los Coeficientes de Regresión

 El estimador de β por mínimos cuadrados es

β = (Xᵀ X)ˉ¹ (Xᵀ y)

donde
Xᵀ es la matriz transpuesta de la matriz X
(Xᵀ X)ˉ¹ es la matriz inversa del producto de Xᵀ X

Slide 17
Ejemplo
 Se midió la supervivencia porcentual de un tipo de
semen animal después de almacenado en varias
combinaciones de concentraciones de los tres
materiales usados para aumentar la posibilidad de
sobrevivencia. Con los datos son los siguientes,
estimar el modelo de regresión múltiple.
y (% X1 X2 X3
sobrevivencia (peso %) (peso %) (peso %)

25.5 1.74 5.30 10.80


31.2 6.32 5.42 9.40
25.9 6.22 8.41 7.20
38.4 10.52 4.63 8.50
18.4 1.19 11.60 9.40
26.7 1.22 5.85 9.90
26.4 4.10 6.62 8.00
25.9 6.32 8.72 9.10
32.0 4.08 4.42 8.70
25.2 4.15 7.60 9.20
39.7 10.15 4.83 9.40
35.7 1.72 3.12 7.60
26.5 1.70 5.30 8.20 Slide 18
Estimación de los Coeficientes de Regresión

25.5 1 1.74 5.30 10.8


31.2 1 6.32 5.42 9.40
25.9 1 6.22 8.41 7.20
38.4 1 10.52 4.63 8.50
18.4 1 1.19 11.6 9.40
y= 26.7 X= 1 1.22 5.85 9.90
26.4 1 4.10 6.62 8.00
25.9 1 6.32 8.72 9.10
32 1 4.08 4.42 8.70
25.2 1 4.15 7.60 9.20
39.7 1 10.15 4.83 9.40
35.7 1 1.72 3.12 7.60
26.5 1 1.70 5.30 8.20

1 1 1 1 1 1 1 1 1 1 1 1 1

1.74 6.32 6.22 10.52 1.19 1.22 4.1 6.32 4.08 4.15 10.15 1.72 1.7
Xᵀ =

5.3 5.42 8.41 4.63 11.6 5.85 6.62 8.72 4.42 7.6 4.83 3.12 5.3

10.8 9.4 7.2 8.5 9.4 9.9 8 9.1 8.7 9.2 9.4 7.6 8.2

Slide 19
Estimación de los Coeficientes de Regresión

Matriz (Xᵀ X)

13.00 59.43 81.82 115.40


(Xᵀ X) = 59.43 394.73 360.66 522.08
81.82 360.66 576.73 728.31
115.40 522.08 728.31 1035.96

8.0648 - 0.0826 - 0.0942 - 0.7905


(Xᵀ X)¯¹ = - 0.0826 0.0085 0.0017 0.0037
- 0.0942 0.0017 0.0166 - 0.0021
- 0.7905 0.0037 - 0.0021 0.0866

Slide 20
Estimación de los Coeficientes de Regresión

(Xᵀ y) = 25.5
31.2
25.9
38.4
18.4
1 1 1 1 1 1 1 1 1 1 1 1 1 26.7
1.74 6.32 6.22 10.52 1.19 1.22 4.1 6.32 4.08 4.15 10.15 1.72 1.7 26.4
5.3 5.42 8.41 4.63 11.6 5.85 6.62 8.72 4.42 7.6 4.83 3.12 5.3 25.9
10.8 9.4 7.2 8.5 9.4 9.9 8 9.1 8.7 9.2 9.4 7.6 8.2 32
25.2
39.7
35.7
377.50 26.5

(Xᵀ y) = 1877.57
2246.66
3337.78

Slide 21
Estimación de los Coeficientes de Regresión

 El estimador de β por mínimos cuadrados es


β = (Xᵀ X)ˉ¹ (Xᵀ y)

8.0648 - 0.0826 - 0.0942 - 0.7905 377.50


- 0.0826 0.0085 0.0017 0.0037 1877.57
- 0.0942 0.0017 0.0166 - 0.0021 2246.66
- 0.7905 0.0037 - 0.0021 0.0886 3337.78

39.22
β = 0.95
- 2.08 Entonces, la ecuación estimada es
- 0.46 y’ = 39.22 + 0.95 X1 – 2.08 X2 – 0.46 X3
Slide 22
Coeficiente de Determinación Múltiple, R²

 Relación Entre SST, SSR, SSE

 ( y i  y )   ( ^y i  y )   ( y i  y^i )
2 2 2

SST = SSR + SSE


 Coeficiente de Determinación Múltiple

R 2 = SSR/SST

 Coeficiente de Determinación Múltiple Ajustado


n1
Ra2  1  (1  R )2
np1

Slide 23
Error Estándar de la Estimación, Se

 Medida de dispersión alrededor del plano de


regresión múltiple.

Se = √Σ(Y – Y’)² / n-p-1

donde n = Número de observaciones


p = Número de variables independientes

Slide 24
Suposiciones del Modelo

 Suposiciones Acerca del Término de Error 


• El error  es una variable aleatoria con media de
cero.
• La varianza de  , denotada por 2, es la misma
para todos los valores de las variables
independientes.
• Los valores de  son independientes.
• El error  es una variable aleatoria distribuida
normalmente que refleja la desviación entre el
valor de y y el valor esperado de y dado por
0 + 1x1 + 2x2 + . . . + pxp

Slide 25
Prueba de Significancia de la Regresión:
Prueba F
 Hipótesis
H 0 :  1 = 2 = . . . = p = 0
Ha: Uno o más de los parámetros ≠ 0
 Estadístico de Prueba
F = MSR/MSE
 Regla de Rechazo
Rechazar H0 si F > F,p , n-p-1
donde F está basado en una distribución F con p
grados de libertad en el numerador y n - p - 1 grados
de libertad en el denominador.

Slide 26
Tabla de Análisis de Varianza de la Regresión

Análisis de Varianza de la Regresión


Fuente de Suma de Grados de Cuadrado
Variación Cuadrados Libertad Medio F
Regresión SSR = Σ(Y’ - Ȳ)² p MSR MSR/MSE
Error SSE = Σ(Y – Y’)² n–p-1 MSE
Total SST = Σ(Y – Ȳ)² n–1

donde p = Número de variables independientes


n = Número de observaciones

Slide 27
Prueba de Significancia Acerca de una
Pendiente Individual Bi
 Hipótesis
H 0 : i = 0
H a : i = 0
 Estadístico de Prueba
bi
t
sbi
 Regla de Rechazo
Rechazar H0 si t <  t, v  p  1 o t > t , v  p  1

donde t está basado en una distribución t con


n - p - 1 grados de libertad
bi = Pendiente de la regresión ajustada
Sbi = Error estándar del coeficiente de regresión
Slide 28
Multicolinealidad en la Regresión Múltiple

 El término multicolinealidad se refiere a la


correlación entre las variables independientes.
 Cuando las variables independientes están altamente
correlacionadas (es decir, |r | > 0.7), no es posible
determinar el efecto separado de cualquier variable
independiente particular sobre la variable
dependiente.
 Si la ecuación de regresión estimada se usa para
propósitos predictivos, la multicolinealidad
normalmente no es un problema serio.
 Debe hacerse cada intento para evitar incluir
variables independientes que estén altamente
correlacionadas.

Slide 29
Uso de la Ecuación de Regresión Estimada para
Estimar y Predecir
 Los procedimientos para estimar el valor medio de y
y predecir un valor individual de y en regresión
múltiple son similares a los de regresión simple.
 Se substituyen los valores dados de x1, x2, . . . , xp en la
ecuación de regresión estimada y se usa el valor
correspondiente de y^ como el punto estimado.
 Las fórmulas requeridas para desarrollar
estimaciones de intervalo para el valor medio de y y
para un valor individual de y están más allá del
alcance del tema.
 Los paquetes de software para regresión múltiple
comúnmente proporcionan esas estimaciones de
intervalo.

Slide 30
Ejemplo: Investigación de Salarios de
Programadores
Una empresa de software recopiló datos de una
muestra de 20 programadores de computadora. Se
hizo la sugerencia de que el análisis de regresión
podría usarse para determinar si el salario estaba
relacionado con los años de experiencia y la
calificación en la prueba de aptitud de la empresa.
Los años de experiencia, la calificación en el examen
de aptitud, y el salario anual correspondiente
($1000s) para una muestra de 20 programadores se
muestra a continuación.

Slide 31
Ejemplo: Investigación de Salarios de
Programadores
Exper. Calif. Salario Exper. Calif. Salario
4 78 24 9 88 38
7 100 43 2 73 26.6
1 86 23.7 10 75 36.2
5 82 34.3 5 81 31.6
8 86 35.8 6 74 29
10 84 38 8 87 34
0 75 22.2 4 79 30.1
1 80 23.1 6 94 33.9
6 83 30 3 70 28.2
6 91 33 3 89 30

Slide 32
Ejemplo: Investigación de Salarios de Programadores
 Modelo de Regresión Múltiple
Supóngase que se cree que el salario (y) está
relacionado con los años de experiencia (x1) y la
calificación en la prueba de aptitud del programador
(x2) mediante el modelo de regresión siguiente:

y = 0 + 1x1 + 2x2 + 

donde
y = salario anual ($000)
x1 = años de experiencia
x2 = calificación en una prueba de aptitud del
programador

Slide 33
Ejemplo: Investigación de Salarios de Programadores

 Ecuación de Regresión Múltiple


Usando la suposición de que E ( ) = 0, se obtiene
E(y ) = 0 + 1x1 + 2x2
 Ecuación de Regresión Estimada
b0, b1, b2 son los estimadores de mínimos cuadrados
de 0, 1, 2
Entonces
y^ = b0 + b1x1 + b2x2

Slide 34
Ejemplo: Investigación de Salarios de Programadores

 Resolviendo para los Estimadores de 0, 1, 2

Datos Salida
x1 x2 y Paquete
b0 =
Computari-
b1 =
4 78 24 zado
b2 =
7 100 43 para Resolver
R2 =
. . . Problemas de
. . . Regresión
etc.
3 89 30 Múltiple

Slide 35
Ejemplo: Investigación de Salarios de Programadores

 Salida de Computadora de Minitab

La ecuación de regresion es
Salario = 3.17 + 1.40 Experiencia + 0.251 Calificación
Predictor Coef Stdev t-ratio p
Constant 3.174 6.156 .52 .613
Exper 1.4039 .1986 7.07 .000
Score .25089 .07735 3.24 .005
s = 2.419 R-sq = 83.4% R-sq(adj) = 81.5%

Slide 36
Ejemplo: Investigación de Salarios de Programadores

 Salida de Computadora de Minitab (continuación)

Analysis of Variance
SOURCE DF SS MS F P
Regression 2 500.33 250.16 42.76 0.000
Error 17 99.46 5.85
Total 19 599.79

Slide 37
Ejemplo: Investigación de Salarios de Programadores

 Prueba de Significancia de la Regresión


• Hipótesis H 0 : 1 = 2 = 0
Ha: Uno o ambos parámetros
no es igual a cero
• Regla de Rechazo
Para  = 0.05 y g.l. = 2, 17: F0.05, 2, 17 = 3.59
Rechazar H0 si F > 3.59.
• Estadístico de Prueba
F = MSR/MSE = 250.16/5.85 = 42.76
• Conclusión
Rechazar H0. Uno o ambos parámetros no son
iguales a cero.
Slide 38
Ejemplo: Investigación de Salarios de Programadores
 Pruebas t para la Significancia de los Parámetros Individuales
• Hipótesis H 0 : i = 0
H a : i = 0
• Regla de Rechazo
Para  = 0.05 y g.l. = 17, t0.025 = 2.11
Rechazar H0 si t > 2.11
• Estadístico de Prueba

b1 1. 4039 b2 . 25089
  7 . 07   3. 24
sb1 . 1986 sb2 . 07735
• Conclusiones
Rechazar H0: 1 = 0 Rechazar H0: 2 = 0

Slide 39
Variables Independientes Cualitativas

 En muchas situaciones se debe trabajar con variables


independientes cualitativas tales como género
(maculino, femenino), método de pago (efectivo,
cheque, tarjeta de crédito), etc.
 Por ejemplo, x2 podría representar género donde x2 =
0 indica hombre y x2 = 1 indica mujer.
 En este caso, x2 se llama una variable o indicador
dummy (fantasma).
 Si una variable cualitativa tiene k niveles, se
requieren k - 1 variables dummy, siendo cada una de
ellas codificada como 0 o 1.
 Por ejemplo, una variable con niveles A, B y C se
representaría por valores de x1 y x2 de (0, 0),
(1, 0) y (0,1), respectivamente.

Slide 40
Ejemplo: Investigación de Salarios de
Programadores (B)

Como una extensión del problema que involucra la


investigación de salarios de programadores,
supóngase que la administración también cree que el
salario anual está relacionado a si el individuo tiene
un grado de licenciatura en ciencias de la
computación o en sistemas de la información.
Los años de experiencia, la calificación del
programador en el examen de aptitud, si tiene o no el
individuo un grado relevante de licenciatura y el
salario annual ($000) de cada uno de los 20
programadores de la muestra se muestran en la tabla
siguientes.

Slide 41
Ejemplo: Investigación de Salarios de
Programadores (B)
Exp. Calif. Grado Salario Exp. Calif. Grado Salario
4 78 No 24 9 88 Yes 38
7 100 Yes 43 2 73 No 26.6
1 86 No 23.7 10 75 Yes 36.2
5 82 Yes 34.3 5 81 No 31.6
8 86 Yes 35.8 6 74 No 29
10 84 Yes 38 8 87 Yes 34
0 75 No 22.2 4 79 No 30.1
1 80 No 23.1 6 94 Yes 33.9
6 83 No 30 3 70 No 28.2
6 91 Yes 33 3 89 No 30

Slide 42
Ejemplo: Investigación de Salarios de
Programadores (B)
 Ecuación de Regresión Múltiple
E(y ) = 0 + 1x1 + 2x2 + 3x3
 Ecuación de Regresión Estimada
y^ = b0 + b1x1 + b2x2 + b3x3
donde
y = salario anual ($000)
x1 = años de experiencia
x2 = calificación del programador en la prueba de
aptitud
x3 = 0 si el individuo no tiene un grado de lic.
1 si el individuo si tiene un grado de lic.
Nota: x3 es referida como una variable fantasma
(dummy). Slide 43
Ejemplo: Investigación de Salarios de
Programadores (B)
 Salida de Computadora de Minitab

La ecuación de regresión es
Salario = 7.95 + 1.15 Exp. + 0.197 Calif. + 2.28 Grado
Predictor Coef Stdev t-ratio p
Constant 7.945 7.381 1.08 .298
Exp 1.1476 .2976 3.86 .001
Score .19694 .0899 2.19 .044
Deg 2.280 1.987 1.15 .268
s = 2.396 R-sq = 84.7% R-sq(adj) = 81.8%

Slide 44
Ejemplo: Investigación de Salarios de
Programadores (B)
 Salida de Computadora de Minitab (continuación)

Analysis of Variance
SOURCE DF SS MS F P
Regression 3 507.90 169.30 29.48 0.000
Error 16 91.89 5.74
Total 19 599.79

Slide 45
Análisis Residual

 Residual para la Observación i


yi - y^i
 Residual Estandarizado para la Observación i
y i  y^i
syi  y^i
donde
s y i  y^i  s 1  hi
El residual estandarizado para la observación i
en el análisis de regresión múltiple es demasiado
complejo para hacerlo a mano. Sin embargo, es parte
de la solución de la mayoría de los paquetes de
software estadístico.

Slide 46
Análisis Residual

 Detección de valores atípicos


• Un valor atípico es una observación que es inusual
en comparación con los otros datos.
• Minitab clasifica una observación como un valor
atípico si su valor residual estandarizado es < -2 o
> +2.
• Esta regla para residuales estandarizados a veces
falla al identificar una observación inusualmente
grande como un valor atípico.
• Este defecto de la regla puede soslayarse mediante
el uso de residuales estudentizados borrados.
• El |i ésimo residual estudentizado borrado| será
mayor que el |i ésimo residual estandarizado|.
Slide 47
Fin del Tema

Slide 48

Potrebbero piacerti anche