Sei sulla pagina 1di 18

Regresin Lineal Mltiple

1. Regresin Lineal Mltiple Cuando se considera ms de una variable independiente en una regresin se le denomina mltiple. Una ecuacin con k variables independientes podra ser expresada como sigue: y = a + b1x1 + b2x2 + b3x3 + + bKxK Por ejemplo, una ecuacin con dos variables independientes se expresa como sigue: y = a + b1x1 + b2x2 Donde: a = punto de interseccin con el eje Y. b1 = cambio de Y por cada cambio de una unidad en X con x2 constante. Asimismo es llamado coeficiente de regresin parcial. b2 = cambio de Y por cada cambio de una unidad en X con x1 constante. Asimismo es llamado coeficiente de regresin parcial. Tambin es llamado coeficiente de regresin parcial. x1 y x2 = variables independientes y = variable dependiente Los valores de a, b1 y b2 de la ecuacin de regresin mltiple con dos variables independientes pueden ser obtenidos resolviendo el siguiente sistema de ecuaciones lineales: y = na + b1(x1) + b2(x2) x1y = a(x1) + b1(x12) + b2(x1x2) x2y = a(x2) + b1(x1x2) + b2(x22) Mientras que para una ecuacin con n variables independientes se resuelve con base en la siguientes expresiones (productos cruzados): yi = na + b1(x1i) + b2(x2i) x1i yi = a(x1i) + b1(x1i2) + b2(x1ix2i) xki yi = a(xki) + b1(xkix1i) + b2(xkix2i) + bk(xki) + bk(x1ixki) + bk(xki2)

2 1.2 ANOVA de la regresin lineal mltiple Tiene similitud con aquel descrito en la seccin 4.1.2.1.2 y difiere en los grados de libertad. En la Tabla 4.2, k es el nmero de variables independientes y n el nmero de observaciones.
Tabla 4.2 ANOVA de la regresin lineal mltiple Fuente Modelo (media) Residual (error) Total Suma de cuadrados SCR SCE SCT Grados de Cuadrados Libertad medios K n (k + 1) n1 CMR CME F CMR / CME

Donde: CMR = Cuadrado medio debido a la regresin CMR = SCR/grados de libertad de la regresin CME = Cuadrado medio del error CME = s2 = SCE / (n-(k+1)) SCR = Suma de cuadrados de la regresin

SCR = i =1 ( yi y ) 2
n n

SCE = Suma de cuadrados debida al error

SCE = i =1 ( yi y ) 2

SCT = Suma de cuadrados total SCT = SCR + SCE

3 1.3 Evaluacin individual de coeficientes El ANOVA es til para probar que algunos y no necesariamente todos los coeficientes de la ecuacin mltiple son significativos. Especficamente es importante conocer si alguna de las variables independientes de la ecuacin de regresin mltiple, tiene valor significativo para explicar la variacin en la variable dependiente. En caso de que no resultara significativo determinada variable independiente, se podra retirar de la ecuacin y entonces reducirla. Para ello, se llevan a cabo pruebas por separado: una por cada variable independiente de la ecuacin. El estadstico de pruebas es la distribucin t de Student de dos colas con n(k+1) grados de libertad (con n observaciones). Por ejemplo, si n=20 y k=3 (es decir con tres variables independientes), se tienen 16 grados de libertad. La frmula es la siguiente: t= Donde: bi = Representa a cualquiera de los coeficientes de regresin Sbi = Desviacin estndar de la distribucin de los coeficientes de regresin Las variable independientes que resultaran no significativas deben eliminarse una por una (cuando resultara ms de una no significativa) y posteriormente volver a calcular la ecuacin de regresin y probar una vez ms con las variables restantes. bi Sbi

4 Ejemplo 1 (Regresin lineal mltiple) Con fines de trmites hipotecarios, resulta de importancia establecer el avalo por cada vivienda a construir prximamente en una colonia popular. Para ello es importante conocer los factores ms significativos para emitir tal valoracin. De acuerdo con una reunin de expertos, se determina que la muestra deber estar integrada por datos del jefe de familia que habitan esa zona y que debera contener su ingreso anual, el valor de la casa que habita, el nmero de aos de educacin (a partir del primero de primaria), edad y el pago mensual de hipoteca. Una vez que se elige la muestra integrada por 24 personas, se obtienen los siguientes datos1:
Valor de la vivienda (en miles de dlares) 190 121 161 161 179 99 114 202 184 90 181 143 132 127 153 148 174 177 188 153 150 173 163 150 Ingreso anual (en miles de dlares) 40,3 39,6 40,8 40,3 40 38,1 40,4 40,7 40,8 37,1 39,9 40,4 38 39 39,5 40,6 40,3 40,1 41,7 40,1 40,6 40,4 40,9 40,1 Aos de educacin 14 15 14 14 14 14 15 14 13 14 14 15 14 14 14 14 15 15 15 15 16 13 14 15 Edad 53 49 44 39 53 46 42 49 37 43 48 54 44 37 50 50 52 47 49 53 58 42 46 50 Pago mensual de hipoteca 230 370 397 181 378 304 285 551 370 135 332 217 490 220 270 279 329 274 433 333 148 390 142 343

1 2 3 4 5 6 7 8 9 1 0 1 1 1 2 1 3 1 4 1 5 1 6 1 7 1 8 1 9 2 0 2 1 2 2 2 3 2 4
1

Fuente: Statistical Techniques in Businnes and Economics, Mason, 2001

6 a) Introducir datos y nombrar columnas asignando su correspondiente tipo (este procedimiento ya se describi en el tema de regresin lineal simple). b) Elegir Multiple Regression de la opcin Relate

c) Especificar la variable dependiente e independientes.

7 d) Anlisis de la ecuacin de regresin lineal mltiple considerando las cuatro variables independientes
Multiple Regression - ValorVivienda
Multiple Regression Analysis ----------------------------------------------------------------------------Dependent variable: ValorVivienda ----------------------------------------------------------------------------Standard T Parameter Estimate Error Statistic P-Value ----------------------------------------------------------------------------CONSTANT -468,895 152,619 -3,07231 0,0063 IngresoAnual 19,7375 3,62255 5,44852 0,0000 AniosEducacion -18,5703 6,6715 -2,78353 0,0118 Edad 1,79498 0,843044 2,12916 0,0465 PagoHipoteca 0,0507022 0,0349188 1,452 0,1628 ----------------------------------------------------------------------------Analysis of Variance ----------------------------------------------------------------------------Source Sum of Squares Df Mean Square F-Ratio P-Value ----------------------------------------------------------------------------Model 14112,4 4 3528,1 12,04 0,0000 Residual 5568,57 19 293,083 ----------------------------------------------------------------------------Total (Corr.) 19681,0 23 R-squared = 71,7058 percent R-squared (adjusted for d.f.) = 65,7491 percent Standard Error of Est. = 17,1197 Mean absolute error = 12,1104 Durbin-Watson statistic = 1,96091

The StatAdvisor --------------The output shows the results of fitting a multiple linear regression model to describe the relationship between ValorVivienda and 4 independent variables. The equation of the fitted model is ValorVivienda = -468,895 + 19,7375*IngresoAnual 18,5703*AniosEducacion + 1,79498*Edad + 0,0507022*PagoHipoteca Since the P-value in the ANOVA table is less than 0.01, there is a statistically significant relationship between the variables at the 99% confidence level. The R-Squared statistic indicates that the model as fitted explains 71,7058% of the variability in ValorVivienda. The adjusted R-squared statistic, which is more suitable for comparing models with different numbers of independent variables, is 65,7491%. The standard error of the estimate shows the standard deviation of the residuals to be 17,1197. This value can be used to construct prediction limits for new observations by selecting the Reports option from the text menu. The mean absolute error (MAE) of 12,1104 is the average value of the residuals. The Durbin-Watson (DW) statistic tests the residuals to determine if there is any significant correlation based on the order in which they occur in your data file. Since the DW value is greater than 1.4, there is probably not any serious autocorrelation in the residuals. In determining whether the model can be simplified, notice that the highest P-value on the independent variables is 0,1628, belonging to PagoHipoteca. Since the P-value is greater or equal to 0.10, that term is not statistically significant at the 90% or higher confidence level. Consequently, you should consider removing PagoHipoteca from the model.

8 e) Anlisis de la ecuacin de regresin lineal mltiple no considerando el pago de hipoteca (es decir, con solo tres variables independientes)
Multiple Regression - ValorVivienda Multiple Regression Analysis ----------------------------------------------------------------------------Dependent variable: ValorVivienda ----------------------------------------------------------------------------Standard T Parameter Estimate Error Statistic P-Value ----------------------------------------------------------------------------CONSTANT -463,385 156,743 -2,95634 0,0078 IngresoAnual 20,6965 3,65919 5,65603 0,0000 AniosEducacion -20,928 6,64775 -3,14814 0,0051 Edad 1,91282 0,862065 2,21888 0,0382 ----------------------------------------------------------------------------Analysis of Variance ----------------------------------------------------------------------------Source Sum of Squares Df Mean Square F-Ratio P-Value ----------------------------------------------------------------------------Model 13494,5 3 4498,16 14,54 0,0000 Residual 6186,49 20 309,324 ----------------------------------------------------------------------------Total (Corr.) 19681,0 23

R-squared = 68,5661 percent


R-squared (adjusted for d.f.) = 63,8511 percent Standard Error of Est. = 17,5876 Mean absolute error = 13,1503 Durbin-Watson statistic = 2,06293

The StatAdvisor --------------The output shows the results of fitting a multiple linear regression model to describe the relationship between ValorVivienda and 3 independent variables. The equation of the fitted model is ValorVivienda = -463,385 + 20,6965*IngresoAnual 20,928*AniosEducacion + 1,91282*Edad Since the P-value in the ANOVA table is less than 0.01, there is a statistically significant relationship between the variables at the 99% confidence level. The R-Squared statistic indicates that the model as fitted explains 68,5661% of the variability in ValorVivienda. The adjusted R-squared statistic, which is more suitable for comparing models with different numbers of independent variables, is 63,8511%. The standard error of the estimate shows the standard deviation of the residuals to be 17,5876. This value can be used to construct prediction limits for new observations by selecting the Reports option from the text menu. The mean absolute error (MAE) of 13,1503 is the average value of the residuals. The Durbin-Watson (DW) statistic tests the residuals to determine if there is any significant correlation based on the order in which they occur in your data file. Since the DW value is greater than 1.4, there is probably not any serious autocorrelation in the residuals. In determining whether the model can be simplified, notice that the highest P-value on the independent variables is 0,0382, belonging to Edad. Since the P-value is less than 0.05, that term is statistically significant at the 95% confidence level. Consequently, you probably don't want to remove any variables from the model.

f) Es decir, la diferencia de la r2 entre considerar cuatro variables y considerar tres variables es de 71.7 - 68.56 = 3.14 %.

9 g) Mostrando diagrama de dispersin entre los valores reales (observed) contra los que predice la ecuacin (predicted) elegir Graphical Options y luego Observed versus predicted:

Plot of ValorVivienda
230 200

observed

170 140 110 80 80 110 140 170 200 230

predicted

10 h) Haciendo combinaciones con su r2


Nmero de variables independientes Variables para predecir el independientes valor de la vivienda

Diagrama de dispersin que grafica los valores que retorna la ecuacin (predicted) contra los reales (observed)

r2

Plot of ValorVivienda
210 190 170 150 130 110 90 90 110 130 150 170 190 210

observed

Ingreso anual

0.52

predicted

Plot of ValorVivienda
210 190 170 150 130 110 90 90 110 130 150 170 190 210

Aos de educacin

observed

0.02

predicted
Plot of ValorVivienda
210 190

observed

170 150 130 110 90 90 110 130 150 170 190 210

Edad

0.04

predicted

Plot of ValorVivienda
210 190

Pago mensual de hipoteca

observed

170 150 130 110 90 90 110 130 150 170 190 210

0.14

predicted Plot of ValorVivienda

Ingreso anual

210 190

observed

170 150 130 110 90 90 110 130 150 170 190 210

Aos de educacin

0.60

predicted Plot of ValorVivienda


210 190

observed

Ingreso anual Edad

170 150 130 110 90 90 110 130 150 170 190 210

0.52

predicted

11
Plot of ValorVivienda
230

observed

Ingreso anual

200 170 140 110 80 80 110 140 170 200 230

Pago mensual de hipoteca

0.59

predicted
Plot of ValorVivienda
210 190

Ingreso anual

observed

Aos de educacin Edad

170 150 130 110 90 90 110 130 150 170 190 210

0.68

predicted Plot of ValorVivienda

Ingreso anual

230 200

Edad Pago mensual de hipoteca

observed

170 140 110 80 80 110 140 170 200 230

0.60

predicted

Aos de educacin

Plot of ValorVivienda
210 190

observed

170 150 130 110 90 90 110 130 150 170 190 210

Edad Pago mensual de hipoteca Ingreso anual Aos educacin de

0.27

predicted

P lot of ValorVivienda
230 200

observed

170 140 110

Edad Pago mensual de hipoteca

0.71

80 80 110 140 170 200 230

predicted

12 e) Con base en esta muestra (valores mnimos y mximo de cada variable), cul debera ser el costo de una vivienda para un jefe de familia cuyo ingreso anual es de 39,550 dlares, tiene 14 aos de educacin a partir de la primaria y 43 aos de edad?
Valor de la vivienda (en miles de dlares) 90 202 Ingreso anual (en miles de dlares) 37,1 41,7 Aos de educacin 13 16 Edad 37 58

Min Ma x

Sustituyendo: ValorVivienda = - 463.385 + 20.6965*IngresoAnual - 20.928*AosEducacion + 1.91282*Edad ValorVivienda = - 463.385 + (20.6965)(39.550) (20,928)(14) +(1,912)(43) ValorVivienda = - 463.385 + 818.54 292,992 + 82.21 ValorVivienda = 144.373 miles de dlares

13 7.1.1 Correlacin lineal mltiple La matriz de correlacin es un cuadro que muestra los coeficientes de correlacin entre todos los pares de variables. Si se tienen n variables entre dependientes e independientes, la matriz se mostrara como sigue: Variable V1 V2 Vn V1 1 rV2V1 rVnV1 1 rVnV2 1 V2 Vn

a) Elegir Tabular Options (botn amarillo)

b) Elegir Correlation Matrix

14
Multiple Regression - ValorVivienda Correlation matrix for coefficient estimates ----------------------------------------------------------------------------CONSTANT IngresoAnual AniosEducacion Edad CONSTANT 1,0000 -0,8702 -0,4178 0,2569 IngresoAnual -0,8702 1,0000 -0,0354 -0,1608 AniosEducacion -0,4178 -0,0354 1,0000 -0,6036 Edad 0,2569 -0,1608 -0,6036 1,0000 ----------------------------------------------------------------------------The StatAdvisor --------------This table shows estimated correlations between the coefficients in the fitted model.

15 Prctica 1 (Regresin lineal mltiple) Con el fin de valuar el costo de suscripciones al diario Times Observer editado en Metro City, la Gerente de circulacin est estudiando otros peridicos en ciudades semejantes de Estados Unidos y Canad. Est particularmente interesada en saber qu variables se relacionan con el nmero de suscripciones anuales al diario. Ella ha podido obtener la siguiente informacin de una muestra de 25 peridicos de ciudades similares2:
Nmero de suscripciones (en miles) Poblacin metropolitana (en miles) 588,9 585,3 566,3 642,9 624,2 603,9 571,9 584,3 605,0 676,3 587,4 576,4 570,8 586,5 544,0 611,1 643,3 635,6 598,9 657,0 595,2 520,0 629,6 680,0 651,2 Gasto de publicidad (cientos de dlares) 13,2 13,2 19,8 17,6 17,6 15,4 11,0 28,6 28,6 17,6 17,6 22,0 17,6 15,4 11,0 24,2 17,6 19,8 15,4 22,0 15,4 19,8 22,0 24,2 33,0 Ingreso familiar anual medio (en miles de dlares) 35,1 34,7 34,8 35,1 34,6 34,8 34,7 35,3 35,1 35,6 34,9 35,4 35,0 35,5 34,9 35,0 35,3 34,8 35,1 35,3 35,1 35,1 35,3 34,7 35,8

1 2 3 4 5 6 7 8 9 1 0 1 1 1 2 1 3 1 4 1 5 1 6 1 7 1 8 1 9 2 0 2 1 2 2 2 3 2 4 2
2

37,95 37,66 37,55 38,78 37,67 38,23 36,90 38,28 38,95 39,27 38,30 38,84 38,14 38,39 37,29 39,15 38,29 38,09 37,83 39,37 37,81 37,42 38,83 38,33 40,24

Fuente: Statistical Techniques in Businnes and Economics, Mason, 2001

16 a) Genere la ecuacin de regresin con base en las tres variables independientes. b) Interprete ANOVA, existe una relacin estadsticamente significativa entre las variables independientes y la dependiente? c) Interprete su r2, qu porcentaje de la variabilidad en el nmero de suscripciones explica la ecuacin? Es aceptable? d) Analice cada uno de los parmetros de la ecuacin, hay alguno que no resulte significativo? Si es as. elimnelo y repita los incisos (a), (b) y (c). e) Cul debera ser el nmero de suscripciones esperadas dentro de una ciudad de 595,656 habitantes, con un presupuesto para gastos de publicidad de 1,850 dlares con una media en el ingreso familiar de 34,735 dlares?

17 Prctica 2 (Regresin lineal mltiple) Para establecer el salario mensual del Centro Mdico de St. Luke, se obtiene una muestra de 30 empleados con funciones similares en otros Centros Mdicos. Se logra reunir por cada uno su sueldo actual, tiempo de servicio y su edad3:
Salario mensual (en dlares) Antigedad (en meses) 93 104 104 126 98 99 94 96 124 73 110 90 104 81 106 113 129 97 101 91 100 123 88 117 107 105 86 131 Edad 42 33 42 57 30 49 35 46 56 23 67 36 53 29 45 55 46 39 43 35 40 59 30 60 45 32 33 56

1 2 3 4 5 6 7 8 9 1 0 1 1 1 2 1 3 1 4 1 5 1 6 1 7 1 8 1 9 2 0 2 1 2 2 2 3 2 4 2 5 2 6 2 7 2
3

1769 1740 1941 2367 2467 1640 1756 1706 1767 1200 1706 1985 1555 1749 2056 1729 2186 1858 1819 1350 2030 2550 1544 1766 1937 1691 1623 1791

Fuente: Statistical Techniques in Businnes and Economics, Mason, 2001

18 2 9 3 0
b)
2001 1874 95 98 30 47

a) Genere la ecuacin de regresin con base en las dos variables independientes. c) d) e)


Interprete ANOVA, existe una relacin estadsticamente significativa entre las variables independientes y la dependiente? Interprete su r2, qu porcentaje de la variabilidad en el nmero de suscripciones explica la ecuacin? Es aceptable? Analice el p-value de cada uno de los parmetros de la ecuacin, hay alguno que no resulte significativo (mayor que 0.05)? Si es as, elimnelo y repita los incisos (a), (b) y (c). Se identifican cuatro valores atpicos (cuatro empleados cuyos datos no fueron registrados correctamente y ya no hay forma de conocer los correctos). Trace una grfica de dispersin en Excel e intente identificarlos visualmente. Los empleados fueron el nmero 5, 9, 24 y 28 de la lista. Elimnelos, se ha modificado significativamente la r2? Si es as genere la ecuacin de regresin lineal simple. Cul debera ser el salario mensual en dlares para un empleado con una antigedad de 103 meses?

f)

Potrebbero piacerti anche