Sei sulla pagina 1di 16

Módulo IV: Modelos de Regresión 

https://www.dropbox.com/s/elmfhr6sadpak1k/Libro%20de%20Trabajo%20en%20Clase
%20Modelos%20de%20Regresi%C3%B3n.xlsx?dl=0

07/06/2019
https://www.dropbox.com/s/2hbmssp1puvirp9/M%C3%B3delos%20de%20Regresi%C3%B3n
%20clase%201.docx?dl=0

Formas de la ecuació n de regresió n.


E(y) = Betasub0 + Betasub1 x
E(y) = Alfa + Bx
E(y) = a + bx

Cuando la investigació n de las relaciones está limitada solamente a dos variables, denominamos
estos métodos analíticos ANÁ LISIS DE REGRESIÓ N LINEAL SIMPLE y ANÁ LISIS DE CORRELACIÓ N
SIMPLE, segú n el caso. Los aná lisis de correlació n simples son los temas que se estudiará n en el
presente capítulos. Si consideramos má s de dos variables, entonces, denominamos a las técnicas
analíticas ANÁ LISIS DE GRUPO MÚ LTIPLE o ANÁ LISIS E CORRELACIÓ N MÚ LTIPLE.

El modelo de regresión lineal simple


La relació n matemá tica (determinista) má s sencilla entre dos variables y  es una relació n lineal,
esto es: el conjunto de parejas  para el cual  determina una línea recta con pendiente, que interseca
el eje  en . El objetivo de este apartado consiste, entonces,  en desarrollar un modelo probabilístico
lineal. Para ello, debemos partir del hecho que las dos variables no está n relacionadas en forma
determinista, entonces, para un valor fijo de, el valor de la segunda variable es aleatorio

Por lo general, la variable cuyo valor es fijado por el investigador estará representada por x
y se llamara VARIABLE INDEPENDIENTE (PREDICTORIA O EXPLICATIVA). Para x fija, la
segunda variable será aleatoria (representemos esta variable aleatoria por Y y su valor
observado por y). A esta variable Y la llamaremos VARIABLE DEPENDIENTE O DE
RESPUESTA.

X = Variable Independiente, Y = Variable Dependiente

Proceso de modelació n:

1. Realizar diagrama de dispersió n con todas las parejas (xi, yi). 


Ejemplo 1.2

Tabla de Datos

1 194.5 20.79 7 200.9 23.89 13 209.5 28.49

2 194.3 20.79 8 201.1 23.99 14 208.6 27.76

3 197.9 22.4 9 201.4 24.02 15 210.7 29.04

4 198.4 22.67 10 201.3 24.01 16 211.9 29.88

5 199.4 23.15 11 203.6 25.14 17 212.2 30.06

6 199.9 23.35 12 204.6 26.57      

Grá fico de Dispersió n con Línea de tendencia y Ecuació n Calculado en Excel

1.2  El modelo de regresión lineal simple

Para el modelo determinista yi = δ + βxi, el valor observado de Yi es una funció n lineal de xi. La
generalizació n apropiada para esto a un modelo probabilístico supone que el valor esperado de Yi
es una función lineal de xi. Si detonamos por E [Yi/Xi=xi]a la esperanza de una variable aleatoria Yi,
cuando la variable aleatoria X toma el valor específico Xi, entonces, el supuesto de linealidad
implica que esta esperanza puede plantearse como:
          
                E [Yi/X =xi]= δ + βx            (1)          
Lo buscado es que el valor esperado sea igual al pronó stico realizado por el investigador, es decir,
que la Esperanza sea igual a la Ecuació n de Regresió n.

Ejercicio 1:

Si llueve, un vendedor de paraguas ganará $ 300.000, si no llueve, perderá $ 10.000.


Si La probabilidad de lluvia es del 30%, calcule cuá nto espera ganar el vendedor.
x 300000 -10000

p(x) 0,3 0,7

E[X] 83000  

El valor que espera ganar el vendedor es de $ 83.000 mcte

En la prá ctica, el valor observado de Yi se desviará , casi inevitablemente, de su valor esperado. Si


la diferencia se representa mediante la variable aleatoria εi (que tiene media cero por la ecuació n
(1)), entonces, podemos establecer:

εi= Y – E[Y /X = x ] = Y – (δ + βx )
i i i i i

Yi = δ + βxi+εi.                (2)

La ecuació n antes planteada (2) es la de la llamada recta verdadera (o poblacional) de regresión.

Definició n 1.1 Supongamos que estamos interesados en conocer la relación entre una variable
dependiente Y, y una independiente  X. Si la variable aleatoria toma los valores xi, entonces, la
ecuación de la RECTA POBLACIONAL DE REGRESIÓN expresa los correspondientes valores Yi como:
Yi = δ + βxi+εi.
Donde δ y β son constantes y εi, llamado TÉRMINO DE ERROR,  es una variable aleatoria con
media 0.

Supuestos para el modelo de regresión lineal simple. 

Denotemos la recta verdadera de regresió n por  Yi = δ + βxi+εi. Y asumamos que se dispone de n
pares de observaciones. Suelen realizarse, al respecto, los siguientes supuestos:
1. Cada xi es un nú mero fijo (asignado, por ejemplo, por un investigador) o es la realizació n
de una variable aleatoria Xi independientemente  del término error  εi. En el ú ltimo caso,
la inferencia se realiza condicionando al valor observado xi.
2. Los términos de error εi. Son variables aleatorias con media 0, es decir, E [εi]= 0, para
todo i = 1 …, n.
3. Las variables aleatorias εi tienen todas las mismas varianzas  σ2, es decir, V (εi) = σ2, para
todo i =1,…, n.
4. Las variables aleatorias εi no se hallan correlacionadas, luego, e (εi εj) = 0, para todo i,j=1,
…,n con i≠ j.

Ahora bien, los supuestos anteriores del modelo de regresió n implican que, para un valor fijo xi de
X, La esperanza y varianza condicionales de Yi, dado que X= xi, vienen dadas por:

 E [Yi/X= xi] = E [δ + βxi+ εi] = δ + βxi + E [εi] = δ + βxi

 V (Yi/X=xi)=V (δ + βxi+ εi) = V (δ + βxi)+V (εi)= 0 + σ2 = σ2

1.4 Estimación de los parámetros por mínimos cuadrados

Calculo de los Betas para la ecuación


Ecuación de Regresión

Módelo de Regresión Simple

En STATGRAPHIC se realiza el siguiente procedimiento:


Obteniendo la siguiente salida

Regresión Simple - Y_i vs. X_i


Variable dependiente: Y_i
Variable independiente: X_i
Lineal: Y = a + b*X

Coeficientes
Mínimos Cuadrados Estándar Estadístico
Parámetro Estimado Error T Valor-P
Intercepto 74,2833 1,59347 46,6172 0,0000
Pendiente 14,9475 1,31676 11,3517 0,0000

Análisis de Varianza
Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P
Modelo 152,127 1 152,127 128,86 0,0000
Residuo 21,2498 18 1,18055
Total (Corr.) 173,377 19

Coeficiente de Correlación = 0,936715


R-cuadrada = 87,7436 porciento
R-cuadrado (ajustado para g.l.) = 87,0627 porciento
Error estándar del est. = 1,08653
Error absoluto medio = 0,843397
Estadístico Durbin-Watson = 2,40742 (P=0,8464)
Autocorrelación de residuos en retraso 1 = -0,232585

El StatAdvisor
La salida muestra los resultados de ajustar un modelo lineal para describir la relación entre Y_i y X_i. La ecuación del modelo
ajustado es

Y_i = 74,2833 + 14,9475*X_i

Puesto que el valor-P en la tabla ANOVA es menor que 0,05, existe una relación estadísticamente significativa entre Y_i y X_i
con un nivel de confianza del 95,0%.
El estadístico R-Cuadrada indica que el modelo ajustado explica 87,7436% de la variabilidad en Y_i. El coeficiente de
correlación es igual a 0,936715, indicando una relación relativamente fuerte entre las variables. El error estándar del estimado
indica que la desviación estándar de los residuos es 1,08653. Este valor puede usarse para construir límites de predicción para
nuevas observaciones, seleccionando la opción de Pronósticos del menú de texto.

El error absoluto medio (MAE) de 0,843397 es el valor promedio de los residuos. El estadístico de Durbin-Watson (DW)
examina los residuos para determinar si hay alguna correlación significativa basada en el orden en el que se presentan en el
archivo de datos. Puesto que el valor-P es mayor que 0,05, no hay indicación de una autocorrelación serial en los residuos con un
nivel de confianza del 95,0%.

Para determinar el mejor modelo hacemos así:


Comparación de Modelos Alternos
Modelo Correlación R-Cuadrada
Raíz Cuadrada-X Cuadrado-X 0,9430 88,93%
Log-Y Cuadrado-X 0,9430 88,93%
Cuadrado de X 0,9429 88,91%
Inversa-Y Cuadrado-X -0,9427 88,86%
Cuadrado Doble 0,9424 88,81%
Inversa de Y -0,9393 88,22%
Exponencial 0,9382 88,03%
Raíz Cuadrada de Y 0,9375 87,90%
Lineal 0,9367 87,74%
Inversa-Y Raíz Cuadrada-X -0,9357 87,56%
Cuadrado de Y 0,9347 87,37%
Logarítmico-Y Raíz Cuadrada-X 0,9340 87,23%
Raíz Cuadrada Doble 0,9329 87,04%
Raíz Cuadrada deX 0,9318 86,82%
Inversa-Y Log-X -0,9309 86,66%
Cuadrado-Y Raíz Cuadrada-X 0,9291 86,32%
Multiplicativa 0,9285 86,21%
Raíz Cuadrada-Y Log-X 0,9271 85,95%
Logaritmo de X 0,9256 85,68%
Cuadrado-Y Log-X 0,9223 85,05%
Doble Inverso 0,9177 84,22%
Curva S -0,9140 83,54%
Raíz Cuadrada-Y Inversa de X -0,9120 83,17%
Inversa de X -0,9098 82,77%
Cuadrado-Y Inversa de X -0,9051 81,93%
Logístico <sin ajuste>
Log probit <sin ajuste>

El StatAdvisor
Esta tabla muestra los resultados de ajustar varios modelos curvilíneos a los datos. De los modelos ajustados, el modelo raíz
cuadrada-Y X-cuadrada es el que arroja el valore más alto de R-Cuadrada con 88,9343%. Este es 1,19072% mayor que el
modelo lineal seleccionado. Para cambiar los modelos, seleccione el cuadro de diálogo de las Opciones de Análisis.
Y se selecciona el mejor modelo así:

Obteniendo el siguiente resulado:

Regresión Simple - Y_i vs. X_i


Variable dependiente: Y_i
Variable independiente: X_i
Raíz Cuadrada-Y Cuadrado-X: Y = (a + b*X^2)^2

Coeficientes
Mínimos Cuadrados Estándar Estadístico
Parámetro Estimado Error T Valor-P
Intercepto 9,12502 0,0411739 221,621 0,0000
Pendiente 0,323522 0,0268982 12,0277 0,0000

Análisis de Varianza
Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P
Modelo 0,415532 1 0,415532 144,66 0,0000
Residuo 0,0517028 18 0,00287238
Total (Corr.) 0,467234 19

Coeficiente de Correlación = 0,94305


R-cuadrada = 88,9343 porciento
R-cuadrado (ajustado para g.l.) = 88,3195 porciento
Error estándar del est. = 0,0535946
Error absoluto medio = 0,0422314
Estadístico Durbin-Watson = 2,35721 (P=0,8146)
Autocorrelación de residuos en retraso 1 = -0,203904

El StatAdvisor
La salida muestra los resultados de ajustar un modelo raíz cuadrada-Y X-cuadrada para describir la relación entre Y_i y X_i. La
ecuación del modelo ajustado es

Y_i = (9,12502 + 0,323522*X_i^2)^2

Puesto que el valor-P en la tabla ANOVA es menor que 0,05, existe una relación estadísticamente significativa entre Y_i y X_i
con un nivel de confianza del 95,0%.

El estadístico R-Cuadrada indica que el modelo ajustado explica 88,9343% de la variabilidad en Y_i. El coeficiente de
correlación es igual a 0,94305, indicando una relación relativamente fuerte entre las variables. El error estándar del estimado
indica que la desviación estándar de los residuos es 0,0535946. Este valor puede usarse para construir límites de predicción para
nuevas observaciones, seleccionando la opción de Pronósticos del menú de texto.

El error absoluto medio (MAE) de 0,0422314 es el valor promedio de los residuos. El estadístico de Durbin-Watson (DW)
examina los residuos para determinar si hay alguna correlación significativa basada en el orden en el que se presentan en el
archivo de datos. Puesto que el valor-P es mayor que 0,05, no hay indicación de una autocorrelación serial en los residuos con un
nivel de confianza del 95,0%.

Módelo de Regresión Multiple


https://www.dropbox.com/s/56875npwdq8uyf7/DOCUMENTO_REGRESION_MULTIPLE.docx?
dl=0

En STATGRAPHICS
Se obtiene la siguiente salida

Regresión Múltiple - Gasto de Alimentación


Variable dependiente: Gasto de Alimentación (Y)
Variables independientes:
Ahorro Mensual (X_3)
Ingreso Mensual (X_1)
Integrantes de la Familia (X_2)

Error Estadístico
Parámetro Estimación Estándar T Valor-P
CONSTANTE -2081,68 2249,65 -0,925336 0,4525
Ahorro Mensual 0,673048 1,02616 0,655889 0,5793
Ingreso Mensual -0,0567687 0,0732609 -0,774883 0,5195
Integrantes de la Familia 1024,87 492,585 2,0806 0,1730

Análisis de Varianza
Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P
Modelo 1,35945E7 3 4,53151E6 2,76 0,2769
Residuo 3,28048E6 2 1,64024E6
Total (Corr.) 1,6875E7 5

R-cuadrada = 80,5601 porciento


R-cuadrado (ajustado para g.l.) = 51,4003 porciento
Error estándar del est. = 1280,72
Error absoluto medio = 604,702
Estadístico Durbin-Watson = 1,24533 (P=0,0956)
Autocorrelación de residuos en retraso 1 = 0,167346

El StatAdvisor
La salida muestra los resultados de ajustar un modelo de regresión lineal múltiple para describir la relación entre Gasto de
Alimentación y 3 variables independientes. La ecuación del modelo ajustado es

Gasto de Alimentación = -2081,68 + 0,673048*Ahorro Mensual - 0,0567687*Ingreso Mensual + 1024,87*Integrantes de la


Familia

Puesto que el valor-P en la tabla ANOVA es mayor o igual que 0,05, no existe una relación estadísticamente significativa entre
las variables con un nivel de confianza del 95,0%.

El estadístico R-Cuadrada indica que el modelo así ajustado explica 80,5601% de la variabilidad en Gasto de Alimentación. El
estadístico R-Cuadrada ajustada, que es más apropiada para comparar modelos con diferente número de variables independientes,
es 51,4003%. El error estándar del estimado muestra que la desviación estándar de los residuos es 1280,72. Este valor puede
usarse para construir límites para nuevas observaciones, seleccionando la opción de Reportes del menú de texto. El error
absoluto medio (MAE) de 604,702 es el valor promedio de los residuos. El estadístico de Durbin-Watson (DW) examina los
residuos para determinar si hay alguna correlación significativa basada en el orden en el que se presentan en el archivo de datos.
Puesto que el valor-P es mayor que 0,05, no hay indicación de una autocorrelación serial en los residuos con un nivel de
confianza del 95,0%.

Para determinar si el modelo puede simplificarse, note que el valor-P más alto de las variables independientes es 0,5793, que
corresponde a Ahorro Mensual. Puesto que el valor-P es mayor o igual que 0,05, ese término no es estadísticamente significativo
con un nivel de confianza del 95,0% ó mayor. Consecuentemente, debería considerarse eliminar Ahorro Mensual del modelo.

Nótese que es necesario realizar una eliminación de variables, por lo tanto se procederá a realizar
comparativo de variables y a escoger el mejor modelo

Selección del Modelo de Regresión - Gasto de Alimentación


Variable dependiente: Gasto de Alimentación (Y)
Variables independientes:
A=Ahorro Mensual (X_3)
B=Ingreso Mensual (X_1)
C=Integrantes de la Familia (X_2)

Número de casos completos: 6


Número de modelos ajustados: 8
Resultados de los Modelos
R-Cuadrada Variables
CME R-Cuadrada Ajustada Cp Incluidas
3,375E6 0,0 0,0 6,28812
3,08705E6 26,8254 8,53175 5,52829 A
2,81222E6 33,3399 16,6749 4,85807 B
1,13164E6 73,176 66,47 0,759685 C
3,375E6 40,0 0,0 6,32889 AB
1,42179E6 74,7238 57,873 2,60044 AC
1,3287E6 76,3787 60,6311 2,43019 BC
1,64024E6 80,5601 51,4003 4,0 ABC

El StatAdvisor
Esta tabla muestra los resultados de ajustar varios modelos de regresión múltiple para describir la relación entre Gasto de
Alimentación y 3 variables predictoras. Los modelos se han ajustado conteniendo todas las combinaciones desde 0 hasta 3
variables. Las estadísticas tabuladas incluyen el cuadrado medio del error (CME), los valores de R-Cuadrada ajustada y sin
ajustar, y el estadístico Cp de Mallows. Para determinar cuales modelos son mejores de acuerdo a estos diferentes criterios,
seleccione una de las Opciones Tabulares.

Esto nos confirma junto con el Valor p que solo se debe tener en cuenta la variable X3 y procedemos a
eliminar así:
Quedando el modelo así:

Regresión Múltiple - Gasto de Alimentación


Variable dependiente: Gasto de Alimentación (Y)
Variables independientes:
Ahorro Mensual (X_3)
Ingreso Mensual (X_1)
Integrantes de la Familia (X_2)

Error Estadístico
Parámetro Estimación Estándar T Valor-P
CONSTANTE -973,451 1494,4 -0,6514 0,5503
Integrantes de la Familia 809,735 245,126 3,30334 0,0298

Análisis de Varianza
Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P
Modelo 1,23485E7 1 1,23485E7 10,91 0,0298
Residuo 4,52655E6 4 1,13164E6
Total (Corr.) 1,6875E7 5

R-cuadrada = 73,176 porciento


R-cuadrado (ajustado para g.l.) = 66,47 porciento
Error estándar del est. = 1063,78
Error absoluto medio = 758,112
Estadístico Durbin-Watson = 1,03126 (P=0,0492)
Autocorrelación de residuos en retraso 1 = 0,209695

Regresión por Pasos


Método: Selección Hacia Atrás
F para Introducir: 4,0
F para Eliminar: 4,0

Paso 0:
3 variable(s) en el modelo. 2 g.l. para el error.
R-cuadrado = 80,56% R-cuadrado ajustado = 51,40% CME = 1,64024E6

Paso 1:
Eliminando variable Ahorro Mensual con F para eliminar =0,430191
2 variable(s) en el modelo. 3 g.l. para el error.
R-cuadrado = 76,38% R-cuadrado ajustado = 60,63% CME = 1,3287E6

Paso 2:
Eliminando variable Ingreso Mensual con F para eliminar =0,406751
1 variable(s) en el modelo. 4 g.l. para el error.
R-cuadrado = 73,18% R-cuadrado ajustado = 66,47% CME = 1,13164E6

Modelo Final seleccionado.

El StatAdvisor
La salida muestra los resultados de ajustar un modelo de regresión lineal múltiple para describir la relación entre Gasto de
Alimentación y 3 variables independientes. La ecuación del modelo ajustado es

Gasto de Alimentación = -973,451 + 809,735*Integrantes de la Familia

Puesto que el valor-P en la tabla ANOVA es menor que 0,05, existe una relación estadísticamente significativa entre las variables
con un nivel de confianza del 95,0%.

El estadístico R-Cuadrada indica que el modelo así ajustado explica 73,176% de la variabilidad en Gasto de Alimentación. El
estadístico R-Cuadrada ajustada, que es más apropiada para comparar modelos con diferente número de variables independientes,
es 66,47%. El error estándar del estimado muestra que la desviación estándar de los residuos es 1063,78. Este valor puede
usarse para construir límites para nuevas observaciones, seleccionando la opción de Reportes del menú de texto. El error
absoluto medio (MAE) de 758,112 es el valor promedio de los residuos. El estadístico de Durbin-Watson (DW) examina los
residuos para determinar si hay alguna correlación significativa basada en el orden en el que se presentan en el archivo de datos.
Puesto que el valor-P es menor que 0,05, hay indicación de una posible correlación serial con un nivel de confianza del 95,0%.
Grafique los residuos versus el número de fila para ver si hay algún patrón que pueda detectarse.

Para determinar si el modelo puede simplificarse, note que el valor-P más alto de las variables independientes es 0,0298, que
corresponde a Integrantes de la Familia. Puesto que el valor-P es menor que 0,05, ese término es estadísticamente significativo
con un nivel de confianza del 95,0%. Consecuentemente, probablemente no quisiera eliminar ninguna variable del modelo.

Potrebbero piacerti anche