Módulo IV Modelos de Regresión

Módulo IV: Modelos de Regresión
https://www.dropbox.com/s/elmfhr6sadpak1k/Libro%20de%20Trabajo%20en%20Clase
%20Modelos%20de%20Regresi%C3%B3n.xlsx?dl=0
07/06/2019
https://www.dropbox.com/s/2hbmssp1puvirp9/M%C3%B3delos%20de%20Regresi%C3%B3n
%20clase%201.docx?dl=0
Formas de la ecuació n de regresió n.

E(y) = Betasub0 + Betasub1 x
E(y) = Alfa + Bx
E(y) = a + bx
Cuando la investigació n de las relaciones está limitada solamente a dos variables, denominamos
estos métodos analíticos ANÁ LISIS DE REGRESIÓ N LINEAL SIMPLE y ANÁ LISIS DE CORRELACIÓ N
SIMPLE, segú n el caso. Los aná lisis de correlació n simples son los temas que se estudiará n en el
presente capítulos. Si consideramos má s de dos variables, entonces, denominamos a las técnicas
analíticas ANÁ LISIS DE GRUPO MÚ LTIPLE o ANÁ LISIS E CORRELACIÓ N MÚ LTIPLE.
El modelo de regresión lineal simple

La relació n matemá tica (determinista) má s sencilla entre dos variables y es una relació n lineal,
esto es: el conjunto de parejas para el cual determina una línea recta con pendiente, que interseca
el eje en . El objetivo de este apartado consiste, entonces, en desarrollar un modelo probabilístico
lineal. Para ello, debemos partir del hecho que las dos variables no está n relacionadas en forma
determinista, entonces, para un valor fijo de, el valor de la segunda variable es aleatorio
Por lo general, la variable cuyo valor es fijado por el investigador estará representada por x
y se llamara VARIABLE INDEPENDIENTE (PREDICTORIA O EXPLICATIVA). Para x fija, la
segunda variable será aleatoria (representemos esta variable aleatoria por Y y su valor
observado por y). A esta variable Y la llamaremos VARIABLE DEPENDIENTE O DE
RESPUESTA.
X = Variable Independiente, Y = Variable Dependiente
Proceso de modelació n:
1. Realizar diagrama de dispersió n con todas las parejas (xi, yi).

Ejemplo 1.2
Tabla de Datos
1 194.5 20.79 7 200.9 23.89 13 209.5 28.49
2 194.3 20.79 8 201.1 23.99 14 208.6 27.76
3 197.9 22.4 9 201.4 24.02 15 210.7 29.04
4 198.4 22.67 10 201.3 24.01 16 211.9 29.88
5 199.4 23.15 11 203.6 25.14 17 212.2 30.06
6 199.9 23.35 12 204.6 26.57
Grá fico de Dispersió n con Línea de tendencia y Ecuació n Calculado en Excel
1.2 El modelo de regresión lineal simple
Para el modelo determinista yi = δ + βxi, el valor observado de Yi es una funció n lineal de xi. La
generalizació n apropiada para esto a un modelo probabilístico supone que el valor esperado de Yi
es una función lineal de xi. Si detonamos por E [Yi/Xi=xi]a la esperanza de una variable aleatoria Yi,
cuando la variable aleatoria X toma el valor específico Xi, entonces, el supuesto de linealidad
implica que esta esperanza puede plantearse como:

E [Yi/X =xi]= δ + βx (1)
Lo buscado es que el valor esperado sea igual al pronó stico realizado por el investigador, es decir,
que la Esperanza sea igual a la Ecuació n de Regresió n.
Ejercicio 1:
Si llueve, un vendedor de paraguas ganará $ 300.000, si no llueve, perderá $ 10.000.

Si La probabilidad de lluvia es del 30%, calcule cuá nto espera ganar el vendedor.
x 300000 -10000
p(x) 0,3 0,7
E[X] 83000
El valor que espera ganar el vendedor es de $ 83.000 mcte
En la prá ctica, el valor observado de Yi se desviará , casi inevitablemente, de su valor esperado. Si

la diferencia se representa mediante la variable aleatoria εi (que tiene media cero por la ecuació n
(1)), entonces, podemos establecer:
εi= Y – E[Y /X = x ] = Y – (δ + βx )
i i i i i
Yi = δ + βxi+εi. (2)
La ecuació n antes planteada (2) es la de la llamada recta verdadera (o poblacional) de regresión.
Definició n 1.1 Supongamos que estamos interesados en conocer la relación entre una variable
dependiente Y, y una independiente X. Si la variable aleatoria toma los valores xi, entonces, la
ecuación de la RECTA POBLACIONAL DE REGRESIÓN expresa los correspondientes valores Yi como:
Yi = δ + βxi+εi.
Donde δ y β son constantes y εi, llamado TÉRMINO DE ERROR, es una variable aleatoria con
media 0.
Supuestos para el modelo de regresión lineal simple.
Denotemos la recta verdadera de regresió n por Yi = δ + βxi+εi. Y asumamos que se dispone de n
pares de observaciones. Suelen realizarse, al respecto, los siguientes supuestos:
1. Cada xi es un nú mero fijo (asignado, por ejemplo, por un investigador) o es la realizació n
de una variable aleatoria Xi independientemente del término error εi. En el ú ltimo caso,
la inferencia se realiza condicionando al valor observado xi.
2. Los términos de error εi. Son variables aleatorias con media 0, es decir, E [εi]= 0, para
todo i = 1 …, n.
3. Las variables aleatorias εi tienen todas las mismas varianzas σ2, es decir, V (εi) = σ2, para
todo i =1,…, n.
4. Las variables aleatorias εi no se hallan correlacionadas, luego, e (εi εj) = 0, para todo i,j=1,
…,n con i≠ j.
Ahora bien, los supuestos anteriores del modelo de regresió n implican que, para un valor fijo xi de
X, La esperanza y varianza condicionales de Yi, dado que X= xi, vienen dadas por:
 E [Yi/X= xi] = E [δ + βxi+ εi] = δ + βxi + E [εi] = δ + βxi
 V (Yi/X=xi)=V (δ + βxi+ εi) = V (δ + βxi)+V (εi)= 0 + σ2 = σ2
1.4 Estimación de los parámetros por mínimos cuadrados
Calculo de los Betas para la ecuación

Ecuación de Regresión
Módelo de Regresión Simple
En STATGRAPHIC se realiza el siguiente procedimiento:

Obteniendo la siguiente salida
Regresión Simple - Y_i vs. X_i

Variable dependiente: Y_i
Variable independiente: X_i
Lineal: Y = a + b*X
Coeficientes
Mínimos Cuadrados Estándar Estadístico
Parámetro Estimado Error T Valor-P
Intercepto 74,2833 1,59347 46,6172 0,0000
Pendiente 14,9475 1,31676 11,3517 0,0000
Análisis de Varianza
Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P
Modelo 152,127 1 152,127 128,86 0,0000
Residuo 21,2498 18 1,18055
Total (Corr.) 173,377 19
Coeficiente de Correlación = 0,936715

R-cuadrada = 87,7436 porciento
R-cuadrado (ajustado para g.l.) = 87,0627 porciento
Error estándar del est. = 1,08653
Error absoluto medio = 0,843397
Estadístico Durbin-Watson = 2,40742 (P=0,8464)
Autocorrelación de residuos en retraso 1 = -0,232585
El StatAdvisor
La salida muestra los resultados de ajustar un modelo lineal para describir la relación entre Y_i y X_i. La ecuación del modelo
ajustado es
Y_i = 74,2833 + 14,9475*X_i
Puesto que el valor-P en la tabla ANOVA es menor que 0,05, existe una relación estadísticamente significativa entre Y_i y X_i
con un nivel de confianza del 95,0%.
El estadístico R-Cuadrada indica que el modelo ajustado explica 87,7436% de la variabilidad en Y_i. El coeficiente de
correlación es igual a 0,936715, indicando una relación relativamente fuerte entre las variables. El error estándar del estimado
indica que la desviación estándar de los residuos es 1,08653. Este valor puede usarse para construir límites de predicción para
nuevas observaciones, seleccionando la opción de Pronósticos del menú de texto.
El error absoluto medio (MAE) de 0,843397 es el valor promedio de los residuos. El estadístico de Durbin-Watson (DW)
examina los residuos para determinar si hay alguna correlación significativa basada en el orden en el que se presentan en el
archivo de datos. Puesto que el valor-P es mayor que 0,05, no hay indicación de una autocorrelación serial en los residuos con un
nivel de confianza del 95,0%.
Para determinar el mejor modelo hacemos así:

Comparación de Modelos Alternos
Modelo Correlación R-Cuadrada
Raíz Cuadrada-X Cuadrado-X 0,9430 88,93%
Log-Y Cuadrado-X 0,9430 88,93%
Cuadrado de X 0,9429 88,91%
Inversa-Y Cuadrado-X -0,9427 88,86%
Cuadrado Doble 0,9424 88,81%
Inversa de Y -0,9393 88,22%
Exponencial 0,9382 88,03%
Raíz Cuadrada de Y 0,9375 87,90%
Lineal 0,9367 87,74%
Inversa-Y Raíz Cuadrada-X -0,9357 87,56%
Cuadrado de Y 0,9347 87,37%
Logarítmico-Y Raíz Cuadrada-X 0,9340 87,23%
Raíz Cuadrada Doble 0,9329 87,04%
Raíz Cuadrada deX 0,9318 86,82%
Inversa-Y Log-X -0,9309 86,66%
Cuadrado-Y Raíz Cuadrada-X 0,9291 86,32%
Multiplicativa 0,9285 86,21%
Raíz Cuadrada-Y Log-X 0,9271 85,95%
Logaritmo de X 0,9256 85,68%
Cuadrado-Y Log-X 0,9223 85,05%
Doble Inverso 0,9177 84,22%
Curva S -0,9140 83,54%
Raíz Cuadrada-Y Inversa de X -0,9120 83,17%
Inversa de X -0,9098 82,77%
Cuadrado-Y Inversa de X -0,9051 81,93%
Logístico <sin ajuste>
Log probit <sin ajuste>
El StatAdvisor
Esta tabla muestra los resultados de ajustar varios modelos curvilíneos a los datos. De los modelos ajustados, el modelo raíz
cuadrada-Y X-cuadrada es el que arroja el valore más alto de R-Cuadrada con 88,9343%. Este es 1,19072% mayor que el
modelo lineal seleccionado. Para cambiar los modelos, seleccione el cuadro de diálogo de las Opciones de Análisis.
Y se selecciona el mejor modelo así:
Obteniendo el siguiente resulado:
Regresión Simple - Y_i vs. X_i

Variable dependiente: Y_i
Variable independiente: X_i
Raíz Cuadrada-Y Cuadrado-X: Y = (a + b*X^2)^2
Coeficientes
Mínimos Cuadrados Estándar Estadístico
Parámetro Estimado Error T Valor-P
Intercepto 9,12502 0,0411739 221,621 0,0000
Pendiente 0,323522 0,0268982 12,0277 0,0000
Modelo 0,415532 1 0,415532 144,66 0,0000
Residuo 0,0517028 18 0,00287238
Total (Corr.) 0,467234 19
Coeficiente de Correlación = 0,94305

Autocorrelación de residuos en retraso 1 = -0,203904
El StatAdvisor
La salida muestra los resultados de ajustar un modelo raíz cuadrada-Y X-cuadrada para describir la relación entre Y_i y X_i. La
ecuación del modelo ajustado es
Y_i = (9,12502 + 0,323522*X_i^2)^2
Puesto que el valor-P en la tabla ANOVA es menor que 0,05, existe una relación estadísticamente significativa entre Y_i y X_i
El estadístico R-Cuadrada indica que el modelo ajustado explica 88,9343% de la variabilidad en Y_i. El coeficiente de
correlación es igual a 0,94305, indicando una relación relativamente fuerte entre las variables. El error estándar del estimado
indica que la desviación estándar de los residuos es 0,0535946. Este valor puede usarse para construir límites de predicción para
nuevas observaciones, seleccionando la opción de Pronósticos del menú de texto.
El error absoluto medio (MAE) de 0,0422314 es el valor promedio de los residuos. El estadístico de Durbin-Watson (DW)
examina los residuos para determinar si hay alguna correlación significativa basada en el orden en el que se presentan en el
archivo de datos. Puesto que el valor-P es mayor que 0,05, no hay indicación de una autocorrelación serial en los residuos con un
nivel de confianza del 95,0%.
Módelo de Regresión Multiple

https://www.dropbox.com/s/56875npwdq8uyf7/DOCUMENTO_REGRESION_MULTIPLE.docx?
dl=0
En STATGRAPHICS
Se obtiene la siguiente salida
Regresión Múltiple - Gasto de Alimentación

Variable dependiente: Gasto de Alimentación (Y)
Variables independientes:
Ahorro Mensual (X_3)
Ingreso Mensual (X_1)
Integrantes de la Familia (X_2)
Error Estadístico
Parámetro Estimación Estándar T Valor-P
CONSTANTE -2081,68 2249,65 -0,925336 0,4525
Ahorro Mensual 0,673048 1,02616 0,655889 0,5793
Ingreso Mensual -0,0567687 0,0732609 -0,774883 0,5195
Integrantes de la Familia 1024,87 492,585 2,0806 0,1730
Modelo 1,35945E7 3 4,53151E6 2,76 0,2769
Residuo 3,28048E6 2 1,64024E6
Total (Corr.) 1,6875E7 5

Autocorrelación de residuos en retraso 1 = 0,167346
El StatAdvisor
La salida muestra los resultados de ajustar un modelo de regresión lineal múltiple para describir la relación entre Gasto de
Alimentación y 3 variables independientes. La ecuación del modelo ajustado es
Gasto de Alimentación = -2081,68 + 0,673048*Ahorro Mensual - 0,0567687*Ingreso Mensual + 1024,87*Integrantes de la

Familia
Puesto que el valor-P en la tabla ANOVA es mayor o igual que 0,05, no existe una relación estadísticamente significativa entre
las variables con un nivel de confianza del 95,0%.
El estadístico R-Cuadrada indica que el modelo así ajustado explica 80,5601% de la variabilidad en Gasto de Alimentación. El
estadístico R-Cuadrada ajustada, que es más apropiada para comparar modelos con diferente número de variables independientes,
es 51,4003%. El error estándar del estimado muestra que la desviación estándar de los residuos es 1280,72. Este valor puede
usarse para construir límites para nuevas observaciones, seleccionando la opción de Reportes del menú de texto. El error
absoluto medio (MAE) de 604,702 es el valor promedio de los residuos. El estadístico de Durbin-Watson (DW) examina los
residuos para determinar si hay alguna correlación significativa basada en el orden en el que se presentan en el archivo de datos.
Puesto que el valor-P es mayor que 0,05, no hay indicación de una autocorrelación serial en los residuos con un nivel de
confianza del 95,0%.
Para determinar si el modelo puede simplificarse, note que el valor-P más alto de las variables independientes es 0,5793, que
corresponde a Ahorro Mensual. Puesto que el valor-P es mayor o igual que 0,05, ese término no es estadísticamente significativo
con un nivel de confianza del 95,0% ó mayor. Consecuentemente, debería considerarse eliminar Ahorro Mensual del modelo.
Nótese que es necesario realizar una eliminación de variables, por lo tanto se procederá a realizar
comparativo de variables y a escoger el mejor modelo
Selección del Modelo de Regresión - Gasto de Alimentación

A=Ahorro Mensual (X_3)
B=Ingreso Mensual (X_1)
C=Integrantes de la Familia (X_2)
Número de casos completos: 6

Número de modelos ajustados: 8
Resultados de los Modelos
R-Cuadrada Variables
CME R-Cuadrada Ajustada Cp Incluidas
3,375E6 0,0 0,0 6,28812
3,08705E6 26,8254 8,53175 5,52829 A
2,81222E6 33,3399 16,6749 4,85807 B
1,13164E6 73,176 66,47 0,759685 C
3,375E6 40,0 0,0 6,32889 AB
1,42179E6 74,7238 57,873 2,60044 AC
1,3287E6 76,3787 60,6311 2,43019 BC
1,64024E6 80,5601 51,4003 4,0 ABC
El StatAdvisor
Esta tabla muestra los resultados de ajustar varios modelos de regresión múltiple para describir la relación entre Gasto de
Alimentación y 3 variables predictoras. Los modelos se han ajustado conteniendo todas las combinaciones desde 0 hasta 3
variables. Las estadísticas tabuladas incluyen el cuadrado medio del error (CME), los valores de R-Cuadrada ajustada y sin
ajustar, y el estadístico Cp de Mallows. Para determinar cuales modelos son mejores de acuerdo a estos diferentes criterios,
seleccione una de las Opciones Tabulares.
Esto nos confirma junto con el Valor p que solo se debe tener en cuenta la variable X3 y procedemos a
eliminar así:
Quedando el modelo así:
Regresión Múltiple - Gasto de Alimentación

Ahorro Mensual (X_3)
Ingreso Mensual (X_1)
Integrantes de la Familia (X_2)
Error Estadístico
Parámetro Estimación Estándar T Valor-P
CONSTANTE -973,451 1494,4 -0,6514 0,5503
Integrantes de la Familia 809,735 245,126 3,30334 0,0298
Modelo 1,23485E7 1 1,23485E7 10,91 0,0298
Residuo 4,52655E6 4 1,13164E6
Total (Corr.) 1,6875E7 5

Autocorrelación de residuos en retraso 1 = 0,209695
Regresión por Pasos

Método: Selección Hacia Atrás
F para Introducir: 4,0
F para Eliminar: 4,0
Paso 0:
3 variable(s) en el modelo. 2 g.l. para el error.
R-cuadrado = 80,56% R-cuadrado ajustado = 51,40% CME = 1,64024E6
Paso 1:
Eliminando variable Ahorro Mensual con F para eliminar =0,430191
Paso 2:
Eliminando variable Ingreso Mensual con F para eliminar =0,406751
Modelo Final seleccionado.
El StatAdvisor
La salida muestra los resultados de ajustar un modelo de regresión lineal múltiple para describir la relación entre Gasto de
Alimentación y 3 variables independientes. La ecuación del modelo ajustado es
Gasto de Alimentación = -973,451 + 809,735*Integrantes de la Familia
Puesto que el valor-P en la tabla ANOVA es menor que 0,05, existe una relación estadísticamente significativa entre las variables
El estadístico R-Cuadrada indica que el modelo así ajustado explica 73,176% de la variabilidad en Gasto de Alimentación. El
estadístico R-Cuadrada ajustada, que es más apropiada para comparar modelos con diferente número de variables independientes,
es 66,47%. El error estándar del estimado muestra que la desviación estándar de los residuos es 1063,78. Este valor puede
usarse para construir límites para nuevas observaciones, seleccionando la opción de Reportes del menú de texto. El error
absoluto medio (MAE) de 758,112 es el valor promedio de los residuos. El estadístico de Durbin-Watson (DW) examina los
residuos para determinar si hay alguna correlación significativa basada en el orden en el que se presentan en el archivo de datos.
Puesto que el valor-P es menor que 0,05, hay indicación de una posible correlación serial con un nivel de confianza del 95,0%.
Grafique los residuos versus el número de fila para ver si hay algún patrón que pueda detectarse.
Para determinar si el modelo puede simplificarse, note que el valor-P más alto de las variables independientes es 0,0298, que
corresponde a Integrantes de la Familia. Puesto que el valor-P es menor que 0,05, ese término es estadísticamente significativo
con un nivel de confianza del 95,0%. Consecuentemente, probablemente no quisiera eliminar ninguna variable del modelo.

Módulo IV Modelos de Regresión

Caricato da

Informazioni sul documento

Descrizione originale:

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Módulo IV Modelos de Regresión

Caricato da

Copyright:

Formati disponibili

Módulo IV: Modelos de Regresión

Formas de la ecuació n de regresió n.

El modelo de regresión lineal simple

X = Variable Independiente, Y = Variable Dependiente

1. Realizar diagrama de dispersió n con todas las parejas (xi, yi).

1 194.5 20.79 7 200.9 23.89 13 209.5 28.49

2 194.3 20.79 8 201.1 23.99 14 208.6 27.76

3 197.9 22.4 9 201.4 24.02 15 210.7 29.04

4 198.4 22.67 10 201.3 24.01 16 211.9 29.88

5 199.4 23.15 11 203.6 25.14 17 212.2 30.06

6 199.9 23.35 12 204.6 26.57

Grá fico de Dispersió n con Línea de tendencia y Ecuació n Calculado en Excel

1.2 El modelo de regresión lineal simple

Si llueve, un vendedor de paraguas ganará $ 300.000, si no llueve, perderá $ 10.000.

p(x) 0,3 0,7

El valor que espera ganar el vendedor es de $ 83.000 mcte

En la prá ctica, el valor observado de Yi se desviará , casi inevitablemente, de su valor esperado. Si

La ecuació n antes planteada (2) es la de la llamada recta verdadera (o poblacional) de regresión.

Supuestos para el modelo de regresión lineal simple.

 E [Yi/X= xi] = E [δ + βxi+ εi] = δ + βxi + E [εi] = δ + βxi

 V (Yi/X=xi)=V (δ + βxi+ εi) = V (δ + βxi)+V (εi)= 0 + σ2 = σ2

1.4 Estimación de los parámetros por mínimos cuadrados

Calculo de los Betas para la ecuación

Módelo de Regresión Simple

En STATGRAPHIC se realiza el siguiente procedimiento:

Regresión Simple - Y_i vs. X_i

Coeficiente de Correlación = 0,936715

Y_i = 74,2833 + 14,9475*X_i

Para determinar el mejor modelo hacemos así:

Obteniendo el siguiente resulado:

Regresión Simple - Y_i vs. X_i

Coeficiente de Correlación = 0,94305

Y_i = (9,12502 + 0,323522*X_i^2)^2

Módelo de Regresión Multiple

Regresión Múltiple - Gasto de Alimentación

R-cuadrada = 80,5601 porciento

Gasto de Alimentación = -2081,68 + 0,673048*Ahorro Mensual - 0,0567687*Ingreso Mensual + 1024,87*Integrantes de la

Selección del Modelo de Regresión - Gasto de Alimentación

Número de casos completos: 6

Regresión Múltiple - Gasto de Alimentación

R-cuadrada = 73,176 porciento

Regresión por Pasos

Modelo Final seleccionado.

Gasto de Alimentación = -973,451 + 809,735*Integrantes de la Familia

Potrebbero piacerti anche

Gasto de Alimentación = -2081,68 + 0,673048Ahorro Mensual - 0,0567687Ingreso Mensual + 1024,87*Integrantes de la