Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
https://www.dropbox.com/s/elmfhr6sadpak1k/Libro%20de%20Trabajo%20en%20Clase
%20Modelos%20de%20Regresi%C3%B3n.xlsx?dl=0
07/06/2019
https://www.dropbox.com/s/2hbmssp1puvirp9/M%C3%B3delos%20de%20Regresi%C3%B3n
%20clase%201.docx?dl=0
Cuando la investigació n de las relaciones está limitada solamente a dos variables, denominamos
estos métodos analíticos ANÁ LISIS DE REGRESIÓ N LINEAL SIMPLE y ANÁ LISIS DE CORRELACIÓ N
SIMPLE, segú n el caso. Los aná lisis de correlació n simples son los temas que se estudiará n en el
presente capítulos. Si consideramos má s de dos variables, entonces, denominamos a las técnicas
analíticas ANÁ LISIS DE GRUPO MÚ LTIPLE o ANÁ LISIS E CORRELACIÓ N MÚ LTIPLE.
Por lo general, la variable cuyo valor es fijado por el investigador estará representada por x
y se llamara VARIABLE INDEPENDIENTE (PREDICTORIA O EXPLICATIVA). Para x fija, la
segunda variable será aleatoria (representemos esta variable aleatoria por Y y su valor
observado por y). A esta variable Y la llamaremos VARIABLE DEPENDIENTE O DE
RESPUESTA.
Proceso de modelació n:
Tabla de Datos
Para el modelo determinista yi = δ + βxi, el valor observado de Yi es una funció n lineal de xi. La
generalizació n apropiada para esto a un modelo probabilístico supone que el valor esperado de Yi
es una función lineal de xi. Si detonamos por E [Yi/Xi=xi]a la esperanza de una variable aleatoria Yi,
cuando la variable aleatoria X toma el valor específico Xi, entonces, el supuesto de linealidad
implica que esta esperanza puede plantearse como:
E [Yi/X =xi]= δ + βx (1)
Lo buscado es que el valor esperado sea igual al pronó stico realizado por el investigador, es decir,
que la Esperanza sea igual a la Ecuació n de Regresió n.
Ejercicio 1:
E[X] 83000
εi= Y – E[Y /X = x ] = Y – (δ + βx )
i i i i i
Yi = δ + βxi+εi. (2)
Definició n 1.1 Supongamos que estamos interesados en conocer la relación entre una variable
dependiente Y, y una independiente X. Si la variable aleatoria toma los valores xi, entonces, la
ecuación de la RECTA POBLACIONAL DE REGRESIÓN expresa los correspondientes valores Yi como:
Yi = δ + βxi+εi.
Donde δ y β son constantes y εi, llamado TÉRMINO DE ERROR, es una variable aleatoria con
media 0.
Denotemos la recta verdadera de regresió n por Yi = δ + βxi+εi. Y asumamos que se dispone de n
pares de observaciones. Suelen realizarse, al respecto, los siguientes supuestos:
1. Cada xi es un nú mero fijo (asignado, por ejemplo, por un investigador) o es la realizació n
de una variable aleatoria Xi independientemente del término error εi. En el ú ltimo caso,
la inferencia se realiza condicionando al valor observado xi.
2. Los términos de error εi. Son variables aleatorias con media 0, es decir, E [εi]= 0, para
todo i = 1 …, n.
3. Las variables aleatorias εi tienen todas las mismas varianzas σ2, es decir, V (εi) = σ2, para
todo i =1,…, n.
4. Las variables aleatorias εi no se hallan correlacionadas, luego, e (εi εj) = 0, para todo i,j=1,
…,n con i≠ j.
Ahora bien, los supuestos anteriores del modelo de regresió n implican que, para un valor fijo xi de
X, La esperanza y varianza condicionales de Yi, dado que X= xi, vienen dadas por:
Coeficientes
Mínimos Cuadrados Estándar Estadístico
Parámetro Estimado Error T Valor-P
Intercepto 74,2833 1,59347 46,6172 0,0000
Pendiente 14,9475 1,31676 11,3517 0,0000
Análisis de Varianza
Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P
Modelo 152,127 1 152,127 128,86 0,0000
Residuo 21,2498 18 1,18055
Total (Corr.) 173,377 19
El StatAdvisor
La salida muestra los resultados de ajustar un modelo lineal para describir la relación entre Y_i y X_i. La ecuación del modelo
ajustado es
Puesto que el valor-P en la tabla ANOVA es menor que 0,05, existe una relación estadísticamente significativa entre Y_i y X_i
con un nivel de confianza del 95,0%.
El estadístico R-Cuadrada indica que el modelo ajustado explica 87,7436% de la variabilidad en Y_i. El coeficiente de
correlación es igual a 0,936715, indicando una relación relativamente fuerte entre las variables. El error estándar del estimado
indica que la desviación estándar de los residuos es 1,08653. Este valor puede usarse para construir límites de predicción para
nuevas observaciones, seleccionando la opción de Pronósticos del menú de texto.
El error absoluto medio (MAE) de 0,843397 es el valor promedio de los residuos. El estadístico de Durbin-Watson (DW)
examina los residuos para determinar si hay alguna correlación significativa basada en el orden en el que se presentan en el
archivo de datos. Puesto que el valor-P es mayor que 0,05, no hay indicación de una autocorrelación serial en los residuos con un
nivel de confianza del 95,0%.
El StatAdvisor
Esta tabla muestra los resultados de ajustar varios modelos curvilíneos a los datos. De los modelos ajustados, el modelo raíz
cuadrada-Y X-cuadrada es el que arroja el valore más alto de R-Cuadrada con 88,9343%. Este es 1,19072% mayor que el
modelo lineal seleccionado. Para cambiar los modelos, seleccione el cuadro de diálogo de las Opciones de Análisis.
Y se selecciona el mejor modelo así:
Coeficientes
Mínimos Cuadrados Estándar Estadístico
Parámetro Estimado Error T Valor-P
Intercepto 9,12502 0,0411739 221,621 0,0000
Pendiente 0,323522 0,0268982 12,0277 0,0000
Análisis de Varianza
Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P
Modelo 0,415532 1 0,415532 144,66 0,0000
Residuo 0,0517028 18 0,00287238
Total (Corr.) 0,467234 19
El StatAdvisor
La salida muestra los resultados de ajustar un modelo raíz cuadrada-Y X-cuadrada para describir la relación entre Y_i y X_i. La
ecuación del modelo ajustado es
Puesto que el valor-P en la tabla ANOVA es menor que 0,05, existe una relación estadísticamente significativa entre Y_i y X_i
con un nivel de confianza del 95,0%.
El estadístico R-Cuadrada indica que el modelo ajustado explica 88,9343% de la variabilidad en Y_i. El coeficiente de
correlación es igual a 0,94305, indicando una relación relativamente fuerte entre las variables. El error estándar del estimado
indica que la desviación estándar de los residuos es 0,0535946. Este valor puede usarse para construir límites de predicción para
nuevas observaciones, seleccionando la opción de Pronósticos del menú de texto.
El error absoluto medio (MAE) de 0,0422314 es el valor promedio de los residuos. El estadístico de Durbin-Watson (DW)
examina los residuos para determinar si hay alguna correlación significativa basada en el orden en el que se presentan en el
archivo de datos. Puesto que el valor-P es mayor que 0,05, no hay indicación de una autocorrelación serial en los residuos con un
nivel de confianza del 95,0%.
En STATGRAPHICS
Se obtiene la siguiente salida
Error Estadístico
Parámetro Estimación Estándar T Valor-P
CONSTANTE -2081,68 2249,65 -0,925336 0,4525
Ahorro Mensual 0,673048 1,02616 0,655889 0,5793
Ingreso Mensual -0,0567687 0,0732609 -0,774883 0,5195
Integrantes de la Familia 1024,87 492,585 2,0806 0,1730
Análisis de Varianza
Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P
Modelo 1,35945E7 3 4,53151E6 2,76 0,2769
Residuo 3,28048E6 2 1,64024E6
Total (Corr.) 1,6875E7 5
El StatAdvisor
La salida muestra los resultados de ajustar un modelo de regresión lineal múltiple para describir la relación entre Gasto de
Alimentación y 3 variables independientes. La ecuación del modelo ajustado es
Puesto que el valor-P en la tabla ANOVA es mayor o igual que 0,05, no existe una relación estadísticamente significativa entre
las variables con un nivel de confianza del 95,0%.
El estadístico R-Cuadrada indica que el modelo así ajustado explica 80,5601% de la variabilidad en Gasto de Alimentación. El
estadístico R-Cuadrada ajustada, que es más apropiada para comparar modelos con diferente número de variables independientes,
es 51,4003%. El error estándar del estimado muestra que la desviación estándar de los residuos es 1280,72. Este valor puede
usarse para construir límites para nuevas observaciones, seleccionando la opción de Reportes del menú de texto. El error
absoluto medio (MAE) de 604,702 es el valor promedio de los residuos. El estadístico de Durbin-Watson (DW) examina los
residuos para determinar si hay alguna correlación significativa basada en el orden en el que se presentan en el archivo de datos.
Puesto que el valor-P es mayor que 0,05, no hay indicación de una autocorrelación serial en los residuos con un nivel de
confianza del 95,0%.
Para determinar si el modelo puede simplificarse, note que el valor-P más alto de las variables independientes es 0,5793, que
corresponde a Ahorro Mensual. Puesto que el valor-P es mayor o igual que 0,05, ese término no es estadísticamente significativo
con un nivel de confianza del 95,0% ó mayor. Consecuentemente, debería considerarse eliminar Ahorro Mensual del modelo.
Nótese que es necesario realizar una eliminación de variables, por lo tanto se procederá a realizar
comparativo de variables y a escoger el mejor modelo
El StatAdvisor
Esta tabla muestra los resultados de ajustar varios modelos de regresión múltiple para describir la relación entre Gasto de
Alimentación y 3 variables predictoras. Los modelos se han ajustado conteniendo todas las combinaciones desde 0 hasta 3
variables. Las estadísticas tabuladas incluyen el cuadrado medio del error (CME), los valores de R-Cuadrada ajustada y sin
ajustar, y el estadístico Cp de Mallows. Para determinar cuales modelos son mejores de acuerdo a estos diferentes criterios,
seleccione una de las Opciones Tabulares.
Esto nos confirma junto con el Valor p que solo se debe tener en cuenta la variable X3 y procedemos a
eliminar así:
Quedando el modelo así:
Error Estadístico
Parámetro Estimación Estándar T Valor-P
CONSTANTE -973,451 1494,4 -0,6514 0,5503
Integrantes de la Familia 809,735 245,126 3,30334 0,0298
Análisis de Varianza
Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P
Modelo 1,23485E7 1 1,23485E7 10,91 0,0298
Residuo 4,52655E6 4 1,13164E6
Total (Corr.) 1,6875E7 5
Paso 0:
3 variable(s) en el modelo. 2 g.l. para el error.
R-cuadrado = 80,56% R-cuadrado ajustado = 51,40% CME = 1,64024E6
Paso 1:
Eliminando variable Ahorro Mensual con F para eliminar =0,430191
2 variable(s) en el modelo. 3 g.l. para el error.
R-cuadrado = 76,38% R-cuadrado ajustado = 60,63% CME = 1,3287E6
Paso 2:
Eliminando variable Ingreso Mensual con F para eliminar =0,406751
1 variable(s) en el modelo. 4 g.l. para el error.
R-cuadrado = 73,18% R-cuadrado ajustado = 66,47% CME = 1,13164E6
El StatAdvisor
La salida muestra los resultados de ajustar un modelo de regresión lineal múltiple para describir la relación entre Gasto de
Alimentación y 3 variables independientes. La ecuación del modelo ajustado es
Puesto que el valor-P en la tabla ANOVA es menor que 0,05, existe una relación estadísticamente significativa entre las variables
con un nivel de confianza del 95,0%.
El estadístico R-Cuadrada indica que el modelo así ajustado explica 73,176% de la variabilidad en Gasto de Alimentación. El
estadístico R-Cuadrada ajustada, que es más apropiada para comparar modelos con diferente número de variables independientes,
es 66,47%. El error estándar del estimado muestra que la desviación estándar de los residuos es 1063,78. Este valor puede
usarse para construir límites para nuevas observaciones, seleccionando la opción de Reportes del menú de texto. El error
absoluto medio (MAE) de 758,112 es el valor promedio de los residuos. El estadístico de Durbin-Watson (DW) examina los
residuos para determinar si hay alguna correlación significativa basada en el orden en el que se presentan en el archivo de datos.
Puesto que el valor-P es menor que 0,05, hay indicación de una posible correlación serial con un nivel de confianza del 95,0%.
Grafique los residuos versus el número de fila para ver si hay algún patrón que pueda detectarse.
Para determinar si el modelo puede simplificarse, note que el valor-P más alto de las variables independientes es 0,0298, que
corresponde a Integrantes de la Familia. Puesto que el valor-P es menor que 0,05, ese término es estadísticamente significativo
con un nivel de confianza del 95,0%. Consecuentemente, probablemente no quisiera eliminar ninguna variable del modelo.