Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
1. Ajustar un modelo de regresin mltiple con variable respuesta millas por galn
(inversa del consumo) y regresoras: precio, peso y desplazamiento.
5. Analizar los residuos del modelo ajustado: estudio descriptivo y grco de los resid-
uos. Se verican las hiptesis del modelo (homocedasticidad, normalidad)? mejora
el modelo si se introduce la variable aceleracin?
9. Repetir este mismo problema pero utilizando solamente los datos relativos a coches
de origen USA, Cambian las conclusiones de los apartados anteriores?
1
2 Modelos estadsticos aplicados. Juan Vilar
Los resultados del apartado resumen del procedimiento permite responder a las
preguntas de los cuatro primeros apartados de este problema:
? Proporciona el modelo estimado y la tabla ANOVA, se deduce que todas las variables
son signicativas y el contraste conjunto de la F indica que el modelo es signicativo.
? Calcula los coecientes de determinacin y correlacin.
? Obtiene el contraste de Durbin-Watson que indica que la primera autocorrelacin de
los residuos es cero.
En el apartado informes se obtienen los valores de las predicciones y de los residuos.
Si se quieren calcular predicciones para un valor de x
~ determinado se debe introducir este
vector como un dato muestral (sin Y ).
En el apartado residuos atipicos se observa que las observaciones 145 y 147 presentan
residuos altos.
En el apartado puntos influyentes se pueden estudiar las observaciones que pueden
ser inuyentes en el clculo del modelo.
Este mdulo proporciona muchos grcos de inters:
? Los grcos de efectos de las componentes indican la importancia de las tres regre-
soras.
? Los diferentes grcos de residuos permiten obtener conclusiones acerca de las hipte-
sis del modelo.
La hiptesis de multicolinealidad puede estudiarse en:
! El apartado matriz de correlaciones valores grandes de esta matriz (valores
fuera de la diagonal prximos a "1) indican la posible existencia de multicolinealidad.
! La matriz de correlaciones de las variables regresoras R; puede calcularse en el
apartado (tambin se obtiene la matriz de correlaciones parciales y un grco matricial)
descripcion > datos numericos > analisis multidimensional.
! En todo caso es conveniente calcular la diagonal de R!1 y el ndice de condicionamien-
to de R:
Se guardan las predicciones y los residuos estandarizados y/o estudentizados y se
pueden estudiar las hiptesis de normalidad, homocedasticidad e independencia.
? Utilizando los residuos estandarizados la normalidad se estudia en el mdulo:
Problema 5.2.
Con los datos del chero problema-5-1 estudiar la regresin de la variable respuesta
millas por galn (inversa del consumo) respecto a las variables regresoras: precio, peso,
desplazamiento, potencia (caballos de vapor) aceleracin y nmero de cilindros.
1. Utilizando el algoritmo de regresin paso a paso obtener las regresoras que deben
entrar en el modelo.
Los resultados que calcula este mdulo son similares a los que se obtienen en el ajuste
de un modelo de regresin lineal.
Prcticas y problemas de regresin lineal mltiple. 5
P P P
n = 15; x1i = 42; x2i = 55; yi = 80 070;
P P P
x21i = 1880 08; x1i x2i = 1400 80; yi x1i = 320 063;
P P
x22i = 2190 00; yi x2i = 280 960:
6 Modelos estadsticos aplicados. Juan Vilar
Por tanto
0 1 0 1
15 420 00 550 00 80 070
B C B C
S = Xt X = @ 42 1880 08 1400 80 A T = @ 320 063 A :
55 1400 80 2190 00 280 960
De donde
0 1!1 0 1
15 420 00 550 00 80 070
B C B C
~ = S!1 T = @ 42 1880 08 1400 80 A @ 320 063 A =
!
55 1400 80 2190 00 280 960
0 10 1 0 1
10 360 #00 092 #00 282 80 070 #00 160
B CB C B C
~ = S!1 T = @ #00 092
! 00 016 00 013 A @ 320 063 A = @ 00 149 A
#00 282 00 013 00 067 280 960 00 077
El modelo de regresin lineal que se obtiene es:
A partir de esta ecuacin se obtienen las predicciones y los residuos asociados a las
observaciones muestrales.
Para la primera observacin (x1 = 20 1; x2 = 3; y = 00 43) se obtiene
Se calcula la scR X
scR = e2i = 00 0721
Para la varianza 9 2 ;
(n # (k + 1)) s^2R 2 12 $ 00 0060
& ;n!(k+1) ) & ;212 ;
92 92
de donde
! " ! "
t12 00 05 $ 00 0903 ' #00 160 # )0 ' t12 00 95 $ 00 0903 = 10 783 $ 00 0903 = 00 161;
#00 321 = #00 160 # 00 161 ' )0 ' #00 160 + 00 161 = 00 001:
! " ! "
t12 00 05 $ 00 0099 ' 00 149 # )1 ' t12 00 95 $ 00 0099 = 10 783 $ 00 0099 = 00 0176;
00 1314 = 00 149 # 00 0176 ' )1 ' 00 149 + 00 0176 = 00 1666:
8 Modelos estadsticos aplicados. Juan Vilar
)
^1 00 149
t^1 = p & tn!(k+1) ) t^1 = 0 = 150 050 & t12 ;
s^R q11 0 0099
p1 = 00 000 ) Se Rechaza H0 :
)
^ 2 # )2 00 077 # )2
p 2 tn!(k+1) ) ;
s^R q22 00 0201
! " ! "
t12 00 05 $ 00 0201 ' 00 077 # )2 ' t12 00 95 $ 00 0201 = 10 783 $ 00 0201 = 00 0358;
00 0412 = 00 077 + 00 0358 ' )2 ' 00 077 + 00 0358 = 00 1128:
)
^2 00 077
t^2 = p & tn!(k+1) ) t^2 = 0 = 30 831;
s^R q22 0 0201
p2 = 00 0012 ) Se Rechaza H0 :
de donde X
scE = scG # scR == (yi # y^i )2 = 10 3595:
Tabla ANOVA
Fuentes de Suma de Grados Varianzas
variacin cuadrados libertad
scE (por el modelo) 10 3595 2 s^2e = 00 6797
scR (Residual) 00 0721 12 s^2R = 00 0060
scG ( Global) 10 4316 14 s^2y = 00 1023
s^2 00 6797
F^M = 2e = 0 = 1130 28 & F2;12 ) pc = 00 0000:
s^R 0 0060
Contraste individual de la F:
Se calcula el contraste individual de la F respecto a la variable x2 =tamao, este
contraste es equivalente al contraste individual de la t.
Se obtiene la regresin de la variable gasto respecto a la variable ingreso,
este valor indica lo que aumenta la variabilidad explicada por el modelo al introducir
la variable tamao.
Para contrastar la inuencia de esta variable se utiliza el estadstico
4V E (x2 )
1 00 0879
F^2 = = = 140 65 & F1;12 ) p = 00 001:
s^2R (k) 00 0060
Este contraste proporciona el mismo p#valor que el contraste individual de la t salvo
problemas de redondeo.
Coecientes de correlacin:
Coeciente de determinacin,
scE 10 3595
R2 = = 0 = 00 9496 ) 940 96 % de scG:
scG 1 4316
Este coeciente es una medida de la relacin lineal existente entre las variables gasto
e ingreso.
Este coeciente tambin se puede calcular a partir del coeciente de determinacin
de la siguiente regresin
scE 10 2716
R2 = = 0 = 00 8882 ) R = B (gasto; ingreso) = 00 9424:
scG 1 4316
! "
Coeciente de correlacin parcial entre las variables gasto e ingreso t^ingreso = t^1 .
2
t^2ingreso
r (gasto; ingreso; tama~
no) =
t^2ingreso + n # (k + 1)
150 0502
= = 00 9496
150 0502 + 12
no) = 00 974:
) r (gasto; ingreso; tama~
El coeciente de correlacin parcial entre las variables gasto e ingreso se obtiene como
el coeciente de correlacin simple entre las variables egasto:tama~no y eingreso:tama~no
^ 0 0; 4) = m
m(3 ^t = )
^0 + )
^ 1 xt1 + )
^ 2 xt2 =
= #00 160 + 00 149 $ 30 0 + 00 077 $ 4 = 00 595:
! "!1
htt = ~xtt X t X ~xt
0 10 1
+ , 10 360 #00 092 #00 282 1
B CB C
= 1 30 0 4 @ #00 092 00 016 00 013 A @ 30 0 A = 00 07649
#00 282 00 013 00 067 4
1
) nt = = 130 073:
00 07649
La varianza del estimador m
^ t es
y^(30 0; 4) = )
^0 + ) ^ 2 x2 = 00 595:
^ 1 x1 + )
La varianza de la prediccin es
! "
V ar (^
yt ) = s^2R $ (1 + htt ) = 00 0060 $ 1 + 00 07649 = 00 0065
yt ) = 00 0803:
) 9 (^
Algunos grcos de inters que ayudan a resolver el problema son los grcos par-
ciales de las componentes que sirven para observar la inuencia de las regresoras (Figuras
5.1. y 5.2.) y los grcos de residuos que se utilizan para chequar que se verican las hipte-
sis estructurales del modelo, dos de ellos (frente a ingreso y frente a ndice) se representan
en las Figuras 5.3. y 5.4.
R. L. Simple R. L. Mltiple
yi = )0 + )1 xi1 + )2 xi2 +
yi = )0 + )1 xi + "i
+ : : : + )k xik + "i
Modelo
~ = )0 ~
Y ~ +~
1 + )1 X " ~ =X!
Y ~ + ~"
sXY
)
^1 = 2
sX ! "!1 t
Estimacin ^ = Xt X
! XY
)
^ 0 = y5 # )^1 x
5
- 2
. + ! "!1 ,
9
)
^ 1 & N )1 ; 2 ~ &N !
! ~ ;9 2 Xt X
nsx
Propiedades (normal multivariante)
- - ..
92 52
x ! "
)
^0 & N )0 ; 1+ ^ i & N )i ; 9 2 qii
)
n s2x
y^i = )
^0 + )
^ 1 xi1 + )
^ 2 xi2 +
y^i = )
^0 + )
^ 1 xi
+::: + ) ^ k xik
Prediccin
^ =)
Y ^ 0~
1+) ~
^ 1X ^ =X!
Y ^
ei = yi # y^i ei = yi # y^i
Residuos
~ #Y
e=Y
~ ^ ~ #Y
e=Y
~ ^
Varianza 1 Pn 2
s^2R = e 1 Pn 2
Estimada n # 2 i=1 i s^2R = i=1 ei
n # (k + 1)
9 2M V
n^
Propiedades & ;2n!2 (n # (k + 1)) s^2R
92 & ;2n!(k+1)
92
)
^ #)
!0 = s 0- 0 . & tn!2
1 52
x
Interv. de s^R 1+ 2
n sx )
^ i # )i
Conanza !i = p & tn!(k+1)
s^R qii
^ 1 # )1 p
)
!1 = sx n & tn!2
s^R
s^2 s^2
Contraste F F^R = 2e & Fk;n!2 F^M = 2e & Fk;n!(k+1)
s^R s^R
Prcticas y problemas de regresin lineal mltiple. 15
Y 11 8 73 21 46 30
X1 #10 0 10 #10 0 10
X2 0 #5 5 0 5 #5
Problema 5.6. Los datos de la tabla adjunta indican la gravedad especca (X1 ),
contenido de humedad (X2 ) y fuerza (Y ) de diez vigas de madera. Encontrar el modelo
de regresin que mejor se ajusta a estos datos.
Y 110 14 120 74 130 13 110 51 120 38 120 60 110 13 110 70 110 02 110 41
X1 00 99 00 558 00 604 00 441 00 550 00 528 00 418 00 480 00 406 00 467
X2 110 1 80 9 80 8 80 9 80 8 90 9 100 7 100 5 100 5 100 7
Caso 1 2 3 4 5 6 7 8 9 A B C
x1 #2 0 2 #4 3 1 #3 #1 4 0 #3 #3
x2 6;5 7;3 8;3 6;0 8;8 8;0 5;9 6;9 9;5 7;2 9 7;3
y #1;5 0;5 1;6 #3;9 3;5 0;8 #2;7 #1;3 4;1 5 #1;5 4
1. Analizar la relacin lineal de la variable de inters, peso de corcho perdido, con las
dos variables explicativas.
X=Desigualdad en ingresos, el nmero de familias por mil que ganan por debajo de
la mitad de la mediana de ingresos
El objetivo del estudio es encontrar la mejor relacin entre la variable de inters R con
el resto de las variables regresoras. Analizar la inuencia de la variable atributo S.
Problema 5.25. Los datos de este problema son clsicos en anlisis de regresin
(chero problema-5-25), corresponden a la observacin de 21 das de trabajo en una
planta qumica para la oxidacin del amonio como una etapa en la produccin del cido
ntrico. Las variables observadas son:
X1 =ujo de aire
X2 =temperatura del ahua de refrigeracin (o C)
X3 =concentracin de cido ( %)
Y =prdida acumulada, porcentage del amonio que escapa sin ser absorbido
El objetivo del estudio es ajustar un modelo de regresin a estos datos que explique el
comportamiento de la respuesta Y respecto a las tres regresoras.
Pais V A N R Pais V A N R
Espaa 249 454 3;358 166 Italia 109 100 874 16
EE.UU. 3;334 2;612 15;230 1;209 Blgica 167 124 1;267 37
Alemania 707 542 7;391 119 Noruega 100 81 894 14
Inglaterra 511 352 7;307 243 Dinamarca 84 67 978 20
Francia 477 535 6;306 91 Finlandia 119 100 1;350 15
Suecia 142 137 2;075 34 Portugal 35 46 1;302 16
Suiza 494 475 6;163 215 Irlanda 237 283 3;668 80
Holanda 301 227 3;517 70
Problema 5.27. En la tabla adjunta se indica la altura (H), longitudde las naves
(L), anchura de la nave principal (A) y nmero de naves (N ) de algunas iglesias romnicas
espaolas. Estudiar la relacin entre la variable altura (H) y el resto de las variables.
22 Modelos estadsticos aplicados. Juan Vilar
H L A N H L A N H L A N
60 15 200 00 60 18 1 90 20 170 00 80 20 1 90 00 200 50 70 00 3
110 60 190 40 50 20 3 90 10 200 60 90 50 1 130 00 260 50 60 40 3
220 00 850 00 80 10 3 70 75 120 20 50 40 1 110 45 210 75 70 45 3
100 20 240 00 50 50 3 80 85 170 90 60 50 1 80 50 100 00 60 70 1
80 90 140 30 60 50 1 100 00 280 20 50 45 1 60 70 140 60 60 20 3
90 50 110 90 60 40 1 100 50 260 78 80 80 3 110 60 130 60 70 60 1
120 20 200 00 60 10 3 190 00 350 00 70 70 3 100 15 110 60 40 10 3
110 40 190 30 70 50 1 80 20 160 00 90 00 1
Y Z X Y Z X Y Z X Y Z X
1000 99 250 3 1897 240 500 3 1145 193 400 3 2036 264 580 6
1112 173 280 2 1822 248 510 3 1438 167 400 3 2570 189 580 7
1033 188 280 6 2129 261 510 7 1281 188 400 6 1474 223 590 5
1087 133 290 1 2053 245 520 8 1595 238 420 3 2116 245 600 8
1069 146 300 7 1676 186 530 8 1129 130 420 4 2054 272 610 3
925 91 310 4 1621 188 530 9 1492 189 420 5 1994 264 610 5
1306 188 320 5 1990 252 540 9 1605 213 430 0 1746 196 630 2
1306 194 360 8 1764 222 550 1 1647 165 430 0 2604 268 630 3
1323 195 370 1 1909 244 550 2 1539 210 460 7 1767 205 680 1
1379 177 380 3 2086 274 550 3 1706 224 490 0 2649 346 680 9
1332 182 390 0 1916 276 560 9 1728 228 500 2 2159 246 680 9
1254 110 390 6 1889 254 570 3 1703 209 500 3 2078 237;5 700 8
1587 203 400 1 1870 238 580 3
Los datos de la segunda parte estn en el chero problema-5-29B que contiene los
tiempos, en segundos, de los ganadores de las carreras de hombres de 100, 200, 400, 800 y
1500 metros en los JJOO desde 1900 a 1988 (no hubo JJOO en 1916, 1940 y 1944).
En ambos casos el objetivo del estudio es el mismo:
2. Para una determinada variable (en ambos cheros) ajustar un modelo de regresin
simple donde la variable regresora es el tiempo (reescalado) o, dicho de otra forma,
estimar la tendencia de la variable (serie de tiempo).