Sei sulla pagina 1di 18

Estad

stica II
Ejercicios Tema 5
Curso 2012/13 Soluciones
1. Considera los cuatro conjuntos de datos dados en las transparencias del Tema 5 (seccion 5.1)
(a) Comprueba que los cuatro conjuntos de datos dan lugar a la misma recta de regresion.
(b) Aplica los metodos de diagnostico comentados en clase al conjunto de datos # 1, y comenta
los resultados.
(c) Aplica los metodos de diagnostico comentados en clase al conjunto de datos # 2, y comenta
los resultados.
(d) Aplica los metodos de diagnostico comentados en clase al conjunto de datos # 3, y comenta
los resultados.
(e) En el conjunto de datos # 3, identica el dato atpico. Obten la recta de regresion tras eliminar
este dato atpico, y comenta el resultado.
Solucion.
(a) Se puede comprobar directamente aplicando las formulas para estimar los parametros del
modelo de regresion lineal simple, o bien utilizando Statgraphics. En este caso, se obtienen
para cada uno de los cuatro conjuntos de datos los siguientes resultados:
Regression Analysis - Linear model: Y = a + b*X
-----------------------------------------------------------------------------
Dependent variable: y1
Independent variable: x1
-----------------------------------------------------------------------------
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
Intercept 3,00009 1,12475 2,66735 0,0257
Slope 0,500091 0,117906 4,24146 0,0022
-----------------------------------------------------------------------------
Analysis of Variance
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Model 27,51 1 27,51 17,99 0,0022
Residual 13,7627 9 1,52919
-----------------------------------------------------------------------------
Total (Corr.) 41,2727 10
Correlation Coefficient = 0,816421
R-squared = 66,6542 percent
Standard Error of Est. = 1,2366
(b) Para el conjunto de datos # 1, la siguiente tabla muestra los valores estimados de la respuesta,
y1hat, los residuos, e1, y los residuos tipicados, e1tip. Notese que estos ultimos son
distintos de los Studentized residuals que produce Statgraphics.
1
x1 y1 y1hat e1 e1tip
1 10 8.04 8.001 0.039 0.032
2 8 6.95 7.001 -0.051 -0.041
3 13 7.58 9.501 -1.921 -1.554
4 9 8.81 7.501 1.309 1.059
5 11 8.33 8.501 -0.171 -0.138
6 14 9.96 10.001 -0.041 -0.033
7 6 7.24 6.001 1.239 1.002
8 4 4.26 5.000 -0.740 -0.599
9 12 10.84 9.001 1.839 1.487
10 7 4.82 6.501 -1.681 -1.359
11 5 5.68 5.501 0.179 0.145
La Figura 1 muestra el graco de puntos (x
i
, y
i
) y la recta de regresion. Observamos que dicha
recta proporciona un ajuste razonable a los datos.
Plot of Fitted Model
x1
y
1
4 6 8 10 12 14
4,2
6,2
8,2
10,2
12,2
Figure 1: Conjunto de datos # 1: graco de puntos (x
i
, y
i
) y recta de regresion.
La Figura 2 muestra el graco de residuos tipicados vs. x, en el que no se observan pautas
claras.
Plot of e1tip vs x1
4 6 8 10 12 14
x1
-1,6
-0,6
0,4
1,4
2,4
e
1
t
i
p
Figure 2: Conjunto de datos # 1: residuos tipicados vs. x.
Aunque el n umero de observaciones es muy peque no, podemos producir el histograma de
frecuencias para los residuos tipicados, que se muestra en la Figura 3. Observamos que el
2
histograma es aproximadamente simetrico, y que decade hacia los lados, lo cual es consistente
con el supuesto de normalidad de los errores.
Histogram for e1tip
-1,8 -0,8 0,2 1,2 2,2
e1tip
0
1
2
3
4
5
f
r
e
q
u
e
n
c
y
Figure 3: Conjunto de datos # 1: histograma para los residuos tipicados.
La Figura 4 muestra el graco de probabilidad normal para los residuos tipicados. Observa-
mos que los puntos se ajustan bastante a la lnea recta mostrada, lo cual indica que no hay
evidencia signicativa para descartar el supuesto de normalidad.
Normal Probability Plot for e1tip
-1,6 -0,6 0,4 1,4 2,4
e1tip
0,1
1
5
20
50
80
95
99
99,9
p
e
r
c
e
n
t
a
g
e
Figure 4: Conjunto de datos # 1: graco de probabilidad normal.
(c) Para el conjunto de datos # 2, la siguiente tabla muestra los valores estimados de la respuesta,
y2hat, los residuos, e2, y los residuos tipicados, e2tip.
x2 y2 y2hat e2 e2tip
1 10.0 9.14 8.00 1.14 0.922
2 8.0 8.14 7.00 1.14 0.922
3 13.0 8.74 9.50 -0.76 -0.614
4 9.0 8.77 7.50 1.27 1.027
5 11.0 9.26 8.50 0.76 0.614
6 14.0 8.10 10.00 -1.90 -1.536
7 6.0 6.13 6.00 0.13 0.105
8 4.0 3.10 5.00 -1.90 -1.536
9 12.0 9.13 9.00 0.13 0.105
10 7.0 7.26 6.50 0.76 0.614
11 5.0 4.74 5.50 -0.76 -0.614
3
La Figura 5 muestra el graco de puntos (x
i
, y
i
) y la recta de regresion. Observamos que dicha
recta no proporciona un ajuste razonable a los datos, ya que estos describen una curva.
Plot of Fitted Model
x2
y
2
4 6 8 10 12 14
3,1
5,1
7,1
9,1
11,1
Figure 5: Conjunto de datos # 2: graco de puntos (x
i
, y
i
) y recta de regresion.
La Figura 6 muestra el graco de residuos tipicados vs. x, en el que se observa claramente
una pauta no lineal.
Plot of e2tip vs x2
4 6 8 10 12 14
x2
-1,6
-1,1
-0,6
-0,1
0,4
0,9
1,4
e
2
t
i
p
Figure 6: Conjunto de datos # 2: residuos tipicados vs. x.
Aunque el n umero de observaciones es muy peque no, podemos producir el histograma de
frecuencias para los residuos tipicados, que se muestra en la Figura 7. Observamos que el
histograma no es consistente con el supuesto de normalidad de los errores.
La Figura 8 muestra el graco de probabilidad normal para los residuos tipicados. Observa-
mos que casi todos los puntos se ajustan bastante a la lnea recta mostrada, algunos puntos a la
derecha se desvan signicativamente, lo cual nos lleva a cuestionar el supuesto de normalidad.
(d) Para el conjunto de datos # 3, la siguiente tabla muestra los valores estimados de la respuesta,
y3hat, los residuos, e3, y los residuos tipicados, e3tip.
4
Histogram for e2tip
e2tip
f
r
e
q
u
e
n
c
y
-1,7 -1,2 -0,7 -0,2 0,3 0,8 1,3
0
0,5
1
1,5
2
2,5
3
Figure 7: Conjunto de datos # 2: histograma para los residuos tipicados.
Normal Probability Plot for e2tip
-1,6 -1,1 -0,6 -0,1 0,4 0,9 1,4
e2tip
0,1
1
5
20
50
80
95
99
99,9
p
e
r
c
e
n
t
a
g
e
Figure 8: Conjunto de datos # 2: graco de probabilidad normal.
x3 y3 y3hat e3 e3tip
1 10.0 7.46 8.00 -0.54 -0.437
2 8.0 6.77 7.00 -0.23 -0.186
3 13.0 12.74 9.50 3.24 2.619
4 9.0 7.11 7.50 -0.39 -0.315
5 11.0 7.81 8.50 -0.69 -0.558
6 14.0 8.84 10.00 -1.16 -0.938
7 6.0 6.08 6.00 0.08 0.065
8 4.0 5.39 5.00 0.39 0.315
9 12.0 8.15 9.00 -0.85 -0.687
10 7.0 6.42 6.50 -0.08 -0.065
11 5.0 5.73 5.50 0.23 0.186
La Figura 9 muestra el graco de puntos (x
i
, y
i
) y la recta de regresion. Observamos que dicha
recta no proporciona un ajuste razonable a los datos, ya que todos los puntos menos uno estan
perfectamente alineados.
La Figura 10 muestra el graco de residuos tipicados vs. x, en el que se observa claramente
una pauta: los residuos tipicados de los puntos alineados decrecen linealmente seg un x crece,
y el residuo tipicado del dato atpico se observa arriba a la derecha.
Aunque el n umero de observaciones es muy peque no, podemos producir el histograma de
frecuencias para los residuos tipicados, que se muestra en la Figura 11. Observamos que el
5
Plot of Fitted Model
x3
y
3
4 6 8 10 12 14
5,3
7,3
9,3
11,3
13,3
Figure 9: Conjunto de datos # 3: graco de puntos (x
i
, y
i
) y recta de regresion.
Plot of e3tip vs x3
4 6 8 10 12 14
x3
-1
0
1
2
3
e
3
t
i
p
Figure 10: Conjunto de datos # 3: residuos tipicados vs. x.
histograma no es consistente con el supuesto de normalidad de los errores.
Histogram for e3tip
e3tip
f
r
e
q
u
e
n
c
y
-1,2 -0,2 0,8 1,8 2,8
0
1
2
3
4
5
Figure 11: Conjunto de datos # 3: histograma para los residuos tipicados.
6
La Figura 12 muestra el graco de probabilidad normal para los residuos tipicados. Ob-
servamos que casi todos los puntos se ajustan bastante a la lnea recta mostrada, el punto
atpico a la derecha se desva signicativamente, lo cual nos lleva a cuestionar el supuesto de
normalidad.
Normal Probability Plot for e3tip
-1 0 1 2 3
e3tip
0,1
1
5
20
50
80
95
99
99,9
p
e
r
c
e
n
t
a
g
e
Figure 12: Conjunto de datos # 3: graco de probabilidad normal.
(e) Tras eliminar el dato atpico y resolver el modelo de regresion lineal, obtenemos los siguientes
resultados, que indican que los datos restantes estan perfectamente alineados (observese el
impacto de los errores de redondeo en estos resultados).
Regression Analysis - Linear model: Y = a + b*X
-----------------------------------------------------------------------------
Dependent variable: y3
Independent variable: x3
-----------------------------------------------------------------------------
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
Intercept 4,00565 0,00292424 1369,81 0,0000
Slope 0,34539 0,000320591 1077,35 0,0000
-----------------------------------------------------------------------------
Analysis of Variance
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Model 11,0228 1 11,0228 1160687,63 0,0000
Residual 0,000075974 80,00000949675
-----------------------------------------------------------------------------
Total (Corr.) 11,0228 9
Correlation Coefficient = 0,999997
R-squared = 99,9993 percent
Standard Error of Est. = 0,00308168
2. A partir de una muestra de 30 observaciones, se estimo el modelo de regresion lineal simple y
i
=

0
+

1
x
i
, con

0
= 10.1 y

1
= 8.4. La variacion cuadratica de la respuesta debida al modelo es

i
( y
i
y)
2
= 128, mientras que la variacion cuadratica residual de la respuesta es

i
e
2
i
= 286.
(a) Calcula e interpreta el coeciente de determinacion.
(b) Que puedes decir sobre el coeciente de correlacion entre las x
i
y las y
i
?
(c) Construye la tabla ANOVA correspondiente a partir de estos datos.
7
(d) Contrasta a un nivel de signicacion del 5% la hipotesis de que la respuesta y no depende de
x. Repite el contraste a un nivel de signicacion del 1%.
(e) Da un estimador insesgado de la varianza del error.
Solucion.
(a) Nos indican que SCM = 128 y SCR = 286. Por la descomposicion ANOVA, tenemos que
la variacion cuadratica total de la respuesta toma el valor SCT = SCM + SCR = 414. Por
lo tanto, el coeciente de determinacion vale R
2
= SCM/SCT = 0.3092, lo cual indica que
el modelo de regresion explica solo un 30.92% de la variacion en la respuesta a partir de la
variable explicativa.
(b) Si r es el coeciente de correlacion entre las x
i
y las y
i
, sabemos que R
2
= r
2
, y por lo tanto
|r| = R =

R
2
=

0.3092 = 0.5560. Por otra parte, el signo de r es el mismo que el signo de

1
= 8.4. As, obtenemos que r = 0.5560.
(c) A partir de los datos dados, y teniendo en cuenta que n = 30, obtenemos la siguiente tabla
ANOVA:
Fuente de variacion SC G.L. Media Cociente F
Modelo 128 1 128 12.54
Residuos/Errores 286 28 10.21
Total 414 29
(d) Aplicamos el contraste de hipotesis para H
0
:
1
= 0 vs. H
0
:
1
= 0 basado en la tabla ANOVA.
Rechazaramos H
0
a nivel si F > F
1,28;
. Como F
1,28;0.05
= 4.20 y F
1,28;0.01
= 7.64,
rechazamos H
0
al nivel = 0.05 y tambien al nivel = 0.01.
(e) A partir de la tabla ANOVA obtenemos s
2
R
= 10.21.
3. El gestor de un concesionario de automoviles esta interesado en la relacion entre el n umero de
vendedores que trabajan en n de semana y el n umero de coches vendidos. Se obtuvieron los
siguientes datos para seis nes de semana consecutivos:
x
i
(# de vendedores) y
i
(# de coches vendidos)
1 5 22
2 7 20
3 4 15
4 2 9
5 4 17
6 8 25
(a) Determina la recta de regresion de y (# de coches vendidos) sobre x (# de vendedores).
(b) Construye la tabla ANOVA y comprueba la validez de la descomposicion ANOVA SCT =
SCM + SCR.
(c) Calcula e interpreta el coeciente de determinacion.
(d) Utiliza la tabla ANOVA para contrastar, al 1% y al 5% de signicacion, la hipotesis de que el
n umero de vendedores no inuye en las ventas.
(e) Realiza los contrastes del apartado (d) mediante el metodo visto en el Tema 4. Comprueba
que el estadstico T de tal contraste y el estadstico F del contraste del apartado (d) cumplen
la relacion F = T
2
.
Solucion.
(a) Los coecientes estimados de la recta de regresion son

1
=
cov(x, y)
s
2
x
=
11.2
4.8
= 2.33,

0
= y

1
x = 18 2.33 5 = 6.33.
Obtenemos la recta de regresion estimada y = 6.33 + 2.33x.
(b) A partir de los datos y la recta de regresion estimada construimos la siguiente tabla:
8
x
i
y
i
(y
i
y)
2
y
i
( y
i
y)
2
e
i
= y
i
y
i
e
2
i
1 5 22 16 18.00 0.00 4.00 16.00
2 7 20 4 22.67 21.78 2.67 7.11
3 4 15 9 15.67 5.44 0.67 0.44
4 2 9 81 11.00 49.00 2.00 4.00
5 4 17 1 15.67 5.44 1.33 1.78
6 8 25 49 25.00 49.00 0.00 0.00
Calculamos a continuacion
SCT =

i
(y
i
y)
2
= 160.00, SCM =

i
( y
i
y)
2
= 130.67, SCR =

i
e
2
i
= 29.33.
Vemos que se cumple la descomposicion ANOVA: 160.00 = 130.67 + 29.33.
Construimos la tabla ANOVA:
Fuente de variacion SC G.L. Media Cociente F
Modelo 130.67 1 130.67 17.82
Residuos/Errores 29.33 4 7.33
Total 160.00 5
(c) El coeciente de determinacion toma el valor R
2
= SCM/SCT = 130.67/160.00 = 0.8167, lo
cual indica que el 81.67% de la variacion de las ventas de coches en n de semana se explica
por el n umero de vendedores.
(d) Se trata de contrastar la hipotesis H
0
:
1
= 0 vs. H
1
:
1
= 0. El contraste basado en la tabla
ANOVA rechaza H
0
si F > F
1,4;
. Como F = 17.82, F
1,4;0.05
= 7.71, y F
1,4;0.01
= 21.20,
rechazaremos H
0
al 5% de signicacion, pero mantendremos H
0
al 1% de signicacion.
(e) Calculamos el estadstico T para el contraste H
0
:
1
= 0 vs. H
1
:
1
= 0:
T =

s
2
R
(n 1)s
2
x
=
2.33
_
7.33
5 4.8
= 4.2212.
El contraste basado en el estadstico T rechaza H
0
si |T| > t
4;/2
. Como t
4;0.025
= 2, 776 y
t
4;0.005
= 4, 604, rechazaremos H
0
al 5% de signicacion, pero mantendremos H
0
al 1% de
signicacion. Observamos que T
2
= 17.82 = F.
4. Linealiza las siguientes relaciones no lineales, aplicando las transformaciones vistas en clase:
(a) y = ln(5

x).
(b) y =
2
3
8
x
.
(c) y = 1/(4 x).
(d) y =
5
4

x.
Solucion.
(a) Como y = ln(5

x) = ln5 + ln

x = ln5 + (1/2) lnx, hacemos la transformacion x

= lnx.
(b) Como log y = log(
2
3
8
x
) = log(2/3) + log(8
x
) = log(2/3) + log(8) x, hacemos la transformacion
y

= log y.
(c) Como 1/y = 4 x, hacemos la transformacion y

= 1/y.
(d) Como log y = log(
5
4

x) = log(5/4) + log(

x) = log(5/4) + (1/2) log x, hacemos las transfor-


maciones y

= log y, x

= log x.
5. Supongamos que se han obtenido las siguientes observaciones para una variable respuesta y en
funcion de la variable explicativa x:
9
x
i
y
i
1 5.47
2 7.54
3 9.13
4 10.47
5 11.65
6 12.72
(a) Dibuja el graco de puntos (x
i
, y
i
). Parece adecuada una recta para describir la relacion entre
los datos?
(b) Suponiendo que el modelo correcto sea de la forma y = ax
b
u, lleva a cabo las transformaciones
adecuadas de las variables x e y, y estima los parametros a y b a partir de una regresion lineal
en las variables transformadas.
(c) Construye la tabla ANOVA para las variables transformadas, y calcula e interpreta el coe-
ciente de determinacion.
Solucion.
(a) La Figura 13 muestra el graco de puntos (x
i
, y
i
), que presenta claramente una forma no lineal.
1 2 3 4 5 6
5
6
7
8
9
10
11
12
13
x
y
Figure 13: Graco de puntos (x
i
, y
i
) del conjunto de datos del ejercicio # 5.
(b) Si y = ax
b
, tenemos que log y = log a + b log x, por lo que trabajaremos con las variables
transformadas y

= log y, x

= log x. Tomaremos logaritmos en base 10 (aunque podramos


hacerlo en cualquier otra base). Obtenemos la tabla de variables transformadas:
x

i
y

i
0.00 0.738
0.301 0.877
0.477 0.961
0.602 1.020
0.699 1.066
0.778 1.105
Los parametros estimados de la recta de regresion lineal de y

sobre x

son:

1
=
cov(x

, y

)
s
2
x

=
0.039
0.0828
= 0.471,

0
= y

1
x

= 0.9611 0.471 0.4762 = 0.7368.


La recta de regresion estimada es y

= 0.7368 + 0.471x

. Las estimaciones de los parametros


originales a y b son:

b =

1
= 0.471, y
log a =

0
= a = 10

0
= 10
0.7368
= 5.4551.
10
(c) A partir de los datos y la recta de regresion estimada construimos la siguiente tabla:
x

i
y

i
(y

i
y

)
2
y

i
( y
i
y

)
2
e

i
= y

i
y

i
(e

i
)
2
1 0.00 0.738 0.050 0.7368 0.0503 0.0012 0.1410 10
5
2 0.301 0.877 0.007 0.8786 0.0068 0.0012 0.1484 10
5
3 0.477 0.961 0.000 0.9615 0.0000 0.0011 0.1124 10
5
4 0.602 1.020 0.003 1.0204 0.0035 0.0004 0.0187 10
5
5 0.699 1.066 0.011 1.0660 0.0110 0.0003 0.0091 10
5
6 0.778 1.105 0.021 1.1033 0.0202 0.0012 0.1361 10
5
Construimos la tabla ANOVA:
Fuente de variacion SC G.L. Media Cociente F
Modelo 0.0919 1 130.67 64969
Residuos/Errores 5.6561 10
6
4 1.4140 10
6
Total 0.0919 5
Comprobamos que el coeciente de determinacion vale R
2
1, lo cual indica que el ajuste
lineal es casi perfecto.
6. Para el conjunto de datos # 1 de los considerados en el ejercicio 1, calcula los estimadores de
mnimos cuadrados de los coecientes de regresion lineal empleando la formulacion matricial.
Solucion.
Las matrices X e y son
X =
_

_
1 10
1 8
1 13
1 9
1 11
1 14
1 6
1 4
1 12
1 7
1 5
_

_
, y =
_

_
8.04
6.95
7.58
8.81
8.33
9.96
7.24
4.26
10.84
4.82
5.68
_

_
.
A partir de X e y obtenemos
X

X =
_
11 99
99 1001
_
, X

y =
_
82.51
797.6
_
,
por lo que tenemos que resolver la ecuacion matricial 2 2
_
11 99
99 1001
_ _

1
_
=
_
82.51
797.6
_
=
_

1
_
=
_
91
110

9
110

9
110
1
110
_ _
82.51
797.6
_
=
_
3
0.5
_
.
7. Un analisis de regresion lineal m ultiple a partir de n = 34 observaciones proporciona el modelo
estimado y = 2.50 +6.8x
1
+6.9x
2
7.2x
3
. Los errores estandar de los coecientes estimados de las
variables explicativas son s(

1
) = 3.1, s(

2
) =3.7 y s(

3
) = 3.2. El coeciente de determinacion
obtenido es R
2
= 0.85.
(a) Calcula intervalos de conanza al 95% para los coecientes de las variables explicativas.
(b) Para cada variable explicativa, contrasta al 5% de signicacion la hipotesis de que la respuesta
no depende de dicha variable.
(c) Para cada variable explicativa, existe evidencia signicativa al 1% de que el coeciente cor-
respondiente es positivo?
Solucion.
(a) El intervalo de conanza a nivel 1 para
j
esta dado por

j
t
nk1,/2
s(

j
). A partir
de los datos dados, como n k 1 = 34 3 1 = 30, obtenemos los siguientes intervalo de
conanza al 95%:
11
Para
1
:

1
t
30;0.025
s(

1
), i.e., 6.8 2.042 3.1, i.e., de 0.47 a 13.13.
Para
2
:

2
t
30;0.025
s(

2
), i.e., 6.9 2.042 3.7, i.e., de 0.66 a 14.46.
Para
3
:

3
t
30;0.025
s(

3
), i.e., 7.2 2.042 3.2, i.e., de 13.74 a 0.66.
(b) Rechazaremos a nivel la hipotesis nula H
0
:
j
= 0 (vs. H
1
:
j
= 0) si |T| > t
nk1;/2
,
donde T =

j
/s(

j
). Este contraste es equivalente a rechazar H
0
si

j
queda fuera del intervalo
de conanza correspondiente, por lo que podemos responder a partir de los resultados del
apartado (a). Rechazamos la hipotesis nula para
1
y
3
pero no tenemos suciente evidencia
para rechazarla para
2
.
(c) Rechazaremos a nivel la hipotesis nula H
0
:
j
0 (vs. H
1
:
j
> 0) si T > t
nk1;
, donde
T =

j
/s(

j
). Como t
nk1;
= t
30;0.01
= 2.457, obtenemos los siguientes resultados:
Para
1
: T = 6.8/3.1 = 2.19 < 2.457 = mantenemos H
0
.
Para
2
: T = 6.9/3.7 = 1.86 < 2.457 = mantenemos H
0
.
Para
3
: T = 7.2/3.2 = 2.25 < 2.457 = mantenemos H
0
.
8. Supongamos que has estimado los coecientes de un modelo de regresion lineal m ultiple y
i
=

0
+
1
x
1
+ +
k
x
k
+ u
i
. Contrasta al 5% de signicacion la hipotesis de que la respuesta no
depende de las variables explicativas a partir de las siguientes tablas ANOVA parciales:
(a)
Fuente de variacion SC G.L. Media Cociente F
Modelo 4500 3
Residuos/Errores 500 26
Total
(b)
Fuente de variacion SC G.L. Media Cociente F
Modelo 9780 6
Residuos/Errores 2100 32
Total
(c)
Fuente de variacion SC G.L. Media Cociente F
Modelo 460000 8
Residuos/Errores 25000 27
Total
Solucion.
(a) Completamos la tabla ANOVA:
Fuente de variacion SC G.L. Media Cociente F
Modelo 4500 3 1500 78
Residuos/Errores 500 26 19.23
Total 5000 29
Como F = 78 > F
3,26;0.05
= 2.98, rechazamos H
0
:
1
= =
k
= 0 (vs. H
1
:
j
=
0 para alg un j.
(b) Completamos la tabla ANOVA:
Fuente de variacion SC G.L. Media Cociente F
Modelo 9780 6 1630 24.06
Residuos/Errores 2100 32 67.74
Total 11880 37
Como F = 24.06 > F
6,32;0.05
= 2.40, rechazamos H
0
:
1
= =
k
= 0 (vs. H
1
:
j
=
0 para alg un j.
(c) Completamos la tabla ANOVA:
12
Fuente de variacion SC G.L. Media Cociente F
Modelo 46000 8 5750 2.07
Residuos/Errores 75000 27 2777.78
Total
Como F = 2.07 < F
8,27;0.05
= 2.31, mantenemos H
0
:
1
= =
k
= 0 (vs. H
1
:
j
=
0 para alg un j.
9. Tenemos los siguientes datos de 10 viviendas unifamiliares, para las que se ha registrado el precio
(en Me), la supercie (en m
2
), la supercie del terreno (en Has.), y el n umero de cuartos de ba no:
precio (Me) supercie (m
2
) superf. terreno (Has.) # ba nos
170 120.90 0.10 1
177 134.85 0.12 1.5
191 148.80 0.12 2
194 172.05 0.18 2
202 195.30 0.16 2
210 186.00 0.16 2.5
214 195.30 0.20 2
228 223.20 0.20 2.5
240 251.10 0.20 2.5
252 241.80 0.28 3
Mas abajo se dan los resultados (obtenidos con Statgraphics) de un analisis de regresion lineal
m ultiple de y (precio) sobre x
1
(supercie), x
2
(supercie del terreno), y x
3
(# de ba nos).
(a) Calcula intervalos de conanza al 95% para los coecientes del modelo de regresion y =
0
+

1
x
1
+
2
x
2
+
3
x
3
+u.
(b) Contrasta al 5% y al 10% de signicacion la hipotesis de que la respuesta no depende de la
variable x
j
, para j = 1, 2, 3.
(c) Calcula e interpreta el coeciente de determinacion m ultiple. Estima la desviacion tpica del
error.
Multiple Regression Analysis
-----------------------------------------------------------------------------
Dependent variable: precio
-----------------------------------------------------------------------------
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
CONSTANT 100,985 7,86246 12,844 0,0000
superfi 0,354243 0,0975193 3,63255 0,0109
superfTerreno 109,115 73,4594 1,48537 0,1880
WCs 10,3945 6,86311 1,51454 0,1807
-----------------------------------------------------------------------------
Analysis of Variance
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Model 6158,96 3 2052,99 73,92 0,0000
Residual 166,635 6 27,7726
-----------------------------------------------------------------------------
Total (Corr.) 6325,6 9
Solucion.
(a) Para
0
:

0
t
6;0.025
s(

0
): 100.985 2.447 7.86: de 81.75 a 120.22.
Para
1
:

1
t
6;0.025
s(

1
): 0.354243 2.447 0.0975193: de 0.1156 a 0.5929.
Para
2
:

2
t
6;0.025
s(

2
): 109.115 2.447 73.4594: de 70.64 a 288.87.
13
Para
3
:

3
t
6;0.025
s(

3
): 10.3945 2.447 6.86311: de 6.400 a 27.189.
(b) Para = 0.05, los intervalos de conanza calculados en el apartado (a) nos dan la respuesta
al contraste: rechazamos H
0
:
j
= 0 para la variable x
1
, y la mantenemos para x
2
y x
3
. Para
= 0.10, realizaremos los contrastes a partir del estadstico del contraste bilateral H
0
:
j
= 0
vs. H
0
:
j
= 0, T =

j
/s(

j
):
Para
1
, |T| = |

1
/s(

1
)| = |3.6325| > t
6;0.05
= 1.943 = rechazamos H
0
:
1
= 0.
Para
2
, |T| = |

2
/s(

2
)| = |1.4854| < t
6;0.05
= 1.943 = mantenemos H
0
:
2
= 0.
Para
3
, |T| = |

3
/s(

3
)| = |1.5145| < t
6;0.05
= 1.943 = mantenemos H
0
:
3
= 0.
(c) A partir de la tabla ANOVA obtenemos R
2
= 6158.96/6325.6 = 0.9737, es decir, el modelo de
regresion explica el 97.37% de la variacion del precio de la vivienda. Tambien observamos que
la cuasi-varianza residual es s
2
R
= 27.7726, por lo que s
R
= 5.27.
10. En el modelo de regresion lineal m ultiple y
i
= b
0
+ b
1
x
1i
+ b
2
x
2i
+ u
i
, donde se supone que se
cumplen las hipotesis habituales, se tiene una muestra aleatoria simple de tama no 4. Los datos, en
la forma (y
i
, x
1i
, x
2i
) son (y
1
, 1, 2), (2, 2, 3), (y
3
, 3, 5) y (y
4
, 1, 3), es decir, no conocemos la variable
y para los individuos 1, 3 y 4. Se sabe que los estimadores de mnimos cuadrados de los parametros
del modelo son

b
0
= 1.7,

b
1
= 0.3 y

b
2
= 0.1 y tambien se sabe que
(X

X)
1
=
_
_
2.9 0.9 1.3
0.9 1.9 1.3
1.3 1.3 1.1
_
_
.
Se pide:
(a) Calcular los valores desconocidos y
1
, y
3
, y
4
.
(b) Estimar las varianzas de los estimadores de los parametros Var(

b
i
), para i {1, 2, 3}.
(c) Construir la tabla de analisis de la varianza y contrastar al 95 por ciento la hipotesis de la
validez del modelo, es decir, H
0
: b
1
= b
2
= 0.
(d) Dado un modelo de regresion lineal simple y
i
= b
0
+b
1
x
i
+u
i
, donde se supone que se cumplen
las hipotesis habituales, supongamos que tenemos una muestra aleatoria simple de tama no n,
dada por los pares (y
1
, x
1
), , (y
n
, x
n
). Podemos expresar la varianza de

b
1
de dos formas,
la primera es Var(

b
1
) =

2
nS
2
x
, donde S
2
x
= (1/n)

n
i=1
(x
i
x)
2
, y la segunda es, utilizando el
modelo en notacion matricial, el elemento correspondiente de
2
(X

X)
1
. Se pide demostrar
que las dos formas dan el mismo resultado.
Solucion.
(a) De las ecuaciones normales (o bien despejando en

b = (X

X)
1
X

Y ), tenemos (X

X)

b = X

Y ,
es decir
_
_
4 7 13
7 15 26
13 26 47
_
_
_
_
1.7
0.3
0.1
_
_
=
_
_
1 1 1 1
1 2 3 1
2 3 5 3
_
_
_
_
_
_
y
1
2
y
3
y
4
_
_
_
_
esto nos lleva inmediatamente al sistema de ecuaciones lineales
4 = y
1
+y
3
+y
4
,
6 = y
1
+ 3y
3
+y
4
,
13 = 2y
1
+ 5y
3
+ 3y
4
,
cuya solucion es y
1
= 1, y
3
= 1, y
4
= 2.
(b)
2
=
P
e
2
i
43
= 0.9, pues y
1
= 1.6, y
2
= 1.4, y
3
= 1.3, y
4
= 1.7. Por tanto

Cov(

b) = 0.9
_
_
2.9 0.9 1.3
0.9 1.9 1.3
1.3 1.3 1.1
_
_
,
de donde s(

b
0
) = 2.61, s(

b
1
) = 1.71, s(

b
2
) = 0.99.
14
(c) SCT = 1, SCM = 0.1, SCR = 0.9, los cuadrados medios del modelo y residuales son, re-
spectivamente 0.05 y 0.9, de donde el estadstico F vale 0.05556, el cual, comparado con
F
2,1;0.05
= 199 no nos permite dar el modelo por valido.
(d) Basta demostrar que el elemento (2, 2) de (X

X)
1
es
1
nS
2
x
, pero
X =
_
_
_
_
1 x
1
1 x
2

1 x
n
_
_
_
_
,
por tanto
X

X =
_
n

x
i

x
i

x
2
i
_
,
luego
(X

X)
1
=
1
n

x
2
i
n
2
x
2
_
x
2
i

x
i

x
i
n
_
,
y su elemento (2, 2) es
n
n

x
2
i
n
2
x
2
=
1

(x
i
x)
2
=
1
nS
2
x
,
como queramos demostrar.
11. La Consejera de Turismo de la Comunidad de Madrid ha realizado un estudio entre poblaciones
de menos de 10000 habitantes para estudiar los gastos anuales en promocion turstica con respecto
al gasto en educacion y al gasto en infraestructuras. Se seleccionaron 20 poblaciones en las que se
midieron las siguientes variables:
y = gasto anual en promocion turstica (en millones de euros).
x
1
= gasto anual en educacion (en millones de euros).
x
2
= gasto anual en infraestructuras (en millones de euros).
De dicho estudio se conocen los siguientes datos:
(X
T
X)
1
=
_
_
52.63 18.22 17.70
6.49 6.01
6.04
_
_
, X
T
Y =
_
_
11.34
13.97
19.32
_
_
.
Sabemos tambien que la variabilidad no explicada toma un valor de
SCR =
20

i=1
(y
i
y
i
)
2
= 0.034
y la variabilidad total de
SCT =
20

i=1
(y
i
y)
2
= 0.1
Se considera el modelo de regresion lineal multiple:
y
i
=
0
+
1
x
i1
+
2
x
i2
+u
i
i = 1 . . . , 20,
para el que se pide que:
(a) Estimes e interpretes los coecientes del modelo de regresion.
(b) Construyas la tabla ANOVA de la regresion y realices el contraste de signicacion general para
el modelo de regresion.
(c) Realices los contrastes de signicacion individual de los parametros del modelo especicando
en cada caso las hipotesis nula y altenativa. Que observas respecto a la signicacion de los
parametros en comparacion al resultado obtenido en el apartado anterior?
15
(d) Calcules la prediccion para el gasto anual en promocion turstica de una poblacion que tiene
un gasto anual en educacion de 1.3 (millones de euros) y un gasto en infraestructuras de 1.2
(millones de euros).
Solucion.
(a) Para estimar los parametros del modelo usamos las matrices (X
T
X)
1
y X
T
Y .

= (X
T
X)
1
X
T
Y =
_
_
0.3268
0.1637
0.0655
_
_
=
_
_

2
_
_
La interpretacion de los coecientes es la siguiente:

0
= 0.3268 se interpreta como el gasto medio en promocion turstica de poblaciones cuyo
gasto en infraestructuras y en educacion es 0.

1
= 0.1637 indica que si se incrementa en gasto en educacion en un millon de euros el
gasto de una poblacion aumenta en 0.1637 millones de euros, si se mantiene constante el
gasto en infraestructuras.

2
= 0.0655 indica que si se incrementa en gasto en infraestructuras en un millon de
euros el gasto de una poblacion disminuye en 0.0655 millones de euros, si se mantiene
constante el gasto en educacion.
(b) Completamos la tabla ANOVA:
F.V S.C G.L Media Cociente F
Explicada 0.066 2 0.033 16.5
No explicada 0.034 17 0.002
Total 0.1 19 0.005
En el contraste de signicacion global para la regresion las hipotesis son:
H
0
:
1
=
2
= 0
H
1
: alguna
i
= 0
Para llevar a cabo el contraste comparamos el valor de la F = 16.5 con el cuantil de una
F
k,n(k+1);
= F
2.17;0.05
= 3.59. Como 16.5 > 3.59 debemos rechazar la hipotesis nula por lo
que las variables son, en conjunto, signicativas.
(c) Sabemos por la tabla ANOVA que S
2
R
= 0.002. La matriz de varianzas-covarianzas de los
estimadores de los parametros del modelo es:
S
2
R
(X
T
X)
1
= 0.002
_
_
52.63 18.22 17.70
6.49 6.01
6.04
_
_
=
_
_
0.1052 0.0364 0.0354
0.0129 0.0120
0.0120
_
_
Los contrastes pedidos se basan en que:

i
0
s(

i
)
t
n(k+1)
Para todos ellos t
n(k+1);/2
= t
17;0,025
=2.11. Entonces:
H
0
:
0
= 0, H
1
:
0
= 0. Tenemos que

0
s(

0
)

0.3268
0.1052

= 1.01 < 2.11


y por tanto no rechazamos H
0
. El parametro
0
podra valer cero.
H
0
:
1
= 0, H
1
:
1
= 0. Tenemos que

1
s(

1
)

0.1637
0.0129

= 1.44 < 2.11


y por tanto no rechazamos H
0
. El parametro
1
podra valer cero.
16
H
0
:
2
= 0, H
1
:
2
= 0. Tenemos que

2
s(

2
)

0.0655
0.0120

= 0.60 < 2.11


y por tanto no rechazamos H
0
. El parametro
2
podra valer cero.
Observamos que los parametros no son signicativos mientras que el contraste general de la
regresion si lo es. Esto podra deberse a que no se cumple alguna de las hipotesis del modelo
de regresion. En concreto podra darse por un problema de multicolinealidad en el modelo
estimado.
(d) Para calcular la prediccion reemplazamos los valores dados en la recta de regresion o calculamos
x
T
, donde
x =
_
_
1
1.3
1.2
_
_
La prediccion es
y
h
= x
T
= (1 1.3 1.2)
_
_
11.34
13.97
19.32
_
_
= 0.46
12. Te dan una muestra de 20 observaciones {x, z, y} de valores de tres variables, X, Y y Z. Para esta
muestra se cumple que
20

i=1
y
2
i
= 10.08, y = 0.488
Has calculado las estimaciones de mnimos cuadrados de los coecientes del modelo de regresion
lineal m ultiple y =
0
+
1
x +
2
z +u. Los valores obtenidos son:

0
= 0.065,

1
= 0.358,

2
= 0.104, s(

1
) = 0.152, s(

2
) = 0.028,
20

i=1
e
2
i
= 2.878
Si aceptamos que se cumplen las hip otesis del modelo de regresion lineal, contesta a las preguntas
siguientes:
(a) Completa la tabla ANOVA para este modelo de regresion.
(b) Calcula el coeciente de determinacion m ultiple para este model y comenta el signicado del
mismo.
(c) Contrasta si el modelo de regresion lineal m ultiple es globalmente signicativo, para un nivel
de signicacion del 1%.
(d) Contrasta si tienes suciente evidencia para concluir que un incremento en los valores de la
variable X implica un decrecimiento en los valores de la variable Y (si se mantiene constante
Z), para un nivel de signicacion del 5%.
Solucion.
(a) Para completar la tabla ANOVA comenzamos con los valores de las sumas de cuadrados:
SCR =
20

i=1
e
2
i
= 2.878, SCT =
20

i=1
(y
i
y)
2
=
20

i=1
y
2
i
n y
2
= 10.08 20 0.488
2
= 5.317
De estos valores obtenemos SCE = SCT SCR = 2.439. Tenemos tambien n = 20 y k = 2,
por lo que
Variabilidad SC GL Promedio Cociente F
Modelo 2.439 2 1.220 7.203
Residuos 2.878 17 0.169
Total 5.317 19
17
(b) El coeciente de determinacion m ultiple viene dado por
R
2
=
ESS
TSS
=
2.439
5.317
= 0.459
Este valor es bastante bajo, lo que implica una relacion lineal debil entre las variables del
modelo. Las variables X y Z tan solo explican 46% de la variacion en la variable independiente
Y .
(c) Para contrastar la signicacion global del modelo llevamos a cabo el siguiente contraste:
H
0
:
1
=
2
= 0
H
1
:
1
= 0 or
2
= 0
El estadstico del contraste es el cociente F, que toma en este case el valor F = 7.203 (de la
tabla ANOVA). La region crtica es la dada por
R = {F > F
2,17;0.01
} = {F > 6.11}
Como el valor del estadstico esta en la region crtica, rechazamos la hipotesis nula y concluimos
que disponemos de evidencia suciente para creer que el modelo es signicativo, a un nivel de
signicacion del 1%.
(d) Nos piden que contrastemos ahora si el coeciente de la variable x tiene un signo negativo en
este modelo. El contraste que debemos llevar a cabo es
H
0
:
1
0
H
1
:
1
< 0
El estadstico bajo la hipotesis nula es
T =

1
s(

1
)
y su valor para esta muestra es T = 0.358/0.152 = 2.355. La region crtica del contraste es
R = {T < t
17;0.95
} = {T < 1.740}
El valor obtenido esta en la regi on crtica, y por tanto podemos concluir que cambios positivos
en el valor de X implican cambios negativos en el valor de Y para un nivel de signicacion del
5%.
18

Potrebbero piacerti anche