Sei sulla pagina 1di 13

Universidad Nacional de Colombia

Facultad de Ciencias
Departamento de Estadistica
Pregrado en Estadistica
Analisis de Regresion
Bogota, febrero de 2017

Regresion Lineal Simple : Taller 1

Alejandro Ba , Javier Alejandro Jimenez Canizaresb


, Sebastian Mc , jonathan Felipe Sanchez Montenegrod

Ejercicios Capitulo 2

2.3
a-)

Y : Flujo total de calor


X4 :Deflexin radial de los rayos desviados

Luego el modelo de regresion lineal simple , que relaciona el flujo total de calor,y,con deflexin radial de los rayos
desviados es:

Y = 607.1 21.4x4 (1)


a Cdigo:. E-mail: @unal.edu.co
b Cdigo: 25141145. E-mail: javajimenezcan@unal.edu.co
c Cdigo:25141146. E-mail: jamoralesh@unal.edu.co
d Cdigo: 25141135. E-mail: jfsanchezm@unal.edu.co

1
Regresion Lineal Simple : Taller 1 2

b-)

Df Sum Sq Mean Sq F value Pr(>F)


datos$X4 1 10578.68 10578.68 69.61 0.0000
Residuals 27 4103.24 151.97

La hiptesis planteada es la siguiente:

H0 : 1 = 0 vs 1 6= 0

Luego como el p-valor=0,es menor que cualquier alfa que podamos elegir se rechaza la hipotesis nula; podemos decir
entonces que el modelo lineal puede ser adecuado para explicar la variabilidad de y.

c-)
El intervalo de confianza para la pendiente esta dado por:

1 t 2 , n 2 se(1 ) < 1 < 1 + t 2 , n 2 se(1 )

Donde :
1 =-21.4
t 2 , n 2 = 2.771
se(1 ) =2.565

Por lo tanto tenemos:

21.4 2.771 2.565 < 1 < 21.4 + 2.771 2.565

Luego el intervalo de confianza para la pendiente es:

28.51 < 1 < 14.29

d-)
El porcentaje de la variabilidad que se explica con el modelo lineal propuesto esta dado por:

R2 = 0.7205

Luego podemos decir que el modelo propuesto explica un 72.05 % de la variabilidad del flujo total de calor.

e-)
Teniendo en cuenta el problema planteado donde la deflexin radial de los rayos desviadso por el contrario se
limitan a 16.5:

El intervalo de confianza para la cantidad de flujo total de calor, teniendo en cuenta la condicion propuesta esta
dado por :

r r
1 (x0 x)2 1 (x0 x)2
y0 t 2 , n 2 M SRes ( + ) < y0 < y0 + t 2 , n 2 M SRes ( + )
n Sxx n Sxx

Analisis de Regresion (2017)


Regresion Lineal Simple : Taller 1 3

Teniendo en cuenta el codigo en R , para reducir calculos:

x_1<-data.frame(x=2000)
ic<-predict(modelo,x_1,interval = "confidence")

Luego el intervalo de confianza para la cantidad de juegos ganados es:

249.15 < y0 < 258.78

2.4
Los datos son:

automovil V2 V3
1 apollo 350 18.9
2 omega 350 17
3 nova 250 20
4 monarch 351 18.25
5 duster 225 20.07
6 jenson conv. 440 11.2
7 skyhawk 231 22.12
8 monza 262 21.47
9 scirocco 89.7 34.7
10 corolla SR-5 96.9 30.4
11 camaro 350 16.5
12 datsum B210 85.3 36.5
13 capri II 171 21.5
14 pacer 258 19.7
15 babcat 140 20.3
16 granada 302 17.8
17 eldorado 500 14.39
18 imperial 440 14.89
19 nova ln 350 17.8
20 valiant 318 16.41
21 starfire 231 23.54
22 cordoba 360 21.47
23 trans AM 400 16.59
24 corola E-5 96.9 31.9
25 astre 140 29.4
26 mark IV 460 13.27
27 celica GT 133.6 23.9
28 charger SE 318 19.73
29 cougar 351 13.9
30 elite 351 13.27
31 matador 360 13.77
32 corvette 350 16.5

Analisis de Regresion (2017)


Regresion Lineal Simple : Taller 1 4

a-) Modelo ajustado Yb = 33.72744 0.04743X

* Se puede decir que por cada unidad, en este caso in3 (x1) que se incremente el cilindraje las millas por galon
(y) disminuiran en 0.047 unidades.

b-)

Generador Df Sum Sq Mean Sq F value Pr(>F)


x1 1 955.34 955.34 101.56 0.0000
Residuals 30 282.20 9.41
T OT ALCM 31 1237.54

* Se tine que Fc = 101.56 > F1,30,=0.05 = 4.17 por lo tanto se rechaza H0 :1 = 0 con un nivel de significancia
del 5 %.

c-)
El coeficiente de determinacion R2 = SCR 955.34
SCT = 1237.54 = 0, 771966 Esto quiere decir que el modelo ajustado
Yb = 33.72744 0.04743X explica el 77.19 % de la varianza total en los datos.

d-)
Para x0 = 275 se tiene que Y c0 = 33.72744 0.04743(275) = 20.68419 y el intervalo de confianza al 95 % para la
respuesta media de x0 = 275qes:
c0 t(30, 0.05 ) s 2 1 + P(x0 x)2 2 = (19.57298, 21.7954)
IC(y0/x0 ) = Y 2 n (xi x)

e-)
Para x0 = 275 se tiene que Y c0 = 33.72744 0.04743(275) = 20.68419 y el intervalo de confianza al 95 % para la
respuesta media de x0 = q 275 es:
IC(Y c0 t(30, 0.05 ) s 2 1 + 1 + P(x0 x)2 2 = (14.32274, 27.04564)
c0 ) = Y
2 n (xi x)

Analisis de Regresion (2017)


Regresion Lineal Simple : Taller 1 5

f-)
El intervalo obtenido en d) es para la respuesta media para 275 in3 mientras que el intervalo obtenido en e) es
para una futura observacion, ademas el intervalo de confianza para la una futura observacion es mas ancho ya que
depende del error del modelo ajustado y una futura observacion.

Analisis de Regresion (2017)


Regresion Lineal Simple : Taller 1 6

2.6
a-)

Y : Casas Vendidas
X1 :Impuestos Actuales

Luego el modelo de regresion lineal simple , que relaciona el precio de venta de la casa con los impuestos actuales
es:

Y = 13.3202 + 3.3244x1 (2)

b-)
La hiptesis planteada es la siguiente:

H0 : 1 = 0 vs 1 6= 0

Luego como el p-valor=0,es menor que cualquier alfa que podamos elegir se rechaza la hipotesis nula; podemos decir
entonces que el modelo lineal puede ser adecuado para explicar la variabilidad de y.

c-)
El coeficiente de determinacion R2 = SCRSCT = 0.7673 Esto quiere decir que el modelo ajustado Y = 13.3202 +
b
3.3244x1 explica el 76.73 % de la varianza total en los datos.

Analisis de Regresion (2017)


Regresion Lineal Simple : Taller 1 7

d-)
El intervalo de confianza para la pendiente esta dado por:

1 t 2 , n 2 se(1 ) < 1 < 1 + t 2 , n 2 se(1 )

Donde :
1 =-21.4
t 2 , n 2 = 2.771
se(1 ) =2.565

Por lo tanto tenemos:

21.4 2.771 2.565 < 1 < 21.4 + 2.771 2.565

Luego el intervalo de confianza para la pendiente es:

28.51 < 1 < 14.29

2.7

2.14
Hsuie, Ma y Tsai ("Separacin y caracterizacin de copolisteres termotrpicos del cido p-hidroxibenzoico,
cido sebcico e hidroquinona", Joumal of Applied Polymer Science, 56,471-476, 1995) estudian el efecto de la
relacin molar del cido sebcico (el regresor) sobre la viscosidad intrnseca de los copolisteres (la respuesta). La
siguiente tabla muestra los datos.

Radio Viscocidad
1 1.00 0.45
2 0.90 0.20
3 0.80 0.34
4 0.70 0.58
5 0.60 0.70
6 0.50 0.57
7 0.40 0.55
8 0.30 0.44

a-)
Trazar un diagrama de dispersin de los datos.

Analisis de Regresion (2017)


Regresion Lineal Simple : Taller 1 8

Figura 1: Grafica de dispersion y recta ajustada

b-)
Estimar la ecuacin de prediccin.

Su ecuacin de prediccin es: Y= 0.6714-0.2964X

c-)
Hacer un anlisis completo y adecuado (pruebas estadsticas, clculo de R2, etctera).

Df Sum Sq Mean Sq F value Pr(>F)


Radio 1.00 0.03690536 0.03690536 1.640455 0.2475409
Residuals 6.00 0.13498214 0.02249702
Total 7 0.1718875

CM R
Para la prueba de hiptesis tenemos H0 : 1 = 0 vs Ha : 1 6= 0, tenemos que nuestro valor Fc = CM E =
1.64 < F1,6,0.05 = 5.987. Por lo tanto no se rechaza H0

Para calcular R2 = SCR 2


SCT , tenemos que SCR= 0.04 y SCT=0.17, por lo tanto R =
0.03690536
0.1718875 = 0.2147, ex-
plica el 21.47 % de la varianza total en los datos.

Su valorP= 0.2475

d-)
Calcular y graficar las bandas de 95 % de confianza y de prediccin.

Analisis de Regresion (2017)


Regresion Lineal Simple : Taller 1 9

Figura 2: Grafica de bandas 95 % de confianza y prediccin

El 95 % de las bandas de confianza calculadas son:

fit lwr upr


1 0.61 0.33 0.90
2 0.58 0.35 0.82
3 0.55 0.36 0.74
4 0.52 0.37 0.68
5 0.49 0.36 0.63
6 0.46 0.33 0.60
7 0.43 0.28 0.59
8 0.40 0.21 0.60
9 0.37 0.14 0.61

El 95 de las bandas de prediccin calculadas son:

fit lwr upr


1 0.61 0.15 1.08
2 0.58 0.15 1.02
3 0.55 0.14 0.97
4 0.52 0.12 0.92
5 0.49 0.10 0.88
6 0.46 0.07 0.85
7 0.43 0.04 0.83
8 0.40 -0.01 0.82
9 0.37 -0.06 0.81

Analisis de Regresion (2017)


Regresion Lineal Simple : Taller 1 10

2.21
Se tiene el modelo de regresin lineal simple y = 0 + 1 x +  con E() = 0 y var() = 2 y  no correlacionado.

a-)
x 2
Demostrar que cov(0 , 1 ) = Sxx

Se tiene que 0 = y 1 x, entonces queda:


cov(y 1 x, 1 )
Por propiedades de la covarianza tenemos:

cov(y, 1 ) cov(1 x, 1 )

Por la demostracin en el literal b) tenemos que cov(y, 1 ) = 0, entonces nos queda:

cov(1 x, 1 ) =

xcov(1 , 1 )

Por propiedades sabemos que: cov(1 , 1 ) = var(1 ), entonces nos queda:

xvar(1 )

Vamos a demostrar var(1 ):


Pn
var(1 ) = var[ i=1 ci yi ] con ci = xi x
Sxx
Pn 2
= i=1 ci var(yi )
Pn
= 2 2
i=1 ci

2
Pn 2
i=1 (xi x)
2
Sxx

2
Pn
i=1 (xi x)2
Sxx

2
Sxx

x 2
Por lo tanto queda Sxx

b-)
Demostrar que cov(y, 1 ) = 0
Pn Pn
Sabemos que y = 1
n i=1 yi y 1 = i=1 ci yi con ci = xi x
Sxx
Pn Pn (xi x)yi
Entonces cov(y, 1 ) = cov( n1 i=1 yi , i=1 Sxx )

1
Pn Pn
Ahora tenemos nSxx cov( i=1 yi , i=1 (xi x)yi )

1
Pn
Ahora por propiedades de la covarianza nSxx i=1 (xi x)cov(yi , yi )
Pn 1
Pn
Como sabemos que i=1 (xi x) = 0, entonces nSxx i=1 (xi x)cov(yi , yi ) = 0

Por lo tanto la cov(y, 1 ) = 0

Analisis de Regresion (2017)


Regresion Lineal Simple : Taller 1 11

ANEXOS

2.3
##########PUNTO A###################################

datos<-read.table("datos1.csv" , header = T, sep = ",")


y<-as.numeric(datos$JUEGOS.GANADOS)
x<-as.numeric(datos$YARDAS.POR.TIERRA.C)
modelo <-lm(y~x)
grafica <- scatterplot(y~x,smooth=F, boxplots=FALSE, span=0.5, ellipse=FALSE,xlab="Yardas por Tierra C", yl

##########PUNTO B###################################

AV<-as.matrix(anova(modelo))

##########PUNTO C###################################

confint(modelo,level = 0.95)

##########PUNTO D###################################

resumen <- summary(modelo)

##########PUNTO E###################################

datos1<-datos[c(3,4,5,6,7,8,11,12,13,14,15,24,26),]
y_1<-y[c(3,4,5,6,7,8,11,12,13,14,15,24,26)]
x_1<-x[c(3,4,5,6,7,8,11,12,13,14,15,24,26)]
modelo1 <-lm(y_1~x_1)
m<-mean(x_1)
m2<-mean(y_1)
sxx<-((x_1[1]-m)^2+(x_1[2]-m)^2+(x_1[3]-m)^2+(x_1[4]-m)^2+(x_1[5]-m)^2+(x_1[6]-m)^2+(x_1[7]-m)^2+(x_1[8]-m)
I.C.M<-as.matrix(predict(modelo1,interval = "confidence"))

2.4
require(xtable)
#a)
automovil<-c("apollo","omega","nova","monarch","duster","jenson conv.","skyhawk","monza","scirocco","coroll
y<-c(18.9,17,20,18.25,20.07,11.2,22.12,21.47,34.70,30.40,16.50,36.50,21.5,19.7,20.3,17.8,14.39,14.89,17.8,1
x1<-c(350,350,250,351,225,440,231,262,89.7,96.9,350,85.3,171,258,140,302,500,440,350,318,231,360,400,96.9,1
datos<-cbind(automovil,as.numeric(x1),as.numeric(y))
lm<-lm(y~x1);lm
plot(x1,y,xlim=c(50,550),ylim=c(0,50),main = "millas/galon VS cilindrica (in^3)",xlab = "cilindrica(x1)",yl
abline(coef = coefficients(lm),col="green")
xtable(datos)
#b)
anova<-anova(lm)
xtable(anova)

#c) coeficiente de determinacion

summary(lm)

Analisis de Regresion (2017)


Regresion Lineal Simple : Taller 1 12

#d) x0=275
#library(Rcmdr)
#respuesta media
n=32
x0=275
y.est<-33.72744-0.04743*(275);y.est
lim.inf=y.est-qt(0.975,30)*(3.067)*sqrt((1/n)+((x0-mean(x1))^(2))/((n-1)*var(x1)));lim.inf
lim.sup=y.est+qt(0.975,30)*(3.067)*sqrt((1/n)+((x0-mean(x1))^(2))/((n-1)*var(x1)));lim.sup

#e) x0=275
#para y0 una nueva observacion
n=32
x0=275
y.est<-33.72744-0.04743*(275);y.est
lim.inf=y.est-qt(0.975,30)*(3.067)*sqrt(1+(1/n)+((x0-mean(x1))^(2))/((n-1)*var(x1)));lim.inf
lim.sup=y.est+qt(0.975,30)*(3.067)*sqrt(1+(1/n)+((x0-mean(x1))^(2))/((n-1)*var(x1)));lim.sup

2.7

2.14
temp<- read.csv2("C:/Users/JONATHAN/Dropbox/Regresi?n/Temperatura.csv", header = T, sep = ";")
temp
#Grfico de dispersin
#A)
plot(Viscocidad~Radio, data = temp, xlim= c(0.2,1), ylim=c(-0.5,1.5))
#Para hallar la ecuacin de la regresin
#B)
regre<- lm(Viscocidad~Radio, data = temp)
abline(regre)
summary(regre)
#Para el anlisis de varianza
#C)
as<-as.matrix(anova(regre))
as

library(xtable)
xtable(temp)
xtable((as))

#D)
nuevos.radios <- data.frame(Radio = c(0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1))
nuevos.radios
predict(regre, nuevos.radios)

# Intervalos de confianza de la respuesta media: ic es una matriz con tres


# columnas: la primera es la prediccion, las otras dos son los extremos

Analisis de Regresion (2017)


Regresion Lineal Simple : Taller 1 13

# del intervalo
ic <- predict(regre, nuevos.radios, interval = "confidence")
ic
xtable(ic)
lines(nuevos.radios$Radio, ic[, 2], lty=2)
lines(nuevos.radios$Radio, ic[, 3], lty=2)

# Intervalos de prediccion
ip <- predict(regre, nuevas.edades, interval = "prediction")
ip
xtable(ip)
lines(nuevos.radios$Radio, ip[, 2], lty = 2, col = "red")
lines(nuevos.radios$Radio, ip[, 3], lty = 2, col = "red")

Analisis de Regresion (2017)

Potrebbero piacerti anche