Regresion Lineal Simple

Universidad Nacional de Colombia
Facultad de Ciencias
Departamento de Estadistica
Pregrado en Estadistica
Analisis de Regresion
Bogota, febrero de 2017
Regresion Lineal Simple : Taller 1
Alejandro Ba , Javier Alejandro Jimenez Canizaresb

, Sebastian Mc , jonathan Felipe Sanchez Montenegrod
Ejercicios Capitulo 2
2.3
a-)
Y : Flujo total de calor

X4 :Deflexin radial de los rayos desviados
Luego el modelo de regresion lineal simple , que relaciona el flujo total de calor,y,con deflexin radial de los rayos
desviados es:
Y = 607.1 21.4x4 (1)

a Cdigo:. E-mail: @unal.edu.co
b Cdigo: 25141145. E-mail: javajimenezcan@unal.edu.co
c Cdigo:25141146. E-mail: jamoralesh@unal.edu.co
d Cdigo: 25141135. E-mail: jfsanchezm@unal.edu.co
1
Regresion Lineal Simple : Taller 1 2
b-)
Df Sum Sq Mean Sq F value Pr(>F)

datos$X4 1 10578.68 10578.68 69.61 0.0000
Residuals 27 4103.24 151.97
La hiptesis planteada es la siguiente:
H0 : 1 = 0 vs 1 6= 0
Luego como el p-valor=0,es menor que cualquier alfa que podamos elegir se rechaza la hipotesis nula; podemos decir
entonces que el modelo lineal puede ser adecuado para explicar la variabilidad de y.
c-)
El intervalo de confianza para la pendiente esta dado por:
1 t 2 , n 2 se(1 ) < 1 < 1 + t 2 , n 2 se(1 )
Donde :
1 =-21.4
t 2 , n 2 = 2.771
se(1 ) =2.565
Por lo tanto tenemos:
21.4 2.771 2.565 < 1 < 21.4 + 2.771 2.565
Luego el intervalo de confianza para la pendiente es:
28.51 < 1 < 14.29
d-)
El porcentaje de la variabilidad que se explica con el modelo lineal propuesto esta dado por:
R2 = 0.7205
Luego podemos decir que el modelo propuesto explica un 72.05 % de la variabilidad del flujo total de calor.
e-)
Teniendo en cuenta el problema planteado donde la deflexin radial de los rayos desviadso por el contrario se
limitan a 16.5:
El intervalo de confianza para la cantidad de flujo total de calor, teniendo en cuenta la condicion propuesta esta
dado por :
r r
1 (x0 x)2 1 (x0 x)2
y0 t 2 , n 2 M SRes ( + ) < y0 < y0 + t 2 , n 2 M SRes ( + )
n Sxx n Sxx
Analisis de Regresion (2017)

Teniendo en cuenta el codigo en R , para reducir calculos:
x_1<-data.frame(x=2000)
ic<-predict(modelo,x_1,interval = "confidence")
Luego el intervalo de confianza para la cantidad de juegos ganados es:
249.15 < y0 < 258.78
2.4
Los datos son:
automovil V2 V3
1 apollo 350 18.9
2 omega 350 17
3 nova 250 20
4 monarch 351 18.25
5 duster 225 20.07
6 jenson conv. 440 11.2
7 skyhawk 231 22.12
8 monza 262 21.47
9 scirocco 89.7 34.7
10 corolla SR-5 96.9 30.4
11 camaro 350 16.5
12 datsum B210 85.3 36.5
13 capri II 171 21.5
14 pacer 258 19.7
15 babcat 140 20.3
16 granada 302 17.8
17 eldorado 500 14.39
18 imperial 440 14.89
19 nova ln 350 17.8
20 valiant 318 16.41
21 starfire 231 23.54
22 cordoba 360 21.47
23 trans AM 400 16.59
24 corola E-5 96.9 31.9
25 astre 140 29.4
26 mark IV 460 13.27
27 celica GT 133.6 23.9
28 charger SE 318 19.73
29 cougar 351 13.9
30 elite 351 13.27
31 matador 360 13.77
32 corvette 350 16.5

a-) Modelo ajustado Yb = 33.72744 0.04743X
* Se puede decir que por cada unidad, en este caso in3 (x1) que se incremente el cilindraje las millas por galon
(y) disminuiran en 0.047 unidades.
b-)
Generador Df Sum Sq Mean Sq F value Pr(>F)

x1 1 955.34 955.34 101.56 0.0000
Residuals 30 282.20 9.41
T OT ALCM 31 1237.54
* Se tine que Fc = 101.56 > F1,30,=0.05 = 4.17 por lo tanto se rechaza H0 :1 = 0 con un nivel de significancia
del 5 %.
c-)
El coeficiente de determinacion R2 = SCR 955.34
SCT = 1237.54 = 0, 771966 Esto quiere decir que el modelo ajustado
Yb = 33.72744 0.04743X explica el 77.19 % de la varianza total en los datos.
d-)
Para x0 = 275 se tiene que Y c0 = 33.72744 0.04743(275) = 20.68419 y el intervalo de confianza al 95 % para la
respuesta media de x0 = 275qes:
c0 t(30, 0.05 ) s 2 1 + P(x0 x)2 2 = (19.57298, 21.7954)
IC(y0/x0 ) = Y 2 n (xi x)
e-)
Para x0 = 275 se tiene que Y c0 = 33.72744 0.04743(275) = 20.68419 y el intervalo de confianza al 95 % para la
respuesta media de x0 = q 275 es:
IC(Y c0 t(30, 0.05 ) s 2 1 + 1 + P(x0 x)2 2 = (14.32274, 27.04564)
c0 ) = Y
2 n (xi x)

f-)
El intervalo obtenido en d) es para la respuesta media para 275 in3 mientras que el intervalo obtenido en e) es
para una futura observacion, ademas el intervalo de confianza para la una futura observacion es mas ancho ya que
depende del error del modelo ajustado y una futura observacion.

2.6
a-)
Y : Casas Vendidas
X1 :Impuestos Actuales
Luego el modelo de regresion lineal simple , que relaciona el precio de venta de la casa con los impuestos actuales
es:
Y = 13.3202 + 3.3244x1 (2)
b-)
La hiptesis planteada es la siguiente:
H0 : 1 = 0 vs 1 6= 0
Luego como el p-valor=0,es menor que cualquier alfa que podamos elegir se rechaza la hipotesis nula; podemos decir
entonces que el modelo lineal puede ser adecuado para explicar la variabilidad de y.
c-)
El coeficiente de determinacion R2 = SCRSCT = 0.7673 Esto quiere decir que el modelo ajustado Y = 13.3202 +
b
3.3244x1 explica el 76.73 % de la varianza total en los datos.

d-)
El intervalo de confianza para la pendiente esta dado por:
1 t 2 , n 2 se(1 ) < 1 < 1 + t 2 , n 2 se(1 )
Donde :
1 =-21.4
t 2 , n 2 = 2.771
se(1 ) =2.565
Por lo tanto tenemos:
21.4 2.771 2.565 < 1 < 21.4 + 2.771 2.565
Luego el intervalo de confianza para la pendiente es:
28.51 < 1 < 14.29
2.7
2.14
Hsuie, Ma y Tsai ("Separacin y caracterizacin de copolisteres termotrpicos del cido p-hidroxibenzoico,
cido sebcico e hidroquinona", Joumal of Applied Polymer Science, 56,471-476, 1995) estudian el efecto de la
relacin molar del cido sebcico (el regresor) sobre la viscosidad intrnseca de los copolisteres (la respuesta). La
siguiente tabla muestra los datos.
Radio Viscocidad
1 1.00 0.45
2 0.90 0.20
3 0.80 0.34
4 0.70 0.58
5 0.60 0.70
6 0.50 0.57
7 0.40 0.55
8 0.30 0.44
a-)
Trazar un diagrama de dispersin de los datos.

Figura 1: Grafica de dispersion y recta ajustada
b-)
Estimar la ecuacin de prediccin.
Su ecuacin de prediccin es: Y= 0.6714-0.2964X
c-)
Hacer un anlisis completo y adecuado (pruebas estadsticas, clculo de R2, etctera).
Df Sum Sq Mean Sq F value Pr(>F)

Radio 1.00 0.03690536 0.03690536 1.640455 0.2475409
Residuals 6.00 0.13498214 0.02249702
Total 7 0.1718875
CM R
Para la prueba de hiptesis tenemos H0 : 1 = 0 vs Ha : 1 6= 0, tenemos que nuestro valor Fc = CM E =
1.64 < F1,6,0.05 = 5.987. Por lo tanto no se rechaza H0
Para calcular R2 = SCR 2

SCT , tenemos que SCR= 0.04 y SCT=0.17, por lo tanto R =
0.03690536
0.1718875 = 0.2147, ex-
plica el 21.47 % de la varianza total en los datos.
Su valorP= 0.2475
d-)
Calcular y graficar las bandas de 95 % de confianza y de prediccin.

Figura 2: Grafica de bandas 95 % de confianza y prediccin
El 95 % de las bandas de confianza calculadas son:
fit lwr upr

1 0.61 0.33 0.90
2 0.58 0.35 0.82
3 0.55 0.36 0.74
4 0.52 0.37 0.68
5 0.49 0.36 0.63
6 0.46 0.33 0.60
7 0.43 0.28 0.59
8 0.40 0.21 0.60
9 0.37 0.14 0.61
El 95 de las bandas de prediccin calculadas son:
fit lwr upr

1 0.61 0.15 1.08
2 0.58 0.15 1.02
3 0.55 0.14 0.97
4 0.52 0.12 0.92
5 0.49 0.10 0.88
6 0.46 0.07 0.85
7 0.43 0.04 0.83
8 0.40 -0.01 0.82
9 0.37 -0.06 0.81

2.21
Se tiene el modelo de regresin lineal simple y = 0 + 1 x + con E() = 0 y var() = 2 y no correlacionado.
a-)
x 2
Demostrar que cov(0 , 1 ) = Sxx
Se tiene que 0 = y 1 x, entonces queda:

cov(y 1 x, 1 )
Por propiedades de la covarianza tenemos:
cov(y, 1 ) cov(1 x, 1 )
Por la demostracin en el literal b) tenemos que cov(y, 1 ) = 0, entonces nos queda:
cov(1 x, 1 ) =
xcov(1 , 1 )
Por propiedades sabemos que: cov(1 , 1 ) = var(1 ), entonces nos queda:
xvar(1 )
Vamos a demostrar var(1 ):

Pn
var(1 ) = var[ i=1 ci yi ] con ci = xi x
Sxx
Pn 2
= i=1 ci var(yi )
Pn
= 2 2
i=1 ci
2
Pn 2
i=1 (xi x)
2
Sxx
2
Pn
i=1 (xi x)2
Sxx
2
Sxx
x 2
Por lo tanto queda Sxx
b-)
Demostrar que cov(y, 1 ) = 0
Pn Pn
Sabemos que y = 1
n i=1 yi y 1 = i=1 ci yi con ci = xi x
Sxx
Pn Pn (xi x)yi
Entonces cov(y, 1 ) = cov( n1 i=1 yi , i=1 Sxx )
1
Pn Pn
Ahora tenemos nSxx cov( i=1 yi , i=1 (xi x)yi )
1
Pn
Ahora por propiedades de la covarianza nSxx i=1 (xi x)cov(yi , yi )
Pn 1
Pn
Como sabemos que i=1 (xi x) = 0, entonces nSxx i=1 (xi x)cov(yi , yi ) = 0
Por lo tanto la cov(y, 1 ) = 0

ANEXOS
2.3
##########PUNTO A###################################
datos<-read.table("datos1.csv" , header = T, sep = ",")

y<-as.numeric(datos$JUEGOS.GANADOS)
x<-as.numeric(datos$YARDAS.POR.TIERRA.C)
modelo <-lm(y~x)
grafica <- scatterplot(y~x,smooth=F, boxplots=FALSE, span=0.5, ellipse=FALSE,xlab="Yardas por Tierra C", yl
##########PUNTO B###################################
AV<-as.matrix(anova(modelo))
##########PUNTO C###################################
confint(modelo,level = 0.95)
##########PUNTO D###################################
resumen <- summary(modelo)
##########PUNTO E###################################
datos1<-datos[c(3,4,5,6,7,8,11,12,13,14,15,24,26),]
y_1<-y[c(3,4,5,6,7,8,11,12,13,14,15,24,26)]
x_1<-x[c(3,4,5,6,7,8,11,12,13,14,15,24,26)]
modelo1 <-lm(y_1~x_1)
m<-mean(x_1)
m2<-mean(y_1)
sxx<-((x_1[1]-m)^2+(x_1[2]-m)^2+(x_1[3]-m)^2+(x_1[4]-m)^2+(x_1[5]-m)^2+(x_1[6]-m)^2+(x_1[7]-m)^2+(x_1[8]-m)
I.C.M<-as.matrix(predict(modelo1,interval = "confidence"))
2.4
require(xtable)
#a)
automovil<-c("apollo","omega","nova","monarch","duster","jenson conv.","skyhawk","monza","scirocco","coroll
y<-c(18.9,17,20,18.25,20.07,11.2,22.12,21.47,34.70,30.40,16.50,36.50,21.5,19.7,20.3,17.8,14.39,14.89,17.8,1
x1<-c(350,350,250,351,225,440,231,262,89.7,96.9,350,85.3,171,258,140,302,500,440,350,318,231,360,400,96.9,1
datos<-cbind(automovil,as.numeric(x1),as.numeric(y))
lm<-lm(y~x1);lm
plot(x1,y,xlim=c(50,550),ylim=c(0,50),main = "millas/galon VS cilindrica (in^3)",xlab = "cilindrica(x1)",yl
abline(coef = coefficients(lm),col="green")
xtable(datos)
#b)
anova<-anova(lm)
xtable(anova)
#c) coeficiente de determinacion
summary(lm)

#d) x0=275
#library(Rcmdr)
#respuesta media
n=32
x0=275
y.est<-33.72744-0.04743*(275);y.est
lim.inf=y.est-qt(0.975,30)*(3.067)*sqrt((1/n)+((x0-mean(x1))^(2))/((n-1)*var(x1)));lim.inf
lim.sup=y.est+qt(0.975,30)*(3.067)*sqrt((1/n)+((x0-mean(x1))^(2))/((n-1)*var(x1)));lim.sup
#e) x0=275
#para y0 una nueva observacion
n=32
x0=275
y.est<-33.72744-0.04743*(275);y.est
lim.inf=y.est-qt(0.975,30)*(3.067)*sqrt(1+(1/n)+((x0-mean(x1))^(2))/((n-1)*var(x1)));lim.inf
lim.sup=y.est+qt(0.975,30)*(3.067)*sqrt(1+(1/n)+((x0-mean(x1))^(2))/((n-1)*var(x1)));lim.sup
2.7
2.14
temp<- read.csv2("C:/Users/JONATHAN/Dropbox/Regresi?n/Temperatura.csv", header = T, sep = ";")
temp
#Grfico de dispersin
#A)
plot(Viscocidad~Radio, data = temp, xlim= c(0.2,1), ylim=c(-0.5,1.5))
#Para hallar la ecuacin de la regresin
#B)
regre<- lm(Viscocidad~Radio, data = temp)
abline(regre)
summary(regre)
#Para el anlisis de varianza
#C)
as<-as.matrix(anova(regre))
as
library(xtable)
xtable(temp)
xtable((as))
#D)
nuevos.radios <- data.frame(Radio = c(0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1))
nuevos.radios
predict(regre, nuevos.radios)
# Intervalos de confianza de la respuesta media: ic es una matriz con tres

# columnas: la primera es la prediccion, las otras dos son los extremos

# del intervalo
ic <- predict(regre, nuevos.radios, interval = "confidence")
ic
xtable(ic)
lines(nuevos.radios$Radio, ic[, 2], lty=2)
lines(nuevos.radios$Radio, ic[, 3], lty=2)
# Intervalos de prediccion
ip <- predict(regre, nuevas.edades, interval = "prediction")
ip
xtable(ip)
lines(nuevos.radios$Radio, ip[, 2], lty = 2, col = "red")
lines(nuevos.radios$Radio, ip[, 3], lty = 2, col = "red")

Regresion Lineal Simple

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Regresion Lineal Simple

Caricato da

Copyright:

Formati disponibili

Universidad Nacional de Colombia

Regresion Lineal Simple : Taller 1

Alejandro Ba , Javier Alejandro Jimenez Canizaresb

Y : Flujo total de calor

Y = 607.1 21.4x4 (1)

Df Sum Sq Mean Sq F value Pr(>F)

La hiptesis planteada es la siguiente:

1 t 2 , n 2 se(1 ) < 1 < 1 + t 2 , n 2 se(1 )

Por lo tanto tenemos:

21.4 2.771 2.565 < 1 < 21.4 + 2.771 2.565

Luego el intervalo de confianza para la pendiente es:

28.51 < 1 < 14.29

Analisis de Regresion (2017)

Teniendo en cuenta el codigo en R , para reducir calculos:

Luego el intervalo de confianza para la cantidad de juegos ganados es:

249.15 < y0 < 258.78

Analisis de Regresion (2017)

a-) Modelo ajustado Yb = 33.72744 0.04743X

Generador Df Sum Sq Mean Sq F value Pr(>F)

Analisis de Regresion (2017)

Analisis de Regresion (2017)

Y = 13.3202 + 3.3244x1 (2)

Analisis de Regresion (2017)

1 t 2 , n 2 se(1 ) < 1 < 1 + t 2 , n 2 se(1 )

Por lo tanto tenemos:

21.4 2.771 2.565 < 1 < 21.4 + 2.771 2.565

Luego el intervalo de confianza para la pendiente es:

28.51 < 1 < 14.29

Analisis de Regresion (2017)

Figura 1: Grafica de dispersion y recta ajustada

Su ecuacin de prediccin es: Y= 0.6714-0.2964X

Df Sum Sq Mean Sq F value Pr(>F)

Para calcular R2 = SCR 2

Analisis de Regresion (2017)

Figura 2: Grafica de bandas 95 % de confianza y prediccin

El 95 % de las bandas de confianza calculadas son:

fit lwr upr

El 95 de las bandas de prediccin calculadas son:

fit lwr upr

Analisis de Regresion (2017)

Se tiene que 0 = y 1 x, entonces queda:

Por la demostracin en el literal b) tenemos que cov(y, 1 ) = 0, entonces nos queda:

Por propiedades sabemos que: cov(1 , 1 ) = var(1 ), entonces nos queda:

Vamos a demostrar var(1 ):

Por lo tanto la cov(y, 1 ) = 0

Analisis de Regresion (2017)

datos<-read.table("datos1.csv" , header = T, sep = ",")

resumen <- summary(modelo)

#c) coeficiente de determinacion

Analisis de Regresion (2017)

# Intervalos de confianza de la respuesta media: ic es una matriz con tres

Analisis de Regresion (2017)

Analisis de Regresion (2017)

Potrebbero piacerti anche