Sei sulla pagina 1di 27

T14.

Modelos de regresión lineal


Una empresa dedicada al engrase de atún paga a los barcos de
cerco por los atunes capturados según su peso. Sin embargo,
no puede pesar a los individuos cuando están vivos. El
empresario quiere saber si se puede estimar el peso de los
atunes a partir de la talla de los mismos (medida por
buceadores). Para ello, se aprovechan los 9 individuos
sacrificados en el último pedido, y se toman datos de talla y
peso de los mismos:

Talla
Peso

(cm) (kg)
162 61
154 60
180 78
158 62
171 66
169 60
166 54
176 84
163 68
OBJETO DEL TEMA
¿está relacionada la ¿podemos estimar el
talla y el peso de los peso de los atunes a
atunes? partir de su talla?

CORRELACIÓN LINEAL REGRESIÓN LINEAL SIMPLE

• Las dos variables son • Se considera una variable


consideradas dependientes independiente/explicativa/
(una de la otra) predictora y otra
dependiente/respuesta

• Permite determinar si dos • Permite realizar


variables son o no estimaciones/predicciones
independientes entre sí de la variable dependiente
a partir de la variable
independiente
REGRESIÓN LINEAL SIMPLE

Tenemos las tallas y los pesos de 9 atunes representados en un diagrama de


dispersión
Talla
Peso

(cm) (kg)
162 61
Pesa 78 kg
154 60
180 78
158 62
171 66
Pesa 62 kg
169 60
166 54
176 84
163 68
Mide 158 cm Mide 180 cm
REGRESIÓN LINEAL SIMPLE

Tenemos las tallas y los pesos de 9 atunes representados en un diagrama de


dispersión
Talla
Peso

(cm) (kg)

a 162 61
la tall
co n 154 60
e nta
aum
180 78
es o
e l p 158 62
que
re ce 171 66
P a
169 60
166 54
176 84
163 68
REGRESIÓN LINEAL SIMPLE

Aparentemente el peso aumenta 5 kg por cada 5 cm de talla... o sea, el peso


aumenta aproximadamente en una unidad por cada unidad de talla

Talla
Peso

(cm) (kg)
162 61
154 60
180 78
158 62
5 kg
171 66
169 60
5 cm 166 54
176 84
163 68
Resumiendo:

• Si nuestro objetivo es realizar estimaciones/


predicciones de una variable en función de la otra,
podemos emplear un modelo de regresión lineal simple

• Se ha de considerar una variable independiente/


explicativa/predictora y otra variable dependiente/
respuesta

• Sólo se pueden hacer estimaciones/predicciones dentro


del rango de las variables estudiadas
FUNDAMENTOS DEL MÉTODO

¿y0? ?

x0
^
y0

x0
e
Y ̂ = b0 + b1X

tg ángulo = b1

b0=55
En el modelo de regresión lineal simple,
dadas dos variables:
– Y (dependiente)
– X (independiente, explicativa, predictora)

buscamos encontrar una función de X muy simple


(lineal) que nos permita estimar Y mediante:

Y = γ + βX estima
Y ̂ = b0 + b1X
¿CUAL ES LA MEJOR RECTA ?

• Los valores muestreados de Y rara vez coincidirán


con los estimados Ŷ, por muy bueno que sea el
modelo de regresión. A la diferencia existente entre

ei = (yi − yi )̂
ellos se le denomina error residual o residuo

El modelo lineal de regresión se construye utilizando la


técnica de los mínimos cuadrados:
– Buscar b0, b1 de tal manera que se minimice el valor
de los residuos

(yi − yi ̂)2 =
n n n
ei2 = (yi − (b0 + b1xi))2
∑ ∑ ∑
i=1 i=1 i=1
• Se comprueba que para lograr dicho resultado basta
con resolver:

n n
∑i XiYi − nXY ∑i (Xi − X) − (Yi − Y ) SXY
b1 = n 2 = n = 2
∑i Xi − nX 2 ∑i (Xi − X)2 SX

b0 = Y − b1X
• Valores que obtenemos del conjunto de datos
muestrales calculando:

las medias X Y
Xi2
∑ ∑ ∑
Xi XiYi
¿Cuándo es bueno un modelo de regresión?
¿Cuándo es bueno un modelo de regresión?

2
2
S XY Varianza de Y explicada por X
R = 2 2 =
SX SY Varianza total de Y

2 2
R =r
Y Ŷ

+ =
Varianza no explicada

X
¿Cuándo es bueno un modelo de regresión?

390
r= 0.984
420

r= 0.415
r^2 = 0.172 r^2 = 0.969
400

380
380

370
y

y
360

360
340

350
320

150 160 170 180 190 150 160 170 180 190

La bondad del ajuste depende de la relación entre:


- la dispersión marginal de Y
- la dispersión de Y condicionada a X
Requisitos de los datos para un modelo
de regresión lineal

1 Hemos de comprobar que la relación entre las variables es lineal

H0 : β = β0 = 0 β=?
H1 : β ≠ β0 ≠ 0 α = 0,05

(b1 − β0)SX n − 1
texp = < tn−2, α2
SY..X

(
p − valor = 2P tn−2 >
(b1 − β0)SX n − 1
SY..X )
Requisitos de los datos para un modelo
de regresión lineal

1 Hemos de comprobar que la relación entre las variables es lineal

e = (Y − Y)̂
e=0
n n
(Y − Y )̂ 2 =
2 1 1
(yi − (b0 + b1xi))2
n−2∑ ∑
SY..X =
i=1
n − 2 i=1

2 n−1 2
SY..X = (SY − b12SX2)
n−2
Además, las estimaciones puntuales podemos extenderlas
a estimaciones por Intervalos de confianza obteniendo
información sobre los niveles de confianza y predicción:

- sobre la pendiente de la recta:

Iβ1−α
(
= (b1 ± e) = b1 ± tn−2, α2
SY..X
SX n − 1 )
- sobre los valores puntuales de Y, dado un
punto de X, denominándose intervalo de
predicción:

Iy1−α
0
( (
= (b0 + b1x0 ± e) = b0 + b1x0 ± tn−2SY..X
1 (x0 − X )2
1+ +
n (n − 1)SX2 ))
Modelo de regresión lineal
Intervalo de confianza del 95%
Intervalo de predicción del 95%
Requisitos de los datos para un modelo
de regresión lineal

2 Hemos de comprobar que tanto las


distribuciones condicionales como las
distribuciones de los residuos son normales

100
90
80
70
60
50
40
30
140 150 160 170 180 190 200

Contraste de bondad de ajuste K-S


Requisitos de los datos para un modelo
de regresión lineal

3 Hemos de comprobar la homogeneidad de las varianzas de los residuos


(Homocedasticidad)

e e
Ŷ Ŷ
Requisitos de los datos para un modelo
de regresión lineal

4 Hemos de comprobar la ausencia de autocorrelación entre los


residuos, es decir, que los residuos son independientes unos de
otros

autocorrelación autocorrelación sin


negativa positiva autocorrelación
Requisitos de los datos para un modelo
de regresión lineal

5 Además, hemos de estudiar la presencia de


observaciones atípicas (outliers) y puntos
influyentes

Observaciones atípicas Puntos influyentes: aquellos que


(outliers): datos que tienen un se distancian de la nube de
residuo grande respecto al puntos, pudiendo alterar
resto completamente la tendencia del
modelo

Potrebbero piacerti anche