Sei sulla pagina 1di 63

Análisis de Datos I

Unidad 7: Regresión Lineal Simple

Clase: Regresión Lineal Simple


I Semestre de 2018
Modelos de regresión
El análisis de regresión es un estudio de las relaciones entre
variables: una variable dependiente y una o más variables
independientes.
Conceptos Generales sobre Regresión
Lineal Simple
Modelo de regresión lineal
Modelo de regresión lineal
Modelo de regresión lineal
Modelo de regresión lineal
Modelo de regresión lineal
1. Modelo de Regresión Lineal Simple
Modelo de regresión lineal
• La relación de Regresión entre los valores observados de 𝑦 y 𝑥 es
expresado como un modelo de regresión, por ejemplo, 𝑦 = 𝛽0 + 𝛽1 𝑥 + 𝜀,
donde 𝑦 es la variable dependiente, 𝑥 es la variable independiente, 𝛽0 y
𝛽1 son parámetros del modelo, y 𝜀 es un termino de error que refleja la
diferencia entre el valor observado de 𝑦 y su esperanza condicional bajo el
modelo, 𝜀 = 𝑦 − 𝑦ො = 𝑦 − 𝛽0 − 𝛽1 𝑥

• En ocasiones se denomina a la variable dependiente variable de respuesta


y a la variable independiente variable de predicción.
Tipos de modelos
• Modelo Probabilístico o estocástico

𝑦 = 𝛽0 + 𝛽1 𝑥 + 𝜀

𝛽0 + 𝛽1 𝑥 es la componente determinística de este modelo

• Modelo determinístico
𝑦 = 𝛽0 + 𝛽1 𝑥
Ecuación de regresión
• La ecuación de regresión estimada será representada así: 𝑦ො = 𝑏0 + 𝑏1 𝑥

Modelo de Parámetro Estimación


𝛽0 𝑏0
𝛽1 𝑏1
𝜎2 𝑠𝑒2
E(y|x) 𝑦ො

• Los errores e=𝑦 − 𝑦ො se denominan frecuentemente residuales.


Supuestos para el modelo de regresión
lineal
• Para cada valor de x, la variable aleatoria 𝜀 se distribuye normalmente.

• Para cada valor de x, la media o valor esperado de 𝜀 es 0; esto es


E(𝜀)=𝜇𝜀 = 0

• Para cada valor de x, la varianza de 𝜀 es la constante 𝛿 2

• Los valores del término de error 𝜀 son independientes.


2. Estimación de parámetros por
mínimos cuadrados
Método de los mínimos cuadrados
*Suma de cuadrados para x
σ 2
( 𝑥)
𝑆𝑆𝑥 = ෍ 𝑥 2 −
𝑛
*Suma de cuadrados para y
(σ 𝑦)2
𝑆𝑆𝑦 = σ 𝑦2

𝑛
*Suma de los productos cruzados
σ𝑥 σ𝑦
𝑆𝑆𝑥𝑦 = ෍ 𝑥𝑦 −
𝑛
*Pendiente de la recta de regresión
𝑆𝑆𝑥𝑦
𝑏1 =
𝑆𝑆𝑥
*Intercepto
𝑏0 = 𝑦ത − 𝑏1 𝑥ҧ
3. Análisis de Varianza
Método de los mínimos cuadrados
*Suma de cuadrados del error

ො 2
𝑆𝑆𝐸 = ෍(𝑦 − 𝑦)

*Varianza residual
A la varianza de los errores se le llama varianza residual.
𝑆𝑆𝐸
𝑠𝑒2
=
𝑛−2
Donde n-2 son los grados de libertad asociados con la varianza
de los residuales.
A 𝑠𝑒 se le llama error estándar de estimación, que es la raíz
cuadrada positiva de la varianza residual.
Método de los mínimos cuadrados
• 𝑆𝑆𝐸 = 𝑆𝑆𝑦 − 𝑏1 𝑆𝑆𝑥𝑦

Aclaración
El valor de una variable aleatoria se predice, mientras que el valor de un
parámetro se estima.
Inferencias sobre el modelo de
regresión lineal
Prueba de Hipótesis:
Ho: 𝛽1 = 0
H1: 𝛽1 ≠ 0

Para determinar si 𝛽1 = 0 separaremos 𝑆𝑆𝑦 en dos componentes SSE y SSR.

ത 2 = ෍(𝑦 − 𝑦)
෍(𝑦 − 𝑦) ො 2 + ෍(𝑦ො − 𝑦)
ത 2

𝑆𝑆𝑦 SSE SSR


A SSR se le llama suma de cuadrados de la regresión. Entonces tenemos:
𝑆𝑆𝑦 =SSR+SSE. Debido a que SSE= 𝑆𝑆𝑦 − 𝑏1 𝑆𝑆𝑥𝑦 , SSR= 𝑏1 𝑆𝑆𝑥𝑦
Inferencias sobre el modelo de
regresión lineal
Prueba de ajuste del modelo
𝑆𝑆𝑅
𝐹=
𝑠𝑒2
La distribución muestral del estadístico 𝑆𝑆𝑅
ൗ𝑠𝑒2 es una distribución F con gl =
(1,n-2), o gl=1 para SSR y gl = n-2 para 𝑠𝑒2 . Se puede usar el estadístico F para
determinar si 𝛽1 es diferente de cero. En esta prueba 𝐻0 : 𝛽1 =0.

Cuadrados Medios
Cualquier suma de cuadrados dividida entre sus grados de libertad asociados
proporciona una estimación de la varianza, llamada un cuadrado medio,
𝑆𝑆
denotado por MS. Así: MS =
𝑔𝑙
Cuadrados medios
• Cuadrado medio de la regresión

SSR
MSR = = SSR
1

• Cuadrado medio del error


SS𝐸
MSE = = 𝑠𝑒2
n−2
ANOVA

Fuente de SS gl MS F
varianza
Regresión 𝑆𝑆𝑅 1 SSR 𝑆𝑆𝑅ൗ
𝑠𝑒2
Error 𝑆𝑆𝐸 n-2 𝑠𝑒2 = SSE/(n − 2)
Total (y) 𝑆𝑆𝑦 n-1

𝑆𝑆𝑅
• Calcular 𝑓0 =
𝑠2

• Si𝑓0 > 𝑓𝛼,1,𝑛−2 rechazar Ho

• Conclusión? Si se rechazo Ho, se concluye que los datos reflejan evidencia


suficiente para apoyar la recta de regresión postulada.
4. Coeficientes de correlación y
determinación
Modelo de regresión lineal: Diagrama de
Dispersión
MRL: Diagrama de Dispersión – Relación entre variables
Covarianza de dos variables X e Y
• La covarianza entre dos variables, Sxy, nos indica si
la posible relación entre dos variables es directa o
inversa.
– Directa: Sxy >0
– Inversa: Sxy <0 1 n
– Incorreladas: Sxy =0 S xy    xi  x  yi  y 
n i 1

• El signo de la covarianza nos dice si el aspecto de


la nube de puntos es creciente o no, pero no nos
dice nada sobre el grado de relación entre las
variables.
Análisis de correlación
• El coeficiente de correlación lineal de Pearson de dos variables, r,
nos indica si los puntos tienen una tendencia a disponerse
alineadamente (excluyendo rectas horizontales y verticales).

• Tiene el mismo signo que Sxy por tanto de su signo obtenemos el


que la posible relación sea directa o inversa.

• r es útil para determinar si hay relación lineal entre dos variables,


pero no servirá para otro tipo de relaciones (cuadrática,
logarítmica,...)

 
n 2

S xx   X i  X
i 1 S xy
r
 
n 2

S yy   Yi  Y S xx S yy
i 1

  
n
S xy   X i  X Yi  Y
i 1
MRL: Diagrama de Dispersión – Relación entre variables
Propiedades de r
• Es adimensional
• Sólo toma valores entre [-1,1]
• Las variables no tienen correlación lineal  r=0
• Relación lineal perfecta entre dos variables  r=+1 o r=-1
• Cuanto más cerca esté r de +1 o -1 mejor será el grado de
relación lineal.

Relación
inversa Relación
perfecta directa
Variables
incorreladas casi
perfecta

-1 0 +1
Correlación
Coeficiente de determinación
• Coeficiente de determinación
𝑆𝑆𝑦 = 𝑆𝑆𝑅 + 𝑆𝑆𝐸
𝑆𝑆𝑅 𝑆𝑆𝐸
Luego dividiendo a ambos lados por 𝑆𝑆𝑦 , tenemos: 1 = + .
𝑆𝑆𝑦 𝑆𝑆𝑦

𝑆𝑆𝑅
La expresión determina la calidad del modelo para replicar los
𝑆𝑆𝑦
resultados, y a su vez representa la proporción de variación de los
resultados que puede explicarse por el modelo. Se le llama coeficiente
de determinación.

Suma de cuadrados explicada por la regresión 𝑆𝑆𝑅


𝑅2 = =
suma total de cuadrados (antes de la regresión) 𝑆𝑆𝑦

𝑆𝑆𝐸
Luego, 1 = 𝑅2 + . Entonces 𝟏 − 𝑹𝟐 representa el porcentaje de la
𝑆𝑆𝑦
suma total de cuadrados que no se puede atribuir a la regresión, pero
sí al error.
5. Validación de supuestos
(Normalidad, Independencia,
Homocedasticidad)
Supuestos de los Residuales

Los residuales deben responder a una distribución normal


Los residuales no deben ser autocorrelacionados
Igualdad de varianzas de los residuales y lo pronósticos
Verificación de Supuestos: 1) Prueba
de Normalidad
Verificación de Supuestos: 2) Prueba
de Independencia
Verificación de Supuestos: 2) Prueba
de Independencia

• Para muestras grandes:


Verificación de Supuestos: 2) Prueba
de Independencia

positiva

negativa
Verificación de Supuestos: 2) Prueba
de Independencia
Verificación de Supuestos: 3) Prueba
de Homocedasticidad
Verificación de Supuestos: 3) Prueba
de Homocedasticidad
Verificación de Supuestos: 3) Prueba
de Homocedasticidad
6. Inferencias acerca de los
coeficientes de regresión
Intervalos de confianza
• Intervalos del 1 − 𝛼 100% de confianza para 𝛽0 :
1 𝑥ത 2 1 𝑥ҧ 2
b0 − t n−2,αΤ2 ∗ se + ≤ β0 ≤ b0 + t n−2,αΤ2 ∗ se +
𝑛 SSx 𝑛 SSx

• Intervalos del 1 − 𝛼 100% de confianza para 𝛽1 :


se se
b1 − t n−2,αΤ2 ≤ β1 ≤ b1 + t n−2,αΤ2
SSx SSx

• Intervalos de 1 − 𝛼 100% de confianza para la respuesta media 𝐸(𝑦|𝑥0 )


1 (𝑥0 −𝑥)ҧ 2 1 (𝑥0 −𝑥)ҧ 2
𝑦ො − t n−2,αΤ2 ∗ se + ≤ 𝐸(𝑦|𝑥0 ) ≤ 𝑦ො + t 𝑛−2,αΤ2 ∗ se +
𝑛 SSx 𝑛 SSx
Este intervalo sirve para estimar el valor promedio de y dado x.
Ejemplo: Intervalo de confianza para la
pendiente
Ejemplo: Intervalo de confianza para la
respuesta media, tal que Xo=20%
Pruebas de hipótesis para 𝛽0
Para 𝛽0 :
H 0 :  0  B0 H 0 :  0  B0 H 0 :  0  B0
H1 :  0  B0 H1 :  0  B0 H1 :  0  B0

Valor de la estadística de prueba:


b0  B0
t
 1 x2 
s  
2
e 
 n SS x 

Distribución t con n – 2 grados de libertad.


Pruebas de hipótesis para 𝛽1
Para 𝛽1 :
H 0 : 1  B1 H 0 : 1  B1 H 0 : 1  B1
H1 : 1  B1 H1 : 1  B1 H1 : 1  B1

Valor de la estadística de prueba:


b1  B1
t
se2
ssx

Distribución t con n – 2 grados de libertad.


7. Intervalos de predicción
Intervalos de predicción para Y

• Intervalos de predicción del 1 − 𝛼 100% de confianza para 𝑦


dado 𝑥 = 𝑥0

1 (𝑥0 −𝑥)ҧ 2 1 (𝑥0 −𝑥)ҧ 2


𝑦ො − t 𝑛−2,αΤ2 ∗ se 1+ + ≤ 𝑌 ≤ 𝑦ො + t n−2,αΤ2 ∗ se 1 + +
𝑛 SSx 𝑛 SSx

Este intervalo sirve para predecir un valor individual de y para un


valor dado de x.
Ejemplo: Intervalo de predicción para y,
cuando Xo=20%
8. CASO ESPECIAL: 𝑏0 no es
significativo
Si 𝑏0 no es significativo
• ANOVA presenta modificaciones

Fuente de SS gl MS F
varianza
Regresión 𝑆𝑆𝑅 1 SSR 𝑆𝑆𝑅ൗ
𝑠𝑒2
Error 𝑆𝑆𝐸 n-1 𝑠𝑒2 = SSE/(n − 1)
Total (y) 𝑆𝑆𝑦 n
Intervalos de confianza, Si 𝑏0 no es
significativo
• Intervalos del 1 − 𝛼 100% de confianza para 𝛽1 :
se se
b1 − t 𝐧−𝟏,αΤ2 ≤ β1 ≤ b1 + t 𝐧−𝟏,αΤ2
SSx SSx

• Intervalos de 1 − 𝛼 100% de confianza para la respuesta media 𝐸(𝑦|𝑥0 )


1 (𝑥0 −𝑥)ҧ 2 1 (𝑥0 −𝑥)ҧ 2
𝑦ො − t 𝐧−𝟏,αΤ2 ∗ se + ≤ 𝐸(𝑦|𝑥0 ) ≤ 𝑦ො + t 𝒏−𝟏,αΤ2 ∗ se +
𝑛 SSx 𝑛 SSx

• Intervalos de predicción del 1 − 𝛼 100% de confianza para 𝑦 dado 𝑥 = 𝑥0


1 (𝑥0 −𝑥)ҧ 2 1 (𝑥0 −𝑥)ҧ 2
𝑦ො − t 𝒏−𝟏,αΤ2 ∗ se 1+ + ≤ 𝑦|𝑥0 ≤ 𝑦ො + t 𝐧−𝟏,αΤ2 ∗ se 1 + +
𝑛 SSx 𝑛 SSx
Ejercicio 1 en Clase
Ejercicio 2 en Clase

Potrebbero piacerti anche