19 - Regresión Lineal Simple PDF

Análisis de Datos I
Unidad 7: Regresión Lineal Simple
Clase: Regresión Lineal Simple

I Semestre de 2018
Modelos de regresión
El análisis de regresión es un estudio de las relaciones entre
variables: una variable dependiente y una o más variables
independientes.
Conceptos Generales sobre Regresión
Lineal Simple
Modelo de regresión lineal
1. Modelo de Regresión Lineal Simple
• La relación de Regresión entre los valores observados de 𝑦 y 𝑥 es
expresado como un modelo de regresión, por ejemplo, 𝑦 = 𝛽0 + 𝛽1 𝑥 + 𝜀,
donde 𝑦 es la variable dependiente, 𝑥 es la variable independiente, 𝛽0 y
𝛽1 son parámetros del modelo, y 𝜀 es un termino de error que refleja la
diferencia entre el valor observado de 𝑦 y su esperanza condicional bajo el
modelo, 𝜀 = 𝑦 − 𝑦ො = 𝑦 − 𝛽0 − 𝛽1 𝑥
• En ocasiones se denomina a la variable dependiente variable de respuesta

y a la variable independiente variable de predicción.
Tipos de modelos
• Modelo Probabilístico o estocástico
𝑦 = 𝛽0 + 𝛽1 𝑥 + 𝜀
𝛽0 + 𝛽1 𝑥 es la componente determinística de este modelo
• Modelo determinístico
𝑦 = 𝛽0 + 𝛽1 𝑥
Ecuación de regresión
• La ecuación de regresión estimada será representada así: 𝑦ො = 𝑏0 + 𝑏1 𝑥
Modelo de Parámetro Estimación

𝛽0 𝑏0
𝛽1 𝑏1
𝜎2 𝑠𝑒2
E(y|x) 𝑦ො
• Los errores e=𝑦 − 𝑦ො se denominan frecuentemente residuales.

Supuestos para el modelo de regresión
lineal
• Para cada valor de x, la variable aleatoria 𝜀 se distribuye normalmente.
• Para cada valor de x, la media o valor esperado de 𝜀 es 0; esto es

E(𝜀)=𝜇𝜀 = 0
• Para cada valor de x, la varianza de 𝜀 es la constante 𝛿 2
• Los valores del término de error 𝜀 son independientes.

2. Estimación de parámetros por
mínimos cuadrados
Método de los mínimos cuadrados
*Suma de cuadrados para x
σ 2
( 𝑥)
𝑆𝑆𝑥 = ෍ 𝑥 2 −
𝑛
*Suma de cuadrados para y
(σ 𝑦)2
𝑆𝑆𝑦 = σ 𝑦2
−
𝑛
*Suma de los productos cruzados
σ𝑥 σ𝑦
𝑆𝑆𝑥𝑦 = ෍ 𝑥𝑦 −
𝑛
*Pendiente de la recta de regresión
𝑆𝑆𝑥𝑦
𝑏1 =
𝑆𝑆𝑥
*Intercepto
𝑏0 = 𝑦ത − 𝑏1 𝑥ҧ
3. Análisis de Varianza
*Suma de cuadrados del error
ො 2
𝑆𝑆𝐸 = ෍(𝑦 − 𝑦)
*Varianza residual
A la varianza de los errores se le llama varianza residual.
𝑆𝑆𝐸
𝑠𝑒2
=
𝑛−2
Donde n-2 son los grados de libertad asociados con la varianza
de los residuales.
A 𝑠𝑒 se le llama error estándar de estimación, que es la raíz
cuadrada positiva de la varianza residual.
• 𝑆𝑆𝐸 = 𝑆𝑆𝑦 − 𝑏1 𝑆𝑆𝑥𝑦
Aclaración
El valor de una variable aleatoria se predice, mientras que el valor de un
parámetro se estima.
Inferencias sobre el modelo de
regresión lineal
Prueba de Hipótesis:
Ho: 𝛽1 = 0
H1: 𝛽1 ≠ 0
Para determinar si 𝛽1 = 0 separaremos 𝑆𝑆𝑦 en dos componentes SSE y SSR.
ത 2 = ෍(𝑦 − 𝑦)
෍(𝑦 − 𝑦) ො 2 + ෍(𝑦ො − 𝑦)
ത 2
𝑆𝑆𝑦 SSE SSR

A SSR se le llama suma de cuadrados de la regresión. Entonces tenemos:
𝑆𝑆𝑦 =SSR+SSE. Debido a que SSE= 𝑆𝑆𝑦 − 𝑏1 𝑆𝑆𝑥𝑦 , SSR= 𝑏1 𝑆𝑆𝑥𝑦
Inferencias sobre el modelo de
regresión lineal
Prueba de ajuste del modelo
𝑆𝑆𝑅
𝐹=
𝑠𝑒2
La distribución muestral del estadístico 𝑆𝑆𝑅
ൗ𝑠𝑒2 es una distribución F con gl =
(1,n-2), o gl=1 para SSR y gl = n-2 para 𝑠𝑒2 . Se puede usar el estadístico F para
determinar si 𝛽1 es diferente de cero. En esta prueba 𝐻0 : 𝛽1 =0.
Cuadrados Medios
Cualquier suma de cuadrados dividida entre sus grados de libertad asociados
proporciona una estimación de la varianza, llamada un cuadrado medio,
𝑆𝑆
denotado por MS. Así: MS =
𝑔𝑙
Cuadrados medios
• Cuadrado medio de la regresión
SSR
MSR = = SSR
1
• Cuadrado medio del error

SS𝐸
MSE = = 𝑠𝑒2
n−2
ANOVA
Fuente de SS gl MS F
varianza
Regresión 𝑆𝑆𝑅 1 SSR 𝑆𝑆𝑅ൗ
𝑠𝑒2
Error 𝑆𝑆𝐸 n-2 𝑠𝑒2 = SSE/(n − 2)
Total (y) 𝑆𝑆𝑦 n-1
𝑆𝑆𝑅
• Calcular 𝑓0 =
𝑠2
• Si𝑓0 > 𝑓𝛼,1,𝑛−2 rechazar Ho
• Conclusión? Si se rechazo Ho, se concluye que los datos reflejan evidencia

suficiente para apoyar la recta de regresión postulada.
4. Coeficientes de correlación y
determinación
Modelo de regresión lineal: Diagrama de
Dispersión
MRL: Diagrama de Dispersión – Relación entre variables
Covarianza de dos variables X e Y
• La covarianza entre dos variables, Sxy, nos indica si
la posible relación entre dos variables es directa o
inversa.
– Directa: Sxy >0
– Inversa: Sxy <0 1 n
– Incorreladas: Sxy =0 S xy    xi  x  yi  y 
n i 1
• El signo de la covarianza nos dice si el aspecto de

la nube de puntos es creciente o no, pero no nos
dice nada sobre el grado de relación entre las
variables.
Análisis de correlación
• El coeficiente de correlación lineal de Pearson de dos variables, r,
nos indica si los puntos tienen una tendencia a disponerse
alineadamente (excluyendo rectas horizontales y verticales).
• Tiene el mismo signo que Sxy por tanto de su signo obtenemos el

que la posible relación sea directa o inversa.
• r es útil para determinar si hay relación lineal entre dos variables,

pero no servirá para otro tipo de relaciones (cuadrática,
logarítmica,...)
 
n 2
S xx   X i  X
i 1 S xy
r
 
n 2
S yy   Yi  Y S xx S yy
i 1
  
n
S xy   X i  X Yi  Y
i 1
MRL: Diagrama de Dispersión – Relación entre variables
Propiedades de r
• Es adimensional
• Sólo toma valores entre [-1,1]
• Las variables no tienen correlación lineal  r=0
• Relación lineal perfecta entre dos variables  r=+1 o r=-1
• Cuanto más cerca esté r de +1 o -1 mejor será el grado de
relación lineal.
Relación
inversa Relación
perfecta directa
Variables
incorreladas casi
perfecta
-1 0 +1
Correlación
Coeficiente de determinación
• Coeficiente de determinación
𝑆𝑆𝑦 = 𝑆𝑆𝑅 + 𝑆𝑆𝐸
𝑆𝑆𝑅 𝑆𝑆𝐸
Luego dividiendo a ambos lados por 𝑆𝑆𝑦 , tenemos: 1 = + .
𝑆𝑆𝑦 𝑆𝑆𝑦
𝑆𝑆𝑅
La expresión determina la calidad del modelo para replicar los
𝑆𝑆𝑦
resultados, y a su vez representa la proporción de variación de los
resultados que puede explicarse por el modelo. Se le llama coeficiente
de determinación.
Suma de cuadrados explicada por la regresión 𝑆𝑆𝑅

𝑅2 = =
suma total de cuadrados (antes de la regresión) 𝑆𝑆𝑦
𝑆𝑆𝐸
Luego, 1 = 𝑅2 + . Entonces 𝟏 − 𝑹𝟐 representa el porcentaje de la
𝑆𝑆𝑦
suma total de cuadrados que no se puede atribuir a la regresión, pero
sí al error.
5. Validación de supuestos
(Normalidad, Independencia,
Homocedasticidad)
Supuestos de los Residuales
Los residuales deben responder a una distribución normal

Los residuales no deben ser autocorrelacionados
Igualdad de varianzas de los residuales y lo pronósticos
Verificación de Supuestos: 1) Prueba
de Normalidad
de Independencia
de Independencia
• Para muestras grandes:

de Independencia
positiva
negativa
de Independencia
de Homocedasticidad
de Homocedasticidad
de Homocedasticidad
6. Inferencias acerca de los
coeficientes de regresión
Intervalos de confianza
• Intervalos del 1 − 𝛼 100% de confianza para 𝛽0 :
1 𝑥ത 2 1 𝑥ҧ 2
b0 − t n−2,αΤ2 ∗ se + ≤ β0 ≤ b0 + t n−2,αΤ2 ∗ se +
𝑛 SSx 𝑛 SSx

se se
b1 − t n−2,αΤ2 ≤ β1 ≤ b1 + t n−2,αΤ2
SSx SSx
• Intervalos de 1 − 𝛼 100% de confianza para la respuesta media 𝐸(𝑦|𝑥0 )

1 (𝑥0 −𝑥)ҧ 2 1 (𝑥0 −𝑥)ҧ 2
𝑦ො − t n−2,αΤ2 ∗ se + ≤ 𝐸(𝑦|𝑥0 ) ≤ 𝑦ො + t 𝑛−2,αΤ2 ∗ se +
𝑛 SSx 𝑛 SSx
Este intervalo sirve para estimar el valor promedio de y dado x.
Ejemplo: Intervalo de confianza para la
pendiente
Ejemplo: Intervalo de confianza para la
respuesta media, tal que Xo=20%
Pruebas de hipótesis para 𝛽0
Para 𝛽0 :
H 0 :  0  B0 H 0 :  0  B0 H 0 :  0  B0
H1 :  0  B0 H1 :  0  B0 H1 :  0  B0
Valor de la estadística de prueba:

b0  B0
t
 1 x2 
s  
2
e 
 n SS x 
Distribución t con n – 2 grados de libertad.

Pruebas de hipótesis para 𝛽1
Para 𝛽1 :
H 0 : 1  B1 H 0 : 1  B1 H 0 : 1  B1
H1 : 1  B1 H1 : 1  B1 H1 : 1  B1
Valor de la estadística de prueba:

b1  B1
t
se2
ssx
Distribución t con n – 2 grados de libertad.

7. Intervalos de predicción
Intervalos de predicción para Y
• Intervalos de predicción del 1 − 𝛼 100% de confianza para 𝑦

dado 𝑥 = 𝑥0
1 (𝑥0 −𝑥)ҧ 2 1 (𝑥0 −𝑥)ҧ 2

𝑦ො − t 𝑛−2,αΤ2 ∗ se 1+ + ≤ 𝑌 ≤ 𝑦ො + t n−2,αΤ2 ∗ se 1 + +
𝑛 SSx 𝑛 SSx
Este intervalo sirve para predecir un valor individual de y para un

valor dado de x.
Ejemplo: Intervalo de predicción para y,
cuando Xo=20%
8. CASO ESPECIAL: 𝑏0 no es
significativo
Si 𝑏0 no es significativo
• ANOVA presenta modificaciones
Fuente de SS gl MS F
varianza
Regresión 𝑆𝑆𝑅 1 SSR 𝑆𝑆𝑅ൗ
𝑠𝑒2
Error 𝑆𝑆𝐸 n-1 𝑠𝑒2 = SSE/(n − 1)
Total (y) 𝑆𝑆𝑦 n
Intervalos de confianza, Si 𝑏0 no es
significativo
se se
b1 − t 𝐧−𝟏,αΤ2 ≤ β1 ≤ b1 + t 𝐧−𝟏,αΤ2
SSx SSx
• Intervalos de 1 − 𝛼 100% de confianza para la respuesta media 𝐸(𝑦|𝑥0 )

1 (𝑥0 −𝑥)ҧ 2 1 (𝑥0 −𝑥)ҧ 2
𝑦ො − t 𝐧−𝟏,αΤ2 ∗ se + ≤ 𝐸(𝑦|𝑥0 ) ≤ 𝑦ො + t 𝒏−𝟏,αΤ2 ∗ se +
𝑛 SSx 𝑛 SSx
• Intervalos de predicción del 1 − 𝛼 100% de confianza para 𝑦 dado 𝑥 = 𝑥0

1 (𝑥0 −𝑥)ҧ 2 1 (𝑥0 −𝑥)ҧ 2
𝑦ො − t 𝒏−𝟏,αΤ2 ∗ se 1+ + ≤ 𝑦|𝑥0 ≤ 𝑦ො + t 𝐧−𝟏,αΤ2 ∗ se 1 + +
𝑛 SSx 𝑛 SSx
Ejercicio 1 en Clase
Ejercicio 2 en Clase

19 - Regresión Lineal Simple PDF

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

19 - Regresión Lineal Simple PDF

Caricato da

Copyright:

Formati disponibili

Análisis de Datos I

Unidad 7: Regresión Lineal Simple

Clase: Regresión Lineal Simple

• En ocasiones se denomina a la variable dependiente variable de respuesta

𝛽0 + 𝛽1 𝑥 es la componente determinística de este modelo

Modelo de Parámetro Estimación

• Los errores e=𝑦 − 𝑦ො se denominan frecuentemente residuales.

• Para cada valor de x, la media o valor esperado de 𝜀 es 0; esto es

• Para cada valor de x, la varianza de 𝜀 es la constante 𝛿 2

• Los valores del término de error 𝜀 son independientes.

Para determinar si 𝛽1 = 0 separaremos 𝑆𝑆𝑦 en dos componentes SSE y SSR.

𝑆𝑆𝑦 SSE SSR

• Cuadrado medio del error

• Si𝑓0 > 𝑓𝛼,1,𝑛−2 rechazar Ho

• Conclusión? Si se rechazo Ho, se concluye que los datos reflejan evidencia

• El signo de la covarianza nos dice si el aspecto de

• Tiene el mismo signo que Sxy por tanto de su signo obtenemos el

• r es útil para determinar si hay relación lineal entre dos variables,

Suma de cuadrados explicada por la regresión 𝑆𝑆𝑅

Los residuales deben responder a una distribución normal

• Para muestras grandes:

• Intervalos del 1 − 𝛼 100% de confianza para 𝛽1 :

• Intervalos de 1 − 𝛼 100% de confianza para la respuesta media 𝐸(𝑦|𝑥0 )

Valor de la estadística de prueba:

Distribución t con n – 2 grados de libertad.

Valor de la estadística de prueba:

Distribución t con n – 2 grados de libertad.

• Intervalos de predicción del 1 − 𝛼 100% de confianza para 𝑦

1 (𝑥0 −𝑥)ҧ 2 1 (𝑥0 −𝑥)ҧ 2

Este intervalo sirve para predecir un valor individual de y para un

• Intervalos de 1 − 𝛼 100% de confianza para la respuesta media 𝐸(𝑦|𝑥0 )

• Intervalos de predicción del 1 − 𝛼 100% de confianza para 𝑦 dado 𝑥 = 𝑥0

Potrebbero piacerti anche