Sei sulla pagina 1di 15

9.

Introdução à regressão linear simples

Modelos de regressão.
Uma variável aleatória pode ser explicada quer por factores determinís-
ticos quer por factores aleatórios. Este capítulo distingue-se dos capítu-
los anteriores, uma vez que o estudo de variáveis aleatórias não é feito
somente com base em componentes não determinísticas.

Ou seja, uma variável de interesse Y passa a ter duas componentes:


previsível e aleatória. Supondo uma estrutura aditiva entre elas,

Y = g(x) + ǫ,

onde g(x) é a parte previsível de Y , formada por uma variável auxiliar


x observável para cada elemento da amostra, e ǫ é a sua parte aleatória.

NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS – 178/207

A parte previsível de Y é considerada fixa, mesmo que seja uma função


de parâmetros desconhecidos, enquanto a parte aleatória tem uma dis-
tribuição de probabilidade. Nesse cenário, o conjunto de dados é for-
mado por n pares (yi , xi ), i = 1, . . . , n.

Considerando uma a.a. (Yi , xi ), i = 1, . . . , n, um modelo estatístico para


relacionar Y e x é dado por

Yi = β0 + β1 xi + ǫi ,

onde Yi é a variável resposta do i-ésimo elemento da amostra, enquanto


xi é a sua variável explicativa (fixa), β0 e β1 são parâmetros (desco-
nhecidos) e ǫi é o erro aleatório do elemento i da amostra.

O modelo acima é conhecido por modelo de regressão linear simples,


com parte previsível g(x) = β0 + β1 x e parte aleatória ǫ, cuja dis-
tribuição de probabilidade se supõe usualmente ser Normal.

NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS – 179/207


Suposições usuais para os erros aleatórios ǫi , i = 1, . . . , n:
• E(ǫi ) = 0. Isso implica que, dado um valor de x,

E(Y |x) = β0 + β1 x,

conhecida por equação ou recta de regressão do modelo.


• V ar(ǫi ) = σ 2 , ∀ i (variância constante).
• ǫ1 , . . . , ǫn são não correlacionados (ou independentes).
• ǫi segue uma distribuição Normal.

Intrepretação dos parâmetros de regressão:


• A ordenada na origem β0 é o valor esperado de Y com valor nulo
para a variável explicativa x.
• O declive da recta de regressão β1 é a variação do valor esperado
de Y por cada incremento unitário em x.
NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS – 180/207

y6 E(Y |x) = β0 +β1 x




 β1


 1


β0
-
x0 x0 +1 x

Parâmetros de regressão:
• β0 = E(Y |x = 0).
• β1 = E(Y |x0 +1) − E(Y |x0 ), ∀ x0 .

NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS – 181/207


Método dos mínimos quadrados em regressão lin-
ear simples.
Um método de estimação dos coeficientes de regressão é o método de
mínimos quadrados que consiste em minimizar a soma de quadrados
dos erros aleatórios. Ou seja, o valor que minimiza a função
n
X n
X
SQ(β0 , β1 ) = ǫ2i = (Yi − β0 − β1 xi )2 ,
i=1 i=1

denotado por (β̂0 , β̂1 ), é denominado o estimador de mínimos quadrados


dos coeficientes de regressão.

Para a determinação da estimativa associada a (β̂0 , β̂1 ), deve-se encon-


trar as derivadas parciais da função SQ(β0 , β1 ) avaliada em {(yi , xi )}
em relação aos parâmetros β0 e β1 .

NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS – 182/207

P

∂β0
SQ(β0 , β1 ) = 2 ni=1 (Yi − β0 − β1 xi )(−1)
P

∂β1
SQ(β0 , β1 ) = 2 ni=1 (Yi − β0 − β1 xi )(−xi )

Logo,

Pn Pn
SQ(β0 , β1 ) =0 ⇒ Yi = n β0 + β 1 i=1 xi
∂β0

Pi=1
n P n Pn 2
∂β1
SQ(β0 , β1 ) =0 ⇒ i=1 xi Yi = β0 i=1 xi + β1 i=1 xi

A solução desse sistema de equações é


Pn
i=1 xi Yi − n x̄ Ȳ
β0 = Ȳ − β̂1 x̄ e β1 = P n 2 2
.
x
i=1 i − n x̄

NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS – 183/207


Pode-se provar que este é ponto de mínimo, visto que a matriz hessiana
avaliada neste ponto é definida positiva, e portanto os estimadores de
mínimos quadrados de β0 e β1 são dados por
n
X
xi Yi − n x̄ Ȳ
i=1
β̂0 = Ȳ − β̂1 x̄ e β̂1 = n .
X
x2i − n x̄2
i=1

Consequentemente, a equação ou recta de regressão é estimada por

b |x) = β̂0 + βˆ1 x,


Yb ≡ E(Y

i.e., dado um valor x, o valor esperado de Y é estimado por β̂0 + βˆ1 x. A


estimação pontual de E(Y |x) deve restringir-se ao domínio dos valores
observados na amostra da variável explicativa x.
NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS – 184/207

Estimadores de máxima verosimilhança.


Supondo que os erros aleatórios ǫi ∼ N (0, σ 2 ), i = 1, . . . , n, tem-se que
Yi ∼ N (β0 +β1 xi , σ 2 ) e portanto a função de verosimilhança associada
ao modelo de regressão linear simples é
n 
Y  
2 1 1 2
L(β0 , β1 , σ |{yi , xi }) = √ exp − 2 (yi − β0 − β1 xi )
i=1
2πσ 2σ

A maximização da função acimaPn em relação aos parâmetros β0 e β1


restringe-se a maximizar − i=1 (yi − β0 − β1 xi ) = −SQ(β0 , β1 ).
2

Ou seja, minimizar a soma de quadrados dos erros aleatórios. Por


conseguinte, os estimadores de máxima verosimilhança de β0 e β1 são
os estimadores de mínimos quadrados dos parâmetros, β̂0 e β̂1 . Além
P
disso, pode-se provar que o e.m.v. de σ 2 é σ̃ 2 = n1 ni=1 (Yi−β̂0−β̂1 xi )2 .

NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS – 185/207


Propriedades dos estimadores dos mínimos
quadrados.

• Estimador β̂1 :

Pn Pn n
i=1 x i Yi − n x̄ Ȳ i=1 (xi − x̄)Yi X
β̂1 = Pn 2 2
= Pn 2
= ki Yi ,
x
i=1 i − n x̄ i=1 (x i − x̄) i=1
Pn Pn
onde ki = P n xi(x−x̄ 2 , com i=1 ki = 0, i=1 ki xi = 1 e
i=1 i −x̄)
Pn 2
2.
Pn 1 1
i=1 ki = (xi −x̄)2
i=1
= Pn 2
i=1 i −n x̄
x

Logo,
Pn Pn Pn
i=1 ki xi = β1 .
• E(β̂1 ) = k E(Y ) = β0 k + β1
i=1 i i i=1 i
Pn 2 P n
i=1 xi − n x̄ ) .
• V ar(β̂1 ) = 2 2 2 −1
i=1 ki V ar(Yi ) = σ (

NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS – 186/207

• Estimador β̂0 :

n n n
1X X X
β̂0 = Ȳ − β̂1 x̄ = Yi − ki Yi x̄ = wi Yi ,
n i=1 i=1 i=1
Pn Pn
onde wi = (1/n − ki x̄), com i=1 wi = 1, i=1 w i xi = 0 e
Pn 1 2
w 2
= ( + P n x̄ 2 ).
i=1 i n x −n x̄2
i=1 i

Logo,
Pn Pn Pn
i=1 wi xi = β0 .
• E(β̂0 ) = w E(Y ) = β0 w + β1
i=1 i i i=1 i
Pn 2 1 2
• V ar(β̂0 ) = 2 P n x̄ 2
i=1 wi V ar(Yi ) = σ ( n + x −n x̄2
).
i=1 i

Note-se que β̂0 e β̂1 são combinações lineares dos Yi e estimadores cen-
trados de β0 e β1 , respectivamente.

NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS – 187/207


• Estimador σ̂ 2 :

Seja SSE a soma de quadrados dos resíduos Yi − Ŷi , i = 1, . . . , n,


onde Ŷi ≡ β̂0 + β̂1 xi , isto é,
Pn 2
Pn 2
SSE = (Y
i=1 i − Ŷi ) = i=1 (Yi − Ȳ + β̂1 x̄ − β̂1 xi )
Pn 2 2
Pn 2
= i=1 (Yi − Ȳ ) − β̂1 i=1 (xi − x̄) ,

Pn Pn
onde SST = i=1 (Yi − Ȳ ) e SSR = β̂1
2 2 2
i=1 (xi − x̄) =
Pn
i=1 (Ŷi − Ȳ ) são conhecidas por somas de quadrados total e da
2

regressão, respectivamente, tal que SST = SSR + SSE.

Pode-se provar que E(SSE) = (n−2)σ 2 e portanto um estimador


centrado de σ 2 é
Xn  Xn 
SSE 1
σ̂ 2 = = Yi2 −n Ȳ 2 − β̂12 x2i −n x̄2 .
n−2 n−2 i=1 i=1
NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS – 188/207

Exemplo 9.1: A resistência de uma certa fibra sintética (Y ) é suposta


estar relacionada com a percentagem de algodão (x). Para avaliar essa
conjectura tomou-se uma amostra aleatória de 10 peças da fibra pro-
duzidas sob as mesmas condições, obtendo-se os seguintes dados:

y 213 220 216 225 235 218 239 243 233 240
x 13 15 14 18 19 17 22 21 16 18

P10
i=1 xi = 173
P10
i=1 yi = 2288
235

P10 2
i=1 xi = 3069
y

P10 2
225

i=1 yi = 524510
P10
i=1 xi yi = 39825
215

14 16 18 20 22

NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS – 189/207


As estimativas de mínimos quadrados de β0 e β1 são

β̂1 = 39825−10×17.3×228.8
3069−10×17.32
= 3.188
β̂0 = 228.8 − 3.188 × 17.3 = 173.65

Consequentemente, a equação ou recta de regressão estimada é

Yb ≡ E(Y
b |x) = 173.65 + 3.188 x,

sendo 3.188 a variação na resistência média da fibra sintética por cada


incremento de 1% na percentagem de algodão.

A estimativa da variância dos erros aleatórios é


 
2 1 2 2 2
σ̂ = (524510−10×228.8 )−3.188 (3069−10×17.3 ) = 30.27.
8

NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS – 190/207

Inferências adicionais no modelo de regressão lin-


ear simples.
Parâmetro β1 .
P
Como β̂1 = ni=1 ki Yi é uma combinação linear de normais indepen-
P
dentes, E(β̂1 ) = β1 e V ar(β̂1 ) = σ 2 ( ni=1 x2i − n x̄2 )−1 , então
 
σ2
β̂1 ∼ N β1 , Pn 2 2
,
i=1 xi − n x̄

e, por conseguinte,

β̂1 − β1
T =q ∼ t(n−2) .
Pn σ̂ 2
2 2
i=1 xi −n x̄

NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS – 191/207


Considerando T acima como variável fulcral na construção de um in-
tervalo de confiança a 100(1−α)% para β1 , tem-se que

P (a < T < b) = γ = 1−α,

onde b = −a = Ft−1
(n−2)
(1− α2 ), e −b 0 b T

 s s 
σ̂ 2 σ̂ 2
P β̂1 −b Pn 2 2
< β1 < β̂1 +b Pn 2 2
= 1−α
i=1 xi − n x̄ i=1 xi − n x̄

Logo, um intervalo (aleatório) de confiança a 100(1−α)% para β1 é


s
σ̂ 2
IAC(β1 , 1−α) = β̂1 ± b P n 2 2
.
i=1 xi − n x̄

NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS – 192/207

Teste de hipóteses:

1. Hipóteses: H0 : β1 = β10 versus H1 : β1 6= β10 .


β̂1 −β10 H0
2. Estatística do teste: T0 = r
σ̂ 2
∼ t(n−2) , cujo valor
Pn
x2 −n x̄2
i=1 i
observado é denotado por t0 .
3. Região crítica: Fixado α, RCα = (−∞, −b) ∪ (b, ∞), onde b =
−a = Ft−1
(n−2)
(1 − α2 ).

−b 0 b T

4. Conclusão: Se t0 ∈ RCα , rejeita-se H0 ao nível de significância


de 100α%. Caso contrário, não se rejeita H0 a 100α%.

NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS – 193/207


Parâmetro β0 .
P
Como β̂0 = ni=1 wi Yi é uma combinação linear de normais indepen-
dentes, então
• E(β̂0 ) = β0

• V ar(β̂0 ) = σ 2 ( 1 + x̄2
2 ).
Pn 2
n i=1 xi −n x̄

Logo,
  2

1 x̄
β̂0 ∼ N β0 , σ 2 + Pn 2 2
,
n x
i=1 i − n x̄
e, por conseguinte,

β̂0 − β0
T =q ∼ t(n−2) .
x̄2
σ̂ 2 ( n1 + Pn 2 2)
i=1 xi −n x̄

NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS – 194/207

Considerando T acima como variável fulcral na construção de um in-


tervalo de confiança a 100(1−α)% para β0 , tem-se que

P (a < T < b) = γ = 1−α,

onde b = −a = Ft−1
(n−2)
(1− α2 ), e −b 0 b T

 s   s  
1 x̄2 1 x̄2
P β̂0 − b σ̂ 2 + Pn 2 2
< β0 < β̂0 + b σ̂ 2 + Pn 2 2
= 1−α
n i=1 xi − n x̄ n i=1 xi − n x̄

Logo, um intervalo (aleatório) de confiança a 100(1 − α)% para β0 é


dado por
s  
1 x̄ 2
IAC(β0 , 1−α) = β̂0 ± b σ̂ 2 + Pn 2 2
.
n x
i=1 i − n x̄
NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS – 195/207
Teste de hipóteses:

1. Hipóteses: H0 : β0 = β00 versus H1 : β0 6= β00 .


β̂0 −β00 H0
2. Estatística do teste: T0 = r
1 2
∼ t(n−2) , cujo
σ̂ 2 ( n + P n x̄ 2 )
x −n x̄2
i=1 i
valor observado é denotado por t0 .
3. Região crítica: Fixado α, RCα = (−∞, −b) ∪ (b, ∞), onde b =
−a = Ft−1
(n−2)
(1 − α2 ).

−b 0 b T

4. Conclusão: Se t0 ∈ RCα , rejeita-se H0 ao nível de significância


de 100α%. Caso contrário, não se rejeita H0 a 100α%.

NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS – 196/207

Estimação de E(Y |x0 ).

Dado um valor x0 da variável explicativa, um estimador pontual do


valor esperado de Y é
n 
X 
1
Yb0 ≡ E(Y
b |x0 ) = β̂0 + β̂1 x0 = + ki (x0 − x̄) Yi .
i=1
n

Como Yb0 é uma combinação linear de normais e


b0 ) = E(β̂0 ) + E(β̂1 )x0 = β0 + β1 x0 ,
• E(Y

b0 ) = · · · = σ 2 ( 1 +
• V ar(Y (x̄−x0 )2
2 ),
Pn 2
n i=1 xi −n x̄

β̂0 + β̂1 x0 − β0 + β1 x0
T = q ∼ t(n−2) .
2 1 (x̄−x0 )2
σ̂ ( n + P n x2 −n x̄2 )
i=1 i

NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS – 197/207


Considerando T acima como variável fulcral na construção de um in-
tervalo de confiança a 100(1−α)% para E(Y |x0 ), tem-se que

P (a < T < b) = γ = 1−α,

onde b = −a = Ft−1
(n−2)
(1− α2 ), e
 q 2
P β̂0 + β̂1 x0 − b σ̂ 2 ( n1 + P n x̄x2 −n x̄2 ) < E(Y |x0 ) <
i=1 i
q 
1 x̄2
β̂0 + β̂1 x0 + b σ̂ 2 ( n + P n x2 −n x̄2 ) = 1−α
i=1 i

Logo, um intervalo (aleatório) de confiança a 100(1−α)% para E(Y |x0 )


é dado por
s  
1 x̄ 2
IAC(E(Y |x0 ), 1−α) = β̂0 + β̂1 x0 ± b σ̂ 2 + Pn 2 2
.
n x
i=1 i − n x̄

NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS – 198/207

Teste de hipóteses:

1. Hipóteses: H0 : E(Y |x0 ) = β00 + β10 x0 versus H1 : E(Y |x0 ) 6=


β00 +β10 x0 .
β̂ +β̂ x −(β00+β10 x0 ) H0
2. Estatística do teste: T0 = r 0 1 0
(x̄−x0 )2
 ∼ t(n−2) , cujo
1
σ̂ 2 n + Pn 2 2
x −n x̄
i=1 i
valor observado é denotado por t0 .
3. Região crítica: Fixado α, RCα = (−∞, −b) ∪ (b, ∞), onde b =
−a = Ft−1
(n−2)
(1 − α2 ).

−b 0 b T

4. Conclusão: Se t0 ∈ RCα , rejeita-se H0 ao nível de significância


de 100α%. Caso contrário, não se rejeita H0 a 100α%.

NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS – 199/207


Exemplo 9.1a: Teste ao nível de significância de 1% se a percentagem
de algodão (x) influencia a resistência da fibra sintética (Y ).
Teste de hipóteses:

1. Hipóteses: H0 : β1 = 0 ≡ β10 versus H1 : β1 6= β10 .


β̂1 −β10 H0
2. Estatística do teste: T0 = r
σ̂ 2
∼ t(n−2) , cujo valor
Pn
x2 −n x̄2
i=1 i
p
observado é denotado por t0 = 3.188/ 30.27/76.1 = 5.054.
3. Região crítica: Fixado α = 0.01, RCα = (−∞, −3.355) ∪
(3.355, ∞), onde Ft−1
(8)
(0.995) = 3.355.
4. Conclusão: Como t0 ∈ RC0.01 , rejeita-se H0 ao nível de sig-
nificância de 1%. Note-se que o valor-p = P (|T0 | ≥ 5.054|H0 ) <
0.001, pois Ft−1
(8)
(0.9995) = 5.041, e portanto há forte evidência
de que a percentagem de algodão influencia a resistência da fibra
sintética.
NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS – 200/207

Coeficiente de determinação.
Definição 9.1: O coeficiente de determinação é uma medida relativa de
ajustamento do modelo de regressão linear, dada por

SSR SSE
R2 = =1− ,
SST SST
P P
onde SST = ni=1 (Yi − Ȳ )2 e SSR = β̂12 ni=1 (xi − x̄)2 e portanto
Pn 2
2 ( i=1 xi Yi − n x̄ Ȳ )
R = Pn 2 P .
( i=1 xi − n x̄2 )( ni=1 Yi2 − n Ȳ 2 )

O coeficiente de determinação é tal que 0 ≤ R2 ≤ 1, onde


• R2 → 1 indica bom ajustamento do modelo;
• R2 → 0 indica mau ajustamento do modelo.

NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS – 201/207


y y
6 2
R ≈1 6 R2 ≈ 0
*
*
* ! !
* !!!
ȳ - - - - - - - - -*- - *- - - - - - - ȳ - - - -!- ! - *- - *- - -*-*- - -
- -*!-! !
* *
*
**

- -
x x

Nota: Existem testes de hipóteses de ajustamento do modelo, e.g., o teste


F de falta de ajustamento (lack-of-fit).

NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS – 202/207

Análise de resíduos na avaliação do modelo.


A violação das suposições do modelo de regressão linear pode induzir a
conclusões erradas sobre o modelo. Esse problema pode ser detectado
através de técnicas de diagnóstico baseadas frequentemente na análise
de resíduos.
A definição mais simples de resíduo é dada por

ri = yi − ŷi = yi − β̂0 − β̂1 xi ,

onde (yi , xi ) são os valores observados na amostra, i = 1, . . . , n, en-


quanto os resíduos padronizados são por
ri
ris = √ ,
σ̂ 2
P P
onde σ̂ 2 = n−2
1
[( ni=1 Yi2 −n Ȳ 2 ) − β̂12 ( ni=1 x2i −n x̄2 )].
NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS – 203/207
A análise de gráficos de resíduos é a técnica de diagnóstico mais usada
para encontrar:
• Observações discrepantes (outliers).
• Heterogeneidade da variância (V ar(Yi ) 6= σ 2 para algum i).
• Falta de normalidade (Yi ≁ N (·, ·)).
• Dependência dos erros aleatórios (Cov(Yi , Yj ) 6= 0).

Os gráficos de resíduos mais comuns são:


• ri versus xi .
• ri versus ŷi .
• ri ao longo do tempo (se for possível).

NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS – 204/207

ri ri
6 6

* *
* * * *
*
0 - - - - - - - -*- - - - - - - - - - ------------------
* * * * * *

* *

- -
xi xi

sem problemas perda de linearidade

NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS – 205/207


Exemplo 9.1b: Avalie o ajustamento do modelo de regressão linear sim-
ples (Y = β0 +β1 x+ǫ), incluindo um gráfico de resíduos.

2 (39825 − 10 × 17.3 × 228.8)2


r = = 0.7615.
(3069 − 10 × 17.32 )(524510 − 10 × 228.82 )

Ou seja, 76.15% da variação total da resistência da fibra sintética é ex-


plicada pelo modelo de regressão linear simples com a percentagem de
algodão como variável explicativa.

2.0
standardized.residuals
Gráficos de resíduos:

1.0
y√
• ris = i −ŷi
, i = 1, . . . , 10.
0.0
σ̂ 2
• inexistência de problemas.
−1.0

14 16 18 20 22

NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS – 206/207

Alguns abusos no modelo de regressão:


• Seleccção de variável explicativa.
• É possível desenvolver uma relação estatisticamente significa-
tiva entre a variável resposta (Y ) e a variável explicativa (x)
que não faça sentido na prática.
• O domínio de actuação dos dados originais.
• A relação linear assumida para as variáveis resposta e explica-
tiva não pode ser estendida para fora do domínio de actuação
dos dados observados. Por exemplo, se os valores da variável
explicativa x ∈ [13, 22], não se deve inferir sobre o valor es-
perado da variável resposta Y quando x0 = 25, a não ser que
haja informação adicional sobre a validade do modelo sobre
esse domínio estendido.

FIM!
NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS – 207/207

Potrebbero piacerti anche