Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Dedicatória
Agradecimentos
1.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.3.2 Estimação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
v
vi
1.4 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.1 Notação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.2 O Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.3 Estimação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2.5 Previsão da Média da Variável Resposta para Valores Fixados das Variáveis
Regressoras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
2.6 O Teste F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
2.7 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
3 Análise de Resı́duos 87
3.1 Influência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
3.2 Outliers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
3.4 Não-Linearidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
1.1 Introdução
A seguir apresentamos algumas situações práticas que podem ser analisadas através
de modelos de regressão linear.
1
O nome regressão é devido a Francis Galton, que em 1885 publicou um trabalho intitulado “Re-
gression Toward Mediocrity in Hereditary Study”, onde analisava a relação entre os pesos dos filhos e
o peso médio dos pais (Johnson e Bhattacharyya, 1996, Pág 461), concluindo que: (i) a altura de filhos
de pais muito altos estava geralmente entre a média e o máximo das alturas entre o pai e a mãe e (ii)
a altura de filhos de pais muito baixos estava geralmente entre o mı́nimo e a média das alturas entre
o pai e a mãe. Isto significa que a altura dos filhos tende mais para a média do que para os extremos.
1
2
Existem relações entre variáveis que podem ser descritas por uma expressão ma-
temática exata. Por exemplo, se x dólares são colocados em uma aplicação financeira
a uma taxa anual de remuneração r, temos que o total y na conta em n anos será dado
por
y = x(1 + r)n .
3
E se t é o tempo que uma bola de metal leva para atingir a superfı́cie terrestre quando
a mesma é solta de uma altura h temos, pela lei fı́sica da gravidade, que
t = (2h/g)1/2 ,
Para descrever relações entre variáveis aleatórias, é necessário que tenhamos bem
claro o conceito de Modelo Estatı́stico. O ato de fazer inferência estatı́stica pode ser
descrito da seguinte maneira: deseja-se obter informação sobre algum parâmetro des-
conhecido relacionado à distribuição de alguma caracterı́stica de uma população. Com
este objetivo, uma amostra é extraı́da desta população e espera-se que esta traga uma
boa qualidade de informação sobre a distribuição populacional. O modelo estatı́stico
é constituı́do pela amostra em conjunto com a sua distribuição de probabilidade. Por
exemplo, se desejamos estimar a probabilidade de cara de uma moeda, que vamos de-
notar por θ0 , consideramos observações resultantes de n lançamentos independentes da
moeda, o que constitui a amostra, e obtemos uma indicação sobre o valor de θ0 obser-
vando a variável X dada pelo número de caras obtidas, que é uma função da amostra.
Como desejamos testar hipóteses (como, por exemplo, se a moeda é honesta), devemos
conhecer a distribuição de X para calcular nı́veis de significância, etc.
2. Estimar a média;
Para motivar, consideremos novamente o exemplo 1.1. Na tabela 1.1 temos ob-
servações, tomadas independentemente, relativas a 10 carros. A quantidade de aditivo
adicionada é definida – isto significa dizer que esta variável é controlada pelo expe-
rimentador – e então a redução para aquele carro é observada. Observe que foram
consideradas replicações para alguns nı́veis da variável quantidade de aditivo: a quan-
tidade igual a 1 foi adicionada ao tanque de dois carros distintos, por exemplo.
Yi ∼ N (µi , σ 2 ),
onde σ 2 > 0,
µi = β0 + β1 xi , (1.1)
8
Notemos que cada Yi representa uma amostra de tamanho 1 a ser obtida de uma
população que tem distribuição N (µi , σ 2 ). No caso em que há replicações, ou seja,
quando para cada xi é observada uma amostra desta população de tamanho ni , uma
notação mais conveniente seria Yij ∼ N (µi , σ 2 ), j = 1, . . . , ni , i = 1, . . . , n, mas a
notação da definição 1.2 é suficiente para os propósito desta exposição inicial. β0 e β1
são parâmetros que devem ser estimados a partir da amostra Y1 , . . . , Yn . Observe que
esta é uma definição legı́tima de modelo estatı́stico, de acordo com a definição 1.1. O
espaço paramétrico associado é o conjunto
A questão é saber se este modelo é adequado para descrever os fenômenos que nos
interessam, como o do exemplo 1.1 e outros.
Vamos tomar como guia o exemplo 1.1. Neste caso, será que é razoável considerar
que a variável relativa à observação de cada carro tem distribuição normal? E se
isto ocorrer, é razoável supor que a sua média é da forma dada em (1.1)? E que as
variâncias são todas iguais (a σ 2 )? Caso a resposta seja sim a todas estas questões,
podemos considerar o modelo de regressão linear simples como adequado para descrever
o fenômeno. Mais tarde veremos mecanismos que são úteis para decidirmos se o modelo
é ou não adequado, um processo que usualmente é denominado validação.
diagrama de dispersão: um diagrama como o da figura 1.1 deve indicar uma tendência
linear de crescimento ou de decrescimento. Para consolidar o entendimento, a figura 1.2
apresenta as curvas normais associadas a cada variável Yi com média µi = β0 +β1 xi e faz
a representação dos pontos (xi , µi ) no gráfico da função f (x) = β0 + β1 x, x ∈ R. Para
os dados do exemplo 1.1 o diagrama de dispersão é apresentado na figura 1.3 e notamos
uma tendência linear, um indicativo de que o modelo de regressão linear simples pode
ser adequado para a descrição dos dados.
Figura 1.2: As médias das respostas como função linear dos valores
dos regressores
1.3.2 Estimação
exemplo, Bolfarine e Sandoval (2001, Pág 35). Como Yi ∼ N (β0 + β1 xi , σ 2 ), temos que
a densidade de Yi é dada por
2 −1/2
1 2
f (yi ) = 2πσ exp − 2 (yi − β0 − β1 xi ) , yi ∈ R, ı = 1, . . . , n.
2σ
e, após encontrar os pontos β̂0 e β̂1 que maximizam esta função, maximizar a função
Isto pode ser feito por que as variações de (β0 , β1 ) e σ 2 são independentes. Este método
é denominado Princı́pio do Supremo Iterado.3
3
O princı́pio, conforme Bartle (1983, Pág 51), é o seguinte: Sejam X e Y conjuntos não-vazios e
seja f : X × Y → R com contradomı́nio limitado. Sejam
Então
yi − β0 − β1 xi = yi − β0 − ȳ + ȳ − β1 xi − β1 x̄ + β1 x̄
= (yi − ȳ) − β1 (xi − x̄) + (ȳ − β0 − β1 x̄)
Observe que
n
X n
X
(xi − x̄) = (yi − ȳ) = 0.
ı=1 ı=1
Fazendo
n
X n
X n
X
2 2
Sx2 = (xi − x̄) , Sy2 = (yi − ȳ) e Sxy = (xi − x̄) (yi − ȳ) ,
ı=1 ı=1 ı=1
13
obtemos
n
X
(yi − β0 − β1 xi )2 = n (ȳ − β0 − β1 x̄)2 + β12 Sx2 − 2β1 Sxy + Sy2 .
ı=1
ı=1
Sx Sx
2 2
Sxy
2 Sxy
= n (ȳ − β0 − β1 x̄) + β1 Sx − + Sy2 − 2 (1.7)
Sx Sx
Observe que a última parcela nesta soma não depende de β0 e β1 . A soma das
outras duas parcelas é uma soma de termos ao quadrado, cujo mı́nimo é zero, e é
atingido quando as parcelas são iguais a zero, ou seja, quando
Sxy
ȳ − β0 − β1 x̄ = 0 e β1 Sx − = 0.
Sx
Definição 1.3 Consideremos uma amostra observada e sejam β̂0 e β̂1 as respectivas
estimativas de mı́nimos quadrados para β0 e β1 . A função
µ̂(x) = βˆ0 + β̂1 x, x∈R (1.9)
é denominada reta de regressão estimada.
14
µ(x) = β0 + β1 x,
(ver Zacks, 1971, Teorema 5.1.1). Observemos que, mesmo que x não seja um dos
valores fixados xi , µ̂(x) é um legı́timo estimador de máxima verossimilhança. Tra-
dicionalmente µ̂(xi ) recebe a denominação Valor Ajustado Correspondente à i-ésima
Observação e é denotado por ŷi embora, particularmente, consideremos estas termino-
logia e notação inadequadas, pela confusão que pode ocorrer com o conceito de Previsão
de uma Observação, que é completamente diferente, conforme veremos na seção 1.3.6.
Ei = Yi − µ̂(xi ), (1.10)
Por (1.7) temos que, para uma amostra (y1 , . . . , yn ) com resı́duos observados
(e1 , . . . , en ),
( n ) n 2
ˆ
X 2
X
2
min (yi − β0 − β1 xi ) ; (β0 , β1 ) ∈ R = yi − β0 − β̂1 xi
ı=1 ı=1
Xn
= [(yi − µ̂(xi )]2
i=1
n
X
= e2i
i=1
2
Sxy
= Sy2 −
Sx2
= Sy2 − β̂12 Sx2 ,
15
uma quantidade adequadamente denominada Soma dos Quadrados dos Resı́duos. Para
citações posteriores, vamos enunciar a
Temos que
n
∂L (β0 , β1 , σ 2 ) n 1 1 X
2
=− · 2
· 2π + 4 (yi − β0 − β1 xi )2 .
∂σ 2 2πσ 2σ ı=1
Exemplo 1.4 De volta aos dados da tabela 1.1. Neste caso, temos x̄ = 3.9, ȳ = 3.51,
s2x = 40.9, s2y = 6.85, sxy = 15.81, β̂ = 0.387, βˆ0 = 2.00 e SQres = 0.74. A reta de
regressão estimada, obtida a partir destes valores, é dada por
Teorema 1.1 Seja (β̂0 , β̂1 , σ̂ 2 ) o estimador de máxima verossimilhança para o modelo
de regressão linear simples. Então
1. βˆ0 ∼ N β0 , σ 2 n1 + x̄2 2
Sx2
e β̂1 ∼ N β1 , Sσ 2
x
SQres
2. σ2
∼ χ2n−2
Demonstração do Corolário:
18
β̂1 − β1 SQres
e
σ/Sx σ2
2. Temos que
SQres 1
E (QMres) = E = E (SQres) .
n−2 n−2
Como, pelo item 2 no teorema,
SQres
∼ χ2n−2 ,
σ2
resulta que
E (SQres) = σ 2 (n − 2).
Observe também que, pelo teorema 1.1, β̂0 e β̂1 são estimadores não viciados para
β0 e β1 , respectivamente.
19
!
β̂1 − β1
P −tn−2; α2 < < tn−2; α2 = 1 − α,
(QMres/Sx2 )1/2
de modo que
h 1/2 1/2 i
P β̂1 − t n−2; α
2
QMres/Sx2 < β1 < β̂1 + t n−2; α
2
QMres/Sx2 =1−α
e, portanto,
1/2
β̂1 ± tn−2; α2 QMres/Sx2 (1.12)
20
Exemplo 1.5 Para as observações na tabela 1.1 temos n = 10. Para obter um intervalo
com coeficiente 95% para β1 devemos utilizar t8;0.025 = 2.3060 na fórmula (1.12), obtendo
o intervalo (0.2770, 0.4960).
Se a hipótese
H0 : β1 = 0 (1.13)
for verdadeira, a média da variável resposta não depende de qualquer valor da variável
regressora, como pode ser visto pela definição do modelo de regressão. No caso do
exemplo 1.1, isto significa dizer que a redução média na emissão de poluente não depende
de valores especı́ficos da quantidade de aditivo, sendo a mesma qualquer que seja esta
quantidade. Nesta seção vamos tratar de um teste para a hipótese H0 . Testar a hipótese
H0 é popularmente conhecido como “testar a significância da variável regressora no
modelo”.
Na exposição que segue vamos considerar a situação mais geral dada por
H0 : β1 = β ∗ ,
podemos rejeitar H0 , por exemplo, para grandes valores de | T |, o que significa encon-
trar um valor crı́tico c e definir a regra de decisão por
Para um teste de nı́vel de significância α, c deve ser escolhido de tal maneira que
Pβ1 =β ∗ (| T |> c) = α,
T ∼ t(k,ξ) .
resulta que
σ2
∗ ∗
β̂1 − β ∼ N β1 − β , 2 ,
Sx
implicando em
Sx (β̂1 − β ∗ ) Sx (β1 − β ∗ )
∼N ,1 . (1.17)
σ σ
Ainda pelo Teorema 1.1, temos que SQres e β̂1 − β ∗ são independentes. Basta então
fazer a razão entre a variável em (1.17) e
1/2
QMres
,
σ2
e utilizar o item 2 do Teorema 1.1 mais a definição da distribuição t não central para
obter o resultado.
ψ(θ) = Pθ (| T |> c)
= Pθ (T > c) + Pθ (T < −c)
= P (t(n−2,ξ) > c) + P (t(n−2,ξ) < −c), (1.18)
Um fato interessante é que, vista como função somente de β1 (ou seja, fixando os
outros parâmetros), a função ψ em (1.18) é tal que
ψ(β1 + β ∗ ) = ψ(−β1 + β ∗ )
24
para todo β1 ∈ R. Isto quer dizer que, vista somente como função de β1 , ψ é simétrica
em torno de β ∗ . Uma sugestão de demonstração deste resultado está no exercı́cio 9.
H1 : β1 > β ∗ .
a fim de obter um teste com nı́vel se significância α. Caso a hipótese alternativa seja
H1 : β1 < β ∗ ,
25
Exemplo 1.7 No caso da emissão de poluentes, temos que o valor observado de QMres
é 0.74/8 = 0.0925, de tal forma que o valor observado da estatı́stica T é
1/2
sx β̂ 40.9
= × 0.387 = 8.14.
(QMres)1/2 0.0925
Neste caso é natural supormos que a redução média na emissão de poluente não
diminui quando aumentamos a quantidade de aditivo, de modo que podemos considerar
como hipótese alternativa H1 : β1 > 0. Para um teste unilateral de nı́vel α = 0.05, temos
t8;5% = 1.86, de modo que rejeitamos H0 : β1 = 0. A probabilidade de significância é
Assim, os dados fornecem evidências de uma redução significativa nos nı́veis médios de
óxido de nitrogênio quando o aditivo é utilizado.
Corolário 1.2
µ̂ (x) − µ (x)
r h 2
i ∼ tn−2
(x−x̄)
QMres n1 + S 2
x
Exemplo 1.8 Em relação aos dados da tabela 1.1, a redução esperada correspondente
à quantidade de aditivo x = 4 é estimada por
Temos que x̄ = 3.9, s2x = 40.9 e t8;0.025 = 2.306. Assim, um intervalo de confiança a
95% para µ(4) é dado por
s
(4 − 3.9)2
1
3.548 ± 2.306 × 0.0925 × +
10 40.9
= [3.33; 3.77].
27
Observando este comprimento como função de x, vemos que este atinge o seu mı́nimo
quando x = x̄ e aumenta conforme aumenta a distância entre x e x̄. Isto mostra que
a previsão da média é mais precisa próximo de x̄ e torna-se crescentemente imprecisa
quando nos afastamos de x̄ (veja os comprimentos dos dois intervalos obtidos no exemplo
acima em x = 4 e em x = 7.5). Em particular não é recomendável obter previsões
para valores x distantes de mı́n{x1 , . . . , xn } ou máx{x1 , . . . , xn }. Equivalentemente,
podemos notar que o comprimento em (1.20) é diretamente proporcional ao desvio
padrão estimado de µ̂(x), apresentado no Teorema 1.3. O aumento de imprecisão na
estimação é então equivalente ao aumento na variabilidade do estimador.
Para ter uma visão clara sobre como pode ser uma má idéia obter estimativas da
média da variável resposta muito afastadas do “padrão”das observações, observemos
a figura 1.6, onde um modelo de regressão linear é adequado para descrever a relação
entre as variáveis no intervalo de valores da variável regressora que vai de 5 a 10. No
entanto, se a reta estimada fosse estendida para estimar a resposta média em x = 20,
terı́amos uma estimativa absurdamente irreal.
28
Trataremos agora de uma questão similar, mas não equivalente, à da seção ante-
rior, onde obtivemos um estimador para a média da variável resposta em um determi-
nado nı́vel da variável regressora. Nesta seção, desejamos prever uma futura observação
da variável resposta para um determinado valor x da variável regressora. Esta questão
é diferente da anterior, pois envolve uma inferência sobre uma observação ainda não re-
alizada da variável resposta. Se as condições experimentais permitirem podemos obter
futuramente a observação. Isto é totalmente diferente de estimar a média µ(x), uma
vez que possivelmente jamais saberemos o seu verdadeiro valor.
Teorema 1.4
Y ∗ − µ̂(x∗ )
h i1/2 ∼ N (0, 1),
1 (x∗ −x̄)2
σ 1+ n
+ Sx2
que implica no
Corolário 1.4
Y ∗ − µ̂(x∗ )
n h io1/2 ∼ tn−2 .
1 (x∗ −x̄)2
QMres 1 + n + S 2
x
Exemplo 1.9 Para os dados da tabela 1.1, suponha que desejamos prever a redução
de óxido de nitrogênio para a quantidade de x∗ = 4.5 unidades de aditivo. A estimativa
da redução média é
µ̂(4.5) = 2 + 0.387 × 4.5 = 3.74
e o intervalo de previsão a 95% é dado por
s
1 (4.5 − 3.9)2
3.74 ± 2.306 × 0.304 1 + +
10 40.9
= (3.00; 4.48).
30
A aplicabilidade dos procedimentos vistos até agora depende da validade das su-
posições feitas na definição do modelo de regressão linear. Estimações pontuais, por
intervalo e testes de hipóteses só fazem sentido quando estas suposições se verificam.
Portanto, é essencial uma análise cuidadosa dos dados com o objetivo de detectar al-
guma violação destas suposições. Didaticamente, podemos listá-las da seguinte maneira,
conforme a definição 1.2:
3. A distribuição de Yi é normal, ı = 1, . . . , n;
4. A média da variável resposta é uma função linear de (β0 , β1 ) e uma função afim
da variável regressora.
Boa parte dos procedimentos para verificação da validade destas suposições utiliza
como elemento básico os resı́duos Ei , definidos em (1.10). Nesta seção vamos tratar
somente da análise dos resı́duos para verificar a validade da suposição de normalidade.
A análise para a validação das outras hipóteses será vista com detalhes no capı́tulo 3,
que é exclusivamente dedicado à este tema.
Este teorema não será demonstrado agora. Isto será feito em um contexto bem
mais geral, no capı́tulo 3.
e que, é claro, têm distribuição normal padrão. Também é possı́vel mostrar que, sob
certas condições que serão vistas no capı́tulo 3, estes resı́duos são aproximadamente
não correlacionados. Se isto ocorre, podemos tratar R1 , . . . , Rn como uma amostra
aleatória proveniente de uma distribuição normal padrão5 . Daı́ vem a idéia de verificar
a suposição de normalidade das observações através da inspeção da distribuição dos
resı́duos padronizados. Se todas as outras suposições forem mantidas (ou seja, lineari-
dade, independência e variância constante) então espera-se, pelo que discutimos acima,
que os resı́duos padronizados constituam uma amostra aleatória de uma normal padrão.
Se isto não ocorrer, é por quê a distribuição associada às observações não é normal.
aleatória e ii) ela é proveniente de uma população normal. Supondo que i) é verdadeira,
seja F a função de distribuição de cada Ri , que é desconhecida. Devemos então estimá-
la com o objetivo de compará-la com a distribuição normal. Um estimador natural é a
Função de Distribuição Empı́rica, F̂n (x), definida da seguinte maneira: seja
(
1 se Ri ≤ x
Zi = .
0 se Ri > x
Então n
1X
F̂n (x) = Zi . (1.22)
n i=1
Assim, para cada x ∈ R, F̂n (x) é uma variável aleatória6 que é observada verificando-se
quantos dentre os resı́duos observados r1 , . . . , rn são menores ou iguais a x.
e assim
−1
−1 i
Φ F̂n (r(i) ) = Φ .
n
Assim, se a distribuição dos resı́duos for igual a Φ, teremos que uma representação
gráfica dos pontos
i
−1 −1
r(i) , Φ F̂n (r(i) ) = r(i) , Φ (1.23)
n
Exemplo 1.10 Na figura 1.7 temos um gráfico de probabilidade normal para os resı́duos
padronizados no caso dos dados da tabela 1.1. Claramente não existe uma tendência
linear. Mas talvez fosse necessário obter mais observações para podermos detectar a
violação da hipótese de normalidade.
Yi ∼ N (β0 + β1 xi , σ 2 ) ı = 1, . . . , n
34
Ocorre que em muitas situações não é possı́vel fazer o controle dos valores da
variável regressora. Por exemplo, em um curso de lı́nguas é de interesse relacionar os
escores dos estudantes em um teste antes do curso com os escores obtidos em um teste
após o curso. É claro que estes valores não podem ser pré-fixados, devem ser observados.
o Erro Quadrático Médio na Previsão de Y por ϕ(X). Temos então o seguinte teorema
Para ver que isto é verdade, façamos H(X) = ϕ∗ (X) − ϕ(X). Então,
pois
para todo preditor ϕ(X). A demonstração da unicidade fica como exercı́cio (exercı́cio
12).
Pelo Teorema 1.6 temos que E(Y |X) é o preditor com menor erro quadrático
médio7 .
k X k2 = E(X 2 ),
Seja X ∈ L2 . O conjunto M(X) formado por todas as variáveis aleatórias em L2 da forma ϕ(X) é
um subespaço vetorial de L2 . A desigualdade (1.26) significa que ϕ∗ (X) minimiza a distância de Y a
M(X). Ou seja, E(Y |X) é a projeção de Y sobre M(X).
37
e " # " #
Var(X) Cov(X, Y ) σx2 ρσx σy
Σ= = ,
Cov(X, Y ) Var(Y ) ρσx σy σy2
onde Cov(X, Y ) é a covariância e ρ é o coeficiente de correlação entre X e Y . Escrevemos
então
(X, Y ) ∼ N2 (µ, Σ). (1.27)
Teorema 1.7 Seja (X, Y ) um vetor aleatório com distribuição normal bivariada como
em (1.27). Então a distribuição condicional de Y dado que X = x é
N β0 + β1 x, σ 2 ,
onde
σy σy
σ 2 = σy2 1 − ρ2 .
β0 = µy − ρ · µx , β1 = ρ · e
σx σx
Concluimos então que, o modelo estatı́stico utilizado com o objetivo de obter uma
previsão de Y a partir de um valor observado x do regressor X é equivalente ao modelo
para o caso em que fixamos o valor x, de modo que todas as técnicas de estimação e
testes que utilizamos antes podem ser utilizadas no contexto desta seção.
Fonte: Conley, D.L., G.S. Krahenbuhl, L.n. Burkett and A.L. Millar (1981).
Phisiological Correlates of Female Road Racing Performance . Res. Quart. Exercise
Sport, 52,. 441-448.
Observe que
Como já discutimos antes, os procedimentos de estimação e testes só serão confiáveis
se as hipóteses do modelo de regressão linear estiverem satisfeitas. Neste ponto ainda
precisarı́amos checar as outras hipóteses (variância constante, independência etc). Não
vimos ainda as técnicas necessárias para isto, de modo que o exemplo com o qual
estamos trabalhando serve de simples ilustração.
40
H0 : β1 = 0 contra H1 : β < 0
Para uma capacidade aeróbica máxima x = 56, temos uma estimativa da média
igual a µ̂(56) = 42.292, com desvio padrão estimado 0.769, e respectivo intervalo de
confiança a 95% dado por (40.617; 43.967). O intervalo de previsão da observação futura
relativa a este valor é (37.012; 47.572), com coeficiente 95%.
42
1.4 Exercı́cios
σ 2 (xi − x)(xj − x)
Cov[Yi , β̂1 (xj − x)] = Cov[β̂1 (xi − x), β̂1 (xj − x)] = ;
Sx2
(b) Repita o procedimento de geração 1000 vezes, fixando os valores dos parâmetros
β0 e da variância das observações em todas as amostras geradas. Para cada
amostra, teste a hipótese H0 : β1 = 0 utilizando o teste definido em (1.14).
Obtenha a proporção de rejeições de H0 para diversos valores de β1 ; comente
os resultados.
(e) Obtenha uma previsão para um carro com 19 anos de idade. Comente sobre
os riscos de fazer esta previsão.
10. Considere o modelo de regressão linear definido por variáveis aleatórias indepen-
dentes Y1 , . . . , Yn tais que
Yi ∼ N (βxi , σ 2 ),
(b) Encontre β̂ e σ̂ 2 ;
Sugestão: use derivadas.
Pn
(c) Pode-se mostrar que β̂ ∼ N (β, σ 2 / i=1 x2i ), que SQres/σ 2 ∼ χ2n−1 e que esta
última variável é independente de β̂. Com base nisto encontre um intervalo
de confiança com coeficiente 1 − α para β;
12. Mostre que ϕ(X) = E(Y |X) é a única função de X que satisfaz a desigualdade
(1.25).
Sugestão: Seja ξ(X) também satisfazendo a desigualdade (1.25). Então, necessa-
riamente
EQM(ϕ(X)) = EQM(ξ(X)).
Prove então que E(ϕ(X) − ξ(X))2 = 0 utilizando o fato (que também deve ser
demonstrado) de que
2
2 ϕ(X) + ξ(X)
+2 E(ϕ(X) − Y )2 + E(ξ(X) − Y )2
E(ϕ(X)−ξ(X)) = −4E −Y
2
Capı́tulo 2
2.1 Notação
47
48
2.2 O Modelo
O problema a ser tratado neste capı́tulo é da mesma natureza do que foi abordado
no capı́tulo anterior, só que com a possibilidade de mais de uma variável regressora no
modelo. Especificamente, suponhamos que para a i-ésima unidade amostral tenhamos
valores fixados
xi1 , xi2 , . . . , xi(p−1)
Definição 2.1 O Modelo de Regressão Linear Múltipla é definido por observações in-
dependentes Y1 , . . . , Yn tais que
Yi ∼ N (µi , σ 2 ),
onde
e σ 2 > 0.
o Erro Quadrático Médio na Previsão de Y por ϕ(X). O teorema a seguir mostra que,
no caso de distribuição normal, esta situação é equivalente ao caso de nı́veis fixados.
49
2. E(Y |X) tem o menor erro quadrático médio entre todos os preditores de Y base-
ados em X.
Y = (Y1 , . . . , Yn )′ (2.2)
µ = Xβ,
onde
1 x11 . . . x1(p−1)
1 x21 . . . x2(p−1)
X= (2.4)
.. .. ... ..
. . .
1 xn1 . . . xn(p−1)
50
e
′
β = β0 , β1 , . . . , β(p−1) . (2.5)
Y ∼ Nn (Xβ, σ 2 In ), (2.6)
2.3 Estimação
β → l(β, σ 2 ), β ∈ Rp ,
de modo que precisamos obter estas derivadas parciais. Primeiramente, vamos reescre-
ver
D (β) = (Y ′ − β ′ X ′ ) (Y − Xβ)
= Y ′ Y − Y ′ Xβ − β ′ X ′ Y + β ′ X ′ Xβ
= Y ′ Y − 2β ′ X ′ Y + β ′ X ′ Xβ,
Y ′ Xβ = (Y ′ Xβ)′ = β ′ X ′ Y.
Seja ′
∂D(β) ∂D(β) ∂D(β)
= ,..., .
∂β ∂β0 ∂β(p−1)
Utilizando resultados do Apêndice D, temos que
∂D(β)
= −2X ′ Y + 2X ′ Xβ.
∂β
As equações em (2.9) são equivalentes a
∂D(β)
= 0,
∂β
ou seja,
X ′ Xβ = X ′ Y. (2.10)
−1
β̂ = (X ′ X) X ′ Y. (2.11)
Uma condição suficiente para que X ′ X seja invertı́vel é que as colunas de X sejam
linearmente independentes. Este resultado é demonstrado na próxima seção.
52
A seguir apresentaremos dois resultados gerais que serão úteis na discussão sobre
a existência e unicidade de soluções da equação normal. Em particular, o Teorema 2.2
mostra que a equação normal sempre tem solução. Note que, para mostrar a existência
de soluções, em nenhum instante é utilizada a suposição de independência linear entre as
colunas de X. Note também que a primeira coluna de X não precisa ter necessariamente
todos os elementos iguais a 1.
Lema 2.1 O espaço gerado pelas colunas de X ′ X é igual ao espaço gerado pelas colunas
de X ′ .
Demonstração: Vamos mostrar que [span(X ′ X)]⊥ = [span(X ′ )]⊥ e usar o resultado
(C.7). Seja então z um vetor em [span(X ′ )]⊥ . Por definição, temos que z é ortogonal
às colunas de X ′ , ou seja, z ′ X ′ = 0. Transpondo, obtemos Xz = 0. Multiplicando por
X ′ nos dois lados desta igualdade temos X ′ Xz = 0 ou, transpondo, z ′ X ′ X = 0. Assim,
z é ortogonal às colunas de X ′ X, implicando que z ∈ [span(X ′ X)]⊥ . Isto prova que
[span(X ′ X)]⊥ ⊃ [span(X ′ )]⊥ . Para provar a inclusão contrária, tome z ∈ [span(X ′ X)]⊥ .
Então z ′ X ′ X = 0. Multiplicando os dois lados da igualdade por z, temos z ′ X ′ Xz = 0,
ou ainda, (Xz)′ Xz = 0. Como o único vetor ortogonal a ele mesmo é o vetor nulo,
resulta que Xz = 0, ou seja, z ′ X ′ = 0, concluindo a demonstração.
Teorema 2.2 A equação normal tem pelo menos uma solução ou, equivalentemente,
a função D tem pelo menos um ponto crı́tico.
Como já discutimos antes, caso X ′ X tenha inversa a equação normal possui
solução única, dada em (2.11).
µ̂ = X β̂, (2.12)
que em geral recebe a denominação de Vetor de Valores Ajustados, embora não adote-
mos esta terminologia aqui. O vetor
E = Y − µ̂ = Y − X β̂
onde
µ̂i = β̂0 + β̂1 xi1 + · · · + β̂(p−1) xi(p−1) , (2.14)
Exemplo 2.1 O modelo de regressão linear simples definido em (1.2) é um caso par-
ticular do modelo de regressão linear múltipla. Aqui temos p = 2 e
" #
′ 1 1 ... 1
X = , (2.16)
x1 x2 . . . xn
de modo que
" # 1 x1 " #
Pn
′ 1 1 ... 1 1 x2 n x i
XX= = Pn Pnı=1 2 (2.17)
.. ..
x1 x2 . . . xn x ı=1 xi
. . ı=1 i
1 xn
e
" # Y1 " P #
n
1 1 ... 1 Y2 Y
X ′Y = = Pnı=1 i .
..
x1 x2 . . . xn x Y
. ı=1 i i
Yn
Assim, a equação normal é dada por
" Pn #" # " P #
n
n x β0 Yi
Pn Pnı=1 2i = Pnı=1 . (2.18)
ı=1 xi ı=1 xi β ı=1 xi Yi
Fica como exercı́cio para o leitor resolver a equação normal e verificar que a
solução obtida é aquela apresentada em (1.8). Este é o Exercı́cio 2.
56
D(β) =k Y − Xβ k2 , β ∈ Rp ,
de modo que minimizá-la é equivalente a encontrar pontos da forma Xβ, com β percor-
rento todo o espaço Rp , de tal forma que a distância entre Y e estes pontos seja mı́nima.
Observe que o conjunto formado por estes pontos nada mais é do que o subespaço ve-
torial span(X). O ponto que minimiza a distância entre Y e os pontos deste espaço é a
projeção de Y sobre span(X), veja o apêndice C. Então, temos que X β̂ = Πspan(X) (Y ).
O vetor Y − X β̂ é ortogonal a todos os vetores de span(X). Em particular, esse vetor é
ortogonal a X β̂ e a todas as colunas da matriz X. Assim, X ′ (Y − X β̂) = 0 implicando
em X ′ Y = X ′ X β̂, mostrando que β̂ é solução da equação normal. Observe também
que, como a projeção é única, temos que X β̂ é sempre o mesmo, seja qual for a solução
β̂ para as equações normais.
A soma dos quadrados dos resı́duos, definida em (2.13), pode ser escrita como
Temos então o
Teorema 2.4
−1
β̂ ∼ Np β, σ 2 (X ′ X) .
Como corolário deste teorema temos o item 1 do Teorema 1.1, que será enunciado
mais uma vez para, em seguida, ser demonstrado.
Corolário 2.1 Considere o modelo de regressão linear simples, dado pelas variáveis
aleatórias independentes
Yi ∼ (β0 + β1 xi , σ 2 ) ı = 1, . . . , n.
Então,
h i
x̄2
1. β̂0 ∼ N β0 , σ 2 n1 + Sx2
2
2. β̂1 ∼ N β1 , Sσ 2
x
Como
" #
V ar(β̂0 ) Cov(β̂0 , β̂1 )
Cov β̂ =
Cov(β̂0 , β̂1 ) V ar(β̂1 )
e
nσ 2
V ar β̂1 = ,
nSx2
completando a demonstração.
β̂i ∼ N βi , σ 2 cii ,
ı = 0, . . . , p − 1 (2.20)
Este resultado, mais os teoremas 2.5 e 2.6 permitem-nos demonstrar o próximo teorema.
Teorema 2.7
β̂i − βi
∼ tn−p , ı = 0, . . . , p − 1
(cii · QM Res )1/2
Se a hipótese alternativa for H1i : βi > 0 rejeitamos H0i se Ti > c. Assim, para obtermos
um teste de nı́vel α desta hipótese contra a alternativa H1i : βi > 0, utilizamos como
regra de decisão
Se a alternativa for H1i : βi < 0 então substituimos < por > na regra de decisão. Se
for H1i : βi 6= 0 rejeitamos H0i se e somente se |Ti | > tn−p; α2 .
ou seja, o vetor de médias da variável resposta não depende dos valores associados do
“regressor 1”, x11 , x21 , . . . , xn1 . Dizemos então que esta variável regressora não contribui
significativamente no modelo.
Exemplo 2.2 (Dobson, 2002, Pág. 91) Os dados na tabela 2.1 representam porcen-
tagens do total de calorias obtido a partir de um complexo de carboidratos, para 20
diabéticos dependentes de insulina. Os indivı́duos são do sexo masculino e foram sub-
metidos a uma dieta rica em carboidratos durante 6 meses. Suspeita-se que esta variável
resposta esteja relacionada com a idade (em anos), peso (relativo ao peso ideal para a
altura do indivı́duo) e a porcentagem de calorias proveniente de proteı́nas.
X = [X0 X1 X2 X3 ] ,
61
β = [β0 β1 β2 β3 ]′ .
A estimativa para σ 2 é
SQres 567.66
QMres = = = 35.4787
n−p 20 − 4
As estimativas dos desvios padrões dos estimadores β̂i – ou seja, (cii · QMR es)1/2 – estão
na tabela 2.2.
62
o que significa que não há evidência suficiente para a rejeição de β1 = 0. Assim,
podemos retirar a variável idade do modelo. Probabilidades de significância para testar
a significância de outras variáveis são apresentadas na tabela 2.3. Assim, há evidências
Lembremos que os métodos aplicados acima só têm validade quando as hipóteses
relativas ao modelo de regressão linear forem satisfeitas. Como já havı́amos comentado
63
X = [X0 X2 X3 ] .
dentes devem ficar no modelo. A reta de regressão ajustada é então dada por
Uma aplicação interessante deste resultado é dada quando, para um valor fixado de peso
relativo x2 , desejamos avaliar a diferença entre a média da variável resposta quando a
porcentagem de calorias proveniente de proteı́nas é x3 e a média quando esta é x3 + 1
– um aumento em uma unidade nesta porcentagem. Se o modelo de regressão linear
simples sem a variável idade for adequado para descrever o fenômeno, temos que estas
médias são dadas respectivamente por
µ = β0 + β2 x2 + β3 x3
µ∗ = β0 + β2 x2 + β3 (x3 + 1)
= β0 + β2 x2 + β3 x3 + β3
Portanto,
µ − µ∗ = β3 .
Assim, a estimativa desta diferença é β̂3 = 1.8243. Então, um aumento em uma unidade
da porcentagem de calorias proveniente de proteı́nas representa um aumento estimado
de 1.8243 na porcentagem média de calorias proveniente de carboidratos, quando fixa-
mos um peso relativo.
65
um vetor tal que xj correspondente a um valor fixado associado à -ésima variável re-
gressora, = 1, . . . , p−1. Não necessariamente xj é um dos valores fixados que constam
no conjunto original de observações. Seja µ(x) = x′ β a média da variável resposta cor-
respondente ao vetor x e seja µ̂(x) = x′ β̂ o seu estimador de máxima verossimilhança.
Este estimador pontual é denominado A Previsão da Média da Variável Resposta dado
o Vetor x de Valores Fixados das Variáveis Regressoras. Para obter uma estimativa
por intervalo, relembremos que pelo Teorema 2.4
2 ′ −1
β̂ ∼ Np β, σ (X X) .
66
Por (B.3) no apêndice A, vem que x′ β̂ tem distribuição normal (univariada), com média
E x′ β̂ = x′ E β̂ = x′ β
e matriz de covariâncias
−1
Var x′ β̂ = x′ Var β̂ x = σ 2 x′ (X ′ X) x.
Assim, temos o
Teorema 2.8 Seja x um vetor de valores fixados das variáveis regressoras. Seja µ̂(x) =
x′ β̂ o estimador da média da variável resposta correspondente a x. Então
−1
µ̂ (x) ∼ N x′ β, σ 2 x′ (X ′ X) x .
Corolário 2.3
µ̂(x) − x′ β
1/2 ∼ tn−p
QMres · x′ (X ′ X)−1 x
Como Y ∗ e µ̂(x) são independentes e têm distribuição normal, temos que Y ∗ − µ̂(x)
também tem distribuição normal. Temos então o
Teorema 2.9
−1
Y ∗ − µ̂(x) ∼ N 0, σ 2 1 + x′ (X ′ X) x .
Corolário 2.4
Y ∗ − µ̂(x)
1/2 1/2 ∼ tn−p .
(QMres) 1+ x′ (X ′ X)−1 x
1/2
µ̂(x) ± tn−p; α2 (QMres)1/2 (1 + x′ (X ′ X) x) (2.24)
Exemplo 2.3 (Continuando o exemplo 2.2). Lembremos que a reta de regressão ajus-
tada é dada por
µ̂(x) = 33.13 − 0.2216x2 + 1.8243x3 .
2.6 O Teste F
H0 : β1 = β2 = β3 = 0,
69
que, se verdadeira, implica na retirada das variáveis idade, peso e proteı́na do modelo.
Desta forma, se H0 for verdadeira, teremos que a média da resposta não é “explicada”
por estas variáveis.
Se vale H0 , temos que a média das observações é dada em (2.26) e o vetor de médias
µ = (µ1 , . . . , µn )′ , em notação matricial, é dado por
µ = Zφ, (2.27)
onde
1 x11 . . . x1(k−1)
1 x21 . . . x2(k−1) ′
Z= e φ = β0 β1 . . . βk−1 .
.. .. ..
. . .
1 xn1 . . . xn(k−1)
−1
φ̃ = (Z ′ Z) Z ′Y (2.28)
70
onde c é uma constante determinada de acordo com o nı́vel de significância que dese-
jamos, ou seja, c depende da probabilidade do erro tipo I que especificarmos. Assim, é
necessário conhecer a distribuição de Λ quando H0 é verdadeira.
O próximo teorema mostra que podemos escrever Λ = g(F ), onde g é uma função
real estritamente decrescente e invertı́vel. Note que a inversa g −1 também é uma função
estritamente decrescente. Como Λ < c se e somente se F = g −1 (Λ) > g −1 (c) resulta
que a regra de decisão para H0 pode ser colocada na forma “rejeitar H0 para grandes
valores de F ”.
Observe que
Y − Z φ̃ = Y − X β̂ + X β̂ − Z φ̃.
k Y − Z φ̃ k2 =k Y − X β̂ k2 + k X β̂ − Z φ̃ k2 . (2.31)
Rn = E1 ⊕ (E2 ⊖ E1 ) ⊕ E2⊥ .
k X β̂ − Z φ̃ k2 /(p − k)
F =
k Y − X β̂ k2 /(n − p)
k Y − Z φ̃ k2 − k Y − X β̂ k2 /(p − k)
= ,
k Y − X β̂ k2 /(n − p)
onde a última igualdade é conseqüência de (2.31). Note que no numerador dessa ex-
pressão temos a diferença entre a soma dos quadrados dos resı́duos resultante do ajuste
do modelo com os regressores X1 , . . . , Xk−1 e a resultante do ajuste do modelo com
X1 , . . . , Xp−1 . Denotaremos estas somas por SQres (X1 , . . . , Xk−1 ) e SQres (X1 , . . . , Xp−1 ),
respectivamente. Notações análogas serão utilizadas para os quadrados médios dos
resı́duos. Assim, podemos escrever
[SQres(X1 , . . . , Xk−1 ) − SQres(X1 , . . . , Xp−1 )] /(p − k)
F = .
QMres(X1 , . . . , Xp−1 )
Exemplo 2.4 (Healy, 1988, Pág 19) A tabela 2.6 apresenta dados relacionados ao
número de espécies de pássaros em ilhas próximas à costa das ilhas britânicas. São 43
75
ilhas e sete variáveis, sendo o número de espécies (espéc) a variável resposta e os seis
regressores:
β̂i
T = .
(cii · QMRes )1/2
H0 : β2 = β3 = β6 = 0.
43 − 7 1541.6 − 1481.7
F = · = 0.4851.
7−4 1481.7
e assim optamos por não rejeitar H0 e retirar latitude, longitude e máxima elevação do
modelo.
Assim, um novo ajuste deve ser feito com as variáveis regressoras restantes, con-
siderando o modelo
é dada por
H0 : β1 = β2 = . . . = β6 = 0.
Se não rejeitarmos H0 não há mais nada a fazer, pois µ não dependeria dos regressores
em questão.
Y ∼ Nn (Xβ, σ 2 I),
H0 : β1 = . . . = βp−1 = 0, (2.33)
Yi ∼ N (β0 , σ 2 ), i = 1, . . . , n. (2.34)
Assim, as respostas constituem uma amostra aleatória de uma população com distri-
buição normal, e a solução para o problema da estimação de máxima verossimilhança de
β0 e σ 2 é amplamente conhecida, sendo os estimadores de β0 e σ 2 dados respectivamente
por
n
1X
β̂0 = Y e σˆ2 = (Yi − Y )2 .
n i=1
Y ∼ Nn (Zβ0 , σ 2 I),
79
Y − Y 1′ = Y − X β̂ + X β̂ − Y 1′ .
k Y − Y 1′ k2 =k Y − X β̂ k2 + k X β̂ − Y 1′ k2 ,
concluindo a demonstração.
Assim, para testar a hipótese em (2.33), temos que a estatı́stica F assume a forma
QMReg
F = ,
QMres
ficando bem claro que QMres refere-se ao ajuste com todos os regressores. A probabi-
lidade de significância para o teste de H0 é dada por
P F(p−1),(n−p) > f ,
H0 : β1 = β2 = . . . = β6 = 0.
implicando a rejeição de H0 . Assim, tudo indica que pelo menos um regressor é sig-
nificativo. Observe que na coluna Graus de Liberdade temos o número de graus de
liberdade associados à distribuição da estatı́stica de teste sob H0 .
de regressão ajustada. Assim, um bom ajuste seria aquele onde o valor de R2 estivesse
próximo de 1. Para os dados do exemplo 2.4 temos, no caso do modelo com todos os
regressores, R2 = 0.85. Para o modelo somente com as variáveis dist, área e hab, temos
R2 = 0.84.
Ocorre que quanto mais regressores em um modelo menor será a soma dos qua-
drados dos resı́duos associada e, portanto, um modelo com mais regressores terá ne-
cessariamente um R2 associado maior. Este resultado será demonstrado no Teorema
2.13. Este fato é um ponto negativo para o coeficiente de determinação, pois podemos
aumentar o coeficiente artificialmente introduzindo regressores, mesmo que estes novos
regressores não sejam relevantes para o problema em questão.
Teorema 2.13 Quanto mais regressores no modelo, menor será a soma dos quadrados
dos resı́duos.
2.7 Exercı́cios
Análise de Resı́duos
Y ∼ Nn (Xβ, σ 2 )
onde
−1
H = X (X ′ X) X ′.
87
88
e matriz de covariâncias
(I − H)′ = I − H e (I − H) (I − H) = I − H
Teorema 3.1
E ∼ Nn 0, σ 2 (I − H) .
E = (E1 , . . . , En )′ ,
temos que
Var(Ei ) = σ 2 (1 − hii ).
Corolário 3.1
Ei ∼ N 0, σ 2 (1 − hii ) ,
ı = 1, . . . , n
89
Observe que este corolário é uma extensão do Teorema 1.5. Pelo Teorema 3.1
podemos perceber que
Ei
Ri = p , ı = 1, . . . , n.
(1 − hii )
2. Por (3.3) temos que os resı́duos padronizados têm a mesma variância, diferente-
mente dos resı́duos ordinários.
Podemos então aplicar, por exemplo, a teoria dos gráficos de probabilidade normal
para verificar a normalidade dos resı́duos. Relembrando: se o modelo de regressão linear
for adequado, o gráfico de probabilidade normal deve aproximar-se de uma reta.
3.1 Influência
µ̂ = HY, (3.4)
σ 2 (1 − hii ) ≥ 0,
pois σ 2 (1 − hii ) é a variância de Ei e variâncias são sempre não negativas. Isto significa
que 1 − hii ≥ 0 e assim hii ≤ 1. Por (A.4), vem que
uma vez que Var(Y ) = σ 2 I e pode-se verificar facilmente que H é simétrica e idempo-
tente. Assim,
0 ≤ Var (µ̂i ) = σ 2 hii ,
0 ≤ hii ≤ 1, i = 1, . . . , n.
Cov (Yi , hi1 Yi ) + · · · + Cov (Yi , hii Yi ) + · · · + Cov (Yi , hin Yn ) = hii Cov (Yi , Yi ) = σ 2 hii ,
Como −1 ≤ Corr(Yi , µ̂i ) ≤ 1, vem que (Corr(Yi , µ̂i ))2 ≤ 1, implicando em 0 ≤ hii ≤ 1.
Por (3.5) temos que, se hii = 1 então Corr(Yi , µ̂i ) = 1. Observe que µ̂i é uma
combinação linear de Y1 , Y2 , . . . , Yn . Se a correlação entre Yi e µ̂i é 1 então, com proba-
bilidade 1,
µ̂i = aYi
onde a é uma constante. Assim, neste caso, somente Yi contribui para a estimação de
µi . Assim, concluimos que quando hii está próximo de 1 temos um indicativo de que
Yi exerce grande influência na obtenção µ̂i . Em inglês este fenômeno é conhecido como
leverage (alavanca em português).
92
3.2 Outliers
Observe que o vetor de médias E(Y ) = µ = (µ1 , . . . , µn )′ pode ser escrito como
µ = Zφ,
onde
Z= 1 X1 . . . X(p−1) Xp , φ = (β0 , β1 , . . . , β(p−1) , δ)′
e
Xp = (0, . . . , 1, . . . , 0)′ ,
com
X= X0 X1 . . . X(p−1) β= β0 β1 . . . β(p−1)
V ar (εi ) = σ 2 , ı = 1, . . . , n.
Suponha, por exemplo, que em vez de termos Yi com distribuição normal temos
Yi com distribuição de Poisson com média µi = E(Yi ). Como a variância de uma v.a.
com distribuição de Poisson é igual a média, temos que V ar(Yi ) = µi , ı = 1, . . . , n e
portanto as observações não têm a mesma variância.
Um gráfico de resı́duo que pode revelar variâncias não constantes é o gráfico das
estimativas µ̂i pelos resı́duos padronizados. Primeiramente suponha que o modelo de
95
(veja (??) e o cálculo de Cov(Yi , µ̂i ) na página 84). Assim um gráfico de µ̂i × ei revela
um padrão de ausência de correlação (caso o modelo seja adequado).
em vez do resı́duo ordinário ei . A principal razão é que, pelo corolário do teorema (??)
(página 80),
ei ∼ N 0, σ 2 (1 − hii )
e portanto
ei
p ∼ N (0, 1). (3.12)
σ 2 (1 − hii )
Substituindo-se σ 2 por um estimador σ̂ 2 obtém-se o resı́duo padronizado e esperamos,
devido a (3.12), que estes resı́duos tenham variâncias com valores próximos. Trabalhar
com resı́duos que têm a mesma variância é mais razoável por algumas razões. Por
exemplo, você nunca saberá se um valor alto de ei (o resı́duo ordinário) é devido ao
fato da observação Yi ser discrepante ou devido ao fato da variância de ei ser grande.
Se todos os resı́duos têm a mesma variância este problema desaparece. A seguir temos
um gráfico com resı́duos padronizados obtido a partir dos dados gerados de acrodo com
(3.11).
onde εi ∼ N (0, x4i ). Assim, V ar(εi ) = x4i . Portanto a suposı́ção de variâncias iguais é
violada neste caso.
Para estes dados simulados foi ajustado o modelo de regressão linear simples usual,
supondo que εi ∼ N (0, σ 2 ) – ou seja, erros com a mesma variância.
3.4 Não-Linearidade
Nesta seção vamos simular uma situação onde a média da variável resposta não
é uma função linear dos regressores, como supõe o modelo de regressão linear simples.
Considere que tentemos ajustar este modelo a observações que seguem a estrutura
regressora e a reta de regressão ajustada. Lembre-se que esta reta é oriunda do ajuste
do modelo
Yi = β0 = β1 xi + εi (3.15)
Os gráficos de resı́duos parciais são úteis para que possamos conjecturar a verda-
deira relação entre a média da variável resposta e um particular regressor xj .
101
é feito e são obtidos os respectivos estimadores β̂0 , β̂1 , . . . , β̂(p−1) e os resı́duos ordinários
e1 , . . . , en . O resı́duo parcial é definido por
rij = Yi − β̂0 + β̂1 xi1 + · · · + β̂(j−1) xi(j−1) + β̂(j+1) xi(j+1) + · · · + β̂(p−1) xi(p−1) .
Observe que a expressão em parênteses nada mais é do que µ̂i − β̂j xij , ou seja, o valor
ajustado menos a contribuição do -ésimo regressor a este valor ajustado. Temos então
que rij = Yi − µ̂i + β̂j xij , ou seja,
basta calcularmos
rj = e + β̂j xj , (3.17)
Se a relação
Yi = β0 + β1 xi1 + · · · + β(p−1) xi(p−1) + εi
e portanto
E (rij ) = E (ei ) + E β̂j xij = βi xij . (3.18)
A questão é: e se a verdadeira relação não for linear? Pode-se mostrar que, neste
caso, o gráfico dará uma idéia da relação entre µi e xij . Vamos exemplificar isto através
de dados simulados.
onde os valores xi1 foram gerados a partir de uma distribuição χ23 e xi2 de acordo com
uma distribuição χ25 .
Ajustamos o modelo
Yi = β0 + β1 xi1 + β2 xi2 + εi
103
e obtivemos β̂1 = 3.00 e β̂2 = 0.813. Temos, por exemplo, e1 = −2.38502, x11 = 1.9879
e x12 = 7.7535. Assim,
O gráfico desta página mostra que a relação entre µi e xi1 é linear (este gráfico é de xi1
por ri1 ).
Resumindo: um gráfico como o da página 96 indica que o termo log(xi2 ) deve ser
incluı́do no modelo.
A seguir apresentaremos uma seqüência que julgamos adequada para que possa-
mos obter sucesso no processo de análise de resı́duos.
• Obter 1/Y , quando a maioria das observações está próxima de zero e existem
observações (poucas) com valor muito alto.
√
• Obter arcsin Y , se Yi representa uma proporção.
Caso ocorra (2) uma possı́vel solução é a inclusão de termos no modelo, como uma
potência de um regressor (x2 , x4 , etc). Esta não linearidade é melhor detectada nos
gráficos de resı́duos parciais.
* 3o Passo: Faça um gráfico de resı́duos estudentizados (e∗i ) por hii . Isto pode
revelar outliers (se e∗i for grande) ou pontos influentes (se hii for grande). Um e∗i será
considerado grande se
|e∗i | > t(n−p−1); α2 .
Análise de Variância
Seja então Yi = (Yi1 , . . . , Yini ) uma amostra aleatória (de tamanho ni ) proveniente
de uma população com distribuição N (βi , σ 2 ), i = 1, . . . , k. Suponhamos que estas k
amostras sejam independentes. O modelo definido desta forma é conhecido como Modelo
de Análise de Variância com Um Fator, por motivos que ficarão claros mais tarde. A
questão é testar a hipótese H de que as k médias populacionais são iguais, ou seja,
testar
H : β1 = · · · = βk .
107
108
Exemplo 4.1 Suponha que um experimento foi feito com o propósito de determinar se
quatro diferentes temperaturas quando aplicadas a um certo composto quı́mico afetam
a sua densidade. Foram pré-fixados quatro nı́veis de temperatura em graus centı́grados
(100, 125, 150 e 175). Para cada nı́vel foi observada a densidade do composto, com
replicações. As amostras para os diferentes nı́veis foram tomadas independentemente.
Os dados obtidos estão apresentados a seguir
Temperatura Densidade
100 21,8 21,9 21,7 21,6 21,7
125 21,7 21,4 21,5 21,4
150 21,9 21,8 21,8 21,6 21,5
175 21,9 21,7 21,8 21, 4
Para cada nı́vel de temperatura é observada uma amostra aleatória proveniente de uma
população com média da densidade desconhecida. A questão é decidir se estas médias
são iguais ou não. Neste caso particular temos k = 4 (ou seja, 4 amostras), n1 = n3 = 5
e n2 = n4 = 4.
A variável que define cada população é denominada Fator. No exemplo 4.1 o fator
é a variável temperatura.
Observe que uma questão delicada para a aplicação do modelo estatı́stico definido
no inı́cio desta seção é a hipótese de que as variâncias são iguais para as diferentes
populações.
Y = (Y1′ , . . . , Yk′ )′ .
Assim,
X = [c1 , . . . , ck ]
e
β = (β1 , . . . , βk )′ ,
110
ou seja, as colunas de X são vetores ortogonais e, além disso, a i-ésima coluna tem norma
ao quadrado igual ao número de observações obtidas na i-ésima população. Como c′i cj
é o elemento (i, j) da matriz X ′ X, resulta que X ′ X = diag {n1 , . . . , nk } ou seja, X ′ X é
uma matriz diagonal tendo na diagonal principal os elementos n1 , . . . , nk , nesta ordem.
Portanto, temos que
′ −1 1 1
(X X) = diag ,..., .
n1 nk
Definindo ni
X
Yi = Yij , i = 1, . . . , k,
j=1
vem que
′
X ′ Y = (c′1 Y, . . . , c′k Y ) = (Y1, . . . , Yk)′ .
onde ni
1 X
Y i = Yij .
ni j=1
β̂i = Y i, i = 1, . . . , k,
de modo que log L = log L1 + · · · + log Lk . Assim, maximizar L em relação a βi é a mesma coisa que
maximizar log Li com relação a βi , que significa obter o estimador de máxima verossimilhança para βi
utilizando a i-ésima amostra. Pelos cursos introdutórios de inferência, sabemos que este estimador é
exatamente Y i .
112
Apêndice A
Nesta seção assumimos que todos os momentos relacionados às variáveis existem
e são finitos. Seja X = (X1 , . . . , Xp )′ um vetor aleatório. Definimos a esperança de X
por
E (X) = (E (X1 ) , . . . , E (Xp ))′ , (A.1)
113
114
e
Cov (BX) = BCov (X) B ′ . (A.4)
Observe que BX é uma matriz de ordem q×1, ou seja, um vetor aleatório de dimensão q.
Observe também que para o caso p = q = 1, ou seja, quando B e X são unidimensionais,
temos que (A.4) reduz-se a
Var (BX) = B 2 Var (X)
[X − E (X)] [X − E (X)]′ ,
de modo que
Cov (X) = E [X − E (X)] [X − E (X)]′ .
(A.7)
Apêndice B
A Distribuição Normal
Multivariada
115
116
Definição B.1 Dizemos que X tem Distribuição Normal n-variada quando qualquer
combinação linear das coordenadas de X tiver distribuição normal univariada.
Xi = (1, 0, . . . , 0)X
Assim, a′ X tem distribuição normal com a média e a variância dadas acima, que vamos
chamar de µ e Σ, respectivamente. Assim, a função caracterı́stica de a′ X é dada por
′ 1 2 ′
ϕa′ X (t) = exp ita µ − t a Σa , t ∈ R.
2
Demonstramos o
O teorema a seguir mostra que uma transformação afim de um vetor com distri-
buição normal ainda é um vetor com distribuição normal.
a′ Y = a′ AX + a′ b.
Álgebra Linear
Um Espaço Vetorial é um conjunto E não vazio onde estão definidas duas operações,
respectivamente denominadas Soma e Multiplicação por Escalar, tais que:
Os elementos de um espaço vetorial são denominados Vetores. Por definição, temos que
um espaço vetorial E deve satisfazer
121
122
(x + y) + z = x + (y + z) e (λγ)x = λ(γx);
6. Para todo x ∈ E, 1x = x.
O espaço vetorial mais popular é, com certeza, o Espaço Euclideano de dimensão
n, denotado por Rn . Um elemento x de Rn é dado pela n-upla x = (x1 , . . . , xn ), onde xi ,
i = 1, . . . , n são números reais denominados Coordenadas de x. Sejam x = (x1 , . . . , xn )
e y = (y1 , . . . , yn ) vetores em Rn e λ um número real. As operações definidas em Rn
que o fazem espaço vetorial são dadas por
O conjunto dos números reais é então denotado por R. Neste texto trabalhamos somente
com subespaços vetoriais de Rn .
teremos γ1 = γ2 = . . . = γn = 0.
2. a1 , . . . , an geram o espaço E. Isto significa que todo vetor em E pode ser escrito
como combinação linear de a1 , . . . , an . Ou seja, para todo vetor x ∈ E, existem
números reais γ1 , . . . , γn tais que
x = γ 1 a1 + · · · + γ n an . (C.1)
a1 = (1, 0, 0, . . . , 0)′
a2 = (0, 1, 0, . . . , 0)′
.. (C.2)
.
an = (0, 0, . . . , 0, 1)′
de modo que, de acordo com (C.3), o espaço gerado pelas colunas de X pode ser escrito
como
span(X) = {Xβ; β ∈ Rp }. (C.4)
De forma análoga definimos o espaço gerado pelos vetores linha de uma matriz.
Observe que para uma matriz de ordem n × p o subespaço gerado pelas colunas é um
subespaço de Rn e o subespaço gerado pelas linhas é um subespaço de Rp . Mesmo para
o caso em que p = n não ocorre necessariamente a igualdade entre os subespaços.
Teorema C.2 A dimensão do espaço gerado pelas linhas é igual a dimensão do espaço
gerado pelas colunas.
125
Teorema C.3 Quando p = n – ou seja, quando a matriz é quadrada – temos que esta
possui inversa se e somente a dimensão do espaço gerado pelas colunas (ou pelas linhas)
é igual a p.
{a1 , . . . , am , am+1 , . . . , an }
Note que, para que um vetor z seja ortogonal a todos os vetores em um subespaço
vetorial com base {a1 , . . . , ap } basta que z seja ortogonal a cada vetor na base. Neste
126
caso, temos x = λ1 a1 + · · · + λp ap e
z ′ x = λ1 z ′ a1 + · · · + λp z ′ ap = 0.
A ⊕ B = {a + b; a ∈ A, b ∈ B}
Rn = A ⊕ A⊥ . (C.6)
z = z − ΠE (z) + ΠE (z)
128
pois, sendo z − ΠE (z) um elemento de E ⊥ , ele é a sua própria projeção sobre este
espaço. Além disso, como ΠE (z) ∈ E, vem que a sua projeção sobre E ⊥ é o vetor nulo.
Como Π(z) ∈ E, temos que Π(z) e z − Π(z) são vetores ortogonais e, como
consequência,
k z k2 = k Π (z) + z − Π (z) k2
= k Π (z) k2 + k z − Π (z) k2 .
Como Π1 (z) ∈ E1 , resulta que a sua projeção sobre E é o vetor nulo, pois para todo
x ∈ E = E1⊥ ∩ E2 ,
k Π1 (z) − x k2 =k Π1 (z) k2 + k x k2
e os vetores Π2 (z) − z e z − Π1 (z) estão em E1⊥ . Assim, vemos que o vetor Π2 (z) − Π1 (z)
está em E, implicando em ΠE (Π2 (z) − Π1 (z)) = Π2 (z) − Π1 (z), e mostramos que
O teorema a seguir é o mais importante deste texto e mostra uma estreita conexão
entre álgebra linear e probabilidade. No enunciado utilizamos uma extensão natural da
definição de soma direta de subespaços vetoriais E1 , . . . , Ek tais que Ei ∩ Ej = {0} para
todo i 6= j, dada pelo conjunto
E1 ⊕ · · · ⊕ Ek = {x1 + · · · + xk ; x1 ∈ E1 , . . . , xk ∈ Ek }.
130
Teorema C.5 Seja Z ∼ Nn (0, σ 2 I), com σ 2 > 0. Sejam E1 , . . . , Ek subespaços vetori-
ais ortogonais de Rn tais que
Rn = E1 ⊕ · · · ⊕ Ek .
Z = γ1 ξ1 + · · · + γn ξn = Aγ, (C.12)
γ = A−1 Z.
131
Como Z ∼ Nn (0, σ 2 I), temos que γ também tem distribuição normal n-variada, com
vetor de médias 0 e matriz de covariâncias
′
Cov (γ) = A−1 Cov (Z) (A)−1
= A−1 σ 2 IA = σ 2 I
— veja o Teorema B.2, o que significa dizer que γ1 , . . . , γn são independentes e identi-
camente distribuı́das como N (0, σ 2 ). Por (C.9), vem que
d1 +···+dj
X
Πj (Z) = (Z ′ ξi )ξi .
i=d1 +···+dj−1 +1
de modo que
d1 +···+dj
X
Πj (Z) = γi ξi .
i=d1 +···+dj−1 +1
k Πj (Z) k2 γi ξi k2 γi2 k ξi k2 X γi 2
P P
k i i
2
= = = .
σ σ2 σ2 i
σ
k Πj (Z) k2
∼ χ2dj ,
σ2
concluindo a demonstração.
132
Apêndice D
Diferenciação de Matrizes
e seja
f (x) = x′ Ax
! !
A11 A12 x1
= x1 x2
A21 A22 x2
= x21 A11 + (A12 + A21 ) x1 x2 + x22 A22 .
133
134
∂f
Por definição, temos que a primeira coordenada de ∂x
é
∂f
= 2x1 A11 + (A12 + A21 ) x2
∂x1
e a segunda coordenada é dada por
∂f
= (A12 + A21 ) x1 + 2x2 A22 .
∂x2
∂f
= a. (D.1)
∂x
∂f
= 2Ax. (D.2)
∂x
Apêndice E
A Distribuição Normal
Multivariada
135
136
Matrizes em Blocos
onde
" # " # " # " #
a11 a12 a13 a14 a31 a32 a33 a34
B = , C= , D= e E= .
a21 a22 a23 a24 a41 a42 a43 a44
137
138
Seja A uma matriz qualquer particionada como em (F.1). É simples mostrar que
" #
′ ′
B C
A′ = . (F.2)
D′ E ′
Uma caracterı́stica interessante das matrizes particionadas é que um produto entre duas
matrizes deste tipo segue as mesmas regras do produto usual de matrizes. Assim, seja
" #
G H
F = .
I J
Então,
" #
(BG + CI) (BH + CJ)
AF = . (F.3)
(DG + EI) (DH + EJ)
É claro que assumimos acima uma compatibilidade nas ordens das matrizes envolvidas,
de tal modo que os produtos façam sentido.
que aparece no texto em (2.4). Cada coluna de X pode ser encarada como uma sub-
matriz de X. Seja Xi a ı-ésima coluna da matriz X, ı = 0, 1, . . . , p − 1. Fazendo
h i′
X0 = 1 1 ... 1 .
Seja
h i
β = β0 β1 . . . β(p−1)
139
o vetor de coeficientes no modelo de regressão (veja (??), página 44, novamente). Pela
regra em (F.3) temos que
Um produto como em (??) está presente várias vezes na teoria. Por exemplo, o próprio
modelo de regressão linear pode ser colocado na forma
O vetor de valores ajustados (ver (2.12) na página 48) pode, com esta notação, ser
colocado na forma
onde
h i
XA = X0 X1 . . . Xk
é formada pelas colunas restantes. Em conformidade com esta pertição podemos par-
ticionar o vetor β como
" #
βA
β = , (F.8)
βB
onde
h i′
βA = β0 β1 . . . βk
140
e
h i′
βB = β(k+1) . . . β(p−1) .
Xβ = βA XA + βB XB . (F.9)
Apêndice G
ver (2.8). Assim, o objetivo é encontrar β̂ que minimiza a distância entre Y e os pontos
do conjunto
Span (X) = {Xβ; β ∈ Rp } ,
k Y − X β̂ k2 = min k Y − Xβ k2 ; β ∈ Rp
(G.1)
141
142
No que segue vamos supor que as p colunas da matriz X, a saber X0 , . . . , Xp−1 , são
vetores em Rn linearmente independentes. Como todo vetor em Span(X) é da forma
Xβ = β0 X0 + β1 X1 + · · · + βp−1 Xp−1
para algum β = (β0 , β1 , . . . , βp−1 )′ resulta que {X0 , X1 , . . . , Xp−1 } é uma base para
Span(X) e, portanto, a dimensão de Span(X) é p.
A partir deste instante Π(Y ) denota a projeção de Y sobre Span(X). Antes das
demonstrações dos teoremas objetos principais deste apêndice, um último comentário:
como o vetor Y − Π(Y ) é ortogonal às colunas de X, temos que
(Y − X β̂)′ X = 0,
β̂ = (X ′ X)−1 X ′ Y.
Y = Xβ + ε,
onde ε = (ε1 , . . . , εn )′ tem distribuição Nn (0, σ 2 I). Seja {ξ0 , ξ1 , . . . , ξ(p−1) } uma base
ortonormal de Span(X). Completando esta base, seja
ξ0 , . . . , ξ(p−1) , ξp , . . . , ξn−1
uma base ortonormal de Rn . Cada observação do vetor ε pode ser escrita como com-
binação linear dos vetores nesta base, ou seja, existem variáveis aleatórias γ0 , γ1 , . . . , γn−1
tais que
ε = γ0 ξ0 + γ1 ξ1 + · · · + γn−1 ξn−1 = Aγ, (G.2)
143
A′ A = AA′ = I,
γ = A−1 ε.
Como ε ∼ Nn (0, σ 2 I), temos que γ também tem distribuição normal n-variada, com
vetor de médias 0 e matriz de covariâncias
′
Cov (γ) = A−1 Cov (ε) (A)−1
= A−1 σ 2 IA = σ 2 I,
de modo que
n−1
X
k ε k2 = ε′ ε = γ ′ A′ Aγ = γ ′ γ = γj2 .
=0
144
Assim,
p−1
X
2
k Π (ε) k = γj2 .
=0
SQres
2
∼ χ2n−p ,
σ
Agora vamos mostrar que β̂ e SQres são independentes. Para isso, considere a
função
f : Span (X) → Rp ,
definida da seguinte forma: seja y ∈ Span(X). Temos que y = Xβ, para algum β ∈ Rp .
Então
f (y) = β.
Observe que f é uma legı́tima função. Ou seja, a cada ponto de Span(X) corresponde
um único ponto de Rp . Isto é fácil de verificar: suponha que existam β e β ∗ tais que
y = Xβ e y = Xβ ∗ . Então
Xβ = Xβ ∗ ,
A Distribuição da Estatı́stica F
147
148
Bibliografia
Montgomery, D. C. (1984). Design and Analysis of Experiments. John Wiley and Sons,
second edition.
Rao, C. R. (1973). Linear Statistical Inference and its Applications. John Wiley and
Sons, New York, second edition.
Zacks, S. (1971). The Theory of Statistical Inference. John Wiley and Sons, New York.
149