Regress Celso

Modelos de Regressão Linear Clássicos
Celso Rômulo Barbosa Cabral
TEXTO PARA A DISCIPLINA

ANÁLISE DE REGRESSÃO – IEE632
UNIVERSIDADE FEDERAL DO AMAZONAS

DEPARTAMENTO DE ESTATÍSTICA
Manaus, 24 de novembro de 2004. Atualizado até a página 111

ii
Dedicatória
A Fábio Amaral, que partiu antes
que as coisas começassem a acontecer.

iii
Agradecimentos
À estudante Themis da Costa Abensur pela digitação da primeira versão deste

texto.
iv
Conteúdo
1 Modelos de Regressão Linear 1
1.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Relações Determinı́sticas, Probabilı́sticas e Modelos Estatı́sticos . . . . 2
1.2.1 Relações Determinı́sticas e Probabilı́sticas . . . . . . . . . . . . 2
1.2.2 Modelos Estatı́sticos . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 Regressão Linear Simples . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3.1 O Modelo de Regressão Linear Simples . . . . . . . . . . . . . . 5
1.3.2 Estimação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3.3 A Distribuição dos Estimadores de Máxima Verossimilhança . . 16
1.3.4 Teste para Hipótese β1 = 0 . . . . . . . . . . . . . . . . . . . . . 20
1.3.5 Estimação da Média da Variável Resposta . . . . . . . . . . . . 25
v
vi
1.3.6 Previsão de uma Observação Futura da Variável Resposta . . . 28
1.3.7 Alguns Comentários Sobre a Adequação do Modelo de Regressão

Linear Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
1.3.8 E Quando os Valores da Variável Regressora não Puderem ser

Pré-fixados? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
1.4 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2 O Modelo de Regressão Linear Múltipla 47
2.1 Notação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.2 O Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.3 Estimação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2.3.1 Pontos Crı́ticos da Função de Verossimilhança . . . . . . . . . . 50
2.3.2 Existência e Unicidade de Soluções da Equação Normal . . . . . 52
2.3.3 Pontos de Máximo Global da Função de Verossimilhança . . . . 53
2.3.4 Uma Outra Abordagem para a Estimação de Máxima Verossimi-

lhança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
2.4 Propriedades dos Estimadores de Máxima Verossimilhança . . . . . . . 56

vii
2.5 Previsão da Média da Variável Resposta para Valores Fixados das Variáveis
Regressoras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
2.6 O Teste F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
2.6.1 A Tabela de Análise de Variância . . . . . . . . . . . . . . . . . 77
2.6.2 O Coeficiente de Determinação . . . . . . . . . . . . . . . . . . 81
2.7 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
3 Análise de Resı́duos 87
3.1 Influência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
3.2 Outliers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
3.3 Variância não Constante (ou Heterocedasticidade) . . . . . . . . . . . . 94
3.4 Não-Linearidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
3.5 Gráficos de Resı́duos Parciais . . . . . . . . . . . . . . . . . . . . . . . 100
3.6 Um Algoritmo para a Análise de Resı́duos . . . . . . . . . . . . . . . . 104
4 Análise de Variância 107
4.1 Análise de Variância com Um Fator . . . . . . . . . . . . . . . . . . . . 107
A Algumas Definições e Resultados em Estatı́stica Multivariada 113

viii
B A Distribuição Normal Multivariada 115
B.1 A Densidade Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
B.2 Uma Definição Abrangente de Normalidade . . . . . . . . . . . . . . . 116
C Álgebra Linear 121
D Diferenciação de Matrizes 133
E A Distribuição Normal Multivariada 135
E.1 A Densidade Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
F Matrizes em Blocos 137
G Demonstração dos Teoremas (2.5) e (2.6) 141
H A Distribuição da Estatı́stica F 147

Capı́tulo 1
Modelos de Regressão Linear
1.1 Introdução
Um Modelo de Regressão 1 é um modelo estatı́stico para descrever relações entre

variáveis. Neste texto estamos especificamente interessados em relações lineares. Os
objetivos principais são identificar a relação e fazer inferências em torno dos parâmetros
do modelo, o que nos permitirá, por exemplo, fazer previsões de uma variável dado um
valor de outra.
A seguir apresentamos algumas situações práticas que podem ser analisadas através
de modelos de regressão linear.
1
O nome regressão é devido a Francis Galton, que em 1885 publicou um trabalho intitulado “Re-
gression Toward Mediocrity in Hereditary Study”, onde analisava a relação entre os pesos dos filhos e
o peso médio dos pais (Johnson e Bhattacharyya, 1996, Pág 461), concluindo que: (i) a altura de filhos
de pais muito altos estava geralmente entre a média e o máximo das alturas entre o pai e a mãe e (ii)
a altura de filhos de pais muito baixos estava geralmente entre o mı́nimo e a média das alturas entre
o pai e a mãe. Isto significa que a altura dos filhos tende mais para a média do que para os extremos.
1
2
1. O gerente de marketing de uma empresa está interessado na relação entre o di-

nheiro gasto em publicidade e o correspondente aumento nas vendas.
2. Em radioterapia, é importante estudar o nı́vel de dano às células induzido pela

duração e intensidade de exposição à radiação.
3. Em ciência polı́tica, pode ser de interesse relacionar a probabilidade de uma admi-

nistração ser considerada ótima/boa com variáveis como nı́vel de educação, ganho
médio mensal, idade, sexo etc.
4. Em avaliação educacional, com o objetivo de comparar a evolução dos estudantes,

é de interesse relacionar as notas dos alunos em um curso de lı́nguas, obtidas em
um pré-teste e em um pós-teste (testes feitos antes e após o curso).
5. Em experimentos agrı́colas, é importante analisar os nı́veis de produção de uma

determinada fruta como função da quantidade de fertilizante utilizada.
1.2 Relações Determinı́sticas, Probabilı́sticas e Mo-

delos Estatı́sticos
1.2.1 Relações Determinı́sticas e Probabilı́sticas
Existem relações entre variáveis que podem ser descritas por uma expressão ma-
temática exata. Por exemplo, se x dólares são colocados em uma aplicação financeira
a uma taxa anual de remuneração r, temos que o total y na conta em n anos será dado
por
y = x(1 + r)n .
3
E se t é o tempo que uma bola de metal leva para atingir a superfı́cie terrestre quando
a mesma é solta de uma altura h temos, pela lei fı́sica da gravidade, que
t = (2h/g)1/2 ,
onde g é a constante gravitacional. Estas relações são determinı́sticas, no sentido de

que é possı́vel saber de antemão o valor de uma variável envolvida no experimento
dado um valor da outra. Ou seja, dado um valor x de dinheiro aplicado você sabe
exatamente quanto receberá em n anos. Se você soltar a bola a uma altura h você saberá
o tempo exato que esta levará até atingir o solo. Ao contrário disto, neste texto estamos
particularmente interessados no caso em que pelo menos uma das variáveis envolvidadas
é aleatória, de modo que os resultados da experimentação só serão conhecidos após a
sua realização. É o que ocorre nos exemplos da seção 1.1 e nos exemplos a seguir
Exemplo 1.1 Para combater a poluição automobilı́stica, cientistas estão interessados

em determinar a quantidade de um aditivo que será acrescentado à gasolina, a fim de
melhorar a qualidade da emissão de gases poluentes. Vários automóveis novos farão
parte de um estudo experimental (estes constituirão o que chamamos usualmente de
unidades experimentais, ou seja, aquelas que serão objeto de observação). A quantidade
de óxido de nitrogênio emitida por cada carro é medida primeiro sem o aditivo e depois
com uma quantidade x de aditivo. A redução de óxido de nitrogênio y é anotada.
Exemplo 1.2 Seja y a produção de tomates em um experimento agrı́cola. Suponha

que queremos estudá-la em relação à dosagem x de um certo fertilizante. (Observe que
outros fatores podem influenciar na produção como, por exemplo, o nı́vel de irrigação
do solo, mas vamos supor que estes, dentro do possı́vel, são mantidos constantes, em
nı́veis fixados). O experimento consiste em aplicar diferentes dosagens de fertilizante (de
acordo com o interesse especı́ficos dos beneficiados pela pesquisa) em lotes de plantação
e então verificar a produção de cada lote.
Exemplo 1.3 A aptidão de um operador novato em executar um serviço novo depende

da duração do treinamento. Para avaliar a eficácia do programa, é conduzido um
4
estudo experimental da relação entre a melhora na execução do serviço y e a duração

do treinamento x.
1.2.2 Modelos Estatı́sticos
Para descrever relações entre variáveis aleatórias, é necessário que tenhamos bem
claro o conceito de Modelo Estatı́stico. O ato de fazer inferência estatı́stica pode ser
descrito da seguinte maneira: deseja-se obter informação sobre algum parâmetro des-
conhecido relacionado à distribuição de alguma caracterı́stica de uma população. Com
este objetivo, uma amostra é extraı́da desta população e espera-se que esta traga uma
boa qualidade de informação sobre a distribuição populacional. O modelo estatı́stico
é constituı́do pela amostra em conjunto com a sua distribuição de probabilidade. Por
exemplo, se desejamos estimar a probabilidade de cara de uma moeda, que vamos de-
notar por θ0 , consideramos observações resultantes de n lançamentos independentes da
moeda, o que constitui a amostra, e obtemos uma indicação sobre o valor de θ0 obser-
vando a variável X dada pelo número de caras obtidas, que é uma função da amostra.
Como desejamos testar hipóteses (como, por exemplo, se a moeda é honesta), devemos
conhecer a distribuição de X para calcular nı́veis de significância, etc.
Vamos adotar então a seguinte definição
Definição 1.1 Um Modelo Estatı́stico é definido por uma amostra X = (X1 , . . . , Xn )

e pelo conjunto {Pθ , θ ∈ Θ}, formado pelas possı́veis distribuições de probabilidade de
X. O conjunto Θ é denominado Espaço Paramétrico associado ao modelo
Nesta definição, Pθ é uma notação que indica a dependência da distribuição de

probabilidade em relação a θ, que é um elemento do conjunto Θ. A cada ponto θ ∈ Θ
corresponde uma distribuição Pθ plausı́vel para o experimento em questão. Considere-
5
mos o exemplo do inı́cio desta seção. A amostra (X1 , . . . , Xn ) é dada por

(
1 se o resultado do i − ésimo lançamento é cara
Xi =
0 caso contrário,
Pn
i = 1, . . . , n, de modo a distribuição de X = i=1 Xi é binomial com probabilidade de
sucesso (desconhecida) que denominaremos por θ. Os possı́veis valores para θ estão no
intervalo Θ = [0, 1], de modo que este é o espaço paramétrico. Mas somente um ponto
em Θ é a probabilidade de cara associada à moeda considerada no experimento — este
valor é θ0 e é referenciado em geral como O Verdadeiro Valor do Parâmetro.
Assim, o procedimento inferencial consiste em escolher um ponto θ no conjunto Θ

como sendo o verdadeiro valor do parâmetro. É claro que esta tarefa deve ser baseada
na observação de X.
No decorrer deste texto a notação X ∼ Pθ indicará que X tem distribuição de

probabilidade P com parâmetro associado θ. Notações especı́ficas serão utilizadas para a
distribuição normal com média µ e variância σ 2 ( N (µ, σ 2 )), a distribuição qui-quadrado
com n graus de liberdade (χ2n ) e a distribuição t de Student com n graus de liberdade
(tn ).
1.3 Regressão Linear Simples
1.3.1 O Modelo de Regressão Linear Simples
O objetivo geral de nosso estudo é analisar o caso em que a distribuição popu-

lacional associada a observação de uma determinada variável – doravante denominada
variável resposta – é normal e tem uma média que possivelmente depende de um parti-
cular valor pré-fixado x de uma outra variável – doravante denominada variável regres-
6
sora 2 . Especificamente, trataremos o caso em que esta dependência é linear. Alguns

objetivos especı́ficos são
1. Responder se realmente existe uma dependência linear entre a média e x;
2. Estimar a média;
3. Testar hipóteses relacionadas à média.
Assim, o tipo de experimento que estamos interessados a fim de contruir um modelo

estatı́stico útil para atingir os objetivos acima consiste em tomar observações indepen-
dentes da variável resposta para um determinado nı́vel fixado x da variável regressora.
Para motivar, consideremos novamente o exemplo 1.1. Na tabela 1.1 temos ob-
servações, tomadas independentemente, relativas a 10 carros. A quantidade de aditivo
adicionada é definida – isto significa dizer que esta variável é controlada pelo expe-
rimentador – e então a redução para aquele carro é observada. Observe que foram
consideradas replicações para alguns nı́veis da variável quantidade de aditivo: a quan-
tidade igual a 1 foi adicionada ao tanque de dois carros distintos, por exemplo.
Neste exemplo 1.1 a variável regressora é a quantidade de aditivo e a variável

resposta é a redução.
O nosso objetivo é definir um modelo estatı́stico que relacione a média da variável

resposta com os valores da variável regressora para, por exemplo, no exemplo 1.1,
respondermos questões do tipo
2
A variável cujos nı́veis são controlados recebe diferentes nomes na literatura como, por exemplo,
variável regressora, preditora, explicativa, explanadora, independente. Para a variável a ser observada,
termos comuns são variável predita, resposta ou dependente. Acreditamos que a combinação variável
independente-variável dependente é a menos recomendada, pois pode levar a confusões com o conceito
de independência estocástica.
7
Tabela 1.1: Quantidade de aditivo e redução

de óxido de nitrogênio em 10 carros.
Carro no Quant. aditivo redução
1 1 2.1
2 1 2.5
3 2 3.1
4 3 3.0
5 4 3.8
6 4 3.2
7 5 4.3
8 6 3.9
9 6 4.4
10 7 4.8
1. Um aumento na quantidade de aditivo representa um aumento na redução média

de emissão do poluente? Se sim, qual é a taxa de aumento?
2. Fixada uma quantidade de aditivo, qual é a previsão de redução média na emissão

do poluente?
Seja xi um nı́vel fixado da variável regressora e definamos Yi como sendo a ob-

servação da resposta a ser feita correspondente a este nı́vel, i = 1, . . . , n (n é o tamanho
da amostra). Ao valor observado de Yi denotaremos por yi . Na tabela 1.1 temos n = 10,
x1 = 1 e y1 = 2.1, por exemplo. A seguir definimos o tipo de modelo que será discutido
neste capı́tulo.
Definição 1.2 O Modelo de Regressão Linear Simples é definido por variáveis Y1 , . . . , Yn

independentes – correspondentes às observações da variável resposta – tais que
Yi ∼ N (µi , σ 2 ),
onde σ 2 > 0,
µi = β0 + β1 xi , (1.1)
8
e xi são valores fixados da variável regressora, i = 1, . . . , n.
Notemos que cada Yi representa uma amostra de tamanho 1 a ser obtida de uma
população que tem distribuição N (µi , σ 2 ). No caso em que há replicações, ou seja,
quando para cada xi é observada uma amostra desta população de tamanho ni , uma
notação mais conveniente seria Yij ∼ N (µi , σ 2 ), j = 1, . . . , ni , i = 1, . . . , n, mas a
notação da definição 1.2 é suficiente para os propósito desta exposição inicial. β0 e β1
são parâmetros que devem ser estimados a partir da amostra Y1 , . . . , Yn . Observe que
esta é uma definição legı́tima de modelo estatı́stico, de acordo com a definição 1.1. O
espaço paramétrico associado é o conjunto
Θ = {(β0 , β1 , σ 2 ); β0 ∈ R, β1 ∈ R, σ 2 > 0}. (1.2)
A questão é saber se este modelo é adequado para descrever os fenômenos que nos
interessam, como o do exemplo 1.1 e outros.
Vamos tomar como guia o exemplo 1.1. Neste caso, será que é razoável considerar
que a variável relativa à observação de cada carro tem distribuição normal? E se
isto ocorrer, é razoável supor que a sua média é da forma dada em (1.1)? E que as
variâncias são todas iguais (a σ 2 )? Caso a resposta seja sim a todas estas questões,
podemos considerar o modelo de regressão linear simples como adequado para descrever
o fenômeno. Mais tarde veremos mecanismos que são úteis para decidirmos se o modelo
é ou não adequado, um processo que usualmente é denominado validação.
Observemos que no modelo de regressão linear simples o par (xi , µi ) pertence ao

gráfico da função f (x) = β0 + β1 x, x ∈ R. Para exemplificar, considere a figura 1.1,
que representa um diagrama de dispersão para pontos (xi , yi ), onde xi são pontos no
conjunto {1, . . . , 10} gerados em computador. Para cada xi , gera-se uma observação yi
de uma variável com distribuição normal com média µi = 1 + 2xi e variância igual a 1.
Assim, uma primeira evidência de que o modelo de regressão linear simples é (ou não)
adequado para descrever a relação entre as variáveis pode ser obtida através de um
9
Figura 1.1: Diagrama de dispersão para obervações geradas de

acordo com o modelo Y ∼ N (1 + 2x, 1)
diagrama de dispersão: um diagrama como o da figura 1.1 deve indicar uma tendência
linear de crescimento ou de decrescimento. Para consolidar o entendimento, a figura 1.2
apresenta as curvas normais associadas a cada variável Yi com média µi = β0 +β1 xi e faz
a representação dos pontos (xi , µi ) no gráfico da função f (x) = β0 + β1 x, x ∈ R. Para
os dados do exemplo 1.1 o diagrama de dispersão é apresentado na figura 1.3 e notamos
uma tendência linear, um indicativo de que o modelo de regressão linear simples pode
ser adequado para a descrição dos dados.
Um último comentário quanto à definição do modelo de regressão linear simples:

o termo linear na definição 1.2 refere-se à média das observações vista como função do
vetor (β0 , β1 ), que é uma função linear. Assim, modelos da forma µi = β0 + β1 x2i e
µi = β0 + β1 exp xi também são lineares, pois podem ser reduzidos à forma apresentada
na definição considerando zi = x2i e zi = exp xi , i = 1, . . . , n como valores de uma nova
variável regressora no primeiro e no segundo caso, respectivamente.
10
Figura 1.2: As médias das respostas como função linear dos valores
dos regressores
Figura 1.3: Diagrama de dispersão dos dados na tabela 1.1
1.3.2 Estimação
Para fazer a estimação dos parâmetros no modelo de regressão linear simples

— a saber: β0 , β1 e σ 2 , utilizaremos o método da máxima verossimilhança ver, por
11
exemplo, Bolfarine e Sandoval (2001, Pág 35). Como Yi ∼ N (β0 + β1 xi , σ 2 ), temos que
a densidade de Yi é dada por

2 −1/2
1 2
f (yi ) = 2πσ exp − 2 (yi − β0 − β1 xi ) , yi ∈ R, ı = 1, . . . , n.
2σ
Seja y1 , . . . , yn uma amostra observada. Como sabemos, a verossimilhança as-

sociada à esta amostra é a densidade conjunta de Y1 , . . . , Yn , vista como função de
β0 , β1 e σ 2 . Como Y1 , . . . , Yn são independentes, temos que o logaritmo da função de
verossimilhança é dado por
n
n 1 X
2 2
(yi − β0 − β1 xi )2 , (β0 , β1 ) ∈ R2 , σ 2 > 0.

L β0 , β1 , σ = − log(2πσ ) − 2
2 2σ ı=1
(1.3)
Para encontrar o máximo desta função em β0 , β1 e σ 2 , podemos utilizar o seguinte

método: fixar σ 2 e maximizar a função parcial (em β0 e β1 ),
(β0 , β1 ) 7→ L(β0 , β1 , σ 2 ), (β0 , β1 ) ∈ R2 (1.4)
e, após encontrar os pontos β̂0 e β̂1 que maximizam esta função, maximizar a função
σ 2 7→ L(β̂0 , β̂1 , σ 2 ), σ 2 > 0. (1.5)
Isto pode ser feito por que as variações de (β0 , β1 ) e σ 2 são independentes. Este método
é denominado Princı́pio do Supremo Iterado.3
3
O princı́pio, conforme Bartle (1983, Pág 51), é o seguinte: Sejam X e Y conjuntos não-vazios e
seja f : X × Y → R com contradomı́nio limitado. Sejam
f1 (x) = sup{f (x, y); y ∈ Y } e f2 (y) = sup{f (x, y); x ∈ X}.
Então
sup{f (x, y); x ∈ X y ∈ Y } = sup{f1 (x); x ∈ X}

= sup{f2 (y); y ∈ Y }.
12
Maximizar a função parcial em (1.4) é equivalente a minimizar a função

n
X
(β0 , β1 ) 7→ (yi − β0 − β1 xi )2 , (β0 , β1 ) ∈ R2 . (1.6)
ı=1
As estimativas obtidas a partir daı́ recebem então o sugestivo nome de Estimativas de

Mı́nimos Quadrados que, é claro, coincidem com as estimativas de máxima verossimi-
lhança para β0 e β1 .
Consideremos então o problema de encontrar um ponto de máximo global para

a função em (1.4) ou, o que é equivalente, encontrar um ponto de mı́nimo global para
(1.6). Temos que
yi − β0 − β1 xi = yi − β0 − ȳ + ȳ − β1 xi − β1 x̄ + β1 x̄
= (yi − ȳ) − β1 (xi − x̄) + (ȳ − β0 − β1 x̄)
de tal maneira que

n
X n
X
2
(yi − β0 − β1 xi ) = [(yi − ȳ) − β1 (xi − x̄) + (ȳ − β0 − β1 x̄)]2
ı=1 ı=1
n
X n
X n
X
2 2
= (yi − ȳ) + β12 (xi − x̄) + (ȳ − β0 − β1 x̄)2
ı=1 ı=1 ı=1
n
X n
X
−2β1 (xi − x̄) (yi − ȳ) − 2β1 (ȳ − β0 − β1 x̄) (xi − x̄)
ı=1 ı=1
n
X
+2 (ȳ − β0 − β1 x̄) (yi − ȳ) .
ı=1
Observe que
n
X n
X
(xi − x̄) = (yi − ȳ) = 0.
ı=1 ı=1
Fazendo
n
X n
X n
X
2 2
Sx2 = (xi − x̄) , Sy2 = (yi − ȳ) e Sxy = (xi − x̄) (yi − ȳ) ,
ı=1 ı=1 ı=1
13
obtemos
n
X
(yi − β0 − β1 xi )2 = n (ȳ − β0 − β1 x̄)2 + β12 Sx2 − 2β1 Sxy + Sy2 .
ı=1
Podemos rearranjar a expressão e completar o quadrado, obtendo

n 2 2
Sxy Sxy
X
2 2
(yi − β0 − β1 xi ) = n (ȳ − β0 − β1 x̄) + β1 Sx − 2β1 Sxy + 2 + Sy2 − 2
2 2
ı=1
Sx Sx
2 2
Sxy

2 Sxy
= n (ȳ − β0 − β1 x̄) + β1 Sx − + Sy2 − 2 (1.7)
Sx Sx
Observe que a última parcela nesta soma não depende de β0 e β1 . A soma das
outras duas parcelas é uma soma de termos ao quadrado, cujo mı́nimo é zero, e é
atingido quando as parcelas são iguais a zero, ou seja, quando
Sxy
ȳ − β0 − β1 x̄ = 0 e β1 Sx − = 0.
Sx
A solução deste sistema de equações é

Sxy
β̂0 = ȳ − β̂1 x̄ e β̂1 = . (1.8)
Sx2
Estas são, portanto, as estimativas de máxima verossimilhança (de mı́nimos quadrados)
para β0 e β1 , obtidas a partir da amostra y = (y1 , . . . , yn ). Os estimadores respectivos
são obtidos substituindo Y = (Y1 , . . . , Yn ) no lugar de y em (1.8). No entanto, neste
caso, utilizaremos a mesma notação para estimador e estimativa, ou seja, β̂0 e β̂1 .
Antes de tratarmos da estimação do parâmetro σ 2 , vamos definir alguns conceitos

importantes.
Definição 1.3 Consideremos uma amostra observada e sejam β̂0 e β̂1 as respectivas
estimativas de mı́nimos quadrados para β0 e β1 . A função
µ̂(x) = βˆ0 + β̂1 x, x∈R (1.9)
é denominada reta de regressão estimada.
14
Para cada x ∈ R temos que, pelo princı́pio da invariância do estimador de máxima

verossimilhança, µ̂(x) é uma estimativa de máxima verossimilhança para
µ(x) = β0 + β1 x,
(ver Zacks, 1971, Teorema 5.1.1). Observemos que, mesmo que x não seja um dos
valores fixados xi , µ̂(x) é um legı́timo estimador de máxima verossimilhança. Tra-
dicionalmente µ̂(xi ) recebe a denominação Valor Ajustado Correspondente à i-ésima
Observação e é denotado por ŷi embora, particularmente, consideremos estas termino-
logia e notação inadequadas, pela confusão que pode ocorrer com o conceito de Previsão
de uma Observação, que é completamente diferente, conforme veremos na seção 1.3.6.
A seguir vamos definir um conceito fundamental no instante em que formos tratar

da validação do modelo de regressão linear.
Definição 1.4 A variável aleatória
Ei = Yi − µ̂(xi ), (1.10)
é denominada resı́duo associado à ı-ésima observação, ı = 1, . . . , n.
Por (1.7) temos que, para uma amostra (y1 , . . . , yn ) com resı́duos observados
(e1 , . . . , en ),
( n ) n 2
ˆ
X 2
X
2
min (yi − β0 − β1 xi ) ; (β0 , β1 ) ∈ R = yi − β0 − β̂1 xi
ı=1 ı=1
Xn
= [(yi − µ̂(xi )]2
i=1
n
X
= e2i
i=1
2
Sxy
= Sy2 −
Sx2
= Sy2 − β̂12 Sx2 ,
15
uma quantidade adequadamente denominada Soma dos Quadrados dos Resı́duos. Para
citações posteriores, vamos enunciar a
Definição 1.5 Definimos a Soma dos Quadrados dos Resı́duos por

n
X n
X
SQres = e2i = [yi − µ̂(xi )]2 = Sy2 − β̂12 Sx2 .
ı=1 ı=1
Voltando agora ao processo de estimação: o estimador de máxima verossimilhança

para σ 2 é obtido maximizando-se a função de verossimilhança em (1.5). Ou seja, deve-
mos encontrar σ̂ 2 tal que
n o
max L βˆ0 , β̂1 , σ 2 ; σ 2 > 0 = L βˆ0 , β̂1 , σ̂ 2
Temos que
n
∂L (β0 , β1 , σ 2 ) n 1 1 X
2
=− · 2
· 2π + 4 (yi − β0 − β1 xi )2 .
∂σ 2 2πσ 2σ ı=1
Igualando a zero, temos que

n
1 X 2 1
2
σ̂ = Yi − βˆ0 − β̂1 xi = SQres (1.11)
n ı=1 n
é a estimativa de máxima verossimilança para σ 2 . Finalmente, é possı́vel mostrar que a

função definida em (1.5) tem derivada negativa para todo σ 2 > 0 e, portanto, σ̂ 2 é um

ponto de máximo global. Assim, concluimos que βˆ0 , β̂1 , σ̂ 2 é um ponto de máximo
global da função de verossimilhança.
Exemplo 1.4 De volta aos dados da tabela 1.1. Neste caso, temos x̄ = 3.9, ȳ = 3.51,
s2x = 40.9, s2y = 6.85, sxy = 15.81, β̂ = 0.387, βˆ0 = 2.00 e SQres = 0.74. A reta de
regressão estimada, obtida a partir destes valores, é dada por
µ̂(x) = 2.0024 + 0.3865x.

16
Assim, a estimativa da média de redução na emissão de óxido de nitrogênio correspon-

dente à adição de 3.2 unidades de aditivo é dada por
2.0024 + 0.3865 × 3.2 = 3.2392.
Estas estimativas podem ser obtidas utilizando qualquer software estatı́stico.
A figura 1.4 mostra um gráfico com os dados e a reta de regressão. Observe

também a representação dos valores observados dos resı́duos.
Figura 1.4: Diagrama de dispersão e reta de regressão para os dados

da tabela 1.1
1.3.3 A Distribuição dos Estimadores de Máxima Verossimi-

lhança
Nesta seção apresentaremos a distribuição dos estimadores obtidos anteriormente.

A partir daı́ será possı́vel elaborar testes para algumas hipóteses de interesse, como a
não influência dos valores da variável regressora na média da variável resposta.
17
Observemos que, no modelo de regressão linear simples, β1 = 0 significa que a

média da variável resposta não depende dos particulares valores da variável regressora.
Os testes para esta hipótese que serão considerados aqui baseiam-se nos estimadores de
máxima verossimilhança e, portanto, necessitamos estabelecer resultados concernentes
às suas distribuições de probabilidade.
Teorema 1.1 Seja (β̂0 , β̂1 , σ̂ 2 ) o estimador de máxima verossimilhança para o modelo
de regressão linear simples. Então

1. βˆ0 ∼ N β0 , σ 2 n1 + x̄2 2
Sx2
e β̂1 ∼ N β1 , Sσ 2
x
SQres
2. σ2
∼ χ2n−2
3. SQres é independente de βˆ0 e β̂1 .
A demonstração deste teorema será apresentada no capı́tulo 2, onde trataremos de um

modelo mais geral. Como conseqüência, temos o
Corolário 1.1 Seja

SQres
QMres =
n−2
o Quadrado Médio dos Resı́duos. Então
β̂1 −β1 βˆ0 −β0

1. (QMres/Sx2 )1/2
∼ tn−2 e 1/2 ∼ tn−2 .
1 2
QMres n + x̄2
Sx
2. QMres é um estimador não viciado para σ 2 .
Demonstração do Corolário:
18
1. (Somente a parte concernente a β1 . A outra parte é completamente análoga.)

Como
σ2

β̂1 ∼ N β1 , 2 ,
Sx
temos que
β̂1 − β1
∼ N (0, 1).
σ/Sx
Pelo item 3 do teorema, temos que
β̂1 − β1 SQres
e
σ/Sx σ2
são independentes. Pelo item 2 e pela definição da distribuição t de Student vem

que ! 1/2
β̂1 − β1 SQres
÷ ∼ tn−2 ,
σ/Sx (n − 2)σ 2
e o resultado segue pela definição de QMres.
2. Temos que
SQres 1
E (QMres) = E = E (SQres) .
n−2 n−2
Como, pelo item 2 no teorema,
SQres
∼ χ2n−2 ,
σ2
resulta que
E (SQres) = σ 2 (n − 2).
Assim, concluimos que E(QMres) = σ 2 e, portanto, QMres é um estimador não

viciado para σ 2 .
Observe também que, pelo teorema 1.1, β̂0 e β̂1 são estimadores não viciados para
β0 e β1 , respectivamente.
19
Utilizando o resultado no item 1 do corolário 1.1 podemos obter intervalos de

confiança para β0 e β1 . Seja Tk uma variável aleatória com distribuição t de Student
com k graus de liberdade e seja tk;α tal que
P (Tk > tk;α ) = α,
onde 0 < α < 1 (veja a figura 1.5). Então,
Figura 1.5: Área à direita do ponto tk,α .
!
β̂1 − β1
P −tn−2; α2 < < tn−2; α2 = 1 − α,
(QMres/Sx2 )1/2
de modo que
h 1/2 1/2 i
P β̂1 − t n−2; α
2
QMres/Sx2 < β1 < β̂1 + t n−2; α
2
QMres/Sx2 =1−α
e, portanto,
1/2
β̂1 ± tn−2; α2 QMres/Sx2 (1.12)
20
é um intervalo de confiança para β1 com coeficiente 1 − α. De forma análoga podemos

obter um intervalo de confiança para β0 , que é dado por
1/2
x2

1
β̂0 ± tn−2; α2 QMres + .
n Sx2
Exemplo 1.5 Para as observações na tabela 1.1 temos n = 10. Para obter um intervalo
com coeficiente 95% para β1 devemos utilizar t8;0.025 = 2.3060 na fórmula (1.12), obtendo
o intervalo (0.2770, 0.4960).
1.3.4 Teste para Hipótese β1 = 0
Se a hipótese
H0 : β1 = 0 (1.13)
for verdadeira, a média da variável resposta não depende de qualquer valor da variável
regressora, como pode ser visto pela definição do modelo de regressão. No caso do
exemplo 1.1, isto significa dizer que a redução média na emissão de poluente não depende
de valores especı́ficos da quantidade de aditivo, sendo a mesma qualquer que seja esta
quantidade. Nesta seção vamos tratar de um teste para a hipótese H0 . Testar a hipótese
H0 é popularmente conhecido como “testar a significância da variável regressora no
modelo”.
Na exposição que segue vamos considerar a situação mais geral dada por
H0 : β1 = β ∗ ,
onde β ∗ é conhecido (a hipótese em (1.13) corresponde ao caso β ∗ = 0). É natural

basearmos um teste para H0 nos valores observados do estimador (não viciado) de β1 ,
β̂1 .
21
Consideremos como estatı́stica de teste

Sx (βˆ1 − β ∗ )
T = .
(QMres)1/2
A distribuição de T supondo que H0 é verdadeira é, pelo Corolário 1.1, t de Student
com n − 2 graus de liberdade4 e, com este resultado, podemos calcular a probabilidade
de erro do tipo I para uma determinada regra de decisão baseada em T . Para uma
hipótese alternativa
H1 : β1 6= β ∗
podemos rejeitar H0 , por exemplo, para grandes valores de | T |, o que significa encon-
trar um valor crı́tico c e definir a regra de decisão por
Rejeitar H0 se e somente se | T |> c. (1.14)
Para um teste de nı́vel de significância α, c deve ser escolhido de tal maneira que
Pβ1 =β ∗ (| T |> c) = α,
de modo que c = tn−2; α2 .
Seja t o valor observado da estatı́stica T . O teste também pode ser efetuado

através da observação da Probabilidade de Significância – ou p-value (pv ), como é mais
conhecida, que é definida como sendo a probabilidade, sob H0 , de erro tipo I quando c
é igual a t, ou seja,
pv = Pβ1 =β ∗ (| T |> t).
Esta probabilidade corresponde ao menor nı́vel de significância possı́vel para um valor

crı́tico que leva à rejeição de H0 , com base no valor observado t.
4
Observemos que os pontos do espaço paramétrico que estão em H0 constituem o subconjunto
dado por {θ = (β0 , β1 , σ 2 ); β0 ∈ R, β1 = β ∗ , σ 2 > 0}, de modo que H0 é uma hipótese composta.
Pelo Corolário 1.1 temos que a distribuição de T é a mesma para qualquer ponto em H0 que seja
tomado como verdadeiro valor do parâmetro, ou seja, esta distribuição não depende de θ. Isto não é a
regra geral, não é o que ocorre com a maioria dos testes para parâmetros em outros tipos de modelos
estatı́sticos. Estamos, portanto, diante de um fato que ocorre com rara felicidade.
22
Este teste é conhecido na literatura tradicional da área como Teste t Bilateral. Na

seção 2.6 provaremos que este teste é equivalente ao teste da razão de verossimilhança
para H0 contra a hipótese H1 : β1 6= β ∗ .
É importante também discutir a função poder do teste. Seja Θ o espaço pa-

ramétrico associado ao modelo de regressão linear simples, dado em (1.2). A função
poder associada ao teste t bilateral é dada por
ψ(θ) = Pθ (| T |> c), θ ∈ Θ, (1.15)
ou seja, ψ(θ) é a probabilidade de rejeitar H0 quando assumimos que θ é o verdadeiro

valor do parâmetro. Se θ está em H0 , temos que ψ(θ) é uma probabilidade de erro
do tipo I (rejeitar a hipótese nula quando esta é verdadeira). Se θ está na hipótese
alternativa, então ψ(θ) é conhecido como o Poder do Teste Contra a Alternativa θ.
Para determinar este poder necessitamos, portanto, da distribuição de T em pontos de
H1 . Vamos apresentar a distribuição no Teorema 1.2, mas antes precisamos definir a
Distribuição t Não Central.
Definição 1.6 Sejam Z ∼ N (ξ, 1) e W ∼ χ2k variáveis aleatórias independentes. A

distribuição de
Z
T =
(W/k)1/2
é denominada t Não Central com k Graus de Liberdade e Parâmetro de Não Centrali-
dade ξ.
Observe que o caso ξ = 0 corresponde à distribuição t usual. Utilizaremos a notação
T ∼ t(k,ξ) .
Teorema 1.2 A distribuição da estatı́stica T é t não central com n − 2 graus de liber-

dade e parâmetro de não centralidade
Sx (β1 − β ∗ )
ξ= . (1.16)
σ
23
Demonstração: Pelo Teorema 1.1, temos que

σ2

β̂1 − β1 ∼ N 0, 2 .
Sx
Assim, como
β̂1 − β ∗ = β̂1 − β1 + β1 − β ∗ ,
resulta que
σ2

∗ ∗
β̂1 − β ∼ N β1 − β , 2 ,
Sx
implicando em
Sx (β̂1 − β ∗ ) Sx (β1 − β ∗ )

∼N ,1 . (1.17)
σ σ
Ainda pelo Teorema 1.1, temos que SQres e β̂1 − β ∗ são independentes. Basta então
fazer a razão entre a variável em (1.17) e
1/2
QMres
,
σ2
e utilizar o item 2 do Teorema 1.1 mais a definição da distribuição t não central para
obter o resultado.
Assim, para um θ = (β0 , β1 , σ 2 ) qualquer (não necessariamente em H0 ou H1 ),

resulta que que a função poder definida em (1.15) é dada por
ψ(θ) = Pθ (| T |> c)
= Pθ (T > c) + Pθ (T < −c)
= P (t(n−2,ξ) > c) + P (t(n−2,ξ) < −c), (1.18)
onde ξ é dado em (1.16). Observemos também que ξ = 0 se e somente se β1 = β ∗ ,

ou seja, se a hipótese H0 for verdadeira. Assim, neste caso e somente neste, T tem
distribuição t central.
Um fato interessante é que, vista como função somente de β1 (ou seja, fixando os
outros parâmetros), a função ψ em (1.18) é tal que
ψ(β1 + β ∗ ) = ψ(−β1 + β ∗ )
24
para todo β1 ∈ R. Isto quer dizer que, vista somente como função de β1 , ψ é simétrica
em torno de β ∗ . Uma sugestão de demonstração deste resultado está no exercı́cio 9.
Exemplo 1.6 Considere o teste t bilateral para testar H0 : β1 = 0. A função poder do

teste é dada em (1.18), com
Sx β1
ξ= .
σ
Para os dados do exemplo 1.1, temos Sx2 = 0.49. Utilizando como estimativa para σ a
raiz do valor observado de QMres (σ̂ = 0.0962) e um nı́vel de significância igual a 5%,
obtemos a tabela 1.2 com valores de ψ(β1 ).
Tabela 1.2: Valores da Função Poder do

Teste t Bilateral para H0 : β1 = 0. Dados
da Tabela 1.1.
β1 ψ(β1 )
0.00 0.0500
0.02 0.0710
0.04 0.1325
0.06 0.2393
0.08 0.3844
0.10 0.5486
Finalmente, suponha que definamos a hipótese alternativa como
H1 : β1 > β ∗ .
Neste caso é intuitivo utilizarmos uma regra de decisão unilateral, ou seja,
Rejeitar H0 se e somente se T > c
e tomar como valor crı́tico

c = tn−2;α ,
a fim de obter um teste com nı́vel se significância α. Caso a hipótese alternativa seja
H1 : β1 < β ∗ ,
25
tomamos como regra de decisão para um teste de nı́vel α,
Rejeitar H0 se e somente se T < −tn−2;α .
Exemplo 1.7 No caso da emissão de poluentes, temos que o valor observado de QMres
é 0.74/8 = 0.0925, de tal forma que o valor observado da estatı́stica T é
1/2
sx β̂ 40.9
= × 0.387 = 8.14.
(QMres)1/2 0.0925
Neste caso é natural supormos que a redução média na emissão de poluente não
diminui quando aumentamos a quantidade de aditivo, de modo que podemos considerar
como hipótese alternativa H1 : β1 > 0. Para um teste unilateral de nı́vel α = 0.05, temos
t8;5% = 1.86, de modo que rejeitamos H0 : β1 = 0. A probabilidade de significância é
pv = P (t8 > 8.14) ∼

= 0.
Assim, os dados fornecem evidências de uma redução significativa nos nı́veis médios de
óxido de nitrogênio quando o aditivo é utilizado.
1.3.5 Estimação da Média da Variável Resposta
Seja x um valor da variável regressora. Pela discussão apresentada após a definição

1.3, temos que o estimador de máxima verossimilhança para a média µ(x) é dado por
µ̂ (x) = βˆ0 + βˆ1 x.
Observe que µ̂(x) é um estimador não viciado para µ(x), pois
E (µ̂ (x)) = β0 + β1 x = µ (x) .
O teorema a seguir mostra a distribuição de µ̂(x).

26
Teorema 1.3 " !#

2
1 (x − x̄)
µ̂ (x) ∼ N µ (x) , σ 2 +
n Sx2
Corolário 1.2
µ̂ (x) − µ (x)
r h 2
i ∼ tn−2
(x−x̄)
QMres n1 + S 2
x
A demonstração do teorema fica para o capı́tulo 2, onde todos os teoremas vistos

até aqui serão enunciados de um forma mais geral. A demonstração do corolário segue
as mesmas linhas da demonstração do Corolário 1.1. Como corolário do Corolário 1.2
temos o seguinte resultado:
Corolário 1.3 Um intervalo com coeficiente de confiança (1 − α)100% para µ(x) é

dado por
" !#1/2
1 (x − x̄)2
µ̂ (x) ± tn−2;α QMres + . (1.19)
n Sx2
Exemplo 1.8 Em relação aos dados da tabela 1.1, a redução esperada correspondente
à quantidade de aditivo x = 4 é estimada por
µ̂ (x) = βˆ0 + βˆ1 x = 2 + 0.387 × 4 = 3.548.
Temos que x̄ = 3.9, s2x = 40.9 e t8;0.025 = 2.306. Assim, um intervalo de confiança a
95% para µ(4) é dado por
s
(4 − 3.9)2

1
3.548 ± 2.306 × 0.0925 × +
10 40.9
= [3.33; 3.77].
27
Suponha que desejamos também estimar a redução média em x = 7.5. Seguindo

os mesmo passos, temos que a estimativa pontual de µ(7.5) é
µ̂(7.5) = 2 + 0.387 × 7.5 = 4.9
e um intervalo de confiança para µ(7.5) a 95% é dado por

s
(7.5 − 3.9)2

1
4.9 ± 2.306 × 0.304 × + = [4.45; 5.35]
10 40.9
O comprimento do intervalo de confiança (1.19) (ou seja, o extremo superior do

intervalo menos o extremo inferior) é dado por
" !#1/2
1 (x − x̄)2
2tn−2;α QMres + . (1.20)
n Sx2
Observando este comprimento como função de x, vemos que este atinge o seu mı́nimo
quando x = x̄ e aumenta conforme aumenta a distância entre x e x̄. Isto mostra que
a previsão da média é mais precisa próximo de x̄ e torna-se crescentemente imprecisa
quando nos afastamos de x̄ (veja os comprimentos dos dois intervalos obtidos no exemplo
acima em x = 4 e em x = 7.5). Em particular não é recomendável obter previsões
para valores x distantes de mı́n{x1 , . . . , xn } ou máx{x1 , . . . , xn }. Equivalentemente,
podemos notar que o comprimento em (1.20) é diretamente proporcional ao desvio
padrão estimado de µ̂(x), apresentado no Teorema 1.3. O aumento de imprecisão na
estimação é então equivalente ao aumento na variabilidade do estimador.
Para ter uma visão clara sobre como pode ser uma má idéia obter estimativas da
média da variável resposta muito afastadas do “padrão”das observações, observemos
a figura 1.6, onde um modelo de regressão linear é adequado para descrever a relação
entre as variáveis no intervalo de valores da variável regressora que vai de 5 a 10. No
entanto, se a reta estimada fosse estendida para estimar a resposta média em x = 20,
terı́amos uma estimativa absurdamente irreal.
28
Figura 1.6: O Risco de uma Previsão Afastada
1.3.6 Previsão de uma Observação Futura da Variável Res-

posta
Trataremos agora de uma questão similar, mas não equivalente, à da seção ante-
rior, onde obtivemos um estimador para a média da variável resposta em um determi-
nado nı́vel da variável regressora. Nesta seção, desejamos prever uma futura observação
da variável resposta para um determinado valor x da variável regressora. Esta questão
é diferente da anterior, pois envolve uma inferência sobre uma observação ainda não re-
alizada da variável resposta. Se as condições experimentais permitirem podemos obter
futuramente a observação. Isto é totalmente diferente de estimar a média µ(x), uma
vez que possivelmente jamais saberemos o seu verdadeiro valor.
Vamos assumir que as observações disponı́veis Y1 , . . . , Yn , são independentes da

futura observação Y ∗ correspondente a um valor da variável regressora x∗ e que a
distribuição de Y ∗ é normal com média µ(x∗ ) e variância σ 2 . Como os estimadores βˆ0
29
e β̂1 dependem somente de Y1 , . . . , Yn , vem que Y ∗ é independente de (βˆ0 , β̂1 ). Como

µ̂(x∗ ) = βˆ0 + β̂1 x∗ , temos que Y ∗ e µ̂(x∗ ) também são independentes, além de terem
distribuição normal com a mesma média µ(x∗ ). Além disso,
" #
∗ ∗ ∗ ∗ 2 2 1 (x∗ − x̄)2
V ar (Y − µ̂(x )) = V ar (Y ) + V ar (µ̂(x )) = σ + σ + .
n Sx2
Demonstramos então o seguinte teorema:
Teorema 1.4
Y ∗ − µ̂(x∗ )
h i1/2 ∼ N (0, 1),
1 (x∗ −x̄)2
σ 1+ n
+ Sx2
que implica no
Corolário 1.4
Y ∗ − µ̂(x∗ )
n h io1/2 ∼ tn−2 .
1 (x∗ −x̄)2
QMres 1 + n + S 2
x
Assim, o intervalo aleatório

( " #)1/2
1 (x∗ − x̄)2
µ̂(x∗ ) ± tn−2,α/2 QMres 1 + +
n Sx2
é um intervalo de previsão para Y ∗ com coeficiente de confiança 1 − α
Exemplo 1.9 Para os dados da tabela 1.1, suponha que desejamos prever a redução
de óxido de nitrogênio para a quantidade de x∗ = 4.5 unidades de aditivo. A estimativa
da redução média é
µ̂(4.5) = 2 + 0.387 × 4.5 = 3.74
e o intervalo de previsão a 95% é dado por
s
1 (4.5 − 3.9)2
3.74 ± 2.306 × 0.304 1 + +
10 40.9
= (3.00; 4.48).
30
1.3.7 Alguns Comentários Sobre a Adequação do Modelo de

Regressão Linear Simples
A aplicabilidade dos procedimentos vistos até agora depende da validade das su-
posições feitas na definição do modelo de regressão linear. Estimações pontuais, por
intervalo e testes de hipóteses só fazem sentido quando estas suposições se verificam.
Portanto, é essencial uma análise cuidadosa dos dados com o objetivo de detectar al-
guma violação destas suposições. Didaticamente, podemos listá-las da seguinte maneira,
conforme a definição 1.2:
1. As variáveis Y1 , . . . , Yn são independentes;
2. As variáveis Y1 , . . . , Yn têm a mesma variância;
3. A distribuição de Yi é normal, ı = 1, . . . , n;
4. A média da variável resposta é uma função linear de (β0 , β1 ) e uma função afim
da variável regressora.
Boa parte dos procedimentos para verificação da validade destas suposições utiliza
como elemento básico os resı́duos Ei , definidos em (1.10). Nesta seção vamos tratar
somente da análise dos resı́duos para verificar a validade da suposição de normalidade.
A análise para a validação das outras hipóteses será vista com detalhes no capı́tulo 3,
que é exclusivamente dedicado à este tema.
Em relação à distribuição dos resı́duos, temos o
Teorema 1.5 " !#

1 (xi − x̄)2
Ei ∼ N 0, σ 2 1− − .
n Sx2
31
Este teorema não será demonstrado agora. Isto será feito em um contexto bem
mais geral, no capı́tulo 3.
Observe que, pelo teorema 1.5, a variância de Ei tende para σ 2 quando n → ∞ e

Sx2 → ∞.
O resı́duo Ei é conhecido como Resı́duo Ordinário. Para os nossos propósitos é

mais interessante trabalhar com os Resı́duos Padronizados, que são definidos por
Ei
Ri = q (1.21)
1 (xi −x̄)2
σ 1− n
− Sx2
e que, é claro, têm distribuição normal padrão. Também é possı́vel mostrar que, sob
certas condições que serão vistas no capı́tulo 3, estes resı́duos são aproximadamente
não correlacionados. Se isto ocorre, podemos tratar R1 , . . . , Rn como uma amostra
aleatória proveniente de uma distribuição normal padrão5 . Daı́ vem a idéia de verificar
a suposição de normalidade das observações através da inspeção da distribuição dos
resı́duos padronizados. Se todas as outras suposições forem mantidas (ou seja, lineari-
dade, independência e variância constante) então espera-se, pelo que discutimos acima,
que os resı́duos padronizados constituam uma amostra aleatória de uma normal padrão.
Se isto não ocorrer, é por quê a distribuição associada às observações não é normal.
Para verificar se uma determinada amostra aleatória é proveniente de uma po-

pulação com distribuição normal utilizaremos um Gráfico de Probabilidade Normal (ou,
em inglês, Normal Probability Plot). Se os resı́duos tiverem distribuição normal padrão e
forem aproximadamente independentes, o gráfico deve apresentar uma tendência linear,
uma reta passando pela origem. A seguir daremos a justificativa para esta metodologia.
O gráfico de probabilidade normal é uma forma visual de obtermos alguma evidência

contra a hipótese da ocorrência conjunta de duas suposições: i) a amostra R1 , . . . , Rn é
5
Uma Amostra Aletória Proveniente de Uma População com determinada distribuição é um vetor
de variáveis aleatórias independentes e identicamente distribuı́das.
32
aleatória e ii) ela é proveniente de uma população normal. Supondo que i) é verdadeira,
seja F a função de distribuição de cada Ri , que é desconhecida. Devemos então estimá-
la com o objetivo de compará-la com a distribuição normal. Um estimador natural é a
Função de Distribuição Empı́rica, F̂n (x), definida da seguinte maneira: seja
(
1 se Ri ≤ x
Zi = .
0 se Ri > x
Então n
1X
F̂n (x) = Zi . (1.22)
n i=1
Assim, para cada x ∈ R, F̂n (x) é uma variável aleatória6 que é observada verificando-se
quantos dentre os resı́duos observados r1 , . . . , rn são menores ou iguais a x.
Seja Φ a função de distribuição normal padrão. Caso Ri tenha distribuição normal

com média µ e variância σ 2 obtemos, para x ∈ R,

Ri − µ x−µ x−µ
F (x) = P (Ri ≤ x) = P ≤ =Φ ,
σ σ σ
de modo que o gráfico da função definida por
x−µ
λ(x) = Φ−1 (F (x)) = , x∈R
σ
é uma reta. A idéia é que este comportamento se reproduza caso substituamos F (x)
por F̂n (x).
Sejam r(1) , . . . , r(n) os resı́duos colocados em ordem crescente. Temos que

i
F̂n r(i) = , ı = 1, . . . , n
n
6
Observe que cada Zi tem distribuição de Bernoulli com probabilidade de sucesso P (Ri ≤ x) =
F (x). Como conseqüência imediata, podemos provar, utilizando a Lei Forte dos Grandes Números e o
Teorema Central do Limite, que
1. Quando n tende para o infinito, F̂n (x) → F (x) com probabilidade 1
2. Para n grande, a distribuição de F̂n (x) é aproximadamente normal com média F (x) e variância
F (x)[1 − F (x)]/n.
33
e assim
−1

−1 i
Φ F̂n (r(i) ) = Φ .
n
Assim, se a distribuição dos resı́duos for igual a Φ, teremos que uma representação
gráfica dos pontos

i
−1 −1
r(i) , Φ F̂n (r(i) ) = r(i) , Φ (1.23)
n
deve apresentar uma tendência linear.
Observe que temos um problema no caso em que ı = n, pois

−1 i
Φ = Φ−1 (1) = ∞.
n
Devido a isto, é usual marcar no gráfico os pontos

−1 i − 1/2
ri , Φ ,
n
em vez dos pontos em (1.23).
Exemplo 1.10 Na figura 1.7 temos um gráfico de probabilidade normal para os resı́duos
padronizados no caso dos dados da tabela 1.1. Claramente não existe uma tendência
linear. Mas talvez fosse necessário obter mais observações para podermos detectar a
violação da hipótese de normalidade.
1.3.8 E Quando os Valores da Variável Regressora não Pude-

rem ser Pré-fixados?
Na análise que apresentamos até agora está incorporada a hipótese de que os

valores da variável regressora são pré-fixados, ou seja, no modelo de regressão linear
Yi ∼ N (β0 + β1 xi , σ 2 ) ı = 1, . . . , n
34
Figura 1.7: Gráfico de Probabilidade Normal para os Dados na

tabela 1.1
temos que x1 , . . . , xn são constantes pré-estabelecidas: o experimentador determina o

valor xi da variável regressora e observa o respectivo valor yi da variável resposta. Este
tipo de procedimento é apropriado em muitos experimentos. Além dos exemplos que
já vimos, podemos citar os seguintes:
• Na área médica, um pesquisador pode estar interessado no estudo da relação entre

doses de ingestão de carboidrato e o conseqüente ganho de peso. As doses devem
ser pré-fixadas pelo pesquisador;
• Na agricultura, um problema relevante é determinar a dosagem ideal de ferti-

lizante necessária para otimizar a produção de uma determinada cultura. Os
diferentes nı́veis de dosagem são pré-estabelecidos e o correspondente nı́vel de
produção é observado;
• Ainda na área médica, mais especificamente em neurofisiologia, é de interesse

estudar a relação existente entre a magnitude de um determinado estı́mulo visual,
35
com nı́veis fixados a priori, e o tempo de reação a estı́mulos.
Ocorre que em muitas situações não é possı́vel fazer o controle dos valores da
variável regressora. Por exemplo, em um curso de lı́nguas é de interesse relacionar os
escores dos estudantes em um teste antes do curso com os escores obtidos em um teste
após o curso. É claro que estes valores não podem ser pré-fixados, devem ser observados.
O que precisamos neste momento é de uma reformulação do nosso modelo es-

tatı́stico com o objetivo de englobar situações como esta. Consideremos então a questão
prever uma variável aleatória Y a partir da observação de uma variável aleatória X.
Vamos definir um Preditor de Y como sendo qualquer variável aleatória da forma ϕ(X).
Seja
EQM[ϕ(X)] = E [Y − ϕ(X)]2
o Erro Quadrático Médio na Previsão de Y por ϕ(X). Temos então o seguinte teorema
Teorema 1.6 Existe uma única função ϕ∗ tal que
EQM[ϕ∗ (X)] ≤ EQM[ϕ(X)]
para toda função ϕ. Temos que
ϕ∗ (X) = E(Y |X).
Demostração: Observemos que
E [Y − ϕ(X)]2 = E [Y − ϕ∗ (X) + ϕ∗ (X) − ϕ(X)]2

= E [Y − ϕ∗ (X)]2 + E [ϕ∗ (X) − ϕ(X)]2 . (1.24)
A segunda igualdade é uma conseqüência de
E {[Y − ϕ∗ (X)] [ϕ∗ (X) − ϕ(X)]} = 0.

36
Para ver que isto é verdade, façamos H(X) = ϕ∗ (X) − ϕ(X). Então,
E {[Y − ϕ∗ (X)] H(X)} = E {H(X)E {[Y − ϕ∗ (X)] |X}} = 0,
pois
E {[Y − ϕ∗ (X)] |X} = E(Y |X) − E [ϕ∗ (X)|X]

= E(Y |X) − ϕ∗ (X) = 0.
Por (1.24) vem então que
E [Y − ϕ(X)]2 ≥ E [Y − ϕ∗ (X)]2 (1.25)
para todo preditor ϕ(X). A demonstração da unicidade fica como exercı́cio (exercı́cio
12).
Pelo Teorema 1.6 temos que E(Y |X) é o preditor com menor erro quadrático
médio7 .
A abordagem a seguir mostra a conexão entre esta teoria e os modelos de regressão.

Dizemos que um vetor aleatório (X, Y ) tem Distribuição Normal Bivariada quando tiver
densidade
1
f (x, y) = p
2πσx σy 1 − ρ2
( " 2 2 #)
1 x − µx x − µx y − µy y − µy
× exp − − 2ρ + ,
2 (1 − ρ2 ) σx σx σy σy
7
Observemos que o conjunto L2 formado por todas as variáveis aleatórias definidas em um mesmo
espaço de probabilidade e com segundo momento finito é um espaço vetorial sobre R (Brockwell e
Davis, 1991, Pág 46). Definamos neste espaço a norma
k X k2 = E(X 2 ),
de modo que a desigualdade em (1.25) pode ser escrita como
k Y − ϕ(X) k2 ≥ k Y − ϕ∗ (X) k2 . (1.26)
Seja X ∈ L2 . O conjunto M(X) formado por todas as variáveis aleatórias em L2 da forma ϕ(X) é
um subespaço vetorial de L2 . A desigualdade (1.26) significa que ϕ∗ (X) minimiza a distância de Y a
M(X). Ou seja, E(Y |X) é a projeção de Y sobre M(X).
37
(x, y) ∈ R2 . Pode-se mostrar que o vetor de médias e a matriz de covariância de (X, Y )

são dados, respectivamente, por
µ = [E(X), E(Y )] = [µx , µy ]
e " # " #
Var(X) Cov(X, Y ) σx2 ρσx σy
Σ= = ,
Cov(X, Y ) Var(Y ) ρσx σy σy2
onde Cov(X, Y ) é a covariância e ρ é o coeficiente de correlação entre X e Y . Escrevemos
então
(X, Y ) ∼ N2 (µ, Σ). (1.27)
Teorema 1.7 Seja (X, Y ) um vetor aleatório com distribuição normal bivariada como
em (1.27). Então a distribuição condicional de Y dado que X = x é
N β0 + β1 x, σ 2 ,

onde
σy σy
σ 2 = σy2 1 − ρ2 .

β0 = µy − ρ · µx , β1 = ρ · e
σx σx
A demonstração pode ser encontrada em diversas referências que tratam de inferência

multivariada como, por exemplo, Rao (1973, Pág 202). Assim, quando o vetor (X, Y )
tem distribuição normal bivariada, a função de X que minimiza o erro quadrático médio
é8
ϕ(X) = E(Y |X) = β0 + β1 X. (1.28)
Se β0 e β1 forem conhecidos, o problema da previsão de Y baseado em X está resolvido.

Caso contrário, é necessário estimar estes parâmetros. Seja x um valor observado de
X. Como vimos no Teorema 1.7, β0 e β1 são parâmetros associados à distribuição
8
No caso em que a distribuição de (X, Y ) não é normal não há razão para supor que E(Y |X) é
uma função linear de X, como em (1.28). A projeção de Y sobre o espaço vetorial formado pelas
combinações lineares da forma a + bX é denominada O Melhor Preditor Linear de Y em Termos de
X. O erro quadrático médio do melhor preditor linear é sempre menor ou igual que o erro quadrático
médio de E(Y |X), pela definição de projeção. No caso da distribuição normal, os erros são iguais.
38
condicional de Y |X = x, que é N (β0 + β1 x, σ 2 ). Para estimar estes parâmetros, basta

então tomar uma amostra de uma população com esta distribuição. Temos então que o
modelo estatı́stico a ser considerado é equivalente ao modelo na Definição 1.2, adequado
para o caso em que um valor x da variável regressora é pré-fixado.
Concluimos então que, o modelo estatı́stico utilizado com o objetivo de obter uma
previsão de Y a partir de um valor observado x do regressor X é equivalente ao modelo
para o caso em que fixamos o valor x, de modo que todas as técnicas de estimação e
testes que utilizamos antes podem ser utilizadas no contexto desta seção.
Exemplo 1.11 Os dados a seguir são relativos à performance de corredoras na prova

de 10 km rasos. Deseja-se estudar o comportamento da variável Y que é o tempo (em
segundos) para completar a prova com base nos valores observados da variável X que
é o poder aeróbico máximo (ou seja, o volume máximo de oxigênio absorvido, VO2 ).
Tabela 1.3: Caracterı́sticas Fı́sicas e Perfor-

mance de 14 Corredoras.
X 61.32 55.29 52.83 57.94 53.31
Y 39.37 39.80 40.03 41.32 42.03
X 51.32 52.18 52.37 57.91 53.93
Y 42.37 43.93 44.90 44.90 45.12
X 47.88 47.41 47.17 51.05
Y 45.60 46.03 47.83 48.55
Fonte: Conley, D.L., G.S. Krahenbuhl, L.n. Burkett and A.L. Millar (1981).
Phisiological Correlates of Female Road Racing Performance . Res. Quart. Exercise
Sport, 52,. 441-448.
Na figura 1.8 temos o diagrama de dispersão para as observações. Aparentemente

um modelo de regressão linear simples é adequado para descrevê-las. A reta de regressão
estimada é
µ̂(x) = 68.5 − 0.468x
39
Figura 1.8: Tempo para Completar a Prova dos 10 km rasos por

Capacidade Aeróbica Máxima
Observe que
µ̂(x) − µ̂(x + 1) = 68.5 − 0.468x − 68.5 + 0.468x + 0.468 = 0.468
de modo que um aumento de uma unidade na capacidade aeróbica implica em uma

redução no tempo de prova de 0.468 segundos.
Na figura 1.9 temos um gráfico de probabilidade normal para os resı́duos padro-

nizados. Aparentemente não há violação da hipótese de normalidade.
Como já discutimos antes, os procedimentos de estimação e testes só serão confiáveis
se as hipóteses do modelo de regressão linear estiverem satisfeitas. Neste ponto ainda
precisarı́amos checar as outras hipóteses (variância constante, independência etc). Não
vimos ainda as técnicas necessárias para isto, de modo que o exemplo com o qual
estamos trabalhando serve de simples ilustração.
40
Figura 1.9: Gráfico de Probabilidade Normal para os Dados da

Tabela 1.3
Antes de testarmos a significância da variável poder aeróbico máximo observemos

que é natural supor que que um atleta com maior capacidade aeróbica necessariamente
completará a prova em um tempo menor, de modo que podemos restringir o espaço
paramétrico do nosso modelo considerando β1 ≤ 0. Para testar
H0 : β1 = 0 contra H1 : β < 0
podemos utilizar o teste t unilateral. O valor observado da estatı́stica de teste
(Sx β̂1 )/(QMres)1/2
é -3.04 (note que o valor observado de SQres é 63.72, e temos 14 − 2 = 12 graus de

liberdade associados à distribuição da estatı́stica de teste sob a hipótese nula).
A probabilidade de significância associada ao valor observado da estatı́stica de

teste é
P (t12 < −3.04) = 0.0051
41
indicando a rejeição de H0 . Para o teste bilateral a probabilidade de significância

associada ao teste de H0 contra H1 : β1 6= 0 é dada por
P (|t12 | > 3.04) = 2 × 0.0051 = 0.0102.
Assim, existem evidências de associação linear entre as variáveis.
Para uma capacidade aeróbica máxima x = 56, temos uma estimativa da média
igual a µ̂(56) = 42.292, com desvio padrão estimado 0.769, e respectivo intervalo de
confiança a 95% dado por (40.617; 43.967). O intervalo de previsão da observação futura
relativa a este valor é (37.012; 47.572), com coeficiente 95%.
42
1.4 Exercı́cios
1. Considere o modelo de regressão linear simples e os resı́duos Ei , i = 1, . . . , n:
(a) Mostre que Ei = Yi − Y − β̂1 (xi − x), i = 1, . . . , n;
(b) Mostre que ni=1 Ei = 0;

P
(c) Mostre que, para i 6= j,
σ 2 (xi − x)(xj − x)
Cov[Yi , β̂1 (xj − x)] = Cov[β̂1 (xi − x), β̂1 (xj − x)] = ;
Sx2
(d) Utilize estes resultados para mostrar que

2 1 (xi − x)(xj − x)
Cov(Ei , Ej ) = −σ + .
n Sx2
2. Verifique que, quando fixados β0 e β1 , o estimador σ̂ 2 definido em (1.11) maximiza

a função de verossimilhança no modelo de regressão linear simples.
3. Demonstre o Corolário 1.2.
4. Mostre que, para x ∈ R a seqüência de estimadores {F̂n (x)} definida em (1.22)

satisfaz
F̂n (x) → F (x)
com probabilidade 1, quando n tende para o infinito.
5. Demonstre o Teorema 1.7.
6. Gere em computador observações de um modelo de regressão linear simples, mas

substituindo a distribuição normal das observações por outra distribuição contı́nua
que você achar conveniente;
(a) Faça um gráfico de probabilidade normal e comente;

43
(b) Repita o procedimento de geração 1000 vezes, fixando os valores dos parâmetros
β0 e da variância das observações em todas as amostras geradas. Para cada
amostra, teste a hipótese H0 : β1 = 0 utilizando o teste definido em (1.14).
Obtenha a proporção de rejeições de H0 para diversos valores de β1 ; comente
os resultados.
7. Considere que em um experimento conduzido por um agrônomo, com o objetivo

de modelar a relação entre doses de fertilizante (x) e produção de uma espécie de
milho (Y ), foram obtidas as seguintes quantidades: n = 15; x = 10, 8; y = 122, 7;
Sx2 = 70, 6; Sy2 = 98, 5; Sxy = 68, 3. Supondo que o modelo de regressão linear
simples é adequado para descrever a relação
(a) Encontre a reta de regressão estimada;
(b) Construa um intervalo de confiança para a produção esperada correspondente

a x = 12;
(c) Construa um intervalo de previsão para uma nova observação correspondente

a x = 15.
(d) O agrônomo conjectura que o aumento de uma unidade de fertilizante pro-

voca um aumento médio na produção maior que 0,6. Os dados fornecem
evidências de que esta afirmação é correta?
8. Uma loja de carros importados oferece algumas unidades de um modelo de um

determinado fabricante. Os preços estão listados na tabela abaixo, e são acompa-
nhados da idade do carro.
44
Idade (em anos) Preço (em $1000)

1 39,9
2 32,0
4 25,0
5 20,0
6 16,0
6 20,0
10 13,0
11 13,7
11 11,0
12 12,0
12 20,0
12 9,0
12 9,0
13 12,5
15 7,0
(a) Construa um diagrama de dispersão;
(b) Obtenha a reta de regressão ajustada;
(c) Comente sobre a possiblidade de utilizar o modelo de regressão linear simples

para descrever a relação entre idade e preço;
(d) Supondo a adequabilidade do modelo, teste a hipótese de que a média de

preço depende da idade do carro;
(e) Obtenha uma previsão para um carro com 19 anos de idade. Comente sobre
os riscos de fazer esta previsão.
9. Considere o teste t bilateral para a hipótese H0 : β1 = β ∗ contra a alternativa

H1 : β1 6= β ∗ . Mostre que, vista como função somente de β1 , a função poder do
teste é simétrica em torno de β ∗ . (Sugestão: observe que os parâmetros de não
centralidade para calcular ψ(β1 + β ∗ ) e ψ(−β1 + β ∗ ) são iguais a ξ = β1 /(σSx ) e
δ = −β1 /(σSx ), respectivamente. A partir daı́ deduza que tξ = −tδ .)
45
10. Considere o modelo de regressão linear definido por variáveis aleatórias indepen-
dentes Y1 , . . . , Yn tais que
Yi ∼ N (βxi , σ 2 ),
onde xi , i = 1, . . . , n são valores fixados da variável regressora e σ 2 > 0. Sejam β̂

e σ̂ 2 os EMV’s e SQres a soma dos quadrados dos resı́duos.
(a) Escreva a função de verossimilhança associada ao modelo;
(b) Encontre β̂ e σ̂ 2 ;
Sugestão: use derivadas.
Pn
(c) Pode-se mostrar que β̂ ∼ N (β, σ 2 / i=1 x2i ), que SQres/σ 2 ∼ χ2n−1 e que esta
última variável é independente de β̂. Com base nisto encontre um intervalo
de confiança com coeficiente 1 − α para β;
(d) Defina um teste para a hipótese β = 0 contra a alternativa β > 0;
(e) Encontre a função poder do teste definido no item anterior.
11. Na área de quı́mica existe um interesse em uma propriedade do plutônio cha-

mada solubilidade, que depende da temperatura. Os dados a seguir referem-se a
mensurações de pó de plutônio em uma mistura fundida. Para diferentes nı́veis
de temperatura x (em 1000/temperatura em graus centı́grados) foi observada a
variável Y = − log10 (solubilidade).
x 1,68 1,74 1,85 1,92 1,99 1,82 1,69 1,60 1,52

Y 0,33 0,41 0,57 0,65 0,77 0,57 0,35 0,18 0,14
Utilizando o modelo de regressão linear:
(a) Encontre a estimativa da média da variável Y para cada valor x;
(b) Teste a hipótese de que a solubilidade depende da temperatura;
(c) Encontre um intervalo de previsão para uma nova mensuração correspon-

dente à 714 graus centı́grados.
46
12. Mostre que ϕ(X) = E(Y |X) é a única função de X que satisfaz a desigualdade
(1.25).
Sugestão: Seja ξ(X) também satisfazendo a desigualdade (1.25). Então, necessa-
riamente
EQM(ϕ(X)) = EQM(ξ(X)).
Prove então que E(ϕ(X) − ξ(X))2 = 0 utilizando o fato (que também deve ser
demonstrado) de que
2
2 ϕ(X) + ξ(X)
+2 E(ϕ(X) − Y )2 + E(ξ(X) − Y )2

E(ϕ(X)−ξ(X)) = −4E −Y
2
Capı́tulo 2
O Modelo de Regressão Linear

Múltipla
2.1 Notação
Para denotar que uma matriz A tem ordem n × m utilizaremos a notação A :

n × m. O termo Vetor Coluna n- Dimensional refere-se a uma matriz de ordem n ×
1. A′ denota a transposta da matriz A e |A| o determinante de A. In é a matriz
identidade de ordem n × n.O Vetor de Médias de um vetor aleatório Y = (Y1 , . . . , Yn )′
é o vetor E(Y ) = (E(Y1 ), . . . , E(Yn ))′ . A matriz de covariâncias de Y é a matriz Σ =
Cov(Y ) : n × n tal que Σij = Cov(Yi , Yj ). Serão utilizados alguns resultados relativos
à álgebra linear, esperança, matriz de covariâncias, diferenciação de funcões vetoriais e
distribuição normal multivariada que estão nos apêndices C, A, D e E. De fundamental
importância é a noção de Produto Interno Entre Dois Vetores x e y, definido por x′ y.
√
A Norma (Euclideana) do Vetor x é então dada por kxk = x′ x.
47
48
2.2 O Modelo
O problema a ser tratado neste capı́tulo é da mesma natureza do que foi abordado
no capı́tulo anterior, só que com a possibilidade de mais de uma variável regressora no
modelo. Especificamente, suponhamos que para a i-ésima unidade amostral tenhamos
valores fixados
xi1 , xi2 , . . . , xi(p−1)
de p − 1 variáveis regressoras (p > 1) e observamos o valor de uma variável resposta Yi ,

i = 1, . . . , n, n < p.
Definição 2.1 O Modelo de Regressão Linear Múltipla é definido por observações in-
dependentes Y1 , . . . , Yn tais que
Yi ∼ N (µi , σ 2 ),
onde
µi = β0 + β1 xi1 + β2 xi2 + · · · + β(p−1) xi(p−1) , ı = 1, . . . , n (2.1)
e σ 2 > 0.
Antes de prosseguirmos com estimações e testes de hipóteses, um comentário sobre

o caso em que os valores dos regressores devem ser observados, ou seja, não têm nı́veis
fixados. Seja X = (X1 , . . . , Xp−1 ) o vetor de variáveis regressoras e definamos um
Preditor de Y Baseado em X como sendo qualquer variável aleatória da forma ϕ(X),
exatamente como na seção 1.3.8. Seja
EQM(ϕ(X)) = E[Y − ϕ(X)]2
o Erro Quadrático Médio na Previsão de Y por ϕ(X). O teorema a seguir mostra que,
no caso de distribuição normal, esta situação é equivalente ao caso de nı́veis fixados.
49
Teorema 2.1 Suponha que

(Y, X1 , . . . , X(p−1) )
tem distribuição normal p-variada. Então existem β0 , β1 , . . . , βp−1 tais que
1. E(Y |X) = β0 + β1 X1 + . . . + βp−1 Xp−1 ;
2. E(Y |X) tem o menor erro quadrático médio entre todos os preditores de Y base-
ados em X.
Assim, podemos tratar o caso em que o vetor (Y, X1 , . . . , X(p−1) ) é observado da

mesma maneira que o caso em que valores dos regressores são pré-fixados.
A notação mais adequada para a abordagem teórica das propriedades do modelo

de regressão linear múltipla é a notação matricial. Seja
Y = (Y1 , . . . , Yn )′ (2.2)
o vetor de observações. Como Y1 , . . . , Yn são independentes, temos que a densidade

conjunta destas variáveis aleatórias (que é a densidade de Y ) é dada por
( n
)
1 1 X
f (y1 , . . . , yn ) = exp − 2 (yi − µi )2
(2πσ 2 )n/2 2σ i=1

1 1 ′ 2
−1
= · exp − (y − µ) σ In (y − µ) , (2.3)
(2π)n/2 |σ 2 In |1/2 2
onde y = (y1 , . . . , yn )′ e µ = (µ1 , . . . , µn )′ . Pela definição do modelo temos que
µ = Xβ,
onde  
1 x11 . . . x1(p−1)
 1 x21 . . . x2(p−1) 
X= (2.4)
 
.. .. ... .. 
 . . . 
1 xn1 . . . xn(p−1)
50
e
′
β = β0 , β1 , . . . , β(p−1) . (2.5)
Assim, a densidade em (2.3) é a de uma distribuição normal multivariada com vetor de

médias µ = Xβ e matriz de covariâncias σ 2 In . Ou seja, o modelo de regressão linear
múltipla pode ser redefinido por
Y ∼ Nn (Xβ, σ 2 In ), (2.6)
onde Nn denota a distribuição normal n-variada. Uma suposição adicional ao modelo

de regressão linear será a de que as colunas da matriz X são linearmente independentes.
Em alguns textos esta matriz recebe a denominação de Matriz de Planejamento.
2.3 Estimação
2.3.1 Pontos Crı́ticos da Função de Verossimilhança
Os estimadores de máxima verossimilhança para os parâmetros β e σ 2 são ob-

tidos maximizando o logaritmo da função de verossimilhança associada à amostra
y = (y1 , . . . , yn )′ , dado por
n 1
l(β, σ 2 ) = − log(2πσ 2 ) − 2 (y − Xβ)′ (y − Xβ), β ∈ Rp , σ 2 > 0. (2.7)
2 2σ
Para maximizar em β, consideramos σ 2 fixado e maximizamos a função parcial
β → l(β, σ 2 ), β ∈ Rp ,
o que é equivalente a minimizar
D (β) = (Y − Xβ)′ (Y − Xβ) , β ∈ Rp . (2.8)
Um ponto crı́tico de D é solução de

∂D (β)
= 0, ı = 0, . . . , p − 1 (2.9)
∂βi
51
de modo que precisamos obter estas derivadas parciais. Primeiramente, vamos reescre-
ver
D (β) = (Y ′ − β ′ X ′ ) (Y − Xβ)
= Y ′ Y − Y ′ Xβ − β ′ X ′ Y + β ′ X ′ Xβ
= Y ′ Y − 2β ′ X ′ Y + β ′ X ′ Xβ,
já que Y ′ Xβ tem dimensão 1 × 1 – pois as dimensões de Y , X e β são n × 1, n × p e

p × 1, respectivamente – implicando em
Y ′ Xβ = (Y ′ Xβ)′ = β ′ X ′ Y.
Seja ′
∂D(β) ∂D(β) ∂D(β)
= ,..., .
∂β ∂β0 ∂β(p−1)
Utilizando resultados do Apêndice D, temos que
∂D(β)
= −2X ′ Y + 2X ′ Xβ.
∂β
As equações em (2.9) são equivalentes a
∂D(β)
= 0,
∂β
ou seja,
X ′ Xβ = X ′ Y. (2.10)
Esta equação é denominada Equação Normal. Assim, pontos crı́ticos de D devem

necessariamente ser solução de (2.10), se estas existirem. Se a matriz X ′ X for invertı́vel,
temos que a equação normal tem solução única, dada por
−1
β̂ = (X ′ X) X ′ Y. (2.11)
Uma condição suficiente para que X ′ X seja invertı́vel é que as colunas de X sejam
linearmente independentes. Este resultado é demonstrado na próxima seção.
52
2.3.2 Existência e Unicidade de Soluções da Equação Normal
A seguir apresentaremos dois resultados gerais que serão úteis na discussão sobre
a existência e unicidade de soluções da equação normal. Em particular, o Teorema 2.2
mostra que a equação normal sempre tem solução. Note que, para mostrar a existência
de soluções, em nenhum instante é utilizada a suposição de independência linear entre as
colunas de X. Note também que a primeira coluna de X não precisa ter necessariamente
todos os elementos iguais a 1.
Lema 2.1 O espaço gerado pelas colunas de X ′ X é igual ao espaço gerado pelas colunas
de X ′ .
Demonstração: Vamos mostrar que [span(X ′ X)]⊥ = [span(X ′ )]⊥ e usar o resultado
(C.7). Seja então z um vetor em [span(X ′ )]⊥ . Por definição, temos que z é ortogonal
às colunas de X ′ , ou seja, z ′ X ′ = 0. Transpondo, obtemos Xz = 0. Multiplicando por
X ′ nos dois lados desta igualdade temos X ′ Xz = 0 ou, transpondo, z ′ X ′ X = 0. Assim,
z é ortogonal às colunas de X ′ X, implicando que z ∈ [span(X ′ X)]⊥ . Isto prova que
[span(X ′ X)]⊥ ⊃ [span(X ′ )]⊥ . Para provar a inclusão contrária, tome z ∈ [span(X ′ X)]⊥ .
Então z ′ X ′ X = 0. Multiplicando os dois lados da igualdade por z, temos z ′ X ′ Xz = 0,
ou ainda, (Xz)′ Xz = 0. Como o único vetor ortogonal a ele mesmo é o vetor nulo,
resulta que Xz = 0, ou seja, z ′ X ′ = 0, concluindo a demonstração.
Teorema 2.2 A equação normal tem pelo menos uma solução ou, equivalentemente,
a função D tem pelo menos um ponto crı́tico.
Demonstração: Primeiramente, observe que o vetor X ′ Y está no espaço gerado pelas

colunas de X ′ – veja (C.4) – e, portanto, pelo Lema 2.1 resulta que X ′ Y está no espaço
gerado pelas colunas de X ′ X. Por definição de espaço vetorial gerado, existe então β
tal que X ′ Y = X ′ Xβ.
53
Teorema 2.3 X ′ X é invertı́vel se e somente se as colunas de X são linearmente inde-

pendentes.
Demonstração: Suponha que as colunas de X sejam linearmente independentes.

Então a dimensão do espaço gerado pelas colunas de X é p, que também é igual a
dimensão do espaço gerado pelas linhas de X. Esse espaço, por sua vez, é igual ao
espaço gerado pelas colunas de X ′ que por sua vez é igual ao espaço gerado pelas co-
lunas de X ′ X. Assim, a dimensão desse espaço é p, implicando que X ′ X é invertı́vel
(veja o Teorema C.3).
Como já discutimos antes, caso X ′ X tenha inversa a equação normal possui
solução única, dada em (2.11).
2.3.3 Pontos de Máximo Global da Função de Verossimilhança
Seja β̂ uma solução qualquer da equação normal – tendo X ′ X inversa ou não.

Esta solução será uma estimativa de máxima verossimilhança para β, se provarmos
que ela é um ponto de mı́nimo global da função D. Isto pode ser visto pelo seguinte
argumento:
D (β) = (Y − Xβ)′ (Y − Xβ)

′
= Y − X β̂ + X β̂ − Xβ Y − X β̂ + X β̂ − Xβ
h i′ h i
= Y − X β̂ + X β̂ − β Y − X β̂ + X β̂ − β
′ ′
= Y − X β̂ Y − X β̂ + Y − X β̂ X β̂ − β
′ ′
′ ′
+ β̂ − β X Y − X β̂ + β̂ − β X X β̂ − β
′ ′
= Y − X β̂ Y − X β̂ + β̂ − β X ′ X β̂ − β ,
54
pois, como β̂ é solução da equação normal, vale X ′ Y = X ′ X β̂. Observemos que a

primeira parcela na última expressão acima não depende de β e que a segunda parcela
é sempre não negativa, pois
′
β̂ − β X ′ X β̂ − β = kX(β̂ − β)k2 .
Esta norma ao quadrado é igual a zero se e somente X(β̂ − β) = 0, pois o vetor

nulo é o único que possui norma igual a zero. Como as colunas de X são linearmente
independentes, temos que isto ocorre se e somente se β̂ − β = 0. Ou seja, o mı́nimo de
D(β) é atingido em β = β̂. Este mı́nimo, é claro, é igual a (Y − X β̂)′ (Y − X β̂).
O estimador de máxima verossimilhança do parâmetro µ = Xβ é
µ̂ = X β̂, (2.12)
que em geral recebe a denominação de Vetor de Valores Ajustados, embora não adote-
mos esta terminologia aqui. O vetor
E = Y − µ̂ = Y − X β̂
é o Vetor de Resı́duos, e a variável aleatória

′
SQres = Y − X β̂ Y − X β̂ = min {(Y ′ − Xβ) (Y − Xβ) ; β ∈ Rp } (2.13)
é a Soma dos Quadrados dos Resı́duos. Observe que

′ n
X
Y − X β̂ ′
Y − X β̂ = (Y − µ̂) (Y − µ̂) = (Yi − µ̂i )2 ,
ı=1
onde
µ̂i = β̂0 + β̂1 xi1 + · · · + β̂(p−1) xi(p−1) , (2.14)
é o valor ajustado correspondente à ı-ésima observação, ou seja, o estimador de máxima

verossimilhança para µi .
55
Para obter o estimador de máxima verossimilhança para σ 2 , consideremos o loga-

ritmo da função de verossimilhança parcial, dado por
n 1 ′
log l β̂0 , β̂1 , . . . , β̂(p−1) , σ 2 = − log 2πσ 2 − 2 y − X β̂ σ 2 > 0.

y − X β̂ ,
2 2σ
Derivando em relação a σ 2 e igualando o resultado a zero, obtemos como ponto

crı́tico desta função
1 ′ 1
σ̂ 2 = Y − X β̂ Y − X β̂ = SQres. (2.15)
n n
Pode-se provar que σ̂ 2 é o estimador de máxima verosiimilhança para σ 2 (ou seja, é o
máximo global da função). Este é o Exercı́cio 1.
Exemplo 2.1 O modelo de regressão linear simples definido em (1.2) é um caso par-
ticular do modelo de regressão linear múltipla. Aqui temos p = 2 e
" #
′ 1 1 ... 1
X = , (2.16)
x1 x2 . . . xn
de modo que
 
" # 1 x1 " #
Pn
′ 1 1 ... 1  1 x2  n x i
XX= = Pn Pnı=1 2 (2.17)
 
.. .. 
x1 x2 . . . xn x ı=1 xi

 . .  ı=1 i
1 xn
e
 
" # Y1 " P #
n
1 1 ... 1  Y2  Y
X ′Y = = Pnı=1 i .
 
..
x1 x2 . . . xn x Y

 .  ı=1 i i
Yn
Assim, a equação normal é dada por
" Pn #" # " P #
n
n x β0 Yi
Pn Pnı=1 2i = Pnı=1 . (2.18)
ı=1 xi ı=1 xi β ı=1 xi Yi
Fica como exercı́cio para o leitor resolver a equação normal e verificar que a
solução obtida é aquela apresentada em (1.8). Este é o Exercı́cio 2.
56
2.3.4 Uma Outra Abordagem para a Estimação de Máxima

Verossimilhança
Observe que a função D definida em (2.8) pode ser escrita como
D(β) =k Y − Xβ k2 , β ∈ Rp ,
de modo que minimizá-la é equivalente a encontrar pontos da forma Xβ, com β percor-
rento todo o espaço Rp , de tal forma que a distância entre Y e estes pontos seja mı́nima.
Observe que o conjunto formado por estes pontos nada mais é do que o subespaço ve-
torial span(X). O ponto que minimiza a distância entre Y e os pontos deste espaço é a
projeção de Y sobre span(X), veja o apêndice C. Então, temos que X β̂ = Πspan(X) (Y ).
O vetor Y − X β̂ é ortogonal a todos os vetores de span(X). Em particular, esse vetor é
ortogonal a X β̂ e a todas as colunas da matriz X. Assim, X ′ (Y − X β̂) = 0 implicando
em X ′ Y = X ′ X β̂, mostrando que β̂ é solução da equação normal. Observe também
que, como a projeção é única, temos que X β̂ é sempre o mesmo, seja qual for a solução
β̂ para as equações normais.
A soma dos quadrados dos resı́duos, definida em (2.13), pode ser escrita como
SQres = (Y − X β̂)′ (Y − X β̂) =k Y − X β̂ k2 .
2.4 Propriedades dos Estimadores de Máxima Ve-

rossimilhança
Por (B.3) no apêndice E temos que a distribuição de β̂ é normal p-variada com

h i
−1 −1
E β̂ = E (X ′ X) X ′ Y = (X ′ X) X ′ E(Y )
−1
= (X ′ X) X ′ Xβ = β,
57
de modo que β̂ é um estimador não viciado para β e

h i
−1
Cov β̂ = Cov (X ′ X) X ′ Y
−1 −1
= (X ′ X) X ′ [Cov(Y )] X (X ′ X)
−1 −1
= (X ′ X) X ′ σ 2 In X (X ′ X)
−1 −1
= σ 2 (X ′ X) (X ′ X) (X ′ X)
−1
= σ 2 (X ′ X) .
Temos então o
Teorema 2.4
−1
β̂ ∼ Np β, σ 2 (X ′ X) .
Como corolário deste teorema temos o item 1 do Teorema 1.1, que será enunciado
mais uma vez para, em seguida, ser demonstrado.
Corolário 2.1 Considere o modelo de regressão linear simples, dado pelas variáveis
aleatórias independentes
Yi ∼ (β0 + β1 xi , σ 2 ) ı = 1, . . . , n.
Então,
h i
x̄2
1. β̂0 ∼ N β0 , σ 2 n1 + Sx2
2

2. β̂1 ∼ N β1 , Sσ 2
x
Demonstração: utilizando a expressão de X ′ X definida em (2.16) e omitindo ı́ndices

nos somatórios para simplificar a notação, temos
" P P #

−1 σ2 x2i − xi
Cov β̂ = σ 2 (X ′ X) = .
n x2i − ( xi )2
P
− xi n
P P
58
Como
" #
V ar(β̂0 ) Cov(β̂0 , β̂1 )
Cov β̂ =
Cov(β̂0 , β̂1 ) V ar(β̂1 )
e observando que Sx2 = x2i − nx̄2 , resulta que

P
σ 2 x2i σ 2 (Sx2 + nx̄2 ) σ 2 σ 2 x̄2

P
V ar β̂0 = P 2 = = + 2
n xi − ( xi )2 nSx2 n Sx
P
e
nσ 2
V ar β̂1 = ,
nSx2
completando a demonstração.
Também como corolário, obtemos a covariância entre β̂0 e β̂1 .
Corolário 2.2 x̄σ 2

Cov β̂0 , β̂1 = − 2 .
Sx
Utilizando o próximo teorema, vamos mostrar que σ̂ 2 é um estimador viciado para

σ 2 . O mesmo teorema será útil para determinar um estimador não viciado. O resultado
é uma extensão do item 2 do Teorema 1.1.
Teorema 2.5 A distribuição de SQres/σ 2 é qui-quadrado com n−p graus de liberdade.
A demonstração deste teorema está no apêndice G. A esperança de uma variável

aleatória com distribuição qui-quadrado é igual ao número de graus de liberdade. Assim,

SQres
E = n − p,
σ2
implicando em
SQres
E = σ2.
n−p
59
Desta forma, o estimador definido por

SQres
QMres = , (2.19)
n−p
denominado Quadrado Médio dos Resı́duos, é não viciado para σ 2 . Utilizando o mesmo
resultado provamos facilmente que o estimador de máxima verossimilhança σ̂ 2 é viciado
para σ 2 .
Observe que o denominador n − p em (2.19) é igual ao número de observações,

que é n, menos o número de “parâmetros β” do modelo, que é p.
O teorema a seguir também está demonstrado no apêndice G. Ele é uma extensão

do último item do Teorema 1.1.
Teorema 2.6 SQres e β̂ são independentes.
Pelo teorema 2.4, temos que
β̂i ∼ N βi , σ 2 cii ,

ı = 0, . . . , p − 1 (2.20)
onde cii é o ı-ésimo elemento da diagonal principal da matriz

−1
C = (X ′ X) .
Este resultado, mais os teoremas 2.5 e 2.6 permitem-nos demonstrar o próximo teorema.
Teorema 2.7
β̂i − βi
∼ tn−p , ı = 0, . . . , p − 1
(cii · QM Res )1/2
Este teorema é uma extensão do corolário 1.1 e, para ı = 0, . . . , p − 1, é útil na

elaboração de testes para a hipótese H0i : βi = βi∗ , utilizando como estatı́stica de teste
β̂i − βi∗
Ti = . (2.21)
(cii · QMres)1/2
60
Se a hipótese alternativa for H1i : βi > 0 rejeitamos H0i se Ti > c. Assim, para obtermos
um teste de nı́vel α desta hipótese contra a alternativa H1i : βi > 0, utilizamos como
regra de decisão
Rejeitar H0i se e somente se Ti > tn−p; α2 .
Se a alternativa for H1i : βi < 0 então substituimos < por > na regra de decisão. Se
for H1i : βi 6= 0 rejeitamos H0i se e somente se |Ti | > tn−p; α2 .
Se a hipótese H0k : βk = 0 for verdadeira, então a média da variável resposta nos

nı́veis xi1 , . . . , xi(p−1) das variáveis regressoras é dada por
µi = β0 + β1 xi1 + . . . + β(k−1) xi(k−1) + β(k+1) xi(k+1) + . . . + β(p−1) xi(p−1) , ı = 1, . . . , n
ou seja, o vetor de médias da variável resposta não depende dos valores associados do
“regressor 1”, x11 , x21 , . . . , xn1 . Dizemos então que esta variável regressora não contribui
significativamente no modelo.
Utilizando o teorema 2.7 podemos também obter um intervalo de confiança para

βi , que é dado por
β̂i ± tn−p; α2 (cii · QM Res )1/2 , i = 0, . . . , p − 1.
Exemplo 2.2 (Dobson, 2002, Pág. 91) Os dados na tabela 2.1 representam porcen-
tagens do total de calorias obtido a partir de um complexo de carboidratos, para 20
diabéticos dependentes de insulina. Os indivı́duos são do sexo masculino e foram sub-
metidos a uma dieta rica em carboidratos durante 6 meses. Suspeita-se que esta variável
resposta esteja relacionada com a idade (em anos), peso (relativo ao peso ideal para a
altura do indivı́duo) e a porcentagem de calorias proveniente de proteı́nas.
O vetor de respostas é o vetor y cujas coordenadas estão na primeira coluna da

tabela. A matriz X é dada por
X = [X0 X1 X2 X3 ] ,
61
Tabela 2.1: Porcentagem de Calorias Obtidas a Partir de Um Com-

plexo de Carboidratos, Idade, Peso Relativo e Porcentagem de Ca-
lorias Obtidas a partir de Proteı́na para 20 Indivı́duos do Sexo
Masculino, Diabéticos e Dependentes de Insulina
Porcentagem de Idade (X1 ) Peso (X2 ) Porcentagem de
Calorias (Carb.) (Y ) Calorias (Prot.) (X3 )
33 33 100 14
40 47 92 15
37 49 135 18
27 35 144 12
30 46 140 15
43 52 101 15
34 62 95 14
48 23 101 17
30 32 98 15
38 42 105 14
50 31 108 17
51 61 85 19
30 63 130 19
36 40 127 20
41 50 109 15
42 64 107 16
46 56 117 18
24 61 100 13
35 48 118 18
37 28 102 14
onde Xi é um vetor com coordenadas dadas pela ı-ésima coluna na tabela, ı = 1, 2, 3 e

X0 = [1 . . . 1]′ é um vetor com 20 coordenadas iguais a 1. Temos que
β = [β0 β1 β2 β3 ]′ .
A estimativa para σ 2 é
SQres 567.66
QMres = = = 35.4787
n−p 20 − 4
As estimativas dos desvios padrões dos estimadores β̂i – ou seja, (cii · QMR es)1/2 – estão
na tabela 2.2.
62
Tabela 2.2: Estimativas para os Desvios dos Estimadores dos

Parâmetros do Modelo de Regressão, Dados da Tabela 2.1
Estimativa Estimativa do Desvio Padrão
β̂0 13.07000
β̂1 (idade) 0.10930
β̂2 (peso) 0.08329
β̂3 (proteı́na) 0.63490
Para testar a hipótese β1 = 0 (ou seja, a variável idade não é significativa no

modelo), temos como valor observado de T1
−0.1137
T1 = = −1.04026.
0.1093
A probabilidade de significância para o teste desta hipótese contra a alternativa β1 6= 0
é
P (|t16 | > 1.04026) = 0.3136,
o que significa que não há evidência suficiente para a rejeição de β1 = 0. Assim,
podemos retirar a variável idade do modelo. Probabilidades de significância para testar
a significância de outras variáveis são apresentadas na tabela 2.3. Assim, há evidências
Tabela 2.3: Probabilidades de Significância, Dados da Tabela 2.1

Hipótese Nula Hipótese Alternativa Probabilidade de
de Significância
β2 = 0 β2 6= 0 0.015
β3 = 0 β3 6= 0 0.007
para a rejeição de hipótese β2 = 0 e também para a rejeição de β3 = 0. Assim,

somente o peso relativo e a porcentagem de calorias obtidas a partir de proteı́na parecem
influenciar a média da variável resposta.
Lembremos que os métodos aplicados acima só têm validade quando as hipóteses
relativas ao modelo de regressão linear forem satisfeitas. Como já havı́amos comentado
63
no Capı́tulo 1, existem procedimentos, baseados na análise dos resı́duos, que podem

ser úteis na verificação da validade destas suposições e que serão vistos com detalhes
no Capı́tulo 3. Por enquanto apresentamos um gráfico de probabilidade normal, cuja
interpretação é exatamente a mesma do caso da regressão linear simples, veja a seção
1.3.7. Aparentemente não há violação da hipótese de normalidade.
Figura 2.1: Gráfico de Probabilidade Normal para os Dados da

Tabela 2.1
O modelo com as duas variáveis regressoras restantes é dado por
µi = β0 + β2 xi2 + β3 xi3 , ı = 1, . . . , 20.
O vetor de respostas continua sendo y e a matriz X é dada por
X = [X0 X2 X3 ] .
As estimativas dos parâmetros, os respectivos desvios estimados, valores das estatı́sticas

para testar βi = 0 e respectivas probabilidades de significância são apresentados na
tabela 2.4. Tudo indica que β2 6= 0 e β3 6= 0, implicando que os regressores correspon-
64
Tabela 2.4: Estimativas para os Parâmetros, Desvios, Estatı́sticas

de Teste e Probabilidades de Significância, Dados da Tabela 2.1,
Modelo sem a Variável Idade
Parâmetro Estimativa Desv. Pad. T Prob. de Sig.
β0 33.13000 12.57000 2.64000 0.01700
β2 -0.22165 0.08326 -2.66000 0.01600
β3 1.82430 0.62330 2.93000 0.00900
dentes devem ficar no modelo. A reta de regressão ajustada é então dada por
µ̂ = 33.13 − 0.2216x2 + 1.8243x3 .
Uma aplicação interessante deste resultado é dada quando, para um valor fixado de peso
relativo x2 , desejamos avaliar a diferença entre a média da variável resposta quando a
porcentagem de calorias proveniente de proteı́nas é x3 e a média quando esta é x3 + 1
– um aumento em uma unidade nesta porcentagem. Se o modelo de regressão linear
simples sem a variável idade for adequado para descrever o fenômeno, temos que estas
médias são dadas respectivamente por
µ = β0 + β2 x2 + β3 x3
µ∗ = β0 + β2 x2 + β3 (x3 + 1)
= β0 + β2 x2 + β3 x3 + β3
Portanto,
µ − µ∗ = β3 .
Assim, a estimativa desta diferença é β̂3 = 1.8243. Então, um aumento em uma unidade
da porcentagem de calorias proveniente de proteı́nas representa um aumento estimado
de 1.8243 na porcentagem média de calorias proveniente de carboidratos, quando fixa-
mos um peso relativo.
65
Na tabela 2.5 temos intervalos de confiança para os parâmetros β0 , β1 e β2 . Uma

evidência de que estes parâmetros não são nulos é que os intervalos não contêm o zero.
Tabela 2.5: Intervalos de Confiança com coeficiente 95% para

Parâmetros do Modelo de Regressão linear Simples, Dados da Ta-
bela 2.1, Modelo sem a Variável Idade.
Parâmetro Intervalo de Confiança
β0 (6.4829,59.7771);
β2 (-0.3981,-0.0451)
β3 (0.5030,3.1456)
2.5 Previsão da Média da Variável Resposta para

Valores Fixados das Variáveis Regressoras
Apresentaremos agora uma extensão da teoria apresentada na seção 1.3.6, consi-

derando regressão múltipla. Seja
′
x = 1, x1 , . . . , x(p−1) (2.22)
um vetor tal que xj correspondente a um valor fixado associado à -ésima variável re-
gressora,  = 1, . . . , p−1. Não necessariamente xj é um dos valores fixados que constam
no conjunto original de observações. Seja µ(x) = x′ β a média da variável resposta cor-
respondente ao vetor x e seja µ̂(x) = x′ β̂ o seu estimador de máxima verossimilhança.
Este estimador pontual é denominado A Previsão da Média da Variável Resposta dado
o Vetor x de Valores Fixados das Variáveis Regressoras. Para obter uma estimativa
por intervalo, relembremos que pelo Teorema 2.4

2 ′ −1
β̂ ∼ Np β, σ (X X) .
66
Por (B.3) no apêndice A, vem que x′ β̂ tem distribuição normal (univariada), com média

E x′ β̂ = x′ E β̂ = x′ β
e matriz de covariâncias

−1
Var x′ β̂ = x′ Var β̂ x = σ 2 x′ (X ′ X) x.
Assim, temos o
Teorema 2.8 Seja x um vetor de valores fixados das variáveis regressoras. Seja µ̂(x) =
x′ β̂ o estimador da média da variável resposta correspondente a x. Então

−1
µ̂ (x) ∼ N x′ β, σ 2 x′ (X ′ X) x .
Corolário 2.3
µ̂(x) − x′ β
1/2 ∼ tn−p
QMres · x′ (X ′ X)−1 x
Assim, um intervalo de confiança com coeficiente 1 − α para µ(x) é dado por

1/2
−1
µ̂(x) ± tn−p; α2 QMres · x′ (X ′ X) x (2.23)
De maneira análoga podemos encontrar um intervalo de previsão para uma ob-

servação futura da variável resposta, o que é uma extensão do assunto tratado no
capı́tulo 1, veja a seção 1.3.6.
Considere então um vetor x como em (2.22) e suponha que desejamos obter um

intervalo de previsão para uma observação futura correspondente a x. Denotemos esta
observação por Y ∗ . Como já foi dito no capı́tulo 1, Y ∗ é independente das observações
disponı́veis Y1 , . . . , Yn e, portanto, Y ∗ é independente de µ̂(x) = x′ β̂, que é uma variável
67
aleatória que depende somente de Y = (Y1 , . . . , Yn ). Assim,
Var (Y ∗ − µ̂(x)) = Var (Y ∗ ) + Var (µ̂(x))

−1
= σ 2 + σ 2 x′ (X ′ X) x

−1
= σ 2 1 + x′ (X ′ X) x .
Como Y ∗ e µ̂(x) são independentes e têm distribuição normal, temos que Y ∗ − µ̂(x)
também tem distribuição normal. Temos então o
Teorema 2.9
−1
Y ∗ − µ̂(x) ∼ N 0, σ 2 1 + x′ (X ′ X) x .
Corolário 2.4
Y ∗ − µ̂(x)
1/2 1/2 ∼ tn−p .
(QMres) 1+ x′ (X ′ X)−1 x
Assim, um intervalo de previsão para Y ∗ , definido de tal forma que a probabilidade

deste conter a observação futura seja 1 − α é dado por
1/2
µ̂(x) ± tn−p; α2 (QMres)1/2 (1 + x′ (X ′ X) x) (2.24)
Exemplo 2.3 (Continuando o exemplo 2.2). Lembremos que a reta de regressão ajus-
tada é dada por
µ̂(x) = 33.13 − 0.2216x2 + 1.8243x3 .
Considere um indivı́duo com x2 = 112 de peso relativo e x3 = 16% de calorias proveni-

entes de proteı́nas. Temos que
µ̂(x) = 33.13 − 0.22165 × 112 + 1.8243 × 16 = 37.494
é a porcentagem média estimada de calorias obtidas a partir do complexo de carboi-

dratos. Através de um programa de computador encontramos QMres = 35.65 e uma
68
estimativa do desvio padrão de µ̂(x) igual a 1.34. Assim, um intervalo de confiança

para µ(x) com coeficiente 95% é dado por
37.494 ± 2.1098 × 1.34 = (34.6669; 40.3211) .
Um intervalo de previsão para a observação futura correspondente a x pode ser obtido

utilizando a fórmula (2.24). Temos que a estimativa do desvio padrão nesta fórmula é
dada por
1/2 1/2
−1
QMres + QMres · x′ (X ′ X) x = 35.65 + (1.34)2 = 6.1193
Assim, o intervalo de previsão é dado por
37.494 ± 2.1098 × 6.1193 = (24.5835; 50.4045)
2.6 O Teste F
Na seção 2.4 apresentamos um teste para a hipótese H0 : βi = 0. Vimos que se

esta hipótese for verdadeira, então a estatı́stica de teste tem distribuição t de Student
com n − p graus de liberdade. Com isto, encontramos um teste para H0 com nı́vel de
significância igual a α. Nesta seção trataremos do problema de testar a hipótese
H0 : βk = βk+1 = . . . = βp−1 = 0 (2.25)
onde 0 ≤ k ≤ p − 1. Se H0 for verdadeira então a média da resposta dependerá somente

das variáveis regressoras até o ı́ndice k − 1, ou seja, teremos
µi = E (Yi ) = β0 + β1 xi1 + · · · + βk−1 xi(k−1) , ı = 1, . . . , n, (2.26)
de modo que os outros regressores não são significativos no modelo. Ou seja, um

teste para H0 é um teste da significância conjunta destes regressores. No exemplo 2.2
poderı́amos testar, por exemplo, a hipótese
H0 : β1 = β2 = β3 = 0,
69
que, se verdadeira, implica na retirada das variáveis idade, peso e proteı́na do modelo.
Desta forma, se H0 for verdadeira, teremos que a média da resposta não é “explicada”
por estas variáveis.
Para obter um teste para a hipótese H0 utilizaremos o teste da razão de verossi-

milhança – veja Bolfarine e Sandoval (2001, Pág. 103). A estatı́stica de teste é dada
por
supH0 L
Λ= ,
sup L
onde L é a função de verossimilhança, sup L é o supremo desta função e supH0 L é o
supremo de L com o domı́nio restrito ao subconjunto do espaço paramétrico definido
pela hipótese H0 . Rejeitamos a hipótese nula para pequenos valores desta estatı́stica.
O máximo da função L é L(β̂, σ̂ 2 ), onde β̂ e σ̂ 2 são os estimadores de máxima

verossimilhança para β e σ 2 respectivamente, ou seja,
′
Y − X β̂ Y − X β̂
−1
β̂ = (X ′ X) X ′Y e σ̂ 2 = .
n
Se vale H0 , temos que a média das observações é dada em (2.26) e o vetor de médias
µ = (µ1 , . . . , µn )′ , em notação matricial, é dado por
µ = Zφ, (2.27)
onde
 
1 x11 . . . x1(k−1)
 1 x21 . . . x2(k−1)  ′
Z=  e φ = β0 β1 . . . βk−1 .
 
.. .. ..
 . . . 
1 xn1 . . . xn(k−1)
Assim, se H0 é verdadeira, o estimador de máxima verossimilhança para φ é dado por
−1
φ̃ = (Z ′ Z) Z ′Y (2.28)
70
e o estimador de máxima verossimilhança para σ 2 é

′
Y − Z φ̃ Y − Z φ̃
σ̃ 2 = .
n
O máximo da função L supondo a veracidade de H0 é L(φ̃, σ̃ 2 ). A estatı́stica da razão
de verossimilhança para o teste de H0 é então dada por

2
L β̃, σ̃
Λ= .
L φ̂, σ̂ 2
Temos então que, para uma amostra observada y = (y1 , . . . , yn )′ ,

′
2 −n/2 1
(2πσ̃ ) exp − 2σ̃2 y − X β̃ y − X β̃
Λ = ′
2 −n/2 1
(2πσ̂ ) exp − 2σ̂2 y − X φ̂ y − X φ̂
 ′ n/2
2 n/2
 y − X β̂ y − X β̂ 

σ̂
= = ′  . (2.29)
σ̃ 2 y − Z φ̃ y − Z φ̃
Um fato interessante é que a estatı́stica Λ é uma função monótona da razão

entre as somas dos quadrados dos resı́duos. O numerador, nada mais é que a soma
dos quadrados dos resı́duos usual, utilizando todos os regressores e o denominador é a
soma dos quadrados dos resı́duos obtida quando ajustamos o modelo de regressão linear
múltipla somente com as variáveis regressoras X1 , X2 , . . . , Xk−1 . Assim, na prática, se
quisermos obter o valor observado de Λ, basta ajustarmos dois modelos de regressão:
um com todos os regressores – ou seja, X1 , X2 , . . . , Xp−1 – e outro só com os regressores
X1 , X2 , . . . , Xk−1 . O valor observado de Λ é uma função da razão entre as duas somas
de quadrados de resı́duos obtidas.
Para efetivarmos o teste para a hipótese H0 precisamos estabelecer uma regra

para a rejeição da hipótese. Pela maneira como o teste da razão de verossimilhança é
definido, temos que a regra deve ser da forma
71
Rejeitar H0 se e somente se Λ < c,
onde c é uma constante determinada de acordo com o nı́vel de significância que dese-
jamos, ou seja, c depende da probabilidade do erro tipo I que especificarmos. Assim, é
necessário conhecer a distribuição de Λ quando H0 é verdadeira.
Em vez de encontrar a distribuição de Λ, vamos encontrar a distribuição de uma

função monótona de Λ, a chamada Estatı́stica F , definida por
′
X β̂ − Z φ̃ X β̂ − Z φ̃ / (p − k)
F = ′ .
Y − X β̂ Y − X β̂ / (n − p)
O próximo teorema mostra que podemos escrever Λ = g(F ), onde g é uma função
real estritamente decrescente e invertı́vel. Note que a inversa g −1 também é uma função
estritamente decrescente. Como Λ < c se e somente se F = g −1 (Λ) > g −1 (c) resulta
que a regra de decisão para H0 pode ser colocada na forma “rejeitar H0 para grandes
valores de F ”.
Teorema 2.10 −n/2

p−k
Λ= 1+ ·F .
n−p
Demonstração: Por (2.29) temos que

!−n/2
k Y − Z φ̃ k2
Λ= . (2.30)
k Y − X β̂ k2
Observe que
Y − Z φ̃ = Y − X β̂ + X β̂ − Z φ̃.
O vetor Y − X β̂ é ortogonal a qualquer vetor em span(X). Em particular, é ortogonal

ao vetor X β̂ − Z φ̃, que está em span(X), pois as colunas de Z também são colunas
72
de X, e a diferença de dois vetores em um subespaço vetorial ainda é um vetor do

subespaço. Assim, por (C.5) resulta que
k Y − Z φ̃ k2 =k Y − X β̂ k2 + k X β̂ − Z φ̃ k2 . (2.31)
Substituindo em (2.30) obtemos

!−n/2
k Y − X β̂ k2 + k X β̂ − Z φ̃ k2
Λ =
k Y − X β̂ k2
!−n/2
k X β̂ − Z φ̃ k2
= 1+
k Y − X β̂ k2
−n/2
p−k
= 1+ ·F ,
n−p
concluindo a demonstração.
A vantagem em usar F em vez de Λ é que conhecemos a distribuição de F quando

vale H0 . Esta distribuição é dada no teorema (2.11). Para a demonstração, são ne-
cessários alguns conhecimentos de álgebra linear que estão no apêndice C.
Teorema 2.11 Se H0 for verdadeira, então F ∼ F(p−k),(n−p) .
Demonstração: Sejam E1 = span(X0 , . . . , Xk−1 ) e E2 = span(X0 , . . . , Xp−1 ), onde

X0 = 1n . Temos que E1 ⊂ E2 . Sejam E2⊥ o complementar ortogonal de E2 e E2 ⊖ E1
o complementar ortogonal de E1 dentro de E2 . Observe que podemos escrever Rn =
E2 ⊕ E2⊥ e E2 = E1 ⊕ (E2 ⊖ E1 ), de modo que
Rn = E1 ⊕ (E2 ⊖ E1 ) ⊕ E2⊥ .
Suponha que desejamos definir um teste com nı́vel de significância igual a α.

Então, basta escolhermos c tal que

P F(p−k),(n−p) > c = α, (2.32)
73
onde F(p−k),(n−p) é uma variável aleatória com distribuição F de Snedecor com p − k e

n − p graus de liberdade. Denotamos c que satisfaz (2.32) por F(p−k),(n−p);α .
Figura 2.2: Gráfico da Densidade F .
Na figura 2.3.2 temos um gráfico de uma densidade associada à distribuição F ,

com a respectiva representação de F(p−k),(n−p);α .
Assim, um teste de nı́vel α para H0 é dado por:
Rejeitar H0 se e somente se F > F(p−k),(n−p);α .
Um fato importante é que a hipótese H0 é composta, ou seja, existem infinitos

vetores de parâmetros em H0 . Qualquer vetor de parâmetros na forma
′
θ = β0 , β1 , . . . , β(p−1) , σ 2
com βk = . . . = βp−1 = 0 está em H0 . Ou seja, β0 , β1 , . . . , βk−1 e σ 2 variam livremente.

Apesar disto, para qualquer um dos pontos em H0 a distribuição de F é a mesma, ou
seja, F ∼ F(p−k),(n−p) . Ou seja, se θ está em H0 a distribuição de F não depende de θ.
74
A fórmula (2.30) está expressa em termos dos vetores de valores ajustados X β̂

e Z φ̃. A seguir apresentaremos uma expressão alternativa para a estatı́stica F que é
mais conveniente em termos de aplicação, pois está colocada em termos das somas dos
quadrados dos resı́duos, que são apresentadas diretamente nas saı́das dos programas de
computador.
Observe que podemos escrever
k X β̂ − Z φ̃ k2 /(p − k)
F =
k Y − X β̂ k2 /(n − p)

k Y − Z φ̃ k2 − k Y − X β̂ k2 /(p − k)
= ,
k Y − X β̂ k2 /(n − p)
onde a última igualdade é conseqüência de (2.31). Note que no numerador dessa ex-
pressão temos a diferença entre a soma dos quadrados dos resı́duos resultante do ajuste
do modelo com os regressores X1 , . . . , Xk−1 e a resultante do ajuste do modelo com
X1 , . . . , Xp−1 . Denotaremos estas somas por SQres (X1 , . . . , Xk−1 ) e SQres (X1 , . . . , Xp−1 ),
respectivamente. Notações análogas serão utilizadas para os quadrados médios dos
resı́duos. Assim, podemos escrever
[SQres(X1 , . . . , Xk−1 ) − SQres(X1 , . . . , Xp−1 )] /(p − k)
F = .
QMres(X1 , . . . , Xp−1 )
Para concluir, duas observações. Primeiramente, note que p e k representam o

número de “parâmetros β” possivelmente não nulos no modelo com todos os regressores
e no modelo definido por H0 , respectivamente. E também note que, na definição de H0 ,
impusemos que os últimos p − k parâmetros seriam iguais a zero. É claro que podemos
estender toda a teoria vista acima para a situação onde a hipótese nula é defininida por
um subconjunto de p − k parâmetros β – excluindo β0 – iguais a zero.
Exemplo 2.4 (Healy, 1988, Pág 19) A tabela 2.6 apresenta dados relacionados ao
número de espécies de pássaros em ilhas próximas à costa das ilhas britânicas. São 43
75
ilhas e sete variáveis, sendo o número de espécies (espéc) a variável resposta e os seis
regressores:
• dist: distância em relação ao continente (em km);
• lat: latitude norte (em graus);
• long: longitude oeste (em graus);
• área: área da ilha (em hectares);
• hab: número de habitats;
• elev: elevação máxima (em metros).
As estimativas dos parâmetros associados às variáveis e os respectivos valores das

estimativas dos desvios padrões, das estatı́sticas dos testes de significância e probabi-
lidades de significância são apresentados na tabela 2.7. O valor t refere-se ao valor
observado da estatı́stica para o teste da hipótese βi = 0,
β̂i
T = .
(cii · QMRes )1/2
– veja (2.21). A probabilidade de significância – ou p- value – é o valor P (|t(n−p) | > t),

onde t(n−p) é uma variável aleatória distribuição t de Student com (n−p) = (43−7) = 36
graus de liberdade, neste caso. Um comentário importante: por motivos que veremos
mais adiante, o teste t somente deve ser utilizado para a remoção de uma variável do
modelo de cada vez. Por exemplo, temos que a probabilidade de significância associada
à variável latitude é 0.889, sugerindo então a sua exclusão do modelo. Se decidirmos por
isto, devemos então reestimar os parâmetros sem a variável latitude, observar novos p-
values, retirar mais uma variável (se for necessário) e assim por diante. Nunca devemos
utilizar o teste t para retirar mais de uma variável de uma única vez. O teste adequado
para esta tarefa é o teste F .
76
A tabela 2.7 indica que, individualmente, as variáveis latitude, longitude e máxima

elevação são candidatas a serem retiradas do modelo. Será, que em conjunto, poderemos
retirá-las? Vamos então utilizar o teste F para testar a hipótese de que no modelo de
regressão linear com média
µ = β0 + β1 (dist) + β2 (lat) + β3 (long) + β4 (área) + β5 (hab) + β6 (elev)
os parâmetros β2 , β3 e β6 são nulos, ou seja, testar
H0 : β2 = β3 = β6 = 0.
Temos que SQres (X1 , X4 , X5 ) = 1541.6, SQres(X1 , . . . , X6 ) = 1481.7, p = 7 e k = 4,

de modo que a estatı́stica F assume valor
43 − 7 1541.6 − 1481.7
F = · = 0.4851.
7−4 1481.7
A probabilidade de significância vale
P (F3;36 > 0.4851) = 0.6947
e assim optamos por não rejeitar H0 e retirar latitude, longitude e máxima elevação do
modelo.
Assim, um novo ajuste deve ser feito com as variáveis regressoras restantes, con-
siderando o modelo
µ = β0 + β1 (dist) + β4 (área) + β5 (hab).
Os resultados estão na tabela 2.8. As probabilidades de significância indicam que os

três regressores devem permanecer no modelo. A média da variável número de espécies
é então estimada por
µ̂ = −5.8350 − 0.05857(dist) + 0.0012(área) + 2.2071(hab).

77
Considere, por exemplo, uma hipotética população de ilhas a 23 km do continente, com

área igual a 100 ha e número de habitats igual a 18. Então o número de espécies médio
estimado é
µ̂ = −5.835 − 0.0586 × 23 + 0.0012 × 100 + 2.2071 × 18 = 32.65,
com um intervalo de confiança a 95% de (28.877; 36.449).
Na figura 2.3 temos um gráfico de probabilidade normal para os resı́duos resul-

tantes do ajuste deste modelo.
Figura 2.3: Gráfico de Probabilidade Normal para os Resı́duos.
2.6.1 A Tabela de Análise de Variância
Uma das utilizações mais freqüentes do teste F é testar a Significância Conjunta

de Todas as Variáveis Regressoras. No exemplo 2.4, supondo que a média da resposta
78
é dada por
µ = β0 + β1 (dist) + β2 (lat) + β3 (long) + β4 (área) + β5 (hab) + β6 (elev),
podemos ter interesse em testar a hipótese
H0 : β1 = β2 = . . . = β6 = 0.
Se não rejeitarmos H0 não há mais nada a fazer, pois µ não dependeria dos regressores
em questão.
Consideremos então o modelo de regresão linear múltipla, ou seja,
Y ∼ Nn (Xβ, σ 2 I),
onde Y , X e β estão definidos (2.2), (2.4) e (2.5), respectivamente e considere a hipótese
H0 : β1 = . . . = βp−1 = 0, (2.33)
que é a hipótese em (2.25) com k = 1. Se H0 é verdadeira, temos então que
Yi ∼ N (β0 , σ 2 ), i = 1, . . . , n. (2.34)
Assim, as respostas constituem uma amostra aleatória de uma população com distri-
buição normal, e a solução para o problema da estimação de máxima verossimilhança de
β0 e σ 2 é amplamente conhecida, sendo os estimadores de β0 e σ 2 dados respectivamente
por
n
1X
β̂0 = Y e σˆ2 = (Yi − Y )2 .
n i=1
Podemos obter o mesmo resultando utilizando a abordagem matricial para mode-

los de regressão. Note que podemos reescrever (2.34) como
Y ∼ Nn (Zβ0 , σ 2 I),
79
onde Y = (Y1 , . . . , Yn )′ e Z = (1, . . . , 1)′ . Então este é um modelo de regressão linear

múltipla como definido em (2.6), com matriz de planejamento Z. Assim, caso H0 seja
verdadeira temos, por (2.11), que
−1
β̂0 = (Z ′ Z) Z ′ Y
  −1  
1 Y1
=  1 . . . 1  . . .  1 ... 1  ... 
    
1 Yn
n
1X
= Yi = Ȳ
n ı=1
é o estimador de máxima verossimilhança para β0 . A soma dos quadrados dos resı́duos
é dada por
′ ′
SQres(0) = Y − Z β̂0 Y − Z β̂0 = Y1 − Ȳ , . . . , Yn − Ȳ Y1 − Ȳ , . . . , Yn − Ȳ
n
X 2
= Yi − Ȳ .
ı=1
Esta soma de quadrados é tradicionalmente conhecida como Soma de Quadrados

Total. Assim, a soma de quadrados total nada mais é do que a soma dos quadrados dos
resı́duos associada ao ajuste do modelo (2.34). A denotaremos por SQT otal . O teorema
a seguir mostra a relação entre SQT otal e a soma dos quadrados dos resı́duos oriunda
do ajuste com todos os regressores. Antes, precisamos definir a Soma de Quadrados de
Regressão, dada por
SQReg = (µ̂ − Y 1′ )′ (µ̂ − Y 1′ ) =k µ̂ − Y 1′ k2

Xn
= (µ̂i − Y )2 ,
i=1
onde µ̂ = (µ̂1 , . . . , µ̂n )′ = X β̂ e 1 = (1, . . . , 1)′ . SQres(X1 , . . . , X(p−1) ) representa a soma

dos quadrados de resı́duos usual, oriunda do ajuste do modelo com todos os regressores,
ou seja,
n
X
SQres(X1 , . . . , X(p−1) ) =k Y − µ̂ k2 = (Yi − µ̂i )2 .
i=1
80
Teorema 2.12 SQT otal = SQres(X1 , . . . , X(p−1) ) + SQReg .
Demonstração: Note que
Y − Y 1′ = Y − X β̂ + X β̂ − Y 1′ .
Observe que 1′ é a primeira coluna da matriz X. Assim, o vetor Y 1′ está no espaço

gerado pelas colunas de X. Como conseqüência, o vetor X β̂ − Y 1′ também está neste
espaço. Como o vetor Y − X β̂ é ortogonal a todos os vetores em span(X), resulta que
ele é ortogonal também a X β̂ − Y 1′ . Assim, por (C.5), temos que
k Y − Y 1′ k2 =k Y − X β̂ k2 + k X β̂ − Y 1′ k2 ,
Assim, para testar a hipótese em (2.33), temos que a estatı́stica F assume a forma
(SQT otal − SQres(X1 , . . . , Xp−1 )) /(p − 1)

F =
QMres(X1 , . . . , X(p−1) )
SQReg /(p − 1)
= .
QMres(X1 , . . . , X(p−1) )
A quantidade SQReg /(p − 1) é denominada Quadrado Médio de Regressão e é denotada

por QMreg. Assim, podemos escrever de forma resumida
QMReg
F = ,
QMres
ficando bem claro que QMres refere-se ao ajuste com todos os regressores. A probabi-
lidade de significância para o teste de H0 é dada por

P F(p−1),(n−p) > f ,
onde f é o valor observado da estatı́stica F e F(p−1),(n−p) denota uma variável aleatória

com distribuição F de Snedecor com p − 1 e n − p graus de liberdade.
81
A maioria dos softwares estatı́sticos apresenta em suas saı́das relativas ao ajuste de

um modelo de regressão uma tabela denominada Tabela de Análise de Variância. Nesta
tabela aparecem elementos suficientes para testar a hipótese de significância conjunta
dos regressores. O exemplo a seguir mostra uma tabela de análise de variância para o
exemplo 2.4.
Exemplo 2.5 Em relação ao exemplo 2.4, vamos testar a hipótese
H0 : β1 = β2 = . . . = β6 = 0.
Em um programa de computador obtemos a tabela de análise de variância 2.9, oriunda

do ajuste do modelo com todos os regressores.
A tabela é auto explicativa. Como o valor observado da estatı́stica F é f = 33.88,

temos que a probabilidade de significância é
P (F6;36 > 33.88) ∼

= 0,
implicando a rejeição de H0 . Assim, tudo indica que pelo menos um regressor é sig-
nificativo. Observe que na coluna Graus de Liberdade temos o número de graus de
liberdade associados à distribuição da estatı́stica de teste sob H0 .
2.6.2 O Coeficiente de Determinação
O Coeficiente de Determinação, definido por

SQReg
R2 =
SQT otal
é apresentado em geral como uma medida da qualidade do ajuste do modelo de regressão
linear. A justificativa para a sua utilização como tal reside na igualdade dada no
Teorema 2.12. Por este resultado vemos que 0 ≤ R2 ≤ 1 e que R2 = 1 se e somente
se SQres(X1 , . . . , X(p−1) ) = 0, o que ocorre se e somente se Yi = µ̂i para i = 1, . . . , n.
Isto dá a idéia do “ajuste perfeito” , no sentido de que todas observações estão na reta
82
de regressão ajustada. Assim, um bom ajuste seria aquele onde o valor de R2 estivesse
próximo de 1. Para os dados do exemplo 2.4 temos, no caso do modelo com todos os
regressores, R2 = 0.85. Para o modelo somente com as variáveis dist, área e hab, temos
R2 = 0.84.
Ocorre que quanto mais regressores em um modelo menor será a soma dos qua-
drados dos resı́duos associada e, portanto, um modelo com mais regressores terá ne-
cessariamente um R2 associado maior. Este resultado será demonstrado no Teorema
2.13. Este fato é um ponto negativo para o coeficiente de determinação, pois podemos
aumentar o coeficiente artificialmente introduzindo regressores, mesmo que estes novos
regressores não sejam relevantes para o problema em questão.
Teorema 2.13 Quanto mais regressores no modelo, menor será a soma dos quadrados
dos resı́duos.
Demonstração: A demonstração é basicamente uma aplicação direta da definição de

projeção, dada em (C.8). Seja X = (1, X1 · · · Xp−1 ) uma matriz de planejamento e
seja Z = (1, X1 · · · Xp−1 , Xp ), onde Xp é um vetor de ordem n × 1. Assim, um modelo
tendo Z como matriz de planejamento representa a inclusão de mais um regressor.
Sejam ΠX (Y ) e ΠZ (Y ) as projeções de Y sobre span(X) e span(Z), respectivamente.
Observe que todo vetor em span(X) também está em span(Z). Em particular, ΠX (Y ) ∈
span(Z). Por (C.8), vem que
SQres(X1 , . . . , X(p−1) , Xp ) =k Y − ΠZ (Y ) k2 ≤k Y − ΠX (Y ) k2 = SQres(X1 , . . . , X(p−1) ).
2.7 Exercı́cios
1. Prove que o estimador de máxima verossimilhança para σ 2 é σ̂ 2 dado em (2.15).

83
2. Prove, resolvendo o sistema (2.18), que os estimadores de máxima verossimilhança

para β0 e β1 no modelo de regressão linear simples são dados em (1.8).
84
Tabela 2.6: espécies de pássaros em ilhas

próximas à costa das ilhas britânicas.
espéc dist lat long area hab elev
4 49.9 49.54 6.22 21.4 8 18.0
45 3.2 52.46 4.48 179.8 19 167.0
7 5.2 56.05 2.38 2.8 8 82.0
36 35.4 54.03 4.50 249.5 18 127.9
51 15.7 56.10 6.46 7418.1 22 103.3
17 35.4 58.54 2.39 85.1 16 51.2
2 4.8 56.03 3.12 6.5 7 5.1
2 4.8 51.24 2.51 0.8 3 3.7
19 0.8 58.32 4.20 187.9 14 75.2
26 249.4 60.37 0.50 4011.5 20 158.4
8 6.1 51.22 3.08 21.1 7 18.3
2 54.7 57.59 7.24 19.0 9 32.0
5 3.5 55.17 5.37 5.7 4 27.1
6 44.5 49.54 6.19 38.6 11 24.7
3 64.4 57.42 7.36 13.8 6 37.5
10 0.4 52.05 -1.80 108.5 11 7.6
6 1.1 55.39 4.56 6.9 6 3.1
8 3.4 56.00 3.13 1.4 7 14.6
35 0.2 55.41 2.47 541.9 17 21.0
4 0.4 51.26 5.14 1.8 5 33.5
41 8.1 56.50 6.10 642.3 21 137.4
13 225.3 60.24 0.44 265.3 11 51.8
14 0.8 53.19 4.02 28.3 6 49.7
27 0.8 51.53 5.21 243.0 19 135.9
29 45.1 49.54 6.20 109.4 16 24.1
2 1.0 51.36 4.44 5.6 7 39.0
31 2.6 55.16 5.34 18.6 10 123.4
24 0.4 52.58 -0.19 334.1 9 12.2
42 1.2 51.45 5.18 292.4 18 78.9
4 49.9 59.04 4.24 13.8 3 12.2
53 25.7 56.31 6.51 7652.9 24 140.1
2 15.7 53.55 10.17 0.8 4 4.9
28 4.8 52.05 10.30 631.0 16 292.8
40 6.4 51.26 9.37 639.1 20 133.4
25 2.8 54.41 5.32 32.0 11 33.2
9 3.2 53.34 10.07 639.1 7 62.8
6 11.3 51.48 10.33 17.8 8 13.7
1 0.8 54.48 8.34 4.9 4 17.4
33 4.2 53.32 10.18 961.5 12 89.0
2 3.2 54.34 8.33 1.2 3 13.7
16 3.2 54.06 10.09 360.4 7 70.1
16 6.4 54.28 8.40 84.6 11 26.5
19 11.3 55.16 7.12 331.4 12 82.3
85
Tabela 2.7: Estimativas do Parâmetros e

Testes de Significância. Dados da tabela 2.6
Estimativa Desvio Padrão t p-valor
Constante -8.3200 23.5200 -0.3500 0.7260
dist -0.0611 0.0233 -2.6200 0.0130
lat 0.0593 0.4222 0.1400 0.8890
long -0.0415 0.3755 -0.1100 0.9130
área 0.0012 0.0008 1.5600 0.1260
hab 2.0115 0.2736 7.3500 0.0000
elev 0.0277 0.0247 1.1500 0.2600
Tabela 2.8: Estimativas do Parâmetros e

Testes de Significância. Dados da tabela 2.6,
Modelo sem Latitude, Longitude e Máxima
Elevação
Estimativa Desvio Padrão t p-value
Constante -5.8350 2.2270 -2.6200 0.0120
dist -0.0586 0.0194 -3.0000 0.0050
área 0.0012 0.0007 1.6400 0.1100
hab 2.2071 0.1992 11.0800 0.0000
Tabela 2.9: Tabela de Análise de Variância.

Dados da tabela 2.6.
Fonte Graus de Somas de Quadrados F Probabilidade de
Liberdade Quadrados Médios Significância
Regressão 6 8365.30 1394.20 33.88 0.00
Resı́duos 36 1481.70 41.20
Total 42 9847.00
86
Capı́tulo 3
Análise de Resı́duos
A idéia básica na análise de resı́duos é o estudo de gráficos que envolvem os

resı́duos com o objetivo de verificar a adequação de um determinado modelo no ajuste
aos dados.
Consideremos o modelo de regressão linear múltipla
Y ∼ Nn (Xβ, σ 2 )
e relembremos que o Vetor de Resı́duos Ordinários é definido por
E = Y − µ̂ = (Y1 − µ̂1 , Y2 − µ̂2 , . . . , Yn − µ̂n )′ , (3.1)
onde µ̂ = (µ̂1 , . . . , µ̂n )′ = X β̂ é o estimador da média µ = Xβ. Vamos encontrar a

distribuição de E. Temos que
−1
E = Y − X β̂ = Y − X (X ′ X) X ′ Y

′ −1 ′
= I − X (X X) X Y = (I − H)Y,
onde
−1
H = X (X ′ X) X ′.
87
88
Como E é o produto de uma matriz de constantes de dimensão n × n por um vetor

aleatório Y com distribuição normal n-variada resulta, pelo Teorema B.2, que E tem
distribuição normal n-variada, com vetor de médias

E (E) = E Y − X β̂ = E (Y ) − E X β̂ = Xβ − Xβ = 0.
e matriz de covariâncias
Cov (E) = (I − H) σ 2 · I (I − H)′ = σ 2 (I − H) (I − H)′

= σ 2 (I − H) ,
onde a última igualdade é conseqüência de termos
(I − H)′ = I − H e (I − H) (I − H) = I − H
(dizemos que I − H é Simétrica por satisfazer a primeira condição e Idempotente por

satisfazer a segunda). Demonstramos então o
Teorema 3.1
E ∼ Nn 0, σ 2 (I − H) .

Denotando por hii o i-ésimo elemento da diagonal principal de H e escrevendo E

em função de suas coordenadas, ou seja,
E = (E1 , . . . , En )′ ,
temos que
Var(Ei ) = σ 2 (1 − hii ).
Assim, vale o seguinte corolário do teorema (3.1).
Corolário 3.1
Ei ∼ N 0, σ 2 (1 − hii ) ,

ı = 1, . . . , n
89
Observe que este corolário é uma extensão do Teorema 1.5. Pelo Teorema 3.1
podemos perceber que
1. Os resı́duos não são identicamente distribuı́dos, já que Var(Ei ) = σ 2 (1 − hii );
2. Os resı́duos são correlacionados (em geral).
Para confirmar esta última afirmação, observe que
Cov (Ei , Ej ) = −σ 2 hij .
Assim, o coeficiente de correlação entre Ei e Ej é
Cov (Ei , Ej ) −σ 2 hij

Corr (Ei , Ej ) = p p =p p
Var (Ei ) Var (Ej ) σ 2 (1 − hii ) σ 2 (1 − hjj )
−hij
= p . (3.2)
(1 − hii ) (1 − hjj )
Os métodos de análise de resı́duos que estudaremos necessitam fortemente da

hipótese de que estes são não correlacionados e que têm a mesma variância. Este
último problema pode ser resolvido definindo os resı́duos padronizados,
Ei
Ri = p , ı = 1, . . . , n.
(1 − hii )
Observe então que

Ri ∼ N 0, σ 2 .

(3.3)
Além disso, temos que

Corr (Ri , Rj ) = Corr (Ei , Ej ) ,
de modo que os resı́duos padronizados são correlacionados, em geral.
Observe então que

90
1. Se as correlações em (3.2) são pequenas, então os resı́duos padronizados são apro-

ximadamente independentes;
2. Por (3.3) temos que os resı́duos padronizados têm a mesma variância, diferente-
mente dos resı́duos ordinários.
Podemos então aplicar, por exemplo, a teoria dos gráficos de probabilidade normal
para verificar a normalidade dos resı́duos. Relembrando: se o modelo de regressão linear
for adequado, o gráfico de probabilidade normal deve aproximar-se de uma reta.
3.1 Influência
Nesta seção vamos mostrar como mensurar a influência de uma observação Yi na

obtenção do estimador da média de Yi , ou seja, µ̂i .
Como µ̂ = X β̂ = X(X ′ X)X ′ Y , vem que
µ̂ = HY, (3.4)
de modo que a i-ésima coordenada de µ̂ pode ser escrita como
µ̂i = hi1 Y1 + hi2 Y2 + · · · + hin Yn , ı = 1, . . . , n,
onde hij é o elemento (i, j) da matriz H.
Pelo Corolário 3.1, temos que
σ 2 (1 − hii ) ≥ 0,
pois σ 2 (1 − hii ) é a variância de Ei e variâncias são sempre não negativas. Isto significa
que 1 − hii ≥ 0 e assim hii ≤ 1. Por (A.4), vem que
Cov (µ̂) = HCov (Y ) H ′ = σ 2 HIH ′ = σ 2 H,

91
uma vez que Var(Y ) = σ 2 I e pode-se verificar facilmente que H é simétrica e idempo-
tente. Assim,
0 ≤ Var (µ̂i ) = σ 2 hii ,
implicando em σ 2 hii ≥ 0 e, portanto, hii ≥ 0. Assim, mostramos que
0 ≤ hii ≤ 1, i = 1, . . . , n.
Podemos chegar ao mesmo resultado de uma outra forma, obtendo o coeficiente

de correlação entre Yi e µ̂i . A covariância entre Yi e µ̂i é dada por
Cov (Yi , µ̂i ) = Cov (Yi , hi1 Y1 + · · · + hin Yn )
– veja (3.4). Mas esta última covariância é igual a
Cov (Yi , hi1 Yi ) + · · · + Cov (Yi , hii Yi ) + · · · + Cov (Yi , hin Yn ) = hii Cov (Yi , Yi ) = σ 2 hii ,
pois Yi e Yj são independentes para i 6= j. O coeficiente de correlação entre Yi e µ̂i é

então dado por
Cov (Yi , µ̂i ) σ 2 hii p

Corr (Yi , µ̂i ) = p p = 1/2
= hii . (3.5)
Var (Yi ) Var (µ̂i ) σ · σhii
Como −1 ≤ Corr(Yi , µ̂i ) ≤ 1, vem que (Corr(Yi , µ̂i ))2 ≤ 1, implicando em 0 ≤ hii ≤ 1.
Por (3.5) temos que, se hii = 1 então Corr(Yi , µ̂i ) = 1. Observe que µ̂i é uma
combinação linear de Y1 , Y2 , . . . , Yn . Se a correlação entre Yi e µ̂i é 1 então, com proba-
bilidade 1,
µ̂i = aYi
onde a é uma constante. Assim, neste caso, somente Yi contribui para a estimação de
µi . Assim, concluimos que quando hii está próximo de 1 temos um indicativo de que
Yi exerce grande influência na obtenção µ̂i . Em inglês este fenômeno é conhecido como
leverage (alavanca em português).
92
3.2 Outliers
Um Outlier (ou Observação Discrepante) é uma observação cuja distribuição não

é a distribuição populacional especificada pelo modelo de regressão linear. Nesta seção
trataremos o caso em que existe uma observação Ym que tem média igual a uma
combinação linear dos regressores mais uma constante. Ou seja, vamos assumir que
Ym ∼ N (µm + δ, σ 2 ), com
µm = β0 + β1 xm1 + · · · + β(p−1) xm(p−1) .
Se tivermos δ 6= 0 poderemos encarar esta observação como um outlier. Para i =

1, . . . , n, i 6= m assumiremos que Yi ∼ N (µi , σ 2 ).
Observe que o vetor de médias E(Y ) = µ = (µ1 , . . . , µn )′ pode ser escrito como
µ = Zφ,
onde

Z= 1 X1 . . . X(p−1) Xp , φ = (β0 , β1 , . . . , β(p−1) , δ)′
e
Xp = (0, . . . , 1, . . . , 0)′ ,
o elemento 1 em Xp estando na m-ésima posição. Xi é um vetor coluna n-dimensional

com os valores do i-ésimo regressor, i = 1, . . . , p − 1. Assim, temos um modelo de
regressão linear múltipla definido por Y ∼ Nn (Zφ, σ 2 I).
Desta forma, podemos obter estimadores para os parâmetros e fazer testes de

hipóteses da maneira usual. Em particular nos interessa elaborar um teste para a
hipótese
H0 : δ = 0 (3.6)
93
Se H0 for verdadeira, a m-ésima observação não é um outlier. É possı́vel mostrar (veja

o apêndice E) que o estimador de máxima verossimilhança para δ é
em
δ̂ = , (3.7)
1 − hmm
onde em é o m-ésimo resı́duo obtido a partir do ajuste do modelo de regressão linear
com δ = 0, ou seja, o modelo
Y = Xβ + ε, (3.8)
com

X= X0 X1 . . . X(p−1) β= β0 β1 . . . β(p−1)
e hmm é o m-ésimo elemento da diagonal principal de H = X(X ′ X)−1 X ′ . Além disso,

pode-se provar – veja novamente o apêndice E – que
σ2

δ̂ ∼ N δ, . (3.9)
1 − hmm
Assim, se H0 : δ = 0 for verdadeira, temos que
σ2

δ̂ ∼ N 0, .
1 − hmm
Assim,
δ̂
∼ N (0, 1).
σ/ (1 − hmm )1/2
2
Seja σ̂(i) o quadrado médio dos resı́duos obtido através do ajuste do modelo de regressão
2
sem a m-ésima observação. Pode-se provar que σ̂(i) é o quadrado médio dos resı́duos
2
obtido a partir do modelo em (??). Pelo teorema do apêndice B, vem que σ̂(i) e δ̂ são
independentes. Assim, sob H0 ,
δ̂
e∗m = q ∼ t(n−p−1)
2
σ̂(m) (1 − hmm )
Por (3.7) temos que

em
e∗m = q (3.10)
2
σ̂(m) (1 − hmm )
e um teste para H0 é dado por
94
Rejeitar H0 se e somente se |e∗m | for grande.
Seja e∗m o valor observado da estatı́stica de teste. A probabilidade de significância

é dada por

P t(n−p−1) > |e∗m | .

e∗m é conhecido como resı́duo estudentizado. Na prática verificamos se |e∗m | > 2. Em

caso afirmativo, tomamos a m-ésima observação como um outlier.
3.3 Variância não Constante (ou Heterocedastici-

dade)
Uma suposição básica do modelo de regressão linear é a de que os erros de ob-

servação têm a mesma variância, ou seja,
V ar (εi ) = σ 2 , ı = 1, . . . , n.
Conseqüentemente excluı́mos situações onde a variância de εi depende dos valores de al-

gum regressor, tais como V ar(εi ) = σ 2 xi1 , ou quando depende da média da observação,
ou seja, V ar(εi ) = σ 2 µ1 , etc.
Suponha, por exemplo, que em vez de termos Yi com distribuição normal temos
Yi com distribuição de Poisson com média µi = E(Yi ). Como a variância de uma v.a.
com distribuição de Poisson é igual a média, temos que V ar(Yi ) = µi , ı = 1, . . . , n e
portanto as observações não têm a mesma variância.
Um gráfico de resı́duo que pode revelar variâncias não constantes é o gráfico das
estimativas µ̂i pelos resı́duos padronizados. Primeiramente suponha que o modelo de
95
regressão com todas as suposições básicas é válido. Temos que
Cov (µ̂i , ei ) = Cov (µ̂i , Yi − µ̂i )

= Cov (µ̂i , Yi ) − Cov (µ̂i , µ̂i )
= σ 2 hii − σ2 hii = 0
(veja (??) e o cálculo de Cov(Yi , µ̂i ) na página 84). Assim um gráfico de µ̂i × ei revela
um padrão de ausência de correlação (caso o modelo seja adequado).
A figura a seguir mostra um gráfico de µ̂i × ei obtido a partir da simulação de 500

observações Yi , onde
Yi ∼ N µi , σ 2 ,

ı = 1, . . . , 500, (3.11)
µi = 7.3 + 4.98xi , σ 2 = 16 e x1 , . . . , x500 são observações provenientes de uma população

com distribuição N (0, 1)
Figura 3.1: Resı́duos por Valores Ajustados.
Na prática utilizamos o resı́duo padronizado

ei
ri = p
σ̂ 2 (1 − hii )
96
em vez do resı́duo ordinário ei . A principal razão é que, pelo corolário do teorema (??)
(página 80),
ei ∼ N 0, σ 2 (1 − hii )

e portanto
ei
p ∼ N (0, 1). (3.12)
σ 2 (1 − hii )
Substituindo-se σ 2 por um estimador σ̂ 2 obtém-se o resı́duo padronizado e esperamos,
devido a (3.12), que estes resı́duos tenham variâncias com valores próximos. Trabalhar
com resı́duos que têm a mesma variância é mais razoável por algumas razões. Por
exemplo, você nunca saberá se um valor alto de ei (o resı́duo ordinário) é devido ao
fato da observação Yi ser discrepante ou devido ao fato da variância de ei ser grande.
Se todos os resı́duos têm a mesma variância este problema desaparece. A seguir temos
um gráfico com resı́duos padronizados obtido a partir dos dados gerados de acrodo com
(3.11).
Figura 3.2: Resı́duos Padronizados por Valores Ajustados.
Este é o ideal de gráfico de resı́duos × valores ajustados. Espera-se que quase a

totalidade dos resı́duos padronizados esteja entre -3 e 3 – pois isto acontece com valores
97
oriundos de uma população normal padrão. Também espera-se um comportamento que

evidencie a não existência de correlação entre os resı́duos e os valores ajustados, devido
ao que mostramos na página 88. Quando o gráfico não apresenta este padrão, pode ser
que alguma(s) hipótese(s) necessária(s) para a definição do modelo de regressão linear
não estejam satisfeitas. Primeiramente vamos discutir o caso em que as observações
não têm todas a mesma variância.
A figura abaixo mostra um gráfico de resı́duos × valores ajustados, obtido a partir

do ajuste do modelo de regressão linear simples utilizando observações simuladas em
computador. As observações seguem
Yi = 3.4 + 9.78xi + εi , ı = 1, . . . , 500, (3.13)
onde εi ∼ N (0, x4i ). Assim, V ar(εi ) = x4i . Portanto a suposı́ção de variâncias iguais é
violada neste caso.
Para estes dados simulados foi ajustado o modelo de regressão linear simples usual,
supondo que εi ∼ N (0, σ 2 ) – ou seja, erros com a mesma variância.
Observe que o gráfico apresenta um formato de ”megafone”. Isto é um indicativo

de que a variância dos resı́duos padronizados aumenta conforme aumenta o valor da
média das observações. Observe no gráfico: para valores menores de µ̂ a variabilidade
dos ri′ s é menor do que para valores maiores.
O gráfico de valores ajustados × resı́duos padronizados é então uma ferramenta

útil para a detecção de violação na hipótese de variância constante. A ausência é a
seguinte se o modelo de regressão fosse adequado para descrever o fenômeno, o gráfico
de resı́duos teria a forma apresentada na página 90. Pode-se provar que caso a variância
de εi dependa de µi , então a variâncoa de ri também dependerá de µi . O caso que
analisamos encontra-se nesta categoria, pois µi = 3.4 + 9.78xi , implicando em xi =
98
(µi − 3.4)/9.78 e portanto

4
µi − 3.4
V ar (Yi ) = x4i = .
9.78
3.4 Não-Linearidade
Nesta seção vamos simular uma situação onde a média da variável resposta não
é uma função linear dos regressores, como supõe o modelo de regressão linear simples.
Considere que tentemos ajustar este modelo a observações que seguem a estrutura
Yi = β0 + β1 xi + β2 x2i + εi , ı = 1, . . . , 500 (3.14)
onde εi ∼ N (0, σ 2 ). Para efeito deste exemplo vamos utilizar β0 = 2, β1 = 3.68,

β2 = −7.36 e σ 2 = 1. O regressor é gerado de acordo com uma distribuição ξ32 .
O gráfico a seguir mostra o diagrama de dispersão para as variáveis resposta e

99
regressora e a reta de regressão ajustada. Lembre-se que esta reta é oriunda do ajuste
do modelo
Yi = β0 = β1 xi + εi (3.15)
que, obviamente, é um modelo inadequado para a situação

100
Figura 3.4: Ajuste para uma Relação Não-Linear.
Observe para que valores de x próximos de zero o resı́duo é positivo, diminuindo

conforme aumenta o valor de e, depois passa a ser negativo, é decrescente em uma
região, crescente em outra, etc. Este comportamento dos resı́duos pode ser melhor
observado no gráfico de resı́duos padronizados × valores ajustados apresentado a seguir
Assim, se um gráfico de resı́duos oriundo do ajuste de um modelo de regressão

linear como em (3.15) apresenta um comportamento como o do gráfico (2.9.8), é sinal
de que termos devem ser incluı́dos no modelo. No caso, sabemos que a inclusão dos
valores x2i é necessária, pela forma como foram geradas as observações.
3.5 Gráficos de Resı́duos Parciais
Os gráficos de resı́duos parciais são úteis para que possamos conjecturar a verda-
deira relação entre a média da variável resposta e um particular regressor xj .
101
Suponha então que temos, como é usual, n observações da variável resposta,

Y1 , . . . , Yn e (p − 1) regressores. Para o regressor j temos os valores x1j , x2j , . . . , xnj .
Suponha que o ajuste do modelo de regressão
Yi = β0 + β1 xi1 + · · · + β(p−1) xi(p−1) + εi
é feito e são obtidos os respectivos estimadores β̂0 , β̂1 , . . . , β̂(p−1) e os resı́duos ordinários
e1 , . . . , en . O resı́duo parcial é definido por

rij = Yi − β̂0 + β̂1 xi1 + · · · + β̂(j−1) xi(j−1) + β̂(j+1) xi(j+1) + · · · + β̂(p−1) xi(p−1) .
Observe que a expressão em parênteses nada mais é do que µ̂i − β̂j xij , ou seja, o valor
ajustado menos a contribuição do -ésimo regressor a este valor ajustado. Temos então
que rij = Yi − µ̂i + β̂j xij , ou seja,
rij = ei + β̂j xij . (3.16)
Assim, para encontrar os resı́duos parciais correspondentes ao -ésimo regressor, ou seja,

o vetor
′
rj = r1j r2j . . . rnj ,
102
basta calcularmos
rj = e + β̂j xj , (3.17)
onde xj é a -ésima coluna da matriz X, ou seja,

′
xj = x1j x2j . . . xnj .
A fórmula (3.17) facilita a obtenção de rj no computador.
Se a relação
Yi = β0 + β1 xi1 + · · · + β(p−1) xi(p−1) + εi
for adequada teremos, como já vimos antes,
E (ei ) = E (Yi − µ̂i ) = µi − µi = 0
e portanto

E (rij ) = E (ei ) + E β̂j xij = βi xij . (3.18)
Um gráfico de resı́duos parciais é um gráfico de rij por xij , ı = 1, . . . , n. Por (3.18)

vemos que, se a média da resposta for uma função linear no regressor j, então este
gráfico será uma reta passando pela origem.
A questão é: e se a verdadeira relação não for linear? Pode-se mostrar que, neste
caso, o gráfico dará uma idéia da relação entre µi e xij . Vamos exemplificar isto através
de dados simulados.
Geramos observações do modelo
Yi = 2 + 3xi1 + 4 log xi2 + εi , (3.19)
onde os valores xi1 foram gerados a partir de uma distribuição χ23 e xi2 de acordo com
uma distribuição χ25 .
Ajustamos o modelo
Yi = β0 + β1 xi1 + β2 xi2 + εi
103
Figura 3.6: Regressor 2 por Resı́duos Parciais.
e obtivemos β̂1 = 3.00 e β̂2 = 0.813. Temos, por exemplo, e1 = −2.38502, x11 = 1.9879
e x12 = 7.7535. Assim,
r11 = e1 + β̂1 x11

= −2.38502 + (3 × 1.9879)
= 3.5786
r12 = e1 + β̂2 x12

= −2.38502 + (0.813 × 7.7535)
= 3.9186
Analogamente calculamos r21 , . . . , rn1 e r22 , . . . , rn2 . Na figura (2.10.10) temos um

gráfico de xi2 por ri2 , claramente indicando que a relação entre µi e xi2 é logarı́tmica.
104
Figura 3.7: Regressor 1 por Resı́duos Parciais.
O gráfico desta página mostra que a relação entre µi e xi1 é linear (este gráfico é de xi1
por ri1 ).
Resumindo: um gráfico como o da página 96 indica que o termo log(xi2 ) deve ser
incluı́do no modelo.
3.6 Um Algoritmo para a Análise de Resı́duos
A seguir apresentaremos uma seqüência que julgamos adequada para que possa-
mos obter sucesso no processo de análise de resı́duos.
* 1o Passo: Faça um gráfico de resı́duos padronizados × valores ajustados. Isto

pode revelar que:
105
1. A variância dos erros não é constantes e/ou
2. A média da variável resposta não é uma função linear dos regressores.
Caso haja evidências da ocorrência de (1) podemos aplicar uma transformação na

variável resposta com o objetivo de tornar a variância constante. Neste caso é re-
comendável
• Aplicar logaritmo (log Y ), quando a variância cresce a medida que µ̂ cresce
• Obter Y 2 , quando a variância decresce a medida que µ̂ cresce
• Obter 1/Y , quando a maioria das observações está próxima de zero e existem
observações (poucas) com valor muito alto.
√
• Obter arcsin Y , se Yi representa uma proporção.
Caso ocorra (2) uma possı́vel solução é a inclusão de termos no modelo, como uma
potência de um regressor (x2 , x4 , etc). Esta não linearidade é melhor detectada nos
gráficos de resı́duos parciais.
* 2o Passo: Faça um gráfico de resı́duos parciais para cada variável regressora.

Isto pode ajudar a estabelecer a relação entre µ̂ e o regressor (veja a página 94). pode-
mos também obter um gráfico de resı́duos padronizados pelos regressores.
* 3o Passo: Faça um gráfico de resı́duos estudentizados (e∗i ) por hii . Isto pode
revelar outliers (se e∗i for grande) ou pontos influentes (se hii for grande). Um e∗i será
considerado grande se
|e∗i | > t(n−p−1); α2 .
A observação ı será influente se

2p
hii > .
n
106
* 4o Passo: Faça um gráfico de probabilidade normal para os resı́duos padroni-

zados. Este gráfico deve ficar para o final, depois que as outras pendências nos estágios
anteriores forem resolvidas. Caso a falta de normalidade seja evidenciada, as trans-
formações de 1o passo podem ser utilizadas e um novo gráfico de probabilidade normal
deve ser feito.
Estes gráficos devem ser feitos na seqüência recomendada. Deve-se resolver as

questões pendentes em um estágio e somente assim passar para o próximo. Por exemplo:
não faz sentido trabalhar com gráficos de resı́duos parciais se a variância ainda não foi
estabilizada. A razão é que uma transformação como log(Y ) altera a relação entre a
média da resposta e os regressores, esta não sendo mais linear. Também não faz sentido
procurar outliers ou não-normalidade até que a não-linearidade seja removida.
Capı́tulo 4
Análise de Variância
4.1 Análise de Variância com Um Fator
Nesta seção colocaremos o clássico problema de testar a hipótese de igualdade

entre médias de populações normais independentes no contexto do modelo de regressão
linear múltipla.
Seja então Yi = (Yi1 , . . . , Yini ) uma amostra aleatória (de tamanho ni ) proveniente
de uma população com distribuição N (βi , σ 2 ), i = 1, . . . , k. Suponhamos que estas k
amostras sejam independentes. O modelo definido desta forma é conhecido como Modelo
de Análise de Variância com Um Fator, por motivos que ficarão claros mais tarde. A
questão é testar a hipótese H de que as k médias populacionais são iguais, ou seja,
testar
H : β1 = · · · = βk .
Soluções para o caso k = 2 aparecem com razoável freqüência em textos de introdução

à inferência estatı́stica, como em Johnson e Bhattacharyya (1996, Cap. 10).
107
108
Para ilustrar, consideremos o seguinte exercı́cio retirado de Montgomery (1984).
Exemplo 4.1 Suponha que um experimento foi feito com o propósito de determinar se
quatro diferentes temperaturas quando aplicadas a um certo composto quı́mico afetam
a sua densidade. Foram pré-fixados quatro nı́veis de temperatura em graus centı́grados
(100, 125, 150 e 175). Para cada nı́vel foi observada a densidade do composto, com
replicações. As amostras para os diferentes nı́veis foram tomadas independentemente.
Os dados obtidos estão apresentados a seguir
Temperatura Densidade
100 21,8 21,9 21,7 21,6 21,7
125 21,7 21,4 21,5 21,4
150 21,9 21,8 21,8 21,6 21,5
175 21,9 21,7 21,8 21, 4
Para cada nı́vel de temperatura é observada uma amostra aleatória proveniente de uma
população com média da densidade desconhecida. A questão é decidir se estas médias
são iguais ou não. Neste caso particular temos k = 4 (ou seja, 4 amostras), n1 = n3 = 5
e n2 = n4 = 4.
A variável que define cada população é denominada Fator. No exemplo 4.1 o fator
é a variável temperatura.
Observe que uma questão delicada para a aplicação do modelo estatı́stico definido
no inı́cio desta seção é a hipótese de que as variâncias são iguais para as diferentes
populações.
O modelo de análise de variância com um fator é, na realidade, um modelo de

regressão linear múltipla. Relembremos que o modelo de regressão linear múltipla é
definido por
Y ∼ Nn (Xβ, σ 2 I), (4.1)
109
ou seja, o vetor de n observações Y tem distribuição normal n− variada com vetor de

médias na forma µ = Xβ e matriz de covariância σ 2 I, onde I é a matriz identidade
de ordem n. Vamos mostrar que o modelo de análise de variância pode ser escrito na
forma (4.1).
No caso do modelo de análise de variância o vetor de observações é dado por
Y = (Y1′ , . . . , Yk′ )′ .
O tamanho amostral é n = n1 + · · · + nk , de modo que a dimensão de Y é n × 1.

Consideremos os vetores de dimensão ni ,
1′ni = (1, . . . , 1)′ e 0′ni = (0, . . . , 0)′ ,
com todas as coordenadas iguais a 1 e 0, respectivamente. Temos que
E(Yi ) = [E(Yi1 ), . . . , E(Yini )]′ = (βi , . . . , βi )′ = βi 1′ni , i = 1, . . . , k.
Assim,
µ = E(Y ) = (E(Y1′ ), . . . , E(Yk′ ))′

= (β1 1′n1 , . . . , βk 1′nk )
= β1 (1′n1 , 0′n2 , . . . , 0′nk ) + β2 (0′n1 , 1′n2 , 0′n3 , . . . , 0′nk ) + · · · + βk (0′n1 , . . . , 0′n(k−1) , 1′nk ).
Denominando por ci o vetor de ordem n correspondente a βi na combinação linear

acima, obtemos
µ = β1 c1 + . . . + βk ck = Xβ,
onde X é a matriz de ordem n × k dada por
X = [c1 , . . . , ck ]
e
β = (β1 , . . . , βk )′ ,
110
mostrando que o modelo de análise de variância com um fator é da forma (4.1).
Vamos encontrar os estimadores para β e σ 2 . Primeiramente, observe que

(
ni se i = j
c′i cj =
0 se i 6= j,
ou seja, as colunas de X são vetores ortogonais e, além disso, a i-ésima coluna tem norma
ao quadrado igual ao número de observações obtidas na i-ésima população. Como c′i cj
é o elemento (i, j) da matriz X ′ X, resulta que X ′ X = diag {n1 , . . . , nk } ou seja, X ′ X é
uma matriz diagonal tendo na diagonal principal os elementos n1 , . . . , nk , nesta ordem.
Portanto, temos que
′ −1 1 1
(X X) = diag ,..., .
n1 nk
Definindo ni
X
Yi = Yij , i = 1, . . . , k,
j=1
vem que
′
X ′ Y = (c′1 Y, . . . , c′k Y ) = (Y1, . . . , Yk)′ .
Agregando os resultados acima obtemos o estimador de máxima verossimilhança para

β, dado por
β̂ = (X ′ X)−1 X ′ Y = (Y 1, . . . , Y k),
onde ni
1 X
Y i = Yij .
ni j=1
Ou seja, o estimador de máxima verossimilhança para βi é dado por
β̂i = Y i, i = 1, . . . , k,
a média da amostra da i-ésima população, i = 1, . . . , k 1 .

1
O mesmo resultado poderia ser encontrado a partir da maximização direta da função de verossimi-
lhança associada ao modelo. Seja Li a função de verossimilhança para a i-ésima amostra, que depende
somente de βi . Por independência, temos que a verossimilhança conjunta é dada por L = L1 ×· · · ×Lk ,
111
O estimador não viciado para σ 2 é dado por

1 1
QMres = k Y − X β̂ k2 = k Y − (Y 1c1 + · · · + Y 1ck ) k2
n−k n−k
1
= k (Y11 − Y 1, . . . , Y1n1 − Y 1, . . . , Yk1 − Y k, . . . , Yknk − Y k)′ k2
n−k
k ni
1 XX
= (Yini − Y i)2 .
n − k i=1 j=1
de modo que log L = log L1 + · · · + log Lk . Assim, maximizar L em relação a βi é a mesma coisa que
maximizar log Li com relação a βi , que significa obter o estimador de máxima verossimilhança para βi
utilizando a i-ésima amostra. Pelos cursos introdutórios de inferência, sabemos que este estimador é
exatamente Y i .
112
Apêndice A
Algumas Definições e Resultados

em Estatı́stica Multivariada
Nesta seção assumimos que todos os momentos relacionados às variáveis existem
e são finitos. Seja X = (X1 , . . . , Xp )′ um vetor aleatório. Definimos a esperança de X
por
E (X) = (E (X1 ) , . . . , E (Xp ))′ , (A.1)
ou seja, E(X) é um vetor cuja a ı-ésima coordenada é igual a esperança da ı-ésima

coordenada de X, ı = 1, . . . , n. A matriz de covariâncias de X é definida como sendo
 
Var (X1 ) Cov (X1 , X2 ) . . . Cov (X1 , Xp )
 Cov (X2 , X1 ) Var (X2 ) . . . Cov (X2 , Xp ) 
Cov (X) =  (A.2)
 
.
. .
. .
. 
 . . . 
Cov (Xp , X1 ) Cov (Xp , X2 ) . . . Var (Xp )
ou seja, o elemento (i, j) de Cov(X) é a covariância entre Xi e Xj (observe que a

covariância entre Xi e Xi é a variância de Xi ).
Como Cov(Xi , Xj ) = Cov(Xj , Xi ), temos que Cov(X) é uma matriz simétrica.

Observe também que a ordem desta matriz é p × p. A esperança e a variância de X
113
114
têm as seguintes propriedades:
Teorema A.1 Seja B uma matriz de ordem q × p. Então
E (BX) = BE (X) (A.3)
e
Cov (BX) = BCov (X) B ′ . (A.4)
Observe que BX é uma matriz de ordem q×1, ou seja, um vetor aleatório de dimensão q.
Observe também que para o caso p = q = 1, ou seja, quando B e X são unidimensionais,
temos que (A.4) reduz-se a
Var (BX) = B 2 Var (X)
que é um resultado clássico da teoria das probabilidades.
Sejam X e Y vetores aleatórios de mesma ordem. Então, pela definição de espe-

rança,
E (X + Y ) = E (X) + E (Y ) . (A.5)
Se C é um vetor de constantes com a mesma dimensão de X, então
Cov (X + C) = Cov (X) . (A.6)
O elemento de ordem (i, j) da matriz Cov(X) é
Cov(Xi , Xj ) = E{[Xi − E(Xi )][Xj − E(Xj )]}.
O termo entre chaves é o elemento (i, j) da matriz
[X − E (X)] [X − E (X)]′ ,
de modo que
Cov (X) = E [X − E (X)] [X − E (X)]′ .

(A.7)
Apêndice B
A Distribuição Normal
Multivariada
B.1 A Densidade Normal
Relembremos que se X é uma variável aleatória com distribuição normal com

média µ e variância σ 2 > 0 então X tem densidade

2 −1/2
1 2
f (x) = 2πσ exp − 2 (x − µ) , x ∈ R. (B.1)
2σ
É possı́vel estender a definição de distribuição normal para o caso multivari-

ado. Dizemos que o vetor aleatório p-dimensional X tem distribuição normal p-variada
quando a sua densidade é dada por

−p/2 −1/2 1 ′ −1
f (x) = (2π) |Σ| exp − (x − µ) Σ (x − µ) , x ∈ Rp . (B.2)
2
Nesta definição, temos que µ ∈ Rp e Σ : p × p é uma matriz positiva definida (ou
seja, a′ Σa > 0 para todo a ∈ Rp ). Observe que quando p = 1 (ou seja, quando X é
univariado) então (E.2) reduz-se a (E.1).
115
116
A definição da distribuição normal multivariada pode ser feita de uma maneira

bem mais geral do que simplesmente através da densidade (E.2). É possı́vel defini-la
de tal maneira que sejam englobados casos onde não há a existência de uma densidade
— aliás, vamos mostrar que existe a densidade se e somente se a matriz de covariâncias
é positiva definida.
B.2 Uma Definição Abrangente de Normalidade
Lembremos que, dado um vetor aleatório X = (X1 , . . . , Xn ) uma combinação li-

near das coordenadas de X é uma variável aleatória da forma a′ X, onde a = (a1 , . . . , an )′ .
Definição B.1 Dizemos que X tem Distribuição Normal n-variada quando qualquer
combinação linear das coordenadas de X tiver distribuição normal univariada.
Vamos determinar agora a função caracterı́stica de um vetor X com distribuição

normal n-variada. Antes de tudo, relembremos que
1. A função caracterı́stica de uma variável aleatória X com distribuição normal

univariada com média µ e variância σ 2 é dada por

1 2 2
ϕX (t) = exp itµ − t σ , t ∈ R;
2
2. A função caracterı́stica associada a cada combinação linear a′ X é dada por
ϕa′ X (t) = E[exp(ita′ X)], t ∈ R.
Fazendo t = 1, podemos construir a função
a → ϕa′ X (1) = E[exp(ia′ X)], a ∈ Rn ,

117
que é justamente a função caracterı́stica de X. Ou seja, para determinarmos a

função caracterı́stica de X, é suficiente conhecermos as funções caracterı́sticas de
a′ X para todo a1 .
Observe que a i-ésima coordenada do vetor X tem, por definição, distribuição

normal univariada pois, como
Xi = (1, 0, . . . , 0)X
temos que Xi é uma combinação linear das coordenadas de X, i = 1, . . . , n. Assim, a

esperança e a variância de Xi são finitas. Como as variâncias de Xi e Xj são finitas,
resulta que Cov(Xi , Xj ) também é finita. Seja a = (a1 , . . . , ap )′ . Então, por (A.3) e
(A.4),
E(a′ X) = a′ E(X) e Cov(a′ X) = a′ Cov(X)a.
Assim, a′ X tem distribuição normal com a média e a variância dadas acima, que vamos
chamar de µ e Σ, respectivamente. Assim, a função caracterı́stica de a′ X é dada por

′ 1 2 ′
ϕa′ X (t) = exp ita µ − t a Σa , t ∈ R.
2
Fazendo t = 1, temos a função caracterı́stica de X, que é dada por

1 ′
ϕX (a) = exp ia µ − a Σa , a ∈ Rn .
′
2
Demonstramos o
Teorema B.1 A função caracterı́stica de um vetor X com distribuição normal p-

variada com vetor de médias µ e matriz de covariâncias Σ é dada por

1 ′
ϕX (a) = exp ia µ − a Σa , a ∈ Rn .
′
2
1
Este resultado é devido a Cramér e Wold.
118
Observe que, como a função caracterı́stica especifica completamente uma distri-

buição, o teorema B.1 implica que basta conhecermos o vetor de médias e a matriz de
covariâncias para determinarmos uma distribuição normal n-variada. Devido a isto,
utilizamos a notação X ∼ Nn (µ, Σ).
O teorema a seguir mostra que uma transformação afim de um vetor com distri-
buição normal ainda é um vetor com distribuição normal.
Teorema B.2 Sejam X ∼ Nn (µ, Σ), A : m × n, b : m × 1 e Y = AX + b. Então
Y ∼ Nm (Aµ + b, AΣA′ ) . (B.3)
Demonstração: Por definição, devemos mostrar que a′ Y tem distribuição normal

univariada, onde a tem dimensão m × 1. Temos que
a′ Y = a′ AX + a′ b.
Observe que A′ a é um vetor de dimensão n × 1, de modo que a′ AX é uma combinação

linear das coordenadas de X e, portanto, tem distribuição normal univariada. Somando
com a constante a′ b, ainda temos uma distribuição normal univariada. Isto conclui a
demonstração.
No teorema a seguir mostramos que, se a matriz de covariâncias Σ for diagonal

então as coordenadas de X são independentes.
Teorema B.3 Seja X = (X1 , . . . , Xn ) ∼ Nn (µ, Σ), onde µ = (µ1 , . . . , µn )′ e Σ =

diag {σ11 , . . . , σnn }. Então as coordenadas de Xi , i = 1, . . . , n são independentes, com
Xi ∼ N (µi , σii2 ).
119
Demonstração: Seja a = (a1 , . . . , an )′ . Usando o Teorema B.1, vemos que a função

caracterı́stica de X neste caso é dada por

1 2 2 1 2 2
ϕX (a) = exp ia1 µ1 + · · · + ian µn − a1 σ11 − · · · − an σnn
2 2

1 2 2 1 2 2
= exp ia1 µ1 − a1 σ11 × · · · × exp ian µn − a1 σnn .
2 2
Então a função caracterı́stica de X é o produto de n fatores, sendo o i-ésimo fator a
função caracterı́stica de uma distribuição N (µi , σii2 ), i = 1, . . . , n. E esta é justamente
a função caracterı́stica conjunta de distribuições independentes N (µi , σii2 ), i = 1, . . . , n.
Sejam X1 , . . . , Xp variáveis aleatórias independentes, com Xi ∼ N (µ), σ 2 , ı =

1, . . . , p, sabemos que a densidade conjunta de X1 , . . . , Xp é igual ao produto das den-
sidades marginais, que são todas iguais a (??). Seja f esta densidade conjunta. Então
p
( )
−p/2 1 X
f (x1 , . . . , xp ) = 2πσ 2 (xi − µ)2

exp − 2
2σ ı=1

−p/2 2 −1/2
1 ′ 2
−1
= (2π) σ I exp − (x − µ) σ I (x − µ) .
2
Assim, comparando com (??), vemos que a distribuição conjunta de X1 , . . . , Xp é

Np (µ∗ , Σ∗ ), onde µ∗ = (µ, . . . , µ)′ e Σ∗ = σ 2 I.
120
Apêndice C
Álgebra Linear
Neste apêndice apresentamos algumas definições e resultados em álgebra linear que

são utilizados ao longo do texto. A exposição é bastante resumida e tem como objetivo
servir de fonte de consulta rápida. Em particular, demonstrações dos resultados não são
apresentadas. Como referência para maiores aprofundamentos, podemos citar o livro
de Lima (2001).
Um Espaço Vetorial é um conjunto E não vazio onde estão definidas duas operações,
respectivamente denominadas Soma e Multiplicação por Escalar, tais que:
1. A soma associa a cada par x e y de elementos de E o elemento x + y ∈ E;
2. A multiplicação por escalar associa a cada número real λ e a cada x ∈ E o

elemento λx ∈ E.
Os elementos de um espaço vetorial são denominados Vetores. Por definição, temos que
um espaço vetorial E deve satisfazer
121
122
1. Para todos x e y em E temos x + y = y + x;
2. Para todos x, y e z em E e λ, γ números reais,
(x + y) + z = x + (y + z) e (λγ)x = λ(γx);
3. Existe um elemento de E chamado Vetor Nulo, denotado por 0, que satisfaz

0 + x = x para todo x ∈ E;
4. Para todo x ∈ E existe −x ∈ E tal que x + (−x) = 0;
5. Para todos λ e γ reais e x e y em E
(λ + γ)x = λx + γx e λ(x + y) = λx + λy;
6. Para todo x ∈ E, 1x = x.
Um Subespaço Vetorial de um espaço vetorial E é um subconjunto de E que

também é um espaço vetorial, com as mesmas operações definidas em E. Facilmente
vemos que a interseção de subespaços vetoriais também é um subespaço vetorial.
O espaço vetorial mais popular é, com certeza, o Espaço Euclideano de dimensão
n, denotado por Rn . Um elemento x de Rn é dado pela n-upla x = (x1 , . . . , xn ), onde xi ,
i = 1, . . . , n são números reais denominados Coordenadas de x. Sejam x = (x1 , . . . , xn )
e y = (y1 , . . . , yn ) vetores em Rn e λ um número real. As operações definidas em Rn
que o fazem espaço vetorial são dadas por
x + y = (x1 + y1 , . . . , xn + yn ) e λx = (λx1 , . . . , λxn ).
O conjunto dos números reais é então denotado por R. Neste texto trabalhamos somente
com subespaços vetoriais de Rn .
Teorema C.1 Um subconjunto A ⊂ E é um subespaço vetorial do espaço vetorial E

se e somente se
123
i. O vetor nulo 0 é um elemento de A e
ii. para todo λ ∈ R e x, y vetores em E, λx + y ainda é um elemento de E.
Uma Base de um Espaço Vetorial E é um conjunto de vetores em E, {a1 , . . . , an },

que satisfaz as seguintes condições:
1. a1 , . . . , an são linearmente independentes. Isto significa que qualquer combinação

linear nula destes vetores tem coeficientes nulos. Mais especificamente, sempre
que tivermos
γ1 a1 + · · · + γ n an = 0
teremos γ1 = γ2 = . . . = γn = 0.
2. a1 , . . . , an geram o espaço E. Isto significa que todo vetor em E pode ser escrito
como combinação linear de a1 , . . . , an . Ou seja, para todo vetor x ∈ E, existem
números reais γ1 , . . . , γn tais que
x = γ 1 a1 + · · · + γ n an . (C.1)
γ1 , . . . , γn são denominados Coordenadas de a na base {a1 , . . . , an }.
O número de vetores em qualquer base de E é sempre o mesmo. Este número é

denominado dimensão de E e será denotado por dim(E). O espaço Euclidiano Rn tem
dimensão n. Uma base para Rn é dada por
a1 = (1, 0, 0, . . . , 0)′
a2 = (0, 1, 0, . . . , 0)′
.. (C.2)
.
an = (0, 0, . . . , 0, 1)′
ou seja, a ı-ésima coordenada de ai é 1 e as demais são iguais a zero. Esta base é

denominada base canônica de Rn , mas é somente uma entre tantas outras que existem.
124
Seja p ≤ n. O Subespaço Vetorial Gerado Pelos Vetores x1 , . . . , xp é o conjunto

de todas as combinações lineares destes vetores. Ou seja, é o conjunto dado por
span(x1 , . . . , xn ) = {β1 x1 + · · · + βp xp ; β1 , . . . , βp ∈ R} . (C.3)
Neste texto identificamos um vetor x ∈ Rn como uma matriz coluna de ordem

n × 1 dada por
x = (x1 , . . . , xn )′ ,
onde x1 , . . . , xn são as coordenadas de x na base canônica de Rn .
Seja X uma matriz de ordem n × p. Podemos escrever

h i
X= x1 · · · x p ,
onde x1 , . . . , xp são os vetores em Rn que representam as p colunas de X. Observe que,

para β = (β1 , . . . , βp )′ ,
β1 x1 + · · · + βp xp = Xβ,
de modo que, de acordo com (C.3), o espaço gerado pelas colunas de X pode ser escrito
como
span(X) = {Xβ; β ∈ Rp }. (C.4)
De forma análoga definimos o espaço gerado pelos vetores linha de uma matriz.
Observe que para uma matriz de ordem n × p o subespaço gerado pelas colunas é um
subespaço de Rn e o subespaço gerado pelas linhas é um subespaço de Rp . Mesmo para
o caso em que p = n não ocorre necessariamente a igualdade entre os subespaços.
Teorema C.2 A dimensão do espaço gerado pelas linhas é igual a dimensão do espaço
gerado pelas colunas.
125
Teorema C.3 Quando p = n – ou seja, quando a matriz é quadrada – temos que esta
possui inversa se e somente a dimensão do espaço gerado pelas colunas (ou pelas linhas)
é igual a p.
Vamos considerar somente espaços vetoriais munidos do Produto Interno Canônico,

que associa a cada par de vetores x e y o produto x′ y. A norma proveniente deste pro-
duto interno associa a cada vetor x o número
√
kxk = x′ x.
p
A Distância Entre os Vetores x e y é dada então por kx − yk.
Dizemos que dois vetores x e y em um espaço vetorial são Ortogonais quando

′
x y = 0, ou seja, quando o produto interno entre eles é igual a zero. Neste caso vale o
Teorema de Pitágoras
k x + y k2 =k x k2 + k y k2 . (C.5)
Uma base {a1 , . . . , an } de um espaço vetorial E é ortonormal quando os vetores

são ortogonais e têm norma igual a 1. Ou seja, quando
(
0 se i 6= j
a′i aj =
1 se ı = j.
Todo subespaço vetorial E ⊂ Rn de dimensão m possui uma base ortonormal {a1 , . . . , am }.

Se m < n então é possı́vel encontrar vetores am+1 , . . . , an tais que
{a1 , . . . , am , am+1 , . . . , an }
é uma base ortonormal de Rn . Dizemos então que estamos completando a base de E a

fim de obter uma base ortonormal para Rn .
Note que, para que um vetor z seja ortogonal a todos os vetores em um subespaço
vetorial com base {a1 , . . . , ap } basta que z seja ortogonal a cada vetor na base. Neste
126
caso, temos x = λ1 a1 + · · · + λp ap e
z ′ x = λ1 z ′ a1 + · · · + λp z ′ ap = 0.
Sejam A e B subespaços vetoriais tais que A ∩ B = {0}. O conjunto
A ⊕ B = {a + b; a ∈ A, b ∈ B}
é denominado Soma Direta de A com B.
Seja A um conjunto não vazio, não necessariamente um subespaço vetorial. O

conjunto A⊥ formado por todos os vetores em Rn que são ortogonais a todos os vetores
de A, ou seja,
A⊥ = {x ∈ Rn ; x′ y = 0 para todo y ∈ A}
é denominado Complementar Ortogonal de A. Pode-se mostrar que A⊥ é um subespaço

vetorial e que, além disso, se A é um subespaço vetorial,
Rn = A ⊕ A⊥ . (C.6)
Assim, todo vetor z ∈ Rn pode ser escrito como z = x + y, onde x ∈ A e y é ortogonal

a x. Dado z ∈ Rn existe um e somente um par de vetores x, y, com x ∈ A e y ∈ A⊥ , tal
que z é a soma de x com y. Ou seja, a decomposição de z é única. Outras propriedades
do complementar ortogonal no caso em que A é um subespaço vetorial de Rn são
n = dim(A⊥ ) + dim(A) e (A⊥ )⊥ = A. (C.7)
Seja z um ponto em Rn e E ⊂ Rn um subespaço vetorial de dimensão m. A

projeção de z sobre E é definida como sendo o ponto Π(z) em E tal que Π(z) minimiza
a distância entre z e os pontos de E. Ou seja, Π(z) satisfaz
k z − Π(z) k2 = mı́n{k z − x k2 ; x ∈ E}. (C.8)

127
Uma propriedade trivial é que, se z é um elemento de E, então a projeção de z

sobre E é o próprio vetor z. Além disso, se z ∈ E ⊥ então Π(z) = 0. Isto é conseqüência
de termos
k z − x k2 =k z k2 + k x k2
para todo x ∈ E, de modo que o mı́nimo da função x →k z − x k2 é atingido em x = 0.
Algumas outras propriedades: Π(z) sempre existe, é única e, se {a1 , . . . , am } é

uma base ortogonal de E, então
m
X a′j z
Π (z) = ′
· aj .
=1
a j a j
Se a base for ortonormal, teremos

m
X
a′j z aj .

Π (z) = (C.9)
=1
A partir desta igualdade, mostra-se diretamente o
Teorema C.4 O vetor z − Π(z) é ortogonal a todos os vetores em E; Além disso,

função
z 7−→ Π(z), z ∈ Rn
que associa a cada z ∈ Rn a projeção Π(z), denominada Projeção Sobre E, é linear, ou

seja, para cada par de vetores x, y em E e λ ∈ R temos
Π(λx + y) = λΠ(x) + Π(y).
Seja z ∈ Rn , seja E um subespaço vetorial de Rn e sejam ΠE e ΠE ⊥ as projeções

sobre E e E ⊥ , respectivamente. Escrevendo
z = z − ΠE (z) + ΠE (z)
128
Figura C.1: Projeção de z sobre E.
e usando a linearidade da função projeção, temos que
ΠE ⊥ (z) = ΠE ⊥ (z − ΠE (z)) + ΠE ⊥ (ΠE (z))

= z − ΠE (z), (C.10)
pois, sendo z − ΠE (z) um elemento de E ⊥ , ele é a sua própria projeção sobre este
espaço. Além disso, como ΠE (z) ∈ E, vem que a sua projeção sobre E ⊥ é o vetor nulo.
Como Π(z) ∈ E, temos que Π(z) e z − Π(z) são vetores ortogonais e, como
consequência,
k z k2 = k Π (z) + z − Π (z) k2
= k Π (z) k2 + k z − Π (z) k2 .
Sejam E1 e E2 subespaços vetoriais tais que E1 ⊂ E2 . O Complementar Ortogonal

de E1 Dentro de E2 é, por definição, o conjunto formado por todos os vetores que,
ao mesmo tempo, estão em E2 e são ortogonais a todos os vetores de E1 . Assim,
129
este subespaço vetorial é igual a E1⊥ ∩ E2 . Vamos determinar a projeção de z ∈ Rn

sobre este subespaço. As projeções sobre E1 e E2 serão denotadas por Π1 (z) e Π2 (z),
respectivamente. Escrevendo
z = Π1 (z) + Π2 (z) − Π1 (z) + z − Π2 (z)
e denotando E1⊥ ∩ E2 por E, vem que
ΠE (z) = ΠE (Π1 (z)) + ΠE (Π2 (z) − Π1 (z)) + ΠE (z − Π2 (z)).
Como Π1 (z) ∈ E1 , resulta que a sua projeção sobre E é o vetor nulo, pois para todo
x ∈ E = E1⊥ ∩ E2 ,
k Π1 (z) − x k2 =k Π1 (z) k2 + k x k2
e o mı́nimo é atingido em x = 0. Como z − Π2 (z) ∈ E2⊥ temos, pelo mesmo motivo,

que ΠE (z − Π2 (z)) = 0. Finalmente, observe que o vetor Π2 (z) − Π1 (z) está em E2 —
pois Π1 (z) e Π2 (z) estão em E2 — e, além disso, está em E1⊥ , pois
Π2 (z) − Π1 (z) = Π2 (z) − z + z − Π1 (z)
e os vetores Π2 (z) − z e z − Π1 (z) estão em E1⊥ . Assim, vemos que o vetor Π2 (z) − Π1 (z)
está em E, implicando em ΠE (Π2 (z) − Π1 (z)) = Π2 (z) − Π1 (z), e mostramos que
ΠE1⊥ ∪E2 (z) = Π2 (z) − Π1 (z). (C.11)
É muito comum utilizar-se a notação E1⊥ ∪ E2 = E2 ⊖ E1 .
O teorema a seguir é o mais importante deste texto e mostra uma estreita conexão
entre álgebra linear e probabilidade. No enunciado utilizamos uma extensão natural da
definição de soma direta de subespaços vetoriais E1 , . . . , Ek tais que Ei ∩ Ej = {0} para
todo i 6= j, dada pelo conjunto
E1 ⊕ · · · ⊕ Ek = {x1 + · · · + xk ; x1 ∈ E1 , . . . , xk ∈ Ek }.
130
Além disso, vamos definir os subespaços Ei i = 1, . . . , k como ortogonais quando, para

todo par i, j, com i 6= j, tivermos que todo vetor de Ei é ortogonal a todo vetor de Ej .
Finalmente, vamos utilizar uma versão estendida do teorema de Pitágoras: se x1 , . . . , xk
são vetores ortogonais dois a dois então
n
X k
X
k xi k2 = k xi k2 .
i=1 i=1
Teorema C.5 Seja Z ∼ Nn (0, σ 2 I), com σ 2 > 0. Sejam E1 , . . . , Ek subespaços vetori-
ais ortogonais de Rn tais que
Rn = E1 ⊕ · · · ⊕ Ek .
Seja Πi a função projeção sobre Ei , i = 1, . . . , k. Então Πi (Z), i = 1, . . . , k são variáveis

aleatórias independentes, com
k Πi (Z) k2
∼ χ2di ,
σ2
onde di é a dimensão de Ei , i = 1, . . . , k.
Demonstração: É possı́vel escolher uma base ortonormal para Rn , {ξ1 , . . . , ξn }, de

tal maneira que {ξ1 , . . . , ξd1 } é uma base ortonormal de E1 , que {ξd1 +1 , . . . , ξd1 +d2 } seja
uma base ortonormal de E2 , etc. Ou seja, {ξd1 +···+dj−1 +1 , . . . , ξd1 +···+dj } é uma base para
Ej . Cada observação do vetor Z pode ser escrita como combinação linear dos vetores
nesta base, ou seja, existem variáveis aleatórias γ1 , . . . , γn tais que
Z = γ1 ξ1 + · · · + γn ξn = Aγ, (C.12)
onde a i- ésima coluna de A é ξi , i = 1, . . . , n e γ = (γ1 , . . . , γn )′ . Observe que a matriz

A é ortonormal, ou seja,
A′ A = AA′ = I,
de modo que A−1 = A′ . Assim, temos que
γ = A−1 Z.
131
Como Z ∼ Nn (0, σ 2 I), temos que γ também tem distribuição normal n-variada, com
vetor de médias 0 e matriz de covariâncias
′
Cov (γ) = A−1 Cov (Z) (A)−1
= A−1 σ 2 IA = σ 2 I
— veja o Teorema B.2, o que significa dizer que γ1 , . . . , γn são independentes e identi-
camente distribuı́das como N (0, σ 2 ). Por (C.9), vem que
d1 +···+dj
X
Πj (Z) = (Z ′ ξi )ξi .
i=d1 +···+dj−1 +1
Observe que, por (C.12),
Z ′ ξi = γ1 ξ1′ ξi + · · · + γi ξi′ ξi + · · · γn ξn′ ξi = γi ,
de modo que
d1 +···+dj
X
Πj (Z) = γi ξi .
i=d1 +···+dj−1 +1
Assim, Πj (Z), j = 1, . . . , k são funções de grupos disjuntos de variáveis aleatórias inde-

pendentes e, portanto, também são independentes. Omitindo os ı́ndices do somatório
acima e utilizando o Teorema de Pitágoras — lembre-se que os vetores ξ1 , . . . , ξn são
ortonormais , vem que
k Πj (Z) k2 γi ξi k2 γi2 k ξi k2 X γi 2
P P
k i i
2
= = = .
σ σ2 σ2 i
σ
Como γi /σ ∼ N (0, 1), i = 1, . . . , k, temos que k Πj (Z) k2 /σ 2 é a soma dos quadrados

de dj variáveis aleatórias normais padrão independentes, ou seja,
k Πj (Z) k2
∼ χ2dj ,
σ2
132
Apêndice D
Diferenciação de Matrizes
Seja f : M → R uma função definida em M , um subconjunto do espaço vetorial

formado pelas matrizes de ordem p × 1 e suponha a existência das derivadas parciais
∂f
∂x i
, i = 1, . . . , p. Definimos o Vetor de Derivadas Parciais de f como sendo o vetor
∂f
∂x
cuja ı-ésima coordenada é dada por
∂f
, ı = 1, . . . , p
∂xi
Exemplo D.1 Sejam x = (x1 , x2 )′ e

!
A11 A12
A =
A21 A22
e seja
f (x) = x′ Ax
! !
A11 A12 x1
= x1 x2
A21 A22 x2
= x21 A11 + (A12 + A21 ) x1 x2 + x22 A22 .
133
134
∂f
Por definição, temos que a primeira coordenada de ∂x
é
∂f
= 2x1 A11 + (A12 + A21 ) x2
∂x1
e a segunda coordenada é dada por
∂f
= (A12 + A21 ) x1 + 2x2 A22 .
∂x2
As seguintes propriedades podem ser obtidas diretamente da definição.
Teorema D.1 Seja a : p × 1 e f (x) = a′ x. Então
∂f
= a. (D.1)
∂x
Teorema D.2 Seja A : p × p uma matriz simétrica e f (x) = x′ Ax. Então
∂f
= 2Ax. (D.2)
∂x
Apêndice E
A Distribuição Normal
Multivariada
E.1 A Densidade Normal
Relembremos que se X é uma variável aleatória com distribuição normal com

média µ e variância σ 2 > 0 então X tem densidade

2 −1/2
1 2
f (x) = 2πσ exp − 2 (x − µ) , x ∈ R. (E.1)
2σ
É possı́vel estender a definição de distribuição normal para o caso multivari-

ado. Dizemos que o vetor aleatório p-dimensional X tem distribuição normal p-variada
quando a sua densidade é dada por

−p/2 −1/2 1 ′ −1
f (x) = (2π) |Σ| exp − (x − µ) Σ (x − µ) , x ∈ Rp . (E.2)
2
Nesta definição, temos que µ ∈ Rp e Σ : p × p é uma matriz positiva definida (ou
seja, a′ Σa > 0 para todo a ∈ Rp ). Observe que quando p = 1 (ou seja, quando X é
univariado) então (E.2) reduz-se a (E.1).
135
136
A definição da distribuição normal multivariada pode ser feita de uma maneira

bem mais geral do que simplesmente através da densidade (E.2). É possı́vel defini-la
de tal maneira que sejam englobados casos onde não há a existência de uma densidade
— aliás, vamos mostrar que existe a densidade se e somente se a matriz de covariâncias
é positiva definida.
Apêndice F
Matrizes em Blocos
Muitas vezes é conveniente particionarmos uma matriz A : m × n em blocos, que

são submatrizes de A. Por exemplo, considere uma matriz de ordem 4 × 4,
 
a11 a12 a13 a14
 a
 21 a22 a23 a24 
A =  .

 a31 a32 a33 a34 
a41 a42 a43 a44
Uma partição possı́vel em submatrizes de A é

" #
B C
A = , (F.1)
D E
onde
" # " # " # " #
a11 a12 a13 a14 a31 a32 a33 a34
B = , C= , D= e E= .
a21 a22 a23 a24 a41 a42 a43 a44
Observe que, necessariamente, o número de linhas de B deve ser igual ao número de

linhas de C e o número de colunas de B deve ser igual ao número de colunas de D
137
138
Seja A uma matriz qualquer particionada como em (F.1). É simples mostrar que
" #
′ ′
B C
A′ = . (F.2)
D′ E ′
Uma caracterı́stica interessante das matrizes particionadas é que um produto entre duas
matrizes deste tipo segue as mesmas regras do produto usual de matrizes. Assim, seja
" #
G H
F = .
I J
Então,
" #
(BG + CI) (BH + CJ)
AF = . (F.3)
(DG + EI) (DH + EJ)
É claro que assumimos acima uma compatibilidade nas ordens das matrizes envolvidas,
de tal modo que os produtos façam sentido.
O produto de matrizes em bloco é muito utilizado na teoria da regressão linear

múltipla. Considere, por exemplo, a matriz de planejamento X,
 
1 x11 . . . x1(p−1)
 1 x21 . . . x2(p−1) 
X =  . .
 
.
 . . . .
. 
. 
1 xn1 . . . xn(p−1) ,
que aparece no texto em (2.4). Cada coluna de X pode ser encarada como uma sub-
matriz de X. Seja Xi a ı-ésima coluna da matriz X, ı = 0, 1, . . . , p − 1. Fazendo
h i′
X0 = 1 1 ... 1 .
Então, podemos escrever

h i
X = X0 X1 . . . X(p−1) .
Seja
h i
β = β0 β1 . . . β(p−1)
139
o vetor de coeficientes no modelo de regressão (veja (??), página 44, novamente). Pela
regra em (F.3) temos que
Xβ = β0 X0 + β1 X1 + · · · + β(p−1) X(p−1) . (F.4)
Um produto como em (??) está presente várias vezes na teoria. Por exemplo, o próprio
modelo de regressão linear pode ser colocado na forma
Y = β0 X0 + β1 X1 + · · · + β(p−1) X(p−1) + ε. (F.5)
O vetor de valores ajustados (ver (2.12) na página 48) pode, com esta notação, ser
colocado na forma
µ̂ = X β̂ = β̂0 X0 + β̂1 X1 + · · · + β̂(p−1) X(p−1) . (F.6)
Também pode ser conveniente fazermos uma partição de X em submatrizes da

forma
h i
X = XA XB , (F.7)
onde
h i
XA = X0 X1 . . . Xk
é composta pelas primeiras k colunas de X e

h i
XB = X(k+1) . . . X(p−1)
é formada pelas colunas restantes. Em conformidade com esta pertição podemos par-
ticionar o vetor β como
" #
βA
β = , (F.8)
βB
onde
h i′
βA = β0 β1 . . . βk
140
e
h i′
βB = β(k+1) . . . β(p−1) .
Pela regra em (F.3) temos que
Xβ = βA XA + βB XB . (F.9)
Apêndice G
Demonstração dos Teoremas (2.5) e

(2.6)
Na demonstração destes teoremas necessitamos de alguns resultados básicos de

Álgebra Linear, que podem ser revisados com mais profundidade em bons textos da
área como, por exemplo, Lima (2001). Todos estão também descritos no apêndice C.
Relembremos que maximizar a função de verossimilhança no modelo de regressão

linear múltipla é equivalente a minimizar a função
D (β) = (Y − Xβ)′ (Y − Xβ) =k Y − Xβ k2 , β ∈ Rp ,
ver (2.8). Assim, o objetivo é encontrar β̂ que minimiza a distância entre Y e os pontos
do conjunto
Span (X) = {Xβ; β ∈ Rp } ,
que é um subespaço vetorial de Rn . Ou seja,
k Y − X β̂ k2 = min k Y − Xβ k2 ; β ∈ Rp

(G.1)
e X β̂ é a projeção de Y sobre Span(X). (G.1) é a Soma dos Quadrados dos Resı́duos,

denotada por SQres e já definida em (2.13).
141
142
No que segue vamos supor que as p colunas da matriz X, a saber X0 , . . . , Xp−1 , são
vetores em Rn linearmente independentes. Como todo vetor em Span(X) é da forma
Xβ = β0 X0 + β1 X1 + · · · + βp−1 Xp−1
para algum β = (β0 , β1 , . . . , βp−1 )′ resulta que {X0 , X1 , . . . , Xp−1 } é uma base para
Span(X) e, portanto, a dimensão de Span(X) é p.
A partir deste instante Π(Y ) denota a projeção de Y sobre Span(X). Antes das
demonstrações dos teoremas objetos principais deste apêndice, um último comentário:
como o vetor Y − Π(Y ) é ortogonal às colunas de X, temos que
(Y − X β̂)′ X = 0,
implicando em X ′ X β̂ = X ′ Y . Lembrando que X ′ X é invertı́vel, temos a expressão

para o estimador de máxima verossimilhança para β,
β̂ = (X ′ X)−1 X ′ Y.
Teorema G.1 SQres/σ 2 tem distribuição qui-quadrado com n − p graus de liberdade.
Demonstração: Como Y ∼ N (Xβ, σ 2 I) podemos escrever
Y = Xβ + ε,
onde ε = (ε1 , . . . , εn )′ tem distribuição Nn (0, σ 2 I). Seja {ξ0 , ξ1 , . . . , ξ(p−1) } uma base
ortonormal de Span(X). Completando esta base, seja

ξ0 , . . . , ξ(p−1) , ξp , . . . , ξn−1
uma base ortonormal de Rn . Cada observação do vetor ε pode ser escrita como com-
binação linear dos vetores nesta base, ou seja, existem variáveis aleatórias γ0 , γ1 , . . . , γn−1
tais que
ε = γ0 ξ0 + γ1 ξ1 + · · · + γn−1 ξn−1 = Aγ, (G.2)
143
onde a i- ésima coluna de A é ξi , i = 0, . . . , n − 1 e γ = (γ0 , . . . , γn−1 )′ . Observe que a

matriz A é ortonormal, ou seja,
A′ A = AA′ = I,
de modo que A−1 = A′ . Por (G.2), temos que
γ = A−1 ε.
Como ε ∼ Nn (0, σ 2 I), temos que γ também tem distribuição normal n-variada, com
vetor de médias 0 e matriz de covariâncias
′
Cov (γ) = A−1 Cov (ε) (A)−1
= A−1 σ 2 IA = σ 2 I,
o que significa dizer que γ0 , γ1 , . . . , γn−1 são independentes e identicamente distribuı́das

como N (0, σ 2 ). Seja Π a função projeção sobre Span(X). Como Π é linear temos que
X β̂ = Π(Y ) = Π(Xβ + ε) = Π(Xβ) + Π(ε),
de modo que
SQres = k Y − X β̂ k2 =k Xβ + ε − Π (Xβ) − Π (ε) k2

= k Xβ + ε − Xβ − Π (ε) k2
= k ε − Π (ε) k2
= k ε k2 − k Π (ε) k2 , (G.3)
pois Π(Xβ) = Xβ, devido ao fato de que Xβ ∈ Span(X). Temos que
n−1
X
k ε k2 = ε′ ε = γ ′ A′ Aγ = γ ′ γ = γj2 .
=0
144
Pela fórmula (C.9), vem que

n−1
X
Π (ε) = (ξj′ ε)ξj
j=0
n−1
X
ξj′ (γ0 ξ0 + γ1 ξ1 + · · · + γp−1 ξp−1 ) ξj

=
j=0
n−1 p−1
X X
= (γj ξj′ ξj )ξj = γj ξj . (G.4)
j=0 =0
Assim,
p−1
X
2
k Π (ε) k = γj2 .
=0
Por (G.3) resulta que

p−1
n−1
! n−1
SQres 1 X X X 1
2
= 2 γj2 − γj2 = 2
· γj2 . (G.5)
σ σ =0 =0 =p
σ
Observe que γi /σ, ı = 1, . . . , n são independentes e identicamente distribuı́das conforme

uma normal padrão. Pela definição da distribuição qui-quadrado, temos então que
SQres
2
∼ χ2n−p ,
σ
concluindo a demonstração do teorema.
Teorema G.2 SQres e β̂ são independentes.
Demonstração: Primeiramente vamos mostrar que X β̂ e SQres são independentes.

Por (G.4), temos que
X β̂ = Π (Y ) = Π (Xβ + ε) = Π (Xβ) + Π (ε)

p−1
X
= Xβ + Π (ε) = Xβ + γj ξj .
=0
145
Por (G.5) vem que

n−1
X
SQres = γj2 .
=p
Assim, X β̂ é uma função de γ0 , γ1 , . . . , γ(p−1) e SQres é uma função de γp , . . . , γ(n−1) .

Como γ0 , γ1 , . . . , γ(n−1) são independentes, temos que (γ0 , γ1 , . . . , γ(p−1) )′ é independente
de (γp , . . . , γ(n−1) )′ . Assim, SQres e X β̂ são independentes.
Agora vamos mostrar que β̂ e SQres são independentes. Para isso, considere a
função
f : Span (X) → Rp ,
definida da seguinte forma: seja y ∈ Span(X). Temos que y = Xβ, para algum β ∈ Rp .
Então
f (y) = β.
Observe que f é uma legı́tima função. Ou seja, a cada ponto de Span(X) corresponde
um único ponto de Rp . Isto é fácil de verificar: suponha que existam β e β ∗ tais que
y = Xβ e y = Xβ ∗ . Então
Xβ = Xβ ∗ ,
implicando em X(β − β ∗ ) = 0. Como as colunas de X são L.I., isto implica em

β − β ∗ = 0, ou ainda, β = β ∗ . Assim, como

β̂ = f X β̂
e X β̂ é independente de SQres, resulta que β̂ é independente de SQres.

146
Apêndice H
A Distribuição da Estatı́stica F
147
148
Bibliografia
Bartle, R. G. (1983). Elementos de Análise Real . Editora Campus, Rio de Janeiro.
Bolfarine, H. e Sandoval, M. C. (2001). Introdução à Inferência Estatı́stica. Sociedade

Brasileira de Matemática, Rio de Janeiro.
Brockwell, P. J. e Davis, R. A. (1991). Time Series: Theory and Methods. Springer,

second edition.
Dobson, A. (2002). An Introduction to Generalized Linear Models. Chapman and Hall,

New York, second edition.
Healy, M. J. R. (1988). GLIM: An Introduction. Clarendon Press, Oxford.
Johnson, R. e Bhattacharyya, G. (1996). Statistics: Principles and Methods. John

Wiley and Sons, New York, third edition.
Lima, E. (2001). Álgebra Linear . IMPA, Rio de Janeiro, fifth edition.
Montgomery, D. C. (1984). Design and Analysis of Experiments. John Wiley and Sons,
second edition.
Rao, C. R. (1973). Linear Statistical Inference and its Applications. John Wiley and
Sons, New York, second edition.
Zacks, S. (1971). The Theory of Statistical Inference. John Wiley and Sons, New York.
149

Regress Celso

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Regress Celso

Caricato da

Copyright:

Formati disponibili

Modelos de Regressão Linear Clássicos

Celso Rômulo Barbosa Cabral

TEXTO PARA A DISCIPLINA

UNIVERSIDADE FEDERAL DO AMAZONAS

Manaus, 24 de novembro de 2004. Atualizado até a página 111

A Fábio Amaral, que partiu antes

que as coisas começassem a acontecer.

À estudante Themis da Costa Abensur pela digitação da primeira versão deste

1 Modelos de Regressão Linear 1

1.2 Relações Determinı́sticas, Probabilı́sticas e Modelos Estatı́sticos . . . . 2

1.2.1 Relações Determinı́sticas e Probabilı́sticas . . . . . . . . . . . . 2

1.2.2 Modelos Estatı́sticos . . . . . . . . . . . . . . . . . . . . . . . . 4

1.3 Regressão Linear Simples . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.3.1 O Modelo de Regressão Linear Simples . . . . . . . . . . . . . . 5

1.3.3 A Distribuição dos Estimadores de Máxima Verossimilhança . . 16

1.3.4 Teste para Hipótese β1 = 0 . . . . . . . . . . . . . . . . . . . . . 20

1.3.5 Estimação da Média da Variável Resposta . . . . . . . . . . . . 25

1.3.6 Previsão de uma Observação Futura da Variável Resposta . . . 28

1.3.7 Alguns Comentários Sobre a Adequação do Modelo de Regressão

1.3.8 E Quando os Valores da Variável Regressora não Puderem ser

2 O Modelo de Regressão Linear Múltipla 47

2.3.1 Pontos Crı́ticos da Função de Verossimilhança . . . . . . . . . . 50

2.3.2 Existência e Unicidade de Soluções da Equação Normal . . . . . 52

2.3.3 Pontos de Máximo Global da Função de Verossimilhança . . . . 53

2.3.4 Uma Outra Abordagem para a Estimação de Máxima Verossimi-

2.4 Propriedades dos Estimadores de Máxima Verossimilhança . . . . . . . 56

2.6.1 A Tabela de Análise de Variância . . . . . . . . . . . . . . . . . 77

2.6.2 O Coeficiente de Determinação . . . . . . . . . . . . . . . . . . 81

3.3 Variância não Constante (ou Heterocedasticidade) . . . . . . . . . . . . 94

3.5 Gráficos de Resı́duos Parciais . . . . . . . . . . . . . . . . . . . . . . . 100

3.6 Um Algoritmo para a Análise de Resı́duos . . . . . . . . . . . . . . . . 104

4 Análise de Variância 107

4.1 Análise de Variância com Um Fator . . . . . . . . . . . . . . . . . . . . 107

A Algumas Definições e Resultados em Estatı́stica Multivariada 113

B A Distribuição Normal Multivariada 115

B.1 A Densidade Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115

B.2 Uma Definição Abrangente de Normalidade . . . . . . . . . . . . . . . 116

C Álgebra Linear 121

D Diferenciação de Matrizes 133

E A Distribuição Normal Multivariada 135

E.1 A Densidade Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135

F Matrizes em Blocos 137

G Demonstração dos Teoremas (2.5) e (2.6) 141

H A Distribuição da Estatı́stica F 147

Modelos de Regressão Linear

Um Modelo de Regressão 1 é um modelo estatı́stico para descrever relações entre

1. O gerente de marketing de uma empresa está interessado na relação entre o di-

2. Em radioterapia, é importante estudar o nı́vel de dano às células induzido pela

3. Em ciência polı́tica, pode ser de interesse relacionar a probabilidade de uma admi-

4. Em avaliação educacional, com o objetivo de comparar a evolução dos estudantes,

5. Em experimentos agrı́colas, é importante analisar os nı́veis de produção de uma

1.2 Relações Determinı́sticas, Probabilı́sticas e Mo-

1.2.1 Relações Determinı́sticas e Probabilı́sticas

onde g é a constante gravitacional. Estas relações são determinı́sticas, no sentido de

Exemplo 1.1 Para combater a poluição automobilı́stica, cientistas estão interessados

Exemplo 1.2 Seja y a produção de tomates em um experimento agrı́cola. Suponha

Exemplo 1.3 A aptidão de um operador novato em executar um serviço novo depende

estudo experimental da relação entre a melhora na execução do serviço y e a duração

1.2.2 Modelos Estatı́sticos

Vamos adotar então a seguinte definição

Definição 1.1 Um Modelo Estatı́stico é definido por uma amostra X = (X1 , . . . , Xn )

Nesta definição, Pθ é uma notação que indica a dependência da distribuição de

mos o exemplo do inı́cio desta seção. A amostra (X1 , . . . , Xn ) é dada por

Assim, o procedimento inferencial consiste em escolher um ponto θ no conjunto Θ