Regressao Suely UFPR

UNIVERSIDADE FEDERAL DO PARAN
DEPARTAMENTO DE ESTATSTICA

ANLISE DE REGRESSO

Responsvel
Profa. Suely Ruiz Giolo

C U R I T I B A
Estado do Paran Brasil
2003

1. Introduo

A anlise de regresso linear mltipla pode ser vista como uma extenso da
anlise de regresso linear simples, a qual envolve somente uma varivel
independente, para a situao em que est sendo considerada mais do que uma
varivel independente.
Tratar com diversas variveis independentes simultaneamente em uma anlise de
regresso consideravelmente mais complexo do que tratar com uma nica varivel
independente pelas seguintes razes:
mais difcil escolher o melhor modelo;
mais difcil visualizar o modelo ajustado (especialmente se existirem mais do que
duas variveis independentes) visto ser impossvel produzir um grfico com mais
de trs dimenses;
algumas vezes mais difcil interpretar o significado em termos prticos do melhor
modelo ajustado.
O objetivo ao ajustar um modelo de regresso linear mltipla predizer a
varivel resposta por meio das variveis independentes. Em muitas situaes se
concluir que predies da varivel resposta contendo uma nica varivel
independente so muito imprecisas e, modelos contendo mais variveis
independentes, sero analisados para melhoria desta preciso. Dentre um conjunto
possvel de variveis independentes, pretende-se escolher um subconjunto que
produza um bom modelo, isto , um modelo que fornea estimativas precisas da
varivel resposta e que faa sentido prtico uma vez que nem sempre o melhor
modelo, em termos estatsticos, aplicvel ou faz sentido na prtica. O conhecimento
e interao com o pesquisador imprescindvel para a escolha do modelo final.
Formalmente, para o ajuste de um modelo de regresso linear mltipla, a
varivel resposta bem como as variveis independentes devem ser contnuas. Na
prtica, contudo, as variveis independentes podem ser de qualquer outro tipo desde
que sejam devidamente representadas por meio de variveis dummy (fictcias).

1.1 Modelos de regresso linear mltipla (MRLM)

Considerando duas variveis independentes (regressoras) X
1
e X
2
, o modelo
de regresso linear mltipla dado por Y =
o
+
1
X
1
+
2
X
2
+ ser chamado modelo
de 1
a
. ordem por ser linear nos parmetros e nas variveis independentes.
Assumindo-se, para esse modelo, que E() = 0 tem-se E(Y | X) =
o
+
1
X
1
+
2
X
2
o qual geometricamente descreve um plano (superfcie de resposta). A cada
ponto no plano resposta corresponde uma resposta mdia E(Y | X) em uma dada
combinao dos nveis de X
1
e X
2
. Um outro exemplo de modelo de regresso linear
mltipla dado por qualquer polinomial de ordem 2. Note que em um MRLM, o
termo linear refere-se linearidade dos parmetros e no das variveis.

Giolo, Suely Ruiz Anlise de regresso 2

1.1.1 Interpretao dos parmetros

Considere o modelo de regresso linear mltipla: E(Y| X) =
o
+
1
X
1
+
2
X
2

O parmetro
o
o intercepto do plano de regresso. Se a extenso do modelo
inclui o ponto X = (X
1
, X
2
) = (0, 0) (veremos isto em maiores detalhes mais
adiante), o parmetro
o
fornece a resposta mdia neste ponto. Caso contrrio,
no possui qualquer significado como um termo isolado no modelo de regresso.
O parmetro
1
indica a mudana na resposta mdia a cada unidade de mudana
em X
1
quando X
2
mantida constante.
Similarmente
2
indica a mudana na resposta mdia a cada unidade de mudana
em X
2
quando X
1
mantida constante.

Exemplo: Considere o modelo E(Y| X) = 20 + 0,95X
1
- 0,5X
2

Suponha que X
2
mantida constante em X
2
= 20 E(Y) = 10 + 0,95 X
1
.
Ento,
1
= 0,95 indica que a cada acrscimo de uma unidade em X
1
, a resposta mdia
crescer em 0,95 unidades para X
2
mantida constante em 20. O mesmo verdadeiro
para qualquer outro valor de X
2
.
Similarmente,
2
= -0,5 indica que a resposta mdia decrescer em 0,5
unidades a cada acrscimo de uma unidade em X
2
e para X
1
mantida constante.
Os parmetros
1
e
2
so freqentemente chamados coeficientes de
regresso parciais porque refletem o efeito parcial de uma varivel independente
quando a outra varivel includa no modelo e mantida constante.
De um modo geral, a resposta Y pode estar relacionada com p variveis
regressoras X
1
, X
2
, ...., X
p
e, ento:

Y =
o
+
1
X
1
+
2
X
2
+ ....... +
p
X
p
+

Y =
o
+

=
p
j 1
j
X
j

+

Assumindo-se que E() = 0, segue que: E(Y| X) =
o
+
=
p
j 1
j
X
j

o qual descreve um hiperplano (nem sempre possvel de ser visualizado) no espao
p-dimensional das variveis regressoras X
j
(j = 1, 2, ..., p).
O significado dos parmetros anlogo ao caso de duas regressoras, ou seja, o
parmetro
j
(j = 1, 2, ..., p) indica a mudana na resposta mdia com o acrscimo de
uma unidade em X
j
quando todas as demais variveis regressoras so mantidas
constantes.


Obs: Os modelos de regresso de 1
a
. ordem apresentados so designados para
variveis independentes cujos efeitos na resposta mdia so aditivos e, portanto, no
interagem. Por exemplo, para p = 2, quando o efeito de X
1
na resposta mdia no
depende dos nveis de X
2
e, correspondentemente, o efeito de X
2
no depende dos
nveis de X
1
, as duas variveis so ditas apresentarem efeitos aditivos ou so ditas
no interagirem.

1.2 Efeito de interao

Considere o modelo de regresso linear com duas variveis independentes X
1

e X
2
dado por Y =
o
+
1
X
1
+
2
X
2
+
3
X
1
X
2
+ ou E(Y| X) =
o
+
1
X
1
+
2
X
2
+
3
X
1
X
2
se for assumido que E() = 0. No modelo citado, X
1
X
2
representa a interao
entre as variveis independentes X
1
e X
2
.
Se interao est presente e significativa ento, o efeito de X
1
na resposta
mdia depende do nvel de X
2
e, analogamente, o efeito de X
2
na resposta mdia
depende do nvel de X
1
.
O significado de
1
e
2
no o mesmo visto anteriormente devido a
3
X
1
X
2
.
Quando X
2
mantida constante, a cada mudana de uma unidade em X
1
, a
mudana na resposta mdia ser
1
+
3
X
2
.

Quando X
1
mantida constante, a cada mudana de uma unidade em X
2
, a
mudana na resposta mdia ser
2
+
3
X
1
.

1.3 Representao Matricial do Modelo de Regresso Linear Geral

A representao matricial para o modelo de regresso linear geral dado por:
Y =
o
+
1
X
1
+
2
X
2
+ ....... +
p
X
p
+ =
o
+
=
p
j 1
j
X
j

+ dada por:

Y
n x 1
= X
n x ( p +1)
( p +1) x 1
+
n x 1 com p = no. de regressoras

em que: Y = X = = =
Y
Y
Y
n
1
2
. . .
(
(
(
(
(
(
(
(
(
np
p
p
n n
X
X
X
X
X
X
X
X
X
.
...
...
...
...
. .
1
.
1
1
2
1
2
22
12
1
21
11
(
(
(
(
(
...
1
0

1
2
...
n
(
(
(
(
Y = vetor da varivel resposta
X = matriz de constantes
= vetor de (p+1) parmetros desconhecidos
= vetor de erros ( Normal com E( ) = 0 e matriz de var-cov = ( ) =
2
I ).

Conseqentemente: E (Y | X) = X e (Y ) =
2
I Y Normal (X;
2
I ).


1.4 Estimao dos parmetros por M.Q.O.

Para a obteno dos parmetros por M.Q.O. deve-se minimizar a soma de
quadrados dos erros, isto , minimizar:
SQ erros =
i
i
n
=1
2
=
1
2
+
2
2
+ ...+
n
2
= [
1
2
.....
n
] =
1
2
. . .
n
(
(
(
(
Como Y = X + = Y - X

Assim, SQerros = = (Y - X)(Y - X) = YY - YX - XY + XX
(*) = YY - 2 XY + XX

(*) YX = escalar e XY = (YX) = escalar YX = XY

Logo, SQerros / = 0 -2 XY + 2 XX = 0 XX = XY

= (XX)
-1
XY desde que (XX) seja inversvel.

A matriz (XX)
-1
sempre existir se as regressoras forem linearmente
independentes, isto , se nenhuma coluna de X for combinao linear de outras
colunas.
Para o modelo Y = X + os estimadores de M.Q.O. so, tambm,
estimadores de mxima verossimilhana.

1.5 Valores Ajustados (preditos) e Resduos

O vetor de valores ajustados Y ser denotado por
$
i
$
Y e o vetor dos termos
residuais e
i
= Y
i
- por e de modo que:
$
Y
i

$
Y
n x 1
= e
$
$
. . .
$
Y
Y
Y
n
1
2
(
(
(
(
(
n x 1
= .
e
e
e
n
1
2
..
(
(
(
(
Assim, o vetor de valores ajustados, em termos matriciais, ser representado por:

$
Y = X ( como = ( XX)

-1
XY )

$
Y = X (XX)
-1
XY ( fazendo H = X (XX)
-1
X )

$
Y = H Y
matriz chapu


e, os resduos, por sua vez, sero representados por:

e = Y -
$
Y ( como
$
Y = X )
e = Y - X ( como X = H Y )

e = Y - HY = ( I -H ) Y ( fazendo I - H = M )
e = M Y matriz de projeo

1.6 Propriedades dos estimadores de M.Q.O.

O estimador tem todas as propriedades vistas para o caso linear simples, ou
seja:

no-viciado, isto , E( ) =

no-viciado de mnima varincia e sua matriz de var-cov dada por:
Var-Cov ( ) =
2
(XX)
-1

em que se denominarmos C = ( XX )
-1
=
(
(
(
(
(
+ +
+
+
1 , 1
...
1 , 2
1 , 1
2
22
12
1
12
11
...
...
...
...
... ...
p p
p
p
p p
C
C
C
C
C
C
C
C
C

temos: Var(
$
j
) =
2
C
j+1,j+1
j = 0,1, 2, ..., p
Cov(
$
k
;
$
j
) =
2
C
k+1,j+1
k, j = 0, 1, 2, ..., p e k j

Como assumimos que os erros
i
so Normalmente distribudos, ento
tambm E.M.V. (estimador de mxima versossimilhana) de e, assim, no-
viciado, de mnima varincia, consistente e suficiente.

1.7 Estimao de
2

Como em regresso linear simples, podemos obter um estimador de
2
pela
SQres, isto , por:
SQres = (
= = e e
$
) Y Y
i i
i
n
=
2
1
e
i
i
n
2
1 =
SQres = (Y - X ) (Y - X ) = YY - 2 XY + XX

Visto que XX = XX (XX)
-1
XY = XY segue que:


SQres = YY - XY

A SQres possui n-(p+1) = n-p-1 graus de liberdade associados visto que p+1
parmetros so estimados no modelo de regresso. Assim,

QMres = SQres / (n-p-1)

Podemos, ainda, mostrar que E(QMres) =
2
. Portanto, um estimador no-
viciado de
2
dado por:

= QMres
$
2

1.8 Anlise de Varincia (ANOVA)

Em termos matriciais temos que:

SQres = YY - XY
SQreg = XY -
n
Y
n
i
i
2
1
|
.
|
\
|
=

SQtotal = YY -
n
Y
n
i
i
2
1
|
.
|
\
|
=

De fato,

SQtotal = ( )
2
1
=

n
i
i
Y Y = ( )
=
+
n
i
i i
Y Y Y Y
1
2 2
2
=

= = =
+
n
i
n
i
i
n
i
i
Y Y Y Y
1
2
1 1
2
2
= YY n
2
Y = YY -
n
Y
n
i
i
2
1
|
.
|
\
|
=

SQreg = SQtotal - SQres = (YY n
2
Y ) (YY - XY) = XY n
2
Y
= XY
n
Y
n
i
i
2
1
|
.
|
\
|
=


Assim temos:

Tabela da Anlise de Varincia (ANOVA)
F.V. S.Q. g.l. Q.M. F p-valor

Regresso

XY -
n
Y
n
i
i
2
1
|
.
|
\
|
=
p SQreg/ p QMreg/QMres depende de F

Resduos
YY - XY n p 1 SQres/(n-p-1) --- ---

Total
YY -
n
Y
n
i
i
2
1
|
.
|
\
|
=
n 1 ----

O teste F testa a existncia de regresso linear entre a varivel resposta Y e o
conjunto de variveis independentes X
1
, X
2
, ...., X
p
. Formalmente as hipteses sob
teste so:
H
o
:
1
=
2
= .... =
p
= 0
H
a
: nem todos os
j
(j = 1, 2, ..., p) so iguais a zero.

Obs: Somente a existncia de uma relao de regresso no assegura que predies
possam ser feitas usando tal relao.

Outra medida que podemos definir o coeficiente de determinao mltiplo,
denotado po R
2
.

R
2
=
SQreg
SQtotal
SQres
SQtotal
= 1 ( 0 R
2
1 ).

Este coeficiente mede a reduo proporcional da variao total de Y associada
ao uso do conjunto de variveis X
1
, X
2
, ..., X
p
. R
2
assume o valor zero quando
todos os
j
= 0 (j = 1, 2, ..., p) e R
2
assume o valor um quando todas as
observaes caem diretamente na superfcie de resposta, isto , quando Y
i
= para
todo i.
i
Y


Comentrios

Um grande valor de R
2
no implica necessariamente que o modelo ajustado seja
til;

Adicionar mais variveis independentes no modelo pode somente aumentar R
2
e
nunca reduz-lo, porque SQres nunca pode tornar-se maior com mais variveis
independentes e SQtotal sempre a mesma para um dado conjunto de respostas.
Como R
2
pode tornar-se grande pela incluso de um grande nmero de variveis
independentes, sugere-se o uso de uma medida modificada. O coeficiente de
determinao mltiplo ajustado, o qual denotaremos por R
2
a
, ajusta R
2

dividindo cada Soma de Quadrados por seus graus de liberdade associados. Ento,
tem-se:

R
2
a
= 1 -
SQtotal p n
SQres n
n SQtotal
p n SQres
) 1 (
) 1 (
1
) 1 /((
) 1 /(

=

Este coeficiente pode tornar-se menor quando outra varivel independente
includa no modelo porque o decrscimo na SQres pode ser compensado pela perda
de graus de liberdade do denominador (n-p-1).

O coeficiente R
2
a
frequentemente til no processo de seleo de variveis
pois ele penaliza o analista que inclui variveis desnecessrias no modelo.

Se R
2
e R
2
a
diferirem dramaticamente um do outro, ento existe boa chance de
que o modelo tenha sido superespecificado, isto , termos que contribuem no
significativamente para o ajuste devem ter sido includos desnecessariamente.

Ainda, possvel definirmos o coeficiente de correlao mltipla entre Y
e X
1
, X
2
, ...X
p
por:

r = + R
2

Este coeficiente uma generalizao do coeficiente de correlao linear
simples entre duas variveis fornecendo, desse modo, a correlao linear entre Y e o
conjunto de variveis X
1
, X
2
, ...X
p
.

Giolo, Suely Ruiz Anlise de Regresso
9

1.9 Diagrama de Disperso

Em regresso linear simples, o diagrama de disperso uma ferramenta
importante para analisar a relao entre Y e X. Poderamos, ento, pensar que esta
ferramenta seria tambm til em regresso linear mltipla de modo que, o exame dos
grficos de Y versus X
1
, Y versus X
2
, ...,Y versus X
p
nos ajudaria a acessar as
relaes entre Y e cada varivel independente. Infelizmente isto no , em geral,
verdadeiro e, para discutir tal fato, consideraremos, como exemplo, os dados
apresentados a seguir que foram gerados pela equao Y = 8 - 5X
1
+ 12 X
2
.

Y X
1
X
2

10 2 1
17 3 2
48 4 5
27 1 2
55 5 6
26 6 4
9 7 3
16 8 4

Para esses dados, o diagrama de Y versus X
1
no exibir qualquer aparente
relao entre essas duas variveis. J o diagrama deY versus X
2
indicar uma relao
linear positiva com inclinao de aproximadamente 8. Ambos os diagramas nos
conduziro, portanto, a informaes errneas a respeito da relao de Y com X
1
e X
2
.
Os diagramas de disperso de Y versus Xj (j = 1, 2, ..., p) podem, como
acabamos de exemplificar, gerar enganos quando temos somente duas variveis
regressoras operando de modo aditivo e sem rudo (erro). Situaes mais realsticas
com diversas variveis regressoras e erros nos Y
i
podem confundir a situao ainda
mais. Se existir apenas uma varivel regressora dominante, o correspondente
diagrama de disperso geralmente revelar isto. Contudo, quando diversas regressoras
so importantes ou quando as regressoras so elas prprias correlacionadas, esses
diagramas sero praticamente inteis.

2 Intervalos de confiana em regresso linear mltipla

2.1 Intervalo de confiana para os coeficientes da regresso

Para construir intervalos de confiana para os coeficientes
j
para j = 0, 1,.., p,
devemos assumir
i
N(0;
2
), i = 1, 2,..., n. Conseqentemente, temos:

Y
i
N(
o
+ ,
j ij
j
p
x
=
1
2
) i = 1, 2,..., n.
e como uma combinao linear dos Y
i
s segue que:

N(,
2
(XX)
-1
).

10

Ento,
j
N(
j
;
2
C
ii
) j = 0, 1, ..., p Ento,
j
N(
j
;
2
C
ii
) j = 0, 1, ..., p
i = j + 1 i = j + 1

em que C
ii
o i-simo elemento da diagonal da matriz (XX)
-1
. Assim, em que C
ii
-1
. Assim,

$
$

j
ii
C
2
j
t
n p 1
para j = 0, 1,..., p e i = j + 1

em que p + 1 = nmero de parmetros no modelo ajustado e = QMres.
$
2

Portanto, um I.C.(1-)100% para
j
(j = 0, 1,..., p) dado por:

t
j
/2
,
n-p-1
$
2
C
ii

Obs: Usualmente
$
2
C
ii
chamado de erro padro do coeficiente de regresso .
$
j

2.2 Intervalo de confiana para a resposta mdia

Para um particular ponto x
o
= (1, x
01,
x
02,
...., x
0p
) podemos estimar a resposta
mdia esperada bem como seu respectivo intervalo de confiana. O valor estimado
em x
o
e sua varincia estimada so obtidos por:

$
Y
o
= x
0

= x
$
(
$
) V Y
0
2

0

(XX)
-1
x
o

Obtemos, portanto, um I.C.(1-)100% para a resposta mdia em x
0
por:

Y t
$
0
/2, n-p-1
$
(
$
) V Y
0

11

3 Testes de hipteses em regresso mltipla 3 Testes de hipteses em regresso mltipla

3.1 Teste para a significncia da regresso 3.1 Teste para a significncia da regresso

Para testarmos a significncia da regresso, isto , testarmos a existncia da
relao linear entre Y e pelo menos uma varivel regressora X
1
, X
2
, ...., X
p
, utilizamos
o teste F apresentado anteriormente na ANOVA.
Para testarmos a significncia da regresso, isto , testarmos a existncia da
relao linear entre Y e pelo menos uma varivel regressora X
1
, X
2
, ...., X
p
, utilizamos
o teste F apresentado anteriormente na ANOVA.

3.2 Testes para os coeficientes individuais da regresso 3.2 Testes para os coeficientes individuais da regresso

Devemos sempre estar atentos a incluso de somente regressoras (variveis
independentes) que so de real importncia na explicao da resposta. As hipteses
para testar a significncia de qualquer coeficiente individual da regresso, tal como
j
,
so:
Devemos sempre estar atentos a incluso de somente regressoras (variveis
independentes) que so de real importncia na explicao da resposta. As hipteses
para testar a significncia de qualquer coeficiente individual da regresso, tal como
j
,
so:
H
0
:
j
= 0 H
0
:
j
= 0
H
a
:
j
0. H
a
:
j
0.

Se H
o
no for rejeitada, ento teremos indicativas de que a regressora X
j
no
contribui para a explicao de Y e pode, portanto, ser retirada do modelo. A estatstica
de teste dada por:
Se H
o
no for rejeitada, ento teremos indicativas de que a regressora X
j
no
contribui para a explicao de Y e pode, portanto, ser retirada do modelo. A estatstica
de teste dada por:
sob H
0
sob H
0

t* = t* =
$
$
$
. . (
$
)
j
ii
j
j
C d p
2
= t
n p 1
( j = 0, 1, 2, ..., p e i = j + 1).

em que C
ii
-1
e = QMres.
2

Este teste chamado teste parcial ou marginal porque o coeficiente
depende de todas as outras regressoras X
j
i
(i j) que esto no modelo. Ento, este
um teste da contribuio de X
j
dado outras regressoras no modelo.

3.2.1 Mtodo da S. Q. Extra para testar os coeficientes da regresso mltipla

Podemos, ainda, determinar a contribuio para a SQreg de uma varivel X
j

dado que outras regressoras X
i
(i j) esto includas no modelo, usando o mtodo da
SQextra. Este mtodo pode, tambm, ser usado para investigar a contribuio de um
subconjunto de variveis regressoras para o modelo.
A SQextra mede o acrscimo marginal na SQreg quando uma ou diversas
regressoras so adicionadas ao modelo de regresso ou, equivalentemente, a
reduo marginal na SQres quando uma ou mais regressoras so adicionadas ao
modelo.
Vejamos, ento, o seguinte exemplo em que temos n = 20, Y = varivel
resposta e as regressoras X
1
, X
2
e X
3
. Considere, tambm, para esse exemplo, os
modelos e resultados apresentados a seguir:

12

Regresso de Y em X
1
: Regresso de Y em X
$$
1
: Y = -1,496 + 0,8572X
1

F.V. SQ g.l. QM d.p.( ) = 0,1288
$
1
Reg 352,27 1 352,27
Res 143,12 18 7,95
Total 495,39 19 ---

Regresso de Y em X
2
:
$
Y = -23,634 + 0,8565X
2

F.V. SQ g.l. QM d.p.(
$
2
) = 0,11
Reg 381,97 1 381,97
Res 113,42 18 6,30
Total 495,39 19 ---

Regresso de Y em X
1
e X
2
:
$
Y = -19,174 + 0,2224X
1
+ 0,6594X
2

F.V. SQ g.l. QM d.p.( ) = 0,3034
$
1
Reg 385,44 2 192,72 d.p.( ) = 0,2912
$
2
Res 109,95 17 6,47
Total 495,39 19 ---

Regresso de Y em X
1
, X
2
e X
3
:
$
Y = 117.08 + 4.344X
1
- 2.857 X
2
- 2.186X
3

F.V. SQ g.l. QM d.p.( ) = 3,016
$
1
Reg 396,98 3 132,33 d.p.( ) = 2,582
$
2
Res 98,41 16 6,15 d.p.( ) = 1,596
$
3
Total 495,39 19 ---

Observe que:

Quando X
1
e X
2
esto no modelo SQres (X
1
,X
2
) = 109,95
Quando somente X
1
est no modelo SQres (X
1
) = 143,12
e ainda,
Quando X
1
e X
2
esto no modelo SQreg (X
1
,X
2
) = 385,44
Quando somente X
1
est no modelo SQreg (X
1
) = 352,27

A diferena entre as duas SQ de resduos, ou entre as duas SQ da regresso,
chamada Soma de Quadrados extra e ser denotada por SQ
E
(X
2
| X
1
). Ento:
SQ
E
(X
2
| X
1
) = SQres (X
1
) - SQres(X
1
, X
2
) = SQreg (X
1
,X
2
) - SQreg (X
1
) = 33,17.
Esta reduo na SQres ou acrscimo na SQreg o resultado de adicionar
X
2
ao modelo quando X
1
j se encontra no modelo. Assim, a SQ
E
(X
2
| X
1
) mede o
efeito marginal em adicionar X
2
ao modelo quando X
1
j se encontra no modelo.
Analogamente, podemos considerar outras Somas de Quadrados Extra tais
como:
efeito marginal de adicionar X
3
ao modelo quando X
1
e X
2
esto presentes.

SQ
E
(X
3
| X
1
, X
2
) = SQres (X
1
, X
2
) - SQres (X
1
, X
2
, X
3
) = 109,95 98,41 = 11,54
ou
SQ
E
(X
3
| X
1
, X
2
) = SQreg (X
1
, X
2
, X
3
) - SQreg (X
1
, X
2
) = 396,98 385,44 = 11,54

13

Temos, ento, uma reduo na SQres de 11,54 unidades ao quadrado ou,
equivalentemente, um acrscimo na SQreg de 11,54 unidades ao quadrado ao
adicionar X
3
ao modelo em que X
1
e X
2
encontram-se no mesmo.
Temos, ento, uma reduo na SQres de 11,54 unidades ao quadrado ou,
adicionar X
3
ao modelo em que X
1
e X
2
encontram-se no mesmo.

efeito marginal de adicionar X
2
e X
3
ao modelo quando X
1
est presente. efeito marginal de adicionar X
2
e X
3
ao modelo quando X
1
est presente.

SQ
E
(X
2
, X
3
| X
1
) = SQres (X
1
) - SQres (X
1
, X
2
, X
3
) = 143,12 98,41 = 44,71 SQ
E
(X
2
, X
3
| X
1
) = SQres (X
1
) - SQres (X
1
, X
2
, X
3
) = 143,12 98,41 = 44,71
ou ou
SQ
E
(X
2
, X
3
| X
1
) = SQreg (X
1
, X
2
, X
3
) - SQreg (X
1
) = 396,98 352,27 = 44,71 SQ
E
(X
2
, X
3
| X
1
) = SQreg (X
1
, X
2
, X
3
) - SQreg (X
1
) = 396,98 352,27 = 44,71

Assim, temos uma reduo na SQres de 44,71 unidades ao quadrado ou,
adicionarmos X
2
e X
3
ao modelo em que X
1
j se encontra presente.
Assim, temos uma reduo na SQres de 44,71 unidades ao quadrado ou,
adicionarmos X
2
e X
3
ao modelo em que X
1
j se encontra presente.

No estamos interessados, no entanto, somente em obter tais redues ou
acrscimos. O interesse maior est em saber se a varivel (ou as variveis) X
j
deve, ou
no, ser includa no modelo.
No estamos interessados, no entanto, somente em obter tais redues ou
acrscimos. O interesse maior est em saber se a varivel (ou as variveis) X
j
deve, ou
no, ser includa no modelo.
J vimos que a estatstica de teste parcial t* apropriada para esta finalidade.
Porm, alternativamente, podemos usar a estatstica de teste parcial F* a qual usa as
Somas de Quadrados extra.
J vimos que a estatstica de teste parcial t* apropriada para esta finalidade.
Porm, alternativamente, podemos usar a estatstica de teste parcial F* a qual usa as
Somas de Quadrados extra.
No exemplo tratado anterioremente, podemos desejar testar se a varivel X
3

deve, ou no, ser adicionada ao modelo contendo X
1
e X
2
. Isto equivalente a testar
as hipteses: H
0
:
3
= 0 versus H
a
:
3
0.
No exemplo tratado anterioremente, podemos desejar testar se a varivel X
3

deve, ou no, ser adicionada ao modelo contendo X
1
e X
2
. Isto equivalente a testar
as hipteses: H
0
:
3
= 0 versus H
a
:
3
0.

Se H
0
no for rejeitada teremos o modelo reduzido E(Y) =
0
+
1
X
1
+
2
X
2
Se H
0
no for rejeitada teremos o modelo reduzido E(Y) =
0
+
1
X
1
+
2
X
2

Se H
0
for rejeitada teremos o modelo completo E(Y) =
0
+
1
X
1
+
2
X
2
+
3
X
3
Se H
0
for rejeitada teremos o modelo completo E(Y) =
0
+
1
X
1
+
2
X
2
+
3
X
3

A estatstica de teste parcial F* para testar as hipteses acima expressa por: A estatstica de teste parcial F* para testar as hipteses acima expressa por:

F* = F* =
SQ X X X n n
SQres X X X n
SQ X X X
QMres X X X
E E
( | , ) / [( ) ( )]
( , , ) / ( )
( | , ) /
( , , )
3 1 2
1 2 3
3 1 2
1 2 3
3 4
4
1
= F
1; n - 4

No exemplo citado temos:
F* = 11,54 / 6,15 = 1,88 ( p-valor = 0,189 )
t* = -2,186 / 1,596 = -1,37 ( p-valor = 0,189 )

Conclumos, pelos resultados obtidos, que X
3
no traz contribuio significativa e
pode portanto ser retirada do modelo de regresso contendo X
1
e X
2

Obs: Relembre que F* = (t*)
2

Podemos, ainda, usando o teste parcial F*, testar se mais de uma varivel
independente pode ser retirada do modelo completo. Por exemplo:

14

Testar se X
2
e X
3
podem ser retiradas do modelo completo, isto , do modelo
contendo X
1
, X
2
e X
3
.

Hipteses: H
o
:
2
=
3
= 0 versus H
a
:
2
0 ou
3
0

Se H
o
no for rejeitada modelo reduzido: Y =
o
+
1
X
1
+
Se H
0
for rejeitada modelo completo: Y =
o
+
1
X
1
+
2
X
2
+
3
X
3
+

F* = [(33,17 + 11,54)/2] / [98,41/16] = [44,71/2] / 6,15 = 3,63

Concluso: Com o resultado F
*
= 3,63 temos o valor p = 0,05 associado
distribuio F
2,16.
Assim, possvel concluir pela rejeio da hiptese nula e, desse
modo, optamos pelo modelo completo.

Diversos outros testes, dependendo do interesse, podem ser realizados usando
o teste parcial F*.

3.2.2 - Anova contendo decomposio da SQreg

Em regresso mltipla, uma variedade de decomposies (desdobramentos) da
SQreg em SQ
E
podem ser obtidas. Por exemplo, no caso de 2 variveis independentes
X
1
e X
2
podemos ter: SQreg (X
1
,

X
2
) = SQ
E
(X
1
) + SQ
E
(X
2
| X
1
) ou
SQreg (X
1
,

X
2
) = SQ
E
(X
2
) + SQ
E
(X
1
| X
2
).
A Anova, contendo uma dessas duas possveis decomposies, representada por:

F.V. S.Q g.l. Q.M.
Regresso SQreg (X
1
,X
2
) 2 QMreg (X
1
,X
2
)
X
1
SQ
E
(X
1
) 1 QM
E
(X
1
)
X
2
| X
1
SQ
E
(X
2
| X
1
) 1 QM
E
( X
2
| X
1
)
Resduos SQres (X
1
, X
2
) n - 3 QMres(X
1
, X
2
)
Total Sqtotal n - 1 --------

Para mais de duas variveis regressoras, a Anova com a decomposio
obtida de forma anloga. Alguns pacotes estatsticos fornecem tal decomposio o
que facilita a realizao de alguns testes de interesse. A decomposio feita, em
geral, obedecendo a ordem de escolha das variveis independentes.
Para o exemplo citado na seo anterior temos como uma possvel
decomposio a tabela a seguir:

F.V. S.Q g.l. Q.M.
Regresso 396,98 3 132,33
X
1
352,27 1 352,27
X
2
| X
1
33,17 1 33,17
X
3
| X
1
, X
2
11,54 1 11,54
Resduos 98,41 16 6,15
Total 495,39 19 ----

15

Com a decomposio apresentada possvel realizar alguns testes que possam
vir a ser de interesse. Por exemplo:
Com a decomposio apresentada possvel realizar alguns testes que possam
vir a ser de interesse. Por exemplo:
(a) Teste da significncia da regresso (a) Teste da significncia da regresso
(b) Teste da significncia de X
3
na presena de X
1
e X
2
(b) Teste da significncia de X
3
na presena de X
1
e X
2

(c) Teste da significncia de X
2
e X
3
na presena de X
1
(c) Teste da significncia de X
2
e X
3
na presena de X
1

(a) F* = [396,98/3] / [98,41/16] = 132,33/6,15 = 21,51 (p-valor = 7,3e-7) (a) F* = [396,98/3] / [98,41/16] = 132,33/6,15 = 21,51 (p-valor = 7,3e-7)

(b) F* = [11,54/1] / [98,41/16] = 11,54/6,15 = 1,88 (p-valor = 0,1892) (b) F* = [11,54/1] / [98,41/16] = 11,54/6,15 = 1,88 (p-valor = 0,1892)

(c) F* = [(33,17 + 11,54)/2] / [98,41/16] = [44,71/2] / 6,15 = 3,63 (p-valor = 0,0500) (c) F* = [(33,17 + 11,54)/2] / [98,41/16] = [44,71/2] / 6,15 = 3,63 (p-valor = 0,0500)

3.5 - Coeficientes de determinao parcial 3.5 - Coeficientes de determinao parcial

As SQ extras no so somente teis para testar coeficientes de um modelo de
regresso mltipla, mas tambm para encontrar uma medida descritiva de relao
denominada coeficiente de determinao parcial.
As SQ extras no so somente teis para testar coeficientes de um modelo de
regresso mltipla, mas tambm para encontrar uma medida descritiva de relao
denominada coeficiente de determinao parcial.
Enquanto o coeficiente de determinao mltiplo R
2
mede a proporcional
reduo na variabilidade de Y obtida pela introduo de um conjunto de variveis
regressoras no modelo, o coeficiente de determinao parcial mede a contribuio
marginal de uma varivel X
j
quando outras variveis se encontram no modelo.
Enquanto o coeficiente de determinao mltiplo R
2
mede a proporcional
reduo na variabilidade de Y obtida pela introduo de um conjunto de variveis
regressoras no modelo, o coeficiente de determinao parcial mede a contribuio
marginal de uma varivel X
j
quando outras variveis se encontram no modelo.
Temos ento: Temos ento:
coeficiente de determinao parcial entre Y e X
2
dado que X
1
est no modelo coeficiente de determinao parcial entre Y e X
2
dado que X
1
est no modelo

r
2
Y2 . 1 Y2 . 1
= r
2
=
SQ X X
SQres X
E
( |

)
( )
2 1
1

coeficiente de determinao parcial entre Y e X
1
dado que X
2
e X
3

encontram-se no modelo

r
2
Y1 . 23
=
SQ X X X
SQres X X
E
( | , )
( , )
1 2 3
2 3

e assim por diante.
Para o exemplo tratado nas sees anteriores temos:

(a) r
2
Y2 . 1
= 33,17/143,12 = 0,2317 (23,17%)

(b) r
2
Y3 . 12
= 11,54/109,95 = 0,105 (10,5%)

(c) r
2
Y1 . 2
= 3,47/113,42 = 0,031 (3,1%)

Ento, quando X
2
adicionada ao modelo contendo X
1
a SQres (X
1
)
reduzida em 23,17%. Ainda, a SQres(X
1,
X
2
) reduzida em 10,5% quando X
3

adicionada ao modelo e, finalmente, se o modelo contm X
2
, adicionar X
1
reduz a
SQres em 3,1%.

16

3.5.1 - Coeficientes de correlao parcial

A raiz quadrada de um coeficiente de determinao parcial denominado
coeficiente de correlao parcial. O sinal de cada coeficiente de correlao parcial
correspondente ao do coeficiente de regresso no modelo ajustado. Assim temos:

(a) r
Y2 . 1
= (0,2317)
1/2
= -0,48 (o sinal negativo porque = -2,857 )
2

(b) r
Y3 . 12
= (0,105)
1/2
= -0,324 (o sinal negativo porque = -2,186)
3

(c) r
Y1 . 2
= (0,031)
1/2
= 0,176 (o sinal positivo porque = 4,344)
1

Obs: os coeficientes de correlao parciais so geralmente usados nas rotinas
computacionais para encontrar a prxima melhor varivel independente a entrar no
modelo (veremos tal fato mais adiante).

4. Diagnstico do modelo de regresso linear mltiplo

J vimos que a ANOVA til para diagnosticar alguns aspectos do modelo de
regresso ajustado. Necessitamos contudo, verificar outros aspectos tais como:
suposies dos erros, no-linearidade de algumas variveis independentes,
multicolinearidade e a existncia e o efeito de pontos atpicos.

4.1 - Anlise dos Resduos

Os mtodos grficos usados em regresso linear simples so tambm teis em
regresso linear mltipla. Grficos adicionais podem tambm trazer informaes
importantes. Em sntese temos os seguintes grficos e suas utilidades:

(a) Resduos em papel de probabilidade Normal (e
i
x F
i
)
examinar se os erros apresentam distribuio aproximadamente Normal;
auxiliar na deteco de pontos atpicos.

(b) Resduos versus valores ajustados (e
i
x ) $ y
i
verificar homogeneidade das varincias dos erros;
fornecer informaes sobre pontos atpicos.

(c) Resduos versus seqncia de coleta (se conhecida) (e
(i)
x i)
informaes sobre possvel correlao entre os erros.

(d) Resduos versus cada X
j
includa no modelo (e
i
x X
ij
)
informaes adicionais sobre a adequacidade da funo de regresso com
respeito a j-sima varivel independente, ou seja, auxilia na deteco de no-
linearidade na regressora X
j
;
informaes sobre possvel variao na magnitude da varincia dos erros em
relao a varivel independente X
j;

informaes sobre dados atpicos.

17

(e) Resduos parciais versus X
ij
para cada X
j
no modelo (e
*
ij ij
versus X
ij
) (e) Resduos parciais versus X
ij
para cada X
j
no modelo (e
*
versus X
ij
)
Esses grficos tm por finalidade revelar mais precisamente a relao entre os
resduos e cada varivel regressora X
j
. O i-simo resduo parcial para a regressora X
j

definido por:
Esses grficos tm por finalidade revelar mais precisamente a relao entre os
resduos e cada varivel regressora X
j
. O i-simo resduo parcial para a regressora X
j

definido por:

e
ij
**
= e
i
+ x
ij
(i = 1, 2, ..., n) e
ij
= e
i
+ x
$
j
ij
(i = 1, 2, ..., n)
$
j
$ y
i
$
j
e
ij
**
= (y
i
- ) + x
ij
(i = 1, 2, ..., n) e
ij
= (y
i
- ) + x $ y
i
$
j
ij
(i = 1, 2, ..., n)

O grfico dos resduos parciais, como comumente referenciado,
semelhante ao grfico dos resduos versus X
ij
e permite ao experimentador avaliar:
falhas de linearidade, presena de outliers e heterogeneidade de varincias.
O grfico dos resduos parciais, como comumente referenciado,
semelhante ao grfico dos resduos versus X
ij
e permite ao experimentador avaliar:
falhas de linearidade, presena de outliers e heterogeneidade de varincias.
Se, por exemplo, a relao entre X
j
e Y for no linear, o grfico dos resduos
parciais indicar mais precisamente do que o grfico e
i
versus X
j
como transformar os
dados para obter a linearidade. A justificativa para isto que o grfico de resduos
parciais mostra a relao entre Y e X
j
aps o efeito das outras regressoras X
i
(i j) ter
sido removido e, desse modo, este grfico mostrar mais claramente a influncia de X
j

em Y na presena das outras regressoras.
Se, por exemplo, a relao entre X
j
e Y for no linear, o grfico dos resduos
parciais indicar mais precisamente do que o grfico e
i
versus X
j
como transformar os
dados para obter a linearidade. A justificativa para isto que o grfico de resduos
parciais mostra a relao entre Y e X
j
aps o efeito das outras regressoras X
i
(i j) ter
sido removido e, desse modo, este grfico mostrar mais claramente a influncia de X
j

em Y na presena das outras regressoras.
Observe que e
ij
* versus X
j
deve ser linear Observe que e
ij
* versus X
j
deve ser linear com inclinao prxima a se a
relao entre Y e X
$
j
j
for linear.

(f) Resduos versus X
k
omitidas do modelo
ajudam a revelar dependncia da resposta Y com uma ou mais das regressoras
no presentes no modelo. Qualquer estrutura (padro sistemtico) que no o
aleatrio indicaro que a incluso daquela varivel pode melhorar o modelo.

(g) Resduos versus interaes no includas no modelo
teis para examinar se alguma, algumas ou todas as interaes so requeridas
no modelo. Um padro sistemtico nestes grficos (que no o aleatrio) sugere
que o efeito da interao pode estar presente.

(h) Grfico da regressora X
i
versus regressora X
j

til para estudar a relao entre as variveis regressoras e a disposio dos
dados no espao X;
encontrar pontos atpicos.

Considere, como exemplo, o grfico a seguir:

18

Este grfico mostra que as regressoras X
1
e X
2
so altamente correlacionadas e
conseqentemente, pode no ser necessrio incluir ambas no modelo.
Se duas ou mais variveis regressoras so altamente corelacionadas, dizemos
que multicolinearidade est presente nos dados. A presena de multicolinearidade
pode afetar seriamente o ajuste por M.Q.O. e, em algumas situaes, produzir
modelos quase que inteis.
Equivalentemente, podemos dizer que o problema de multicolinearidade existe
quando h uma dependncia quase-linear entre as regressoras.
A matriz de correlao r
XX
das variveis regressoras uma ferramenta til na
deteco de multicolinearidade.

r
XX
=
1
1
1
12
21 2
1 2
r r
r r
r r
ik
k
k k
..
.. .. .. ..
..

A matriz r
XX
simtrica, isto , r
ij
= r
ji
e se r
ij
for prximo de zero, ento X
i
e
X
j
no so altamente correlacionadas. Por outro lado, se r
ji
for prximo de um, ento
X
i
e X
j
so altamente correlacionadas.

Obs: Para a anlise residual podemos, ainda, usar os resduos standardized
(padronizados), os resduos studentized, os resduos PRESS, os resduos studendized
externamente, dentre outros.

1) Resduos standardized
d
i
=
e
QMres
i

2) Resduos studentized
r
i
=
e
QMres h
i
ii
( ) 1

3) Resduos PRESS
e
(i)
=
e
h
i
ii
1

4) Resduos studendized externamente
( R-Student)
t
i
=
e
S h
i
i
ii
2
1
( )
( )

em que S
2
(i)
=
p n
h e QMres p n
ii i
) 1 ( ) 1 (
2

h
ii
corresponde ao i-simo componente da diagonal da matriz H = X(XX)
-1
X
0 h
ii
1

19

Observe que: e = (I - H) Y Observe que: e = (I - H) Y
e = (I - H) (X + ) e = (I - H) (X + )
e = X + HX + (I - H) e = X + HX + (I - H)
e = X - X(XX)
-1
XX + (I - H) e = X - X(XX)
-1
XX + (I - H)
e = (I - H) e = (I - H)
e a varincia: e a varincia:

V( e ) = V [(I - H) ] V( e ) = V [(I - H) ]
V( e ) = (I - H) V ( ) ( I - H ) V( e ) = (I - H) V ( ) ( I - H )
V( e ) = (I - H)
2
I ( I - H ) =
2
( I - H ) V(e
i
) =
2
( I - h
ii
) V( e ) = (I - H)
2
I ( I - H ) =
2
( I - H ) V(e
i
) =
2
( I - h
ii
)

Nota: (I - H) simtrica (I - H ) = (I - H) Nota: (I - H) simtrica (I - H ) = (I - H)
(I - H) idempotente (I - H)(I-H) = (I - H) (I - H) idempotente (I - H)(I-H) = (I - H)

Diversos autores recomendam o uso dos resduos studentized ao invs de e
i

ou d
i
. A justificativa que h
ii
uma medida da localizao do i-simo ponto no
espao X e a varincia de e
i
depende de onde o ponto x
i
cai. Ento, como 0 h
ii
1,
usar o QMres para estimar a varincia dos resduos faz com que superestimemos a
varincia de e.
Diversos autores recomendam o uso dos resduos studentized ao invs de e
i

ou d
i
. A justificativa que h
ii
uma medida da localizao do i-simo ponto no
espao X e a varincia de e
i
depende de onde o ponto x
i
cai. Ento, como 0 h
ii
1,
usar o QMres para estimar a varincia dos resduos faz com que superestimemos a
varincia de e.
Pontos com grande resduo e grande h
ii
so observaes possivelmente altamente
influentes no ajuste por M.Q.O.;
Pontos com grande resduo e grande h
ii
so observaes possivelmente altamente
influentes no ajuste por M.Q.O.;
Resduos associados com pontos para os quais h
ii
grande tero grandes resduos
PRESS. Esses pontos geralmente sero altamente influentes.
Resduos associados com pontos para os quais h
ii
grande tero grandes resduos
PRESS. Esses pontos geralmente sero altamente influentes.

5. Multicolinearidade 5. Multicolinearidade

Adicional s analises dos grficos de X
i
versus X
j
(i j) e da matriz de
correlao r
XX
, podemos utilizar outros recursos para diagnosticar a presena de
colinearidade ou multicolinearidade.
Adicional s analises dos grficos de X
i
versus X
j
(i j) e da matriz de
correlao r
XX
, podemos utilizar outros recursos para diagnosticar a presena de
colinearidade ou multicolinearidade.

5.1 Fatores de Inflao da Varincia (VIF) 5.1 Fatores de Inflao da Varincia (VIF)

O VIF para o j-simo coeficiente de regresso pode ser escrito por: O VIF para o j-simo coeficiente de regresso pode ser escrito por:

VIF
j
= VIF
j
=
1
2
j
1 R

em que R
2
j
o coeficiente de determinao mltiplo obtido pela regresso de X
j
com
as demais variveis regressoras.
Claramente, se X
j
for quase linearmente dependente com alguma das outras
regressoras, ento R
2
j
ser prximo de 1 e VIF
j
ser grande. Experincias prticas
indicam que VIF maiores que 10 (ou 5, por outros autores) implicam que os
coeficientes de regresso associados esto sendo pobremente estimados devido a
multicolineridade.

20

5.2 Anlise dos autovalores na matriz r
XX
5.2 Anlise dos autovalores na matriz r
XX

As razes caractersticas, ou autovalores de r
XX
, digamos
1
,
2
, ...,
k
, podem
ser usados para medir a extenso da multicolinearidade nos dados. Se existirem uma
ou mais dependncias lineares nos dados, ento uma ou mais das razes caractersticas
sero pequenas.
As razes caractersticas, ou autovalores de r
XX
, digamos
1
,
2
, ...,
k
, podem
ser usados para medir a extenso da multicolinearidade nos dados. Se existirem uma
ou mais dependncias lineares nos dados, ento uma ou mais das razes caractersticas
sero pequenas.

Alguns analistas preferem, no entanto, examinar o nmero de condio da
matriz r
XX
dado por:
Alguns analistas preferem, no entanto, examinar o nmero de condio da
matriz r
XX
dado por:

k = k =

max
min

Geralmente se: k < 100 no existe srios problemas de multicolinearidade
100 < k < 1000 moderada a forte multicolinearidade
k >1000 severa multicolinearidade.
Os ndices de condio da matriz r
XX
so dados por: k
j
=
max
j

Lembrete: auto valores de r
XX
so as razes caractersticas da equao | r
XX
- I | = 0

Exemplo: Suponha Y = varivel resposta e X
1
, ...., X
9
as regressoras de modo que os
autovalores obtidos sejam:

1
= 4,2048
4
= 1,0413
7
= 0,0136
2
= 2,1626
5
= 0,3845
8
= 0,0051
3
= 1,1384
6
= 0,0495
9
= 0,0001

Assim, k = 42048 o que implica em severa multicolinearidade. Ainda,

k
1
= 1,0 k
4
= 4,04 k
7
= 309,18
k
2
= 1,94 k
5
= 10,94 k
8
= 824,47
k
3
= 3,69 k
6
= 84,96 k
9
= 42048

Como k
7
e k
8
> 100 e k
9
> 1000, h indcios de multicolinearidade envolvendo as
variveis X
7
, X
8
e X
9
.

5.3 Determinante da matriz r
xx

O determinante da matriz r
XX
pode ser usado como um indicador de existncia
de multicolineridade. Os valores possveis deste determinante so 0 det(r
XX
) 1. Se
det(r
XX
) = 1, as regressoras so ortogonais, enquanto det(r
XX
) = 0 implica em
dependncia linear exata entre as regressoras. O grau de multicolinearidade torna-se
mais severo quando o determinante aproxima-se de zero.

21

6. Diagnstico de influncia

Ocasionalmente encontramos um subconjunto de observaes que exercem
uma desproporcional influncia no modelo de regresso ajustado. Gostaramos,
portanto, de localizar essas observaes (pontos) e acessar seu impacto no modelo.
Discutiremos, ento, a seguir, diversas medidas de influncia teis.

6.1 Pontos de Alavancagem

A disposio dos pontos no espao X importante para a determinao das
propriedades do modelo. Em particular, observaes potencialmente remotas tm
desproporcional alavancagem nos parmetros estimados bem como nos valores
preditos e nas usuais estatsticas sumrias. Para localizar esses pontos remotos no
espao X, Daniel e Wood (1980) sugeriram o uso da soma ponderada das distncias
ao quadrado do i-simo ponto ao centro dos dados a qual expressa por:

WSSD
i
=
2
1
) (
p
j
j ij j
QMres
x x
( i = 1, 2, .., n)

O procedimento de anlise desses valores o de ordenar os pontos em ordem
crescente com relao aos WSSD
i
e concentrar ateno aos pontos com WSSD
i

grandes. difcil estabelecer uma regra para identificar um grande valor de
WSSD
i
. Geralmente, se os valores de WSSD
i
crescem gradativamente do menor
para o maior valor, ento, provavelmente no existem pontos remotos. Contudo,
saltos na magnitude dos WSSD
i
freqentemente indicam que um ou mais pontos
extremos esto presentes.

J os autores Hoaglin e Welsh (1978), sugeriram para a identificao de
observaes influentes, o uso da matriz chapu ou matriz H a qual obtida,
como vimos anteriormente, por H = X (XX)
-1
X. De acordo com os autores citados,
os elementos h
ij
da matriz H podem ser interpretados como a quantidade de
alavancagem exercida por y
i
em e, desse modo, a inspeo dos elementos de H
podem revelar pontos que so potencialmente influentes em virtude de sua
localizao no espao X. Ateno usualmente focalizada nos elementos da
diagonal da matriz H, ou seja, nos h
$ y
i
ii
. Como = rank(H) = rank(X) = p+1, o
tamanho mdio de um elemento da diagonal da matriz H (p+1)/n e temos, assim,
como uma regra um tanto grosseira, que:
h
ii
i
n
=
1

se h
ii
> 2(p+1)/n observao i um possvel ponto de alta alavancagem.

22

6.2 Influncia nos coeficientes de regresso

Se for desejado, contudo, considerar ambos, a localizao do ponto e a
varivel resposta, Cook (1979) sugeriu o uso de uma medida do quadrado da
distncia entre as estimativas obtidas por M.Q.O. baseadas em todos os n pontos
(observaes) e as estimativas
(i)
obtidas aps a retirada do i-simo ponto. Esta
medida expressa por:

D
i
=
1)QMres (p
)

( ' )'

(
) ( ) (
+

i i
X X
( i = 1, 2, ..., n )

Pontos com grandes valores de D
i
tm considervel influncia nas estimativas
obtidas por M.Q.O. Os valores D
i
so comparados com a distribuio F
, p, n-p-1
.
Se D
i
F
, p, n-p-1
ento, retirar o ponto i deve deslocar para o limite de uma regio
de confiana de 50% de baseado nos dados completos. Isto uma grande
discordncia e indica que as estimativas obtidas por M.Q.O. so sensveis ao i-simo
ponto. Como F
0.5; n; n-p-1
1, usualmente consideramos pontos para os quais D
i
> 1
como sendo possivelmente influentes. Idealmente gostaramos que cada estimativa
(i)
permanecesse dentro dos limites de uma regio de confiana de 10 ou 20%.

A estatstica D
i
acima pode, ainda, ser reescrita como:

D
i
=
) 1 )( 1 (
2
ii
ii i
h p
h r
+
(i = 1, 2, .., n)

em que r
i
= resduo studentized, p + 1 = nmero de parmetros estimados e h
ii
o
i-simo elemento da diagonal da matriz H.

Uma outra verso alternativa da distncia de Cook dada por:

D
i
=
QMres p
y y y y
i i
) 1 (
) ( )' (
+

(i = 1, 2, ..., n)

de modo que D
i
pode ser interpretada como o quadrado da distncia euclidiana (a
menos de (p+1)QMres) que o vetor de valores ajustados desloca-se quando a i-sima
observao retirada.

23

Belsley, Kuh e Welsch (1980) sugeriram, ainda, uma estatstica que indica o
quanto o coeficiente de regresso
j
muda, em unidades de desvio-padro, se a i-
sima observao for removida. Esta estatstica dada para cada j (j = 0, 1, ..., p)
por:

DFBETAS
j,i
=
$ $
( )
( )
,

j j i
i
j j
S C
+ +
2
1 1
i = 1, 2, .., n

em que C
j+1, j+1
o (j +1)-simo elemento da diagonal da matriz C = (XX)
-1
.

Um grande valor de DFBETAS
j,i
indica que a observao i tem considervel
influncia no j-simo coeficiente de regresso. O ponto de corte
2
n
, em geral,
usado para comparar os DFBETAS
j,i
, isto , se | DFBETAS
j,i
| >
2
n
, ento a
i-sima observao merece ateno.

Obs: para amostras pequenas ou moderadas comum o uso de | DFBETAS
j,i
| > 1 e
para amostras grandes o uso de | DFBETAS
j,i
| >
2
n
.

6.3 Influncia nos valores ajustados

Podemos, tambm, investigar a influncia da i-sima observao nos valores
ajustados (preditos). Uma medida razovel :

DFFITS
i
=
$ $
( )
( )
y y
S h
i i
i
ii
2
( i = 1, 2, ..., n)

em que o valor predito de y $
( )
y
i
i
sem o uso da i-sima observao. O denominador
justo uma padronizao. Assim, DFFITS
i
o nmero de desvios padro que o
valor ajustado muda se a i-sima observao removida.
Geralmente pontos em que | DFFITS
i
| > 1 (para amostras pequenas ou
moderadas) e | DFFITS
i
| >
n
p ) 1 ( +
2 (para amostras grandes) merecem ateno.

6.5 Influncia na preciso da estimao

As medidas D
i
, DFBETAS
j,i
e DFFITS
i
fornecem uma viso do efeito de
cada observao nos coeficientes estimados e nos valores ajustados. Elas no
fornecem, contudo, qualquer informao sobre a preciso geral da estimao. Para
expressar o papel da i-sima observao na preciso da estimao podemos definir:

24

COVRATIO
i
=
| QMres ) ' ( |
| ) ' ( |
1
) (
2 1
) ( ) (
X X
X X i
i i
S
( i = 1, 2, ..., n )

Pontos de corte para COVRATIO
i
no so fceis de serem obtidos. Belsley,
Kuh e Welsh (1980) sugeriram o seguinte:
se COVRATIO
i
> 1 + 3(p+1)/n ou
se COVRATIO
i
< 1 3(p+1)/n
ento, o i-simo ponto deve ser considerado um possvel ponto influente. O limite
inferior somente apropriado quando n > 3(p+1). Estes pontos de corte so mais
apropriados para amostras grandes.

EXEMPLO: Um engarrafador de bebidas est analisando os servios de rotina
realizados no sistema de distribuio de mquinas acionadas por moedas. Ele est
interessado em predizer o tempo requerido para esses servios de rotina que incluem:
estocagem da mquina com bebidas e manutenes pequenas. O engenheiro
industrial responsvel sugeriu duas variveis como as que mais afetam o tempo
requerido por estes servios: quantidade de bebida estocada e a distncia percorrida
pelo profissional responsvel pelos servios.

Tabela 1: Dados observados
Tempo requerido
(em minutos)
Quantidade estocada
(em unidades)
Distncia percorrida
(em ps)
16.68 7 560
11.50 3 220
12.03 3 340
14.88 4 80
13.75 6 150
18.11 7 330
8.00 2 110
17.83 7 210
79.24 30 1460
21.50 5 605
40.33 16 688
21.00 10 215
13.50 4 255
19.75 6 462
24.00 9 448
29.00 10 776
15.35 6 200
19.00 7 132
9.50 3 36
35.10 17 770
17.90 10 140
52.32 26 810
18.75 9 450
19.83 8 635
10.75 4 150
Fonte: Montgomery and Peck (1992)

25

Para predizer o tempo requerido para os servios de rotina, utilizando como
regressoras a quantidade de bebida estocada e a distncia percorrida pelo profissional
responsvel pelos servios, temos diversos possveis modelos de regresso a serem
investigados e, dentre eles: a) regresso de Y em X
1
e X
2
, b) regresso de Y em X
1

e c) regresso de Y em X
2

Obtendo e observando, inicialmente, a matriz de correlao r
XX

r
XX =
1 8242 , 0
8242 , 0 1

e os fatores de inflao da varincia (VIF
j
)

VIF
1
= 1/[1-(0,8242)
2
] = 3,1185 < 5
VIF
2
= 1/[1-(0,8242)
2
] = 3,1185 < 5,

podemos observar que embora X
1
e X
2
sejam multicolineares, temos ambos os VIF
j

menores que 5, o que indica que os coeficientes da regresso no estaro to
pobremente estimados por causa dessa multicolinearidade.
Ajustando, ento, os 3 modelos mencionados acima obtivemos os resultados
apresentados a seguir.

Modelos
o
QMres R
2
R
a
2

Y em X
1
e X
2
2,341 1,615 0,014 10,6 0,9596 0,9559
Y em X
1
3,321 2,176 - 17,5 0,9305 0,9275
Y em X
2
4,961 - 0,042 51,5 0,7951 0,7862

Dos resultados apresentados acima, podemos observar, dentre os modelos
considerados, que os dois primeiros parecem ser bons candidatos ao melhor modelo.
Pelos testes t associados aos parmetros, h evidncias para a rejeio das hipteses
nulas Ho:
1
= 0 e Ho:
2
= 0. Logo, h evidncias de que ambas as regressoras X
1
e
X
2
so importantes na predio de Y. Caso no haja problemas relativos aos
pressupostos assumidos para este MRLM, teremos, de acordo com o coeficiente de
determinao que as regressoras X
1
e X
2
estariam, conjuntamente, explicando em
torno de 96% da variao total de Y.
Observe, ainda, que o modelo de Y em X
1
parece ser, tambm, um bom
candidato visto ser um modelo com uma quantidade pequena de parmetros e em
que, a regressora X
1
, sozinha, estaria explicando em torno de 93% da variao total
de Y.
Escolhendo, ento, o modelo de Y em X
1
e X
2
temos as estimativas dos
parmetros apresentadas a seguir.

Estimativas dos parmetros do modelo de Y em X
1
e X
2

j
e.p( ) t p-valor
j
Intercepto
X
1

X
2

2,341 1,096 2,135 0,044
1,615 0,170 9,464 3,25e-9
0,014 0,003 3,981 0,0006

26

Ainda, a Anova com a decomposio da SQreg, apresentada abaixo, mostra
que o modelo com somente X
1
reduz a SQtotal em 5382,4 unidades ao quadrado e
que, ao adicionarmos X
2
ao modelo contendo X
1
, h uma reduo na SQres de 168,4
unidades ao quadrado.

Quadro da anlise de varincia do MRLM de Y em X
1
e X
2

F.V. G.L. SQ QM F Pr(>F)
Regresso 2 5550,8 2775,4 261,2 4,687e-16
X1
X2
1
1
5382,4
168,4
5382,4
168,4
506,62
15,85
< 2,2e-16
0,0006312
Resduos 22 233,7 10,6
Total 24 5784,5

A anlise de resduos evidenciou, como pode ser observado nos grficos dos
resduos apresentados na figura abaixo, que a observao 9 causa alguns problemas
ao modelo ajustado,

Figura 1. Anlise grfica dos resduos do modelo de Y em X
1
e X
2

Pelo diagnstico de influncia, apresentado na Tabela 1, podemos observar:

1) os elementos h
ii
da diagonal da matriz H mostram que as observaes 9 e 22
so maiores do que 2(p+1)/n = 6/25 = 0,24 o que evidencia que tais pontos
devam ser investigados pois so potenciais pontos influentes;
2) o maior valor da distncia de Cook D
9
= 3,42, indicando que as estimativas
dos parmetros obtidas por M.Q.O. so sensveis a essa observao;
3) inspeo dos DFFits revela que as observaes 9 e 22 excedem o valor 1 (ponto
de corte para pequenas amostras);

27

4) inspeo dos DFBetas mostram, considerando o valor 1 como ponto de corte,
que as observaes 9 e 22 apresentam grande efeito em pelo menos uma das
trs estimativas dos parmetros;
5) os pontos de corte para Covratio, nesse estudo, so 0,64 e 1,36. Assim, as
observaes 9 e 22 e, tambm, a observao 16, apresentam-se como possveis
pontos influentes.

Tabela 1 - Estatsticas para deteco de pontos influentes
dfb.1. dfb.X1 dfb.X2 dffit cov.r cook.d hat
1 -0.18727 0.41131 -0.43486 -0.5709 0.871 1.00e-01 0.1018
2 0.08979 -0.04776 0.01441 0.0986 1.215 3.38e-03 0.0707
3 -0.00352 0.00395 -0.00285 -0.0052 1.276 9.46e-06 0.0987
4 0.45196 0.08828 -0.27337 0.5008 0.876 7.76e-02 0.0854
5 -0.03167 -0.01330 0.02424 -0.0395 1.240 5.43e-04 0.0750
6 -0.01468 0.00179 0.00108 -0.0188 1.200 1.23e-04 0.0429
7 0.07807 -0.02228 -0.01102 0.0790 1.240 2.17e-03 0.0818
8 0.07120 0.03338 -0.05382 0.0938 1.206 3.05e-03 0.0637
9 -2.57574 0.92874 1.50755 4.2961 0.342 3.42e+00 0.4983 *
10 0.10792 -0.33816 0.34133 0.3987 1.305 5.38e-02 0.1963
11 -0.03427 0.09253 -0.00269 0.2180 1.172 1.62e-02 0.0861
12 -0.03027 -0.04867 0.05397 -0.0677 1.291 1.60e-03 0.1137
13 0.07237 -0.03562 0.01134 0.0813 1.207 2.29e-03 0.0611
14 0.04952 -0.06709 0.06182 0.0974 1.228 3.29e-03 0.0782
15 0.02228 -0.00479 0.00684 0.0426 1.192 6.32e-04 0.0411
16 -0.00269 0.06442 -0.08419 -0.0972 1.369 3.29e-03 0.1659
17 0.02886 0.00649 -0.01570 0.0339 1.219 4.01e-04 0.0594
18 0.24856 0.18973 -0.27243 0.3653 1.069 4.40e-02 0.0963
19 0.17256 0.02357 -0.09897 0.1862 1.215 1.19e-02 0.0964
20 0.16804 -0.21500 -0.09292 -0.6718 0.760 1.32e-01 0.1017
21 -0.16193 -0.29718 0.33641 -0.3885 1.238 5.09e-02 0.1653
22 0.39857 -1.02541 0.57314 -1.1950 1.398 4.51e-01 0.3916 *
23 -0.15985 0.03729 -0.05265 -0.3075 0.890 2.99e-02 0.0413
24 -0.11972 0.40462 -0.46545 -0.5711 0.948 1.02e-01 0.1206
25 -0.01682 0.00085 0.00559 -0.0176 1.231 1.08e-04 0.0666

Claramente, as observaes 9 e 22 so as que merecem maior ateno em
nossa anlise. Para investigar o efeito dessas observaes no modelo de Y em X
1
e
X
2
, observe os resultados apresentados a seguir.

Modelo
o
QMres R
2
com obs. 9 e 22 2,341 1,616 0,014 10,62 0,9596
sem obs. 9 4,447 1,498 0,010 5,90 0,9487
sem obs. 22 1,916 1,786 0,012 10,06 0,9564
sem obs. 9 e 22 4,643 1,456 0,011 6,16 0,9072

Retirar a observao 9 produz mudanas de 90% em
0
, 7,3% em
1
e 28%
em
2
e, portanto, temos que esta observao exerce razovel influncia nos
coeficientes. Por outro lado, a retirada da observao 22 produz mudanas
relativamente menores nos coeficientes da regresso e a retirada de ambas produz
mudanas similares quelas observadas quando da retirada somente da observao 9.
Conclumos, assim, que as observaes 9 e 22, mais fortemente a 9, influenciam no
ajuste do modelo por M.Q.O.

Investigaes subsequentes, realizadas junto ao pesquisador, podem revelar
razes para a retirada de uma ou ambas as observaes da anlise. Nesse caso, as
anlises devem ser refeitas.

28

Grficos dos resduos do modelo Y em X
1
e X
2
sem a observao 9 so
apresentados a seguir. Note que h uma melhora considervel dos mesmos no
sentido de que os pressupostos encontram-se melhores atendidos sem a referida
observao.

Figura 2. Grficos dos resduos do modelo Y em X
1
e X
2
sem a observao 9.

Relembre que o modelo somente com a regressora X
1
mostrou ser, tambm,
um bom candidato, R
2
= 0,9305, para a anlise desses dados. Seria, portanto,
interessante comparar os resduos desse modelo com os do modelo que utiliza Y em
X
1
e X
2
, ambos sem a observao 9. Esses grficos encontram-se apresentados a
seguir e mostram resultados muito similares aos obtidos anteriormente.

Figura 3. Grficos dos resduos do modelo Y em X
1
sem a observao 9.

Com a discusso dos resultados obtidos, pode-se, ento, juntamente com o
pesquisador, proceder a escolha por um dos modelos, dentre os analisados, que
apresentarem-se razoveis para a predio da varivel resposta Y.

29

Considerando que o modelo escolhido foi aquele com as regressoras X
1
e X
2

e sem a observao 9 temos:

o modelo ajustado: E(Y | X
1
, X
2
) = Y
= 4,447 + 1,498 X
1
+ 0,010 X
2

a representao grfica dos valores observados Y
i
e do plano ajustado

Figura 4. Valores observados e plano ajustado

Figura 5. Plano ajustado

pelos parmetros estimados podemos dizer que quando X
1
(quantidade de bebida
estocada) mantida constante, teremos um acrscimo de 0,010 minutos no tempo
mdio para a realizao dos servios de rotina a cada acrscimo de 1 unidade na
distncia (X
2
). De forma anloga, teremos um acrscimo de 1,498 minutos no
tempo mdio para a realizao dos servios de rotina a cada acrscimo de 1
unidade em X
1
(quantidade de bebida estocada).
Intervalos de confiana para a resposta mdia em que, por exemplo, x
1
= 8 e x
2
= 275
resulta em Y
= 19,22 minutos e I.C.(Y
)
95%
= (17,65; 20.79) minutos.

30 Giolo, Suely Ruiz Anlise de Regresso

7. Mtodos para tratar com a multicolinearidade

7.1 Coleta adicional de dados

Em alguns casos, coletar dados adicionais para combinaes de X
i
e X
j
em que
se tenha poucos dados observados pode ajudar a solucionar, ou amenizar, o problema
da multicolinearidade.
Infelizmente, a coleta de dados adicionais nem sempre possvel devido aos
custos ou mesmo a impossibilidade devido ao processo sendo estudado. Alm disso, o
problema pode ser devido a caractersticas estruturais da populao e, portanto, coletar
novos dados nesses casos tem pouco valor. Para X
1
= renda familiar e X
2
= tamanho da
residncia, altamente provvel no encontrarmos algumas combinaes dessas 2
variveis, como, por exemplo, a combinao renda alta e residncia muito pequena.

7.2 Reespecificao do modelo

Em situaes tais como quando 2 regressoras altamente correlacionadas so
usadas no modelo, podemos fazer alguma reespecificao como redefinir as
variveis. Por exemplo, se X
1
, X
2
e X
3
so quase linearmente dependentes, pode ser
possvel encontrar uma funo dessas variveis tal como:

X = (X
1
+ X
2
) / X
3
ou X = X
1
*X
2
*X
3

ou outras, que preserve a informao contida nas regressoras originais mas reduzem o
problema da multicolinearidade (mal condicionamento da matriz X).
Outra reespecificao amplamente usada a eliminao de variveis. Por
exemplo, se X
1
, X
2
e X
3
so quase linearmente dependentes, eliminar X
3
(ou outra)
pode ser til. A tcnica de eliminao altamente efetiva, porm pode prejudicar o
poder preditivo do modelo.

7.3 Regresso Ridge

O mtodo de M.Q.O. usado para a estimao dos coeficientes da regresso
linear requer que seja um estimador no-viciado de . Porm, se os dados no so
ortogonais, estimativas muito pobres so obtidas.
Uma alternativa , ento, retirar a exigncia de que seja no-viciado e

encontrar um estimador * com um pequeno vcio mas que tenha menor varincia do
que .

Obs: veja Montgomery e Peck (1992) para maiores detalhes.


8.- Seleo de variveis e construo do modelo

8.1 Problemas na construo do modelo

Em muitos problemas prticos o analista tem uma grande quantidade de
regressoras candidatas que ele acredita estarem influenciando na resposta.
Precisamos, ento, encontrar um subconjunto apropriado dessas regressoras para o
modelo e temos, portanto, o chamado problema de seleo de variveis o qual
envolve dois objetivos conflitantes:
1
O
) gostaramos que o modelo inclusse tantas quantas regressoras possveis de modo
que a informao contida nessas regressoras possam auxiliar no valor predito de y e,
2
o
) precisamos que o modelo inclua to poucas regressoras quanto possvel (modelo
parcimonioso) porque a varincia da predio cresce quando o nmero de regressoras
cresce. Alm disso, quanto mais regressoras existirem no modelo, maior ser o custo
para coleta e manuteno do modelo.
O processo de encontrar um modelo que amarre esses dois objetivos
chamado seleo da melhor equao de regresso. Infelizmente, no existe uma nica
definio de melhor.
Diversos algortmos podem ser usados para selecionar as variveis e esses
procedimentos frequentemente especificam diferentes subconjuntos de variveis
regressoras como as melhores. Nenhum dos procedimentos que veremos fornecem
garantias de produzir a melhor equao de regresso, mas sim uma das possveis
melhores equaes. Os procedimentos devem, portanto, ser vistos pelo analista como
um mtodo para explorar a estrutura dos dados.

8.2 Critrios para avaliao dos modelos

No problema de seleo de variveis, dois aspectos so importantes: i) encontrar
um subconjunto de variveis dentre o conjunto delas e ii) decidir se o subconjunto
escolhido melhor do que um outro. Para essa finalidade, utilizaremos os seguintes
critrios:

Coeficiente de determinao mltiplo: R
2

Para cada subconjunto de p variveis regressoras temos um valor para o
coeficiente de determinao mltiplo, o qual denotaremos por R
2
p
. O valor de R
2
p

cresce quando p (p = n
o
. de regressoras) cresce e mximo quando todas as p variveis
regressoras so usadas. Assim, o analista pode usar o critrio de adicionar regressoras
at o ponto em que a adio de uma varivel no mais til pois fornece um acrscimo
muito pequeno em R
2
p
.

Coeficiente de determinao mltiplo ajustado R
2
a
ou QMres

Devido a algumas dificuldades em interpretar o coeficiente R
2
, alguns analistas
preferem usar o coeficiente de determinao mltiplo ajustado. O critrio escolher um
subconjunto de variveis regressoras que tenha o mximo R
2
a
. Note que esse critrio,
equivalente a encontrar um subconjunto de variveis regressoras que minimize o
QMres, ou seja, o subconjunto que maximiza R
2
a
, minimizar o QMres.


Estatstica C
p
de Mallows

Mallows props um critrio o qual baseia-se na SQres. De acordo com esse
critrio, devemos calcular, para cada subconjunto de p variveis regressoras, a
correspondente SQres(p) e, ento, obter:

C
p
= SQres(p) - n + 2(p+1)

2

em que
2
estimado pelo QMres do modelo com as p variveis regressoras candidatas
e (p +1) = no. de parmetros em cada modelo.

Para o modelo completo temos Cp = p+1. Geralmente, pequenos valores de Cp
so desejveis. Regresses com Cp prximos da linha Cp = p+1 e abaixo dela so
candidatas ao melhor modelo.

8.3 - Tcnicas computacionais para seleo de variveis

8.3.1 - Todas as regresses possveis

Este procedimento requer que o analista ajuste todas as equaes de regresso
envolvendo uma regressora candidata, duas regressoras candidatas e assim
sucessivamente. As equaes so, ento, avaliadas de acordo com os critrios vistos (ou
uma ponderao deles), e o melhor modelo selecionado. claro que o nmero de
equaes cresce rapidamente quando o nmero de regressoras candidatas tambm
cresce. Se p =10, por exemplo, ento teremos 1024 regresses possveis.

8.3.2. Pesquisa direta dos ts

A estatstica de teste para testar Ho:
j
= 0 para o modelo completo com p+1
parmetros t
j
=
j
/ d.p.(
j
). Regressoras que contribuem significativamente para o
modelo tero | t
j
| grandes e tendero a serem includas no subconjunto das melhores
regressoras. Assim, ordenar as regressoras de acordo com a ordem decrescente de
magnitude dos | t
j
| (j = 1, 2, ... p) e, ento, inclu-las uma a uma no modelo, deve nos
levar ao melhor modelo (ou a um dos melhores).
Esta estratgia de seleo frequentemente muito efetiva quando o nmero de
variveis regressoras relativamente grande (p > 20 ou 30).

8.3.3. Mtodos Stepwise

Devido ao procedimento que avalia todas as regresses possveis ser, em
algumas situaes, muito rduo, vrios outros mtodos tm sido desenvolvidos para
avaliao somente de um pequeno nmero de modelos de regresso, seja pela adio ou
retirada de regressoras em cada tempo. Esses mtodos so referidos como
procedimentos do tipo stepwise e podem ser classificados em 3 categorias:


1
a
.) seleo forward (passo a frente);
2
a
.) eliminao backward (passo atrs) e
3
a
.) seleo stepwise (passo a passo).

Seleo Forward (passo a frente)

Esse procedimento comea com nenhuma varivel no modelo e vai inserindo
regressoras, uma de cada vez, no modelo at que o melhor (ou um dos melhores)
modelo seja obtido.
A 1
a
. regressora a entrar no modelo aquela que tem a maior correlao simples
com a varivel resposta Y, isto , o maior r
YXj
(j = 1, 2, ..., p). A 2
a
. regressora a entrar
, agora, aquela com maior correlao com Y, dado que j existe uma regressora no
modelo. Em outras palavras, a 2
a
. regressora escolhida aquela com maior correlao
parcial (maior r
Yj.i
para

j i e i = ndice da varivel escolhida no passo 1 ou,
equivalentemente, maior estatstica F parcial

F* =

SQ
R
( Xj | Xi) / QMres ( Xi, Xj).

O procedimento pra quando a estatstica F-parcial, em um particular passo, no
exceder F
IN
ou quando a ltima regressora candidata adicionada ao modelo.
Obs: F
IN
= F
(; 1; n-p-1)
a um nvel de significncia pr-selecionado.

Eliminao Backward (passo atrs)

A eliminao Backward comea com o modelo o qual contm todas as k
regressoras candidatas e vai retirando, uma a uma, as que no forem significativas. A
escolha para a retirada da 1
a
. regressora o seguinte:

i) para cada regressora calculado a estatstica F-parcial como se ela fosse a ltima
regressora a entrar no modelo;
ii) a menor dessas estatsticas F* comparada com F
out
(ou F to remove). Se a menor
F* for menor que F
out
, ento aquela regressora removida.

Agora, o modelo com p-1 regressoras ajustado e novas estatsticas F* so
calculadas para este novo modelo e o procedimento repetido.
Obs: F
out
= F
(, 1, n-p-1)
a um nvel de significncia pr-selecionado.

Seleo Stepwise (passo a passo)

A seleo Stepwise uma modificao da seleo Forward em que, em cada
passo, todas as regressoras que entraram no modelo so reacessadas via sua estatstica F
parcial. Uma regressora adicionada em um passo anterior pode agora ser redundante. Se
a estatstica F parcial para uma varivel for menor que F
out
, ento aquela varivel
retirada do modelo.
A seleo Stepwise requer dois valores de corte: F
in
e F
out
. Alguns analistas
preferem escolher F
in
= F
out
, mas isto no necessrio. Freqentemente escolhemos
F
in
> F
out
, de modo a termos, relativamente, mais dificuldades para adicionarmos do
que para retirarmos uma regressora.


Comentrios:

Os procedimentos vistos (seleo forward, eliminao backward e seleo
stepwise) no necessariamente levam a escolha do mesmo modelo final;
Recomenda-se que todos os procedimentos sejam aplicados na esperana de que
haja alguma concordncia entre eles ou mesmo para aprender algo mais sobre a
estrutura dos dados;
O procedimento de seleo forward tende a concordar com o de todas as
regresses possveis para subconjuntos pequenos de regressoras, enquanto o
procedimento de eliminao backward para subconjuntos grandes de regressoras.
O modelo final obtido por qualquer um dos procedimentos deve ser analisado
quanto ao seu sentido prtico. Analistas inexperientes podem concluir por um
modelo no realstico. Sugere-se, portanto, que o analista responda as seguintes
questes:

1
a
) o modelo obtido razovel? Isto , as regressoras no modelo fazem sentido luz do
problema real?
2
a
) o modelo utilizvel para seu propsito pretendido? (custos para coleta dos dados,
regressora no observvel na prtica, ....).
3
a
) So os coeficientes de regresso razoveis? Isto , os sinais e magnitude dos
coeficientes so realsticos e seus erros-padro relativamente pequenos?
4
a
) So os usuais diagnsticos de adequacidade do modelo satisfatrios? (anlise de
resduos, diagnstico de influncia, ...).

9. Extrapolaes

Novamente, devemos tomar muito cuidado quanto a extrapolaes. Em
regresso linear mltipla no podemos olhar meramente para a variao de cada
varivel independente, mas sim para a regio conjunta definida por elas. Observe o
exemplo abaixo:

X
2

X
1

Figura 5 Regio conjunta de X1 e X2
regio coberta por
X
1
e X
2

conjuntamente

Para detectar se um novo ponto x = (1, x
i1
, x
i2
, ..., x
i,p
) cai dentro da regio
usaremos o seguinte procedimento baseado nos elementos da diagonal da matriz H, ou
seja, nos elementos h
ii
.
Considere h
mx
= maior valor de h
ii
. O conjunto de pontos x que satisfazem:

x( XX)
-1
x h
mx


esto inclusos no elipside (regio conjunta definida pelas regressoras). Ento, se
estamos interessados na estimao no ponto x
o
= [ 1 x
o1
x
o2
.... x
op
], a localizao
deste ponto relativa ao elipside obtida por:

h
oo
= x
o
( XX)
-1
x
o

se h
oo
> h
mx
, ento x
o
est fora do elipside e
se h
oo
h
mx
, ento x
o
est dentro ou nos limites do elipside.

Exemplo: Para os dados da Tabela 2 temos 4 regressoras e, portanto, 2
4
=16
possveis equaes de regresso (considerando todas com o intercepto e sem a presena
de interaes).

Tabela 2: Dados observados em um estudo
Observao i Y
i
X
i1
X
i2
X
i3
X
i4
1 78,5 7 26 6 60
2 74,3 1 29 15 52
3 104,3 11 56 8 20
4 87,6 11 31 8 47
5 95,9 7 52 6 33
6 109,2 11 55 9 22
7 102,7 3 71 17 6
8 72,5 1 31 22 44
9 93,1 2 54 18 22
10 115,9 21 47 4 26
11 83,8 1 40 23 34
12 113,3 11 66 9 12
13 109,4 10 68 8 12
Fonte: Montgomery e Peck, 1992.

Os resultados das SQres(p), R
2
p
, R
2
a,
QMres(p) e C(p), das 16 regresses
mencionadas, encontram-se apresentados na Tabela 3.

Tabela 3. Resumo de todas as regresses possveis com o intercepto e sem interaes.
no. de
regressoras
no. de
parmetros
regressoras
no modelo

SQres

R
2
p

R
2
a

QMres

C
p
Nenhuma 1 Nenhuma 2715,76 0 0 226,31 442,92
1 2 X
1
1265,68 0,5339 0,4915 115,06 202,55
1 2 X
2
906,33 0,6662 0,6359 82,39 142,49
1 2 X
3
1939,40 0,2858 0,2209 176,31 315,16
1 2 X
4
883,86 0,6745 0,6449 80,35 138,73
2 3 X
1
X
2
57,90 0,9786 0,9744 5,79 2,68
2 3 X
1
X
3
1227,07 0,5481 0,4578 122,70 198,10
2 3 X
1
X
4
74,76 0,9724 0,9669 7,47 5,50
2 3 X
2
X
3
415,44 0,8470 0,8164 41,54 62,44
2 3 X
2
X
4
868,88 0,6800 0,6160 86,88 138,23
2 3 X
3
X
4
175,73 0,9352 0,9223 17,57 22,37
3 4 X
1
X
2
X
3
48,11 0,9822 0,9763 5,34 3,04
3 4 X
1
X
2
X
4
47,97 0,9823 0,9764 5,33 3,02
3 4 X
1
X
3
X
4
50,83 0,9812 0,9750 5,64 3,50
3 4 X
2
X
3
X
4
73,81 0,9728 0,9637 8,20 7,34
4 5 X
1
X
2
X
3
X
4
47,86 0,9823 0,9735 5,98 5,00


Nas Tabelas 4 e 5 temos, ainda, a matriz de correlaes simples e os
coeficientes das regresses estimados por MQO. para cada uma das 16 regresses
consideradas, respectivamente.

Tabela 4. matriz de correlaes simples
X
1
X
2
X
3
X
4
X
1
1,0
X
2
0,229 1,0
X
3
-0,824 -0,139 1,0
X
4
-0,245 -0,973 0,030 1,0
Y 0,731 0,816 -0,535 -0,821

Tabela 5: Estimativas por MQO para as 16 regresses consideradas
regressoras
no modelo
o

X
1
81,479 1,869
X
2
57,424 0,789
X
3
110,203 -1,256
X
4
117,568 -0,738
X
1
X
2
52,577 1,468 0,662
X
1
X
3
72,349 2,312 0,494
X
1
X
4
103,097 1,440 -0,614
X
2
X
3
72,075 0,731 -1,008
X
2
X
4
94,160 0,331 -0,457
X
3
X
4
131,282 -1,200 -0,724
X
1
X
2
X
3
48,194 1,696 0,657 0,250
X
1
X
2
X
4
71,648 1,452 0,416 -0,237
X
1
X
3
X
4
111,684 1,052 -0,410 -0,643
X
2
X
3
X
4
203,642 -0,923 -1,448 -1,557
X
1
X
2
X
3
X
4
62,405 1,551 0,102 -0,144

Observe pela Tabela 5 que ao considerarmos somente a regressora X
2
no
modelo, a estimativa de seu efeito na resposta mdia de 0,789. Se, contudo, X
4

adicionada a esse modelo, esse efeito reduzido para 0,311 e, ainda, se X
3

adicionada ao modelo (permanecendo X
2
e X
4
), o efeito de X
2
muda para 0,923. Est
claro, portanto, que a estimativa obtida por M.Q.O. de um coeficiente individual
depende muito de quais outras regressoras esto no modelo. As grandes mudanas
observadas nos coeficientes de regresso quando regressoras so adicionadas, ou
removidas, indicam a existncia de substancial correlao entre as regressoras o que
pode ser notado na matriz de correlaes simples apresentada na Tabela 4. Est
presente, portanto, o problema da colinearidade (ou multicolinearidade).

Note, pela matriz de correlaes simples, que os pares (X
1
, X
3
) e (X
2
, X
4
) so
altamente correlacionados visto que tais correlaes correspondem a valores prximos
de 1. Esta estrutura de correlao parcialmente responsvel pelas grandes mudanas
observadas nos coeficientes estimados. Conseqentemente, adicionar outras regressoras
quando X
1
e X
2
ou X
1
e X
4
j esto no modelo, ser de pouca utilidade visto que a
informao contida nestas demais regressoras est essencialmente presente em X
1
e X
2

ou X
1
e X
4
.
Avaliando os modelos pelo R
2
p
observamos, pelos resultados apresentados na
Tabela 3, que aps duas regressoras estarem no modelo, pouco se ganha em termos de
R
2
com a introduo de novas variveis. Ambos os modelos com 2 regressoras, modelo
com X
1
e X
2
e o modelo com X
1
e X
4
, possuem essencialmente o mesmo R
2
e em
termos deste critrio faria pouca diferena na escolha de um ou outro.


Utilizando o critrio de maximizar R
2
a
ou, equivalentemente, o critrio de
minimizar o QMres podemos observar, tambm pela Tabela 5, que o modelo com
menor QMres o que contm as regressoras X
1
, X
2
e X
4
(QMres = 5,33). Observe que,
como esperado, o modelo que minimiza o QMres o que maximiza R
2
a
. Podemos,
ainda, observar, desta mesma tabela, que dois outros modelos com 3 regressoras
(modelo com X
1
, X
2
e X
3
e o modelo com X
1
, X
3
e X
4
) e dois outros modelos com 2
regressoras (modelo com X
1
e X
2
e o modelo com X
1
e X
4
) tm valores para o QMres
comparveis. Se X
1
e X
2
ou X
1
e X
4
esto no modelo, existe pequena reduo no
QMres se outras regressoras forem adicionadas. Por este critrio, e entre os dois
ltimos modelos mencionados, o modelo com X
1
e X
2
pode ser mais apropriado por ter
menor QMres.
Pelo critrio de Mallows, observamos quatro modelos considerados aceitveis
(modelos com C
p
menores que p+1 = 5). Se levarmos outros fatores em considerao
(como por exemplo: custos, dificuldades na obteno das medidas etc.) parece ser mais
apropriado a escolha do modelo com X
1
e X
2
por possuir o menor C
p
.

Nos Quadros 1, 2 e 3 podemos observar os resultados dos mtodos de seleo
forward, backward e stepwise, respetivamente. Desses resultados, temos:

i) modelo resultante da seleo forward: Y em X
4
, X
1
e X
2

ii) modelo resultante da seleo backward: Y em X
1
e X
2

iii) modelo resultante da seleo stepwise: Y em X
1
e X
2

Quadro 1. Resultados da seleo forward (passo a frente) obtidos no software R

Start: AIC= 443.14
Y ~ 1
Df Sum of Sq RSS Cp F value Pr(F)
+ X4 1 1831.90 883.87 138.8038 22.7985 0.0005762 ***
+ X2 1 1809.43 906.34 142.5613 21.9606 0.0006648 ***
+ X1 1 1450.08 1265.69 202.6533 12.6025 0.0045520 **
+ X3 1 776.36 1939.40 315.3145 4.4034 0.0597623 .
<none> 2715.76 443.1410

Step: AIC= 138.8
Y ~ X4
+ X1 1 809.10 74.76 5.5020 108.2239 1.105e-06 ***
+ X3 1 708.13 175.74 22.3876 40.2946 8.375e-05 ***
+ X2 1 14.99 868.88 138.2977 0.1725 0.6867
<none> 883.87 138.8038

Step: AIC= 5.5
Y ~ X4 + X1
+ X2 1 26.789 47.973 3.0222 5.0259 0.05169 .
+ X3 1 23.926 50.836 3.5010 4.2358 0.06969 .
<none> 74.762 5.5020

Step: AIC= 3.02
Y ~ X4 + X1 + X2
<none> 47.973 3.0222
+ X3 1 0.109 47.864 5.0040 0.0182 0.896

Call:
lm(formula = Y ~ X4 + X1 + X2)

Coefficients:
(Intercept) X4 X1 X2
71.6483 -0.2365 1.4519 0.4161

Quadro 2. Resultados da seleo backward (passo atrs) obtidos no software R
Start: AIC= 5
Y ~ X1 + X2 + X3 + X4
- X3 1 0.109 47.973 3.0222 0.0182 0.89592
- X4 1 0.247 48.111 3.0453 0.0413 0.84407
- X2 1 2.972 50.836 3.5010 0.4968 0.50090
<none> 47.864 5.0040
- X1 1 25.951 73.815 7.3436 4.3375 0.07082 .

Step: AIC= 3.02
Y ~ X1 + X2 + X4
- X4 1 9.93 57.90 2.6830 1.8633 0.20540
<none> 47.97 3.0222
- X2 1 26.79 74.76 5.5020 5.0259 0.05169 .
- X1 1 820.91 868.88 138.2977 154.0076 5.781e-07 ***

Step: AIC= 2.68
Y ~ X1 + X2
<none> 57.90 2.683
- X1 1 848.43 906.34 142.561 146.523 2.692e-07 ***
- X2 1 1207.78 1265.69 202.653 208.582 5.029e-08 ***

Call:
lm(formula = Y ~ X1 + X2, data = exe5)
Coefficients:
(Intercept) X1 X2
52.5773 1.4683 0.6623

Quadro 3. Resultados da seleo stepwise (passo a passo) obtidos no software R
Start: AIC= 443.14
Y ~ 1
+ X4 1 1831.90 883.87 138.8038 22.7985 0.0005762 ***
+ X2 1 1809.43 906.34 142.5613 21.9606 0.0006648 ***
+ X1 1 1450.08 1265.69 202.6533 12.6025 0.0045520 **
+ X3 1 776.36 1939.40 315.3145 4.4034 0.0597623 .
<none> 2715.76 443.1410

Step: AIC= 138.8
Y ~ X4
+ X1 1 809.10 74.76 5.5020 108.2239 1.105e-06 ***
+ X3 1 708.13 175.74 22.3876 40.2946 8.375e-05 ***
+ X2 1 14.99 868.88 138.2977 0.1725 0.6866842
<none> 883.87 138.8038
- X4 1 1831.90 2715.76 443.1410 22.7985 0.0005762 ***

Step: AIC= 5.5
Y ~ X4 + X1
+ X2 1 26.79 47.97 3.0222 5.0259 0.05169 .
+ X3 1 23.93 50.84 3.5010 4.2358 0.06969 .
<none> 74.76 5.5020
- X1 1 809.10 883.87 138.8038 108.2239 1.105e-06 ***
- X4 1 1190.92 1265.69 202.6533 159.2952 1.815e-07 ***

Step: AIC= 3.02
Y ~ X4 + X1 + X2
- X4 1 9.93 57.90 2.6830 1.8633 0.20540
<none> 47.97 3.0222
+ X3 1 0.11 47.86 5.0040 0.0182 0.89592
- X2 1 26.79 74.76 5.5020 5.0259 0.05169 .
- X1 1 820.91 868.88 138.2977 154.0076 5.781e-07 ***

Step: AIC= 2.68
Y ~ X1 + X2
<none> 57.90 2.6830
+ X4 1 9.93 47.97 3.0222 1.8633 0.2054
+ X3 1 9.79 48.11 3.0453 1.8321 0.2089
- X1 1 848.43 906.34 142.5613 146.5227 2.692e-07 ***
- X2 1 1207.78 1265.69 202.6533 208.5818 5.029e-08 ***

Call:
lm(formula = Y ~ X1 + X2)
Coefficients:
(Intercept) X1 X2
52.5773 1.4683 0.6623


Observe que no existe uma escolha clara da melhor equao de regresso.
muito freqente critrios diferentes sugerirem equaes diferentes. Todo modelo
candidato a modelo final deve, contudo, ser analisado quanto a sua adequacidade,
pontos influentes, efeito de multicolinearidade etc.
Utilizando uma ponderao dos resultados obtidos quando da utilizao dos
critrios e mtodos de seleo, parece razovel indicarmos dois modelos como
candidatos ao melhor modelo. So eles, o modelo Y em X
1
e X
2
seguido do modelo
Y em X
1
e X
4
. Esses modelos devem, portanto, ser investigados quanto a sua
adequacidade (anlise de resduos, pontos influentes, necessidade de interao etc.).

10. Validao dos Modelos de Regresso

Para todo modelo ajustado deve ser verificado, de alguma maneira, sua
validade. O objetivo da validao de um modelo o de verificar se ele funcionar na
prtica fornencendo, assim, uma proteo tanto para o modelo ajustado quanto para o
usurio.

10.1 - Tcnicas de Validao

Trs procedimentos so teis para verificar a validade de um modelo:

Anlise dos coeficientes do modelo e dos valores preditos por meio de:
- comparaes com experimentos anteriores, quando existirem;
- resultados de simulao.
Coleta de novos dados para verificar o desempenho preditivo do modelo.
Partio (split) dos dados que consiste em deixar parte dos dados originais fora da
anlise para investigar o desempenho preditivo do modelo com a parte no utilizada
no ajuste.

As tcnicas de validao mencionada assumem que o modelo tenha sido
ajustado de dados provenientes de experimentos no planejados. Devem, contudo, ser
aplicadas s situaes em que experimentos planejados tenham sido conduzidos. O
planejamento ajuda a minimizar problemas quanto a:

fatores importantes no serem deixados de lado;
identificao apropriada da variao (range) dos fatores.

comum em experimentos planejados, a incluso de um conjunto de pontos
extras para verificao do desempenho preditivo do modelo ajustado.


11. Regresso com varivel dummy

11.1 Varivel dummy ou varivel fictcia

As variveis usadas em anlise de regresso so usualmente quantitativas, isto
, possuem uma escala de medida bem definida (por exemplo: temperatura, presso
arterial, renda etc.). Ocasionalmente necessrio o uso de variveis independentes
qualitativas ou categricas como por exemplo: operadores, estao do ano, turno
do trabalho, sexo etc.
Variveis qualitativas como as citadas podem ser usadas em modelos de
regresso. Em geral, uma varivel qualitativa no possui uma escala de medida natural,
mas podemos designar um conjunto de nveis para esta varivel a fim de quantificar
seu possvel efeito na resposta. Isso feito por meio do uso de variveis indicadoras
ou, assim, tambm denominadas variveis dummy ou fictcias.
Existem muitas maneiras de identificar quantitativamente as classes de uma
varivel qualitativa. Usaremos variveis indicadoras que tomam os valores 0 e 1. Esse
tipo de varivel indicadora fcil de usar e amplamente empregada, mas no representa
o nico modo de quantificar uma varivel qualitativa.
Como um exemplo, considere um experimento em que temos Y = varivel
resposta contnua, X
1
= varivel independente contnua e X
2
= varivel independente
qualitativa com dois nveis: nvel 1 e nvel 2. Deveramos, ento, definir duas variveis
indicadoras, digamos:

X
21
= 1 se nvel 1 e X
22
= 1 se nvel 2
0 caso contrrio 0 caso contrrio

para representar cada classe da varivel X
2
.
Essa abordagem intuitiva de criar uma varivel indicadora para cada classe da
varivel qualitativa leva infelizmente a dificuldades computacionais. Observe que na
situao acima descrita, e considerando n = 4, teramos:

X = 1 X
11
1 0
1 X
21
1 0
1 X
31
0 1
1 X
41
0 1

Note que a 1
a
coluna igual a soma da 3
a
e 4
a
colunas e, sendo assim, as
colunas so linearmente dependentes. Em conseqncia a matriz XX no ter inversa
e, desse modo, no ser possvel obter estimadores nicos dos coeficientes da
regresso.
Uma maneira simples de contornar esta dificuldade retirar uma das variveis
indicadoras, por exemplo X
22
. A retirada de uma das variveis indicadoras no somente
resolve o problema citado, mas leva tambm a interpretaes simples dos parmetros.
Em geral, seguiremos o seguinte princpio:

Uma varivel qualitativa com K classes ser representada por
K-1 variveis indicadoras, cada qual tomando os valores 0 e 1.


Exemplo: Suponha que um engenheiro mecnico tem por interesse relacionar a vida
efetiva de uma ferramenta de corte usada em um torno mecnico com a velocidade do
torno em rpm (rotaes por minuto) e com o tipo de ferramenta de corte utilizada (tipo
A ou B). Os dados coletados esto apresentados na tabela a seguir:

vida efetiva
(horas)
velocidade
(rpm)
tipo
ferramenta
vida efetiva
(horas)
velocidade
(rpm)
tipo
ferramenta
18.73 610 A 30.16 670 B
14.52 950 A 27.09 770 B
17.43 720 A 25.40 880 B
14.54 840 A 26.05 1000 B
13.44 980 A 33.49 760 B
24.39 530 A 35.62 590 B
13.34 680 A 26.07 910 B
22.71 540 A 36.78 650 B
12.68 890 A 34.95 810 B
19.32 730 A 43.67 500 B
Fonte: Montgomery e Peck (1992)

A varivel tipo de ferramenta qualitativa e possui 2 nveis (tipo A e tipo B).
Usando uma varivel indicadora (dummy) teremos:

X
2
= 0 se ferramenta tipo A
1 se ferramenta tipo B

Assumindo o modelo Y =
o
+
1
X
1
+
2
X
2
+ e como X
2
assume somente os
valores 0 e 1 temos:
X
2
= 0 Y =
o
+
1
X
1
+
X
2
= 1 Y = (
o
+
2
) +
1
X
1
+ .

Portanto, para o tipo de ferramenta A (X
2
= 0), a relao entre a vida efetiva
desta ferramenta e a velocidade do torno uma reta com intercepto
o
e inclinao
1
.
Analogamente, para o tipo B, uma reta com intercepto (
o
+
2
) e inclinao
1
. Os
modelos so, portanto, duas regresses lineares paralelas, isto , duas retas com
inclinao comum
1
e interceptos diferentes.
O parmetro
2
expressa a diferena, em tempo de vida mdio, resultante da
mudana da ferramenta tipo A para o tipo B. Intervalo de confiana e teste de hipteses
para
2
so obtidos de forma anloga aos apresentados para
o
e
1
.
Podemos, ento, generalizar essa abordagem para fatores qualitativos com
qualquer nmero de nveis. Suponha que tivssemos 3 tipos de ferramentas (A, B e C).
Nesse caso, duas variveis dummy seriam requeridas para incorporar os trs nveis no
modelo e estas seriam, por exemplo:

X
2
= 1 se ferramenta tipo A e X
3
= 1 se ferramenta tipo B
0 caso contrrio 0 caso contrrio


Ento,

X
2
X
3

1 0 ferramenta tipo A
0 1 ferramenta tipo B
0 0 ferramenta tipo C

e o modelo de regresso ficaria expresso por:

Y =
o
+
1
X
1
+
2
X
2
+
3
X
3
+ ,
em que:

X
2
X
3

1 0 Y = (
o
+
2
) +
1
X
1
+
0 1 Y = (
o
+
3
) +
1
X
1
+
0 0 Y =
o
+
1
X
1
+

isto , trs retas paralelas com mesma inclinao e interceptos diferentes.

Comentrio: A seguinte questo pode ser feita nesses casos: no poderamos ter
ajustado inicialmente um modelo linear para cada tipo de ferramenta ao invs de um
nico modelo com uma varivel dummy ?
A resposta sim, poderamos. No entanto, a abordagem de um nico modelo
, em geral, prefervel porque o analista tem somente uma equao final para trabalhar
ao invs de duas, o que mais prtico. Alm disso, como ambas as retas so assumidas
terem a mesma inclinao, faz sentido combinar os dados de ambas as ferramentas para
produzir uma estimativa comum desse parmetro. Tambm, temos uma estimativa
comum da varincia dos erros e mais graus de liberdade do que deveramos ter no
ajuste de dois modelos de regresso lineares separados.

11.2 Modelo contendo efeito da interao

Suponha agora a situao em que a regresso linear, relacionando o tempo de
vida das ferramentas e a velocidade do torno, produza retas em que tanto as inclinaes
quanto os interceptos sejam diferentes. Podemos modelar essa situao considerando
uma varivel dummy e a interao dela com a velocidade do torno, isto , X
1
X
2
de
modo a termos o seguinte modelo:

Y =
o
+
1
X
1
+
2
X
2
+
3
X
1
X
2
+ .

Nesse caso,
2
no indica mais o efeito no tempo de vida mdio para qualquer dado
nvel de X
1
. O efeito do tipo de ferramenta depende agora de X
1
(velocidade).
Para verificar se o tipo de ferramenta realmente depende do nvel de X
1
basta
testar as hipteses H
o
:
3
= 0 versus Ha:
3
0. A dependncia ser afirmativa se
rejeitarmos H
o
.


Como no exemplo, X
2
assume somente os valores 0 e 1 temos:

X
2
= 0 Y =
o
+
1
X
1
+
X
2
= 1 Y = (
o
+
2
) + (
1
+
3
)X
1
+ ,

as quais no so retas paralelas.

Pergunta: Qual o modelo mais adequado para o exemplo? Com ou sem interao?

11.3 Algumas consideraes

O uso de variveis (dummy) para representar variveis independentes
qualitativas mais indicado do que a alocao de cdigos quaisquer s categorias
dessas variveis. A dificuldade bsica com cdigos alocados que eles definem uma
mtrica para os nveis da varivel qualitativa o qual pode no ser razovel. Podemos,
por exemplo, alocar arbitrariamente os cdigos 1, 2 e 3 para uma varivel independente
qualitativa com trs nveis. Estes cdigos implicam que a resposta mdia muda a
mesma quantidade quando mudamos de um nvel para outro. Isto pode no estar de
acordo com a realidade mas consequncia dos cdigos 1, 2 e 3 os quais assumem
distncias iguais entre os 3 nveis. Poderamos, claro, alocar outros cdigos com
espaamentos diferentes, mas continuariam ainda sendo arbitrrios.
Variveis indicadoras, em contraste, no fazem suposio sobre o espaamento
dos nveis e dependemos dos dados para mostrar os efeitos diferenciais que ocorrem.

Exemplo: Suponha um experimento em que tem-se Y = varivel dependente
quantitativa; X
1
= varivel independente quantitativa e X
2
= varivel independente
qualitativa com trs nveis (A, B e C). Se considerarmos cdigos alocados aos nveis,
como por exemplo 1, 2 e 3, teremos:

1 se nvel A
X
2
= 2 se nvel B
3 se nvel C

e, conseqentemente, E(Y) =
0
+
1
X
1
+
2
X
2

em que, se X
2
= 1 E(Y) = (
0
+
2
) +
1
X
1

se X
2
= 2 E(Y) = (
0
+2
2
) +
1
X
1

se X
2
= 3 E(Y) = (
0
+ 3
2
) +
1
X
1

Quando mudamos, por exemplo, do nvel A para o nvel B, a mudana na
resposta mdia ser igual a E(Y | X
2
= 2) - E (Y | X
2
= 1) =
2
. Analogamente, de B
para C ser igual a E(Y | X
2
= 3) - E (Y | X
2
= 2) =
2
. Ento, usar os cdigos 1, 2 e 3,
implica que a resposta mdia muda a mesma quantidade quando mudamos do nvel A
para B ou de B para C. Isto pode no estar de acordo com a realidade mas resultado
dos cdigos 1, 2 e 3 os quais assumem distncias iguais entre os trs nveis.


Por outro lado, se usarmos variveis dummy, como, por exemplo:

X
21
= 1 se nvel A e X
22
= 1 se nvel B
0 c.c. 0 c.c.

teremos: E(Y) =
0
+
1
X
1
+
2
X
21
+
3
X
22
de modo que,

se X
21
= 1 e X
22
= 0 E(Y) = (
0
+
2
) +
1
X
1
se X
21
= 0 e X
22
= 1 E(Y) = (
0
+
3
) +
1
X
1

se X
21
= 0 e X
22
= 0 E(Y) =
0
+
1
X
1

Assim, mudar de A para B implica em uma mudana na resposta mdia de
(
2
-
3
) unidades. Analogamente, mudar de A para C, implica em uma mudana (ou
efeito diferencial entre A e C) de
2
unidades e mudar de B para C em uma mudana
de
3
unidades. Note que no existem restries arbitrrias entre os efeitos diferenciais
e, sendo assim, as variveis dummy so preferveis aos cdigos alocados.

11.4 Outros cdigos para variveis indicadoras

Usamos at aqui um esquema para codificar os nveis de uma varivel
qualitativa em que k-1 variveis indicadoras do tipo 0,1 so criadas para representar os
k nveis da respectiva varivel qualitativa. Outros esquemas possveis so apresentados
a seguir.

1
o
. esquema alternativo

Podemos usar variveis indicadoras do tipo 1 e -1. Ento, para uma varivel
qualitativa com dois nveis (A e B) temos:

X
2
= 1 se nvel A
-1 se nvel B.

Analogamente, para uma varivel qualitativa com trs nveis (A, B e C) temos:

X
21
= 1 se nvel A X
22
= 1 se nvel B
-1 se nvel C -1 se nvel C
0 c. c. 0 c. c.

em que,
Nvel X
21
X
22

A 1 0
B 0 1
C -1 -1

Por analogia podemos representar variveis qualitativas com mais de trs nveis.


2
o
. esquema alternativo

Outra alternativa o uso de k variveis qualitativas do tipo 0, 1 para representar
cada um dos k nveis desta varivel retirando-se o termo intercepto do modelo de
regresso.
Se temos, por exemplo, uma varivel independente quantitativa (X
1
) e uma
varivel independente qualitativa (X
2
) com dois nveis (A e B) ento:

E(Y) =
1
X
1
+
2
X
21
+
3
X
22

em que:

X
21
= 1 se nvel A e X
22
= 1 se nvel B
0 c. c. 0 c. c.

Importante: No podemos comparar o R
2
obtido ao usar o modelo de regresso com
intercepto zero (denotaremos por R
2
(0)
) com o R
2
obtido ao usar o modelo de regresso
com intercepto incluso. No modelo com intercepto zero, a variao descrita pelo
numerador e denominador de R
2
(0)
representa a disperso em torno de zero e, no
modelo com intercepto incluso a variao descrita representa a disperso em torno da
mdia y . Existir assim uma forte tendncia para o R
2
(0)
ser maior do que o R
2
. Fato
anlogo ser observado para a qualidade do ajuste que tender a ser superior no
modelo com intercepto zero. Isto resulta do fato que somas de quadrados no corrigidas
so usadas e mesmo com performance equivalente R
2
(0)
pode ser consideravelmente
maior que R
2
. A conseqncia uma grave confuso quando, erroneamente, modelos
com interceptos zero so comparados com modelos com interceptos inclusos. Os
modelos com interceptos zero sero classificados erroneamente, em um rank de
diversos modelos sendo comparados, como melhores.
Uma alternativa para o clculo de R
2
(0)
de modo a podermos fazer razoveis
comparaes entre os modelos dada por:

R
2
(0)
= 1 - [ /
=

n
i
i
y
1
2
i
) (y

=

n
i
y
1
2
i
) (y ]

em que:
- [ /
]
=

n
i
i
y
1
2
i
) (y
=
n
i 1
2
i
) (y
2
1
i
) (y
=
n
i
i
x
=
n
i 1
2
i
) (x

Obs: Para maiores detalhes sobre esse assunto consultar:

MYERS, R.H. Classsical and Modern Regression with Aplications. Massachusetts: PWS
Publishers, 1986.
CASELLA, G. Leverage and regression through the origin. American Statistician, v.37, n.2,
p.147, 1983.
HAHN, G.J. Fitting regression models with no intercept term. Journal of Quality
Technology, p. 9- 56, 1977.


EXEMPLO: Para o exemplo das ferramentas descrito anteriormente temos:

1
a
. anlise: Usando a varivel dummy X
2
para o tipo da ferramenta em que:

X
2
= 0 se ferramenta A
1 c.c. (se ferramenta B)

obtivemos, como pode ser observado na tabela da Anova abaixo, que a interao
apresentou-se no significativa.

Tabela da anlise de varincia do modelo com interao
Df Sum Sq Mean Sq F value Pr(>F)
X1 1 293.01 293.01 33.2545 2.889e-05 ***
X2B 1 1125.03 1125.03 127.6847 4.891e-09 ***
X1:X2 1 16.08 16.08 1.8248 0.1955
Residuals 16 140.98 8.81

Assim, o modelo sem interao produziu os seguintes resultados:

Tabela da anlise de varincia do modelo sem interao
X1 1 293.01 293.01 31.716 2.990e-05 ***
X2B 1 1125.03 1125.03 121.776 3.587e-09 ***
Residuals 17 157.05 9.24

Quadro com as estimativas dos coeficientes e outros resultados relevantes
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 36.98560 3.51038 10.536 7.16e-09 ***
X1 -0.02661 0.00452 -5.887 1.79e-05 ***
X2B 15.00425 1.35967 11.035 3.59e-09 ***
---
Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

Residual standard error: 3.039 on 17 degrees of freedom
Multiple R-Squared: 0.9003, Adjusted R-squared: 0.8886
F-statistic: 76.75 on 2 and 17 DF, p-value: 3.086e-09

Figura 7. Anlise dos resduos do modelo sem interao


Pelos resultados apresentados podemos observar que a anlise de varincia bem
como a anlise de resduos do modelo ajustado, isto , do modelo expresso por
E(Y) = 36,986 0,027X
1
+ 15,004X
2
apresentaram-se satisfatrias.

O parmetro
2
cuja estimativa foi 15,004 indica a mudana (neste caso, o
acrscimo, em horas) na mdia de vida efetiva da ferramenta resultante da troca da
ferramenta tipo A para B. Uma estimativa intervalar para
2
(95% de confiana)
resultou em 12,135 horas
2
17,873 horas. Assim, espera-se com 95% de confiana,
que o intervalo mencionado contenha o verdadeiro acrscimo na mdia de vida efetiva
da ferramenta ao mudar da ferramenta A para B.
As retas para as ferramentas so, de acordo com a anlise apresentada,
consideradas paralelas (mesma inclinao e interceptos diferentes) e encontram-se
representadas no grfico a seguir.

E(Y)

0
+
2

tipo B E(Y) = 51,99 0,027X
1

2

0

tipo A E(Y) = 36,986 0,027X
1

X
1

2
a
. anlise: Usando, agora, a varivel dummy X
2
em que X
2
= 1 se ferramenta A
-1 se ferramenta B

obtivemos:

X1 1 293.01 293.01 31.716 2.990e-05 ***
X2 1 1125.03 1125.03 121.776 3.587e-09 ***
Residuals 17 157.05 9.24

Coefficients:
(Intercept) 44.48773 3.45947 12.860 3.47e-10 ***
X1 -0.02661 0.00452 -5.887 1.79e-05 ***
X2 -7.50213 0.67983 -11.035 3.59e-09 ***
---
Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1



Figura 8. Anlise dos resduos do modelo sem interao e dummy 1 e -1

Observe que a anlise de varincia deste modelo bem como a anlise de
resduos proporcionam resultados iguais aos produzidos na 1
a
. anlise e so, desse
modo satisfatrios. O modelo ajustado , nesse caso, expressso por:

E[Y] = 44,488 0,027X
1
7,502X
2

em que o parmetro
0
(intercepto) visto nesse modelo como a mdia dos interceptos
das 2 linhas de regresso da qual a ferramenta A e B diferem por
2
unidades em
direes opostas. Desse modo, temos os modelos para as ferramentas A e B
representados no grfico a seguir.

E(Y)

0
+
2

tipo B E[Y] = 51,99 0,027X
1

0

0
-
2
tipo A E[Y] = 36,986 0,027X
1

X
1

Note que os modelos para as ferramentas A e B so exatamente os encontrados
na 1
a
anlise. A nica diferena que temos que na 1
a
anlise usamos um dos nveis da
varivel qualitativa como referencial e, portanto, todos os demais nveis sero
comparados com ele. J na 2
a
anlise usamos como referencial a mdia dos nveis da
varivel qualitativa e, sendo assim, as comparaes so feitas em relao a mdia de
vida das ferramentas A e B e no com a mdia de vida da ferramenta A como na 1
a

anlise.


3
a
. anlise: Usando duas variveis dummy do tipo 0, 1 em que:

X
21
= 1 se ferramenta A e X
22
= 1 se ferramenta B
0 c. c. 0 c. c

e retirando o intercepto temos:

X1 1 10847.3 10847.3 1174.142 < 2.2e-16 ***
X21 1 602.6 602.6 65.228 3.206e-07 ***
X22 1 1991.7 1991.7 215.590 4.343e-11 ***
Residuals 17 157.1 9.2

Coefficients:
X1 -0.02661 0.00452 -5.887 1.79e-05 ***
X21 36.98560 3.51038 10.536 7.16e-09 ***
X22 51.98985 3.54082 14.683 4.34e-11 ***
---
Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

F-statistic: 485 on 3 and 17 DF, p-value: < 2.2e-16

Observe, como j chamado ateno anteriormente, que a anlise de varincia e,
conseqentemente, o valor de R
2
no so iguais aos obtidos nas anlises anteriores.
Para que o R
2
desse modelo possa ser comparado aos das duas anlises anteriores
devemos calcular R
2
(o)
pois, em caso contrrio, teremos a falsa impresso de que este
modelo melhor do que os demais, quando na realidade eqivalente a eles.
Dos resultados obtidos podemos observar que o modelo ajustado e expresso por:

E[Y] = - 0.027 X
1
+ 36,98 X
21
+

51,99 X
22

resulta em duas retas de regresso semelhantes s encontradas anteriormente.

OBS: Obtenha R
2
(o)
para este exemplo!


12. Regresso Polinomial

O modelo de regresso polinomial (MRP) um caso especial do modelo de
regresso linear geral Y = X + . Este modelo pode conter uma, duas ou mais
regressoras (variveis independentes) as quais podem estar em diversas potencias.
As regressoras so expressas comumente como o desvio de suas respectivas
mdias porque nos modelos polinomiais tem-se frequentemente termos altamente
correlacionados. Expressar as regressoras como o desvio de sua mdia pode, em muitos
casos, auxiliar na reduo da multicolineridade. Em outros casos, mesmo centrando as
regressoras na mdia, pode-se continuar tendo nveis altos de multicolinearidade. Os
polinmios ortogonais podem ser teis nessas situaes.

12.1 Polinmios com uma regressora

Suponha o modelo polinomial Y
i
=
o
+
1
X
1i
+
2
X
1i

2
+ .. +
k
X
1i
k
+
i
para
i = 1, ., n.. Para tais modelos, as colunas da matriz X sero, geralmente, no ortogonais
e, alm disso, se aumentarmos a ordem do polinmio por adicionar um termo
k +1
X
i
k+1
,
devemos recalcular a inversa (XX)
-1
e as estimativas dos parmetros de ordem menor
devero mudar. Se, no entanto, for ajustado o modelo:

Y
i
=
0
P
0
(x
i
) +
1
P
1
(x
i
) +
2
P
2
(x
i
) + .... +
k
P(x
i
) +
i
i = 1,..., n

em que P
u
(x
i
) a u-sima ordem do polinmio ortogonal definido de tal modo que,

r s ( r, s = 0, 1, 2, .., k ) 0 ) ( ) (
1
=
=
i s
n
i
i r
x P x P

P
o
(x
i
) = 1,

o modelo torna-se, ento, Y = X + em que a matriz X :

X =
(
(
(
(
) (
) (
) (
) ( ) (
) ( ) (
) ( ) (
2
1
1
2 1 2
1 1 1
n k
k
k
n n o
o
o
x P
x P
x P
x P x P
x P x P
x P x P
M
L
M M M
L
L

a qual tem colunas ortogonais e, portanto,

XX =
(
(
(
(
(
(
(
(
=
=
=
n
i
i k
n
i
i
n
i
i o
x P
x P
x P
1
2
1
2
1
1
2
) ( 0 0
0
0 ) ( 0
0 0 ) (
L
M M M
L
L


Os cinco primeiros polinomiais P
j
(x
i
) para o caso dos nveis de X serem
igualmente espaados so dados por:

P
o
(x
i
) = 1
P
1
(x
i
) =
1

(

d
x x
i

P
2
(x
i
) =
2

(
(
|
|
.
|
\
|
|
.
|
\
|
12
1
2
2
n
d
x x
i

P
3
(x
i
) =
3

(
(
|
|
.
|
\
|
|
.
|
\
|
|
.
|
\
|
20
7 3
2
3
n
d
x x
d
x x
i i

P
4
(x
i
) =
4

(
(

+
|
|
.
|
\
|
|
.
|
\
|
|
.
|
\
|
560
) 9 )( 1 ( 3
14
13 3
2 2 2
2 4
n n n
d
x x
d
x x
i i

sendo d = espao (distncia) entre os nveis de X e
j
= constantes escolhidas de modo
aos polinomiais terem valores interiros. Valores numricos desses polinomiais podem
ser encontrados, por exemplo, em Montgomery e Peck (1992).
Os estimadores de M.QO de so encontrados por:
e, portanto, Y X' X) (X'
1
=
=
=
n
i
i j
n
i
i i j
j
x P
y x P
1
2
1
) (
) (
para j = 0, 1, .., k

Como P
o
(x
i
) = 1, segue que y =
0
. Ainda, temos que
SQres(k) = YY -

= =
(
k
j
n
i
i i j j
y x P
1 1
) (

e que a soma de quadrados da regresso para qualquer parmetro do modelo, a qual no
depende dos outros parmetros no modelo, dada por:
SQreg (
j
) =
=
n
i
i i j j
y x P
1
) (
Se precisarmos acessar a significncia do termo de ordem mais alta, devemos
testar H
o
:
k
= 0 e, para isso, usamos a estatstica de teste F dada por:

F
0
=
) 1 /( ) (
) (
k n k SQres
SQreg
k
.

Note que se a ordem do polinmio mudada para k + r, somente os r novos
coeficientes devem ser calculados uma vez que os k coeficientes que j estavam no
modelo no mudam devido a propriedade de ortogonalidade dos polinomiais. Assim,
um ajuste sequencial do modelo computacionalmente fcil.

Polinomiais ortogonais podem tambm ser construdos e usados nos casos em
que os Xs no so igualmente espaados. Mtodos para gerar polinomiais ortogonais
so apresentados em Seber (1977, Cap 8).

Giolo, Suely Ruiz Anlise de Regresso 52

Exemplo: Considere os dados apresentados a seguir em que temos Y = varivel
resposta e X = regressora.

Observao Y X
X
b
= (X - X )
X
b
2
1 6.3 1.0 -6.263 39.228
2 11.1 1.5 -5.763 33.214
3 20.0 2.0 -5.263 27.701
4 24.0 3.0 -4.263 18.175
5 26.1 4.0 -3.263 10.648
6 30.0 4.5 -2.763 7.635
7 33.8 5.0 -2.263 5.122
8 34.0 5.5 -1.763 3.109
9 38.1 6.0 -1.263 1.596
10 39.9 6.5 -0.763 0.582
11 42.0 7.0 -0.263 0.069
12 46.1 8.0 0.737 0.543
13 53.1 9.0 1.737 3.016
14 52.0 10.0 2.737 7.490
15 52.5 11.0 3.737 13.964
16 48.0 12.0 4.737 22.437
17 42.8 13.0 5.737 32.911
18 27.8 14.0 6.737 45.384
19 21.9 15.0 7.737 59.858

Observe, a partir da Figura 9, que a relao entre Y e X , claramente, no-
linear. Da figura, podemos observar, ainda, que uma relao quadrtica entre Y e X
parece ser bastante apropriada sugerindo, assim, o ajuste de um modelo polinomial
de 2
a
ordem em X.

Figura 9. Diagrama de disprso de Y versus X

Temos, no entanto, uma alta correlao entre X e X
2
(r = 0,9703), o que ,
como j mencionado, muito comum nesses casos. O VIF calculado, nesse caso,
resultou em 16,92 evidenciando que os parmetros sero pobremente estimados se
utilizarmos X e X
2
no modelo. Se considerarmos, contudo, a varivel X centrada em
sua mdia, isto , X
b
= (X - X ) observamos que a correlao entre X
b
e (X
b
)
2
passa a
ser r = 0,2974 e o VIF = 1,09 < 5. Pelos resultados que acabamos de discutir,
recomendvel que utilizemos X
b
e (X
b
)
2
no modelo a fim de amenizar os efeitos
causados pela colinearidade observada entre X e X
2
.


Observe pela Figura 10, que centrar a varivel X em sua mdia X no altera a
relao quadrtica observada existir entre as variveis Y e X.

Figura 10. Diagrama de disprso de Y versus X
b

Assim, para o modelo polinomial de Y em X
b
e X
b
2
temos os resultados:

Tabela da anlise de varincia
Xb 1 1043.43 1043.43 53.399 1.759e-06 ***
Xb2 1 2060.81 2060.81 105.466 1.895e-08 ***
Residuals 16 312.64 19.54

Coefficients:
(Intercept) 45.29449 1.48287 30.55 1.29e-15 ***
Xb 2.54629 0.25384 10.03 2.63e-08 ***
Xb2 -0.63455 0.06179 -10.27 1.89e-08 ***
---
Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

Multiple R-Squared: 0.9085, Adjusted R-squared: 0. 971 8

Figura 11. Anlise de resduos do modelo polinomial de 2
a
ordem.


Podemos observar, pelos resultados apresentados, que o coeficiente de
determinao mostrou-se satisfatrio (R
2
= 0,9085) e a anlise de resduos mostrou-se
razovel. Ainda, o diagnstico de influncia mostrou que as observaes 1, 2 e 19
merecem ser investigadas junto ao pesquisador. O modelo ajustado, o qual expresso
por:
E(Y) = 45,295 + 2,546 (X - X ) 0,635 (X - X )
2

encontra-se representado, juntamente com os valores observados, na Figura 12 .

Figura 12. Dados observadoe e modelo polinomial ajustado.

Exemplo: Considere agora os dados a seguir em que Y = custo anual mdio de
manuteno de um equipamento e X = produo do equipamento.

Y = custo anual mdio
(em dlares)
X = produo
(em unidades)

P
1
(x
i
)

P
2
(x
i
)
335 50 -9 6
326 75 -7 2
316 100 -5 -1
313 125 -3 -3
311 150 -1 -4
314 175 1 -4
318 200 3 -3
328 225 5 -1
337 250 7 2
345 275 9 6
Fonte: Montgomery e Peck (1992)

Do diagrama de diperso, apresentado na Figura 13, podemos observar uma
relao quadrtica entre Y e X, o que sugere o ajuste de um modelo polinomial de 2
a

ordem. Temos, ainda, uma alta correlao entre que X e X
2
(r = 0,9815) indicando
problemas na estimao dos parmetros devido a presena de colinearidade observada
entre essas variveis. Por esse fato, bem como por observamos que os nveis de X so
igualmente espaados, faremos uso dos polinmios ortogonais P
1
(x
i
) e P
2
(x
i
)
apresentados na seo 12.1. Os valores desses polinomias encontram-se apresentados
na tabela acima em que foram usados
1
= 2,
2
= , d = 25 e X =162,5. Observe que
a correlao entre P
1
(x
i
) e P
2
(x
i
) , obviamente, igual a zero uma vez que os mesmos
so construdos de modo a serem ortogonais.


Figura 13. Diagrama de disperso de Y versus X

Usando, ento, os polinmios ortogonais P
1
(x
i
) e P
2
(x
i
) temos os resultados:

Tabela da anlise de varincia
P1 1 181.89 181.89 47.717 0.0002297 ***
P2 1 1031.52 1031.52 270.606 7.483e-07 ***

Coefficients:
(Intercept) 324.3000 0.6174 525.262 < 2e-16 ***
P1 0.7424 0.1075 6.908 0.000230 ***
P2 2.7955 0.1699 16.450 7.48e-07 ***
---
Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1


A anlise de varincia mostra que tanto o termo linear quanto o quadrtico
contribuem significativamente para o modelo e que os mesmos, conjuntamente,
explicam 97,85% da variabilidade de Y.


A anlise de resduos apresentou-se razovel, considerando termos apenas 10
observaes na amostra estudada. O diagnstico de pontos influentes mostrou que a
observao 10 merece investigao adicional.
O modelo ajustado em termos dos polinminos ortogonais bem como em
termos da regressora original so expressos, respectivamente, por:

Y
= 324,30 + 0,7424 P
1
(x) + 2,7955 P
2
(x)
e
Y
= 324,30 + 0,7424 (2) |

.
|
\
|
25
50 , 162 X
+ 2,7955 (1/2)
(
|
|
.
|
\
|
|
.
|
\
|
12
1 10
25
50 , 162
2
X

= 312,7686 + 0,0595(X 162,50) + 0,0022 (X 162,50)
2

sendo, este ltimo, a forma a qual deveria ser fornecida ao usurio (pesquisador). Os
dados observados e o modelo ajustado para esse exemplo encontram-se apresentados
na Figura 14.

Figura 14. Dados observados e polinomial ajustado.

12.2. Exemplo de regresso polinomial com mais de uma regressora

> help(trees) # disponvel no R
> data(trees)
> trees

1 lm(formula = Volume ~ Height )

Residuals:
Min 1Q Median 3Q Max
-21.274 -9.894 -2.894 12.067 29.852

Coefficients:
(Intercept) -87.1236 29.2731 -2.976 0.005835
Height 1.5433 0.3839 4.021 0.000378

F-statistic: 16.16 on 1 and 29 DF, p-value: 0.0003784


2 lm(formula = Volume ~ Girth)

Residuals:
-8.0654 -3.1067 0.1520 3.4948 9.5868

Coefficients:
(Intercept) -36.9435 3.3651 -10.98 7.62e-12
Girth 5.0659 0.2474 20.48 < 2e-16

F-statistic: 419.4 on 1 and 29 DF, p-value: < 2.2e-16

3 lm(formula = Volume ~ Height + Girth)

Residuals:
-6.4065 -2.6493 -0.2876 2.2003 8.4847

Coefficients:
(Intercept) -57.9877 8.6382 -6.713 2.75e-07 ***
Height 0.3393 0.1302 2.607 0.0145 *
Girth 4.7082 0.2643 17.816 < 2e-16 ***


4 lm(formula = Volume ~ Height + Girth + I(Girth^2))

Residuals:
-4.2928 -1.6693 -0.1018 1.7851 4.3489

Coefficients:
(Intercept) -9.92041 10.07911 -0.984 0.333729
Height 0.37639 0.08823 4.266 0.000218
Girth -2.88508 1.30985 -2.203 0.036343
I(Girth^2) 0.26862 0.04590 5.852 3.13e-06


5 lm(formula = Volume ~ Girth + I(Girth^2) + I(Girth^3))

Residuals:
-5.4462 -2.3220 -0.4896 2.0225 7.4458

Coefficients:
(Intercept) -23.51838 39.47162 -0.596 0.556
Girth 5.78006 8.83752 0.654 0.519
I(Girth^2) -0.32563 0.64248 -0.507 0.616
I(Girth^3) 0.01374 0.01515 0.907 0.373



6 lm(formula = Volume ~ Height + I(Height^2) + Girth + I(Girth^2))

Residuals:
-4.3679 -1.6698 -0.1580 1.7915 4.3581

Coefficients:
(Intercept) -0.955101 63.013630 -0.015 0.988
Height 0.119372 1.784588 0.067 0.947
I(Height^2) 0.001717 0.011905 0.144 0.886
Girth -2.796569 1.468677 -1.904 0.068
I(Girth^2) 0.265446 0.051689 5.135 2.35e-05


Dos resultados apresentados pode-se concluir que o modelo 4 parece ser o
mais adequado dentre os analisados.

model<-lm(Volume~Height+Girth+I(Girth^2),data=trees)
vif(model)

Height Girth I(Girth^2)
1.3763 73.5750 72.4690

Como ocorrem VIFs maiores que 10 optou-se por subtrair a varivel Girth de
sua mdia. Com esse procedimento observu-se todos os VIFs < 5 bem como os
resultados apresentados a seguir.

G<-Girth-mean(Girth)
model<-lm(Volume~Height+G+I(G^2),data=trees)
model

lm(formula = Volume ~ Height + G + I(G^2), data = trees)

Coefficients:
(Intercept) Height G I(G^2)
-0.9945 0.3764 4.2325 0.2686

vif(model)

Height G I(G^2)
1.3763 1.6525 1.2438

> summary(model)

lm(formula = Volume ~ Height + G + I(G^2), data = trees)

Residuals:
-4.2928 -1.6693 -0.1018 1.7851 4.3489

Coefficients:
(Intercept) -0.99450 6.76765 -0.147 0.884264
Height 0.37639 0.08823 4.266 0.000218 ***
G 4.23255 0.19630 21.561 < 2e-16 ***
I(G^2) 0.26862 0.04590 5.852 3.13e-06 ***
---
Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1



> shapiro.test(model$residuals)

Shapiro-Wilk normality test

data: model$residuals
W = 0.9644, p-value = 0.3798

Pode-se, ento, concluir que o modelo selecionado apresentou-se, de modo geral,
satisfatrio.
12.3 Regresso polinomial usando o pacote estatstico R
A funo poly usada no pacote estatstico R para obteno de polinmios
ortogonais para os casos em que os nveis de X so, ou no, igualmente espaados. Usando
tal funo, os polinomiais P
j
(x
i
) so obtidos pelo procedimento de ortogonalizao de
Gram-Schmidt que, embora diferente do procedimento apresentado na Seo 12.1, produz
valores preditos exatamente iguais.
Como um exemplo suponha: x -1 0 1 2
y 2 1 2 10
Considerando um polinmio de ordem 2, segue que:
X =

4 2 1
1 1 1
0 0 1
1 1 1
Usando Gram-Schmidt, tem-se:
y
1

= (x
1
)/ ||x
1
|| = [1/2 1/2 1/2 1/2]
y
2
/ ||y
2
|| = [3 1 1 3] / 20 sendo y
2
= (x
2
)-(x
2
y
1
) y
1
y
3
/ ||y
3
|| = [1 1 1 1] / 2 sendo y
3
= x
3
(x
3
y
1
) (x
3
y
2
)y
2
de modo que, X
ort
= [Po(x) P
1
(x) P
2
(x)] =
2 / 1 20 / 3 1
2 / 1 20 / 1 1
2 / 1 20 / 1 1
2 / 1 20 / 3 1
O modelo de regresso ortogonalizado ento:
Y =
o
+
1
P
1
(x) +
2
P
2
(x) +
e seu ajuste pode ser obtido no R como apresentado a seguir.
> y<-c(2,1,2,10)
> x<-c(-1,0,1,2)
> fit<-lm(y~poly(x,degree=2))
> fit$model
y poly(x, degree = 2).1 poly(x, degree = 2).2
1 2 -0.6708204 0.5000000
2 1 -0.2236068 -0.5000000
3 2 0.2236068 -0.5000000
4 10 0.6708204 0.5000000
> anova(fit)
Analysis of Variance Table
poly(x, degree = 2) 2 51.50 25.75 20.6 0.1539
> summary(fit)
Residuals:
1 2 3 4
-0.25 0.75 -0.75 0.25
Coefficients:
(Intercept) 3.750 0.559 6.708 0.0942 .
poly(x, degree = 2)1 5.590 1.118 5.000 0.1257
poly(x, degree = 2)2 4.500 1.118 4.025 0.1550
---
Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1
F-statistic: 20.6 on 2 and 1 DF, p-value: 0.1539
> y
2 1 2 10
> fit$fitted
1 2 3 4
2.25 0.25 2.75 9.75
Modelo Ajustado: E(Y) = 3.75 + 5.59 P
1
(x) + 4.5 P
2
(x)
Obs: Claramente, diagnstico dos resduos e anlise de pontos influentes devem ser
realizados. Neste caso no foi apresentado por se tratar de um exemplo com n = 4 usado
apenas para ilustrar a funo poly disponvel no R.
Exemplo: Analise dos dados apresentados na pgina 54 usando a funo poly.
> x<-c(50,75,100,125,150,175,200,225,250,275)
> y<-c(335,326,316,313,311,314,318,328,337,345)
> fit<-lm(y~poly(x,degree=2))
> fit$model
y poly(x, degree = 2).1 poly(x, degree = 2).2
1 335 -0.49543369 0.52223297
2 326 -0.38533732 0.17407766
3 316 -0.27524094 -0.08703883
4 313 -0.16514456 -0.26111648
5 311 -0.05504819 -0.34815531
6 314 0.05504819 -0.34815531
7 318 0.16514456 -0.26111648
8 328 0.27524094 -0.08703883
9 337 0.38533732 0.17407766
10 345 0.49543369 0.52223297
> summary(fit)
Residuals:
-2.7545455 -1.2034091 -0.0007576 1.1318182 2.7833333
Coefficients:
(Intercept) 324.3000 0.6174 525.262 < 2e-16 ***
poly(x, degree = 2)1 13.4868 1.9524 6.908 0.000230 ***
poly(x, degree = 2)2 32.1173 1.9524 16.450 7.48e-07 ***
---
Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1
> anova(fit)
Analysis of Variance Table
Response: y
poly(x, degree = 2) 2 1213.42 606.71 159.16 1.461e-06 ***
---
Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1
> plot(fit)
> influence.measures(fit)
dfb.1_ dfb.p..d.2.1 dfb.p..d.2.2 dffit cov.r cook.d hat inf
1 0.2437 -0.38179 0.4024 0.6059 3.7210 0.137564 0.618 *
2 0.2845 -0.34662 0.1566 0.4749 1.6667 0.079949 0.279
3 -0.3564 0.31024 0.0981 -0.4826 1.2050 0.077227 0.183
4 -0.1294 0.06755 0.1068 -0.1808 1.8466 0.012439 0.195
5 -0.2790 0.04857 0.3072 -0.4178 1.5353 0.061672 0.224
6 0.0270 0.00469 -0.0297 0.0404 2.0412 0.000633 0.224
7 -0.0263 -0.01372 0.0217 -0.0367 1.9683 0.000524 0.195
8 0.6366 0.55409 -0.1752 0.8620 0.5205 0.186217 0.183
9 0.4417 0.53827 0.2432 0.7376 1.1702 0.171362 0.279
10 -2.1412 -3.35460 -3.5361 -5.3237 0.0692 2.813453 0.618 *
> summary(influence.measures(fit))
dfb.1_ dfb.p(,d=2)1 dfb.p(,d=2)2 dffit cov.r cook.d hat
1 0.24 -0.38 0.40 0.61 3.72_* 0.14 0.62
10 -2.14_* -3.35_* -3.54_* -5.32_* 0.07 2.81_* 0.62
> yest<- fit$fitted
> yest
1 2 3 4 5 6 7 8
334.3909 324.6939 317.7924 313.6864 312.3758 313.8606 318.1409 325.2167
9 10
335.0879 347.7545
> plot(x,y)
> lines(x, yest)
Exerccios:
(1) Analise os dados abaixo usando a funo poly em que
Y = velocidade da mquina
X = quantidade de green liquor produzida
Y X
16.0 1700
15.8 1720
15.6 1730
15.5 1740
14.8 1750
14.0 1760
13.5 1770
13.0 1780
12.0 1790
11.0 1795
(2) Analise os dados fictcios obtidos por:
x<- rnorm(20, mean=0, sd=1)
y<- 1+ 2*x+3*x^2 + rnorm(20,sd=0.5)

Regressao Suely UFPR

Caricato da

Informazioni sul documento

Descrizione originale:

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Regressao Suely UFPR

Caricato da

Copyright:

Formati disponibili

UNIVERSIDADE FEDERAL DO PARAN

= 19,22 minutos e I.C.(Y

Uma alternativa , ento, retirar a exigncia de que seja no-viciado e

= 324,30 + 0,7424 (2) |

Potrebbero piacerti anche