Sei sulla pagina 1di 22

Econometria

1. Multicolinearidade
2. Observaes missing


Danielle Carusi Machado - UFF - Econometria
2/2010
Econometria
1. Multicolinearidade
2. Testes de hipteses no modelo de regresso linear
3. Propriedades assintticas dos estimadores MQO


Danielle Carusi Machado - UFF - Econometria
2/2010
Multicolinearidade
Quando existem relao linear exata entre as variveis
independentes ser impossvel calcular os estimadores de MQO.
O procedimento MQO utilizado para estimao no ser efetivado.
Mensagem: matriz quase singular (uma matriz quase singular
XX no pode ser invertida) ou a varivel x
k
dropped.
Relacionamento linear exato: s quando os dados foram
construdos pelo pesquisador, pe., no caso de incluso de
dummies.
Relacionamento linear aproximado entre as variveis
independentes: comuns em economia.
O procedimento de estimao no rompido quando as variveis
so bastante correlacionadas, contudo, surgem problemas de
estimao.

Multicolinearidade
Multicolinearidade: nome dado ao fenmeno de presena de
relao linear aproximada entre os regressores.
Problema de estimao causado por uma amostra particular.
No um problema terico.
Multicolinearidade nos dados pode existir por diferentes
motivos:
Regressores possuem a mesma tendncia temporal.
Algumas variveis caminham na mesma direo porque
os dados no foram coletados de uma base grande.
Pode existir realmente algum tipo de relacionamento
aproximado entre os regressores.


Multicolinearidade
Caracterstica do banco de dados que afeta a matriz de covarincia do
Estimador de MQO.


Considere um estimador de um dos parmetros |
k
: E[b
k
] = |k (no viesado)


Var[b] = o
2
(XX)
-1
.



A varincia de b
k
o k-simo elemento da diagonal da matriz o
2
(XX)
-1

Varincia do estimador de MQO
A varincia estimada de b
k

Var[b
2
/X] =







Quanto maior o fit da regresso de x
2
em X
1
, maior a varincia. No
limite, um ajuste perfeito produz uma varincia infinita.

.
) 1 (
) ( ) 1 (
22
2
. 2
2
2
1
2
2
2
. 2
2
S R
s
x x R
s
n
i
i

=
(
(



=
Varincia do estimador de MQO
Forma mais geral
Defina a matriz X que contm uma constante e K-1 variveis explicativas

A varincia estimada de b
k

Var[b
k
/X] =
( ) ( )

=

n
i
k ik k
x x R
s
1
2 2
.
2
1
Ingrediente para existncia
de multicolinearidade:
- Quanto maior a correlao entre
xk e as outras variveis (R
2
k
).
Consequncias da
Multicolinearidade
O estimador de MQO permanece no viesado e BLUE.
O grau de ajuste no afetado.
Problemas prticos:
Pequenas mudanas nos dados produzem grandes
variaes nas estimativas dos parmetros.
Os coeficientes estimados apresentam erros padro
muito elevados e baixos nveis de significncia, mesmo
que sejam conjuntamente significativos e com o grau
de ajuste da regresso elevado (R
2
).
Os coeficientes podem ter o sinal errado e
magnitudes irreais.
Consequncias da
Multicolinearidade
Na presena de multicolinearidade, o procedimento de
estimao MQO no recebe variao independente suficiente
de uma varivel para realizar o clculo com confiana do
efeito que esta tem sobre a varivel dependente.

Quando os regressores so altamente correlacionados, a
maior parte da sua variao comum s duas variveis,
deixando pouca variao exclusiva a cada varivel.

MQO tem pouca informao para usar ao fazer as
estimativas do coeficiente (similar a um problema de
amostra pequena ou que a varivel no mudasse muito).
Consequncias da
Multicolinearidade
As varincias dos estimadores MQO dos parmetros so
muito grandes Impreciso dos estimadores dos
parmetros.

Erros de especificao : no sabemos qual varivel
mais ou menos importante para explicar a variao da
varivel dependente.
Como detectar?
Controvrsia: muitos mtodos inadequados.
Sinais hipotticos no so encontrados.
Variveis consideradas a priori importantes no so
significativas individualmente, mas estatstica F
(significncia coletiva) alta.
Resultados alterados quando uma varivel independente
excluda ou quando uma observao retirada.
Matriz de correlao (0,8 a 0,9 so valores absolutos
altos): detecta colinearidade de duas variveis, mas no
de mais de duas.


Como detectar?
ndice de condio dos dados (IC):
Raiz quadrada da razo da maior para a menor raiz
caracterstica de XX



Medida de sensibilidade das estimativas a pequenas
pertubaes dos dados.
Medida de proximidade de XX da singularidade
(multicolinearidade perfeita): quanto maior o IC maior
dificuldade em inverter a matriz.
ndice maior que 20 indica colinearidade forte: mudana de 1%
nos dados faz surgir uma mudana de IC% nos estimadores.
2 / 1
(

=
raizmnima
raizmxima

Como detectar?
Inverso da matriz de correlao:

Elementos na diagonal: Fatores de inflao da varincia (VIF).





Quanto maior VIF, mais o R
2
k
est perto da unidade.
Medida da quantidade pela qual a varincia da k-sima
estimativa do coeficiente aumentada devido a associao
linear com as outras variveis explicativas.
Se VIF > 10: presena de colinearidade
)
2
.
1 (
1
k
R
VIF

=
R
2
da regresso da k-sima
varivel independente em todas
demais variveis independentes.
No stata:

. reg ln_sal_hora filho idade idade2 sexo educa

Source | SS df MS Number of obs = 14537
-------------+------------------------------ F( 5, 14531) = 1939.23
Model | 5434.065 5 1086.813 Prob > F = 0.0000
Residual | 8143.68463 14531 .560435251 R-squared = 0.4002
-------------+------------------------------ Adj R-squared = 0.4000
Total | 13577.7496 14536 .934077438 Root MSE = .74862

------------------------------------------------------------------------------
ln_sal_hora | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
filho | -.209508 .0202922 -10.32 0.000 -.2492833 -.1697328
idade | .0604502 .0028366 21.31 0.000 .05489 .0660103
idade2 | -.0005105 .0000332 -15.37 0.000 -.0005756 -.0004454
sexo | -.346604 .0129488 -26.77 0.000 -.3719854 -.3212227
educa | .1304724 .0014665 88.97 0.000 .1275979 .1333469
_cons | -.4814204 .061482 -7.83 0.000 -.601933 -.3609078
------------------------------------------------------------------------------

. vif

Variable | VIF 1/VIF
-------------+----------------------
idade | 33.37 0.029969
idade2 | 30.63 0.032650
filho | 1.63 0.611927
educa | 1.11 0.901243
sexo | 1.04 0.961969
-------------+----------------------
Mean VIF | 13.56


No stata:

. collin idade idade2 sexo educa filho

Collinearity Diagnostics

SQRT R-
Variable VIF VIF Tolerance Squared
----------------------------------------------------
idade 27.65 5.26 0.0362 0.9638
idade2 19.99 4.47 0.0500 0.9500
sexo 1.02 1.01 0.9843 0.0157
educa 1.55 1.25 0.6449 0.3551
filho 3.11 1.76 0.3218 0.6782
----------------------------------------------------
Mean VIF 10.66

Cond
Eigenval Index
---------------------------------
1 4.3513 1.0000
2 1.0883 1.9996
3 0.3723 3.4187
4 0.1424 5.5283
5 0.0395 10.4905
6 0.0063 26.3514
---------------------------------
Condition Number 26.3514
Eigenvalues & Cond Index computed from scaled raw sscp (w/ intercept)
Det(correlation matrix) 0.0194
No stata: graph matrix fam peer school
Multicolinearidade
No existe cura para a colinearidade.

1. Excluso de variveis: eliminar as variveis que causam o problema impor
na regresso a hiptese de que a varivel problemtica no deve aparecer
no modelo. Possvel problema de especificao.

2. Obteno de mais dados: dados adicionais e tamanho da amostra.

3. Formalizar os relacionamentos entre os regressores: equaes simultneas.

4. Especificar o relacionamento entre alguns parmetros: dois parmetros
iguais ou que a soma das elasticidades deve ser igual a um, etc.

5. Anlise componente principal: as variveis colineares poderiam ser
agrupadas para formar um ndice composto capaz de representar este
conjunto de variveis. Varivel s pode ser criada se tiver uma
interpretao econmica.



Econometria
2. Observaes missing
3. Testes de hipteses no modelo de regresso linear
4. Propriedades assintticas dos estimadores MQO


Danielle Carusi Machado - UFF - Econometria
2/2010
Observaes missing

Existem gaps no banco de dados.
Em surveys, entrevistados no respondem as
perguntas.
Srie temporal: dado no existe na frequncia
desejada.
Painel: atrito as unidades observacionais
deixam de ser investigadas.
Observaes missing
Informaes missing de forma aleatria:
a informao no est disponvel por razes
desconhecidas e;
no h relao com os valores presentes para outras
variveis existentes na amostra.
As informaes no so perdidas de forma
aleatria (esto sistematicamente relacionadas
com fenmeno que est sendo modelado)
problema de seleo amostral.
Imputao de dados
Regressores:
Mtodo de ordem zero: substitui os valores missing
pelas mdias das informaes completas melhora
no ajuste.
Predies com base nas outras variveis disponveis.
Nos dois casos acima, a varivel verdadeira
substituda por uma proxy: (erro de medida) - vis
ik
u
ik
x
ik
x + =

Imputao de dados
Varivel dependente:
Informaes dos regressores est completa.
Estimar os coeficientes e gerar uma predio para
os valores faltantes.
b
c
calculado com base nas informaes completas
de y
c
e X
c.

No segundo passo, o estimador da varincia ser
menor pois est incluindo observaes exatas de y.
A imputao s vale a pena se a % imputada
muito pequena.


c
b
m
X
m
y =

Potrebbero piacerti anche