Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
ECONOMETRIA CROSS-SECTION:
UMA ANLISE CROSS-COUNTRY
DOS INDICADORES DE
INVESTIMENTO DO WDI
BRUNO CANDEA
BARBARA WERNER
TIAGO TEUBER
THALES GAZOLA
Sumrio
Introduo.........................................................................................................................................................3
Econometria Cross-Section, anlise Cross-Country. .......................................................................3
Abordando um tema real: Millenium Goals e WDI .........................................................................3
Especificao dos dados ..........................................................................................................................5
Especificaes tcnicas .............................................................................................................................5
Sistemas operacionais utilizados .......................................................................................................5
Softwares utilizados ...............................................................................................................................6
Ferramentas importantes.....................................................................................................................6
Pacotes utilizados no R ........................................................................................................................6
Testes e Modelos Iniciais..............................................................................................................................6
Especificao do modelo .............................................................................................................................7
Especificao Matemtica do modelo de regresso mltipla com testes iniciais ................8
Testando o modelo criado ........................................................................................................................ 10
Normalidade dos dados......................................................................................................................... 10
Shapiro-Wilk .......................................................................................................................................... 10
Jarque-Bera ............................................................................................................................................ 10
Normalidade dos Resduos ................................................................................................................... 11
Shapiro-Wilk .......................................................................................................................................... 11
Jarque-Bera ............................................................................................................................................ 11
Presena de Outliers................................................................................................................................ 12
p-value de Bonferroni ......................................................................................................................... 12
Anlise grfica dos resduos ............................................................................................................. 13
Mtrica de Cook ................................................................................................................................... 14
Heterocedasticidade .............................................................................................................................. 15
Inspees grficas dos resduos ...................................................................................................... 16
Breusch-Pagan ...................................................................................................................................... 16
Goldfeld-Quandt .................................................................................................................................. 17
Correes da heterocedasticidade ................................................................................................. 17
Multicolinearidade.................................................................................................................................... 18
VIF (Variance Inflator Factor) ............................................................................................................ 19
Correlao (No-Serial) .......................................................................................................................... 19
INTRODUO
Em Econometria, podemos destacar trs tipos principais de estruturas de dados: Cross-Sections,
ou cortes no tempo, que relacionam variveis explicativas a uma varivel dependente, em um ponto nico
no tempo, com diversos itens (pases, cidades, empresas, indivduos, etc). A seguir, temos as sries
temporais, estruturas interessantes que fazem esta mesma relao, porm com relao a um item de
cada vez, e ao longo do tempo, e, alm destas, temos a anlise longitudinal, ou de painis, que relaciona
variveis explicativas a variveis dependentes, ao longo do tempo e para diversos itens.
Neste trabalho, procuraremos relacionar algumas das caractersticas economtricas de uma anlise
Cross-Section, aplicada a um tema real, do tipo Cross-Country (anlise de um conjunto de pases),
construo e testes de hipteses, e modelagem de um fenmeno econmico.
ESPECIFICAES TCNICAS
Toda anlise economtrica tem por
objetivo estudar fenmenos econmicos reais, da
maneira mais robusta possvel, com o objetivo de
produzir cincia, i.e., experimentos que possam
ser recriados, testados e confirmados ou
refutados, e, com vista a isto, publicamos todos os
arquivos no banco de dados online da Mendeley
Data, conforme citado na seo anterior, para
testes, pesquisas e comentrios posteriores. Outro
cuidado geralmente tomado em produes
cientficas, das mais bsicas, como esta, s mais
avanadas, o de documentar as especificaes
tcnicas usadas na realizao dos experimentos:
SOFTWARES UTILIZADOS
I. Microsoft Excel 2016, developer edition.
II. R Software, verso 3.3.0, construo x86_64w64-mingw32/x64
FERRAMENTAS IMPORTANTES
I. Plotly Ferramenta para plotar grficos
interativos para arquivos excel e csv.
PACOTES UTILIZADOS NO R
I. corrgram Excelente para plotagem de
correlogramas, carrega diversos outros pacotes
grficos.
II. car pacote estatstico com funes e testes
para regresses lineares.
III. AER pacote estatstico com funes
avanadas de econometria aplicada.
IV. tseries pacote estatstico com funes de
sries temporais, mas com testes que so teis em
qualquer tipo de estrutura de dados.
ESPECIFICAO DO MODELO
Aps termos realizado duas baterias de
testes com nossas variveis pr-selecionadas,
trataremos de realizar uma terceira bateria de
testes, desta vez com modelos de regresso linear
mltipla que combinem vrias variveis.
Depois de inmeros testes, com diversos
modelos diferentes, tanto lineares quanto
logartmicos (log-log), selecionamos um modelo
que apresentaremos agora.
Tambm apresentaremos uma breve
discusso acerca das formas funcionais, e de
SHAPIRO-WILK
Proposto em 1965, o teste baseado na
estatstica W, calculada por:
10
JARQUE-BERA
Introduzidos por Carlos Jarque e Anil Bera,
o teste basicamente uma medio da qualidade
de ajuste da amostra, partir de suas
caractersticas de assimetria e curtose, para
verificar se os dados provm de uma distribuio
aproximadamente normal com ( = 0, 2 = 2 ).
O teste definido pela estatstica JB por:
SHAPIRO-WILK
Este teste relaciona as estatsticas dos
terceiro e quarto momentos centrais da amostra,
como demostrado acima, e uma forma de
confirmao ou no da hiptese nula de
normalidade dos dados da amostra.
Ao carregarmos o teste de Jarque-Bera no
R, a partir da funo jarque.bera.test(model) do
pacote tseries, chegamos mesma concluso dos
testes de Shapiro- Wilk, quanto a nonormalidade dos dados da nossa amostra. Os
resultados so demonstrados a seguir:
JARQUE-BERA
11
PRESENA DE OUTLIERS
Outliers so observaes que se
distanciam muito do padro comum encontrado
no restante dos dados. Em geral, o problema que
causam que podem criar uma falsa
heterocedasticidade no modelo.
De maneira geral, a presena de outliers
pode causar o que Zimmerman (1994, 1998, 1999)
categorizou como erros inflados, e distores
substanciais na aferio de testes para parmetros
ou estatsticas, usando ou no estimativas
paramtricas.
Outro fenmeno que pode ocorrer, mas
com uma frequncia mais rara, a presena de
12
P-VALUE DE BONFERRONI
Um dos valores reportados pelo teste
outlierTest do pacote car o da estatstica de
Bonferroni. Esta estatstica, proposta pelo
matemtico italiano Carlo Emilio Bonferroni e
descrito por Olive Dunn em seus artigos de 1959
e 1961, reporta um teste que verifica o quo
prejudiciais os dados de observaes muito
distantes da amostra podem ser.
De modo geral, para valores da estatstica
de Bonferroni acima de 1, suspeitamos que a
observao seja um outlier, e podemos inferir que
teste:
Assim, mantemos a suposio de presena
de outliers nas 16a e 36a observaes, pelo menos.
value de Bonferroni:
Outra forma de anlise grfica trata dos
13
MTRICA DE COOK
Tomando como base a diagonal principal
da matriz chapu H que demonstramos pouco,
e chamando cada elemento de hi, temos que a
mtrica da Distncia D de Cook dada por:
14
HETEROCEDASTICIDADE
Um dos problemas que podem ocorrer
quando trabalhamos com regresses lineares o
da heterocedasticidade, ou seja, os erros passam
a ter uma varincia que no mais constante.
Uma das possveis causas deste problema
na estimao a presena de dados discrepantes,
ou seja, observaes muito diferentes das demais
observaes da amostra. Como j realizamos os
15
apresenta,
aparentemente,
um
padro
heterocedstico. Analisaremos agora o modelo
logartmico (faremos comparaes entre os
modelos a partir deste ponto):
BREUSCH-PAGAN
O teste de Breusch-Pagan um dos mais
utilizados para testar a presena de
heterocedasticidade. Baseando-se em modelos
da forma:
16
CORREES DA HETEROCEDASTICIDADE
A primeira das medidas de visualizao
dos modelos aplicadas foi a fracionalizao do
modelo, como descrito em Gujarati (2006). Os
resultados aps as medidas foram:
GOLDFELD-QUANDT
No R, descobrimos que o teste de White
realizado atravs no teste de Goldfeld-Quandt,
algo presente nas descries tcnicas dos pacotes
car e tseries. Dado isto, designamos este teste
para a segunda verificao formal da hiptese de
heterocedasticidade.
O teste de Goldfeld-Quandt til quando
acreditamos que a varincia heterocedstica
positivamente relacionada a uma das variveis
explicativas do modelo de regresso.
Nesta estrutura de teste, fazemos a
ordenao das observaes de acordo com os
valores de X, omitimos observaes centrais,
dividindo as restantes em dois grupos distintos,
ajustamos regresses por MQO separadas para
estes dois conjuntos e estimamos a razo GQ.
No caso do nosso modelo, obtivemos as
seguintes estatsticas de teste, que confirmaram,
tal qual os testes de Breusch-Pagan, a hiptese de
heterocedasticidade no modelo linear e
homocedasticidade no modelo log.
17
DUMMIES
Uma das medidas que podem ser
adotadas
na
presena
persistente
de
heterocedasticidade, como no caso do nosso
modelo linear, criar dummies categricas no
modelo. De fato, havamos coletado informaes
sobre o grupo de renda ao qual cada pas
pertence. Utilizamos o R, portanto, para criar
dummies que categorizam os pases segundo seu
grupo, assumindo valores 1 ou 0 para as seguintes
categorias: A se o pas de baixa renda, B se de
renda mdia, C se de renda mdia alta, e D se
de renda alta, todos critrios baseados no nvel de
renda per capita, que acompanham o padro
criado na terceira filtragem de dados.
Com a criao de dummies, chegamos ao
seguinte modelo:
MULTICOLINEARIDADE
18
CORRELAO (NO-SERIAL)
Outra hiptese a ser verificada a da
autocorrelao, ou correlao serial. Em geral,
dizemos da autocorrelao que o problema que
ocorre quando os erros so correlacionados.
No caso de dados de corte transversais,
dizemos que o problema na verdade de
correlao no-serial.
A autocorrelao um problema que
assola as sries temporais, e depende de
inferncias a respeito do processo gerador dos
dados, do grau de autoregresses (AR), da
presena ou no de estacionariedade, que a
caracterstica de que os principais momentos
centrais (mdia, varincia e covarincia) no
variam ao longo do tempo.
Neste caso, usaramos os testes de
Breusch-Godfrey, ou o de Durbin-Watson para
verificarmos a presena de autocorrelao.
Como estamos trabalhando com dados
cross-section, vamos utilizar a hiptese clssica do
MQO de ausncia de autocorrelao. De toda
forma, recomenda-se, sob a suspeita de presena
de correlao entre os termos de erro, construir
uma modelagem por meio da matriz robusta de
White e de Mnimos Quadrados Generalizados,
duas medidas que tomamos o cuidado de realizar.
Quanto matriz robusta de White, demonstramos
na seo sobre heterocedasticidade, e quanto ao
mtodo de estimao por MQG, demonstraremos
a seguir:
19
20
MQGF - MNIMOS
QUADRADOS GENERALIZADOS
FACTVEIS
Quando no conhecemos a forma
funcional correta do modelo de estimao por
MQG,
quando
temos
presena
de
heterocedasticidade, ou quando notamos a
presena de certa correlao entre os resduos,
geralmente nos deparamos com uma situao na
qual os estimadores de MQO podem no ser os
BLUE, ou at mesmo podem ser viesados,
podemos utilizar o mtodo de MQG Factveis,
onde criamos uma regresso auxiliar, que no caso
do nosso modelo dada pela regresso
logartmica auxiliar:
21
COMPARAES FINAIS E
ESCOLHA DO MODELO
Levando em considerao todos os
resultados at aqui obtidos, os testes, as filtragens
de dados e todas as caractersticas de cada
modelo, e das particularidades que a temtica
deste trabalho nos traz, realizamos ultimas
comparaes entre os resultados obtidos.
Em relao a qualidade terica,
deveramos utilizar o modelo logartmico
estimado por meio dos MQGF, pois um modelo
abrangente, com a menor presena de
heterocedasticidade envolvida, correlaes entre
os termos de erro corrigidas, e caractersticas
inerentes de BLUE.
22
23
DEMONSTRAO DA
CAPACIDADE DE ESTIMAO DO
MODELO
Segue uma breve demonstrao da
capacidade de predio do modelo linear
estimado por MQG:
Pas
Albania
Algeria
Angola
Argentina
Armenia
Bangladesh
Belarus
Bolivia
Botswana
Brazil
Bulgaria
Cabo Verde
Cambodia
Cameroon
Colombia
Cote d'Ivoire
D. Republic
Ecuador
Egypt
El Salvador
Georgia
Ghana
Guatemala
Honduras
India
Indonesia
Iran
Jamaica
Kazakhstan
Kenya
Kyrgyz Rep.
Liberia
Madagascar
Malaysia
Mexico
Moldova
Morocco
PIB
Estimado
Y-
4081.53
4110.98
-29.45
4764.58
4170.62
593.97
4304.18
2945.66
1358.51
11205.08
10912.51
292.57
3308.33
3288.03
20.30
815.10
677.26
137.85
6034.09
7223.98 -1189.88
2286.77
3228.72
-941.96
6384.13 10963.23 -4579.10
10015.90 11628.04 -1612.15
6855.17
7067.11
-211.94
115.91
118.18
-2.26
601.87
543.91
57.96
740.48
861.99
-121.51
6314.40
6516.64 -202.24
1291.91
1752.38 -460.47
5525.16
2467.92 3057.24
5073.68
4980.53
93.15
2712.47
2796.48
-84.01
3712.07
3872.83
-160.77
3314.82
3107.85
206.97
1381.25
2472.70 -1091.45
3115.66
2764.95
350.71
2157.89
3441.57 -1283.68
1305.87
1232.70
73.17
2935.36
2214.73
720.62
5943.61
4532.76
1410.85
4999.05
5820.40
-821.34
10199.01
7151.84 3047.17
1098.24
1999.74
-901.50
1014.13
1544.27
-530.14
354.26
296.72
57.54
430.91
375.43
55.48
9300.19
9632.67 -332.48
9439.73
9456.11
-16.39
1720.41
3386.83 -1666.42
2928.24
3912.82 -984.58
Mozambique
Nepal
Nicaragua
Pakistan
Peru
Philippines
Romania
Russia
Senegal
Serbia
Sierra Leone
South Africa
Sri Lanka
Tajikistan
Tanzania
Thailand
Togo
Turkey
Uganda
Ukraine
Vanuatu
Vietnam
Yemen, Rep.
Zambia
515.99
586.88
1664.12
1161.93
5235.51
2289.21
8678.01
11776.84
1011.74
5711.72
571.11
6625.85
2790.50
816.91
735.88
5070.51
537.73
9911.07
590.16
3101.75
2854.33
1502.58
1233.73
1469.02
688.74
586.88
2513.39
994.00
3984.44
1837.42
7613.03
10331.36
1932.46
7280.69
675.33
7819.01
1720.00
1043.90
837.35
4521.60
479.59
6638.72
612.92
4441.88
3535.22
1746.51
1302.30
1020.23
-172.74
0.00
-849.27
167.93
1251.07
451.79
1064.97
1445.48
-920.72
-1568.96
-104.23
-1193.16
1070.49
-226.99
-101.46
548.91
58.14
3272.35
-22.75
-1340.12
-680.89
-243.92
-68.57
448.79
24
FILTRAGENS DE DADOS
Ao longo do trabalho, foram citadas as
quatro filtragens de dados realizadas. So elas:
25
BIBLIOGRAFIA
World Bank, 2016. World Development Indicators
2016. DC. World Bank. Disponvel em:
https://issuu.com/world.bank.publications/docs/9
781464806834?e=0/35179276
Acessado em: 01 de julho de 2016.
26