Sei sulla pagina 1di 27

2016

ECONOMETRIA CROSS-SECTION:
UMA ANLISE CROSS-COUNTRY
DOS INDICADORES DE
INVESTIMENTO DO WDI
BRUNO CANDEA
BARBARA WERNER
TIAGO TEUBER
THALES GAZOLA

Banco de dados e script publicados em 09 de agosto de 2016 em:


https://data.mendeley.com/datasets/gmfc38cdfj/1

Sumrio
Introduo.........................................................................................................................................................3
Econometria Cross-Section, anlise Cross-Country. .......................................................................3
Abordando um tema real: Millenium Goals e WDI .........................................................................3
Especificao dos dados ..........................................................................................................................5
Especificaes tcnicas .............................................................................................................................5
Sistemas operacionais utilizados .......................................................................................................5
Softwares utilizados ...............................................................................................................................6
Ferramentas importantes.....................................................................................................................6
Pacotes utilizados no R ........................................................................................................................6
Testes e Modelos Iniciais..............................................................................................................................6
Especificao do modelo .............................................................................................................................7
Especificao Matemtica do modelo de regresso mltipla com testes iniciais ................8
Testando o modelo criado ........................................................................................................................ 10
Normalidade dos dados......................................................................................................................... 10
Shapiro-Wilk .......................................................................................................................................... 10
Jarque-Bera ............................................................................................................................................ 10
Normalidade dos Resduos ................................................................................................................... 11
Shapiro-Wilk .......................................................................................................................................... 11
Jarque-Bera ............................................................................................................................................ 11
Presena de Outliers................................................................................................................................ 12
p-value de Bonferroni ......................................................................................................................... 12
Anlise grfica dos resduos ............................................................................................................. 13
Mtrica de Cook ................................................................................................................................... 14
Heterocedasticidade .............................................................................................................................. 15
Inspees grficas dos resduos ...................................................................................................... 16
Breusch-Pagan ...................................................................................................................................... 16
Goldfeld-Quandt .................................................................................................................................. 17
Correes da heterocedasticidade ................................................................................................. 17
Multicolinearidade.................................................................................................................................... 18
VIF (Variance Inflator Factor) ............................................................................................................ 19
Correlao (No-Serial) .......................................................................................................................... 19

MQG - Mnimos Quadrados Generalizados ....................................................................................... 20


MQGF - Mnimos Quadrados Generalizados Factveis .................................................................... 21
Comparaes finais e escolha do modelo .......................................................................................... 22
Demonstrao da capacidade de estimao do modelo .............................................................. 24
Filtragens de dados..................................................................................................................................... 25
Primeira filtragem de dados ................................................................................................................ 25
Segunda filtragem de dados ............................................................................................................... 25
Terceira filtragem de dados ................................................................................................................. 25
Quarta filtragem de dados ................................................................................................................... 25
Quinta filtragem de dados ................................................................................................................... 25
Bibliografia ..................................................................................................................................................... 26

INTRODUO
Em Econometria, podemos destacar trs tipos principais de estruturas de dados: Cross-Sections,
ou cortes no tempo, que relacionam variveis explicativas a uma varivel dependente, em um ponto nico
no tempo, com diversos itens (pases, cidades, empresas, indivduos, etc). A seguir, temos as sries
temporais, estruturas interessantes que fazem esta mesma relao, porm com relao a um item de
cada vez, e ao longo do tempo, e, alm destas, temos a anlise longitudinal, ou de painis, que relaciona
variveis explicativas a variveis dependentes, ao longo do tempo e para diversos itens.
Neste trabalho, procuraremos relacionar algumas das caractersticas economtricas de uma anlise
Cross-Section, aplicada a um tema real, do tipo Cross-Country (anlise de um conjunto de pases),
construo e testes de hipteses, e modelagem de um fenmeno econmico.

ECONOMETRIA CROSS-SECTION, ANLISE


CROSS-COUNTRY.
Uma anlise cross-country pode ser
considerada aquela que relaciona uma estrutura
de dados de pases, compondo um dado banco
de dados. Pode ser interessante como forma de
anlise de variveis macroeconmica mais
generalizadas, que usam, por exemplo, o PIB,
produto interno bruto (em ingls, GDP, Gross
Domestic Product) ou o PNB, produto nacional
bruto (em ingls, GNI, Gross National Income),
como formas de mensurar o quanto um pas
produz.
Em alguns casos, de anlises de
regresses lineares espaciais, geograficamente
ponderadas, ou de dados mais especficos, este
tipo de anlise pode no ser o mais recomendado,
pois no leva em considerao diversos fatores de
maior peculiaridade que podem influenciar nos
resultados da regresso, ou de previses, se for
este o objeto pretendido pela anlise de
regresso.
Um exemplo disto que, ao analisarmos
renda, consumo e investimento por meio de uma
Cross-Country, por exemplo, teramos limitaes
pelo fato de que diferentes pases podem ter
hbitos de consumo diferentes, para diferentes
nveis de renda. O consumo pode ser
determinado por hbitos culturais, ou religiosos,
por exemplo. O investimento e at mesmo a
renda podem, da mesma forma, ser influenciados
por questes similares, e isto tudo torna a anlise
mais complexa.

No caso deste trabalho, no entanto,


tomamos o cuidado de utilizar somente variveis
previamente estudadas acerca de metodologia de
coleta, e buscamos apenas aquelas que tenham
sido verificadas, e analisadas anteriormente pelo
Banco Mundial e/ou rgos acreditados.
Recomenda-se ter este cuidado sempre, para que
a anlise possa ser a mais limpa possvel de
interferncia por meio de amostragem indevida,
i.e., que no tenha sido gerada atravs de um
processo aleatrio, estatisticamente vlido.

ABORDANDO UM TEMA REAL: MILLENIUM


GOALS E WDI
Ao realizar um estudo economtrico,
devemos nos preocupar em colher dados
confiveis e bem trabalhados, como mencionado
antes, e tambm em tratar de um assunto real,
que envolva uma teoria por trs, e que possamos
analisar. Desta forma, abordemos agora o tema
que motivou este estudo economtrico breve:
No ano 2000, a Organizao das Naes
Unidas, ONU, oficializou os esforos por melhorar
as condies de vida a nvel mundial, com a
criao do United Nations Millenium Goals
Declaration, documento assinado pelos 189 pases
membros da organizao na poca, e por mais de
20 parcerias, de outras organizaes mundiais.
Esta declarao tinha como objetivo coordenar
quais seriam os objetivos mais importantes, seu
prazo e como seriam atingidos. Inicialmente, os

oito Millenium Goals foram1 estes demonstrados


na imagem abaixo desta pgina.
Visando a importncia deste tema, o
Banco Mundial, uma das principais parcerias da
ONU, e referncia em dados estatsticos de nvel
global, fez um levantamento de indicadores que
mensurassem itens contidos na descrio do

estejam na escola. O objetivo era atingir a


educao plena at 2015, mas uma reduo nos
investimentos em educao aps 2008,
apontada como fator decisivo para este objetivo
no ter sido completo. Dentro deste tema,
coletamos dados sobre os investimentos feitos em
educao pelo Estado, em relao ao PIB.

plano da ONU para cada um destes Millenium


Goals. Este levantamento de dados deu origem a
um dos seus principais e mais acessados bancos
de dados, denominado World Development
Indicators.
Em seu report oficial de 20162 sobre estes
indicadores de desenvolvimento mundiais, o
Banco Mundial ressalta a importncia de
investimentos em educao e infraestrutura, e
sobretudo com parcerias que incluam o setor
privado, como forma de gerar e consolidar
crescimento econmico, afirmao que despertou
o interesse que levou a este trabalho.
Uma anlise prvia dos dados refletia a
relevncia de mensurar estatsticas slidas que
tem impacto principalmente em dois dos oito
objetivos estabelecidos nos Millenium Goals da
ONU:
O primeiro objetivo a levarmos em
considerao o de atingir educao primria
universal (MG2). Estima-se que cerca de 91% das
crianas em idade de educao primria hoje

O segundo, atingir parcerias globais


pelo desenvolvimento (MG 8). Em 2005, em uma
reunio com ministros das finanas dos pases
membros do G-8, cerca de US$ 40 bilhes foram
concedidos para que as 48 economias menos
desenvolvidas do mundo pudessem ter quase
toda sua dvida externa quitada, gerando
oportunidade de investimento que levassem
desenvolvimento. Dentro deste tema, por sua vez,
coletamos dados sobre os investimentos feitos em
Telecomunicaes, Energia, Transporte e gua e
Saneamento, com participao do setor privado,
em relao ao PIB (% do PIB). Dados adicionais
para outras anlises tambm foram coletados,
como PNB, populao, nmero de pessoas com
acesso internet, e classificamos os pases de
acordo com seu nvel de renda per capita. Por
ltimo, criamos tambm uma dummy, que
assume valor 1 se o pas membro da OECD
(Organizao
para
a
Cooperao
e
Desenvolvimento Econmico) e 0 se no.

Para mais detalhes:


http://www.unmillenniumproject.org/goals/gti.htm

Para mais detalhes: http://data.worldbank.org/data-catalog/worlddevelopment-indicators

Sendo assim, aps a leitura dos reports


oficiais das bases de dados do Banco Mundial
WDI World Development Indicators, do ano
2012 a 2016, e do report disponibilizado pelo
rgo sobre os dados coletados, metodologia, e
relevncia, decidimos por separar, para testes
iniciais, os indicadores que sero detalhados na
seo seguinte.
Para efeito de constatao, este trabalho
testar, portanto, o papel de cada um destes
dados coletados no produto do pas, ou seja, o
efeito de variaes unitrias (e percentuais, como
ser mostrado mais adiante) das variveis
explicativas sobre o PIB, nossa varivel
dependente.

ESPECIFICAO DOS DADOS


Os dados foram originalmente coletados
na pgina oficial do Banco Mundial referente
base de dados World Development Indicators,
descritos no documento World Development
Indicators 2016, um report oficial do rgo
descrito na bibliografia deste trabalho. Aps a
coleta, todos os dados foram tratados, no
Microsoft Excel, com transformaes de
porcentagem para valores correntes, e depois
para valores per capita, tal qual descrito com mais
detalhes na seo sobre filtragem de dados e
testes iniciais.
Os dados iniciais coletados foram:
Despesas do governo com educao, em
% do PIB (SE.XPD.TOTL.GD. ZS); Despesas totais
do governo, em % do PIB (GC.XPN.TOTL.GD. ZS);
Crdito domstico ao setor privado, em % do PIB
(FS.AST.PRVT.GD.ZS);
Investimentos
em
Telecomunicaes com participao do setor
privado, em dlares correntes, e em % do PIB
(IE.PPI.TELE.CD); Investimentos em Energia com
participao do setor privado, em dlares
correntes, e em % do PIB (IE.PPI.ENGY.CD);
Investimentos em Transporte com participao do
setor privado, em dlares correntes, e em % do
PIB (IE.PPI.TRAN.CD); Investimentos em gua e
Saneamento com participao do setor privado,
em dlares correntes, e em % do PIB
(IE.PPI.WATR.CD) e nmero de pessoas com acesso
internet por 100 pessoas (IT.NET.USER.P2).

Alm destes dados, foram coletados o PIB,


em dlares correntes, o PNB, tambm em dlares
correntes, e a populao de cada pas. A partir
destes dados, foi possvel criar uma planilha que
contm todas estas informaes, e que capaz de
realizar as devidas converses.
A planilha que criamos, nomeada como
excel_wdi.xls, foi publicada no site de referncias
bibliogrficas e dados Mendeley Data, com licena
de uso do tipo GNU, aberta para pesquisa,
modificaes e republicaes, no artigo intitulado

World Bank WDI: Investments in Education and


Infrastructure with Participation of State and
Private Sector, juntamente do script que criamos,
nomeado rscript_wdi.r e utilizado neste trabalho.
O link permanente, e qualquer pessoa pode
fazer o download tanto da planilha quanto do
script no seguinte endereo:
https://data.mendeley.com/datasets/gmfc38cdfj/1 .

ESPECIFICAES TCNICAS
Toda anlise economtrica tem por
objetivo estudar fenmenos econmicos reais, da
maneira mais robusta possvel, com o objetivo de
produzir cincia, i.e., experimentos que possam
ser recriados, testados e confirmados ou
refutados, e, com vista a isto, publicamos todos os
arquivos no banco de dados online da Mendeley
Data, conforme citado na seo anterior, para
testes, pesquisas e comentrios posteriores. Outro
cuidado geralmente tomado em produes
cientficas, das mais bsicas, como esta, s mais
avanadas, o de documentar as especificaes
tcnicas usadas na realizao dos experimentos:

SISTEMAS OPERACIONAIS UTILIZADOS


I. Windows 10 Home Edition, processador 64 bits,
arquitetura x86.
II. Windows 10 Professional, processador 32 bits,
arquitetura x32.
III. Windows 7 Professional, processador 32 bits,
arquitetura x32.

SOFTWARES UTILIZADOS
I. Microsoft Excel 2016, developer edition.
II. R Software, verso 3.3.0, construo x86_64w64-mingw32/x64

FERRAMENTAS IMPORTANTES
I. Plotly Ferramenta para plotar grficos
interativos para arquivos excel e csv.

PACOTES UTILIZADOS NO R
I. corrgram Excelente para plotagem de
correlogramas, carrega diversos outros pacotes
grficos.
II. car pacote estatstico com funes e testes
para regresses lineares.
III. AER pacote estatstico com funes
avanadas de econometria aplicada.
IV. tseries pacote estatstico com funes de
sries temporais, mas com testes que so teis em
qualquer tipo de estrutura de dados.

TESTES E MODELOS INICIAIS


Assim que coletamos os dados
necessrios, a primeira preocupao foi realizar
uma bateria de testes para decidir quais deles
melhor se encaixariam em um modelo final que
pudesse ser utilizado na predio de sries de
dados.
Uma a uma, todas as variveis explicativas
(a varivel dependente ser, em todo o trabalho,
o PIB) foram testadas por meio de modelos
laterais. Algumas se mostraram estatisticamente
significativas, outras no. Nesta primeira filtragem
de dados, as variveis was, (water and sanitation,
referente investimentos em gua e
saneamento), poderia ser retirada do resto da
anlise, por falta de significncia e por excessiva
falta de dados disponveis (o R removeu 166 linhas
de dados devido a NAs). Outra varivel
descartada foi a dummy OECD, omd (de Oecd

Member Dummy), que tambm demonstrou


muito pouca significncia estatstica, e um p-value
de 0.99, o que nos fez descarta-la de nosso futuro
modelo.
As variveis remanescentes foram edu,
que representa os investimentos em educao,
tel, que representa os investimentos em
telecomunicaes, cdt, que representa o crdito
domstico dado ao setor privado, e a varivel eng,
que representa os investimentos em energia.
Doravante, mencionaremos nos testes o
nome das variveis apenas, para facilitarmos o
entendimento e no termos um texto com muitas
repeties.
Seguem os resultados dos primeiros
testes iniciais das variveis significativas:
PIB ~ Educao: Significativo a um p-value
extremamente baixo, com erro padro baixo e
valores significativos nos testes t-student para
significncia do parmetro, e F, para significncia
da regresso. Notamos um R muito alto, com R
ajustado igualmente alto. Falaremos sobre isto
mais frente, e como um valor muito alto de R
pode na verdade ser fruto de uma correlao
entre a varivel explicativa e a varivel
dependente, ou ainda fruto de um processo de
retroalimentao, o que tornaria nossa anlise
muito mais complexa, e fugiria do escopo deste
trabalho em si (Visualizao dos resultados na
pgina seguinte).
PIB ~ Crdito: Significativo a um p-value
extremamente baixo, apresentando inclusive um
intercepto bastante significativo, o que no possui
uma interpretao econmica clara, mas sim
estatstica. Os valores dos testes t-student e F de
Fisher-Snedecor tambm reportaram valores
significativos. Como o erro-padro da varivel cdt
extremamente baixo, e os valores de R e do R
ajustado so muito altos, suspeitamos de que o
mesmo problema anterior, da varivel edu, possa
estar ocorrendo nesta regresso (Visualizao dos
resultados do R tambm na pgina seguinte).
PIB ~ Telecom: Significativo a um p-value
extremamente baixo, com um valor considerado
normal de erro-padro, dados os graus de
liberdade observados, com um R razovel

acompanhado de um R ajustado que se enquadra


no normal esperado para uma regresso simples
como esta. Com testes t-student e F FisherSnedecor bons, e caractersticas que no saltam
os olhos de maneira indevida a princpio,
podemos dizer que aparentemente a regresso
possua poucos problemas, e que os processos
geradores dos dados no tenham problemas de
correlao excessiva com a varivel dependente,
embora possa ocorrer alguma relao deste tipo,
bem como problemas de retroalimentao, como
no caso das demais variveis. Novamente, isto
fugiria ao escopo deste trabalho, e, portanto,
assumiremos que tel uma varivel legtima
(Visualizao dos resultados do R abaixo).
PIB ~ Energia: Embora tenha sido a varivel cuja
regresso, dentre estes modelos iniciais reportou
os menores valores de R e R ajustado, verificamos
um F de Fisher-Snedecor relativamente alto,
aceitvel a 5%, assim como o valor do teste tstudent. Tal qual a varivel tel, a varivel eng
uma boa aposta para os prximos modelos de
regresso (Visualizao dos resultados do R
abaixo).
De maneira geral, estas variveis foram
consideradas aptas a passarem por outros testes.

Estes testes consistiram na segunda filtragem de


dados, onde transformamos todos os dados em
variveis per capita afim de diminuir o nvel de
variao entre os dados. Todos os testes
realizados na primeira filtragem de dados foram
refeitos, e reportaram resultados similares. Desta
forma, constatamos que as variveis edu, cdt, tel e
eng passaram para a prxima etapa do nosso
estudo.

ESPECIFICAO DO MODELO
Aps termos realizado duas baterias de
testes com nossas variveis pr-selecionadas,
trataremos de realizar uma terceira bateria de
testes, desta vez com modelos de regresso linear
mltipla que combinem vrias variveis.
Depois de inmeros testes, com diversos
modelos diferentes, tanto lineares quanto
logartmicos (log-log), selecionamos um modelo
que apresentaremos agora.
Tambm apresentaremos uma breve
discusso acerca das formas funcionais, e de

como escolhemos a que representar os testes


deste trabalho como um todo.

ESPECIFICAO MATEMTICA DO MODELO DE


REGRESSO MLTIPLA COM TESTES INICIAIS
A escolha correta da forma funcional de
um modelo de regresso, seja linear ou no nos
parmetros, seja ele simples ou mltiplo, de
qualquer que seja a estrutura, se cross-section ou
no, extremamente importante. Erros na
especificao correta do modelo podem incorrer
em um vis muito comum, de especificao, e
resultar em um modelo com pouco ou nenhum
poder preditivo.
De maneira geral, temos os modelos de
regresso linear, onde os dois lados da equao
de regresso so definidos por variveis lineares.
Neste modelo, uma variao unitria em X causa
unidades de variao em Y.
De maneira parecida, temos os modelos
semilogartmicos, que podem assumir as formas
lin-log ou log-lin, a depender de qual lado da
equao ser logaritmizado. Nestes tipos de
modelos, temos semi-elasticidades, ou seja, uma
variao unitria em X (para o caso de um modelo
log-lin), causa pontos percentuais em Y, ou uma
variao de um ponto percentual em X causa
unidades de variao em Y (modelo lin-log).
H ainda os modelos duplo-log, em que
ambos os lados da equao so logartmicos,
modelos recprocos, que incluem uma assntota
ou valor limite, que a varivel dependente Y
assumir quando X aumentar indefinidamente, e
que no linear no parmetro X.
Alm destes, h muitos outros, modelos
logsticos, logit, tobit, entre outros. Nos
concentraremos, neste trabalho, dadas as
caractersticas dos dados e do problema
estudado, em dois tipos de modelo: linear em Y e
em X, e duplo-log, ou seja, log em Y e em X.
Assim, aps todos os testes realizados,
definidos na terceira bateria de testes, chegamos
a um modelo que referenciava as variveis edu,
tel, e tra, que inclusive havia sido descartada na
segunda bateria de testes com modelos diversos.
Os resultados desta bateria de dados nos levaram
a observar mais de perto os problemas dos dados,

que estavam ainda referenciados em dlares


correntes. Suspeitamos ento definimos que o
melhor modelo possvel para continuarmos a
anlise seria dado por:
= 0 + 1 4 + 2 4 + 3 4 +
Com variveis j conhecidas por ns. O
valor 4 frente das variveis uma referncia
quarta filtragem de dados realizada. No final deste
trabalho, h uma seo que explica brevemente
cada uma destas filtragens de dados, mas o mais
importante que, durante as trs primeiras
filtragens, foram eliminadas variveis que
possuam muitas observaes de NAs, que no
possuam nenhuma significncia estatstica, e que
no se comportavam bem por um vis de
especificao da varivel. Nesta quarta etapa de
tratamento dos dados, criamos um arquivo final,
chamado data4.csv, que contm observaes
robustas para 66 pases, sem NAs, e com todos
os valores previamente convertidos para dados
per capita, afim de criar a melhor base de dados
possvel para o modelo.
A esta altura, podemos agora demonstrar
os resultados do primeiro run do nosso modelo:
As variveis edu, tel, e eng se mostraram
significativas, tanto a 2%, como o caso de eng
quanto a valores muito baixos, no caso das
outras variveis. O intercepto no possui
significncia estatstica, o que poderia causar
problemas na predio correta do PIB.
O valor da estatstica F de Fisher-Snedecor
se mostrou satisfatrio, reportando um p-value
extremamente baixo. Os valores dos coeficientes
de determinao R, bem como o R ajustado, se
mantiveram em patamares realistas, dentro do
esperado para um modelo sobre um fenmeno

to complexo quanto o PIB, embora seu valor


ainda carregue a suspeita de correlao entre as
variveis, problema investigado mais frente.
Uma rpida olhada na matriz de varincia
deste modelo inicial nos refora esta ideia, mas
devemos realizar primeiro os devidos testes para

fazer qualquer tipo de afirmativa.


Ao analisarmos, por sua vez, os resduos
desta regresso, percebemos alguns detalhes
interessantes. O primeiro destes detalhes que
aparentemente a distribuio dos erros segue
uma distribuio aproximadamente normal com
pequena assimetria esquerda, embora com

alguns pontos bem disformes, que saem bastante


do padro normal, fato mostrado no terceiro plot
abaixo (Normal Q-Q). Pelos outros grficos,
poderamos notar tambm a aparente presena
de heterocedasticidade, dado o padro de
comporta mento dos resduos, e ainda a presena
de outliers na anlise, pois todos os plots
detectaram pontos fora do comum.
Investigaremos estes problemas de
maneira mais profunda frente. Por enquanto,
vamos apenas resgatar os valores dos coeficientes
da regresso para usarmos novamente no fim
deste trabalho quando formos testar o poder de
predio de cada um dos modelos criados.

TESTANDO O MODELO CRIADO


At agora havamos nos preocupado em
criar um modelo para trabalharmos. Vimos, por
meio de uma rpida inspeo grfica, que
aparentemente h presena de outliers e de
heterocedasticidade.
Vamos, portanto, iniciar os testes para
verificar, empiricamente, as hipteses de
normalidade dos dados, presena de outliers,
heterocedasticidade,
multicolinearidade
e
correlao no-serial, que tambm entra na
hiptese anterior.

em que an-i+1 so constantes geradas pelas


mdias, varincias e covarincias das estatsticas
de ordem de uma amostra de tamanho n de uma
distribuio Normal.
Pelo teste de Shapiro-Wilk, observamos pvalues extremamente baixos para todas as
amostras coletadas, indicando que os dados no
provm de uma distribuio normal.

NORMALIDADE DOS DADOS


A hiptese de normalidade dos dados
importante para o processo de inferncia, e no
apenas a estimao, para que possamos utilizar os
procedimentos de testes de hipteses mais
simples possveis.
Sendo assim, testamos a hiptese de
normalidade dos dados por meio de dois dos
principais testes existentes: Shapiro-Wilk e JarqueBera. Existem muitos outros testes disponveis,
como o Kolmogorov-Smirnov, Anderson-Darling,
Lillefors, e muitos outros, mas vamos nos ater a
estes dois dado a facilidade de implementao,
interpretao, e o fato de que so os mais usados
geralmente.

SHAPIRO-WILK
Proposto em 1965, o teste baseado na
estatstica W, calculada por:

em que xi so os valores da amostra ordenados


(x(1) o menor). A constante b determinada da
seguinte forma:

10

JARQUE-BERA
Introduzidos por Carlos Jarque e Anil Bera,
o teste basicamente uma medio da qualidade
de ajuste da amostra, partir de suas
caractersticas de assimetria e curtose, para
verificar se os dados provm de uma distribuio
aproximadamente normal com ( = 0, 2 = 2 ).
O teste definido pela estatstica JB por:

Em geral, a presena de outliers na


amostra pode ser um fator decisivo na
normalidade dos dados.
Onde S a medida da assimetria e C a
medida da curtose da amostra, por sua vez
definidos como:

NORMALIDADE DOS RESDUOS


Outra hiptese importante de testarmos
se os resduos do nosso modelo seguem uma
distribuio normal ou no.
Utilizamos a mesma estrutura de testes,
com Shapiro-Wilk e Jarque-Bera, para testar esta
hiptese, e descobrimos que tambm os resduos
no seguem uma distribuio normal, como
demonstrados seguir:

SHAPIRO-WILK
Este teste relaciona as estatsticas dos
terceiro e quarto momentos centrais da amostra,
como demostrado acima, e uma forma de
confirmao ou no da hiptese nula de
normalidade dos dados da amostra.
Ao carregarmos o teste de Jarque-Bera no
R, a partir da funo jarque.bera.test(model) do
pacote tseries, chegamos mesma concluso dos
testes de Shapiro- Wilk, quanto a nonormalidade dos dados da nossa amostra. Os
resultados so demonstrados a seguir:

JARQUE-BERA

Em geral, para amostras de tamanho


razovel, como a nossa (66 observaes),
tomamos o cuidado tambm de realizar uma
rpida verificao grfica da distribuio dos
resduos do modelo, e no caso deste modelo, a
hiptese de no-normalidade dos resduos
tambm foi aceita, como demonstrado no
histograma dos resduos da regresso na pgina
seguinte. De modo geral, sabemos que a nonormalidade dos resduos da regresso afeta os
valores dos testes t e F em amostras pequenas ou
finitas, como o caso da nossa.

11

fringeliers, apontados por Wainer (1976) como


eventos incomuns que podem acontecer mais de
uma vez, e que por estarem prximos da fronteira
de trs desvios padro da mdia, podem causar
uma forte influncia na estimao dos parmetros
do modelo.
Na imagem abaixo percebemos que
alguns
pases
realmente
possuem
um
distanciamento das demais observaes, que
pode causar problemas ao estimarmos o modelo.
Para testarmos empiricamente a presena de
outliers, usamos o teste outlierTest(model) para
verificarmos a presena deste pontos isolados na
amostra.

PRESENA DE OUTLIERS
Outliers so observaes que se
distanciam muito do padro comum encontrado
no restante dos dados. Em geral, o problema que
causam que podem criar uma falsa
heterocedasticidade no modelo.
De maneira geral, a presena de outliers
pode causar o que Zimmerman (1994, 1998, 1999)
categorizou como erros inflados, e distores
substanciais na aferio de testes para parmetros
ou estatsticas, usando ou no estimativas
paramtricas.
Outro fenmeno que pode ocorrer, mas
com uma frequncia mais rara, a presena de

12

P-VALUE DE BONFERRONI
Um dos valores reportados pelo teste
outlierTest do pacote car o da estatstica de
Bonferroni. Esta estatstica, proposta pelo
matemtico italiano Carlo Emilio Bonferroni e
descrito por Olive Dunn em seus artigos de 1959
e 1961, reporta um teste que verifica o quo
prejudiciais os dados de observaes muito
distantes da amostra podem ser.
De modo geral, para valores da estatstica
de Bonferroni acima de 1, suspeitamos que a
observao seja um outlier, e podemos inferir que

possui influncia na distribuio dos resduos, e


que o verdadeiro valor dos resduos da regresso
Studentizados na verdade menor do que o
observado na regresso contendo outliers.
De fato, ao utilizarmos a funo
outlierTest(model) no R, reportamos o seguinte

em relao mdia podem ser considerados


fringeliers, como o caso da 36a observao,
como reportado pela estatstica do teste de p-

teste:
Assim, mantemos a suposio de presena
de outliers nas 16a e 36a observaes, pelo menos.

ANLISE GRFICA DOS RESDUOS


Outra forma de verificarmos a presena de
outliers por meio da anlise grfica de seu
comportamento. Notamos, atravs do grfico QQ
Plot a seguir, como existem observaes que se

value de Bonferroni:
Outra forma de anlise grfica trata dos

leverages dos resduos, isto , a diagonal da


matriz chapu H, criada no R (hatmodel) definida
por:

dispersam muito do restante da amostra:


Da mesma forma, podemos analisar
tambm a distribuio dos resduos ao quadrado,
e como eles se comportam em relao mdia
zero (ideal). Vimos anteriormente que resduos
que estejam na fronteira dos trs desvios padro

13

De modo geral, atravs dos grficos de


leverages, supomos a presena de outliers
influentes:

MTRICA DE COOK
Tomando como base a diagonal principal
da matriz chapu H que demonstramos pouco,
e chamando cada elemento de hi, temos que a
mtrica da Distncia D de Cook dada por:

A grosso modo, podemos dizer que D


grande quando os leverages so grandes, ou seja,
quando um ponto se distancia demais das demais
observaes, e que, quando D maior que 1,
podemos considerar o ponto, ou seja, a
observao, como um ponto influente no
processo de estimao dos parmetros.
Ao plotarmos o grfico da Distncia de
Cook para o nosso modelo, verificamos

novamente que a 36a observao da nossa


amostra se mostra muito distante das demais,
acompanhada
por
outras
observaes
aparentemente influentes:
Aps testes de influncia, comprovamos a
j esperada hiptese de presena de outliers no
nosso modelo.

14

Uma rpida inspeo grfica de outro


grfico de distncia de Cook comprova isto:
Aps a confirmao da presena de
outliers, prosseguimos com a utilizao de uma
tcnica conhecida como jackknife, que visa
eliminar pontos demasiadamente influentes da
amostra, e realiza uma nova regresso.
Dos resultados deste procedimento,
retiramos cinco das sessenta e seis observaes
da nossa amostra. So elas os pases Lao e Buto,
que realizaram grandes investimentos em Energia,
nos ltimos anos, e por isto possuam um valor
muito alto para este dado, o Chile, por ser um
outlier em Y, ou seja, possuir um PIB per capita
muito alto para os demais pases da amostra
coletada, e os pases Uruguai e Litunia, que vem
realizando macios investimentos em educao
nos ltimos anos. Percebemos que todos, exceto
o Chile, eram exemplos de outliers em Y.
O procedimento a seguir foi de criar uma
nova base de dados, resultante da quinta filtragem
de dados, em que os outliers foram removidos, e
uma amostra de maior qualidade, agora com 61
observaes, pode ser utilizada.
Com base nesta nova base de dados,
recriamos as variveis, que agora passaram a se
chamar gdp5, edu5, tel5 e eng5.

Outro modelo foi estimado, e os testes de


normalidade foram refeitos. Os dados continuam
sendo originados por uma distribuio nonormal, o que comprova que os outliers no
estavam influenciando na distribuio dos
resduos, mas sim nos parmetros.
Outro fato interessante, tambm sobre os
parmetros estimados, que o segundo modelo,
sem outliers, no possui significncia para a
varivel eng5, o que nos faz pensar que a
significncia atribuda a ela anteriormente era
meramente fruto da influncia de outliers em suas
observaes, e que demonstra o que afirmamos
no incio desta seo: a presena de outliers pode
afetar a estimao dos parmetros e das
inferncias dos testes, dado seu impacto tambm
sobre o verdadeiro erro-padro do modelo.

HETEROCEDASTICIDADE
Um dos problemas que podem ocorrer
quando trabalhamos com regresses lineares o
da heterocedasticidade, ou seja, os erros passam
a ter uma varincia que no mais constante.
Uma das possveis causas deste problema
na estimao a presena de dados discrepantes,
ou seja, observaes muito diferentes das demais
observaes da amostra. Como j realizamos os

testes e correes de outliers, pressupomos que


este no ser um problema em nosso modelo
atual, j corrigido.
Uma outra hiptese a de que pode ser
que o modelo no esteja corretamente
especificado, gerando um vis que possa levar a
observao de resduos diferentes dos
verdadeiros, ou seja, aqueles que observaramos
no caso de um modelo corretamente
especificado.
Dada esta hiptese, criamos um outro
modelo, com o qual seguiremos em paralelo
todos os prximos testes, sob a forma de duplolog. Utilizar o log dos dois lados da equao que
define o modelo economtrico pode ser til, pois
uma das propriedades do log achatar os
dados, deixando-os mais bem comportados no
modelo.
Uma outra causa da heterocedasticidade
a assimetria da distribuio de um ou mais
regressores. Vimos que nossos dados no seguem
uma distribuio normal, o que, economicamente
pode ser interpretado como a desigualdade que
encontramos dentre as economias estudadas. A
natureza das variveis que estudamos neste
trabalho so, por si s, distintas. Alguns pases
possuem maior produto, outros menos. Alguns
investem mais em educao, outros tm
priorizado transportes. Ou energia, ou possuem
baixos investimentos para todos. Sabemos como
o mundo , e de suas peculiaridades, ento
esperamos que as variveis carreguem
heterocedasticidade, principalmente por causa
deste problema.
De maneira geral, Damodar Gujarati
(2006) classifica a heterocedasticidade como um
problema que afeta mais as estruturas de corte
transversal (cross-sections) do que as sries
temporais, e de fato tnhamos a inteno de tentar
um modelo temporal, mas devido a limitaes
tcnicas, manteremos este trabalho sob o escopo
da estrutura previamente citada, e manteremos a
ideia de um trabalho similar mais aprofundado
para um futuro prximo.
Com relao ao processo de estimao
dos parmetros, a heterocedasticidade no causa
um problema em si no fato dos estimadores
continuarem a ser estimadores no-tendenciosos
para o modelo. O problema que ela causa, na

15

verdade, que os estimadores no sero mais os


melhores no-tendenciosos, visto que sua
varincia mnima no mais definida como o
usual. Com isto, deixamos de ter, no MQO, o
melhor mtodo de estimao, e passamos a
precisar do MQG, ou Mnimos Quadrados
Generalizados, para nossa regresso.
Na verdade, pode haver a presena de
BLUE (em portugus, melhor estimador notendencioso,
ou
MELNT)
mesmo
com
heterocedasticidade, nos MQO, como demonstra
o teorema de Kruskal (condio suficiente para
haver BLUE em MQO), mas isto, no entanto, algo
mais raro, e de maneira geral no caso que
temos em mos neste trabalho.
Com isto em mente, demonstraremos os
testes e medidas corretivas tomadas em nosso
modelo.

INSPEES GRFICAS DOS RESDUOS


O primeiro teste que fizemos, informal,
o da inspeo grfica do comportamento dos
resduos. Demonstramos, junto dos testes de
outliers, que os resduos possuamos diversos
pontos que saltavam mdia das demais
observaes. Verificaremos agora se, aps a
correo de jackknife, houve mudanas nos
resduos do nosso modelo:

apresenta,
aparentemente,
um
padro
heterocedstico. Analisaremos agora o modelo
logartmico (faremos comparaes entre os
modelos a partir deste ponto):

De maneira geral, notamos um melhor


comportamento do modelo logartmico. Ainda
assim, prosseguimos com os testes, desta vez,
utilizando procedimentos formais de testes da
hiptese de heterocedasticidade.

BREUSCH-PAGAN
O teste de Breusch-Pagan um dos mais
utilizados para testar a presena de
heterocedasticidade. Baseando-se em modelos
da forma:

Regredimos o modelo contra o resduo:

E aferimos a seguinte estatstica:


~
Para os nossos modelos, encontramos os
seguintes resultados:
O grfico demonstra que o modelo linear,
mesmo aps a correo de outliers, ainda

16

CORREES DA HETEROCEDASTICIDADE
A primeira das medidas de visualizao
dos modelos aplicadas foi a fracionalizao do
modelo, como descrito em Gujarati (2006). Os
resultados aps as medidas foram:

De acordo com o teste de Breusch-Pagan


para heterocedasticidade, o problema assola o
modelo linear, mas no o logartmico.

GOLDFELD-QUANDT
No R, descobrimos que o teste de White
realizado atravs no teste de Goldfeld-Quandt,
algo presente nas descries tcnicas dos pacotes
car e tseries. Dado isto, designamos este teste
para a segunda verificao formal da hiptese de
heterocedasticidade.
O teste de Goldfeld-Quandt til quando
acreditamos que a varincia heterocedstica
positivamente relacionada a uma das variveis
explicativas do modelo de regresso.
Nesta estrutura de teste, fazemos a
ordenao das observaes de acordo com os
valores de X, omitimos observaes centrais,
dividindo as restantes em dois grupos distintos,
ajustamos regresses por MQO separadas para
estes dois conjuntos e estimamos a razo GQ.
No caso do nosso modelo, obtivemos as
seguintes estatsticas de teste, que confirmaram,
tal qual os testes de Breusch-Pagan, a hiptese de
heterocedasticidade no modelo linear e
homocedasticidade no modelo log.

Aps verificarmos que mesmo com a


fracionalizao das amostras, o modelo linear
permaneceu
com
a
presena
de
heterocedasticidade, decidimos por aplicar a
medida corretiva da matriz robusta de White
heterocedasticidade.
MATRIZ ROBUSTA DE WHITE

Percebemos uma melhoria nos errospadro estimados para ambos os modelos, e ao


realizarmos uma nova bateria de testes para a
heterocedasticidade, notamos que os modelos
ficaram melhor definidos aps a aplicao do
mtodo de construo da matriz robusta de
White heterocedasticidade.
Os resultados da nova regresso por meio
da matriz robusta geraram as seguintes
estatsticas, com destaque para o modelo log.

17

DUMMIES
Uma das medidas que podem ser
adotadas
na
presena
persistente
de
heterocedasticidade, como no caso do nosso
modelo linear, criar dummies categricas no
modelo. De fato, havamos coletado informaes
sobre o grupo de renda ao qual cada pas
pertence. Utilizamos o R, portanto, para criar
dummies que categorizam os pases segundo seu
grupo, assumindo valores 1 ou 0 para as seguintes
categorias: A se o pas de baixa renda, B se de
renda mdia, C se de renda mdia alta, e D se
de renda alta, todos critrios baseados no nvel de
renda per capita, que acompanham o padro
criado na terceira filtragem de dados.
Com a criao de dummies, chegamos ao
seguinte modelo:

J o modelo logartmico permanece um


pouco melhor comportado:

MULTICOLINEARIDADE

Aps a criao de dummies, e a


construo da estimao atravs da matriz
robusta de White, percebemos mudanas nos
grficos dos resduos das regresses, embora a
regresso por meio do modelo de forma linear
continue
com
padres
heterocedsticos
persistentes, como demonstrado na figura
seguinte, dos resduos ao quadrado da regresso:

18

Um dos problemas mais comuns que


assolam as regresses lineares o da
multicolinearidade, ou correlao no-serial entre
as variveis. Em geral, a presena de
multicolinearidade afeta as varincias dos
estimadores de MQO, o que pode trazer
problemas aos processos de inferncias
realizados nos testes de hipteses. Com uma
varincia muito alta, os intervalos de confiana
ficam mais amplos, e mais fcil aceitar a hiptese

nula de que o parmetro, ou o modelo como um


todo, no possuem significncia estatstica.
Se o objetivo for apenas a estimao, no
entanto, este problema no traz muitas
consequncias imediatas. Os estimadores
continuaro a ser os melhores estimadores notendenciosos, e a multicolinearidade s ser um
problema muito grande quando for perfeita, ou
quando a amostra for muito pequena.
um dos problemas mais fceis de testar,
mas geralmente corrigi-lo se torna um problema,
visto que precisaramos realizar transformaes
nos dados, no caso de sries temporais, ou
incluso de novas informaes, o que
pressupomos como algo irracional visto que, se
dispusssemos de tais informaes desde o
comeo, as teramos usado em toda a
modelagem.

VIF (VARIANCE INFLATOR FACTOR)


Para testar a presena do problema da
multicolinearidade em nossos modelos, usaremos
o teste VIF (Variance Inflator Factor), um teste que
avalia o grau de influncia da varincia na inflao
dos resduos do modelo.
Em
geral,
existem
testes
de
multicolinearidade que trabalham com a razo
dos autovalores da matriz de dados. Alm destes,
h tambm aqueles que trabalham com
regresses auxiliares, comparando-as em relao
ao R. No caso do teste VIF, temos um teste que
mede o quanto o j-simo coeficiente da nossa
regresso est sendo inflado pela varincia.
basicamente definido por:

Valores preocupantes, que indicam a


presena de multicolinearidade no modelo so
geralmente mais altos que 10.
Nos resultados do teste VIF aplicados ao
nosso modelo, no entanto, verificamos valores
relativamente baixos para o teste, em geral bem
prximos de 1:

Logo, assumimos a hiptese nula de que


no h presena de multicolinearidade em nosso
modelo.

CORRELAO (NO-SERIAL)
Outra hiptese a ser verificada a da
autocorrelao, ou correlao serial. Em geral,
dizemos da autocorrelao que o problema que
ocorre quando os erros so correlacionados.
No caso de dados de corte transversais,
dizemos que o problema na verdade de
correlao no-serial.
A autocorrelao um problema que
assola as sries temporais, e depende de
inferncias a respeito do processo gerador dos
dados, do grau de autoregresses (AR), da
presena ou no de estacionariedade, que a
caracterstica de que os principais momentos
centrais (mdia, varincia e covarincia) no
variam ao longo do tempo.
Neste caso, usaramos os testes de
Breusch-Godfrey, ou o de Durbin-Watson para
verificarmos a presena de autocorrelao.
Como estamos trabalhando com dados
cross-section, vamos utilizar a hiptese clssica do
MQO de ausncia de autocorrelao. De toda
forma, recomenda-se, sob a suspeita de presena
de correlao entre os termos de erro, construir
uma modelagem por meio da matriz robusta de
White e de Mnimos Quadrados Generalizados,
duas medidas que tomamos o cuidado de realizar.
Quanto matriz robusta de White, demonstramos
na seo sobre heterocedasticidade, e quanto ao
mtodo de estimao por MQG, demonstraremos
a seguir:

19

MQG - MNIMOS QUADRADOS


GENERALIZADOS

Alm de estimar seus parmetros,


verificamos o comportamento de seus resduos,
como demonstrado na imagem anterior, e
fizemos o mesmo para o modelo logartmico:

Dados todos os problemas que podem


surgir tanto da presena de heterocedasticidade
quanto da correlao dos resduos, tomamos o
cuidado de criar tambm um terceiro par de
modelos, da forma linear e duplo-log, porm
estimados pelo mtodo dos Mnimos Quadrados
Generalizados. Sob a hiptese de presena da
heterocedasticidade, como o caso do nosso
modelo linear, estimar o modelo por MQG pode
ser bastante til no que diz respeito a estimao
de BLUE, ou seja, de melhores estimadores notendenciosos.
Com isto em mente, chegamos, aps a
construo com base em testes que usavam pesos
normais e quadrados na estimao de uma forma
funcional que melhor pudesse descrever o
modelo. Assim chegamos a este modelo final:

Aps nova bateria de testes, acerca de


cada
uma
das
hipteses
previamente
mencionadas, verificamos que este modelo,
construdo por meio do MQG, tem sido o melhor
at agora.
O nico problema em criarmos um
modelo atravs de MQG que precisamos
conhecer bem a forma funcional correta para
estima-lo, o que nem sempre possvel. Desta
forma, tomamos tambm o cuidado de realizar
uma estimao por MQGF, ou Mnimo Quadrados
Generalizados Factveis.

20

MQGF - MNIMOS
QUADRADOS GENERALIZADOS
FACTVEIS
Quando no conhecemos a forma
funcional correta do modelo de estimao por
MQG,
quando
temos
presena
de
heterocedasticidade, ou quando notamos a
presena de certa correlao entre os resduos,
geralmente nos deparamos com uma situao na
qual os estimadores de MQO podem no ser os
BLUE, ou at mesmo podem ser viesados,
podemos utilizar o mtodo de MQG Factveis,
onde criamos uma regresso auxiliar, que no caso
do nosso modelo dada pela regresso
logartmica auxiliar:

Que depois utilizada como peso na


regresso principal, por meio de seu inverso
exponenciado, o que cria a regresso gama
definida por uma matriz identidade ponderada
regresso principal.
Aps termos estimado a regresso
auxiliar, estimamos agora a principal, cujos
resultados trataremos de mostrar:

Alm de estimarmos os modelos, fizemos


tambm os mesmos testes de sempre.

Podemos notar, pelos plots dos resduos e dos


quadrados dos resduos acima que conseguimos
melhorias significativas desde o primeiro modelo.

21

COMPARAES FINAIS E
ESCOLHA DO MODELO
Levando em considerao todos os
resultados at aqui obtidos, os testes, as filtragens
de dados e todas as caractersticas de cada
modelo, e das particularidades que a temtica
deste trabalho nos traz, realizamos ultimas
comparaes entre os resultados obtidos.
Em relao a qualidade terica,
deveramos utilizar o modelo logartmico
estimado por meio dos MQGF, pois um modelo
abrangente, com a menor presena de
heterocedasticidade envolvida, correlaes entre
os termos de erro corrigidas, e caractersticas
inerentes de BLUE.

22

No tocante a modelos lineares, optamos


pelo modelo criado a partir do mtodo de MQG,
com pesos inversos, pois foi aquele que melhor
demonstrou um ajuste aos dados, caractersticas
de BLUE e que reportou os melhores ndices de
qualidade em todos os testes para modelos
lineares que realizamos.
Estas decises podem ser ilustradas por
meio da plotagem comparativa dos resduos das
regresses lineares (srie de grficos superior,
com os quatro modelos lineares criados desde o
incio), e a plotagem comparativa dos resduos das
regresses logartmicas (srie de grficos inferior,
com os cinco modelos criados desde o incio).
Por ltimo, tratamos de testar, por meio
do Microsoft Excel, o grau de acuidade de cada
modelo linear criado. Os testes reportaram que,
assim como citado, o modelo criado a partir do

MQG foi o que reportou o melhor ndice de


predio, chegando at mesmo a prever com
exatido uma amostra, e chegar a 95% de acerto
em diversas outras.
Dada a falta de significncia estatstica de
algumas variveis, observamos que os erros de
estimao eram encontrados exatamente nestas
categorias. Para os pases do grupo D, ou seja, de
alta renda, pudemos prever com preciso
considervel diversas observaes. De maneira
geral, o que se conclui que os pases em
desenvolvimento, pertencentes aos grupos B e C
tem realizado fortes investimentos em
infraestrutura.
A consolidao de uma rede de
telecomunicaes mais robusta tambm se
mostrou significante, e condiz com o report do
Banco Mundial que atribui a importncia de
investimentos em infraestrutura neste setor.
Uma preocupao do rgo tambm no
que diz respeito a fornecimento de energia
eltrica. Em um mundo que possui uma crescente
demanda por energia, e uma matriz cada vez mais
complexa, torna-se cada vez mais necessrio criar
investimentos produtivos e eficientes nesta rea,
muito embora no tenhamos verificado
significncia estatstica para estes investimentos
em nosso modelo final.
Uma outra crescente preocupao do
Banco Mundial, muito citada no report e que
pudemos notar o motivo de maneira clara diz
respeito a capacidade dos pases de gerar
estatsticas eficientes, de qualidade.
Muitos investimentos tem sido feitos nesta
rea, e perpassam tambm os investimentos em
educao, varivel estatisticamente significativa
em nosso modelo, e que a literatura econmica j
demonstrou inmeras vezes sua relevncia como
fator decisivo nos ganhos de produtividade de um
pas.
Para
um
futuro
trabalho
mais
aprofundado em Econometria, ficamos com a
possibilidade
bastante
interessante
de
aprendizado utilizando extenses da nossa base
de dados, para sries temporais (de fato nossa
preocupao nos fez criar uma base j com dados
de 10 anos para futuros trabalhos), e extenses na
teoria economtrica, o que sabemos, poder ser
bastante proveitoso.

23

DEMONSTRAO DA
CAPACIDADE DE ESTIMAO DO
MODELO
Segue uma breve demonstrao da
capacidade de predio do modelo linear
estimado por MQG:
Pas
Albania
Algeria
Angola
Argentina
Armenia
Bangladesh
Belarus
Bolivia
Botswana
Brazil
Bulgaria
Cabo Verde
Cambodia
Cameroon
Colombia
Cote d'Ivoire
D. Republic
Ecuador
Egypt
El Salvador
Georgia
Ghana
Guatemala
Honduras
India
Indonesia
Iran
Jamaica
Kazakhstan
Kenya
Kyrgyz Rep.
Liberia
Madagascar
Malaysia
Mexico
Moldova
Morocco

PIB
Estimado
Y-
4081.53
4110.98
-29.45
4764.58
4170.62
593.97
4304.18
2945.66
1358.51
11205.08
10912.51
292.57
3308.33
3288.03
20.30
815.10
677.26
137.85
6034.09
7223.98 -1189.88
2286.77
3228.72
-941.96
6384.13 10963.23 -4579.10
10015.90 11628.04 -1612.15
6855.17
7067.11
-211.94
115.91
118.18
-2.26
601.87
543.91
57.96
740.48
861.99
-121.51
6314.40
6516.64 -202.24
1291.91
1752.38 -460.47
5525.16
2467.92 3057.24
5073.68
4980.53
93.15
2712.47
2796.48
-84.01
3712.07
3872.83
-160.77
3314.82
3107.85
206.97
1381.25
2472.70 -1091.45
3115.66
2764.95
350.71
2157.89
3441.57 -1283.68
1305.87
1232.70
73.17
2935.36
2214.73
720.62
5943.61
4532.76
1410.85
4999.05
5820.40
-821.34
10199.01
7151.84 3047.17
1098.24
1999.74
-901.50
1014.13
1544.27
-530.14
354.26
296.72
57.54
430.91
375.43
55.48
9300.19
9632.67 -332.48
9439.73
9456.11
-16.39
1720.41
3386.83 -1666.42
2928.24
3912.82 -984.58

Mozambique
Nepal
Nicaragua
Pakistan
Peru
Philippines
Romania
Russia
Senegal
Serbia
Sierra Leone
South Africa
Sri Lanka
Tajikistan
Tanzania
Thailand
Togo
Turkey
Uganda
Ukraine
Vanuatu
Vietnam
Yemen, Rep.
Zambia

515.99
586.88
1664.12
1161.93
5235.51
2289.21
8678.01
11776.84
1011.74
5711.72
571.11
6625.85
2790.50
816.91
735.88
5070.51
537.73
9911.07
590.16
3101.75
2854.33
1502.58
1233.73
1469.02

688.74
586.88
2513.39
994.00
3984.44
1837.42
7613.03
10331.36
1932.46
7280.69
675.33
7819.01
1720.00
1043.90
837.35
4521.60
479.59
6638.72
612.92
4441.88
3535.22
1746.51
1302.30
1020.23

-172.74
0.00
-849.27
167.93
1251.07
451.79
1064.97
1445.48
-920.72
-1568.96
-104.23
-1193.16
1070.49
-226.99
-101.46
548.91
58.14
3272.35
-22.75
-1340.12
-680.89
-243.92
-68.57
448.79

24

FILTRAGENS DE DADOS
Ao longo do trabalho, foram citadas as
quatro filtragens de dados realizadas. So elas:

PRIMEIRA FILTRAGEM DE DADOS


At ento, contvamos com observaes
diversas para todas as variveis inicialmente
citadas, PIB e PNB, populao, dummy para
OECD, grupo de renda ao qual o pas pertence,
gastos do governo, gastos em educao, crdito
domstico, investimentos em telecomunicaes,
energia, transporte, gua e saneamento e
usurios de internet por 100 pessoas. Tudo isto em
uma matriz com dados para 203 economias.
Verificamos, logo no comeo, a
dificuldade de trabalhar com algumas delas, dado
a falta de dados, problema corriqueiro quando se
trata de dados com observaes de nvel mundial.
Decidimos por retirar, ento, nesta primeira
filtragem, as variveis PNB e gua e saneamento,
pela dificuldade que seria converter os valores
todos para % do PNB, e pela quantidade de NAs
na amostra, respectivamente.

significncia estatstica, e permaneceram fora dos


dados finais.

QUARTA FILTRAGEM DE DADOS


Neste processo, foi criada a tabela final,
que deu origem ao arquivo data4.csv, carregado
pelo R para ser utilizado nos principais modelos
de regresso mais robustos. Basicamente,
nenhuma outra alterao importante foi feita.

QUINTA FILTRAGEM DE DADOS


Procedimento inteiramente realizado
dentro do R, onde nos preocupamos em criar uma
amostra de dados sem outliers. Removemos,
neste processo, observaes provenientes de 5
pases, sendo eles Buto, Chile, Lao, Litunia e
Uruguai.

SEGUNDA FILTRAGEM DE DADOS


Este processo foi, na verdade primeiro a
remoo de outras variveis que no se
encaixaram no modelo aps os testes com os
primeiros modelos lineares criados. Nesta
filtragem, removemos OECD e usurios de
internet, pela baixa significncia estatstica e
pouco poder terico.

TERCEIRA FILTRAGEM DE DADOS


Neste processo, convertemos todos os
dados at ento usados em dados per capita, e
remodelamos todas as regresses feitas. Aquelas
que haviam sido removidas continuaram sem

25

BIBLIOGRAFIA
World Bank, 2016. World Development Indicators
2016. DC. World Bank. Disponvel em:
https://issuu.com/world.bank.publications/docs/9
781464806834?e=0/35179276
Acessado em: 01 de julho de 2016.

World Bank. 2016. The Little Data Book 2016.


Washington, DC. World Bank. Disponvel em:
https://openknowledge.worldbank.org/handle/10
986/23968 License: CC BY 3.0 IGO.
Acessado em: 03 de julho de 2016.

GUJARATI, Damodar N. Econometria Bsica.


Traduo de Maria Jos Cyhlar Monteiro. Rio de
Janeiro: Elsevier, 2006 5a tiragem.

CRPON, Bruno. Econometrie Lineaire. ISBN:


9782804153236, 2005.

Diagnstico de Homocedasticidade. Portal Action.


Disponvel em:
http://www.portalaction.com.br/analise-deregressao/32-diagnostico-dehomoscedasticidade
Acessado em: 05 de agosto de 2016.

Multicolinearidade. Portal Action. Disponvel em:


http://www.portalaction.com.br/analise-deregressao/362-multicolinearidade
Acessado em: 06 de agosto de 2016.

26

Potrebbero piacerti anche