Sei sulla pagina 1di 145

UNIVERSIDADE DE BRASLIA

FACULDADE DE ECONOMIA, ADMINISTRAO, CONTABILIDADE E


CINCIA DA INFORMAO E DOCUMENTAO - FACE
DEPARTAMENTO DE ECONOMIA

INFERNCIA ESTATSTICA E A PRTICA ECONMICA NO BRASIL:


OS (AB)USOS DOS TESTES DE SIGNIFICNCIA

CARLOS LEONARDO KULNIG CINELLI

BRASLIA

JUNHO DE 2012
CARLOS LEONARDO KULNIG CINELLI

INFERNCIA ESTATSTICA E A PRTICA ECONMICA NO BRASIL

OS (AB)USOS DOS TESTES DE SIGNIFICNCIA

Dissertao apresentada ao
Programa de Ps-Graduao em
Economia da Universidade de
Braslia como requisito parcial
obteno do grau de mestre em
economia.

Orientador: Professor Dr. Bernardo


P. M. Mueller

BRASLIA

JUNHO DE 2012
CARLOS LEONARDO KULNIG CINELLI

INFERNCIA ESTATSTICA E A PRTICA ECONMICA NO BRASIL:


OS (AB)USOS DOS TESTES DE SIGNIFICNCIA

Braslia, ________ de _______________________ de __________.

BANCA EXAMINADORA

______________________________________________________________________
Prof. Dr. Bernardo Pinheiro Machado Mueller Orientador
Universidade de Braslia

______________________________________________________________________
Prof. Dr. Donald Matthew Pianto
Universidade de Braslia

______________________________________________________________________
Prof. Dr. Leonardo Monteiro Monastrio
IPEA Instituto de Pesquisa Econmica Aplicada
AGRADECIMENTOS

Agradeo ao Bernardo Mueller pela orientao acadmica.

Agradeo a Stephen Ziliak, Deirdre McCloskey, Aris Spanos, Deborah Mayo e Walter
Kramer pelas informaes prestadas e dvidas esclarecidas. Obviamente que qualquer
interpretao errnea que tenha remanescido de minha exclusiva responsabilidade.

Agradeo minha famlia, minha namorada, e aos meus amigos pelo apoio e
pacincia.
RESUMO

Esta dissertao trata da confuso entre significncia estatstica e significncia


econmica nos trabalhos economtricos aplicados. O captulo terico resgata alguns
tpicos pertinentes ao entendimento da confuso entre significncia estatstica e
significncia econmica, expondo as principais diferenas entre os mtodos de Fisher,
Neyman-Pearson e Bayesianos para testes de hiptese. Alm disso, discute-se a ideia do
p-valor como medida de evidncia e trabalham-se, por fim, as noes de erro real e erro
amostral, bem como a distino entre diferena estatstica e diferena substantiva. O
captulo emprico resgata a literatura acerca do tema especificamente para a rea da
economia, com as evidncias verificadas em outros pases, como para os Estados
Unidos McCloskey e Ziliak (1996), Ziliak e McCloskey (2004a, 2008a) ou a
Alemanha Kramer (2011): 70 a 79% dos artigos da American Economic Review nos
anos 80 e 90, respectivamente, bem como entre 56 a 85% dos artigos da German
Economic Review confundiram significncia estatstica com significncia econmica.
Em seguida, quantificamos o problema no Brasil, tomando como amostra todos os 94
artigos publicados na Revista Brasileira de Economia entre 2008 a 2011, dos quais 67
que utilizaram testes de significncia foram detidamente analisados. Como principais
resultados temos que: 64% dos artigos confundiram significncia estatstica com
significncia econmica; mais de 80% dos artigos ignoraram o poder dos testes
utilizados; 97% dos artigos no discutiram o nvel de significncia adotado; 74% no
demonstraram preocupao com a especificao ou adequao estatstica do modelo;
40% no apresentaram estatsticas descritivas; mais da metade no discutiu o tamanho
de seus coeficientes ou a conversa cientfica em torno da grandeza do parmetro, entre
outros nmeros.

Palavras chave: teste de hiptese nula; significncia estatstica; significncia prtica; o


culto da significncia estatstica; inferncia estatstica; revista brasileira de economia.
ABSTRACT

This dissertation deals with the confusion between statistical significance and economic
significance in applied econometrics. The theoretical chapter brings some topics
necessary to the understanding of the confusion between statistical and economic
significance, outlining the main differences between Fisherian, Classical and Bayesian
methods. In addition, we discuss the interpretation of the p-value as a measure of
evidence and the notion of real error versus sampling error as well as the distinction
between statistical and substantive difference. The empirical chapter discusses the
literature about the subject specifically in economics. We show the evidence found in
other countries like the United States - McCloskey and Ziliak (1996), Ziliak and
McCloskey (2004a, 2008a) - and Germany - Kramer (2011): 70 and 79% of the papers
published in the American Economic Review, in the 80s and the 90s, respectively, and
between 56 to 85% of the papers published in the German economic Review conflate
statistical and economic significance. We, then, quantify the problem in Brazil, taking a
sample of all 94 papers published in Revista Brasileira de Economia, between 2008 and
2011, and carefully analyzing all 67 that used significance tests. Among other numbers,
the main results are: 64% of them confused statistical significance with economic
significance; more than 80% ignored the power of the tests; 97% did not discuss the
significance level; 74% showed no concern about specification or statistical adequacy;
40% did not present descriptive statistics; more than half did not discuss the size of the
coefficients; also more than half did not discuss the scientific conversation within which
a coefficient would be judged large or small.

Key-words: null hypothesis significance testing; statistical significance; practical


significance; the cult of statistical significance; statistical inference; revista brasileira de
economia.
LISTA DE TABELAS

TABELA 1 DISTRIBUIO F(X| ................................................................................ 33

TABELA 2 CONTRASTE ENTRE P-VALOR E .............................................................................. 35

TABELA 3 FALSOS POSITIVOS .................................................................................... 44

TABELA 04 O CULTO DA SIGNIFICNCIA ESTATSTICA NA AMERICAN ECONOMIC REVIEW ...... 82

TABELA 05 ARTIGOS EMPRICOS X TERICOS NA RBE 2008-2011 .......................................... 83

TABELA 06 TIPO DE ANLISE DOS ARTIGOS PUBLICADOS NA RBE 2008-2011........................ 83

TABELA 07 QUESTES DE MAGNITUDE NA RBE 2008-2011, AER 90S E 80S ..................... 108

TABELA 08 RESUMO DOS RESULTADOS DA AVALIAO: QUESTES DE MAGNITUDE............ 109

TABELA 09 CLASSIFICAO DOS ARTIGOS: QUESTES DE MAGNITUDE ............................... 109

TABELA 10 SIGNIFICNCIA ESTATSTICA NA RBE 2008-2011, AER 90S E 80S E GER ....... 126

TABELA 11 RESUMO DOS RESULTADOS DA AVALIAO: CULTO DA SIGNIFICNCIA............. 128

TABELA 12 CLASSIFICAO DOS ARTIGOS: CULTO DA SIGNIFICNCIA................................. 128

TABELA 13 VIS DE PUBLICAO E PODER DOS TESTES ..................................................... 129


LISTA DE FIGURAS

FIGURA 1 INCERTEZA NOS EFEITOS DISSUASIVOS DA PENA DE MORTE .................................... 52

FIGURA 2 TAMANHO AMOSTRAL E SEVERIDADE PARA .............................................. 65


Sumrio
1) INTRODUO E JUSTIFICATIVA ................................................................................. 10
2) O QUE (NO) A SIGNIFICNCIA ESTATSTICA .................................................... 16
2.1. Fisher, Neyman-Pearson, Jeffreys e o Ritual Nulo .......................................................... 18

2.1.1. Testes de Significncia de Fisher .............................................................................. 22

2.1.2. Testes de Hipteses de Neyman-Pearson .................................................................. 27

2.1.3. Contrastando e p-valor .......................................................................................... 32

2.1.4. Teorema de Bayes ..................................................................................................... 35

2.1.5. Voltando ao ritual nulo .............................................................................................. 37

2.2. P-valor como evidncia, erro real e diferena substantiva............................................... 39

2.2.1. P-valor no probabilidade a posteriori .................................................................. 41

2.2.2. P-valor no uma medida coerente de evidncia ................................................. 47

2.2.3. Erro amostral ou erro real.......................................................................................... 50

2.2.4. Diferena estatstica ou diferena substantiva........................................................... 54

2.2.5. H como minimizar o problema? .............................................................................. 60

3) A SIGNIFICNCIA ESTATSTICA E A PRTICA ECONMICA ............................... 67


3.1. Resgatando o debate na cincia econmica ..................................................................... 67

3.1.1. A retrica da significncia: , , hipteses extravagantes, ......................... 68

3.1.2. O problema na American Economic Review nas dcadas de 80 e 90 ....................... 72

3.1.3. O livro de Ziliak e McCloskey e o culto na German Economic Review ............... 79

3.2. Significncia estatstica nos artigos empricos: RBE 2008 - 2011 ................................... 83

3.2.1. Os ajustes no questionrio ......................................................................................... 84

3.2.2. GRUPO A Questes de magnitude ........................................................................ 92

3.2.3. GRUPO B O culto da significncia estatstica ..................................................... 110

3.2.4. Vis de publicao e o poder dos testes .................................................................. 128

4) CONSIDERAES FINAIS ............................................................................................ 131


5) REFERNCIAS BIBLIOGRFICAS .............................................................................. 135
10

1) INTRODUO E JUSTIFICATIVA

Em maro de 2011, a Suprema Corte dos Estados Unidos deliberou sobre assunto de
interesse aos cientistas empricos: o uso dos testes de significncia estatstica. O caso foi
trazido por investidores da empresa Matrixx Initiatives Inc, fabricante do remdio para
gripe Zicam. A acusao recaa sobre o fato de a empresa ter omitido que algumas
pessoas, usurias do remdio, sofreram de anosmia1. Quando a notcia veio a pblico,
houve reao no mercado acionrio, resultando em perda financeira por parte dos
investidores. Entretanto, como o nmero de casos de anosmia nos indivduos que
tomaram o Zicam havia sido considerado estatisticamente insignificante, aos nveis
usuais de significncia estatstica, a empresa alegou no existir obrigao de informar
aos investidores o fato pois este, estatisticamente, sequer existiria (SUPREME
COURT OF THE UNITED STATES, 2011).

A linha de raciocnio da Matrixx havia sido acatada pela corte distrital, que opinou a
favor do requerimento da significncia estatstica para discutir a materialidade da
omisso da empresa. Tal opinio, provavelmente, no seria incomum na prtica
cientfica e inclusive poderia encontrar respaldo se remontssemos a um dos fundadores
dos testes de significncia, como Ronald Fisher. O estatstico afirmou ser

[...] usual e conveniente para os pesquisadores tomarem 5% como um nvel


de significncia padro, no sentido de estarem preparados para ignorar todos
os resultados que falhem em alcanar este padro e, por este meio, eliminar
de uma discusso mais aprofundada grande parte das flutuaes que a sorte
possa ter introduzido em seus resultados experimentais (FISHER, 1971,
p.13)2.

Contudo, a corte federal da regio revisou a deciso da corte distrital, afirmando que a
informao ligando o medicamento Zicam anosmia seria relevante para os
investidores, e que no presente caso a

[] regra da Matrixx de que os relatrios de eventos adversos em relao a


produtos de uma empresa farmacutica no apresentam materialidade na
ausncia de um nmero suficiente para estabelecer um risco estatisticamente
significativo de que o produto est causando os eventos estaria
"artificialmente excluindo informao que de outra forma seria considerada
significativa para a deciso de um investidor razovel (SUPREME COURT
OF THE UNITED STATES, 2011a, p. 2).

1
Perda da capacidade olfativa.
2
Todas as citaes em lngua estrangeira foram traduzidas pelo autor desta dissertao para o portugus.
11

Sobre esta posio que a Suprema Corte dos Estados Unidos tinha de ponderar
podendo afirm-la ou neg-la. Para tanto, contou tambm com o depoimento Amici
Curiae3 de Deirdre McCloskey e Stephen Ziliak (2010), que corroborou o entendimento
da corte federal. Os autores procuraram esclarecer Suprema Corte que

[...] ao se realizar um teste de significncia estatstica, o pesquisador deve


cotejar os custos de aceitar hipteses falsas com os custos de rejeitar
hipteses verdadeiras. Para reduzir as chances do ltimo erro (erro tipo I), o
pesquisador pode diminuir seu padro de significncia estatstica, entretanto,
isso resultaria em aumentar as chances do primeiro erro (erro tipo II). O
balano deve ser feito pelos pesquisadores em cada caso (MCCLOSKEY,
ZILIAK, 2010, p. 04).

Ziliak e McCloskey ressaltaram que uma falha em se rejeitar uma hiptese nula
previamente estabelecida no implica necessariamente em se aceitar que esta seja
verdadeira. Alm disso, lembraram o fato de que se o modelo estatstico est
especificado corretamente, a melhor estimativa para o parmetro, fornecida pelos dados,
aquela derivada do procedimento de estimao e no a hiptese nula. Assim,
assumir arbitrariamente que um efeito zero apenas por no se rejeitar esta hiptese em
particular dentre vrias outras que tambm no seriam rejeitadas caso testadas
careceria de fundamentos cientficos. No caso especfico de relatrios de eventos
adversos, seria de interesse de uma das partes a farmacutica no rejeitar a hiptese
nula de que o medicamento causasse problemas. Dessa forma, a aparente objetividade
deste teste de hiptese, com base em significncia estatstica aos nveis usuais (como
5% ou 1%), passaria a ser uma arbitrariedade nas mos de quem tem interesse no
resultado (MCCLOSKEY, ZILIAK, 2010).

O posicionamento da Suprema Corte foi coerente com a viso dos economistas e da


corte federal. Qualquer mtodo que adotasse um nico fato ou ocorrncia como critrio
para definir materialidade seria demasiadamente falho. Dados estatisticamente
significantes no estariam sempre disponveis e, desta forma, dever-se-iam considerar
mltiplos fatores para se tomar uma deciso. Assim, conclui a Suprema Corte que

[...] os consumidores provavelmente teriam visto o risco associado com o


Zicam (possibilidade de perda de capacidade olfativa) como substancialmente
maior do que o benefcio de usar o produto (aliviar os sintomas da gripe),
particularmente quando existem muitos medicamentos alternativos no
mercado. Importante ressaltar que o remdio para gripe Zicam alegadamente
respondia por 70% das vendas da Matrixx. Vendo os argumentos da acusao

3
Amicus Curiae um termo em latim que significa amigo da corte. Refere-se pessoa que no tem
relao ou interesse com as partes envolvidas do caso, mas que tem interesse maior na questo jurdica
sendo discutida e pode contribuir com esclarecimentos que auxiliem a corte no julgamento.
12

como um todo, so fatos que sugerem risco significativo viabilidade


comercial do principal produto da Matrixx. bastante provvel que um
investidor razovel veria esta informao como algo que teria alterado
significativamente o mix total de informao disponvel (SUPREME
COURT OF THE UNITED STATES, 2010, p.18-19).

Interessante frisar que o raciocnio exposto anlogo utilizao de uma funo perda
para a deciso sobre a relevncia do resultado encontrado, em oposio a uma regra
binria a partir de um nvel de significncia estatstica arbitrrio. O julgamento anterior
foi, portanto, afirmado4.

Este caso particularmente interessante, pois, a deciso da corte distrital,


posteriormente corrigida nas instncias superiores, ilustra o reflexo prtico de algo
bastante difundido nas cincias sociais a confuso entre significncia estatstica e
significncia cientfica, poltica, econmica ou substantiva, bem como a falta de um
exerccio de inferncia (ou deciso) mais cuidadoso. Mais especificamente no caso da
cincia econmica, os mesmos autores do depoimento Amici Curiae constataram,
repetidamente, que tal confuso ocorre em um dos melhores peridicos de economia
dos Estados Unidos o American Economic Review (AER). McCloskey (1985) coletou
uma amostra de 10 dos 50 artigos publicados no perodo de 1981 a 1983 que utilizaram
anlise de regresso e 70% da amostra [...] deixou a significncia estatstica fazer o
trabalho da significncia substantiva (MCCLOSKEY, 1985, p. 204).

Na dcada seguinte, McCloskey e Ziliak (1996) ampliaram a anlise e examinaram


todos os 182 artigos da AER que utilizaram anlise de regresso publicados na dcada
de 80. Os artigos tinham de responder a 19 questes sobre o uso da significncia
estatstica e, em linha com o estudo anterior, cerca de 70% no fizeram distino entre
significncia estatstica e significncia econmica, poltica ou cientfica dentre outros
erros. Posteriormente, a fim de verificar se esta constatao se mantinha (pois, segundo
os autores, muitos alegavam que a prtica havia melhorado ao longo da dcada de 90)
Ziliak e McCloskey (2004a, 2008a) coletaram e analisaram 184 artigos publicados na
AER de 1990 a 19995. O resultado foi de encontro ao suposto avano: desta vez, 79%
das publicaes confundiram significncia estatstica com significncia econmica;

4
Poder-se-ia, tambm, ter calculado a probabilidade de o remdio ter causado a ocorrncia, como
proposto emr Judea Pearl (2010).
5
Na verso publicada em 2004, foram analisados 134 artigos; o livro (2008a) corrigiu a omisso de 50
artigos e analisou todos 184. Mais sobre isso ser discutido no captulo 3.
13

alm disso, 78% consideraram que uma mera anlise do sinal do coeficiente, sem se
preocupar com o tamanho do efeito, era suficiente para a cincia6.

Este fato no monoplio da cincia econmica e parece ser bastante disseminado nas
cincias sociais. Segundo Sterling (1959), aproximadamente 80% dos artigos dos
principais peridicos de psicologia utilizavam apenas testes de significncia estatstica
fisherianos para tomar alguma deciso. J na rea de recursos humanos, Callahan e Reio
(2006) reportam que menos de 6% dos artigos interpretaram o tamanho do efeito de
suas estimaes; nos estudos de terapia ldica, segundo Armstrong e Henson (2004),
este nmero foi de apenas 5%. Nos estudos de gerenciamento, Seth et alii (2009)
verificaram que 90% dos artigos do Strategic Management Review no fizeram
distino entre significncia econmica e significncia estatstica.

Se, na citao anterior de Fisher, fizemos acreditar que estes resultados no seriam
vistos com maus olhos, mais para o fim de sua vida o estatstico provavelmente retiraria
suas palavras. Segundo Gigerenzer (2004, p.03), mesmo Fisher se oporia aos testes
cegos de significncia estatstica7, por pelo menos trs motivos:

[...] primeiro, porque a hiptese nula no se refere a uma diferena mdia


nula ou a uma correlao zero, mas a uma hiptese a ser testada [...] segundo,
porque [...] Fisher pensava que utilizar uma rotina de 5% de significncia [em
qualquer situao] indicava uma falta de sofisticao estatstica [...] terceiro
[porque], para Fisher, o teste da hiptese nula era o tipo de anlise estatstica
mais primitivo e deveria ser utilizado somente para os problemas nos quais
no temos qualquer ou muito pouco conhecimento.

A despeito disso, segundo os surveys realizados em diversas cincias, a prtica continua


(ZILIAK, MCCLOSKEY, 2008a). Uma das explicaes para esta continuidade um
provvel vis de publicao; pois, conforme Ziliak e McCloskey (2004a, p. 530), obter
resultados estatisticamente significativos talvez seja, atualmente, a forma mais fcil de
se publicar. Sterling (1959) encontrou que apenas 3% dos artigos de importantes
peridicos da psicologia falhavam em rejeitar a hiptese nula. Conforme Ziliak e

6
Cabe mencionar, entretanto, que houve melhoria em alguns quesitos, tais como: (i) na interpretao dos
significados dos coeficientes estimados; (ii) na exibio das estatsticas descritivas das variveis; (iii) na
utilizao do poder do teste, entre outros. Mas os autores fazem a ressalva de que, apesar de ter havido
melhoria nestes pontos, os nmeros ainda so preocupantes (ZILIAK, MCCLOSKEY, 2004a, p.533).
Estes resultados sero apresentados no captulo 3.
7
Ziliak e McCloskey (2008a, p.59) reconhecem que Fisher [...] prximo ao fim de sua vida [...] afastou-
se de sua regra [da conveno de 5%], voltando-se ao procedimento defendido h muito tempo por Karl
Pearson os pesquisadores deveriam fixar seus prprios nveis de significncia. Entretanto, esta
flexibilizao de Fisher interpretada como uma estratgia frente perda de espao que o estatstico teve
na comunidade acadmica, mais ao fim da vida, aps as contribuies de Neyman, Egon Pearson, Wald,
Deming, Shewhart e Savage (ZILIAK, MCCLOSKEY, 2008a, p. 232-233).
14

McCloskey (2009, p. 2311-2312), um editor da rea chegou a afirmar explicitamente


que era improvvel um artigo ser publicado a no ser que trouxesse resultados
estatisticamente significantes: significncia ao nvel de 5% era mal, mas aceitvel;
significncia a 1% ou um nvel melhor era considerado altamente aceitvel e
definitivamente digno de publicao. Este vis gera um problema para a interpretao
efetiva dos testes publicados, principalmente levando-se em considerao o poder dos
testes em cincias sociais.

Em geral, grande parte dos estudos tem pouco poder estatstico. Mazen, Graf, Kellogg e
Hemmasi (1987) sugerem que somente 6% a 9% dos estudos na rea de administrao
tem poder suficiente para detectar efeitos menores; na rea de negcios internacionais,
Brock (2003) sugere que este valor de cerca de 4% a 10%; em contabilidade ou na
pesquisa em educao esse nmeros tambm preocupam (LINDSAY, 1993; DALY E
HEXAMER, 1983); o fato parece ser a regra nas cincias sociais em geral (ELLIS,
2010; ZILIAK, MCCLOSKEY, 2008a). Tendo isso em vista, conforme colocou
Kruskal (1968), a tendncia serem observados muito mais estudos que apresentem
resultados estatisticamente significativos do que esperado informao esta que deveria
modificar a interpretao dos testes de hipteses efetivamente publicados, com maior
probabilidade de erro tipo I do que a probabilidade nominal utilizada.

At o presente momento, parece no haver estudo sobre o uso da inferncia estatstica


mais especificamente o uso do teste de significncia estatstica e a confuso entre
significncia estatstica e significncia econmica na literatura brasileira. Dada a
pertinncia do tema e a lacuna identificada, justifica-se a realizao deste trabalho, que
buscar verificar em que grau os problemas apontados se apresentam nos artigos
empricos publicados no Brasil, conforme questionamentos propostos por McCloskey e
Ziliak (1996). Para tanto, sero analisados os artigos acadmicos de um dos principais
peridicos de economia do pas segundo classificao da QUALIS/CAPES e ranking
REPEC a Revista Brasileira de Economia (RBE).

A presente dissertao, portanto, est organizada da seguinte forma. Alm desta


introduo, o segundo captulo, terico, busca resgatar alguns tpicos pertinentes ao
entendimento da confuso entre significncia estatstica e significncia econmica.
Primeiramente, so expostas as diferenas entre os mtodos de Fisher, Neyman-Pearson
e Bayesianos para testes de hiptese; discute-se, tambm, a ideia do p-valor como
15

medida de evidncia. Trabalham-se, por fim, as noes de erro real e erro amostral, bem
como a distino entre diferena estatstica e diferena substantiva.

O captulo terceiro trata da parte emprica. Em um primeiro momento, resgata-se a


literatura acerca do tema especificamente para a rea da economia, com as evidncias
verificadas em outros pases, como para os Estados Unidos McCloskey e Ziliak
(1996), Ziliak e McCloskey (2004a, 2008a) ou a Alemanha Kramer (2011). Em
seguida, quantificamos e analisamos o problema no Brasil, tomando como amostra
todos os 94 artigos publicados na RBE entre 2008 a 2011. Utiliza-se como base para o
questionrio os tpicos propostos por McCloskey e Ziliak (1996), levando em conta as
crticas formuladas por Hoover e Siegler (2008a), bem como outros elementos
apontados por Delong e Lang (1992), Gelman e Stern (2006), Keuzenkamp e Magnus
(1995), McCloskey (1986), Wooldridge (2004), Zellner (1981), Ziliak e McCloskey
(2004a) e Ziliak e McCloskey (2008a).

Ao final, so tecidas algumas consideraes finais, indicando as limitaes do trabalho e


sugestes de pesquisas futuras.
16

2) O QUE (NO) A SIGNIFICNCIA ESTATSTICA

Em seu livro Statistics as Principled Argument (1995, p. 54-55), Robert Abelson,


professor de estatstica por mais de 42 anos do departamento de psicologia da
Universidade de Yale, traz a seguinte passagem pertinente ao nosso tema:
[...] resultados negativos muitas vezes sequer so escritos. Estudantes
chegam a abandonar dissertaes porque a hiptese nula no pode ser
rejeitada. Professores, editores de peridicos e outros leitores de manuscritos
so menos receptveis, em geral, a hipteses nulas no-rejeitadas do que a
rejeitadas [...] dadas as circunstncias, muito tentador para as pessoas tentar
desesperadamente fazer com que seus resultados saiam estatisticamente
significantes [...] isso especialmente verdade para resultados quase
significantes, digamos, O jogo torna-se, ento, em como
empurrar os resultados para o nvel convencional .

O leitor desta dissertao, que j tenha utilizado mtodos da estatstica clssica em


trabalhos empricos aplicados, provavelmente se identifica com a citao de Abelson.
Pois, a importncia (ou no importncia) dada a resultados (in)significantes, bem
como a busca por tais resultados, tambm se verifica na economia8. Gigerenzer (1993,
p.01-3) expe esta prtica sob a alcunha de ritual nulo, enfatizando que, nas cincias
sociais, tem se visto o uso da estatstica para mecanizar inferncias, como uma soluo
algortmica que funcionaria em qualquer situao ou contexto 9 . Este procedimento,
entretanto, prejudica a intuio estatstica do usurio, fazendo-o: (i) julgar um
coeficiente como zero por ser estatisticamente insignificante10; (ii) julgar um coeficiente
como importante por ser estatisticamente significante 11; (iii) enfatizar a significncia
estatstica nominal em contextos em que ela sequer faz sentido, como em modelos
mal especificados ou quando outros erros no-amostrais so muito mais srios e

8
Wooldridge (2006), Goldberger (1989), Mayer (2006), Ziliak, McCloskey (2008a).
9
Encontra-se em alguns livros de econometria de ps-graduao, quando tratam de testes de hipteses,
apenas algo como o seguinte algoritmo (HAYASHI, 2000, p. 89; GREENE, 2002, p. 51): (i) calcule a
estatstica de teste t, com relao hiptese nula ( ; (ii) se onde representa um valor crtico
cuja probabilidade de obt-lo (ou valores mais extremos), sob a hiptese nula, igual a , ento rejeite
. Caso contrrio, aceite-a. Aps isso, costuma-se dar como exemplo o valor de =5%, explicando a
razo de este ter sido escolhido por ser prtica comum (GREENE, 2002, p. 51; HANSEN, 2012, p.
159). Mais ainda, em relao hiptese nula especfica de que um coeficiente seja igual zero, diz-se que
se ento o coeficiente significante. Caso contrrio, diz-se ser insignificante.
10
Ou julgar uma teoria adequada por no a rejeitar estatisticamente.
11
Ou julgar uma teoria inadequada por rejeit-la estatisticamente.
17

claramente presentes; (iv) ignorar a prpria natureza econmica do problema, como as


magnitudes dos coeficientes estimados; entre outros pontos12.

Os livros-textos de estatstica e econometria utilizados tm, de certo modo, contribudo


para tanto, pois, apesar de o discurso padro ser em torno do arcabouo de testes de
hiptese de Neyman-Pearson, pouco ou nada se discute acerca de questes
fundamentais, como: (i) formas de se calcular o poder dos testes (ou a severidade dos
testes); (ii) como escolher o nvel de significncia tendo em vista crenas a priori,
funes perda, testes mltiplos, buscas por especificao; (iii) ou at, algo mais bsico,
no se questiona a simples razo ou plausibilidade por trs de um teste de hiptese
pontual ou exato13. Alm disso, so raras as apresentaes de mtodos bayesianos, o
que permitiria uma compreenso mais plural da estatstica e evitaria a interpretao
incorreta de alguns procedimentos. Deste modo, na prtica, os usurios costumam
acreditar que os testes de significncia lhes dizem muito mais do que podem dizer
mais especificamente, costumam exagerar o que pode ser inferido de um p-valor. Por se
tratar de hbito arraigado e difundido na literatura, os pesquisadores muitas vezes
tomam estes hbitos como cientficos e tm bastante resistncia em question-los
(ZILIAK, MCCLOSKEY, 2008a; GIGERENZER, 1993; FIDLER et alii, 2004).

A abordagem de muitos textos que discutem estes problemas costuma ser agressiva
(HALLER, KRAUSS, 2002, p.14) e, talvez, isto tenha gerado o que em psicologia se
denominou efeito bumerangue 14 o que poderia criar ainda mais resistncia a
mudanas. Tentaremos evitar este tom neste trabalho, e buscar mostrar construtivamente
sua pertinncia. Da a necessidade deste captulo antes da exposio dos resultados

12
Todos estes casos foram observados na amostra analisada nesta dissertao e sero apresentados no
prximo captulo.
13
Lembre-se, por exemplo, que em uma distribuio contnua, a massa de probabilidade de um ponto, em
geral, igual a zero. Evidentemente que h livros que discutem algumas destas questes, como Kennedy
(2008), com mais referncias do que a discusso, Leamer (1978), ou Spanos (1993); contudo, tendo em
vista os resultados empricos encontrados, muito provavelmente no so estes que esto sendo utilizados.
14
O efeito bumerangue foi discutido por Abelson e Miller (1967). Grosso modo, constatou-se que, em
grupos em que o discurso era feito com insultos, o pblico tendia a ir contra a opinio de quem
discursava, mesmo que concordasse com ela; quando o mesmo discurso era feito sem insultos, o pblico
tendia a ir a favor da opinio de quem discursava. Em particular muitos autores [SPANOS (2008),
ENGSTED (2009), KRAMER (2011), HOOVER E SIGLER (2008a), COBB (2009), ROBERT (2011)]
acharam agressivo o tom do ltimo livro de Ziliak e McCloskey (2008a). Robert (2011, grifo nosso)
afirmou, por exemplo, que achou [...] entristecedor um livro que trata de assunto to importante deixar a
agressividade, arrogncia e a retrica arruinar o seu propsito. J Spanos (2008 p.155, p.163) achou
que a retrica do livro acabou por utilizar a ttica de envergonhar acadmicos notveis e denominou a
atitude como apontar o dedo.
18

empricos encontrados. Pois, se a confuso entre significncia estatstica e significncia


econmica decorre do mau entendimento dos instrumentos de inferncia utilizados, faz-
se necessrio explicitar mesmo que sucintamente o que estes instrumentos so e o
que no so, o que podem e o que no podem responder. Do contrrio, o leitor poderia
tomar as crticas como gratuitas, infundadas, ou at pessoais, o que definitivamente no
o caso.

Neste captulo, exporemos as principais diferenas entre trs abordagens de testes de


hiptese as de Fisher, Neyman-Pearson e Bayes e como a prtica usual tem sido um
hbrido das trs. Em seguida, daremos nfase confuso com relao aos p-valores e
sua interpretao como medida absoluta de evidncia. Discutiremos a diferena entre
erro amostral e erro real, o sentido de testes de hipteses precisas e a decorrente
confuso entre diferena estatstica e diferena substantiva. Por fim, sero ilustrados
meios de se amenizar alguns dos problemas tratados. Esta discusso serve de pano de
fundo para entender a confuso entre significncia estatstica e significncia econmica.

2.1. Fisher, Neyman-Pearson, Jeffreys e o Ritual Nulo

comum verificar entre pesquisadores o desconhecimento sobre a natureza e a origem


das diferentes teorias de inferncia estatstica. A compreenso dominante de que
haveria uma nica e bem desenvolvida teoria clssica e isto estaria sendo propagado
pelos prprios livros-textos utilizados nas universidades. Como apontam Hubbard e
Bayarri (2003, p.01),

[...] os livros modernos sobre a anlise estatstica nas cincias de negcios,


sociais e biomdicas, seja em nvel de graduao ou ps-graduao,
geralmente apresentam o assunto como se fosse um evangelho: um nico,
unificado, e incontroverso mtodo de inferncia estatstica.

Entretanto, as diferenas entre os mtodos, em particular os testes de hipteses, no so


triviais15. A discordncia entre trs dos principais tericos, Fisher, Jeffreys e Neyman,
em uma situao to simples quanto uma hiptese pontual sobre a mdia de uma
distribuio, pode ser grande. Vejamos um exemplo baseado em Berger (2003, p.01).

Suponha uma amostra aleatria i.i.d, , proveniente de uma distribuio


normal com a varincia, conhecida. Suponha que queiramos testar

15
H diversas tentativas de conciliao, como Berger (2003), que tenta reconciliar os trs mtodos, ou
Mayo e Spanos (2011), que buscam conciliar os mtodos de Fisher e Neyman-Pearson.
19

contra . Dada uma realizao especfica dos dados, ,


16,
de tamanho , se tivermos que ento Fisher, Jeffreys e Neyman

provavelmente divulgariam os seguintes resultados:

(i) Fisher reportaria o p-valor, isto ,

(ii) Jeffreys reportaria a probabilidade a posteriori de , isto ,


| 17, considerando que ambas as hipteses tm igual
probabilidade a priori de 50% e utilizando uma distribuio a priori
para distribuir a massa de probabilidade da hiptese
alternativa;

(iii) Neyman teria escolhido, antes de realizar o teste, uma probabilidade de erro
tipo I, representada por , e uma probabilidade de erro tipo II18, representada
por . Supondo que, por acaso, Neyman tivesse escolhido = 0,05, ele
reportaria simplesmente que rejeita com = 0,05 (e com em
determinado valor para uma hiptese alternativa), independentemente de o p-
valor obtido ter sido muito menor do que 5%.

Percebe-se a discrepncia entre os nmeros reportados mas, mais divergentes so suas


interpretaes. Fisher ressaltaria um p-valor de 2,1% que usualmente seria considerado
evidncia bastante forte contra , pois indica que, ou (i) verdade e observamos
um fato a realizao de cujo valor, ou valor mais extremo, apenas
ocorreria apenas 2,1% das vezes, ou (ii) falsa. J Jeffreys nos informaria uma
probabilidade de 28% de a hiptese nula ser verdadeira, dado o resultado encontrado
note que esta probabilidade, dependendo da seriedade do caso, poderia ser considerada
alta, e uma evidncia no to forte quando comparada com a argumentao de Fisher.
Neyman, por sua vez, nos forneceria um nvel de significncia freqentista de 5%, nos
dizendo que se for verdadeira, apenas em 5% das vezes o nosso teste nos faria
rejeit-la como agora o fazemos, e que o poder do nosso teste, isto , a probabilidade de

16
refere-se mdia amostral e z trata-se da estatstica que possui distribuio , que no
depende do parmetro
17
A probabilidade a posteriori calculada utilizando o teorema de Bayes e as distribuies a priori
mencionadas. Mais sobre o teorema de Bayes ser dito a seguir.
18
Em alguma hiptese alternativa de referncia considerada cientificamente relevante.
20

rejeitar quando esta falsa, para uma alternativa relevante de nosso interesse, de
.

A despeito das interpretaes conflitantes, muitos livros textos no expem


devidamente estas distines e o que elas significam ou, caso fosse a inteno, em
como concili-las de modo coerente. Ocorre que, atualmente, o mtodo considerado
clssico o de testes de hiptese originalmente desenvolvido por Jerzy Neyman e Egon
Pearson. Todavia, muitas vezes este apresentado com elementos dos testes de
significncia popularizado por Fisher19. Este hbrido, com mais elementos de Fisher do
que propriamente Neyman-Pearson e, ainda, com uma interpretao bayesiana de
alguns resultados tem vigorado na prtica e foi denominado por Gigerenzer (2004,
p.02) de ritual nulo, podendo ser resumido da seguinte forma:

(i) Estabelecer uma hiptese nula tais como nenhuma diferena na mdia ou
zero correlao, e nunca especificar as predies de sua hiptese de
pesquisa ou tampouco qualquer outra hiptese alternativa relevante;

(ii) Utilizar o nvel de significncia convencional de 5% (ou 10%) para rejeitar a


hiptese nula. Se for significante, aceitar a hiptese da pesquisa. Reportar os
resultados como ou (ou o que vier
mais prximo do p-valor obtido, como se fossem medidas de erro tipo I.
Este procedimento foi batizado, por Goodman (1993), como alfas
itinerantes);

19
Conforme afirmam Keuzenkamp e Magnus (1995, p. 06), os cursos de econometria costumam
apresentar os testes de hipteses dentro do arcabouo formal de Neyman-Pearson. J a prtica costuma se
assentar em Fisher, sem que os prprios usurios reconheam o fato. Ou como coloca de modo mais
direto Spielman (1974, p.211) [...] muitos jovens investigadores em cincias sociais tendem a usar uma
teoria hbrida dos testes, que so chamados testes de significncia. Este hbrido essencialmente
Fisheriano em sua lgica, mas diz da boca para fora que segue a teoria de testes de Neyman-Pearson (esta
ltima , atualmente, a teoria oficial dos testes, certificada pelos livros, na Amrica do Norte). Alguns
pesquisadores fazem uso da teoria de Neyman-Pearson em uma forma pura, mas eles constituem uma
pequena minoria. Independentemente da sua fidelidade terminologia verbal, a maioria dos
pesquisadores [...] utilizam e / ou aceitam como vlido um padro de raciocnio indutivo que
caracterstica de testes Fisherianos de significncia. No entanto, as profundas lgica e estrutura desse
padro so quase que universalmente mal compreendidas. Sebastiani e Viali (2011, p.838), em estudo
recente, no Brasil, afirmam que [...] nenhuma ou quase nenhuma ateno dedicada aos conceitos
bsicos dos testes, tais como erros do Tipo I (nvel de significncia), Tipo II (poder de um teste), regio
crtica e valor-p. Isto ainda agravado por abordagens que misturam a de Neyman-Pearson com a de
Fisher [...].
21

(iii) No reportar o poder do teste nem o que levou o pesquisador a escolher os


nveis de significncia utilizados, bem como no analisar o tamanho do
efeito encontrado.

Trata-se de procedimento que acaba por resultar: (i) na confuso entre medidas de erro
procedimentais ( e uma varivel aleatria, medida de evidncia ou erro
hipottico, contra factual (p-valor); (ii) como mtodos bayesianos so pouco
trabalhados, na confuso entre as probabilidades freqentistas utilizadas e
probabilidades a posteriori de a hiptese nula ser verdadeira ou de se cometer um erro;
e, principalmente, (iii) na confuso entre a significncia estatstica e a significncia
cientfica dos resultados da pesquisa (BERGER, 2003; GIGERENZER, 2004;
GIGERENZER, GRAUSS E VITAO, 2004; HUBBARD, BAYARRI, 2003; ZILIAK,
MCCLOSKEY, 2008a).

Nesta seo, portanto, apresentaremos de forma resumida e geral essas trs abordagens
de inferncia20. A exposio a seguir baseada em Casella e Berger (2002, p. 373-413),
Hogg e Craig (1978, p.235-257), Lehman e Romano (2008, p.56-107) para o
delineamento do mtodo clssico moderno; em Cox (1958, 1977, 1982), Mayo e Cox
(2006), Wagenmakers (2007), para os testes de significncia e em Berger (1985),
Berger (2003), Berger e Delampady (1987), Christensen (2005), Cohen (1994),
Gigerenzer (1993), Gigerenzer (2004), Gigerenzer, Grauss e Vitao (2004), Hubbard e
Armstrong (2006), Hubbard e Bayarri (2003), Hubbard, Bayarri, Berk e Carlton (2003),
Kadane (2011), Keuzenkamp e Magnus (1995), Mayo e Spanos (2006; 2011), Spielman
(1974) e Ziliak e McCloskey (2008a)21 para o realce das diferenas. Dessa forma, para
facilitar a leitura, as referncias sero omitidas a no ser em casos especficos ou de
citao direta.

20
Dessa forma, tendo em vista o objetivo da seo, obviamente que diversos pontos relevantes dos
mtodos sero omitidos, principalmente de anlise Bayesiana e de teoria da deciso.
21
Tambm foram utilizadas as referncias originais de Fisher (1971, 1973a, 1973b), Neyman (1950),
Neyman e Pearson (1928a, 1928b, 1933), Pearson (1955, 1962) e Wald (1939, 1949). Todavia, a inteno
desta parte do trabalho no realizar um resgate histrico do desenvolvimento das teorias e, portanto,
ser exposto apenas o arcabouo mais geral de seus fundamentos sem adentrar em nuances e excees
apontadas pelos autores, que debateram vigorosamente entre si.
22

2.1.1. Testes de Significncia de Fisher

Os testes de significncia de Fisher procuram analisar a realizao dos dados e verificar


se esta consistente com uma dada hiptese, denominada hiptese nula ( . A
hiptese nula, em geral, supe que a amostra provm de uma populao hipottica
infinita com distribuio conhecida. O procedimento do teste de significncia seria,
assim, derivar a distribuio de uma estatstica de teste, caso fosse verdadeira,
e definir a probabilidade de se observar um resultado to extremo ou maior do que o
observado sob estas circunstncias. Tal probabilidade uma estatstica, usualmente
chamada de p-valor, isto :

| | | || (01)

Quanto menor o p-valor, maior seria a evidncia contra a hiptese testada 22. Para
Fisher, tal estatstica forneceria evidncia indutiva contra a hiptese nula, baseada no
seguinte raciocnio de probabilidades disjuntas: ou a hiptese nula verdadeira e nos
defrontamos com um evento cujo valor, ou valor mais extremo, raro (mas, frise-se,
possvel), ou a hiptese nula falsa. Tendo em vista a perplexidade de se defrontar com
um evento raro caso a hiptese nula seja verdadeira, haveria motivos objetivos para
sua descrena. O teste de significncia estatstica, fundamentado no p-valor, seria,
portanto, uma forma de inferncia indutiva.

Em seus trabalhos iniciais, Fisher propunha que, caso o p-valor fosse menor do que
certo nvel considerado bastante improvvel para o pesquisador, chamado de nvel de
significncia, a hiptese nula fosse considerada rejeitada. Como visto na introduo
deste trabalho, o autor chegou a sugerir padres para a comunidade cientifica,
afirmando ser:
[...] usual e conveniente para os pesquisadores tomarem 5% como um nvel
de significncia padro, no sentido de estarem preparados para ignorar todos
os resultados que falhem em alcanar este padro e, por este meio, eliminar
de uma discusso mais aprofundada grande parte das flutuaes que a sorte
possa ter introduzido em seus resultados experimentais (FISHER, 1971,
p.13).

J em sua fase madura, Fisher afirmava que os pesquisadores no teriam de tomar uma
deciso acerca da rejeio ou no da hiptese, apenas deveriam comunicar a informao

22
Verificaremos na seo seguinte que este entendimento tem de ser contextualizado.
23

encontrada. Desta forma, dever-se-ia relatar o p-valor exato do teste, como uma
propriedade dos dados frente a uma suposta hiptese.

possvel demostrar que, quando verdade, em condies bem gerais,


Isso significa que qualquer valor para , ou qualquer intervalo
de mesmo tamanho equiprovvel quando verdadeira. Sob tais circunstncias,
obter um valor muito pequeno de como no algo mais raro do que obter
qualquer outro valor como, digamos, O raciocnio para a estatstica ser
evidncia contra a hiptese nula no fundamentado na raridade do p-valor, que
uniformemente distribudo sob e sim na lgica de probabilidades disjuntas exposta
anteriormente. Por exemplo, segundo Fisher, tambm poderia ser
considerado evidncia contra pois:

| | | || | | | || (02)

o que significa que, ou a hiptese nula verdadeira e nos deparamos com uma
discrepncia to pequena ou menor do que seria observada uma em cada mil vezes, ou
a hiptese nula falsa23.

Pelo exposto, percebe-se que os testes de significncia no fazem referncia a qualquer


hiptese alternativa e tratam-se, deste modo, to somente de testes acerca da
consistncia da hiptese nula em um sentido estrito, probabilstico. Buscam apenas
informar se os dados so coerentes com o modelo que se sups ger-los, sendo a medida
de coerncia sua improbabilidade. Resultados extremos seriam considerados muito
discordantes com , levando sua desconfiana, realizando, desta forma, um
24
simulacro da prova por contradio, ou modus tollens . Quando os dados
contradizem o modelo, no sentido probabilstico, haveria evidncias de sua falsidade.

23
Fisher (1973a, p. 81), com relao aos testes de grau de ajuste, afirma que [...] valores acima de
0,999 tem algumas vezes sido reportados e, se a hiptese for verdadeira, ocorreriam apenas uma vez em
mil testes [...] nesses casos, a hiptese considerada definitivamente rejeitada como se tivesse sido
0,001.
24
Se ento, necessariamente, Obviamente que no contexto probabilstico este
raciocnio no vlido, da a ideia de simulacro do modus tollens. Se , isso
no implica que Um exemplo adaptado de Cohen (1994) ilustra
facilmente a situao: se voc brasileiro, provavelmente no membro do congresso; entretanto, se
voc membro do congresso, isso no quer dizer que provavelmente voc no seja brasileiro. Vide
Spielman (1974) para crtica mais extensa da lgica subjacente aos testes de significncia. Fisher justifica
a aproximao da prova por contradio como um meio de inferncia indutiva e de aprendizagem pelo
erro, vide Fisher (1971, 1973a, 1973b), Mayo (1985, 2005a), Mayo e Spanos (2006, 2011).
24

Todavia, no claro qual o aspecto do modelo que est sendo rejeitado. Se


so supostas independentes com distribuio e realizamos o teste de
,

[...] a rejeio pode significar que , ou pode significar que os dados no


so independentes, ou pode significar que a distribuio no normal, ou
pode significar que as varincias das observaes no so iguais 25 [...] ele [o
teste de significncia] no especifica o que est errado26 (CHRISTENSEN,
2005, p.124).

Se os dados no contradizem o modelo, apenas no se chega a nenhuma prova e o


melhor que se pode dizer que os dados so consistentes com a hiptese. Note que,
neste caso, a deciso acerca da hiptese nula assimtrica. O pesquisador estabelece
qual o nvel de significncia que consideraria evidncia suficiente para rejeitar e
verifica se o resultado estatisticamente significativo. Uma falha em rejeitar a hiptese
nula no levaria a nenhuma concluso, pois no haveria qualquer forma de confirm-la.
No rejeitar no provaria que o modelo est correto, simplesmente porque podem existir
diversas outras hipteses consistentes com os mesmos dados isto , outras hipteses
que tambm no seriam rejeitadas. Da a ideia de que nunca se deveria aceitar uma
hiptese nula27.

Vejamos alguns corolrios do que foi discutido, que merecem destaque por aparecerem
constantemente em exemplos prticos: (i) para o caso especfico de a
ausncia de significncia no significa a ausncia de efeito; (ii) se h dois estudos, um
em que o resultado estatisticamente significante e o outro em que o resultado
estatisticamente insignificante, isto no significa que os resultados so conflitantes
por exemplo, dois estudos com ,e , , apontam
para a mesma direo, contra ; (iii) se vrios estudos no encontraram significncia
estatstica isto no significa que a evidncia de que inexiste efeito foi corroborada

25
Ou, ainda, pode indicar inclusive que so os dados que esto mal mensurados, incompletos ou errados.
Como bem lembra Gigerenzer (1993, p.326), [...] durante o sculo XIX astrnomos utilizaram testes de
significncia para rejeitar dados (os chamados outliers), pressupondo, pelo menos provisoriamente, que
suas hipteses estavam corretas [...] a matemtica no nos diz em quem os pesquisadores devem confiar
ou quem eles devem refutar [se os dados ou as hipteses].
26
Novamente, se ento a negao de implica, necessariamente, e to somente em
ou ou . A negao de no implica na negao de uma hiptese ou um conjunto de
hipteses em particular.
27
Isto concerne preocupao em no realizar a falcia de afirmao do consequente. Se isso no
quer dizer que . Poderamos ter, por exemplo, que e, dessa forma, observar consistente
tanto com quanto com
25

pode muito bem ser o contrrio. Tome, por exemplo, quatro estudos independentes
testando com . Neste caso,
dentro do paradigma de testes de significncia, o conjunto geral indica um resultado
estatisticamente significativo28; (iv) para se julgar com segurana a respeito da hiptese
especfica do parmetro, preciso assegurar que as outras fontes de erro
estejam controladas (isto , que as outras hipteses para se derivar a distribuio de
sejam razoavelmente vlidas).

Este ponto pode ser ressaltado de uma perspectiva diferente, lembrando-se mais uma
vez a definio de p-valor: trata-se da probabilidade de se observar um valor to
extremo ou mais extremo do que o observado sob Perceba, portanto, que a
evidncia que gerada contra a hiptese nula no baseada somente no que de fato foi
observado, mas tambm no que poderia ter sido observado, pois utiliza a distribuio
amostral29. Da a seguinte observao de Jeffreys:

[...] se o p-valor pequeno, isso quer dizer que houve grandes desvios
inesperados da predio. Mas por que isto deveria ser expresso em termos do
p-valor? Este ltimo nos d a probabilidade de desvios, medidos em uma
maneira particular, iguais ou maiores do que o conjunto observado, e a
contribuio do valor atual obtido quase sempre negligencivel. O que o
uso do p-valor implica, portanto, que uma hiptese que pode ser verdade
pode ser rejeitada porque no previu resultados observveis que no
ocorreram. Isso parece um procedimento notvel. (JEFFREYS, 1961, p. 385
grifo nosso)

Esta diferena, que pode no ser to intuitiva a princpio, talvez seja mais facilmente
ilustrada com um exemplo numrico. Suponha que voc tenha vrias urnas com a
mesma proporo desconhecida de bolas brancas e a mesma proporo de
bolas vermelhas. Voc, ento, realiza dois experimentos: (i) no primeiro voc escolhe
doze urnas e retira de cada apenas uma bola; e (ii) no segundo voc vai retirando uma
bola de cada urna at que voc tenha trs bolas brancas. Agora suponha que o resultado
do experimento (i) tenha sido trs bolas brancas entre as doze retiradas e que o resultado

28
Pode-se testar a significncia conjunta de estudos independentes utilizando-se o resultado de que a
soma do logaritmo de v.a.s com distribuio uniforme tem distribuio
29
Este um ponto bastante criticado por Bayesianos, pois fere o princpio da verossimilhana, ver Berger
(1985), Edwards et alii. (1963), Kadane (2011). A explicao que Cox d para se incluir informao no
observada ao p-valor nos seguintes termos: suponha que ns tenhamos decidido que a observao
decisiva para rejeitar a hiptese nula. Ento teramos de aceitar dados mais extremos como evidncia
contra a hiptese (COX, 1982, p.326). Outro argumento que o princpio da verossimilhana seria
adequado dentro do paradigma Bayesiano, mas no deveria ser um princpio frequentista, pois impediria
o controle adequado das probabilidades de erro. Para este contraponto, ver, por exemplo, Mayo e Spanos
(2011) ou Cox e Mayo (2010).
26

do experimento (ii) tenha sido que a terceira bola branca saiu na dcima segunda urna.
Em ambos os experimentos voc tem 25% de bolas brancas, ou 3/12. Uma inferncia
estatstica baseada nestes dados seria diferente para cada resultado?

Testemos O p-valor para o primeiro experimento seria , pois a


distribuio amostral binomial; j no segundo experimento teramos pois
a distribuio amostral binomial negativa. Caso considerssemos o nvel de
significncia de 5% como limiar, o segundo experimento nos levaria a rejeitar
enquanto o primeiro experimento no. Ou, ainda, se considerssemos a ideia de Fisher
em sua fase madura, e apenas reportssemos os p-valores, a evidncia contra , nestes
termos, poderia ser considerada como duas vezes maior no segundo experimento
(pois menor do que a metade de ). Todavia, note que, em ambos os casos, temos
trs bolas brancas de doze bolas retiradas. A amostra obtida a mesma. O que muda o
resultado da inferncia algo que poderia ter sido observado, mas no foi, ou seja, a
inteno de se ter pegado menos ou mais do que doze bolas no segundo experimento
at se obter a terceira bola branca.

Agora, suponha que o pesquisador no saiba se o experimento realizado fora o da


situao (i) ou o da situao (ii). Ao se deparar com a amostra de trs bolas brancas e
nove bolas vermelhas, o pesquisador teria de supor, tambm, um modelo probabilstico
que originou a amostra para poder realizar um teste de significncia. Caso escolhesse o
modelo (ii), defrontar-se-ia com o p-valor de 3,3%, o que aos nveis usuais de
significncia implicaria na rejeio de pois os dados indicam que o resultado
encontrado bastante improvvel sob a hiptese nula. Como visto, contudo,
improvvel segundo qual aspecto de ? A contradio de que ou de que a
distribuio amostral binomial negativa? Como coloca Cox (1987, p.336),

[...] ele [o teste de significncia] serve como um aviso geral de que algo est
errado (ou no), e no como um suporte explcito para uma explicao
alternativa em particular. Portanto, tais testes tm um objetivo bastante
limitado e em geral o pesquisador deveria fazer algo mais fortemente focado .

O pesquisador, portanto, tem de ter cautela para no julgar da inferncia do teste de


significncia mais do que este capaz de oferecer.
27

2.1.2. Testes de Hipteses de Neyman-Pearson

Entremos agora no paradigma dos testes de hipteses clssicos. Insatisfeitos com o


mtodo de Fisher30, Neyman e Pearson buscaram aprimorar os testes de significncia;
porm, a contribuio dos autores acabou por diferir substancialmente da inferncia
indutiva anterior 31 , fundamentando-se na busca por regras de deciso timas em
contextos probabilsticos. Os testes de hiptese clssicos, neste sentido, so
inerentemente dedutivos. Na sua forma mais simples, a abordagem j se inicia com
uma diferena: ao invs de somente uma, so estabelecidas a priori pelo menos duas
hipteses estatsticas concorrentes, a hiptese nula, e a hiptese alternativa, O
teste consistiria em decidir pela aceitao de uma das duas. Ou seja, neste contexto a
deciso simtrica, decide-se ou por ou por . Para fazer a escolha, toma-se uma
amostra aleatria de , e define-se um subconjunto do
espao amostral, denominado de regio crtica, tal que se ento se aceita e se
aceita-se

Uma vez definido tem-se, em especial, definidas tambm duas probabilidades


condicionais a priori, isto , anteriores ao teste: a primeira, denotada por
| , a probabilidade de a amostra aleatria pertencer regio crtica quando a
hiptese nula verdadeira este valor tambm usualmente chamado de tamanho do
teste ou, infelizmente, para aumentar a confuso entre os mtodos de inferncia, nvel
de significncia. Observe que, neste caso, o pesquisador cometeria um erro e rejeitaria
quando de fato verdadeira. Este erro denominado de erro tipo I. J a segunda
probabilidade, denotada por | , representaria as chances de a amostra
aleatria no pertencer regio crtica quando a hiptese alternativa verdadeira. Note
que aqui tambm haveria um erro, pois o pesquisador aceitaria quando de fato

30
Como colocou Pearson (1962, p.395), [...] o que Neyman e eu experimentamos [...] foi uma
insatisfao com a base lgica ou sua falta que parecia amparar a escolha e construo de testes
estatsticos [...] ns tentamos, portanto, desenvolver um conjunto de princpios com fundamentos
matemticos que, nos parecia, levariam a uma escolha racional de procedimentos estatsticos ao se
defrontar com certos tipos de problemas de anlise e interpretao de dados.
31
Fisher (1955, p.69), por exemplo, afirmou que a tentativa de reinterpretar os testes de significncia
comuns utilizados na pesquisa cientfica como se fossem um tipo de procedimento de aceitao que
levassem a decises no sentido de Wald se originou em vrias incompreenses e, aparentemente, levou a
muitas mais. As diferenas destacadas por Fisher dizem respeito ideia de amostragem repetida de uma
populao definida, idia de erro tipo II e idia de comportamento indutivo fundamentado em
regras de deciso frente noo de inferncia indutiva e aprendizagem pelo erro. Deborah Mayo (1992)
acredita que as diferenas entre os autores eram mais pessoais do que tericas e alega que Pearson no
concordou plenamente com a filosofia de comportamento indutivo proposta por Neyman.
28

verdadeira. Este erro denominado de erro tipo II. Tambm surge da a ideia de poder
do teste, que a probabilidade complementar do erro tipo II, |
a probabilidade de se rejeitar a hiptese nula quando a hiptese alternativa verdadeira.

Contrariamente ideia de uma populao hipottica infinita de Fisher, o teste de


hiptese de Neyman-Pearson presume o uso de amostras aleatrias repetidas de uma
populao definida. desta situao que decorrem as noes de e como limites
freqentistas de erro. A partir da, uma vez montado o problema, caberia ao pesquisador
encontrar uma regra a ser seguida que minimizasse os riscos dos erros tipo I e tipo II.
Contudo, uma vez fixado o tamanho amostral em , a diminuio de implica em um
aumento de e no possvel minimizar ambos ao mesmo tempo. O que fazer ento?
A soluo proposta pelos autores foi fixar e encontrar a regra de deciso que
minimizasse o erro tipo II, ou, analogamente, que maximizasse o poder do teste,
, dado . O lema fundamental de Neyman-Pearson consiste justamente na
demonstrao da existncia e das condies necessrias e suficientes para o teste mais
poderoso 32.

Neste contexto, cabe introduzir o conceito de funo perda33. Suponha que as hipteses
nula e alternativa digam respeito a um parmetro da populao. Uma vez definida
uma funo de deciso para cada realizao amostral, , pode-se associar uma
perda a cada deciso dado o verdadeiro valor de isto , A partir da
possvel derivar uma funo risco, [ ( )], que represente o valor
esperado da perda (no espao amostral) quando o verdadeiro parmetro (por isso o
subscrito na esperana). O teste de hiptese no contexto de Neyman-Pearson poderia
ser visto com um problema de deciso com dois tipos de perda. Supondo que as
hipteses concorrentes sejam definidas por e , e que e
representem a deciso de aceitar e rejeitar respectivamente, poderamos estabelecer

32
A ideia de teste mais poderoso se aplica ao se confrontarem duas hipteses simples. Ao se testar uma
hiptese simples contra uma hiptese composta, tem-se a noo de teste uniformemente mais poderoso.
A partir da contribuio seminal de Neyman e Pearson, foram desenvolvidos outros conceitos de
propriedades desejveis para os testes, de modo a se buscar os melhores testes em condies mais
gerais. Os testes t bilateral, e o teste F, por exemplo, comumente utilizados na econometria, so exemplos
de testes, respectivamente, uniformemente mais poderoso no-viesado e uniformemente mais
poderoso invariante. Em Neyman-Pearson os testes so com tamanho de amostra fixo; j se avanou o
estudo de testes sequenciais. O desenvolvimento dos conceitos de no-vis, consistncia, invarincia,
quase-invarincia, admissibilidade, testes sequenciais, testes mltiplos, entre outros, no necessrio para
a exposio deste trabalho e podem ser facilmente encontrados nos textos elencados nas referncias.
33
Anlise extensiva sobre funes perda foi primeiramente realizada por Wald (1939; 1949).
29

as seguinte perdas: caso a deciso tomada seja errada (um erro tipo I ou erro tipo II),
perde-se 1; por outro lado, caso a deciso tomada seja correta, perde-se 0. Isto :

(03)
{

Esta funo perda usualmente chamada de 0-1. Note que o risco quando
verdadeira simplesmente a probabilidade de erro tipo I:

[ ( )] | | (04)

J quando verdadeira, o risco associado simplesmente a probabilidade de erro


tipo II:

[ ( )] | | (05)

Neste caso, o teste de hiptese em Neyman-Pearson seria equivalente a um problema de


deciso em que se busca encontrar uma regra, , funo da distribuio amostral,
que minimize o risco associado a quando a hiptese alternativa verdadeira, impondo-
se um limite mximo ao risco tolerado quando a hiptese nula verdadeira, supondo-se,
ainda, que ambos os erros (tipo I e tipo II) ou acertos tenham a mesma perda ou ganho
caso cometidos (no caso 1 ou 0).

Portanto, fica claro em que sentido a abordagem de Neyman-Pearson , na verdade,


fundamentalmente dedutiva. Trata-se de um procedimento no evidencial que, com
base no modelo utilizado, estabelece uma regra de deciso a priori controlando os
riscos probabilsticos de tal empreitada. Dentro deste contexto, apenas um resultado em
particular no precisa ter interpretao epistmica como evidncia contra ou a favor de
uma teoria, pois, aceitar ou rejeitar uma hiptese no implica em acreditar que esta seja
verdade, mas agir como se fosse verdade tendo em vista o critrio de otimizao
adotado. O argumento parte do geral para o particular 34 . Neyman distinguiu este

34
Cabe aqui esclarecer mais detidamente em que sentido se classifica o mtodo de Fisher como indutivo e
o de Neyman-Pearson como dedutivo. Evidentemente que, para se calcular o p-valor, devem-se
estabelecer os pressupostos da distribuio populacional, definir-se a estatstica de teste, e da derivar-se,
dedutivamente, a distribuio amostral da estatstica. Entretanto, aps isso, a interpretao epistmica
dada ao p-valor, em Fisher, um passo indutivo; pois, caso se quisesse deduzir logicamente a
improbabilidade da hiptese nula face realizao dos dados, seria necessrio algo como a inverso de
probabilidade pela regra de Bayes. O processo de Neyman-Pearson quando interpretado dentro do
contexto de teoria da deciso, por outro lado, busca critrios timos de regras de comportamento para a
30

procedimento do raciocnio indutivo de Fisher, denominando-o de comportamento


indutivo. Em suas palavras,

[...] o termo raciocnio indutivo permanece obscuro e incerto se pode ser


convenientemente usado para designar qualquer conceito claramente
definido. Por outro lado [...] parece haver espao para a expresso
comportamento indutivo. Esta pode ser utilizada para denotar o
ajustamento do nosso comportamento a quantidades limitadas de informao.
O ajuste em parte consciente e em parte subconsciente. A parte consciente
baseada em certas regras (se eu vir isso acontecendo, ento eu fao isso) que
chamamos de regras de comportamento indutivo. Ao estabelecer essas regras,
ambas a teoria da probabilidade e da estatstica desempenham um papel
importante, e h uma quantidade considervel de raciocnio envolvido. Como
de costume, no entanto, o raciocnio todo dedutivo (Neyman 1950, p 01).

Percebe-se, assim, que o teste de hiptese, no arcabouo de Neyman-Pearson, trata-se


do estabelecimento de uma regra tima no sentido estrito de minimizar uma vez que
fora previamente definido. A teoria no fornece qual o balano timo entre o nvel de
significncia e o poder do teste Tal ponderao no se trata de um problema
estatstico. Para tanto, o pesquisador deveria ter em mente quais so os custos
associados a cada tipo de erro algo especfico ao seu problema e estabelecer a priori
os nveis de com base em uma anlise custo-benefcio. Nas palavras de Pearson,

[...] ns certamente estvamos cientes de que inferncias devem usar


informao a priori e que decises devem levar em conta utilidades [...] ns
deixamos uma lacuna em nosso modelo matemtico para o exerccio de um
processo de julgamento pessoal mais intuitivo em tais questes [...] como a
escolha da classe de hipteses admissveis, o nvel de significncia
apropriado, a magnitude de efeitos relevantes e o balano das utilidades
(PEARSON, 1962, p.395-396).

Esta discusso, quando surge nos livros-textos de inferncia, muitas vezes em termos
pouco formais. Em Lehmann e Romano (2008), por exemplo, os autores indicam que os
padres atualmente adotados para controle de erro tipo I surgiram como consequncia

definio das reas de aceitao e rejeio da hiptese nula sob incerteza. Poder-se-ia, frente aos riscos
envolvidos, escolher-se, por exemplo, uma rea de rejeio com , e justific-la por algum
critrio de otimizao (como uma soluo mini-max). Note que, neste caso, no haveria qualquer apelo
a um simulacro do modus tollens, pois uma probabilidade de erro de 50% quando verdadeira no
teria fora evidencial, indutiva, contra a hiptese nula. Entretanto, h quem recrimine este tipo de uso.
Deborah Mayo (2004) acredita que a interpretao comportamental da teoria de Neyman-Pearson acaba
por levar a decises rudes de aceitao e rejeio. Deste modo, a autora busca reinterpret-la dentro da
filosofia indutiva de Fisher. Exporemos brevemente a abordagem ao final do captulo, mas cabe
mencionar, aqui, que alguns autores, como Casella (2004), ainda acham que esta reinterpretao um
pouco vaga; Ziliak e McCloskey (2008a), por sua vez, temem que a abordagem no leve em conta
aspectos econmicos do problema, levando mesma confuso entre significncia estatstica e econmica.
interessante ressaltar tambm que a anlise de Neyman-Pearson fica, muitas vezes, circunscrita aos
limites do modelo utilizado, enquanto os testes de significncia podem permitir o escrutnio dos
pressupostos do modelo como um pressuposto de normalidade ou de linearidade nos Mnimos
Quadrados Ordinrios (GRAVES, 1978; KEUZENKAMP, MAGNUS, 1995; LOUC, 2008; NEYMAN,
PEARSON, 1933; SPANOS, MCGUIRK 2001).
31

das limitaes computacionais da poca em que os testes foram desenvolvidos e que,


atualmente, lamentvel o fato de serem utilizados sem qualquer ponderao. Nas
palavras dos autores,

[...] a escolha do nvel de significncia de certo modo arbitrria, uma vez


que na maioria das situaes no h um limite preciso para a probabilidade
de erro tipo I que pode ser tolerada. Valores padres, como 0,01 ou 0,05,
foram originalmente escolhidos para reduzir as tabelas necessrias para
realizar vrios testes. Pelo hbito e por conta da convenincia da
padronizao em prover uma referncia comum, esses valores gradualmente
ficaram entranhados como os nveis usuais a serem utilizados. Isto
lamentvel, pois a escolha do nvel de significncia deveria levar em conta
o poder que o teste ir alcanar contra as alternativas de interesse. H
pouco sentido em realizar um experimento em que se tem apenas uma
pequena chance de se detectar o efeito procurado quando ele existe
(Lehmann, Romano, 2008, p. 57, grifo nosso).

Em uma situao ideal, complementam Lehmann e Romano, para se aumentar o poder


do teste ao nvel desejado poder-se-ia aumentar o tamanho da amostra. Contudo,
quando isso no possvel, interessante refletir se um aumento na probabilidade de
erro tipo I no compensaria a consequente reduo na probabilidade de erro tipo II. Por
outro lado, em situaes de amostras grandes, na maior parte das vezes seria desejvel
diminuir ainda mais a probabilidade pois pouco se perderia em termos de poder.
Uma questo mais subjetiva na determinao do tamanho do teste tambm colocada
pelos autores, quando afirmam que

[...] outra considerao que pode entrar na especificao de um nvel de


significncia a atitude frente hiptese antes de o experimento ser
realizado. Se o pesquisador acredita firmemente que a hiptese verdadeira,
evidncia extremamente convincente ser requerida antes de se abandonar a
crena e o nvel de significncia ser fixado em nvel bastante baixo
(Lehmann, Romano, 2008, p. 58, grifo nosso).

Vejamos agora o que dizem Casella e Berger (2002), que apresentam perspectiva
bastante diversa quando da estruturao do teste a ser aplicado. Caso o pesquisador
acredite em dada hiptese, ao invs de estabelec-la como e requerer pequeno, os
estatsticos recomendam que esta seja estabelecida como , pois,

[...] ao fixar o tamanho do teste, o pesquisador est apenas controlando as


probabilidades de erro tipo I, e no as de erro tipo II [...] suponha que o
pesquisador espere que um experimento d suporte a uma hiptese em
particular, mas no deseje afirmar isso a no ser que os dados deem suporte
convincente. O teste pode ser montado ento de forma que a hiptese
alternativa seja aquela que se espera que o dado confirme [...] ao usar um
teste de tamanho sendo bastante pequeno, o pesquisador est se
guardando contra dizer que os dados do suporte hiptese de pesquisa
quando esta falsa (CASELLA, BERGER, 2002, p. 386).
32

Mesmo com esta breve discusso, nota-se que h diversas formas de se montar o teste,
tanto em relao a estabelecer qual ser e qual ser bem como quanto
ponderao entre as probabilidades de erro e . Estas so questes circunstanciais que
fazem parte do problema e no poderiam ser simplesmente ignoradas ou omitidas.
Ademais, alm das discusses informais expostas acima, admitindo-se o carter de
teoria da deciso do procedimento de Neyman-Pearson, o pesquisador poderia
formalizar a preocupao com os erros e buscar funes perda adequadas ao problema,
bem como critrios de otimalidade para a escolha da regio crtica, tais como minimizar
o risco de bayes35 ou encontrar uma soluo do tipo minimax,36 entre outras. Hoffmann
(2001), por exemplo, discorre acerca da escolha de nos moldes de Lehmann e
Romano, entretanto com uma abordagem um pouco mais formal. E, ao final, conclui
que

[...] fcil depreender que a escolha do nvel de significncia, em um dado


problema, tem muito de arbitrrio. A discusso apresentada tem por
finalidade deixar clara a direo em que deve ser ajustado o nvel de
significncia, conforme mudam a probabilidade a priori de ser verdadeira
e a relao entre os custos de cometer erro tipo I e erro tipo II
(HOFFMANN, 2001, p.175).

2.1.3. Contrastando e p-valor

Uma vez que, ao se definir a regio crtica em Neyman-Pearson, divide-se o espao


amostral em duas regies exaustivas, uma de aceitao e outra de rejeio da hiptese
nula, obviamente que possvel realizar o teste com qualquer funo dos dados, isto ,
com qualquer estatstica, inclusive o p-valor. Desta forma, com base nas consideraes
acerca das circunstncias em que o teste ser aplicado isto , levando em conta o
poder que o teste alcanar, os pesos de cada um dos erros envolvidos, entre outros
fatores uma vez definido a priori, a regra de deciso para a rejeio de ser, em
geral, 37. Note, contudo, que o nvel de significncia uma propriedade do

35
Supondo uma distribuio a priori para os parmetros, o risco de bayes o valor esperado da funo
risco, isto , [ ]. A soluo de bayes a regra de deciso que minimiza o risco de bayes.
36
Uma soluo minimax aquela regra de deciso que minimiza o maior risco possvel.
37
Desta forma, no incomum encontrar a definio de p-valor, no contexto de Neyman-Pearson, como
o menor nvel de significncia em que a hiptese nula teria sido rejeitada ou { | .
Entretanto, esta definio no tem uma interpretao de limite de erro de longo prazo, pois, como visto, o
tamanho do teste definido a priori e o p-valor uma varivel aleatria dependente da amostra. Fisher
rejeitou este tipo de interpretao do p-valor (FISHER, 1971, p. 25; 1973b, p. 42-48;79-81; e FISHER
1955).
33

teste, ou seja, fixo, e que o valor de no importa a no ser pelo fato de pertencer
regio crtica. Por conseguinte, o p-valor no a probabilidade de erro tipo I e, ao se
observar um resultado como , no vlida a interpretao frequentista a
posteriori de que rejeitada com 38.

Talvez a forma mais fcil de perceber esta diferena entre o p-valor e a probabilidade
de erro tipo I seja com testes randomizados. Para se alcanar um arbitrrio quando
a distribuio de probabilidade no contnua, necessrio o auxlio de fatores
aleatrios que esto alm do espao amostral. Considere o exemplo baseado em
Christensen (2005), representado na Tabela 1, abaixo:

Tabela 1 Distribuio f(x|


x 1 2 3 4
f(x|0) 0,980 0,005 0,005 0,010
f(x|2) 0,098 0,001 0,001 0,900

Para se conseguir um nvel de significncia arbitrrio ao se testar contra


preciso realizar testes randomizados, que consistem em se construir reas
de rejeio randmicas. Para , por exemplo, trs conjuntos possveis que
poderiam ser construdos seriam: (i) rejeitar quando , jogar uma moeda e, se der

cara, rejeitar quando (assim teramos ; (ii) rejeitar

quando , jogar uma moeda e, se der cara, rejeitar quando (assim teramos

; e, (iii) rejeitar quando ou jogar uma moeda duas

vezes, e se der cara duas vezes, rejeitar quando (assim teramos

. Suponha que, por algum motivo, o pesquisador tenha escolhido

a regra de rejeio em (iii). Observe que quando , a mesma evidncia, isto , o


mesmo p-valor, , uma em cada quatro vezes ser considerado significante
(probabilidade de se ter duas caras) e trs em cada quatro vezes no ser. Frise-se que
neste caso , inclusive, menor do que a probabilidade de erro tipo I da regra de

38
Entretanto, desde que corretamente calculado, o p-valor pode ter a intepretao contra-factual de
severidade do teste (MAYO, SPANOS, 2006).
34

deciso (iii) que , independentemente de rejeitarmos ou no em um


teste especfico39.

Assim, como dito, decerto possvel definir a mesma rea de rejeio em termos de
uma estatstica ou em termos da estatstica especfica do p-valor. Todavia, como
ilustrado pelo exemplo, percebe-se que os testes de hipteses no tem apelo ao
simulacro da prova por contradio e, deste modo, o p-valor apenas uma estatstica
que est ou no na rea de rejeio definida a priori, O objetivo do teste controlar
um tipo de erro enquanto se minimiza o outro. Ocorre que muitas vezes, dentro do
arcabouo de Neyman-Pearson, o nvel de significncia tomado pelo pesquisador
como o nico fato de importncia, sem qualquer reflexo quanto ao poder do teste. Isso
claramente incoerente e talvez o exemplo de Kadane (2011, p.439), apesar de irnico,
ilustre de forma mais categrica o motivo:

[...] considere, por exemplo, o seguinte teste trivial. Jogue uma moeda
viciada que d cara com probabilidade 0,95 e que d coroa com
probabilidade 0,05. Se a moeda der coroa, rejeite a hiptese nula. Uma vez
que a probabilidade de rejeitar a hiptese nula quando ela verdade de
0,05, este um teste com 5% de nvel de significncia vlido. tambm
bastante robusto a erros nos dados; de fato, sequer depende dos dados.

Obviamente que este teste seria considerado absurdo. Mas tem um nvel de significncia
de 5%; e, se a preocupao do pesquisador fosse de apenas controlar , este um teste
que lhe dar absoluta certeza de que, caso seja verdadeira, ela apenas ser rejeitada
em 5% das vezes. Isto chama ateno inferncia realizada sem qualquer outra
preocupao a no ser o nvel de significncia: ela to boa quanto permitir que uma
moeda viciada realize automaticamente o julgamento cientfico no lugar do pesquisador.
neste sentido que Ziliak e McCloskey (2008a, p. 8-9) atentam ao fato de que ajustar
os nveis de erro tipo I e erro tipo II necessrio para se lidar com diferentes atitudes
frente ao risco e que, sem se atentar s perdas relativas e aos riscos envolvidos, um teste
deste tipo no nem um pouco melhor do que uma tabela de nmeros aleatrios
(ZILIAK, MCCLOSKEY, 2008a p. 8-9).

Em resumo, os testes de Neyman-Pearson e os testes de Fisher no so procedimentos,


por si s, comparveis40. Enquanto o primeiro projetado para otimizar a deteco de

39
Para no entrar em contradio com a definio de p-valor como menor nvel de significncia em que
a hiptese nula teria sido rejeitada, comum generaliz-la, no caso de testes randomizados, como
menor nvel de significncia em que a hiptese nula teria sido rejeitada com probabilidade 1.
35

alguma hiptese alternativa, o teste de significncia no faz nenhuma referncia a


qualquer outra hiptese alm da nula, inexistindo os conceitos de erro tipo II , aceitao
da hiptese nula e poder do teste. Enquanto os testes de hiptese partem da premissa de
amostras repetidas de uma populao definida para a validade da interpretao de erros
de longo prazo, definidos em e , o p-valor uma varivel aleatria, propriedade da
amostra e da distribuio amostral, e refere-se probabilidade de observar dados to
extremos, ou mais extremos, sob a hiptese nula, desempenhando um papel epistmico
como uma medida de evidncia indutiva em experincias individuais. Essas questes,
bem como o que fora exposto tambm anteriormente, so resumidas na Tabela 2.

Tabela 2 Contraste entre p-valor e


p-valor
Teste de significncia Teste de hiptese (regra de deciso tima)
Evidncia contra Limite de rejeio errnea de
Filosofia indutiva Filosofia dedutiva
Inferncia indutiva Comportamento indutivo
Evidencial No evidencial
Varivel aleatria Pr-fixado antes do experimento
Aplicado a um estudo particular Interpretao de longo-prazo em vrias amostras
Populao hipottica infinita Amostras aleatrias de uma populao definida
Fonte: tabela baseada em Hubbard e Bayarri (2003).

2.1.4. Teorema de Bayes

Na breve incurso que fizemos anteriormente, foram apresentados os conceitos de p-


valor, e com base em propriedades da distribuio amostral. Viu-se que estes no
se confundem entre si. Agora, cabe esclarecer como os trs no so medidas de
probabilidade a posteriori, isto , tanto (i) o p-valor no a probabilidade de a hiptese
nula ser verdadeira, como (ii) e no so as probabilidades de se ter cometido um
erro tipo I ou um erro tipo II, respectivamente. Para tais medidas, seria preciso fazer a
inverso da probabilidade condicional da observao dada a hiptese para a
probabilidade condicional da hiptese dada a observao.

40
Como fizemos referncia anteriormente, Aris Spanos e Deborah Mayo buscam conciliar ambos os
mtodos, voltando-se com mais nfase ao conceito de inferncia indutiva de Fisher e introduzindo o
conceito de severidade na anlise posterior coleta dos dados. Alegam os autores que [...] embora a
mistura de aspectos de testes de Neyman-Pearson e de Fisher seja frequentemente acusada de ser um
hbrido incoerente [Gigerenzer, 1993], o guarda-chuva do erro estatstico, ligado pela noo de
severidade, permite uma mistura coerente de elementos de ambas as abordagens (MAYO, SPANOS,
2011, p.164). Vide tambm Mayo e Spanos (2006).
36

Uma anlise Bayesiana envolve o uso de informao a priori sobre os possveis valores
de e utiliza o teorema de Bayes para combin-la com a informao fornecida pelos
dados, encontrando, assim, a distribuio a posteriori dos parmetros estudados.
Suponha que queiramos testar contra . Ento, para uma inferncia
Bayesiana, bastaria calcular | bem como | e decidir acerca
da validade de ou com base nas probabilidades a posteriori de cada hiptese.

Defina por a distribuio a priori 41 do parmetro de interesse. A distribuio


conjunta de e , portanto, dada por:

| (06)

Assim, a distribuio marginal incondicional de pode ser escrita como:

(07)
|

Por conseguinte, a distribuio condicional de dado que se observou , isto , a


distribuio a posteriori de :

(08)
|

E, consequentemente, a probabilidade a posteriori de qualquer conjunto nada mais


do que:

(09)
| |

Ou seja, uma vez obtida a observao , possvel calcular a probabilidade a posteriori


de uma hiptese em particular e, consequentemente, a probabilidade de se cometer um
erro caso se aceite a hiptese como verdadeira. No haveria necessidade de se realizar
um teste propriamente dito, pois seria possvel calcular, diretamente, qual a hiptese
mais provvel. Destarte, a validade ou no de uma hiptese sobre o parmetro torna-se

41
A validade de se supor distribuies a priori para os parmetros no ser discutida neste trabalho. A
inteno aqui contrastar a probabilidade frequentista com a probabilidade inversa para esclarecer erros
frequentes de interpretao dos mtodos clssicos, bem como a divergncia que se pode ter entre os
diferentes mtodos de inferncia. Para justificativas acerca da abordagem Bayesiana, ver Jeffreys (1961),
Berger (1985), Kadane (2011), Gelman e Robert (2012).
37

claramente um problema de deciso no contexto Bayesiano: sabendo-se que tem a


probabilidade de ser verdade e que tem a probabilidade de ser verdade, qual a
melhor deciso a ser tomada?

Dentro do arcabouo do teste clssico de hipteses, vimos que este tambm pode ser
considerado como um problema de deciso utilizando uma funo perda 0-1. Como
ilustrao, podemos traduzir este cenrio em um contexto Bayesiano. A perda esperada
quando se decide por dada por:

(10)
[ ] | | |

Analogamente, a perda esperada quando se decide por seria igual a:

(11)
[ ] | | |

Em um contexto de perda 0-1, portanto, a deciso com menor perda esperada


simplesmente aceitar como verdade a hiptese mais provvel a posteriori.
Evidentemente, da mesma forma que no teste de hiptese clssico, considerar que
ambos os erros tenham o mesmo peso nem sempre pode ser a escolha mais adequada.
Para um cenrio um pouco mais realista, por exemplo, em que se atribui uma perda a
cada tipo de erro, a hiptese nula seria rejeitada quando:

| (12)
|

Diferentemente do caso clssico, aqui a disjuno entre crena e ao fica mais clara. O
pesquisador pode chegar a um resultado a posteriori em que uma hiptese mais
provvel do que outra e, mesmo assim, tendo em vista os riscos associados a cada tipo
de deciso, escolher agir de modo diferente.

2.1.5. Voltando ao ritual nulo

Aps a breve exposio sobre os mtodos de inferncia, percebe-se como o ritual nulo
praticado uma juno inconsistente de aspectos operacionais dos dois mtodos
clssicos e, muitas vezes, com interpretaes bayesianas.
38

O primeiro passo estabelecer apenas a hiptese nula, tal qual proposto por Fisher
exceto pelo fato de que na maioria das vezes a hiptese nula , mecanicamente, zero.
Note que este passo est em desacordo com Neyman-Pearson, em que, com base
tambm em o pesquisador precisaria definir anteriormente realizao do
teste, levando em conta os riscos que est disposto a enfrentar (se dado ento
definir o balano ideal de e . J o segundo passo um simulacro de Neynan-
Pearson, tomando-se decises de se aceitar ou rejeitar a hiptese nula, entretanto com
base em um nvel de significncia arbitrrio e muitas vezes com alfas itinerantes,
considerando o p-valor como a medida de erro tipo I (ou considerando-o uma medida
a posteriori de erro). Note que, para Fisher, aceitar a hiptese nula no contexto dos
testes de significncia seria equivalente falcia da afirmao do consequente.
Ademais, em sua fase madura, Fisher sugeria apenas a comunicao do p-valor exato do
teste, sem qualquer julgamento de aceitao acerca da hiptese (GIGERENZER, 1993,
2004).

Mais ainda, como exps Cohen (1994, p.997), os testes de significncia estatstica, com
seus p-valores, [...] no nos dizem o que queremos saber, e ns queremos tanto saber o
que queremos saber que, no desespero, ns ainda assim acreditamos que eles nos dizem
[o que queremos saber]! 42; isto , a informao que o p-valor fornece ao cientista,
como vimos, a probabilidade de a estatstica de teste ser to grande ou maior do que a
estatstica efetivamente observada caso a hiptese nula fosse verdadeira. No obstante,
a partir dela e infelizmente, em muitos casos, somente a partir dela que o
pesquisador tira suas concluses a respeito da veracidade ou no da hiptese nula,
muitas vezes realizando uma inferncia do tipo | , que para ser
obtida dever-se-ia recorrer a mtodos bayesianos. Assim, atualmente, o p-valor , ao
mesmo tempo, uma das estatsticas mais difundidas nas cincias sociais e biomdicas e
uma das menos compreendidas (GOODMAN, 2008; ZILIAK, MCCLOSKEY,
2008a)43.

O p-valor, no seu uso dirio, tem sido erroneamente interpretado como: (i) a
probabilidade de a hiptese nula ser verdadeira; (ii) a probabilidade de o resultado ter

42
Por outro lado, Mayo (2005a) diria que o que queremos realmente saber se a hiptese passa em testes
severos.
43
Para um survey amplo sobre a literatura emprica acerca das incompreenses em testes de hipteses, ver
Castro Sotos et alii (2007). Mais referncias sero dadas na prxima seo.
39

ocorrido caso a hiptese nula fosse verdadeira; (iii) o tamanho do teste ; (iv) a
probabilidade de se cometer um erro; (v) a indicao da importncia cientfica do
resultado, caso ; (vi) a confirmao da inexistncia de efeito, caso ; (vii) a
probabilidade de replicao dos resultados - entre outras concepes enganosas
(BERGER, DELAMPADY, 1987; GOODMAN, 2008). A confuso com relao ao uso
dos testes de hipteses completa e to disseminada que, conforme Hubbard e Bayarri
(2003, p.17), sua aplicao, na maior parte dos casos, um mero ritual automtico.

Pelo exposto nas sees anteriores, percebe-se como cada uma dessas interpretaes
incorreta. Porm, para o presente trabalho, vale discutir um pouco mais acerca do p-
valor como evidncia, o que veremos na prxima seo. Trataremos tambm das noes
de erro amostral e erro real, alm da distino entre diferena estatstica e diferena
substantiva. Estes pontos tm bastante relao com a confuso entre significncia
estatstica e significncia cientfica, prtica ou econmica dos resultados, que,
conforme, Goodman (2008, p.138), o equvoco que

[...] engloba todos os outros. equivalente a dizer que a magnitude do efeito


no relevante, que a nica prova relevante para uma concluso cientfica
est na experincia em questo, e que tanto as crenas quanto as aes fluem
diretamente a partir dos resultados estatsticos. A evidncia de um dado
estudo tem de ser combinada com aquelas de trabalhos anteriores para gerar
uma concluso. Em alguns casos, uma concluso cientificamente defensvel
pode ser que a hiptese nula ainda provavelmente verdade, mesmo depois
de um resultado significativo, e em outros casos, um valor no significativo
para p ainda poderia levar a uma concluso de que um tratamento funciona
[...] para justificar as aes, devemos incorporar a gravidade dos erros
decorrentes delas juntamente com a chance de que as concluses estejam
erradas.

2.2. P-valor como evidncia, erro real e diferena substantiva

A evidncia que um p-valor gera com relao hiptese nula, contra ou a favor, no
algo absoluto. Isso pde ser visto dentro do contexto dos testes de hipteses clssicos,
em que, enquanto Casella e Berger afirmavam que a hiptese nula a ser testada deveria
ser aquela em que o pesquisador pouco acredita, Lehmann e Romano sugeriam que,
quando o pesquisador acreditasse firmemente na hiptese nula, fosse ento requerida
evidncia muito mais exigente para abandon-la. Dentro do prprio contexto do mtodo
de Neyman-Pearson, o pesquisador teria de levar em conta diversos aspectos (como a
gravidade do erro tipo I ou do erro tipo II, o tamanho da amostra, o poder alcanado
40

pelo teste, as magnitudes dos coeficientes envolvidos e as crenas com relao


hiptese) para considerar um resultado como significante ou no.

A esse respeito, Savage (apud BERGER, 1985, p.02), consegue, com um exemplo bem
simples, ilustrar como a mesma evidncia objetiva emprica, fornecida por um p-
valor, capaz de ser interpretada de maneira bastante diferente dependendo do contexto
em que utilizada. Considere trs experimentos estatsticos.

1) Uma senhora, que adiciona leite ao seu ch, alega ser capaz de dizer se o ch ou
o leite foram colocados na xcara primeiro. Em dez tentativas para testar sua
alegao, ela acertou todas;

2) Um msico profissional alega ser capaz de distinguir uma pgina de uma pea
de Haydn de uma pgina de uma pea de Mozart. Em dez tentativas para dizer
de quem era a pgina, ele acertou todas;

3) Seu amigo bbado diz que capaz de prever o resultado do lanamento de uma
moeda no viciada. Em dez tentativas que voc lanou a moeda, ele acertou
todas.

Nos trs experimentos, defina como a probabilidade de cada um dos indivduos


acertar a predio que alega ser capaz de fazer. Perceba, neste caso, que a hiptese de
nenhuma capacidade especial pode ser definida como , ou seja, a hiptese
de que o sujeito seja to bom em prever o evento quanto o acaso. Dessa forma, podemos
testar contra . Se aplicssemos um teste de significncia
estatstica contra a hiptese nula, rejeitaramos ao nvel de significncia unilateral de
. Nos trs casos, haveria menos de 0,1% de chances de ocorrer uma srie de 10
acertos. Todavia, fcil perceber que este resultado no teria a mesma fora como
evidncia para as trs situaes.

Com relao ao caso de nmero dois, bastante provvel que a evidncia apresentada
seja considerada prova quase irrefutvel de sua alegao. J com relao situao de
nmero trs, a evidncia, por mais impressionante que seja, provavelmente no seria
interpretada como nada mais alm de um grande lance de sorte. Nossa convico com
relao hiptese nula de que permaneceria inalterada. Por
41

fim, o primeiro caso provavelmente levaria a vrias concluses diferentes, a depender


da plausibilidade e convices prvias acerca da alegao da senhora44.

Quando exposto desta forma, no difcil perceber como o peso do p-valor relativo;
trabalhemos mais um pouco este tema contrastando-o com probabilidades a posteriori e
discutindo sua coerncia.

2.2.1. P-valor no probabilidade a posteriori

Isto pode parecer um erro trivial, mas no : a incorreta inverso da probabilidade do p-


valor parece ser algo generalizado 45 . Oakes (1986) encontrou, em pesquisa na
Inglaterra, que 86% dos pesquisadores em psicologia confundiram o p-valor como a
indicao da probabilidade de se cometer um erro ao se rejeitar a hiptese nula. Flak e
Greenbaum (1995) repetiram o estudo em Israel e obtiveram resultado similar46. Haller
e Krauss (2002), na Alemanha, chegaram mesma concluso. Outros estudos nos
Estados Unidos (LINK, 2002; delMAS, 2007), na Argentina (RODRIGUEZ, 2006), na
Espanha (CASTRO SOTOS et alii, 2009), e no Brasil (SEBASTIANI, VIALI, 2011)
tambm verificaram a dificuldade de interpretao do p-valor em alunos universitrios.
Tendo em vista que a confuso entre | e | parece ser bastante
disseminada, o que atrapalharia o julgamento da evidncia que a estatstica p-valor

44
Savage faz referncia ao famoso experimento The lady tasting tea, utilizado por Fisher em The
Design of Experiments para ilustrar os diversos elementos por trs do desenho de um experimento e a
realizao de um teste de significncia. O exemplo de Fisher se consistia, na verdade, em misturar 08
xcaras aleatoriamente, 04 com o ch colocado primeiro e 04 com o leite. Dessa forma, a chance de
discernir as xcaras por sorte seria de 01 em 70 ou aproximadamente 1,4%. Segundo Salsburg (2001,
p.08), o experimento de fato ocorreu e a senhora conseguiu discernir cada uma das xcaras. Neyman
(1950) criticou a forma que Fisher escolheu para o experimento e modificou o problema no contexto de
Neyman-Pearson, considerando que seriam apresentados senhora pares para experimentao, cada par
com uma xcara de cada tipo. Neyman mostrou, ento, que ao se considerar um teste contra
, poucas observaes, como proposto por Fisher, resultariam em pouco poder para
discrepncias razoveis como [ ]. Para , por exemplo, e , ainda assim
teramos o poder para igual a 0,1673, o que para Neyman pareceu poder bastante baixo para
identificar a capacidade da senhora. interessante notar, tambm, que a mera rejeio da aleatoriedade,
isto , que uma hiptese estatstica, no implicaria na aceitao de uma hiptese alternativa
do mundo real em particular (como a capacidade de a senhora discernir qual ingrediente foi colocado
primeiro), pois, existem vrias explicaes consistentes com o resultado, tais como a trapaa (algum
haveria revelado quais eram as xcaras) ou a m elaborao do experimento (GIGERENZER 1993,
NEYMAN, 1950).
45
Segundo Kramer e Gigerenzer (2005, p.224), mesmo grandes matemticos como dAlembert e Leibniz
j cometeram erros de interpretao de probabilidades devido s nuances de enumerao dos eventos
favorveis.
46
Na verdade, os autores inclusive facilitaram o teste ao fazerem os alunos lerem o artigo de Bakan
(1966), que avisa sobre estes problemas, antes de responderem o questionrio.
42

fornece, pertinente realizar breve discusso acerca do tema, ilustrando o quo


discrepantes essas probabilidades podem ser.

Iniciemos com um exemplo de Cohen (1994, p 998-999), com relao incidncia de


esquizofrenia. Suponha que queiramos testar a hiptese nula o indivduo normal
contra a hiptese alternativa o indivduo tem esquizofrenia. Ademais, suponha que
exista um teste que tenha uma preciso para acusar um resultado positivo definida por
| . Isto , dado que o indivduo tenha esquizofrenia, o teste acusa
positivo em 95% das vezes. Suponha, igualmente, que a preciso do teste para acusar
um resultado negativo seja | Isto , dado que o indivduo seja
normal, o resultado acusa negativo para esquizofrenia em 97% das vezes. Com essas
informaes, se tivermos um resultado positivo em mos, o que inferir?

Como as chances de se ter um resultado positivo dado que o indivduo seja normal
menor do que 3%, poderamos, segundo os mtodos usualmente estabelecidos, rejeitar a
hiptese nula ao nveis de significncia usuais. O raciocnio poderia ser feito tanto pela
lgica disjunta de Fisher quanto pela lgica de tolerncia de erro tipo I de Neyman-
Pearson. Mas, isso quer dizer que a probabilidade de o indivduo ter esquizofrenia seja
igual, ou pelo menos similar, a 3%, como muitos usurios do p-valor interpretam? Ou
que a probabilidade de cometermos um erro tipo I, quando o teste acusa positivo, seja
de fato 3%? No.

Acontece que a incidncia de esquizofrenia na populao de adultos de cerca de


apenas 2%. Ou seja, temos que, neste caso, as probabilidades a priori das hipteses so
e 47 Dessa forma, dado que tivemos um resultado
positivo, podemos calcular | com uma simples inverso de
probabilidade utilizando a regra de Bayes:

| (13)
|
| |

47
Mayo (2004, p.107; 2005b, p.812) argumentaria que este passo se trata de uma falcia, pois no se
poderia dizer que, pelo simples fato de a distribuio de esquizofrnicos ser de 2% na populao, esta
seria a probabilidade a priori de se testar um esquizofrnico. Como dissemos anteriormente, tendo em
vista o escopo da dissertao, no entraremos no debate acerca de como se definir adequadamente
distribuies a priori. Para o argumento que segue, suponha-as vlidas, a inteno aqui contrastar as
diferenas das medidas de evidncia.
43

Assim, obtemos | %. Ou seja, a evidncia do teste de hiptese que


rejeitou a um nvel de significncia menor do que 5% a princpio uma evidncia
bastante forte torna-se uma evidncia menos incisiva quando invertemos a
probabilidade. Na verdade, de todos os indivduos que testarem positivo,
aproximadamente 61% no sero esquizofrnicos. Kramer e Gigerenzer (2005, p.224),
relatam que, em uma pesquisa com mdicos experientes da Alemanha, constatou-se a
dificuldade dos profissionais em interpretar as probabilidades condicionais. Em um
problema sobre um hipottico teste de cncer, em que ,
| e | , as respostas dos mdicos para
| variaram entre 1% a 99%, sendo que metade das respostas ficaram em
torno de 47% a 50%. Note que, neste caso, a resposta correta em torno de 5% e,
portanto, a resposta mdia foi em torno de dez vezes maior.

Voltando ao exemplo da esquizofrenia, o resultado da inverso de probabilidade


significa que o teste realizado intil? Claro que no, pois sem o teste teramos apenas
2% de chances de identificar um esquizofrnico e, aps o teste acusar positivo, esta
probabilidade passaria para algo prximo a 40%. O exemplo expe, todavia, que a
interpretao incorreta usualmente dada ao p-valor (isto , consider-lo como
| ) pode ser muito enganosa, ainda mais quando se adotam nveis de
significncia arbitrrios sem qualquer ponderao acerca de seu sentido no problema.
Seguindo o exemplo exposto, seria interessante, portanto, fazer uma pergunta de modo
mais geral: ao se observar um , que um dos limiares mais adotados para se
determinar a significncia estatstica de uma varivel, qual seria, em condies gerais, a
probabilidade de o pesquisador cometer um erro tipo I na prtica48?

Vejamos, desta vez, com uma simulao. Para este exerccio, defina uma varivel
aleatria proveniente de uma distribuio normal com mdia e desvio padro 1 como
Suponha que retiramos uma amostra aleatria de tamanho de e que
queiramos testar contra . Suponha, tambm, que a proporo
diga respeito quantidade de hipteses nulas verdadeiras, isto ,
a proporo de variveis aleatrias . J o restante dos provenientes de

48
Note que agora nos referimos probabilidade de uma hiptese rejeitada ser verdadeira (que a
interpretao errnea dada probabilidade ou ao p-valor que comumente tambm confundido com )
e no probabilidade de uma hiptese verdadeira ser rejeitada (que a definio de e que, como
vimos, propriedade de um teste e diferente da varivel aleatria p-valor, dependente dos dados).
44

distribuies em que , tem seus parmetros distribudos como . Para


facilitar a interpretao, pode-se imaginar que esto sendo testados vrios remdios
diferentes e que se refere proporo dos que no funcionam. Para cada um dos
medicamentos valeria a dicotomia freqentista ou a hiptese nula verdadeira, ou
falsa. Mas, no conjunto, h aqueles que tm efeito e aqueles que no. Verificaremos se o
grupo de remdios acusados como significantes a 5% so uma boa amostra daqueles
que funcionam.

A simulao que iremos realizar, portanto, a seguinte: dadas as condies acima,


faremos testes z at que 2.000 destes atinjam o um p-valor entre 0,049 e 0,05049. Ento
veremos, dentre estes p-valores, quantos rejeitaram a hiptese nula quando ela era
verdadeira. Isto nos daria certa indicao frequentista da probabilidade de, na prtica,
cometermos um erro quando nos deparamos com e rejeitamos dadas as
circunstncias estabelecidas seguindo a interpretao intuitiva, isto nas daria uma
ideia de quantos remdios sem qualquer efeito foram acusados falsamente como
eficientes. Os resultados, para vrios valores de , considerando-se so
apresentados nas duas primeiras colunas da tabela 3.

Tabela 3 Falsos positivos

Proporo de Falsos Tamanho Falsos


nulas ( ) positivos (%) amostral (n) positivos (%)
10,0 25,0 50 19,2
20,0 39,8 100 25,0
30,0 57,4 150 26,9
40,0 65,8 200 31,7
50,0 75,7 250 34,8
60,0 80,6 300 35,0
70,0 87,2 1000 51,1
Fonte: applet disponvel em http://www.stat.duke.edu/~berger/applet2/pvalue.html.

Faamos agora a simulao com a proporo de nulas fixa em ou seja, a


hiptese nula a priori muito improvvel, o que reduziria bastante a probabilidade de
cometer um erro na rejeio de mas variando o tamanho amostral utilizado para o
teste, iniciando com at . Os resultados so apresentados nas duas
ltimas colunas da Tabela 3.

49
Simulaes realizadas com applet de James Berger.
Disponvel em http://www.stat.duke.edu/~berger/applet2/pvalue.html. Acesso em 17/02/2012.
45

Perceba que, em todas as simulaes, o conjunto de testes com contm maior


proporo de hipteses nulas verdadeiras do que a proporo estabelecida para o
universo. Isto d um indcio de quo temerrio pode ser respaldar-se unicamente no p-
valor para uma deciso acerca da veracidade ou no da hiptese nula: nas simulaes
em tela, o resultado foi pior do que aquele esperado naturalmente pelo acaso. Tomando
a proporo como exemplo, a simulao terminou com 75,7% falsos positivos,
enquanto que o real valor de nulas na populao era de 50%. Escolheu-se apresentar a
simulao por ser mais elucidativa. Mas, possvel demonstrar analiticamente que este
resultado tpico para vrios valores de ou , em condies gerais (BERGER, 2003;
BERGER, DELAMPADY, 1987; BERGER, SELKE, 1987; SELKE, BAYARRI,
BERGER, 2001).

Supondo por exemplo, poderamos pensar em alterar as condies iniciais do


experimento para tentar favorecer os resultados dos testes de significncia; entretanto,
como colocam Berger e Selke,

[...] mesmo uma anlise Bayesiana bastante enviesada para nos diz que a
hiptese nula tem 22,7% de probabilidade de ser verdade, evidncia contra a
nula que no seria considerada por tantas pessoas como sendo muito forte
(BERGER, SELKE, 1987, p. 113, grifo nosso).

Ter-se-ia, aqui, uma proporo de nulas no conjunto em que menor do que a


proporo de nulas no universo tal qual no exemplo da esquizofrenia no entanto,
ainda longe do que se poderia imaginar com uma interpretao equivocada do p-valor.
As chances reais de um erro seriam cerca de quatro vezes e meia maiores do que os 5%
nominais do nvel de significncia. Percebe-se, por conseguinte, (i) que a utilizao de
um mesmo p-valor de cerca de 5% como critrio de rejeio de pode chegar a
propores de falsos positivos bastante diferentes em nossas simulaes variando
desde 19,2% at 96,3% dependendo do contexto a priori da probabilidade de e do
tamanho da amostra utilizada; e que, portanto, (ii) a discrepncia entre o p-valor e a
probabilidade a posteriori de pode em algumas circunstncias ser intolervel.

Para finalizar esta discusso, uma pergunta pertinente seria qual a probabilidade a priori
que teria de ser dada hiptese nula para que tenhamos | quando
observamos ? Isto , qual a probabilidade que o pesquisador teria de atribuir a
para que, quando se realizasse a inverso, o p-valor fosse semelhante
probabilidade a posteriori da hiptese nula? Surpreendentemente, a resposta para tal
46

questionamento, em condies razoavelmente gerais, [...] que se deve dar a uma


probabilidade inicial de 15% e ento espalhar a massa de 0,85 (dada a ) de uma
maneira simtrica que mais favorea (BERGER, SELKE, 1987, p. 113, grifo
50
nosso) . Ou seja, dentro de um paradigma Bayesiano de inverso de probabilidade, a
evidncia que o p-valor fornece contra ou a favor de uma hiptese seria praticamente
dominada pelas crenas estabelecidas anteriormente pelo pesquisador. A tal ponto que
leva os autores a concluir que

[...] este vis flagrante para seria dificilmente tolerado em uma anlise
Bayesiana; mas o pesquisador que quiser rejeitar no precisa parecer to
viesado ele pode somente observar que e rejeitar pela prtica
padro (BERGER, SELKE, 1987, p. 113).

Em outras palavras, a definio do p-valor como dada na equao (01) objetiva, mas,
no contexto real de sua aplicao, parece que isto se perde. Certamente no seria
objetivo dizer ou pensar que a probabilidade de a hiptese nula ser verdade de apenas
5% quando se observa , sem ao menos esclarecer o fato de que grande parte da
evidncia no provm da observao em si, mas sim de se ter dado uma probabilidade a
priori bastante baixa para a hiptese nula.

Como visto em Casella e Berger (2002), os autores recomendavam que o pesquisador


estabelecesse a hiptese de pesquisa, isto , a hiptese em que o pesquisador acredita,
como e, consequentemente, a hiptese em que o pesquisador no acredita, isto ,
aquela menos provvel, como Isto fica ainda mais evidente na seguinte passagem
dos autores, oriunda da discusso do texto de Berger e Delampady (1987) acerca do p-
valor como evidncia:

[...] o propsito de um experimento comumente contradizer e os


pesquisadores no realizariam experimentos que acreditariam, a priori, falhar
50% das vezes. Ns ficaramos surpresos se a maioria dos pesquisadores
colocassem at mesmo 10% na probabilidade a priori de (CASELLA,
BERGER, 1987b, p. 345).

Todavia, isto no consenso, e, por exemplo, Lehmann e Romano (2008), em seu livro-
texto clssico, inclusive recomendaram que a hiptese nula pudesse ser algo em que o
pesquisador acreditasse firmemente e, portanto, exigisse evidncia bastante crtica para
abandon-la. Deste modo, a abordagem de Casella e Berger parece no ser transparente
quanto ao papel do p-valor como evidncia, a no ser que, no contexto da aplicao de

50
Para exemplos em que as probabilidades condicionais coincidem naturalmente, ver DeGroot (1973)
ou Casella e Berger (1987a).
47

testes de hiptese, o pesquisador explicitasse que grande parte da concluso contra a


hiptese nula no provm dos dados, mas sim de crenas a priori menores do que
10%, o que quase nunca ocorre.

Em suma, a interpretao equivocada usualmente atribuda ao p-valor contm um vis


grande e quase sempre no entendido ou no revelado. Note que esta aplicao est
mais ligada filosofia indutiva de Fisher do que ao contexto de teoria da deciso de
Neyman-Pearson, uma vez que, neste ltimo caso, os riscos da regra de deciso
deveriam ser ponderados diante das circunstncias da aplicao e, assim, o p-valor em
si no passaria de uma estatstica dentro ou fora da regio crtica. Entretanto, quando se
d um papel epistmico unicamente ao p-valor, preciso ter cautela, pois este no tem
o mesmo peso como evidncia independentemente das circunstncias e,
definitivamente, no pode ser interpretado como a probabilidade a posteriori de .

2.2.2. P-valor no uma medida coerente de evidncia

Schervish (1996), em breve artigo, apresentou como a interpretao do p-valor como


medida de evidncia pode levar a inconsistncias lgicas. Suponha que uma hiptese
implique na hiptese , isto , Uma medida de evidncia coerente para
teria de ser to grande ou maior do que uma medida de evidncia para pois a
rejeio de implica logicamente na rejeio de ( O p-valor no
satisfaz a este critrio de coerncia. Schervish traz um exemplo simples, um teste de
mdia para a distribuio normal. Ao se observar , o p-valor para a hiptese
[ ] igual a 0.0502 e para a hiptese [ ] igual a
0.0498. Note que, neste caso, rejeitar implica logicamente em rejeitar . Pois se a
mdia populacional no est no intervalo [ ], ento ela tambm no poderia
estar no intervalo [ ] , j que trivialmente [ ] [ ] . No
obstante, se o limiar de 5% fosse adotado, seria rejeitada enquanto no o seria, o
que uma contradio lgica.

Patriota (2012, p.04-05) fornece outro exemplo interessante. Suponha uma amostra
aleatria, i.i.d, de uma distribuio normal bivariada, com mdias e ,
com uma matriz identidade de varincia-covarincia, cujas mdias amostrais tenham
resultado em e Ao se calcular o p-valor da estatstica de Wald
da hiptese nula , obtm-se valor usualmente considerado
48

evidncia bastante forte. J se o pesquisador resolvesse testar se ,


obteria Note que logo, no seria possvel rejeitar sem que
tambm se rejeitasse . Deste modo, um nvel arbitrrio de significncia para a deciso
levaria a uma contradio lgica. Perceba que, teoricamente, no h contradio no
clculo do p-valor, pois, como bem ressalta Patriota (2012, p.05, grifo nosso) [...] p-
valores so apenas probabilidades de encontrar estatsticas no observadas to
grandes quanto as observadas, a concluso conflitante apresentada no exemplo acima
no uma contradio lgica do mtodo frequentista. A contradio decorre da
interpretao do p-valor como uma medida absoluta de evidncia51.

A concluso de Schervish a de que o nico modo coerente de interpretar o p-valor


como evidncia seria em casos em que no h nenhuma comparao entre hipteses e,
mesmo assim, este valor deveria ser relativizado de acordo com a hiptese formulada.
Vale aqui trazer outro exemplo simples dado pelo autor. Ainda no contexto da
distribuio normal, suponha que se tenha observado . O p-valor para
enquanto que para teramos . Evidentemente
que o dado observado d mais suporte hiptese , muito embora seu p-valor seja
menor.

***

Como vimos, h um desconhecimento a respeito dos mtodos de inferncia para testes


de hipteses e suas respectivas medidas de erro e de evidncia. Particularmente,
comum se ignorar o peso que o p-valor ou a rejeio de uma hiptese nula tm diante de
diferentes circunstncias, o que leva incompreenso acerca do real significado de um
resultado estatisticamente (in)significante. No fim, isso acaba por levar ideia de que
um resultado para ser importante teria de ser, primeiramente, estatisticamente
significante (aos nveis usuais) ou, ainda, ideia de que um resultado estatisticamente
significante (aos nveis usuais) , por conseguinte, importante. Entretanto, a
significncia estatstica (aos nveis usuais) no condio necessria, tampouco
condio suficiente para a importncia cientfica de um resultado.

51
Patriota (2012) tambm busca criar uma medida freqentista que respeita este critrio de coerncia.
49

Como isso se manifesta nos trabalhos empricos? Vejamos um exemplo retirado do AER
por Ziliak e McCloskey (2008a, p. 34), que bem caracterstico52:

[...] o coeficiente significante ao nvel de confiana de 99 por cento. Nem o


choque monetrio nem todos os 12 coeficientes como um grupo so
estatisticamente diferentes de zero. O coeficiente de negativo e
significante e a defasagem distribuda de tambm significante. Na coluna
(2) ns mostramos uma regresso que omite as defasagens insignificantes do
choque monetrio. Agora, a defasagem distribuda de significante a 1 por
cento [...] ns interpretamos isso como indicando que o fator primrio
determinando variaes cclicas na probabilidade de deixar o desemprego
provavelmente a heterogeneidade [...] entretanto, choques monetrios no
tm impacto significativo.

Note que as palavras significante e significativo so utilizadas com sentidos ambguos.


O que quer dizer choques monetrios no tm impacto significativo? Que o efeito dos
choques monetrios inexiste? Que o efeito negligencivel? Stricto sensu,
estatisticamente significante quer dizer que: dado que a nica fonte de erro fosse a
variao amostral53, ento, caso o verdadeiro coeficiente fosse zero, a probabilidade de
se obter um coeficiente estimado to grande ou maior do que o efetivamente estimado
seria menor do que 5%. evidente que isso no responde se o coeficiente tem impacto
significativo ou no no sentido usual do termo. Analogamente, no ser
estatisticamente diferente de zero quer dizer que, dado que a nica fonte de erro fosse
a variao amostral, ento, caso o verdadeiro coeficiente fosse zero, a probabilidade de
se obter um coeficiente estimado to grande ou maior do que o efetivamente estimado
seria maior do que 5%. ainda mais evidente que isso no nos diz se o impacto do
choque monetrio relevante ou importante. Perceba que no h qualquer meno ao
tamanho do efeito bem como sua relao com os riscos da inferncia que se realiza54.

52
Talvez a forma mais simples de descrever o fenmeno como aparece nos textos seja a seguinte: o
pesquisador observa se o pacote economtrico coloca os asteriscos nos coeficientes da regresso. Aqueles
que no tm asterisco so considerados zero. Aqueles que tm asterisco so importantes e o valor
considerado para anlise apenas o prprio valor estimado, sem qualquer preocupao com o prprio
erro amostral.
53
Ou seja, o modelo est corretamente especificado, estatisticamente adequado, no h erros de
mensurao, a amostra aleatria etc.
54
Interessante notar o que Tversky e Kahneman (1971, 1974) denotaram por lei dos pequenos nmeros.
Os pesquisadores tm a expectativa de que [...] uma hiptese vlida sobre uma populao ser
representada por um resultado estatisticamente significante na amostra sem qualquer preocupao com
seu tamanho. Como consequncia, os pesquisadores depositam muita f em resultados de amostra
pequena e superestimam grosseiramente a replicabilidade de tais resultados (TVERSKY, KAHNEMAN,
1974, p. 1126).
50

Nesta seo iremos discutir brevemente a confuso entre um resultado estatisticamente


significante e um resultado importante (ou significante no sentido cotidiano do termo).
Trabalharemos dois pontos: (i) as diversas outras fontes de erro que podem existir e que
acabam sendo ignoradas pela busca por resultados significantes; e, (ii) o sentido de se
testar hipteses exatas quando sabemos que modelos no so cpias perfeitas da
realidade, bem como a consequente confuso entre diferena estatstica e diferena
substantiva stricto sensu. Por fim, exporemos brevemente alguns mtodos que
possam indicar como amenizar os problemas de inferncia tratados.

2.2.3. Erro amostral ou erro real

Como expuseram Ziliak e McCloskey (2008a, p. 07), [...] a significncia estatstica no


est preocupada com nenhuma de uma longa lista de fontes de erros no amostrais;
entretanto, parece haver uma constante busca por resultados estatisticamente
significativos no incomum o pesquisador rodar vrias regresses com vrias
especificaes e covariadas diferentes at obter o asterisco na varivel de interesse
como se isso fosse validar o resultado emprico encontrado. Ocorre que todas as demais
fontes de erros que possam estar sendo ignoradas talvez sejam mais importantes do que
os erros decorrentes da variao amostral.

Leamer (1983) trata de maneira intuitiva este ponto. Poderamos decompor a


variabilidade de um estimador em dois componentes, um decorrente da variao
amostral , e outro decorrente dos demais erros, como a m especificao do modelo
. Isto :

( ) (14)

Para grande, quando a incerteza amostral ( se torna pequena comparada com a


incerteza da especificao ( ), seria hora de o pesquisador buscar outras formas de
evidncia. O autor traz uma analogia simples e ilustrativa (1983, p.33 -34):

[...] suponha que eu esteja interessado em medir a largura de uma moeda e eu


entregue rguas para uma sala de voluntrios. Aps cada voluntrio reportar
sua medida, eu calculo a mdia e o desvio padro, e concluo que a moeda
tem largura de 1,325 milmetros com erro padro de 0,013. Uma vez que esta
quantidade de incerteza no me agrada, eu proponho encontrar trs outras
salas cheias de voluntrios, multiplicando assim a amostra por quatro e
dividindo o erro padro pela metade. Isso uma forma tola de conseguir uma
medida mais precisa, porque j alcancei o ponto em que a incerteza amostral
51

pequena comparada com a incerteza da m-especificao Se eu quero


aumentar a verdadeira preciso da minha estimativa, hora de considerar o
uso de um micromtro.

Tragamos alguns casos da teoria econmica. Leamer, ainda em seu texto de 1983, cita o
exemplo do efeito de penas de morte sobre a taxa de homicdios. O autor listou 14
variveis dependentes que poderiam ser utilizadas como controles, sendo includas ou
no na regresso a depender das crenas prvias do econometrista. Combinaes
diferentes das covariadas poderiam resultar desde uma estimativa de que uma execuo
adicional deteria, na mdia, quase 29 homicdios, at uma estimativa de que uma
execuo adicional aumentaria, na mdia, 12 homicdios. Diante disto, o autor concluiu
que [...] qualquer inferncia, com estes dados, sobre o efeito dissuasivo da pena de
morte muito frgil para ser acreditada (LEAMER, 1983, p. 42).

Mais recentemente, estudos continuaram divergindo com relao ao efeito dissuasivo da


pena de morte. Alguns tm encontrado efeitos altos, enquanto outros, nenhum ou, ainda,
efeitos ambguos 55 . Trabalho recente de Durlauf, Fu e Navarro (2012) busca, deste
modo, verificar como a incerteza quanto ao modelo conduz a estes resultados
conflitantes. Reproduzimos aqui uma figura apresentada pelos autores, que exibe de
maneira clara o quo discrepantes os resultados podem ser a depender do modelo
utilizado.

No caso apresentado, a escolha entre um modelo linear ou logstico, com coeficientes


fixos ou individuais para cada estado dos Estados Unidos, faz com que as estimativas
variem desde -98,5 (o que indicaria que penas capitais aumentam a criminalidade56) at
31,5 (o que indicaria que penas capitais diminuem a criminalidade), com o mesmo
conjunto de dados.

55
Dezhbakhsh, Rubin e Shepherd (2003), Zimmerman (2004), Donohue e Wolfers (2005), Durlauf,
Navarro e Rivers (2010) e Shepherd (2005).
56
Como os prprios Durlauf, Fu e Navarro (2012, p.21) explicam, este resultado pode ser abrangido pela
teoria econmica de deciso racional. Um indivduo que sabe que enfrentar a pena mxima por um
assassinato no teria incentivos para reduzir a violncia e poderia racionalmente escolher matar as
testemunhas ou outras pessoas envolvidas no crime. Outra explicao para este resultado pode ser o efeito
brutalidade, em que a pena capital de certo modo legitimaria o assassinato, tornando-o moralmente
menos custoso.
52

Figura 1 Incerteza nos efeitos dissuasivos da pena de morte

Fonte: Durlauf, Fu e Navarro (2012, p. 28)

Percebe-se que a incerteza com relao ao modelo suplanta e muito uma possvel
incerteza com relao variao amostral. A bem da verdade, para poder se avaliar com
segurana a variabilidade amostral, seria preciso primeiramente se acordar em relao a
um modelo razoavelmente satisfatrio. Em uma situao como essa, procurar um
modelo que resulte em estimativas estatisticamente significativas com sinais
corretos seria, decerto, algo fora de propsito. importante deixar claro que no se
quer dizer aqui que o erro amostral deva ser ignorado; a questo que, como exps
Leamer (2010, p. 37), [...] uma cultura que insiste em estimativas estatisticamente
significativas no , naturalmente, receptiva a outra razo pela qual os nossos dados no
so informativos.

Outro exemplo que podemos trazer o debate em torno dos determinantes da diferena
de renda entre pases, cujo principal artigo talvez seja o de Acemoglu, Johnson e
Robinson (2001). A discusso na literatura gira em torno da comparao de diferentes
aspectos, como institucionais, culturais, geogrficos, de poltica econmica, de capital
humano entre outros para explicar a disparidade de renda cross-section observada
53

no mundo57. Em geral, a significncia estatstica da varivel de interesse figura como


um dos principais argumentos empricos, chegando a afirmaes ousadas como: [...]
ns apresentamos evidncia de uma regresso que mostrou que, uma vez controlado o
efeito das instituies econmicas sobre o PIB per capita, variveis geogrficas [...]
no tm qualquer poder explicativo para a prosperidade atual (ACEMOGLU,
JOHNSON, ROBINSON, 2004, p.28, grifo nosso).

A evidncia a que os autores se referem trata-se de uma regresso linear por variveis
instrumentais em que o coeficiente de um ndice que representaria as instituies se
mostrou estatisticamente significante enquanto os coeficientes de variveis geogrficas,
como a incidncia de malria, no. Ser que realmente plausvel que fatores
geogrficos tenham exatamente nenhum efeito direto sobre o desempenho econmico?
E ser que os dados fornecem respaldo a essa afirmativa? Discutiremos isto logo a
seguir, na prxima seo. Antes, contudo, cabe ressaltar que h outras fontes de erro que
so negligenciadas e que talvez sejam mais srias como erros de especificao, a
dependncia de resultados assintticos e, at mesmo, a prpria definio das variveis
utilizadas. Quanto a este ltimo ponto, Glaeser et alii (2004, p.13) ao analisarem as
medidas que representariam instituies concluem que estas

[...] no podem ser usadas para estabelecer causalidade. Essas medidas no


so construdas para refletir restries nos governos ou caractersticas
permanentes do cenrio poltico. Ao invs disto, elas so altamente volteis e
revertem mdia. So pouco correlacionadas com as medidas objetivas
disponveis de restries constitucionais aos governos. Ainda assim, so
essas as variveis utilizadas para mostrar que instituies causam
crescimento.

Em um cenrio como este, difcil entender a nfase na significncia estatstica como


argumento emprico, a no ser se derivada de uma incompreenso sobre seu real
significado. Estes exemplos ressaltam a pertinncia do posicionamento de Deming,

[...] na minha prtica, eu prontamente me recuso a calcular ou discutir a


interpretao do erro padro quando grandes erros operacionais no
amostrais esto obviamente presentes [...] possvel que um resultado seja
til e ainda possua um amplo erro padro. Um resultado obtido por
definies e tcnicas que tm sido elaboradas com cuidado, e realizada por
entrevista e superviso excelentes, pode ter um amplo erro padro porque a
amostra era pequena; todavia, esse resultado pode ser bem prefervel a outro
obtido com uma maior amostra, com um menor erro padro, mas cujas
definies, tcnicas e entrevistas estavam fora de linha com as melhores
prticas e conhecimento do assunto (DEMING, 1961, p. 55-57).

57
Por exemplo, Acemoglu, Johnson e Robinson (2001), Easterly e Levine (2003), Rodrik, Subramanian e
Trebbi (2002), Sachs (2003), Gundlach e Carstensen (2006).
54

2.2.4. Diferena estatstica ou diferena substantiva

Para iniciar a discusso acerca deste ponto, cabe colocar um paradoxo levantado por
Berkson, ainda em 1938, quando os testes de significncia estatstica estavam sendo
difundidos por Fisher. Berkson inicia sua exposio afirmando que qualquer estatstico
experiente, que tenha aplicado muitos testes qui-quadrado de grau de ajuste, dever ter
percebido que, quanto maior o nmero de dados disponveis, menores os p-valores
tendem a sair. Tomando a curva normal como exemplo, afirma Berkson que, para
qualquer que seja a varivel utilizada, se o nmero de observaes for extremamente
grande como, digamos, 200.000 o p-valor de ajuste dos dados curva normal, em
geral, ser menor do que qualquer limite usual de significncia. Isto se daria, pois,
conforme o autor,

[...] podemos presumir que praticamente certo que qualquer srie de


observaes do mundo real no segue exatamente uma curva normal com
absoluta exatido em todos os aspectos, e no importando o quo pequena
seja a discrepncia entre a curva normal e a curva de observaes, o p-valor
do qui-quadrado ser pequeno se a amostra tiver um nmero suficientemente
grande de observaes. E eu suponho que seja consenso entre os estatsticos
que uma amostra maior sempre melhor do que uma amostra menor. Se,
ento, sabemos de antemo qual o p-valor que ser resultado da aplicao de
um teste qui-quadrado em uma amostra grande, no parece ter uso algum
aplic-lo em uma amostra pequena (BERKSON, 1938, p.526-527, grifo
nosso).

Isto , como j se sabe que, quando o teste eventualmente rejeitar o ajuste dos
dados curva normal, ento a aplicao a qualquer no seria sequer um teste! Ao
realizar um procedimento deste tipo, o pesquisador teria de ter cincia de que o seu
modelo no passa de uma aproximao da realidade. A no ser que Deus ou qualquer
outro ser onisciente tenha revelado quais as relaes exatas prevalecentes na natureza, o
modelo estabelecido para se realizar o teste necessariamente aproximado, e, dessa
forma, rejeit-lo estatisticamente a um nvel arbitrrio de significncia seria, na maior
parte dos casos, apenas uma questo de tamanho da amostra58.

Deste modo, o teste de uma hiptese precisa ou exata tem de ser feito com cautela,
principalmente quanto resposta que busca. Pois, muito provavelmente, a hiptese, por

58
Fora da econometria, Kydland e Prescott (1982, p. 1360), por exemplo, deixam isso claro em seu
modelo de Real Business Cycle ao afirmar que escolheram [...] no testar o modelo contra o modelo
menos restritivo de vetores auto-regressivos. O resultado mais provvel que o modelo seria rejeitado,
tendo em vista os problemas de medida e a natureza abstrata do modelo. Nossa abordagem focar em
certas estatsticas em que os rudos introduzidos por aproximaes e erros de medida sejam
provavelmente pequenos [...].
55

natureza, falsa; e, se a questo for constatar ou no sua veracidade uma mera


questo de existncia no rejeit-la seria, necessariamente, cometer um erro tipo II.
Como afirma Greene (2000, p. 227 grifo nosso), [...] um erro pensar os testes t ou F
como testes sobre a verdade. Ns sempre sabemos a resposta correta pergunta um
coeficiente zero uma hiptese razovel? A resposta no. Por exemplo, suponha
uma amostra aleatria i.i.d, , proveniente de uma distribuio normal
Ao se conduzir um teste de hiptese de tamanho de contra
, se obtermos rejeita-se Todavia, bastante improvvel que a
hiptese nula seja exatamente verdade; na maioria dos casos, principalmente em
cincias sociais, com certeza59. Supondo-se que
e que, para fins prticos, tal valor seja considerado irrelevante, se
tomarmos uma amostra muito grande, como ento a probabilidade de se
rejeitar ser bastante alta, muito embora a verdadeira mdia seja negligencivel. E

[...] este mesmo fenmeno existe no importando qual o tamanho de


seja escolhido, e no importando quo pequena seja a diferena entre a
mdia verdadeira e zero. Para uma amostra grande o suficiente, o teste
clssico ir com virtual certeza rejeitar [a hiptese nula] (Berger, 1985, p.
20).

Isto , se a inteno do teste apenas constatar uma diferena, qualquer que seja, basta
ter grande. possvel verificar esta preocupao em vrios autores, como Kadane
(2011, p. 438):

[...] quando o tamanho da amostra pequeno, poucas hipteses nulas so


rejeitadas, enquanto que, quando o tamanho da amostra grande, quase todas
so rejeitadas [...], portanto, enquanto que o teste de significncia pretende
abordar (em certo sentido) se , de fato a aceitao ou rejeio da
hiptese nula tem muito mais a ver com o tamanho da amostra do que com a
extenso em que a hiptese nula uma boa aproximao da verdade .

Leamer (1983, p.39),

[...] testes de diagnsticos [...] sem hipteses alternativas explcitas, so


inteis, uma vez que, se o tamanho da amostra grande o suficiente, qualquer
hiptese ser rejeitada (por exemplo, nenhuma distribuio exatamente
normal). Tais testes, portanto, degeneram-se em rituais elaborados para medir
o tamanho efetivo da amostra.

Ou at no livro de introduo econometria de Maddala (2003, p.18)

59
Evidentemente que, em algumas circunstncias, podem existir situaes em que a hiptese nula
seja desejvel e plausvel, como talvez, para os cticos, no caso de testes de percepo extra-
sensorial. Todavia, em decorrncias de perturbaes, erros de medida, erros de especificao entre outros,
mesmo estes casos dificilmente sobreviveriam a um teste de hiptese quando
56

[...] se o tamanho da amostra for grande o bastante, podemos rejeitar todas as


hipteses nulas. Isso geralmente o que ocorre com os que usam grandes
conjuntos de sries cross-section com milhares de observaes. Quase todo
coeficiente significante ao nvel de 5%.

Ocorre que o resultado de um teste de significncia de uma hiptese que se sabe ser
falsa, a um nvel arbitrrio, no responde ao pesquisador se a hiptese
aproximadamente correta do ponto de vista cientfico. No obstante, por algum
motivo, os testes rotineiramente aplicados so sobre hipteses do tipo ou
.

Vejamos um exemplo da teoria econmica levantado por Ziliak e McCloskey (2008a, p.


94-97): a teoria paridade do poder de compra (PPP). Tomando os Estados Unidos como
base, em geral o modelo utilizado para testar a PPP da seguinte forma:

(15)

Onde representa o ndice de preos dos Estados Unidos, representa a taxa de


cmbio com um pas exterior, o ndice de preos deste pas e o termo de erro. A
PPP derivada da lei do preo nico que, no mundo real, apenas aproximadamente
vlida, tendo em vista a existncia de custos de transao, bens no transacionveis,
bens diferenciados, investimentos fixos entre outros fatores. Alm disso, cabe enfatizar
que a PPP medida com o uso de ndices de preos, que tambm no so calculados de
forma exatamente igual para todos os pases.

Em um mundo em que o modelo fosse representao exata de realidade, teramos que


No mundo real, no necessariamente ser exatamente igual a 1. Mas no
seria algo raro ver o pesquisador testar a validade do modelo com a hiptese
Se no rejeitasse, diria que o modelo boa aproximao da realidade; j se rejeitasse,
diria que o modelo falha em explicar a realidade. Note, no entanto, que o teste de algo
que se sabe ser falso e apenas uma estatstica ou um p-valor no respondero se a PPP
adequada do ponto de vista econmico. Se, com uma amostra enorme, obtivermos o
valor estimado , com erro padro muito baixo, o teste rejeitar com
uma estatstica alta e . , todavia, 0,9999 prximo o suficiente de 1?
Estatisticamente, ao nvel de significncia de 5%, 1%, ou o valor mais prximo de
no , pois a estimativa precisa e, por isso, a hiptese nula foi rejeitada. J quanto
proximidade necessria para validar ou invalidar a teoria do ponto de vista econmico,
57

isto uma questo que cabe ao pesquisador, e no ao software economtrico,


responder. Se, neste caso, parece bvio que talvez no devssemos rejeitar que a PPP
seja vlida simplesmente porque no exatamente igual 1,000000(...), ento o mesmo
senso comum deveria ser aplicado com maior dificuldade de ponderao, certamente
para casos com maior variabilidade amostral, em que ou em que
.

Por mais simples que parea este conceito quando exposto desta forma, testes que
parecem considerar hipteses exatas, literalmente, no so incomuns na literatura, como
constatam Keuzenkamp e Magnus (1995, p.11):

[...] mesmo os melhores peridicos, como o Journal of Econometrics,


reportam testes da paridade do poder de compra ou de mercados
perfeitamente eficientes, muito embora saibamos que estas teorias no so
literalmente verdade. No seria muito mais interessante, em tais casos, medir
o quo prximo o mundo real est do mundo ideal destas teorias ?

Ou ainda Delong e Lang (1992, p.1269, grifo nosso)

[...] a maior parte dos economistas no age como se soubessem que suas
hipteses so falsas e estivessem apenas procurando estabelecer sua
qualidade como aproximaes. A prtica da econometria sugere que os
economistas tomam suas hipteses a srio. Como um exemplo, lembramos
que a literatura sobre "raiz unitria" tem visto uma grande quantidade de
esforo dedicado para determinar a distribuio assinttica da estatstica de
teste sob a hiptese nula e testar a hiptese nula de que os coeficientes de um
modelo univariado auto-regressivo do produto nacional bruto dos EUA
somam exatamente um. Tal enfoque sobre as implicaes exatas do que
formulado como um subespao de menor dimenso dos valores dos
parmetros possveis para a estatstica de teste difcil de entender se a
hiptese nula vista como apenas uma aproximao.

Com efeito, um dos artigos analisados da Revista Brasileira de Economia estudou a


PPP. O trabalho buscou verificar, dentre seis ndices de preos diferentes, quais
apresentavam maior evidncia da teoria. Porm, o critrio escolhido para tanto foi a
rejeio da hiptese nula de raiz unitria em testes Dickey-Fuller aumentado (ADF) ou
Dickey-Fuller aumentado em mnimos quadrados generalizados (DFGLS) aos nveis
de 1%, 5% ou 10% de significncia. Pela discusso anterior, certo que estes resultados
no respondem qual ndice de preos apresenta melhor evidncia da PPP do ponto de
vista da teoria econmica e que h, aqui, um claro equvoco acerca da funo do teste
de significncia estatstica.
58

Estes exemplos ilustram bem o caso relatado por Kadane (2011, p.438) que, ao testar
estatisticamente uma teoria especfica da psicologia, acabou por rejeit-la ao nvel de
significncia de . Isto levou o autor a ponderar sobre o significado da rejeio:

[...] eu tive de pensar se ficaria mais impressionado se fosse rejeitada,


digamos, ao nvel de , e decidi que no. O problema que tnhamos
uma base de dados muito grande [...] um simples grfico nos mostrou que, na
verdade, a teoria era muito boa.

O mesmo raciocnio se aplica aos casos mais comuns de hiptese nula, acerca de um
coeficiente de regresso, . Em geral, a pergunta que se quer respondida se o
coeficiente negligencivel. No obstante, se a inteno demonstrar que o efeito
grande ou pequeno, como vimos nas sees anteriores, somente o p-valor com relao
no dar esta resposta e, portanto, valer-se somente de um limiar arbitrrio como
para julgar a significncia econmica do coeficiente , justamente, incorrer na
confuso da qual estamos tratando. Pois, dado um nvel arbitrrio de significncia,
poderamos encontrar um resultado estatisticamente significante, mas de magnitude
negligencivel, ou poderamos encontrar um resultado estatisticamente insignificante
sugerindo efeito substancial. Cox expe o tema de maneira clara:

[...] o ponto central que a significncia estatstica bastante diferente da


importncia cientfica e que, portanto, a estimativa, pelo menos aproximada,
da magnitude dos efeitos , em geral, essencial, independentemente do fato
de uma discrepncia estatisticamente significativa da hiptese nula ter sido
alcanada (COX, 1977, p. 71).

Na mesma linha, diz Berger:

[...] uma diferena estatisticamente significante entre o parmetro


verdadeiro (ou o modelo) e a hiptese nula pode ser uma diferena
insignificante na prtica. Da mesma forma, uma diferena que no
estatisticamente significante pode, no obstante, ser bastante importante na
prtica (BERGER, 1985, p. 21).

Como exemplo, podemos voltar ao caso do impacto das instituies e da geografia


sobre o crescimento econmico. Vimos uma passagem de Acemoglu, Johnson e
Robinson que sugeria que fatores geogrficos, como a incidncia de malria, no
teriam qualquer efeito direto sobre a renda isto , efeito zero. Na realidade, no artigo
original, os autores so menos contundentes, e alegam que as regresses no fornecem
evidncia de impacto importante (2001, p. 1392-1393, grifo nosso)

[...] em contraste com os resultados de McArthur e Sachs, ns encontramos


que apenas instituies so significantes. A diferena se deve ao fato de que
McArthur e Sachs incluem a Frana e Gr-Bretanha em sua amostra, que
59

consiste apenas de ex-colnias (no h razo para a variao da taxa de


mortalidade domstica das tropas francesas e britnicas estarem relacionadas
com seu desenvolvimento institucional). Verifica-se que, uma vez retiradas
Gr-Gretanha e Frana da amostra, a especificao de McArthur e Sachs
no gera qualquer evidncia de que fatores de geografia/sade tenham um
impacto importante no desempenho econmico.

Supondo, por instante, que no existam quaisquer outras fontes de incerteza alm da
variao amostral, verifiquemos se a assertiva dos autores procede. Na tabela 7, coluna
7 (p. 1392), o coeficiente para a populao sob risco de malria foi estimado em -0.62,
com erro-padro de 0,68. De fato, isto nos d uma estatstica t de 0,91 com p-valor
bilateral de aproximadamente 36% (unilateral de 18%) o que nos levaria a no rejeitar
a hiptese nula de que o coeficiente seja zero.

No entanto, valores para o coeficiente do risco de malria de at -1,22 teriam menos de


50% de chances de serem detectados, caso fossem verdade60. Este efeito para o qual
teramos pouco poder estatstico de identificar poderia ser considerado
aproximadamente zero, isto , o efeito seria economicamente negligencivel?
Utilizemos um exemplo dos prprios autores a comparao entre um pas como a
Nigria e um pas como o Chile. A regio de baixo poder do teste abarca efeitos tais que
aumentariam a renda de um pas como a Nigria, caso erradicasse a malria
(situao do Chile), em at 200%, em mdia. Do ponto de vista econmico, certamente
isso no negligencivel. Assim, a no ser que os autores sintam-se confortveis em
errar mais da metade das vezes quando exista impacto desta magnitude, no parece ser
uma inferncia segura declarar a ausncia de efeito importante. Menos ainda de efeito
exatamente igual a zero, algo bem implausvel a priori.

Sobre este tema, interessante citar uma passagem do prprio Neyman, referente ao
caso do The lady tasting tea, em que o matemtico faz a distino entre inexistncia
de efeito e efeito negligencivel, bem como consideraes acerca do poder do teste para
detectar discrepncias substancialmente importantes:

[...] bvio que se 61 tem um valor, digamos, , ento,


estritamente falando, a senhora tem de fato a habilidade que alega ter, mas,
operacionalmente, sua habilidade nula. Portanto, o pesquisador [...]
provavelmente no se arrependeria do fato de o teste rejeitar raramente
[a hiptese nula de que ] se o real valor de for . Neste

60
Para , teste bilateral. Para unilateral, ou bilateral, a regio de baixo poder
abrangeria coeficientes at -1,12. Adotamos a estratgia de Andrews (1989) que ser discutida a seguir.
61
Aqui refere-se capacidade de predio da senhora, que representamos por na seo anterior.
60

caso, a intensidade do fenmeno muito fraca para se preocupar. Por outro


lado [...] o pesquisador pode estar interessado em detectar o fenmeno se
sua intensidade for substancial [...] que valores de excedem 0,5
consideravelmente e que valores excedem 0,5 apenas ligeiramente uma
questo subjetiva e depende das circunstncias gerais do problema [...] se o
pesquisador considera que significa uma habilidade substancial de
discriminao, ento natural que ele arranje o experimento de forma que, se
o real valor de for pelo menos , as chances de detectar o fenmeno
sejam razoavelmente grandes (NEYMAN, 1950, p. 278).

Note que Neyman preocupa-se com a estruturao de um teste, com o balano de e


de modo que este no tenha tanto poder quando a diferena muito fraca para se
preocupar, mas que tenha bastante poder quando a diferena indica uma habilidade
substancial de discriminao.

A este ponto do trabalho, deve ter ficado claro o sentido da citao de Goodman (2008,
p.138) ao final da seo 2.1. O mau entendimento em relao aos testes de significncia
ou testes hipteses leva o pesquisador a desconsiderar a magnitude dos efeitos e a
observar apenas aspectos da incerteza referente variao amostral isto , preciso
da estimativa. Como corretamente apontam Ziliak e McCloskey (2008a, p. 26), [...]
logicamente falando, uma medida de preciso amostral no pode ser o final do
questionamento". Contudo, os pesquisadores [...] falam como se estabelecer a
significncia estatstica de um nmero no sentido fisheriano fosse a mesma coisa de
estabelecer significncia de um nmero no senso comum (ZILIAK, MCCLOSKEY,
2008a, p.27). Mais ainda, mesmo com relao variao amostral, muitos usurios
esquecem-se dos conceitos probabilsticos e dos riscos envolvidos na inferncia e
utilizam um nvel de significncia arbitrrio para declarar a importncia ou no da
varivel, a existncia ou no de um efeito, como se a nica fonte de informao para tal
julgamento fosse a amostra que tem em mos, sem entender o peso da evidncia
calculada. Em alguns casos, ignora-se outras fontes de erro por se buscar a significncia
estatstica como se esta fosse necessria para declarar a importncia cientfica. E, por
fim, h a mistura entre crena e ao, ignorando o fato de que, para este ltimo caso, a
ponderao da gravidade dos erros de julgamento bem como das chances de cada erro
deveriam ser levadas em conta.

2.2.5. H como minimizar o problema?

Tendo em vista o escopo desta dissertao, no sero discutidas aqui solues que
estejam muito fora da tradio da literatura. Nesta seo, mencionaremos brevemente
61

algumas abordagens que possam elucidar maneiras de diminuir o risco destes


problemas, de maneira simples e dentro do prprio paradigma frequentista62.

Podemos resumir as falcias decorrentes da confuso entre diferena estatstica e


diferena material em duas: (i) a falcia da aceitao, em que uma falha em se rejeitar a
hiptese nula leva o pesquisador a consider-la como verdadeira, e (ii) a falcia da
rejeio, em que um resultado estatisticamente significante considerado como
cientificamente importante. No caso de estimativas de coeficientes, talvez o modo mais
direto e conhecido de se evitar um julgamento precipitado, que consubstancie
significncia estatstica e econmica, seja a utilizao de intervalos de confiana, no
como meros substitutos dos testes de hiptese, mas no sentido de se preocupar com as
magnitudes e incertezas envolvidas, em seu sentido econmico63.

J mais especificamente para evitar falcias decorrentes da falha em se rejeitar uma


hiptese nula, Andrews (1989) proveu um mtodo de fcil aplicao, por meio de uma
funo poder inversa. Note que a no rejeio de nos daria indcios de que aquelas
hipteses alternativas com bastante poder, isto , aquelas que, caso fossem verdadeiras,
nos levariam a rejeitar a hiptese nula frequentemente, podem ser falsas. Por outro lado,
a no rejeio de no nos passaria tanta segurana acerca da falsidade de
discrepncias cujo poder para detect-las fosse demasiadamente baixo64.

Por exemplo, para um teste contra , poderamos construir uma


regio em que o poder para detectar uma discrepncia fosse maior ou igual a .

62
No discutiremos em detalhes a validade dos mtodos. A ideia apenas ilustrar possveis maneiras de
se evitar falcias bastante comuns. importante notar que a aplicao dos mtodos pressupe que as
probabilidades de erro estejam corretas ou aproximadamente corretas, a critrio do pesquisador; e,
principalmente, que os mtodos no so condio suficiente para que a confuso entre significncia
estatstica e cientfica seja suprimida.
63
Na economia, isto foi defendido por DeLong e Lang (1992, p.1269) os economistas no deveriam
reportar se rejeitam ou no a hiptese nula, mas se seu intervalo de confiana exclui ou no exclui (a)
valores economicamente insignificantes ou (b) valores economicamente significantes. Cox tambm
incentiva o uso: [...] uma falha em se alcanar um nvel interessante de significncia estatstica [...] no
significa que diferenas de importncia prtica estejam ausentes. [...] necessrio calcular os chamados
limites de confiana para a magnitude dos efeitos e no apenas os p-valores. Isto de crucial importncia.
uma prtica muito ruim resumir uma investigao importante unicamente por um p-valor (COX, 1982,
p. 327). Mayo e Spanos (2011) julgam que intervalos de confiana acabam por ser um tanto rudes, por
tratarem de maneira igual todos os valores dentro do nvel de confiana escolhido.
64
Evidentemente que o que considerado alto ou baixo poder depende das circunstncias de cada
problema, bem como da avaliao do pesquisador. O autor sugeriu a rea de alto poder como ea
rea de baixo poder como ; contudo, diante de toda a discusso, fcil perceber que tais valores
no devem ser interpretados como medidas absolutas.
62

Esta regio seria, usualmente, da forma { | | , para algum Note que


uma falha em rejeitar seria equivalente a rejeitar com nvel de significncia que
| | Dessa forma, [...] se prximo de zero em um sentido substantivo, ento o
teste prov evidncia de que | | zero ou aproximadamente zero, como desejado
(ANDREWS, 1989, p. 1060). Por outro lado, tambm poderamos definir uma regio de
discrepncias em relao hiptese nula que tivessem baixo poder para serem
detectadas, como, por exemplo, chances menores do que 50%. Em geral, esta regio
seria da forma { | | para algum e uma falha em se rejeitar
trairia pouca evidncia contra estes valores.

Para testes comumente utilizados 65 de tamanho contra , as

aproximaes assintticas seriam ( ) e , onde uma

estimativa consistente do erro-padro para , o estimador de , e a


constante calculada para 1 restrio testada, teste de tamanho e poder 66 . Por

exemplo, quando teramos ( ) e e

quando teramos ( ) e . Como afirma

Andrews (1989, p.1060), [...] com estas frmulas, trivial determinar as regies de
baixo e alto poder discutidas anteriormente.

Andrews (1989, p. 1061) cita o exemplo do artigo de Ashenfelter e Johnson (1972)


sobre o efeito da sindicalizao nos salrios. O trabalho verificou que estudos anteriores
estimaram efeitos salariais de 10% a 52% e questionou como, diante de efeito de to
alta magnitude, tantas classes de trabalhadores permanecem sem sindicatos. Diante
disto, Ashenfelter e Johnson (1972) buscaram verificar se no haveria um vis de
endogeneidade que havia sido ignorado. De fato, ao estimarem os efeitos por variveis
instrumentais, no se rejeitou que a dummy para sindicalizao fosse diferente de zero
ao nvel de significncia de 5%. Entretanto, os autores foram cautelosos e evitaram
aceitar a hiptese nula de que os coeficientes fossem iguais a zero. Em suas palavras:

65
Testes de Wald, Razo de Verossimilhana ou Multiplicador de Lagrange, por exemplo.
66
As tabelas com os diversos valores para podem ser encontradas em Andrews (1989), pginas 1067-
1071. Note que so valores assintticos, dessa forma, a depender do tamanho da amostra em que se
aplica, as regies so aproximaes rudes das verdadeiras regies. Contudo, como justifica Andrews
(1989, p.1072), as aproximaes so de fcil aplicao e rapidamente disponveis para o auxlio na
inferncia, um avano em um contexto em que quase ningum analisa a funo poder.
63

[...] em um nvel emprico descobrimos que permitir a determinao


simultnea de salrios, sindicalismo, e qualidade do trabalho na estimao
tende a produzir uma estimativa do diferencial de salrio de equilbrio entre
sindicatos/no-sindicatos na gama de 0 a 20 por cento, mas esta nunca
significativamente diferente de zero. Dadas as limitaes quantitativas e
qualitativas dos dados, estamos preparados apenas a dizer que no temos
certeza da magnitude do efeito dos sindicatos sobre as diferenas salariais
intersetoriais (ASHENFELTER, JOHNSON, 1972, p.505).

Andrews afirma que a cautela foi com razo. A rea de rejeio de alto poder englobaria
diferenciais acima de 165%. Dessa forma, seria possvel afirmar que o teste nos d
indcios de que o efeito da sindicalizao seja menor do que este valor. Contudo, a rea
de baixo poder alcanaria diferenciais de at 65% e como este valor [...] um enorme
diferencial salarial, claro que o teste no capaz de distinguir entre uma diferena de
zero e aquelas diferenas que no so zero e que so interessantes sob uma perspectiva
econmica.

Ilustremos abordagem semelhante que pode ser realizada: uma anlise do poder obtido
aps a realizao dos dados ou de severidade (gravidade) dos testes a que as hipteses
67
so submetidas (MAYO, SPANOS, 2006; 2011) . Deborah Mayo (2004, p.86)
reconhece a pertinncia da crtica do ritual nulo de Gigerenzer, e afirma que o autor

[...] sem dvida [...] est correto ao afirmar que os textos de estatstica
erroneamente omitem essas diferenas filosficas e histricas entre os testes
de NP, testes Fisherianos e mtodos Bayesianos; e, sem dvida, a estatstica
foi mal ensinada a muitos [...]

Todavia, a filsofa acredita que o problema no esteja nos mtodos clssicos em si, mas
no seu mau uso, e que seria necessria

[...] uma interpretao de testes estatsticos que mostre como eles podem
produzir um julgamento genuno de evidncia sem interpretar erroneamente
as probabilidades de erro e sem serem utilizados como mtodos mecnicos de
um livro de receitas cuja sada sejam "atos" associados a "aceitar H" ou
"rejeitar H.

Mayo afirma acreditar que a anlise de severidade supra esta lacuna. A autora
argumenta que o papel da probabilidade no fornecer medidas de suporte a alguma
hiptese em particular, mas medidas de erro com relao ao teste aplicado. A funo da
estatstica no seria revelar quais hipteses so mais provveis, mas sim quais hipteses
foram submetidas a testes altamente probatrios. Segundo Mayo, pode-se afirmar que
uma hiptese passa em um teste severo se, caso fosse falsa, o teste teria alta
probabilidade de detectar sua falsidade.

67
Os autores utilizam a palavra severity em ingls.
64

Antes da realizao dos dados sabemos que: (i) a no rejeio de nos daria indcios
de que podemos desconfiar da falsidade de hipteses alternativas em que se teria alto
poder caso fossem verdadeiras. Analogamente, portanto, uma rejeio de nos daria
(ii) indcios de que h alguma discrepncia (que pode ser trivial ou no trivial) em
relao hiptese nula. Ademais, aps a realizao dos dados, poderamos refinar o
processo de inferncia e fazer os seguintes raciocnios contra factuais: (i) quando no
rejeitamos , que valores da hiptese alternativa , caso fossem verdade, nos teriam
dado, com alta probabilidade, uma estatstica mais extrema do que a observada? Isto ,
para algum , qual seria | ? Quanto maior esta
probabilidade, maior seria a evidncia de que E, tambm, no caso de (ii)
rejeitarmos , que valores da hiptese alternativa , caso fossem verdade, nos teriam
dado, com alta probabilidade, uma estatstica menos extrema do que a observada? Isto ,
para algum qual seria | ? Quanto maior esta
probabilidade, maior seria a evidncia de que Vejamos alguns exemplos
numricos simples retirados de Mayo e Spanos (2006) e de Spanos (2008).

Considere uma amostra i.i.d de tamanho em que cada


normalmente distribudo com mdia e varincia . Suponha que e
que Consideremos o teste contra Suponha que o
resultado da mdia amostral tenha sido Note que a estatstica de teste seria
e no rejeitaramos . Concluir que ou que, digamos, ,
seria uma inferncia segura? Mayo e Spanos diriam que no, pois |
, o que significa que se a mdia populacional fosse 12,1, apenas em 16%
das vezes a estatstica seria maior do que a observada. J a inferncia de que
seria mais bem respaldada pelos dados? Sim, pois | ,
isto , se a mdia populacional fosse de fato 12,3, seria quase certo termos observado
valor maior para a estatstica de teste mas no observamos. Assim, fosse a
discrepncia de 0,1 magnitude relevante do ponto de vista econmico, ento a
insignificncia estatstica no se configuraria em insignificncia econmica, pois a
hiptese de que no passa em um teste severo68.

68
Da mesma forma que na anlise de Andrews, na anlise de severidade ainda restar ao pesquisador
definir o quo severo o teste tem de ser para considerar o resultado relevante do ponto de vista
econmico. Expomos o mtodo pois, ao discriminar diferentes tipos de inferncia, isto talvez chame mais
a ateno do usurio s magnitudes envolvidas. Ziliak e McCloskey (2008a, p.146-147), por um lado,
65

Considere novamente uma amostra i.i.d de tamanho em que cada


normalmente distribudo com mdia e varincia . Realizemos um teste para
contra de tamanho Suponha que o resultado da mdia
amostral tenha sido com, , e que o desvio-padro amostral seja
O valor da estatstica de teste seria , nos levando a rejeitar .
Entretanto, veja que | , isto , se, por exemplo, o
verdadeiro valor da mdia fosse 0,05, em apenas 0,3% das vezes o resultado da
estatstica de teste teria sido to baixo quanto o observado. Deste modo, os dados no
fornecem evidncia forte de que , pois esta hiptese no passa em um teste
probatrio. Fosse este valor negligencivel do ponto de vista econmico, a significncia
estatstica do resultado no se configuraria em significncia econmica.

Figura 2 Tamanho amostral e severidade para

Fonte: Mayo e Spanos (2011, p.175)

Ressaltemos que esta anlise corrobora o mesmo ponto discutido anteriormente acerca
da relativizao do p-valor como evidncia, como nos resultados da tabela 3. A figura 2
ilustra diferentes julgamentos de severidade da rejeio da hiptese nula ,
com p-valor de 5%, em uma distribuio , mas variando o tamanho amostral.
Note que, quando temos que | , assegurando de
certo modo a inferncia de que . J a mesma rejeio da hiptese nula com uma
amostra de 1.000 observaes nos daria | , teste menos

elogiam a anlise mais sistemtica de erros proposta por Mayo; por outro lado, criticam o foco no uso de
probabilidades contrafactuais para o julgamento de evidncia, sem levar em considerao funes perda
ou informao a priori, o que poderia acabar por resultar na m prtica observada nos testes de
significncia puros.
66

severo para a hiptese . Em outras palavras, suponha que tomssemos


como evidncia suficiente para inferir que . Note que, mesmo se a hiptese
fosse falsa, isto , mesmo quando , o teste somente nos forneceria resultado pior
em 11,5% das vezes, possibilitando poucas chances detectar sua falsidade.
67

3) A SIGNIFICNCIA ESTATSTICA E A PRTICA


ECONMICA

No captulo anterior realizamos breve discusso terica acerca da confuso entre


significncia estatstica e significncia econmica. Este captulo trata da parte emprica
os pesquisadores tm, de fato, interpretado o p-valor como uma medida absoluta de
evidncia, dando o mesmo peso emprico a um resultado significante
independentemente das circunstncias, tais como o tamanho amostral? Uma vez que o
arcabouo predominante de testes de hipteses de Neyman-Pearson, os pesquisadores
tm se preocupado com o poder dos testes utilizados? Outras fontes de erro esto sendo
ignoradas? Um resultado (in)significante tem sido tomado como (no) importante? O
significado econmico da investigao como as magnitudes estimadas est sendo
analisado?

Para responder essas perguntas, resgataremos, primeiramente, a literatura acerca do mau


uso da significncia estatstica na economia, apontando alguns resultados encontrados
em outros pases, como a constatao do problema na American Economic Review e na
German Economic Review. Alm disso, at onde a reviso bibliogrfica para este
trabalho logrou alcanar, inexiste estudo publicado a respeito do tema para peridicos
nacionais. Esta dissertao buscar suprir a lacuna. Assim, discutiremos o questionrio
aplicado por McCloskey e Ziliak (1996), fazendo algumas modificaes em virtude dos
resultados obtidos em uma amostra piloto, e apresentaremos os resultados de sua
aplicao para os artigos da Revista Brasileira de Economia no perodo de 2008 a 2011.

3.1. Resgatando o debate na cincia econmica

Como pode ser visto em Ziliak e McCloskey (2008a), a literatura em peridicos


internacionais acerca da confuso entre significncia estatstica e significncia
substantiva extensa. O debate sobre o uso dos testes de significncia estatstica
antigo e est presente em diversas outras disciplinas, como psicologia, educao,
negcios, direito, sociologia, arqueologia, biologia, epidemiologia, medicina e na
prpria estatstica (ZILIAK, MCCLOSKEY, 2008a, p. 57-58). No obstante, a
discusso na economia se iniciou tardiamente, com poucos trabalhos que tratavam
diretamente, ou mesmo tangencialmente, do tema. Tendo em vista que elementos
68

tericos j foram expostos no captulo anterior, nesta seo, buscaremos resgatar estes
trabalhos de maneira cronolgica, dando nfase aos principais resultados.

3.1.1. A retrica da significncia: , , hipteses extravagantes,

Na economia, podemos remontar a discusso Zellner (1981)69. O econometrista, em


1978, coletou uma pequena amostra de 22 artigos empricos em peridicos importantes.
O autor verificou o uso disseminado de nveis de significncia de 1% ou 5% sem
qualquer considerao com relao ao tamanho da amostra ou a outros fatores. Mais
ainda, dos 22 artigos apenas 1 havia discutido o poder do teste utilizado. Zellner
concluiu, modestamente, que haveria bastante espao para a melhoria dos testes de
hiptese e recomendou o uso de mtodos Bayesianos.

Dois anos mais tarde, McCloskey (1983), em seu conhecido artigo The Rhetoric of
Economics, foi quem primeiramente apontou de maneira explcita o uso da significncia
estatstica como substituto do julgamento cientfico na cincia econmica. Segundo
McCloskey (1983, p.497-498, grifo nosso),

[...] a significncia estatstica parece prover um padro para se julgar se uma


hiptese falsa ou verdadeira que independente de qualquer considerao
trabalhosa [...] o ponto no que os nveis de significncia so arbitrrios.
Claro que so. O ponto que no se sabe se a amplitude abrangida pelo nvel
de significncia afirma ou nega a hiptese.

McCloskey afirma, em seguida, que se o estatstico poderia tentar alegar no conhecer o


problema econmico a fundo, e assim se esquivar do julgamento econmico de quo
boa ou ruim a teoria como aproximao da realidade, o mesmo no pode ser dito, por
exemplo, do Macroeconomista aplicado com especializao em comrcio internacional
que analisa a teoria da paridade do poder de compra. Neste caso, dever-se-ia ter [...]
padres de argumentao que vo alm da retrica inconclusiva provida pela cerimnia
pseudocientfica hiptese-regresso-teste-publicao da maior parte da economia
moderna (MCCLOSKEY, 1983, p. 499).

69
Arrow (1959) j trabalhava a diferena entre significncia estatstica e significncia econmica. Neste
texto o autor alertava que [...] desde o trabalho clssico de Neyman e Pearson, tem sido evidente que, na
escolha de um teste de hiptese, o poder do teste deveria ter papel coordenado com o nvel de
significncia. Entretanto, at hoje, a escolha do nvel crtico para uma estatstica de teste feita na prtica
por uma escolha arbitrria convencional de probabilidade de erro tipo I; dificilmente, quando nunca, se
encontra uma justificativa explcita da escolha feita em comparao com a funo poder (ARROW,
1959, p.70). Todavia, como no houve levantamento emprico do problema, consideramos o incio da
discusso em Zellner, que foi seguido de outros textos em espao mais curto de tempo.
69

Tambm foi neste mesmo ano que Leamer (1983) publicou outro artigo conhecido,
Lets Take the Con Out of Econometrics, questionando seriamente as hipteses
70
extravagantes feitas no uso da econometria. Leamer destacou a falta de
reconhecimento da dependncia dos resultados de tais pressupostos bem como a
decorrente omisso de uma anlise de sensibilidade ou de fragilidade das estimativas. O
autor questionou a aparente objetividade das anlises estatsticas na economia,
alegando que

[...] os economistas herdaram das cincias fsicas o mito de que a inferncia


cientfica objetiva e livre do julgamento pessoal. Isso um total absurdo.
Todo conhecimento crena humana; mais precisamente, opinio humana
(LEAMER, 1983, p.36).

E, adiante, lembra o leitor de que [...] como tanto a distribuio amostral quanto a
distribuio a priori so opinies e no fatos, uma inferncia estatstica e deve sempre
permanecer uma opinio (LEAMER, 1983, p.37).

Pouco depois, McCloskey (1985) examinou com mais cautela uma amostra de 10 dos
50 artigos que utilizaram anlise de regresso na AER nos anos 1981, 1982 e 1983. A
concluso foi de que

[...] aproximadamente trs quartos dos autores do American Economic


Review utilizam incorretamente o teste de significncia. Eles o utilizam para
se convencerem de que uma varivel importante. Mas o teste pode somente
afirmar a probabilidade de ceticismo excessivo em face de erros resultantes
de uma amostra muito pequena. O teste no diz ao economista se um
coeficiente ajustado grande ou pequeno em um sentido economicamente
significante (MCCLOSKEY, 1985, p.201, grifo nosso).

A autora explicou como o processo de confuso usualmente ocorre:

[...] o resultado que aparece na pgina 10 (estatisticamente) significante acaba


por aparecer como (economicamente) significante na pgina 20. Nos piores
casos, no h qualquer tentativa de mostrar quo grandes os efeitos so, ou se
os testes estatsticos de sua grandeza so poderosos, ou qual padro de
grandeza algum deveria usar [...] (MCCLOSKEY, 1985, p.204).

McCloskey (1986, p.06), em texto posterior, tenta colocar o ponto de uma maneira mais
direta e bvia:

[...] suponha que voc saiba o valor do coeficiente. Saiba com certeza. Deus
te contou, sem qualquer disparate como um intervalo de confiana; o erro
amostral zero. A estatstica infinita. Bem, ento: a varivel
importante? Voc ainda no sabe. Para descobrir, voc ter de perguntar e
responder outras questes [...]

70
Whimsical assumptions.
70

Em resposta aos artigos de Zellner e McCloskey, Andrews (1989) publica artigo com
derivao de uma funo poder inversa para aplicao no auxlio das inferncias dos
pesquisadores, mtodo o qual mencionamos na seo 2.2.5. Conforme o autor

[...] ns notamos que o clculo de poder atualmente pouco utilizado na


pesquisa economtrica aplicada (por exemplo veja Zellner [...] e McCloskey
[...]). Muitos praticantes no sabem como mobilizar informao para ajudar a
analisar seus resultados ou pelo menos como fazer isso de uma maneira
simples. (ANDREWS, 1989, p. 1061).

Na dcada de 90, DeLong e Lang (1992) publicam artigo curioso intitulado Are all
Eeconomic Hypothesis False?. Como vimos na seo 2.1.1., a distribuio do p-valor
sob a hiptese nula uniforme (0,1). Dessa forma, caso seja verdadeira temos que

| (16)

Isto, se a hiptese nula for verdadeira, em 10% das vezes ns veramos valores maiores
do que , e em 20% das vezes ns veramos valores maiores do que e
assim por diante. Sob a hiptese alternativa, a distribuio do p-valor tem uma funo
de distribuio acumulada desconhecida , assim:

| (17)

DeLong e Lang presumem que a densidade sob a hiptese alternativa


decrescente em de tal forma que a razo [ ] [ ] caia monotonicamente
de 1 quando at quanto Assim, considerando que seja a proporo
de hipteses nulas verdadeiras, a probabilidade incondicional poderia ser
escrita como:

( ) (18)

Como a distribuio acumulada [ ], temos que:

(19)

A equao (19) nos permitira estimar um limite superior para a proporo de hipteses
nulas que so verdadeiras. DeLong e Lang modificam um pouco o contexto da equao
e estimam o limite superior para a proporo de nulas no rejeitadas que so
verdadeiras. Para tanto, analisam 276 artigos de diversos peridicos da economia.
71

Destes, apenas 78 falharam em rejeitar a hiptese nula. Um dos resultados dos autores
que , pois de todos os 78 p-valores, nenhum caiu no limiar entre 0,9 a 1. Ou seja,
todas as hipteses nulas no rejeitadas seriam falsas. A explicao mais plausvel
encontrada foi a da existncia de um possvel vis de publicao nos peridicos: haveria
uma tendncia de somente se publicarem resultados estatisticamente significantes ou
aqueles resultados que falham em rejeitar uma hiptese nula que a priori era
considerado de fato falsa (como no rejeitar que uma expanso monetria tenha impacto
zero no produto de curto prazo, por exemplo). Assim, concluem os autores que,

[...] em seu sentido mais simples, nossos resultados reforam as solicitaes


anteriores para os economistas concentrarem-se nas magnitudes dos
coeficientes e reportarem intervalos de confiana e no testes de
significncia. Se todas ou quase todas as hipteses nulas so falsas, h pouco
sentido em se concentrar se uma determinada estimativa distinguvel ou no
de seu valor previsto sob a hiptese nula. Ao invs disto, ns deveramos
lanar luz em quais modelos so boas aproximaes, o que requer que
saibamos intervalos de valores para os parmetros que so excludos pelas
estimativas empricas [...] a pergunta central no deveria ser, posso rejeitar
zero? Mas deveria ser, posso rejeitar todos os pequenos (ou todos os grandes)
valores para este parmetro? (DELONG, LANG, 1992, p.1271-72).

McCloskey (1992a, 1992b, 1993, 1995), por sua vez, continuou trazendo a discusso
tona no meio acadmico, com tom cada vez mais provocante na tentativa de despertar a
ateno dos pesquisadores:

[...] o estatstico amador acenando o SPSS alega ter domnio da tcnica.


Procedimentos estatsticos, diferentemente dos nmeros resultantes, so
tomados pelos no estatsticos como tcnicas para gerar verdades. Estudantes
de doutorado em economia migram para o curso de econometria, porque eles
acreditam que o lugar para aprender a cincia econmica [...] seus
professores tm vergonha de desiludi-los, pois eles no podem fornecer
nenhuma outra frmula para a cincia e os jovens procuram frmulas. Os
estudantes so atrados pela iluso de que tcnicas de anlise fatorial ou de
variveis instrumentais iro mecanizar a persuaso cientfica
(MCCLOSKEY, 1993, p. 485).

Em meados da dcada, Keuzenkamp e Magnus (1995) explicaram, em peridico


voltado para econometria, os diferentes tipos de hipteses que podem ser testadas bem
como as diferenas entre os mtodos de Fisher e Neyman-Pearson. Os autores ainda
pesquisaram 668 artigos do Journal of Econometrics observando com mais cautela 99
que utilizaram testes de significncia. Nestes, verificou-se que, conforme havia
constatado Zellner (1981), no h qualquer relao entre o tamanho da amostra e o nvel
de significncia adotado: [...] a escolha dos nveis de significncia parece arbitrria e
depende mais da conveno e, ocasionalmente, do desejo do investigador em rejeitar ou
aceitar uma hiptese do que em uma avaliao bem-definida de perdas possveis que
72

possam resultar de uma deciso errada (KEUZENKSAMP, MAGNUS 1995, p.20).


Assim, o debate em torno do uso da estatstica, mais especificamente em torno do uso
indiscriminado da significncia estatstica, que havia surgido na psicologia e em outras
cincias sociais na dcada de 60 e 70, estava tomando forma na economia
(MCCLOSKEY, 1993; ZILIAK, MCCLOSKEY, 2008).

3.1.2. O problema na American Economic Review nas dcadas de 80 e 90

Em 1996, McCloskey e Ziliak realizaram o primeiro estudo sistemtico e abrangente


acerca da confuso entre significncia estatstica e significncia econmica. poca,
constataram que poucos livros-textos de econometria faziam a devida distino e,
muitas vezes, inclusive confundiam os alunos. Em um exemplo, um dos livros
examinados testou se penas severas para a direo perigosa diminuiriam as mortes no
trnsito. A concluso foi de que o resultado era significante a 5% mas no era a 1%.
McCloskey e Ziliak (1996, p.100) complementam,

[...] mas as 100.000 vidas que seriam salvas pela reduo medida no so
reconhecidas como significantes [...] a que nvel o nvel de significncia
deveria ser estabelecido, considerando o custo humano de se ignorar o efeito
de penas severas [...] no trabalhado no livro.

McCloskey e Ziliak tomaram para anlise todos os 182 artigos publicados nos anos 80
na AER que utilizaram anlise de regresso e aplicaram, a cada, um questionrio de 19
questes sobre a preocupao com a magnitude e a importncia dos efeitos medidos
bem como sobre o uso da significncia estatstica. Os resultados encontram-se na tabela
de nmero 04, que se encontra ao final deste captulo71. Os principais nmeros foram:
cerca de 70% dos artigos no diferenciaram significncia estatstica da significncia
econmica; 72% no discutiram o quo grande grande ou o quo prximo
prximo para o problema que estudavam, isto , no definiram nem conversaram com
a literatura da rea acerca do padro adequado para julgar um modelo ou uma varivel
relevantes; 59% utilizaram a palavra significante de maneira ambgua; apenas 4% dos
artigos consideraram o poder do teste e apenas 1% analisou a funo poder; 69% dos
artigos sequer reportaram suas estatsticas descritivas; 63% dos artigos praticaram a
econometria do sinal, observando apenas o sinal do coeficiente sem qualquer
preocupao com sua magnitude.

71
A discusso detalhada sobre cada questo ser feita na seo seguinte, em que sero trazidos exemplos
da amostra analisada.
73

Entretanto, o impacto do levantamento no foi aquele esperado pelos autores. Pois as


reaes foram, em geral, em dois sentidos: (i) aqueles economistas mais sofisticados
afirmavam que reconheciam a existncia do problema, mas diziam que eles no
cometiam tais erros e que isso era coisa de amadores; e, (ii) os demais ignoravam a
existncia do problema, afirmando ser absurdo conceber que algo que todo mundo fazia
estivesse to errado. No entendiam o ponto da crtica alegando ser o ataque contra a
matemtica e a estatstica em si ou ser o ataque algo gratuito e pessoal contra aqueles
economistas dos artigos analisados. Deste modo, pouco foi feito para se mudar a
situao, levando McCloskey (1997a, 1997b, 1998, 1999, 2002) a afiar mais sua crtica:

[...] eu quero que voc tente esquecer as caractersticas do mensageiro que


possam te distrair. Tente esquecer que sou uma mera historiadora econmica,
que moro no centro-oeste, que no estou em Princeton, que sou uma libertria
feminista da escola de Chicago, que sou transexual, que eu gaguejo [...] pense
que seja possvel que a significncia estatstica e teoremas de existncia tm
sido pior do que inteis nestes ltimos cinquenta anos [...] no o uso da
matemtica ou da estatstica que est em jogo. o dramtico mau uso delas
em testes de significncia e provas, que a despeito da retrica de nmeros so
desconectadas da cincia real. Nenhuma questo de Quo Grande foi alguma
vez respondida consultando um teste de significncia ou teorema de
existncia (MCCLOSKEY, 1998, p. 04-05, grifo nosso).

Mais adiante, o discurso predominante foi de que os autores estavam certos em terem
trazido o problema tona, mas que aquilo era coisa do passado, da dcada de 80, e que
a cincia econmica havia avanado (ZILIAK, MCCLOSKEY, 2008a, p. 79).

De encontro a esta afirmativa, Mayer (2001) verificou que artigos da American


Economic Review e da Review of Economic and Statistics, nos anos 1999 e 2000,
confundiram uma falha em se rejeitar a hiptese nula como uma confirmao desta
hiptese. Diante disto, uma recomendao imediata foi a de que os pesquisadores
poderiam

[...] relatar seus p-valores ou intervalos de confiana, de modo que eles e


seus leitores possam decidir a partir desta informao, em combinao com
a informao a priori, o quo crvel a hiptese . Apesar da subjetividade,
isto prefervel a afirmar erroneamente que a falha de um teste de
significncia em refutar uma hiptese ao nvel de 5 por cento implica que
esta hiptese foi confirmada. E tambm melhor do que o pesquisador
decidir nos bastidores se o p-valor assegura a defesa da hiptese (MAYER,
2001, p.09).
74

Ziliak e McCloskey (2004a), por outro lado, replicaram seu estudo a todos artigos da
AER na dcada de 9072. Os resultados encontram-se na tabela de nmero 04 e no foram
animadores. Desta vez, 79% dos artigos confundiram significncia estatstica com
significncia econmica. Pioraram igualmente, dentre outras, a prtica da econometria
do asterisco classificar a importncia de um coeficiente pelo tamanho de sua
estatstica de teste bem como a prtica da econometria do sinal, com 69% e 78%
respectivamente. Dentre as prticas em que se viram melhorias podem ser citadas a
exposio das estatsticas descritivas, o uso de simulao para verificar a razoabilidade
dos coeficientes, e a interpretao cuidadosa dos coeficientes, com 66%, 32% e 81%
respectivamente.

Neste trabalho, Ziliak e McCloskey (2008a, p.91-92) classificaram os autores dos


artigos segundo suas pontuaes no questionrio. Entre os que tiraram boas notas
encontram-se Joshua Angrist, que obteve trs artigos com alta pontuao, ou Gary
Solon e David Zimmerman. Mas, com artigos de baixssima pontuao, tambm se
encontram autores renomados como Gary Becker, Ben Bernanke e Alan Blinder. Foi
uma medida de certa forma controversa que, se por um lado tinha o intuito de mostrar
que a questo no era problema de amadores ou maus economistas e sim que se tratava
de prtica generalizada, por outro pode ter sido capaz de gerar mais resistncia por parte
de alguns economistas, como visto na introduo do captulo 2. No obstante, a partir
da a questo passou a ter maior repercusso, saindo matria inclusive na revista The
Economist (2004).

Zellner (2004) ao comentar o artigo de Ziliak e McCloskey, mostrou-se surpreso por


no ter havido melhoria no que diz respeito aos usos dos testes de hiptese entre os anos
80 e anos 90. O autor se pergunta por que pesquisadores inteligentes e altamente
treinados continuariam indo to mal em testes de hipteses, sua resposta foi

[...] que eles esto muito confusos com relao as metodologias de testes. A
maioria deles no sabe qual o conceito de probabilidade que eles esto
usando, tm dificuldade em interpretar os p-valores, no sabem o que so
funes poder e no sabem como us-las, especialmente porque eles no tm
ideia de que valores de parmetros usar, e no sabem como escolher um nvel
de significncia conforme o tamanho da amostra se altera (ZELLNER, 2004,
p. 583)

72
Ziliak e McCloskey (2004a) analisaram 134 artigos, omitindo, sem perceberem, cerca de 50 artigos,
como foi apontado por Hoover e Siegler (2008). Posteriormente, Ziliak e McCloskey (2008a)
consolidaram os resultados com todos os 184 artigos publicados na dcada de 90 no obtendo diferena
significativa nos percentuais. Apresentaremos estes resultados.
75

Wooldrige (2004), por sua vez, no se disse impressionado com os resultados. Como
disse o econometrista, [...] eu participo de muitos workshops empricos em que os
tamanhos dos coeficientes no so discutidos. O estado das coisas ainda pior para
modelos no lineares (WOOLDRIDGE, 2004, p. 577). Wooldridge, entretanto, faz a
ressalva para no interpretar o chamado de Ziliak e McCloskey como prestar ateno
apenas ao tamanho da estimativa do coeficiente, esquecendo-se da incerteza amostral,
pois [...] muito foco na significncia econmica pode ser to perigoso quanto muito
foco na significncia estatstica (WOOLDRIDGE, 2004, p. 579). J Thorbecke (2004,
p.571), ao comentar o artigo, afirma que a mensagem

[...] clara e convincente. Existe confuso entre os pesquisadores


econmicos entre ajuste estatstico e a importncia do efeito (por exemplo, a
magnitude dos coeficientes correspondentes), fazendo falsas hipteses serem
aceitas e hipteses verdadeiras serem rejeitadas. Muitas vezes os economistas
no fazem distino entre significncia econmica e estatstica.

Elliot e Granger (2004) e Horowitz (2004) tambm concordam com o ponto principal de
Ziliak e McCloskey, de que significncia estatstica no necessria nem suficiente
para significncia econmica e que o mau uso tem sido generalizado. Mas, ambos
chamam a ateno para no interpretar este mau uso dos testes como a inutilidade de se
testar em qualquer circunstncia. Os autores frisam que no se pode ignorar a variao
amostral como fonte de erro e Horowitz (2004) traz tona o uso de testes de hiptese
para erros de especificao.

O comentrio de Leamer (2004), tal qual seu texto de 1983, bastante crtico a toda a
cultura atual vigente nos trabalhos aplicados. O econometrista afirma que [...] modelos
no so nem verdadeiros nem falsos. Eles so algumas vezes teis e algumas vezes
enganosos. O objetivo de um economista emprico no deveria ser determinar a
veracidade de um modelo, mas o domnio de sua utilidade (LEAMER, 2004, p. 556).
Entretanto, os alunos em geral no conseguem entender este ponto:

[...] difcil treinar um computador para entender uma metfora, e


igualmente difcil treinar nossos alunos a entenderem as metforas da
economia, os nossos modelos. Nossos alunos fazem o que qualquer um no
familiarizado com um idioma faz: tomam os modelos literalmente. O objeto
da econometria extremamente prejudicial a esse respeito, uma vez que se
baseia fundamentalmente na ideia de que nossos modelos so descries
literais da realidade (LEAMER, 2004, p. 556).
76

Dessa forma, na viso de Leamer, o que seria preciso seriam medidas de utilidade e no
medidas de veracidade dos modelos e, sem mudar o paradigma vigente, pouco
adiantaria chamar ateno s magnitudes.

Hoover e Siegler (2008a) foram os nicos a levantarem uma crtica sistemtica aos
trabalhos de McCloskey e Ziliak e McCloskey. No obstante, iniciam o artigo
afirmando que concordam incondicionalmente com o ponto principal levantado:

[...] para evitar qualquer mal-entendido, vamos declarar desde o incio que
ns aceitamos o ponto principal, sem qualificao: um parmetro ou outra
quantidade estimada pode ser estatisticamente significativa e, ainda,
economicamente sem importncia ou pode ser economicamente importante e
estatisticamente insignificante (HOOVER, SIEGLER, 2008a, p. 02).

O que ambos alegaram que este ponto desinteressante e incontroverso e que, assim,
os economistas no cometeriam tais erros generalizadamente: a evidncia apresentada
por Ziliak e McCloskey seria fraca. O problema que a questo aqui seria emprica.
Constatar se os pesquisadores cometem ou no os erros no uma questo de percepo
com base em seu crculo profissional, como s vezes colocam os autores: [...] isso no
corresponde nossa prpria prtica ou de praticamente todos os economistas
aplicados que conhecemos, que esto geralmente preocupados com a escolha de
modelos econmicos e estatsticos adequados (HOOVER, SIEGLER, 2008b, p.463,
grifo nosso). Para tanto, seria necessrio investigar o que de fato ocorre nos trabalhos
aplicados, e Hoover e Siegler no tomaram nenhuma amostra representativa para alegar
o contrrio, mesmo que fosse com metodologia diferente.

Aparentemente o discurso dos autores d a entender que a inteno dos levantamentos


constatar se os economistas sabem ou no, subjetivamente, a diferena entre
significncia econmica e estatstica. Contudo, obviamente que no este o ponto, pois,
com exemplos simples, quase qualquer economista consegue entender a explicao e
perceber a diferena. Mas, ainda assim, isso no necessariamente ir se refletir na
prtica. Por exemplo, como colocou Mayer, [...] embora possa ser bem conhecida a
proposio de que a incapacidade de rejeitar ao nvel de 5 por cento no implica na
confirmao ao nvel de 5 por cento, em princpio, a prtica outra coisa (MAYER,
2001, p. 06, grifo nosso).

Alm disso, como, em geral, os exemplos utilizados para a explicao so bvios, pode
parecer que a diferena entre significncia estatstica e significncia substantiva seja
77

sempre algo trivial mas no . Vide, por exemplo, o problema dos testes de raiz
unitria levantado por DeLong e Lang: o quo diferente um coeficiente tem de estar de
uma raiz unitria para fins relevantes na anlise de sries temporais? Note que a mera
constatao de rejeio ou no rejeio da hiptese nula a um nvel arbitrrio de
significncia no fornece essa informao. Ou em um teste paramtrico de normalidade,
como o teste Jarque-Bera: o quo distante tem de estar a distribuio da distribuio
normal (em termos de curtose e assimetria) para que haja consequncias relevantes nos
propsitos da anlise? Este caso mais fcil de ser determinado, mas ainda assim uma
pergunta que poucos economistas saberiam responder prontamente.

A despeito de no trazerem levantamento emprico, Hoover e Siegler apontaram


algumas questes metodolgicas importantes. A principal delas foi uma falha grosseira
de Ziliak e McCloskey, que no teriam, na dcada de 90, coletado todos os artigos
aplicveis. Todavia, apesar do erro, como visto posteriormente em Ziliak e McCloskey
(2008a, p.79-88), a incorporao destes artigos omitidos no modificou os maus
resultados encontrados. Outra crtica pertinente foi o carter binrio e impreciso das
questes (que so respostas de sim ou no) o que exacerbaria a subjetividade 73 na
codificao. Isso talvez tenha decorrido dos poucos exemplos utilizados por Ziliak e
McCloskey para explicar o sentido de cada pergunta, levando Hoover e Siegler a se
indagarem, por exemplo: quando os coeficientes seriam ditos como interpretados
cuidadosamente? Ou, como se classificaria quem menciona o poder do teste, o autor
teria de mencionar diretamente a palavra poder? Para suprir esta lacuna, ns traremos
aqui vrios exemplos de nossa amostra. Espera-se que, durante a leitura, perceba-se que
estas questes, apesar de trabalhosas para a avaliao, no so to complicadas.

Alm disso, os autores questionam a aparente redundncia de alguns pontos como


vrias perguntas sobre magnitude, e vrias sobre a confuso entre significncia
estatstica e significncia econmica. Isto se mostraria mais problemtico quando da
classificao dos autores em um ranking, pois poderia haver mltiplas contagens de um
mesmo erro. De fato, a classificao de autores feita por Ziliak e McCloskey foi

73
Com relao subjetividade, Ziliak e McCloskey afirmam que convidaram Hoover e Siegler para
discutir as questes e esclarecer possveis dvidas, mas os autores declinaram. Ao invs disso, segundo
Ziliak e McCloskey, Hoover e Siegler exigiram que os autores escrevessem cada classificao com as
respectivas citaes que fundamentavam as notas. Em virtude do custo de oportunidade de tal empreitada,
Ziliak e McCloskey negaram a tarefa, mas convidaram os autores a examinarem as fotocpias dos artigos
originais com as anotaes realizadas. A proposta foi negada (ZILIAK, MCCLOSKEY, 2008a, 2008c).
78

bastante imponderada e no faremos isso neste trabalho. Apenas iremos exibir a


distribuio de frequncia do percentual de sim obtidos pelos artigos com o simples
intuito de sintetizar resultados. Em suma, o questionrio proposto por Ziliak e
McCloskey realmente apresenta bastante espao para melhorias; para amenizar os
possveis problemas apontados por Hoover e Siegler e outros o questionrio foi
primeiramente aplicado em uma amostra piloto, e a partir da foram feitos os ajustes que
se mostraram necessrios (por exemplo, a questo da redundncia no se mostrou to
importante, como ser visto a seguir), mas buscando no descaracteriz-lo. Pois, apesar
dos defeitos, ainda assim trata-se do questionrio mais abrangente, bem como o
pioneiro da cincia econmica, com j duas amostras para comparao, sendo, portanto,
a escolha mais natural para este trabalho.

Por fim, cabe mencionar aqui que Hoover e Siegler buscaram justificar o uso de testes
de significncia, sendo talvez a parte mais problemtica de sua resposta. Pois, na
discusso, os autores sequer mencionaram como se determinar o nvel de significncia
adequado frente s diversas circunstncias em que um teste pode ser aplicado, ou qual o
verdadeiro sentido do p-valor como medida de evidncia. Neste sentido, no h como
diferenciar a aplicao sugerida do mau uso difundido e constatado por Arrow, Zellner,
DeLong e Lang, Ziliak e McCloskey, Keuzenkamp e Magnus ou Mayer. Os autores
afirmam, por exemplo, que [...] a funo do teste de significncia a de dar a
qualidade da mensurao, de nos passar uma ideia da fora do sinal [medido]. O
princpio envolvido quando no diferente de quando
(HOOVER E SIEGLER, 2008a, p. 16). Salvo melhor juzo, isto d a entender que a
informao que um p-valor ou uma rejeio de uma hiptese nula fornece a mesma
independentemente do tamanho amostral ou da magnitude estimada, o que claramente
no verdade em virtude de todo o exposto nas sees 2.1.1, 2.1.2, 2.2.1, 2.2.2, e 2.2.5.
Isto lana srias dvidas acerca do entendimento dos autores sobre a confuso entre
significncia econmica e estatstica. Como colocaram Ziliak e McCloskey (2008b,
p.49) [...] Hoover e Siegler declaram que, com pequenas amostras, "o rudo ultrapassa
o sinal." Mas no existe um padro absoluto de ultrapassar. Isto depende. Tambm
no existe um padro absoluto de pequenez de amostras.
79

3.1.3. O livro de Ziliak e McCloskey e o culto na German Economic Review

O ltimo trabalho de Ziliak e McCloskey (2008a) compila os dois estudos anteriores


realizados na AER bem como os argumentos utilizados em outros artigos. O livro traz,
ainda, exemplos e referncias de como aparece o problema da significncia estatstica
em outras reas das cincias sociais e biomdicas, e tambm busca identificar as origens
histricas do ritual estatstico atualmente adotado, encontrando suas origens em Fisher,
que se sobreps aos mtodos sugeridos por Gosset, Neyman, Pearson e Wald. Tendo em
vista tudo que j foi exposto no captulo anterior, no necessrio adentrar em detalhes
da obra. Cabe, aqui, apenas mencionar os comentrios de Aris Spanos (2008) e Tom
Engsted (2009) ao livro, bem como reportar os resultados do artigo de Walter Kramer
(2011), que fez anlise recente do problema na German Economic Review (GER).

Engsted (2009 p.395) concorda com o ponto principal de Ziliak e McCloskey e no


incio do texto o autor faz questo de frisar o ponto:

[...] eu gostaria de afirmar, desde o incio, que eu concordo plenamente com o


ponto de McCloskey e Ziliak de que (in)significncia estatstica no implica
necessariamente em (in)significncia econmica, e que uma boa pesquisa
emprica em economia deve discutir o significado econmico de uma
maneira ou de outra [...] no h mtodo objetivo ou padro (como o nvel de
significncia de 5%) que por si mesmo pode decidir por ns.

Na verdade, o principal objetivo do texto de Engsted chamar a ateno para reas da


cincia econmica em que os pesquisadores, reconhecendo as limitaes e o carter
aproximado e inerentemente mal especificado de seus modelos, no se respaldam em
testes de significncia para avali-los. Tais reas seriam a de modelos de equilbrio
geral dinmico estocstico (DSGE), ciclos reais de negcios (RBC) e modelos de
expectativa racional linear (LRE). Nestes campos, explicitamente reconhecido que os
modelos no pretendem ser replicaes da realidade e que testes de significncia seriam
pouco ou quase nada informativos. Engsted defende, diga-se, com certa propriedade,
essas linhas de estudo, afirmando que fazem exatamente o que recomendam Ziliak e
McCloskey. O argumento do autor , portanto, que no seria verdade que quase todos
os economistas confundem significncia econmica com significncia estatstica.
Apesar da validade de chamar a ateno para estes campos que abandonaram os testes
de significncia, pois, como j afirmou Sargent, a significncia estatstica estaria
rejeitando muitos bons modelos a discusso de Engsted tem pouco sentido emprico
para esta dissertao, uma vez que desconsidera a existncia do problema onde ela foi
80

apontada (nos estudos economtricos aplicados, que representam cerca de 70% de todos
os trabalhos publicados na RBE, por exemplo) e no realizou qualquer levantamento
para quantificar o problema.

J Aris Spanos (2008) reconhece que a questo dos testes de significncia foi levantada
na economia tardiamente e d a Ziliak e McCloskey crdito por fazerem disto um
problema na rea. Spanos, todavia, preocupa-se com o tom e o modo como a discusso
foi trazida, que, em suas palavras, [...] ofusca as questes envolvidas (SPANOS,
2008, p. 156). O autor afirma que, de fato, os mtodos de Fisher e de Neyman-Pearson
so muito suscetveis s falcias de aceitao e de rejeio, mas no acredita que os
mtodos vez ou outra pincelados por Ziliak e McCloskey sejam adequados para resolver
o problema74. Spanos sugere, por conseguinte, a anlise da severidade dos testes a que
as hipteses so submetidas (tratada sucintamente na seo 2.2.5.). Outro ponto
levantado com relao ao uso dos testes de significncia para abordar problemas de
especificao, alegando, inclusive, serem modelos mal especificados problema pior do
que as falcias de aceitao e de rejeio75. Em suas palavras,

[...] o problema de m especificao estatstica no apenas mais


fundamental, mas os pesquisadores sabem, h algum tempo, como lidar com
ele usando os testes de m especificao e reespecificao. Alm disso, testes
de significncia de Fisher desempenham um papel crucial na validao do
modelo [...] na verdade, me pergunto quantos artigos aplicados publicados na
American Economic Review, nos ltimos 30 anos, so suscetveis de passar
nos testes de adequao estatstica; eu arriscaria um palpite de menos de 1%
[...] (SPANOS, 2008, p.163).

No obstante, vale lembrar que mesmo testes de especificao no tm como fugir das
falcias de aceitao e de rejeio sem uma mtrica de quo grande um desvio em
relao hiptese nula. Ademais, se os autores dos textos analisados por Ziliak e
McCloskey fizeram inferncia estatstica em seus modelos, supe-se que fizeram
porque achavam que poderiam fazer, isto , porque achavam que seus modelos eram
estatisticamente adequados. Deste modo, um erro no justificaria o outro, e se os
pesquisadores alm de confundirem significncia estatstica com significncia

74
interessante notar que o livro de Ziliak e McCloskey no um livro tcnico, e tem um carter
informal de prosa. Dessa forma, realmente no h no livro qualquer desenvolvimento de mtodo para
soluo dos problemas apontados, apenas referncias sobre onde busc-las, inclusive referncias ao
prprio Spanos.
75
Na verdade este tambm um dos pontos levantados por Ziliak e McClokey (2008a e 2008c, p. 166).
81

econmica, o fizeram em um contexto em que qualquer teste seria inerentemente


falho, a situao seria, na verdade, muito pior.

Por fim, cabe discutir o trabalho mais recente encontrado na rea, de Walter Kramer
(2011). Kramer analisou todos os artigos publicados na GER desde seu lanamento em
2000, totalizando 258 trabalhos. Destes, 110 utilizaram testes de significncia, e foram
objeto de anlise mais detalhada. Kramer (2011, p. 462) confirma os resultados
encontrados por Ziliak e McCloskey na AER 56,4%, isto , mais da metade dos
artigos cometeram a falcia da rejeio, bem como 28,2% cometeram a falcia da
aceitao. Alm disso, 20,4% adicionaram ou excluram variveis do modelo com base
unicamente na significncia estatstica. Kramer enfatiza tambm a questo da falta de
discusso acerca da adequao estatstica do modelo utilizado. Mais de 70% dos artigos
no discutiram o fato de que a significncia dos resultados depende da especificao
correta dos modelos. Alm disso, 57,1% sequer deram uma justificativa, seja terica ou
por meio de testes de diagnstico, para a especificao utilizada. Assim, Kramer conclui
[...] que as interminveis tabelas de valores que adornam a maioria dos trabalhos
empricos de hoje so de fato o que Ziliak e McCloskey as denominam - um desperdcio
desnecessrio de tempo e espao (KRAMER, 2011, p. 466). Kramer finaliza com a
ressalva de que no se deveria abandonar por completo o uso dos testes de significncia,
e sim utiliz-los principalmente para verificar se os modelos esto corretamente
especificados, sem, contudo, perder de vista que, como no existe um modelo
exatamente correto, tambm seria necessria [...] uma distino entre "incorreo" no
sentido estatstico e no sentido econmico (KRAMER, 2011, p. 469).

Passemos agora anlise dos artigos publicados na Revista Brasileira de Economia.


82

Tabela 04 O culto da significncia estatstica na American Economic Review


Dcadas de 1990 e 1980 Percentual de sim
O artigo AER AER
(90's) (80's)
Q8 - Menciona o poder do teste? 8,0 4,4
Q6 - Evita reportar todos os testes quando irrelevantes? 9,6 8,3
Q16 - Considera mais do que a significncia estatstica para um argumento 20,9 29,7
decisivo do ponto de vista emprico?
Q11 - Evita a "econometria do sinal"? 21,9 46,7
Q14 - Evita escolher variveis para o modelo unicamente por meio de significncia 27,3 68,1
estatstica?
Q15 - Aps o ponto principal, evita usar a significncia estatstica como o critrio 27,8 40,7
de importncia cientfica?
Q10 - Evita a "econometria do asterisco"? 31,0 74,7

Q17 - Utiliza "simulao" para verificar se os coeficientes so razoveis? 32,6 13,2

Q19 - Evita utilizar a palavra significante com sentidos ambguos? 37,4 41,2

Q7 - Quando no primeiro uso, considera a significncia estatstica como apenas um 39,6 47,3
entre outros critrios de importncia?
Q9 - Caso mencione o poder do teste, faz algo em relao a isso? 44,0 16,7

Q13 - Discute a "conversa cientfica" na qual um parmetro seria considerado 53,5 28,0
grande ou pequeno?

Q18 - Nas concluses ou consideraes finais, separa significncia estatstica de 56,7 30,1
significncia econmica, poltica ou cientfica?

Q2 - Apresenta estatsticas descritivas? 66,3 32,4


Q1 - Utiliza amostra pequena? 71,1 85,7
Q12 - Discute o tamanho dos coeficientes? 78,1 80,2
Q5 - Interpreta cuidadosamente os coeficientes? 81,0 44,5
Q4 - Fez a hiptese nula adequada? 83,9 97,3
Q3 - Apresenta coeficientes em formas economicamente interpretveis? 86,9 66,5

Fonte: todos os artigos completos publicados na American Economic Review nas dcadas de 1980 e
1990, conforme anlise de Ziliak e McCloskey (2008a).
83

3.2. Significncia estatstica nos artigos empricos: RBE 2008 - 2011

A amostra analisada constituiu-se dos artigos que utilizaram inferncia estatstica


publicados na Revista Brasileira de Economia, nos anos de 2008 a 2011. No total, foram
publicados 94 artigos, sendo que destes 84 eram trabalhos empricos e 10 tericos. Dos
trabalhos empricos, 67 utilizaram testes de inferncia estatstica, em especial, testes de
significncia, para fundamentar suas concluses estes ltimos foram os artigos
analisados. Os dados citados encontram-se resumidos na tabela de nmero 05.

Tabela 05 Artigos empricos x tericos na RBE 2008-2011


Classificao Empricos com Empricos sem Tericos Total
testes testes
Artigos 67 17 10 94
Percentual 71% 18% 11% 100%
Fonte: todos os artigos da Revista Brasileira de Economia, 2008-2011.

Os artigos empricos sem testes consistiram-se, em sua maioria, de trabalhos com


exerccios de anlise descritiva de dados, anlises histricas, bem como simulao com
modelos econmicos, tais como modelos de equilbrio geral dinmico estocstico,
modelos de equilbrio geral computvel entre outros.

Note que, mesmo considerando todas as publicaes no perodo, a amostra analisada


representa 71% dos trabalhos publicados. Ademais, dentro do universo de trabalhos
empricos, os artigos submetidos anlise representam cerca de 80% do total. Por
conseguinte, percebe-se que, ainda que se excluam todos aqueles artigos que se
enquadram no que foi discutido por Engsted (2009), o universo de anlise , de longe,
a maior parte dos trabalhos aplicados o que evidencia a relevncia do presente
estudo. Com relao ao tipo de anlise de dados utilizada nos artigos da amostra,
verificou-se que a maioria realizou anlise de sries temporais (42%), seguida de anlise
de dados em painel (34%) e, por fim, de corte transversal (24%). O resumo dos dados
pode ser visto na tabela de nmero 06.

Tabela 06 Tipo de anlise dos artigos publicados na RBE 2008-2011


Classificao Sries Temporais Painel Corte Transversal Total
Artigos 28 23 16 67
Percentual 42% 34% 24% 100%
Fonte: todos os artigos que utilizaram inferncia estatstica na Revista Brasileira de Economia 2008-
2011. Considerou-se o tipo de anlise de dados predominante para a classificao.
84

3.2.1. Os ajustes no questionrio

Os artigos objetos desta dissertao foram analisados segundo uma bateria de perguntas
baseadas principalmente em McCloskey e Ziliak (1996), Ziliak e McCloskey (2004a) e
Ziliak e McCloskey (2008a). Escolheu-se trabalhar com este modelo por ser o
questionrio pioneiro utilizado na cincia econmica, bem como por este j ter sido
aplicado a duas amostras, o que permitiria uma comparao, mesmo que imperfeita, dos
resultados obtidos. Ademais, por ser o trabalho de referncia sobre o assunto, possvel
que surveys futuros tambm o tomem como base, o que facilitaria comparaes
posteriores. Como exposto na seo anterior, o questionrio original dos autores era
composto das dezenove perguntas elencadas na tabela de nmero 04. No obstante,
antes de realizarmos a codificao de todos os artigos, tendo em vista possveis
redundncias e dificuldades de classificao como as apontadas por Wooldridge
(2004), Hoover e Siegler (2008a), Spanos (2008) e Cobb (2009) foi realizada anlise
prvia com a aplicao do questionrio integral em uma amostra piloto, com o intuito de
realizar ajustes, caso necessrio.

A avaliao dos artigos se mostrou deveras trabalhosa. Todavia, com relao


redundncia de perguntas aparentemente similares, verificou-se que tal crtica no se
aplica; antes disso, elas permitem maior flexibilidade de classificao e ajudam a
reduzir a subjetividade de codificao. Por exemplo, as questes de nmero 02, 03, 05,
10, 11, 12 e 13 decerto tratam de um mesmo tema: a preocupao com magnitudes.
Entretanto, um artigo que discute o tamanho dos efeitos estimados em seu trabalho
(questo 12) no necessariamente trar a discusso da literatura da rea sobre o tema
(questo 13) e pode tambm esquecer-se de apresentar as estatsticas descritivas
(questo 02). Por outro lado, um artigo que apresente as estatsticas descritivas (questo
02), e interprete cuidadosamente os coeficientes estimados (questo 05), pode no
discutir a magnitude dos efeitos encontrados em seu trabalho (questo 12). E assim por
diante. Tivssemos apenas uma questo genrica sobre magnitude para classificar os
artigos, a codificao estaria mais sujeita a variaes por conta de pequenas nuances. E,
diferentemente do que afirmam Hoover e Siegler (2008a), durante a aplicao do
questionrio ficou evidente que no possvel considerar questes sobre a utilizao de
formas economicamente interpretveis e sobre a interpretao cuidadosa dos
85

coeficientes como meras preferncias pessoais elas se mostraram fundamentais,


como ser visto nos exemplos que sero dados mais adiante.

Da mesma maneira, as questes referentes ao uso da significncia estatstica, de


nmeros 07, 15, 16 e 19, por exemplo, permitem maior flexibilidade na classificao
dos artigos. Isto ocorre porque, de fato, h trabalhos em que a significncia estatstica
aparece como o ponto principal quando primeiramente utilizada (questo 07) e, alm
disso, a palavra significante utilizada no decorrer do texto de maneira ambgua
(questo 19); entretanto, o autor preocupa-se em trabalhar outros argumentos alm da
significncia estatstica, recebendo sim para a questo 15. Ademais e o que mais
importante independentemente das respostas anteriores, a significncia estatstica
pode ter sido, ou no, o elemento decisivo do ponto de vista emprico do artigo. Note,
assim, que as questes no perguntam se os autores [...] confundem significncia
estatstica e econmica [...] na p.1, p.2, p.3 ... p. n [...] transformado um erro em vrios,
conforme colocaram Hoover e Siegler (2008a, p.05). Se todas as perguntas fossem
juntadas em apenas uma, casos como o citado acima seriam, na verdade, mais difceis
de serem codificados. Isso ficar mais claro com os exemplos trazidos na discusso das
questes.

J com relao s dificuldades de classificao ou ganho marginal pequeno com sua


codificao algumas questes foram excludas (ou substitudas). Antes de discutirmos
estas questes, muito importante, desde j, deixar claro que a inteno aqui no , de
forma alguma, criticar pessoalmente os autores dos trabalhos analisados. A inteno
expor prticas muito comuns e difundidas na profisso, j feitas inclusive pelo prprio
autor desta dissertao (CINELLI, 2010; 2011). Por conseguinte, a identidade dos
autores ser preservada tendo em vista que, na maior parte dos casos, a citao ou o
exemplo escolhido apenas um entre vrios semelhantes que tambm poderiam ter sido
elencados76. Igualmente, vale lembrar que no apenas por conta de um erro ou um
acerto citado que um artigo deve ser considerado bom ou ruim.

No que segue, os artigos analisados sero citados por numerao criada para referncia
desta dissertao, que no necessariamente guarda relao com a ordem ou ano de
publicao. Vejamos as questes excludas do questionrio final.

76
A fonte de alguma citao em particular ou a classificao do artigo sero fornecidas mediante
solicitao ao autor.
86

Q1) O artigo utiliza um nmero pequeno de observaes, de tal forma que


diferenas estatisticamente significantes no foram encontradas meramente por a
amostra ser grande?

A justificativa para este questionamento a de que, com amostras muito grandes,


praticamente qualquer coeficiente ser estatisticamente diferente de qualquer hiptese
pontual, justamente por se ter um menor erro padro amostral e poder se estimar com
maior preciso. Neste caso, portanto, usar a significncia estatstica da varivel como
fator decisivo de uma anlise ainda mais irrelevante. Sabe-se, de antemo, que
virtualmente todo coeficiente ser estatisticamente diferente de zero ou de
praticamente qualquer outro valor exato medida que .

Ziliak e McCloskey (1996, p.101-102) trazem o exemplo de um artigo publicado na


American Economic Review cuja amostra era de 34.414 casas e 46.004 pessoas;
entretanto, a despeito do grande nmero de observaes, o artigo se ancorou nos
padres usuais de significncia estatstica. Conforme lembram Ziliak e McCloskey
(2008a, p.67), [...] com amostras deste tamanho, uma varivel que economicamente
irrelevante aparecer como estatisticamente significante pela simples fora de um
grande N.

A relevncia desta pergunta que a princpio pode soar estranha, como manifestaram
Hoover e Siegler (2008) reside no fato de que se basear apenas na significncia
estatstica aos nveis usuais em uma situao de amostras enormes pode ser forte indcio
de confuso entre esta e a significncia econmica. Durante a aplicao na amostra
piloto, apenas um artigo apresentou amostra grande o suficiente para chamar a ateno.
Trata-se do artigo de nmero 10, que buscou verificar o efeito da liberalizao
comercial no crescimento da produtividade brasileira. Para tanto, os autores utilizaram
dados em painel da Pesquisa Industrial Anual do IBGE, com 2.072 firmas, de 1988 a
1998, totalizando 17.736 observaes. Porm, mesmo neste contexto de amostra grande,
o teste de significncia estatstica, aos nveis usuais, foi determinante na anlise dos
autores. J na amostra completa, verificaram-se nmeros de observaes ainda maiores,
como o caso do artigo de nmero 19, com 502.627. Apesar disso, a significncia
estatstica aos nveis usuais foi determinante nas anlises.

Nota-se, assim, que a essncia da pergunta pertinente. Todavia, apesar de em muitos


casos ser fcil determinar quando o tamanho da amostra grande, sem um completo
87

entendimento do tema e das circunstncias de cada trabalho analisado, o quo grande


uma amostra tem de ser para ser considerada grande pode ser difcil de julgar para
alguns temas, uma amostra de 1.000 ou mais observaes mais do que suficiente para
reduzir a preocupao com o erro amostral; para outros casos, 1.000 pode ser nmero
irrisrio. Deste modo, substituiu-se esta questo por uma mais abrangente: o artigo
discute o nvel de significncia adotado tendo em vista as circunstncias em que os
testes sero aplicados?. Esta redao incorpora tanto a preocupao inicial de Ziliak e
McCloskey, quanto todos os demais fatores que levariam os autores dos artigos a pensar
acerca do nvel de significncia adotado.

Q4) A hiptese nula adequada foi feita?

Esta questo um pouco mais delicada e pode ter uma interpretao mais subjetiva,
sujeita discordncia. H, decerto, casos claros de erro na formulao da hiptese nula.
Um exemplo o ponto j alertado por Gelman e Stern (2006), de alegar que dois
coeficientes so diferentes porque um estatisticamente significante e o outro no
neste caso, a hiptese nula adequada seria formular que os dois so iguais, e no que
cada um diferente de zero e depois compar-los. Isto pde ser observado no artigo de
nmero 02 (p. 31-32), que buscou verificar a sensibilidade dos investimentos das
empresas com aes negociadas na Bovespa ao seu fluxo de caixa.

J um ponto mais complexo com relao a qual deveria ser a hiptese nula e qual
deveria ser a hiptese alternativa a serem estabelecidas no teste. Ziliak e McCloskey
(1996, p.102) afirmam que comum colocar como nula aquela hiptese em que o
pesquisador acredita. Este posicionamento, como vimos, foi sugerido por Lehmann e
Romano (2008); todavia, como tambm vimos, alternativa contrria foi proposta por
Casella e Berger (2002). Nota-se, portanto, que no h consenso com relao forma de
estruturao da hiptese a ser testada. Logo, optou-se por excluir esta questo. Perceba
que sua excluso no prejudica o tema principal do trabalho, pois o abuso dos testes
de significncia estatstica tem ocorrido independentemente de como a hiptese nula
formulada.
88

Q6) O artigo evita reportar todos os testes ts e Fs ou erros-padro quando tal


informao irrelevante?

A inteno de Ziliak e McCloskey (1996, 2004a, 2008a) com esta questo era buscar
indcios de que o software economtrico esteja substituindo o julgamento do
pesquisador. Com o avano computacional, os softwares atuais calculam rotineiramente
todos os testes ts contra a hiptese nula de que os coeficientes sejam zero, mas nem por
isso estas informaes so relevantes para o problema. Mais recentemente, por exemplo,
Kramer (2011, p. 461-462) contabilizou a aplicao de testes nos artigos da German
Economic Review, totalizando 10.575 testes de significncia, cerca de 1.000 testes por
volume. Kramer (2011, p. 461), diante do resultado, endossou a constatao de Ziliak e
McCloskey (2008a, p.112) de que [...] testes t baratos, tornando-se cada vez mais
baratos com a reduo dos custos computacionais, tm, em equilbrio, um produto
marginal cientfico igual ao seu custo.

No obstante a inteno dos autores, em nossa amostra piloto tal prtica mostrou-se to
disseminada que acabou tornando-se difcil discernir um artigo que se preocupou, em
algum grau, em no reportar tudo, de um artigo que no se preocupou com a questo e
reportou todos os testes automaticamente. Dessa forma, excluiu-se esta questo do
questionrio final a ser aplicado para se obter maior parcimnia na codificao, sem
perdas relevantes na informao obtida.

Q14) O artigo evita escolher variveis para o modelo unicamente por meio de
significncia estatstica?

A excluso de uma varivel do modelo apenas por no obter significncia estatstica aos
nveis usualmente estabelecidos, sem levar em conta seus possveis efeitos, pode deix-
lo mal especificado e, consequentemente, as estimativas sero enviesadas. Por exemplo,
o artigo de nmero 01 (p.13) o fez, ao desconsiderar a anlise de outro modelo de
concorrncia por votos devido insignificncia estatstica das variveis:

[...] tambm foi considerada a incluso da diferena entre as taxas de


crescimento do produto estadual e nacional, com o intuito de testar se os
eleitores avaliam os governantes com base na performance econmica relativa,
em consonncia com os modelos de yardstick competition. Entretanto,
nenhuma dessas variveis apresentou significncia estatstica e, por este
motivo, foram excludas dos modelos.
89

Tambm admitiram terem feito o procedimento os artigos de nmero, 03, 30, 34, 39, 49,
59 e 60. importante mencionar que alguns destes trabalhos utilizaram explicitamente
uma abordagem general-to-specific, ou similar, para determinar a quantidade de
defasagens das variveis em sua regresso. Evidentemente que esta se trata de
abordagem qualitativa e filosoficamente diferente de uma de excluso de varivel ad-
hoc (desde que devidamente ajustados os nveis de significncia) e, assim, poderamos
no penalizar o procedimento.

O problema principal nesta questo foi, na verdade, a confiana na sua apurao: como
visto, apenas podemos saber se o autor realizou tal procedimento se este admitir
explicitamente em seu texto. Sabe-se que a busca por variveis significantes, ou
especificaes que as tornem significantes, bastante comum77; mas, nem todos que
realizam esta busca esclarecem o que foi feito no artigo acabaramos, desta maneira,
contabilizando apenas quem foi honesto e no a extenso da prtica. Destarte, o
indicador que teramos seria bastante inexato, e optou-se por excluir esta questo.

Q17) O artigo utiliza simulao para verificar se os coeficientes so razoveis?

Houve bastante dificuldade de verificar este ponto. Conforme Ziliak e McCloskey


(2008a), a inteno no era ser rigoroso, mas apenas verificar se os autores fizeram
exerccios de simulao, quaisquer que fossem, para averiguar a razoabilidade das
estimativas. Todavia, como pertinentemente colocou Wooldridge (2004, p.577-578),
esta pergunta no parece ser to justa com muitos artigos, tendo em vista que pode no
ser trivial pensar em como realizar uma simulao. Dessa forma, optou-se por exclu-la
do questionrio final.

Q18) Nas concluses ou consideraes finais, a significncia estatstica


separada da significncia econmica, poltica ou cientfica?

As questes de nmero 07, 15, 16 e 19 se mostraram suficientes para classificar os


artigos quanto ao foco na significncia estatstica. Na maior parte das vezes, as
concluses ou consideraes finais so um pequeno resumo do artigo e esta questo

77
Como afirmou Wooldridge (2006, p.612), [...] virtualmente todos os pesquisadores examinam vrios
modelos antes de encontrar o melhor deles. Ou, ainda, Goldberger (1989, p.153) [...] voc l um
artigo e voc sabe que houve uma muita pesca e voc ctico quanto aos resultados reportados. Vide
tambm Abelson (1995), Leamer (1983) ou Kramer (2011).
90

agregaria pouco aos principais resultados. Assim, optou-se por exclu-la para a
parcimnia da codificao.

***

Como os prprios autores enfatizam (2008a, p. 73), o objetivo do questionrio no ser


uma descrio completa da melhor prtica em trabalhos empricos; antes de tudo, busca-
se focar nas perguntas que tratam da preocupao com a relevncia econmica das
estimaes, isto , da preocupao com as magnitudes e adequao econmica dos
modelos estimados; e, principalmente, identificar se a anlise de inferncia estatstica e
o julgamento cientfico do pesquisador esto sendo substitudos por um ritual.

Alm da excluso das questes mencionadas anteriormente, foram includas mais duas
que os prprios Ziliak e McCloskey (2008a, p.66) se arrependeram de no terem feito
em seu questionrio original uma referente utilizao de intervalos de confiana e
outra referente preocupao com erros de especificao (ou adequao estatstica).
Ficamos, assim, com dezesseis questes, as quais, buscando tornar a exposio mais
clara, foram separadas em dois grandes grupos, com oito questes em cada. O primeiro
grupo refere-se s perguntas mais intimamente ligadas preocupao com magnitudes.
So elas (o nmero em parnteses se refere numerao original de Ziliak e
McCloskey):

GRUPO A Questes de Magnitude

A1 (Q2) As unidades e estatsticas descritivas das variveis so devidamente apresentadas?

A2 (Q3) Os coeficientes so apresentados em elasticidades ou outra forma relevante para o


problema, consistente com a teoria econmica, de forma que os leitores possam discernir o
impacto econmico das variveis?

A3 (Q5) Os coeficientes so cuidadosamente interpretados?

A4 (Q12) O artigo discute o tamanho dos coeficientes em algum momento?

A5 (Q13) O artigo discute a conversa cientfica na qual um parmetro seria considerado


grande ou pequeno?

A6 (Q10) O artigo evita a econometria do asterisco?

A7 (Q11) O artigo evita a econometria do sinal?

A8 (includa) O artigo constri os intervalos de confiana, utilizando-os para interpretar a


significncia econmica e no meramente como substituto da significncia estatstica?
91

J o segundo grupo aborda as perguntas que correspondem mais diretamente ao


exerccio automtico de um ritual de inferncia estatstica, sem ponderao acerca das
circunstncias da aplicao e sem se dar conta de sua extenso como argumento
emprico. So elas:

GRUPO B Culto da significncia estatstica

B1 (substitui Q1) O artigo discute o nvel de significncia adotado tendo em vista as


circunstncias em que os testes sero aplicados?

B2 (Q8) O artigo menciona o poder do teste?

B2.1 (Q9) Caso o artigo mencione o poder do teste, faz algo com relao a isso?

B3 (Q7) A significncia estatstica, quando primeiramente utilizada, apenas um entre outros


critrios de importncia?

B4 (Q15) Depois do ponto principal do artigo, este evita usar a significncia estatstica como
o critrio de importncia cientfica?

B5 (Q16) O artigo considera mais do que a significncia estatstica para um argumento


decisivo do ponto de vista emprico?

B6 (Q19) O artigo evita usar a palavra significante em sentidos ambguos, como


significncia estatstica e influncia econmica?

B7 (includa) O artigo demonstra preocupao com a especificao ou com a adequao


estatstica do modelo?

Cabe esclarecer que no analisaremos se os modelos estavam estatisticamente


adequados para a realizao dos testes de significncia, conforme sugerido por Spanos
(2008) e Kramer (2011). Tal anlise demandaria a base de dados dos autores e, muito
provavelmente, conforme j constataram Kramer et alii (1985), revelaria situao
ainda pior. Partiremos do pressuposto de que se o autor do artigo analisado faz
inferncia estatstica porque acredita que isto seja adequado na situao da anlise.
Entretanto, como exposto, a questo B7 refere-se manifestao do autor com relao
adequao estatstica do modelo utilizado.

Os critrios escolhidos para as questes, conforme apontam Ziliak e McCloskey (2008a,


p.66), no so, em princpio, controversos. So padres que seriam considerados
minimamente razoveis por inclusive aqueles que no concordam com a virtual
inutilidade dos testes de significncia estatstica na forma como esto sendo aplicados
atualmente. Todavia, estas so codificaes que envolvem uma escolha dicotmica
entre sim e no e, evidentemente, sempre haver alguma subjetividade. Como
colocaram Ziliak e McCloskey (2008a, p.66) [...] outro economista pode codificar este
92

ou aquele artigo de uma maneira um pouco diferente. Ns no achamos que isso ir


afetar de maneira relevante nossas descobertas [...]. Aps a concluso da anlise dos
artigos da RBE, este trabalho conclui de maneira semelhante a prtica muito
disseminada para que os principais resultados sejam afetados por algumas (ou at
muitas) discordncias de codificao.

Ainda assim, para evitar crticas como as formuladas por Hoover e Siegler (2008) sobre
uma possvel subjetividade exagerada na anlise das questes, cada uma delas ser
discutida, buscando-se trazer exemplos ilustrativos da amostra analisada. Desta forma,
discordncias quanto s classificaes podem ser esclarecidas e debatidas com maior
transparncia. Iniciemos pelo Grupo A.

3.2.2. GRUPO A Questes de magnitude

A1 (Q2) As unidades e estatsticas descritivas das variveis so devidamente


apresentadas?

Se o leitor do artigo no sabe quais so as unidades de medida das variveis,


simplesmente impossvel interpretar o significado dos coeficientes estimados. No
obstante, a omisso ou confuso sobre as unidades de medida costuma aparecer em
artigos publicados em revistas renomadas, como a j citada American Economic
Review. Por outro lado, a apresentao de algumas estatsticas descritivas tambm
importante para se julgar a relevncia dos coeficientes; afinal, o efeito estimado muito
ou pouco considerando a amostra analisada? O coeficiente plausvel? Essas perguntas
so mais fceis de serem respondidas tendo alguns parmetros para comparao, como
medidas de centralidade, disperso ou assimetria.

Desse modo, ignorar tanto a unidade de medida quanto as estatsticas descritivas pode
ser indcio de um descuido com a anlise quantitativa e econmica do problema em
outras palavras, se o autor sequer apresenta algumas estatsticas descritivas de seus
dados, provvel que no esteja dando tanta ateno anlise da magnitude dos efeitos
estimados. A anlise no foi rigorosa neste quesito, bastava apresentar algumas mdias
ou outras medidas que o autor julgasse relevantes para receber sim. Todavia, em
nossa amostra, cerca de 40% dos artigos no as apresentaram.
93

Como um exemplo de trabalho que apresentou suas estatsticas descritivas de maneira


interessante, temos o artigo de nmero 05. Os autores buscavam evidncias acerca da
convergncia de renda entre os estados brasileiros, tomando como referncia o estado
de So Paulo. As principais caractersticas de seus dados foram resumidas com Box Plot
alis, este foi o nico artigo que utilizou a tcnica, que permite em uma nica imagem
passar uma ideia da disperso, assimetria, outliers entre outras caractersticas dos dados.

Alguns artigos trouxeram seo especfica para a descrio dos dados e apresentao de
algumas estatsticas descritivas, o que se mostrou prtica interessante para facilitar a
leitura e o entendimento das variveis78. Entre eles podemos citar, por exemplo, o artigo
de nmero 51, que buscou mensurar o impacto das alquotas do imposto de importao
sobre a evaso fiscal nas importaes oriundas dos Estados Unidos, cuja seo 3
dedicou-se apresentao dos dados e de suas estatsticas descritivas, resumidas em
uma tabela. O artigo 58, que versou sobre os determinantes do milagre econmico
brasileiro, tambm dedicou curta seo, antes dos resultados economtricos,
apresentao das estatsticas descritivas. Citemos ainda o artigo de nmero 64, que
testou o modelo de Mincer para o Brasil. O trabalho dedicou seo para a explicao do
desenho amostral e exposio de algumas estatsticas descritivas, alm de elencar vrias
tabelas mais completas no apndice.

Outro exemplo mais simples, mas no menos eficiente, o artigo de nmero 09, que
buscou testar trs teorias diferentes sobre o comportamento do consumo (teoria do
comportamento otimizador, teoria da restrio de crdito ou miopia dos agentes) para
a realidade brasileira. O autor apresentou grficos dos logaritmos das sries temporais
utilizadas e, em uma seo em que buscava compreender os resultados economtricos,
apresentou um grfico de disperso entre consumo e renda.

A2 (Q3) Os coeficientes so apresentados em elasticidades ou outra forma


relevante para o problema, consistente com a teoria econmica, de forma que os
leitores possam discernir o impacto econmico das variveis?

Muitas vezes, para se ter ideia da relevncia do impacto das variveis sobre o problema
de interesse, preciso apresent-las em maneiras diferentes de sua unidade de medida

78
Pode parecer algo trivial, mas em alguns artigos sequer foi possvel definir a quantidade de
observaes (e consequentemente os graus de liberdade) utilizada nas regresses. Isto tambm foi
constatado no levantamento de Keuzenkamp e Magnus (1995) no Journal of Econometrics. Tambm
houve casos de no se conseguir distinguir a origem de alguns dados.
94

natural. Uma dessas formas, por exemplo, a elasticidade, bastante utilizada pelos
economistas. Outra sada, quando as dimenses das variveis so de difcil
interpretao, pode ser a utilizao dos coeficientes beta ou padronizados. Ou, ainda,
podem-se dar exemplos ilustrativos quando, mesmo apresentados em elasticidades ou
outras formas, os efeitos no sejam diretamente bvios.

Neste quesito, a maior parte dos trabalhos recebeu sim. Um trabalho que no
apresentou os coeficientes de forma fcil para a interpretao foi o artigo de nmero 01,
que, buscando verificar os determinantes dos votos nas eleies estaduais brasileiras,
apresentou, dentre outras, uma regresso logit (tabela 4), mas no calculou efeitos
marginais ou outras formas de fcil interpretao na realidade, este foi um problema
para quase todos os artigos que trabalharam com modelos probit ou logit. Outro
trabalho que pode ilustrar esta questo artigo de nmero 04, que amplia o modelo de
crescimento de Solow introduzindo a qualidade institucional como varivel explicativa.
Os autores criam um ndice de desempenho institucional que uma mdia de dois
outros ndices, um de polticas slidas e outro de abertura econmica. Assim, o
significado do coeficiente da varivel no auto evidente e exerccios que facilitassem
o discernimento do impacto econmico da varivel para o leitor seriam bem-vindos.

A3 (Q5) Os coeficientes so cuidadosamente interpretados?

Diferentemente da questo trs, que apenas requeria a apresentao do coeficiente em


formas em que o discernimento de seu impacto econmico fosse mais fcil como em
elasticidades esta questo exige que o autor interprete em seu texto os coeficientes
obtidos frente amostra que obtm. Eles fazem sentido? Como se d seu impacto?
Deixar de se atentar ao significado dos coeficientes , de fato, indcio de que no h
muita preocupao com a magnitude dos efeitos estudados, mas principalmente com
encontrar ou no a significncia estatstica aos nveis usuais.

Iniciemos com uma exceo, que foi o artigo de nmero 54. O trabalho buscou verificar
alguns fatos estilizados sobre choques da poltica monetria no Brasil. Em certo
momento, o artigo justificou porque no iria interpretar alguns dos coeficientes
estimados:

[...] ns no vamos apresentar e discutir as estimativas dos parmetros do


modelo devido s dificuldades associadas sua interpretao, especialmente
as estimativas da funo de reao do banco central. Ver Christiano et alii.
95

(1999) para uma discusso sobre as armadilhas na interpretao de regras de


poltica monetria estimadas (p.137).

Evidentemente que os autores demonstraram preocupao com o tema, mesmo que esta
preocupao os tenha levado a no interpretar o coeficiente. Deste modo, o artigo
recebeu sim.

Vejamos alguns trabalhos que interpretaram seus coeficientes. O artigo de nmero 03


buscou verificar se o efeito pass-through do cmbio para a taxa de inflao no Brasil
afetado pelo ambiente de alta ou baixa inflao. Ao estimar as equaes, o artigo (p.52)
frisa o significado dos coeficientes apresentados, como, por exemplo: [...] podemos
interpretar os coeficientes como multiplicadores: uma depreciao, digamos, de 10%
resultaria em 0,5% de inflao no prximo trimestre, e em inflao de 2,1% no longo
prazo. J o artigo de nmero 35 buscou verificar o impacto de choques de demanda e
de oferta sobre a produo e preos agrcolas. Ao apresentar seus resultados, os autores
so claros (p.49):

[...] medimos que um aumento de 10% no rendimento iria - no longo prazo -


elevar a produo em 4,8% e reduzir os preos em 1,6%, de modo que o
rendimento agrcola acabaria aumentando em torno de 3,1%. Isto,
obviamente, estimula o uso contnuo de novas tecnologias de
aperfeioamento da produo [...] ns medimos que uma desvalorizao de
10% na taxa de cmbio iria - no longo prazo - aumentar a produo agrcola
em 3,7%.

O artigo de nmero 04, por sua vez, no interpreta o significado do principal coeficiente
de sua estimao, referente ao impacto da qualidade institucional no crescimento
econmico. Em uma passagem, dizem os autores [...] todos os sinais esto iguais aos
esperados pela teoria, agora com a influncia expressiva das instituies (1,8923) (p.
62). Perceba que o nmero citado, 1,8923, o coeficiente estimado para a varivel de
interesse. Mas o que significa 1,8923? Os autores no interpretam o nmero. Mais a
frente, ao comparar a estimativa do coeficiente de variveis instrumentais (2,68524)
com a estimativa de mnimos quadrados ordinrios (1,89236), os autores simplesmente
afirmam [...] o impacto das instituies maior levando em considerao outros
fatores como histricos e geogrficos (p.64).

Tambm interessante citar aqui o artigo de nmero 06 (p.170-173), pois demonstra


como a simples meno do efeito no , em muitos casos, uma interpretao cuidadosa
do coeficiente estimado. Os autores buscam medir o impacto que o Sistema de
96

Seguridade Social Rural tem sobre a pobreza rural e estimam a primeira diferena da
seguinte equao:

[ ] [ ] [ ] [ ] [ ] (20)
[ ] [ ]

Onde,

[...] representa o k-simo ndice de pobreza, o


produto interno bruto agropecurio per capita, o ndice de Gini,
so os valores per capita dos benefcios recebidos pelos aposentados,
so os anos mdios de estudo dos indivduos e o nmero
de pessoas desocupadas com mais de 10 anos respectivamente, os efeitos
fixos no observveis dos indivduos e o erro idiossincrtico. Os
subscritos e se referem, respectivamente, a regio rural do i-simo estado
no ano t.

Como os prprios autores estabeleceram um modelo dinmico, uma alterao


permanente em alguma das variveis explicativas, digamos, um aumento permanente de
10% sobre os anos mdios de estudo, tem dois impactos: o impacto imediato em ,
medido pelo coeficiente de elasticidade e um impacto de longo prazo tendo em vista
o efeito da mudana de em deste ltimo em e assim sucessivamente. Dessa
forma, uma interpretao mais cuidadosa dos efeitos estimados teria de informar o leitor
sobre esta diferena e, caso fosse irrelevante para o problema, apontar o porqu.
Entretanto, os autores se atentam somente aos valores estimados de . Alm disso, os
coeficientes representam efeitos ceteris paribus. Isto , , por exemplo, mede o efeito
da educao sobre a pobreza mantendo-se tanto o PIB, quanto o desemprego, quanto a
desigualdade de renda constantes. Ora, caberia aqui perguntar como um aumento da
educao mdia traria uma reduo na pobreza sem: (i) aumentar a produo; (ii)
reduzir a desigualdade de renda; ou (iii) aumentar o emprego? Por que canais se daria
este efeito79? Assim, por estes motivos, o trabalho recebeu no nesta questo.

79
Um exemplo simples para ilustrar esta questo o seguinte: se rodarmos um modelo de preo hednico
dos preos das casas contra o nmero de cmodos, provvel que o coeficiente seja positivo: quanto mais
cmodos, maiores os preos. Todavia, se rodarmos a regresso contra (i) o nmero de cmodos e (ii) o
tamanho do imvel, provvel que o coeficiente seja negativo: dado o tamanho fixo do imvel, quanto
maior o nmero de divises, menores os tamanhos dos quartos, e isso pode prejudicar o valor do imvel.
Note que uma interpretao cuidadosa do coeficiente da regresso teria de explicar porque o coeficiente
negativo neste caso. Analogamente, o valor medido pelos autores o efeito da educao considerando
PIB, desemprego e desigualdade constantes. O valor foi positivo, o que o senso comum e talvez por
isso no tenha sido interpretado mais a fundo. Note, entretanto, que o valor do nmero de cmodos com o
tamanho do imvel fixo tambm poderia sair positivo e da caberia a pergunta: como mais cmodos,
97

A4 (Q12) O artigo discute o tamanho dos coeficientes em algum momento?

Alm de reportar o coeficiente de forma economicamente mais palatvel e interpretar o


impacto da varivel cuidadosamente, o artigo discute o tamanho do coeficiente e sua
significncia econmica? O autor diz ao leitor do artigo por que aquele coeficiente
estimado importante? O artigo explica por que algumas variveis so economicamente
relevantes enquanto outras no so to importantes assim, fundamentando-se no
tamanho dos efeitos encontrados? So essas as perguntas que deveriam ser respondidas
nesta questo.

Por exemplo, o artigo pode estimar uma funo log-log, e apresentar o coeficiente
0,001, dizendo que se trata da elasticidade-preo do produto, ressaltando que uma
variao de 1% na varivel explicativa causa uma variao de 0,001% na varivel
dependente. Desse modo, receberia sim para a questo A2 e sim para a questo A3.
Contudo, se o artigo no explicar se o tamanho deste efeito grande ou pequeno,
importante ou negligencivel, receber no na presente questo, a despeito de ter
imprimido o valor do coeficiente no papel o importante aqui no apresentar o valor,
e sim discutir esse valor. Importante ressaltar que, caso a magnitude do coeficiente
fosse irrelevante para o estudo (o que dificilmente o caso), e isso tivesse sido
explicitado no texto com a devida justificativa, o trabalho tambm receberia sim.

Citemos primeiramente alguns trabalhos que fizeram a devida discusso. O artigo de


nmero 03, como vimos, apresenta as magnitudes dos coeficientes de maneira clara e
ressalta o impacto econmico do cmbio sobre a inflao, que depende do contexto
inflacionrio. Mais ainda, o autor contextualiza os resultados afirmando que

[...] esto de acordo com a literatura, sugerindo algum grau de influncia do


ambiente inflacionrio sobre o pass-through da taxa de cmbio no Brasil, que
estimamos variar no longo prazo em cerca de 8% a 40%, dependendo do nvel
de inflao. Mesmo que este resultado no exclua outras possveis explicaes
para o declnio do pass-through da taxa de cmbio observado no Brasil na
dcada de 1990, ele sugere que o ambiente de menor inflao do perodo teve
um papel importante em tal diminuio, e, portanto, foi erradamente
negligenciada (p. 50).

Isto , o tamanho do efeito estimado discutido e o autor apresenta por que acredita ser
importante, tendo por base a literatura da rea.

mantendo o tamanho fixo, valorizariam o imvel? Da mesma forma, cabe perguntar: como a educao
por si s reduziria a pobreza mantendo os demais controles fixos?
98

Outro texto que faz esta discusso o artigo de nmero 07, que tambm versa sobre o
pass-through da taxa de cmbio na inflao brasileira. Os autores apresentam em que
sentido suas estimativas e seus efeitos importam para a prtica econmica, em
termos de magnitude do repasse inflacionrio, como na seguinte passagem (p. 239):

[...] no segundo trimestre de 1999 (imediatamente aps a flutuao cambial),


por exemplo, apesar da depreciao de 39% da taxa de cmbio no trimestre
anterior, a inflao livre foi de apenas 0,49% e a inflao situou-se em 1,05%,
ambas abaixo dos valores dos trimestres anteriores. Nesse perodo, o hiato foi
abaixo do limite estimado (desacelerao econmica), o que implica, de
acordo com o modelo, um baixo repasse para a inflao. As depreciaes no
terceiro trimestre de 2000 e durante 2001, por sua vez, foram acompanhadas
por aumentos maiores na taxa de inflao. Naquele perodo, o hiato foi mais
elevado do que o limiar estimado.

Uma discusso mais simples e direta foi do artigo de nmero 42, que buscou calcular a
alquota de contribuio de equilbrio atuarial do para a previdncia brasileira. Ao
realizar suas estimativas, os autores concluem que (p.174),

[...] a alquota de 31%, ao contrrio do que acontecia at a aprovao da


legislao do fator previdencirio que diminuiu o valor da aposentadoria
em relao s regras anteriormente vigentes parece ser relativamente
elevada.

Outro exemplo interessante o artigo de nmero 64 que, j no resumo do trabalho,


apresenta a discusso da magnitude dos resultados encontrados (p.407, grifo nosso):

[...] ao relaxar tais hipteses, estimamos as taxas internas de retorno de


Becker (1975) e obtemos vieses que chegaram a 14 pontos percentuais em
relao ao coeficiente "minceriano". Assim, a magnitude destes retornos
bem menor do que os estudos baseados no modelo de Mincer.

E este foco permanece no decorrer do texto: o autor mostra como os modelos anteriores,
baseados em Mincer, superestimavam em grande montante os retornos educacionais.

Podemos citar ainda o artigo de nmero 56. Os autores estimaram que os pases que
adotaram o regime de metas de inflao tiveram menores custos de desinflao, em
termos de pontos percentuais do PIB, e julgaram o resultado encontrado como
economicamente relevante (p. 185, grifo nosso):

[...] neste artigo assumimos a tarefa de avaliar se metas de inflao so


importantes para reduzir os custos da desinflao. Nossos resultados sugerem
que sim. A julgar pelo coeficiente de nossa especificao mais preferida, os
pases que adotaram metas de inflao pouparam cerca de 4 pontos
percentuais no PIB (nvel) em relao sua tendncia para cada ponto de
queda da inflao. Este um efeito economicamente importante. Alm
disso, a adio de uma dummy de mercado emergente interativa para o nosso
modelo revela que os benefcios das metas de inflao parecem ser maiores
para as economias desenvolvidas.
99

Citemos agora alguns trabalhos que no fizeram a devida discusso. O artigo de


nmero 08 (p. 254) exemplifica a mera reproduo dos valores encontrados na
estimao, sem qualquer discusso acerca da relevncia da magnitude dos efeitos. Sobre
os possveis determinantes de as mulheres investirem em aes, os autores apenas
transcrevem os resultados de sua tabela da estimao Probit:

[...] o fator educao (EDUC) tambm estatisticamente significante. O sinal


positivo e quanto maior o nvel de escolaridade, maior a probabilidade de
investir em aes. H 64,53% de probabilidade de mulheres com ps-
graduao investirem em aes. A varivel RELIG estatisticamente
significante e com sinal positivo. Mulheres que interagem num grupo formado
pela mesma religio apresentam 37.64% maior probabilidade de investir em
aes. A interao com vizinhos, grupos e associaes ou clubes e academias
no so estatisticamente significantes, conforme resultados encontrados por
Hong et alii (2004). A varivel DEPRE estatisticamente significante e com
sinal negativo. Mulheres que responderam sentir algum sintoma de depresso
diminuem a probabilidade de investir em aes em 11,13%,

Cabe notar tambm o descuido na interpretao dos efeitos, que so apresentados como
probabilidades incondicionais, o que ensejou o no na questo A3, apesar de o artigo
ter obtido o sim na questo A2.

Exemplo semelhante pde ser visto no artigo de nmero 16. O trabalho buscou medir a
eficcia das intervenes do Banco Central sobre a volatilidade cambial. Em uma
passagem, os autores afirmam que (p.84-85):

[...] o nico instrumento de interveno que afetou a volatilidade da taxa de


cmbio nominal foi a interveno via ttulos cambiais, cujo valor foi
significativo ao nvel de 10%. Seu coeficiente negativo (igual a 0.000165),
indicando uma reduo da varincia condicional da taxa de cmbio nominal.

Note que o valor estimado (0.000165) no discutido. Temos tambm o artigo de


nmero 21 (p. 188) que buscava verificar a relao entre a distribuio dos rendimentos
do trabalho e a escolaridade dos pais dos trabalhadores. Os autores apresentam, em
vrios momentos, os coeficientes estimados, mas no os discute. Por exemplo:

[...] diferena observada entre o logaritmo da mdia de rendimentos para


indivduos com mes mais escolarizadas e trabalhadores cujas mes no
alcanaram 4 anos de estudo igual a 1,19. De acordo com o resultado da
decomposio, diferenas nas caractersticas entre indivduos nos dois grupos
so responsveis pela variao em 0,80, enquanto 0,39 do hiato de
rendimentos pode ser atribudo a diferenas nos coeficientes estimados. A
parcela correspondente a diferena entre fatores no-observados prxima de
zero. J a diferena observada entre o logaritmo dos rendimentos dos
trabalhadores com mes mais escolarizadas e aqueles cujas mes
completaram entre 4 e 7 anos de estudo igual a 0,55. Nesse caso, a
diferena de 0,43 atribuda s caractersticas dos indivduos nos dois
grupos, enquanto as diferenas nos coeficientes so responsveis por 0,12.
Mais uma vez, a diferena nos fatores no-observados se mostra irrelevante.
100

A5 (Q13) O artigo discute a conversa cientfica na qual um parmetro seria


considerado grande ou pequeno?

Nesta questo, o artigo deveria apresentar a literatura pertinente sobre o assunto e a


discusso cientfica sobre os efeitos esperados; elencar o debate prvio sobre a
relevncia ou irrelevncia das relaes que busca encontrar, frisando magnitudes.
Todavia, caso o artigo mencionasse que no h estudo quantitativo prvio acerca do
tema, receberia sim nesta questo por justamente abrir precedente na literatura de sua
rea. De fato, este foi o caso do artigo de nmero 03 (p.50, grifo nosso) quando
afirmou: [...] com que extenso um ambiente de menor inflao contribuiu para este
declnio [do pass-through cambial] uma questo que ainda precisa ser investigada.
Perceba que o autor frisa uma questo de magnitude, isto , o que interessa no saber
apenas se a inflao influencia o pass-through, mas principalmente quanto. Temos
ainda o artigo de nmero 50, que ao avaliar o grau de desigualdade educacional no
Brasil, constatou que

[...] surpreendentemente, at onde vai nosso conhecimento, nenhum estudo


deste tipo parece ter sido feito para o Brasil. Nosso objetivo neste trabalho
contribuir para preencher esta lacuna: ns fornecemos uma avaliao da
desigualdade de escolaridade no Brasil, utilizando diferentes indicadores, tais
como o coeficiente de Gini da educao, o desvio padro da educao e do
nmero mdio de anos de escolaridade (p.32, grifo nosso).

Podemos citar tambm o artigo de nmero 51, que constatou no existir trabalho que
estimasse a magnitude da evaso fiscal no imposto de importao:

[...] embora no existam, a nosso conhecimento, trabalhos que estimam a


magnitude da evaso do imposto de importao, razovel supor que o
sistema tarifrio, inserido no catico sistema tributrio nacional, presta-se
bem sonegao, como sugerem notcias freqentes na imprensa,
envolvendo grandes importadores, que, supostamente, teriam sido flagrados
praticando evaso [...] o objetivo desse trabalho , pois, investigar o impacto
das tarifas sobre a evaso fiscal nas importaes brasileiras oriundas dos
Estados Unidos da Amrica (p.79).

O artigo de nmero 07, por sua vez, alm de ter discutido a magnitude das estimativas e
sua importncia, tambm trouxe exemplos da literatura que ajudariam o leitor a colocar
as estimativas em perspectiva. Ao encontrarem uma diferena de grande magnitude
entre o pass-through do cmbio para a inflao em perodos de baixa volatilidade e alta
volatilidade cambial, de 80% para 7% respectivamente, os autores trazem dois trabalhos
que tambm encontram mudanas drsticas. Conforme se l na pgina 239,

[...] Muinhos e Alves (2003), por exemplo, encontraram uma reduo de


coeficiente de 51% para 6% aps a mudana no regime cambial, e
101

Albuquerque e Portugal (2005), utilizando um modelo de filtro de Kalman,


tm valores estimados de cerca de 42 % e 4%, respectivamente .

O artigo de nmero 11 (p. 301) igualmente compara os valores estimados em sua


pesquisa com a literatura internacional da rea:

[...] os coeficientes estimados para A1 e A2 sugerem que o fator de desconto


de 0,69, menor do que o de 0,92 encontrado por Blanchard e Gali (2007) para a
economia dos EUA. O valor mais baixo explica-se pelo fato de que a economia
brasileira tem tido uma das maiores taxas de juros real no mundo. A economia
dos EUA, por outro lado, est entre os pases com menor taxa de juros real .

Ou ainda, aps encontrar a rigidez salarial de 92% para o Brasil, valor que afirmam ser
prximo ao calibrado para a economia americana no trabalho de Blanchard e Gali que
foi utilizado como referncia os autores discutem o resultado frente a outros trabalhos
da rea, afirmando que o dado

[...] est de acordo com Camargo e Reis (2007), que argumentam que a recente
estabilizao da inflao aumentou a rigidez do salrio real, porque a inflao
permite uma maior flexibilidade para o salrio real em situaes onde o salrio
nominal no est legalmente autorizado a ser reduzido. Resultados por
Arbache e De Negri (2004) e Orellano et alii. (2009), utilizando micro-dados,
tambm sugerem que a estrutura salarial brasileira rgida e insensvel ao ciclo
econmico.

Um bom exemplo a reviso encontrada no artigo de nmero 44, que tratou sobre
urbanizao e diferena de rendimentos, utilizando casos brasileiros. Os autores trazem
as estimativas encontradas na evidncia internacional:

[...] Acemoglu et alii. (2002) mostram a relao entre urbanizao e renda por
meio de regresses do logaritmo natural da renda per capita em funo da
taxa de urbanizao. Os resultados encontrados apontam que, em 1995, um
pas com uma taxa de urbanizao 10 pontos percentuais superior tinha, em
mdia, uma renda per capita 43% mais elevada. Os autores fazem, ainda, um
exerccio emprico, a partir de dados histricos, considerando um painel para
diferentes pases no perodo de 1750 a 1913, incluindo dummies de pases e
perodo. Nesse caso, um pas com taxa de urbanizao 10 pontos percentuais
mais elevada, tinha, em mdia, uma renda per capita 30% maior. [...] Glaeser
and Mare (2001) encontram um prmio salarial mdio de 24,9%, controlando
para caractersticas individuais, para aqueles que residem em reas
densamente povoadas. Quando incluem efeitos fixos para cada indivduo [...]
as estimativas de prmio salarial nas grandes cidades ficam em torno de 10,9
e 4,5%, dependendo da base de dados utilizada.

Todavia, vale mencionar que, infelizmente, este mesmo artigo pouco discutiu os
prprios valores encontrados, recebendo no na questo anterior, e priorizou a
significncia estatstica e a direo dos efeitos como argumento emprico, recebendo
no na questo B5.
102

Outro bom exemplo retirado do artigo de nmero 20 (p.150, grifo nosso), que busca
identificar qual o peso que os consumidores que utilizem uma regra de comportamento
rule of thumb tm na economia. Revisando a literatura da rea, o autor menciona que

[...] o debate sobre a importncia quantitativa do comportamento rule of


thumb est longe de ser resolvido. Alguns estudos sugerem que
consumidores rule of thumb respondem por uma parcela grande da renda
disponvel. Campbell e Mankiw (1989, 1990) mostram que aproximadamente
50% da renda disponvel de consumidores rule of thumb.

O artigo tambm cita outros estudos que encontram uma importncia quantitativa para o
rule of thumb, com valores em torno de 30% a 60%; por outro lado, haveria tambm
aqueles trabalhos que no encontram participao to relevante, com estimativas de
15% a 23% (p.157). Assim, no decorrer do texto, o artigo de nmero 20 compara suas
estimativas com a literatura elencada (p.157, grifo nosso):

[...] tanto as estimativas por OLS quanto por IV sugerem que algo em torno
de 70% a 80% da renda disponvel de domiclios rule of thumb [...] esses
valores so consideravelmente mais elevados do que o que foi encontrado
anteriormente na literatura.

Citemos ainda o artigo de nmero 64, que em momentos do texto compara os resultados
de suas estimativas da taxa de retorno da educao no Brasil com os obtidos na
literatura, como na seguinte passagem (p.422):.

[...] destacamos ainda que as TIRs da abordagem dos anos de estudo so


prximas das obtidas por Barbosa Filho e Pessoa (2008), com exceo do
ginasial e do superior que diferiram em maior magnitude. Alm disso,
apresentam alguma semelhana com os estudos baseados no modelo de
Mincer, como Blom e Verner (2001), pois estes autores obtiveram retornos
do primrio e ginsio bem menores em relao ao secundrio e superior.

Tratemos agora de trabalhos que trouxeram uma discusso da literatura de seu tema,
mas sem qualquer meno magnitude, recebendo, portanto, no. Lembre-se que,
como vimos na seo 2.1.1., no basta elencar se um artigo anterior constatou ou no a
significncia estatstica de uma varivel, ou apenas elencar a direo do efeito estimado,
pois isto pode ser bastante enganoso. A reviso feita pelo artigo de nmero 06 (p.162,
grifo nosso) preocupou-se apenas com o aspecto qualitativo, sem fornecer bases para
uma comparao quantitativa dos resultados que foram obtidos, como na seguinte
passagem:

[...] Hoffmann (2006), por exemplo, verificou que as aposentadorias e


penses pagas pelo governo federal no Brasil constituem um freio para a
reduo da pobreza, pois no perodo 1998-2005 os efeitos das aposentadorias
contriburam para aumentar a desigualdade no perodo. Por outro lado,
Schwarzer (2000) discorda dessa viso ao analisar os impactos
103

socioeconmicos do sistema de aposentadoria rural [...] o referido autor


afirma que o programa de aposentaria rural brasileiro eficiente no combate
pobreza, como talvez poucos outros consigam ser no mundo.

Note que no se obtm informao quantitativa para comparao do efeito estimado


das aposentadorias rurais sobre a pobreza com as pesquisas j realizadas na literatura.
Sabe-se apenas que um estudo conclui que as aposentadorias no so eficientes e que o
outro conclui que so.

O artigo de nmero 32, que estuda as respostas assimtricas dos estados brasileiros a
choques de poltica monetria, procede de maneira similar. Ao trazer a reviso de
literatura, os autores trazem os resultados qualitativos, como nesta passagem (p.415,
grifo nosso):

[...] Arajo Jr. (2004), com o objetivo de comparar as respostas dos produtos
da Regio Sul com a Regio Nordeste a choques monetrios, estima um
modelo VAR, e com base na funo de impulso-resposta obtm indicaes de
que a Regio Sul mais fortemente influenciada pela poltica monetria.
Bertanha e Haddad (2008) estimam um modelo VAR, controlando pela
dependncia espacial entre os estados, para analisar a repercusso da poltica
monetria sobre diferentes unidades geogrficas do pas. Eles utilizam a
varivel emprego como proxy do nvel da atividade produtiva. Os
resultados dos autores indicam que o nvel de emprego dos estados
localizados nas Regies Norte e Nordeste mais vulnervel a choques na
poltica monetria, e esse impacto mais significativo quando no
considerada a inter-relao de dependncia espacial entre as unidades da
federao.

A6 (Q10) O artigo evita a econometria do asterisco?

Segundo Ziliak e McCloskey (1996, 2004a, 2008a), a econometria do asterisco


ocorreria quanto o artigo classifica os coeficientes estimados segundo o tamanho de
sua estatstica de teste, ao invs de se atentar ao tamanho e importncia de seu
efeito80.

O artigo de nmero 01 (p. 13), por exemplo, classifica os coeficientes como


significantes, marginalmente significantes e insignificantes, como no trecho a
seguir:

[...] observe que a varivel oportunismo mostrou-se significante em todos os


casos, evidenciando que os eleitores respondem positivamente aos ciclos
oportunistas nas variveis fiscais [...] a parcela de competncia dos ciclos, por
outro lado, mostrou-se marginalmente significante apenas nos casos das

80
importante ressaltar que a econometria do asterisco no o ato de colocar asteriscos nos coeficientes
e no haveria problema em fazer isso. Trata-se de se classificar a importncia econmica do coeficiente
pelo tamanho de sua estatstica.
104

receitas total e corrente, enquanto que a parcela prevista das variaes fiscais
mostrou-se insignificante em todas as regresses.

De maneira similar, o artigo de nmero 56 (p.180) qualificou alguns coeficientes como


highly significant ou borderline significant.

J o artigo de nmero 04 (p. 62), considera um dos modelos como bastante


significativo, por apresentar todos os parmetros [...] estatisticamente diferentes de
zero ao nvel de 5%. Tambm os autores observam uma queda na significncia
estatstica da restrio do parmetro (p. 64) como evidncia a favor da suposio de
que os instrumentos sejam no correlacionados com o termo de erro. Ademais, o artigo
classifica os modelos segundo sua estatstica F ou grau de ajuste, ressaltando que no
modelo (2) de seu trabalho, [...] a estatstica F (191,290) aumentou, comparando com o
modelo (1) (139,560), assim como tambm a qualidade do ajustamento do modelo
(0,8535) melhorou em comparao ao outro (0,7290) (p. 62).

O artigo de nmero 60 (p.292) ao reestimar sua equao principal com novos


instrumentos, enfatiza que na nova equao [...] a significncia estatstica
consideravelmente mais alta para [o coeficiente de] construes. Como ltimo
exemplo, podemos citar a seguinte passagem do artigo de nmero 64 (p.417, grifo
nosso):

[...] sob todas as especificaes estimadas, rejeita-se a hiptese nula de que os


coeficientes nos termos no lineares sejam nulos. Alm disso, para todas as
especificaes nota-se que o valor da estatstica apresenta uma tendncia de
crescimento, o que nos leva a concluir que a hiptese de linearidade do
modelo de Mincer tem se tornado cada vez mais inadequada.

Como vimos no captulo anterior, a estatstica de teste por si s no suficiente para


indicar a inadequao do modelo. Por exemplo, a distribuio normal pode ser menos
adequada a uma amostra pequena que rejeite a normalidade com p-valor de 0,09 do que
a uma amostra enorme que rejeite a normalidade com p-valor de 0,01.

A7 (Q11) O artigo evita a econometria do sinal?

A econometria do sinal ocorreria quando os autores preocupam-se apenas com a


direo do efeito estimado. Ocorre que a direo, na maior parte das vezes, apenas
importa se o efeito tambm for economicamente relevante. Uma elasticidade preo
estimada em -0, 000001%*** estatisticamente significante, com o sinal esperado pela
teoria, mas, para a maior parte dos casos, poderia ser considerada igual a zero. No
105

obstante, comum encontrar nos estudos o descaso com a magnitude e a nfase apenas
na direo do coeficiente.

No artigo de nmero 13 (p.453), por exemplo, aps a estimao de um modelo VAR


com as variveis de interesse, os resultados so apresentados da seguinte forma:

[...] assim, ao analisar o modelo que relaciona o supervit primrio s suas


expectativas, nota-se que o efeito dos choques das variveis sobre si prprias
positivo e temporrio. A resposta do supervit primrio s suas expectativas
desprezvel. A resposta da expectativa do supervit primrio a impulso no
supervit primrio significativa e positiva entre o terceiro e o stimo ms.

Isto , em nenhum momento o artigo se preocupa com a magnitude, mas to somente


com a direo da resposta ao choque.

Outro exemplo pode ser retirado do artigo de nmero 10 (p. 283), sobre os efeitos da
liberalizao comercial na produtividade. Ao apresentarem os principais resultados, no
dada a devida ateno aos valores estimados dos coeficientes, e o foco principal na
significncia estatstica e na direo do efeito, como na seguinte passagem:

[...] o coeficiente de participao de mercado muito forte e significativo [...]


o coeficiente da varivel crescimento de capital foi estimado negativo [...] mais
importante, o coeficiente de tarifas de importao de insumos foi preciso e
negativo [...].

O artigo de nmero 17, que analisa o impacto da reduo dos encargos trabalhistas
sobre a formalizao das empregadas domsticas, (p.106), ao expor os resultados de
uma estimao Probit, tambm procede de maneira semelhante:

[...] observa-se na Tabela 8 que os resultados so parecidos com a estimao


utilizando dados da PME. As diferenas consistem em que nesse caso, ser
chefe tem impacto positivo sobre a probabilidade de ser mensalista e ser
cnjuge e ter mais idade impactam negativamente.

Os exemplos so muitos, como pode ser visto no artigo de nmero 21 (p.185):

[...] a dummy para mes com educao entre 4 e 7 anos positiva e


significativa, mas a interao dessa varivel com a escolaridade do indivduo
no se mostra significativamente diferente de zero. A dummy para pais com
pelo menos 8 de estudo negativa, como na coluna (4), enquanto a dummy
para mes com 8 anos de estudo ou mais no significativamente diferente
de zero. No entanto, as interaes entre essas dummies e a escolaridade do
indivduo so ambas positivas e significativas.

Ou no artigo de nmero 28 (p.345) [...] a varivel crise mostra-se significante e com


sinal positivo, indicando que crises econmicas e/ou polticas elevam o risco de colapso
do regime democrtico o que bastante intuitivo. Tambm no artigo de nmero 48
(p. 415):
106

[...] os resultados encontrados para uma regra de Taylor padro encontram-se


na primeira coluna da Tabela 4. Os termos de suavizao de taxa de juros de
primeira e de segunda ordem so significantes a 1%. O coeficiente do hiato
do produto possui sinal correto, mas no estatisticamente significante. O
coeficiente da varivel de desvio da expectativa da meta possui o sinal
correto e estatisticamente significante a 10% de significncia.

Ou, ainda, no artigo de nmero 61 (p.320)

[...] pode-se notar que os efeitos da aposentadoria domiciliar per capita sobre
a taxa de participao so negativos e significativos para os no-qualificados
e os semi-qualificados, ou seja, aumentos na aposentadoria domiciliar per
capita reduzem a taxa de participao. Para os qualificados os coeficientes
no so significativamente diferentes de zero. Os resultados tambm mostram
que para os no-qualificados maiores taxas de inflao levam a aumentos na
participao, mas as variaes no PIB no so significativas. J para os semi-
qualificados e os qualificados os coeficientes da taxa de inflao so no-
significativos, enquanto as variaes no PIB passam a apresentar efeitos
positivos sobre a taxa de participao.

Esta forma de exposio, com pequenas variaes, repetiu-se em diversos artigos de


nossa amostra.

A8 (includa) O artigo constri os intervalos de confiana, utilizando-os para


interpretar a significncia econmica e no meramente como substituto da
significncia estatstica?

O uso de intervalos de confiana chama a ateno para a magnitude dos coeficientes;


contudo, sua mera construo com base em um nvel de significncia arbitrrio, para
verificar se a hiptese nula pertence ao intervalo, no considerada nesta questo.

Surpreendentemente, dos 67 artigos analisados, apenas 1 preocupou-se em construir


intervalos de confiana para a anlise das magnitudes. Trata-se do artigo de nmero 33
(p. 18), que buscou estimar a disposio a pagar para reduzir o risco de morte associado
poluio do ar em So Paulo. Outros artigos que construram intervalos de confiana
utilizaram-nos apenas como substitutos dos testes de significncia. Por exemplo, o
artigo de nmero 13 no obteve nenhuma informao do intervalo a no ser o fato de
este abranger ou no o valor zero. O artigo de nmero 05, da mesma forma, teve como
objetivo somente verificar se o intervalo continha o valor unitrio para o parmetro de
interesse. J o artigo de nmero 14 chegou a mencionar que o parmetro estimado
estava aproximadamente entre 0 e 2%, mas, por fim, a nica funo do intervalo de
confiana foi verificar se este exclua valores negativos.
107

Em geral, a anlise de robustez de todas as estimativas, quando feitas, era assentada


na permanncia da significncia estatstica da varivel, e no na variabilidade da
magnitude estimada. Em nenhum momento, em nossa amostra, o pesquisador parou
para se perguntar sobre a amplitude das estimativas, como, por exemplo, questionar se
as magnitudes de um mnimo ou de um mximo do intervalo de confiana levariam a
concluses diferentes a respeito da significncia econmica da varivel.

Por fim, cabe citar uma exceo, o artigo de nmero 15. O trabalho buscou verificar
como choques nas taxas de juros e na taxa de cmbio impactam na distribuio dos
preos relativos do IPCA, desagregando o impacto em 512 subitens. O texto no
construiu os intervalos de confiana, mas justificou por que no o fez. Nas palavras dos
autores (p.56, grifo nosso),

[...] toda a anlise que se segue est baseada na estimao pontual dos
coeficientes, sem considerar o intervalo de confiana sobre o qual se fazem
as previses. Optamos por proceder desta forma, em primeiro lugar, pelo fato
de que, por estarmos tratando de 512 ndices de preos, uniformizamos as
regresses, sem nos preocupar com a significncia estatstica de cada um
dos coeficientes. Alm disso, dado o perodo amostral reduzido, os intervalos
de confiana tendem a ser grandes, o que impossibilitaria a anlise
subsequente.

Pela passagem citada acima, possvel perceber que a anlise subsequente do artigo foi
com relao aos efeitos econmicos estimados e que este se preocupou com as
magnitudes, apenas no construindo o intervalo de confiana por justamente
impossibilitar a anlise proposta. Deste modo, o artigo recebeu sim. Vale adiantar que
o artigo tambm recebeu sim nas questes B3, B4 e B5.

Resultados Questes de Magnitude

Os resultados das questes do Grupo A encontram-se elencados na tabela de nmero


07. Apenas 61,2% dos artigos apresentaram suas estatsticas descritivas, nmero
bastante similar ao encontrado para a American Economic Review nos anos 90. J a no
apresentao de coeficientes em formas economicamente interpretveis mostrou-se
ligeiramente menos grave (77,6%), com resultados tambm em ordem de grandeza
similar aos obtidos na AER dos anos 80 e 90. Durante a leitura dos textos, verificou-se
que, mais do que uma questo de estilo, a apresentao criteriosa de algumas estatsticas
descritivas, bem como dos coeficientes em formas economicamente interpretveis
minimizam o impacto de outros problemas, ao facilitar o julgamento dos resultados
pelo leitor. Nota-se que, na maioria das vezes, estes so pontos de fcil soluo
108

acredita-se que pequenas medidas, como uma maior ateno dos revisores e editores,
possam facilmente elevar ambos os critrios a um percentual de sim maior do que
90%. Deste modo, apesar de os percentuais terem sido altos em relao s demais
questes, difcil considerar o resultado encontrado como um bom sinal.

Tabela 07 Questes de magnitude na RBE 2008-2011, AER 90s e 80s


O artigo Percentual AER AER
"sim"* (90's) (80's)
A1 (Q2) Apresenta estatsticas descritivas? 61,2 66,3 32,4
A2 (Q3) Apresenta coeficientes em formas 77,6 86,9 66,5
economicamente interpretveis?

A3 (Q5) Interpreta cuidadosamente os coeficientes? 58,2 81,0 44,5


A4 (Q12) Discute o tamanho dos coeficientes? 41,8 78,1 80,2
A5 (Q13) Discute a "conversa cientfica" na qual um 43,3 53,5 28,0
parmetro seria considerado grande ou pequeno?

A6 (Q10) Evita a "econometria do asterisco"? 73,1 31,0 74,7


A7 (Q11) Evita a "econometria do sinal"? 47,8 21,9 46,7
A8 (includa) Constri intervalos de confiana para 3,0 n.a. n.a.
interpretar a significncia econmica?
Fonte: todos os artigos que utilizaram inferncia estatstica na Revista Brasileira de Economia, 2008-
2011. Todos os artigos completos publicados na American Economic Review nas dcadas de 1980 e
1990, conforme anlise de Ziliak e McCloskey (2008a). *percentual de artigos que receberam sim
dentre os artigos em que a questo se aplica.

As questes seguintes foram bem mais problemticas. Mais da metade dos artigos no
discutiu o tamanho dos coeficientes, no apresentou a conversa cientfica em torno da
qual se comparar as magnitudes estimadas e a importncia econmica do modelo
utilizado, ou, ainda, no evitou a econometria do sinal. Ademais, pouco menos da
metade dos artigos no interpretou com cuidado seus coeficientes. Estes resultados
foram similares aos obtidos na AER, com exceo da questo A4, que foi
substancialmente menor tanto para os anos 80 quanto para os anos 90. Isto nos permite
concluir que, de fato, grande parte dos trabalhos aplicados tem ignorado as magnitudes
estimadas e sua relevncia econmica para o problema que se prope discutir81. Tendo
em vista os resultados que sero apresentados na seo seguinte, uma possvel causa
para tanto a crena de que a constatao ou no da significncia estatstica da
varivel bastaria para a investigao cientfica.

O resultado que chamou mais a ateno foi o de que apenas um artigo construiu
intervalo de confiana para a discusso das magnitudes estimadas e sua correspondente

81
importante lembrar aqui que, como explicado anteriormente, caso estivesse claro no artigo que a
magnitude do efeito era irrelevante para a questo, este tambm teria recebido sim.
109

incerteza amostral, conforme as suspeitas de DeLong e Lang (1992) e Ziliak e


McCloskey (2008a). Caso os testes de significncia estivessem sendo realmente
utilizados para se precaver da incerteza em relao variao amostral, seria coerente
preocupar-se com esta incerteza mesmo quando o coeficiente estatisticamente
significante a 5%. Entretanto, isto no ocorre. Uma vez que o zero excludo do
intervalo de confiana (ad-hoc de 99%, 95% ou 90%), ento a estimativa passa a ser
pontual, sem se preocupar com as diferentes magnitudes sugeridas pelo intervalo. Alm
da nfase na significncia estatstica como critrio de importncia cientfica, outra
possvel justificativa para este resultado que, em geral, os intervalos de confiana so
grandes, o que poderia revelar a fragilidade de muitas concluses com relao
significncia econmica das variveis.

Tabela 08 Resumo dos resultados da avaliao: questes de magnitude


(RBE 2008-2011)
Percentual de sim Mdia Mediana DP Mnimo Mximo
Percentual 50,7 50,0 27,9 0,0 100
Fonte: todos os artigos que utilizaram inferncia estatstica na Revista Brasileira de Economia, 2008-
2011.

A tabela de nmero 08 apresenta as principais estatsticas descritivas dos percentuais de


sim obtidos nas questes de magnitude. Percebe-se que os percentuais mdio e
mediano esto bastante prximos, em 50%, e que o desvio padro relativamente alto,
indicando grande disperso nas classificaes houve artigos com percentual zero bem
como artigos com percentual mximo nestes quesitos.

Tabela 09 Classificao dos artigos: Questes de Magnitude


(RBE 2008-2011)
Percentual de
(0 20) (20 40) (40 60) (60 80) (80 100)
sim
Artigos 11 14 12 21 9
Percentual 16,4 20,9 17,9 31,4 13,4
Acumulado 16,4 37,3 55,2 86,6 100
Fonte: todos os artigos que utilizaram inferncia estatstica na Revista Brasileira de Economia, 2008-
2011.

Deste modo, observando-se a tabela de nmero 09, apesar de mais da metade dos
artigos encontrar-se com percentual de sim abaixo de 60%, nota-se que a classificao
com maior percentual de artigos foi a de valores entre 60% e 80% (com 31,4% da
amostra). Tendo em vista que, tirando as duas principais questes (A4 e A5), todas as
110

demais no se mostraram difceis de ser solucionadas, acredita-se que seja possvel


tornar esta distribuio mais concentrada nas duas ltimas classes.

Vejamos agora as questes do Grupo B.

3.2.3. GRUPO B O culto da significncia estatstica

B1 (substitui Q1) O artigo discute o nvel de significncia adotado tendo em


vista as circunstncias em que os testes sero aplicados?

O nvel de significncia a ser estabelecido para a inferncia estatstica deve ser


ponderado pelo pesquisador. Isso faz parte do problema a ser discutido, ou seja, uma
das variveis a serem pensadas diante das circunstncias, e no um padro exgeno a
ser arbitrariamente alcanado. Em uma amostra enorme, a variao amostral pode ser
irrisria e, deste modo, a significncia estatstica a 5% seria um exerccio trivial. J em
uma amostra bastante pequena, a variao amostral pode ser relevante a ponto de um
nvel de 5% acabar por se tornar demasiadamente pequeno e arbitrrio para o
julgamento cientfico do valor encontrado. Em muitos casos, como vimos, a hiptese
nula de efeito zero pode sequer ser plausvel, e uma analise mais produtiva seria
estabelecer quais discrepncias podem ser inferidas ou no dos dados. Ou ainda, como
expem Kramer (2011, p.459) e Cox e Mayo (2010, p.267), quando vrios testes so
realizados e a hiptese nula escolhida aquela que apresenta uma estatstica de teste
grande, se o pesquisador deseja manter a probabilidade geral de um erro tipo I em um
nvel predeterminado , tem ento de levar em conta esta multiplicidade82.

Virtualmente ningum questionou o tamanho do teste. Dos 67 artigos analisados, apenas


02 discutiram o nvel de significncia adotado. Um deles foi o artigo de nmero 09,
que antes de apresentar os resultados economtricos, fez a seguinte ressalva (p. 267):
[...] como a amostra no muito grande, especialmente quando se considera a taxa de
juros, nas anlises subsequentes utilizado o nvel de significncia de 10% em todos os
testes de hiptese. Porm, note que a discusso, como esperado, no levou em conta
qualquer elemento de teoria da deciso, como uma funo perda ou outro tipo de

82
Por exemplo, ao se testarem 20 hipteses independentes, a probabilidade de se achar pelo menos uma
significante ( , mesmo quando todas so falsas, de aproximadamente 64% (COX, MAYO,
2010, p.269).
111

ponderao quantitativa entre os erros de tipo I e tipo II independentemente, disto o


artigo recebeu sim.

Discusso um pouco mais elaborada surgiu no artigo de nmero 54 (p.132), que


explicou a razo de ter utilizado um nvel de significncia de 20%, tomando como
referncia outro trabalho. Alm disso, os autores experimentaram valores ao redor do
nvel escolhido para verificar se os resultados eram alterados:

[...] com base em testes de simulao com DAGs aleatrios, SGS sugere
definir o nvel de significncia em 20% para tamanho de amostra menor do
que 100; em 10% para tamanho de amostra entre 100 e 300, e em 0,5% (ou
menor) para amostras de maiores dimenses. Seguimos sua sugesto e
definimos o nvel de significncia em 20%. Testamos diferentes nveis de
significncia na vizinhana do nvel escolhido (20%) e notamos que as
relaes de causalidade contemporneas atribudas pelo TETRAD no
mudaram.

Em suma, somente 3% dos artigos discutiram o nvel de significncia. interessante


ressaltar que a quantidade de observaes de cada trabalho era bastante heterognea,
variando de 27 at 502.627 entretanto, todos os artigos aplicaram invariavelmente o
mesmo limiar de 1%, 5% ou 10% ao nvel de significncia estatstica83. Como artigos
com temticas to dspares e amostras to diferentes poderiam todos assentar-se em um
mesmo critrio automtico de validade emprica?

B2 (Q8) O artigo menciona o poder do teste?

Uma vez que a maior parte dos testes de hiptese realizada sob o paradigma clssico,
entender o poder do teste frente a hipteses alternativas relevantes do ponto de vista
econmico seria importante para se ponderar os riscos da inferncia que est sendo
realizada. No obstante, como visto, a tradio nas anlises econmicas bem como em
outras cincias ignorar por completo a funo poder. Desta forma, esta questo no
foi rigorosa, e requereu apenas que o autor demonstrasse algum conhecimento ou
preocupao com o poder dos mtodos que est utilizando.

Em nossa amostra piloto, apenas 11 artigos mencionaram o poder do teste em algum


momento. importante ressaltar que, como previsto, os artigos no calcularam o poder
do teste e, dessa forma, no utilizaram esta informao para realizar a inferncia
estatstica em um paradigma de Neyman-Pearson, por exemplo. Os autores apenas

83
E a escolha entre 1%, 5% ou 10% dava-se, na maior parte das vezes, de maneira ad-hoc, segundo a
convenincia de se rejeitar ou no a hiptese.
112

demonstraram preocupao com o fato de os testes utilizados apresentarem baixo


poder ou alta sensibilidade. Podemos citar o artigo de nmero 09 (p.262), que
demonstra preocupao ao afirmar que [...] a limitada disponibilidade de dados pode
ter impactado o poder dos testes utilizados.

Os artigos de nmero 05, 11, 20, 26, 35, 37 e 52 preocuparam-se com o poder de alguns
testes de raiz unitria, como o teste ADF. J o artigo de nmero 40 apontou para o fato
de o mtodo momentum threshold autoregressive cointegration (M-TAR) ser, em geral,
mais poderoso do que o modelo TAR, para se detectar bolhas racionais. Algumas
discusses so bem marginais, como a do artigo de nmero 53 (p.109) que, no mesmo
contexto de modelos TAR e M-TAR do artigo de nmero 40, apenas menciona a
possibilidade de uma perda de poder devido adio de alguns coeficientes. Ou o artigo
de nmero 46, cuja meno foi em nota de rodap.

B2.1 (Q9) Caso o artigo mencione o poder do teste, faz algo com relao a isso?

Esta questo apenas se aplicou aos artigos que obtiveram sim na questo anterior. E,
da mesma forma, a anlise no foi rigorosa. Bastava o autor demonstrar alguma atitude
corretiva frente constatao de baixo poder, como reduzir explicitamente os nveis de
significncia exigidos, ou utilizar testes que, na mdia, seriam mais ou menos
poderosos, para receber o sim. A maioria dos artigos buscou alguma soluo
nestes moldes. Os artigos de nmero 05, 11, 26, 35 e 37 buscaram testes de raiz unitria
alternativos aos rotineiramente aplicados. O artigo de nmero 09, por sua vez, utilizou
nvel de significncia de 10%.

B3 (Q7) A significncia estatstica, quando primeiramente utilizada, apenas


um entre outros critrios de importncia?

Em geral, segundo Ziliak e McCloskey, (1996, 2004a, 2008a) o primeiro uso da


significncia estatstica ocorre no ponto principal do artigo, em que o autor acredita
fazer seu argumento empiricamente mais importante. Todavia, algo estaria errado com a
argumentao caso a significncia estatstica fosse o critrio mais importante avaliado,
pois, como visto, ela no nem necessria tampouco suficiente para a significncia
substantiva.
113

O artigo de nmero 02 traz uma passagem interessante. Como trabalham com dados em
painel, os autores estimam o modelo por efeitos fixos (EF) e por efeitos aleatrios (EA).
Ao comparar as estimativas dos dois modelos, afirmam os autores que,

[...] no caso de se concluir que tais estimativas no so estatisticamente


iguais, deve-se empregar o mtodo do EF, por este ser consistente
independentemente da hiptese adicional do mtodo do EA. Se forem iguais,
o mtodo do EA mais eficiente. Recorre-se, assim, ao teste de Hausman
somente se os resultados de EF e EA divergem em relao relevncia
estatstica das variveis de maior interesse (p.30).

Isto , a investigao sobre qual o modelo mais apropriado apenas se daria caso a
varivel revelasse significncia estatstica em um, mas no no outro. Por exemplo, o
coeficiente que mede o efeito do fluxo de caixa na demanda por investimento de
empresas mdias estimado em 0,093 em efeitos fixos e em 0,142 em efeitos aleatrios
esta diferena de cerca de 50% na magnitude relevante? Como a significncia
estatstica foi o nico critrio de importncia utilizado, no se sabe.

O artigo de nmero 14 tambm classificou como seu principal resultado a significncia


estatstica do coeficiente estimado. Os autores verificaram a possibilidade de a
paridade descoberta da taxa de juros, no Brasil, estar de cabea para baixo. Isto seria
evidenciado pela estimativa de um coeficiente positivo. Assim, como explicitado pelos
prprios autores: [...] nosso principal resultado [que] [...] nosso estimado cerca de
1 e podemos rejeitar ao nvel de 5% confiana [sic] que seja negativo. Perceba que
ao nvel de significncia de 1%, por exemplo, no se rejeitaria que seja negativo. Por
que o nvel de 5%? O valor estimado de 1 relevante economicamente para se
considerar que a paridade descoberta esteja de fato de cabea para baixo? Como a
significncia estatstica foi o nico critrio emprico escolhido, tambm no se sabe.

Outro exemplo o artigo de nmero 13, que buscou verificar se o mercado brasileiro
mope com relao poltica fiscal. Os autores, por meio de um modelo VAR,
analisam se o mercado, ao formar suas expectativas sobre a dvida lquida do setor
pblico ou sobre o supervit primrio, levaria em conta outros indicadores que dariam
uma medida mais acurada da situao fiscal do governo. Antes de iniciar a anlise,
contudo, os autores expem qual o critrio utilizado para identificar a importncia do
choque:

[...] na anlise das funes de resposta a impulso, deve-se observar que


somente so consideradas as respostas a impulsos significativas, ou seja,
aquelas que se encontram dentro do intervalo de confiana de dois desvios
114

padro, completamente acima ou completamente abaixo do nmero zero no


eixo das abcissas. Em outras palavras, nos apndices que mostram as funes
de resposta a impulso, quando as linhas pontilhadas que denotam o intervalo
de confiana abrange o eixo das abcissas, diz-se que no existe resposta ao
respectivo impulso, ou seja, o efeito do choque da varivel sobre a outra
desprezvel (nulo) (p. 453, grifo nosso).

Ou seja, fica evidente na passagem citada a confuso entre (in)significncia estatstica e


(in)significncia econmica. Se o autor encontrasse um efeito desprezvel do ponto de
vista econmico, mas com erro padro amostral pequeno o suficiente para que o
intervalo de confiana no ultrapassasse o eixo das abcissas, diria que o resultado
significante. J se o autor encontrasse um efeito relevante do ponto de vista
econmico, mas cujo intervalo de confiana fosse um pouco maior e abrangesse o zero,
diria simplesmente que o efeito inexiste. Ademais, por fundamentar-se apenas na
significncia estatstica durante todo o texto, podemos adiantar que o trabalho tambm
recebeu no nas questes B4 e B5.

O artigo de nmero 16 (p.85) buscou medir a eficcia dos instrumentos de interveno


do Banco Central do Brasil sobre a volatilidade condicional da taxa de cmbio nominal.
Da mesma maneira que no trabalho anterior, o nico critrio utilizado para verificar a
importncia das variveis era sua significncia estatstica, a 1%, 5%, ou 10% conforme
pode ser visto a seguinte passagem:

[...] no Perodo B (julho/1999 a maio/2002), o nico instrumento de


interveno no significativo ao nvel de 5% foi a interveno via Swaps
cambiais. A taxa de juros Selic, as intervenes via ttulos cambiais e
intervenes vista foram significativas ao nvel de 5%. Todos os
instrumentos de interveno adicionaram volatilidade taxa de cmbio
nominal visto que seus coeficientes so positivos e significativos. No Perodo
D (maro/2003 a dezembro/2003), nenhum instrumento de interveno
afetou de forma significativa a volatilidade cambial. Rejeitamos a hiptese de
assimetria dos choques para este perodo, mas no rejeitamos a existncia de
resistncia auto-regressiva condicional e a persistncia dos choques, ambos
so significativos ao nvel de 1% e 10% respectivamente.

Vejamos agora exemplos de trabalhos que ilustram como a significncia estatstica pode
ser apenas um entre outros fatores de importncia. O artigo de nmero 03 (p.52-53)
estima um modelo linear e um modelo no linear para o pass-through da taxa de cmbio
e os compara utilizando o grau de ajuste e testes de diagnstico tais como teste de
especificao RESET. Como o modelo no linear apresenta maior grau de ajuste (0,71
contra 0,57) e passa em todos os testes, este considerado mais adequado ou seja,
115

aqui de fato entrou a significncia estatstica como um dos critrios de avaliao 84 .


Todavia, o autor no interrompe sua anlise neste ponto. O artigo ressalta que a soma
dos coeficientes de no linearidade alta sugerindo uma forte influncia da inflao no
pass-through cambial. Assim, a diferena nos modelos tambm economicamente
importante, e resume o autor:

[...] voltemos nossa ateno para o threshold. Ele mostra que o pass-through
da taxa de cmbio entrar no regime de inflao alta quando a taxa de
inflao trimestral de cerca de 2,56%, ou cerca de 10,6% a uma taxa
anualizada. Quando a inflao est acima do limiar e a funo de transio
(G) igual a 1 [...] nessas circunstncias, uma depreciao de, digamos, 10%
levaria a 2,7% de inflao no prximo trimestre, e quase 4% no longo prazo.
Por outro lado, quando a inflao bem abaixo do limiar, e a funo de
transio igual a 0, a longo prazo o pass-through da taxa de cmbio ser to
baixo quanto 0,08 e, portanto, um depreciao de 10% levaria a apenas 0,8%
de inflao no longo prazo (p. 53, grifo nosso) .

Podemos citar tambm o artigo de nmero 07 (p. 237, grifo nosso), que no presume
que a ausncia de significncia estatstica igual a efeito zero. Os autores afirmam que
os resultados encontrados

[...] indicam que o efeito de curto prazo das variaes cambiais sobre a
inflao assimtrico. No caso de grandes depreciaes cambiais, o pass-
through estimado para o trimestre seguinte de cerca de 11%, enquanto que
apreciaes ou depreciaes pequenas no tm um efeito estatisticamente
significativo O teste de Wald rejeita a hiptese nula de que ambos os
coeficientes so iguais (ao nvel de significncia de 10%). Portanto, a
passagem maior quando depreciaes trimestrais so iguais ou maiores do
que 2,1%. Embora os resultados sobre o efeito de uma apreciao em relao
ao trimestre anterior sobre a inflao corrente no tenham sido estatisticamente
significativos, no devemos inferir que apreciaes no so transmitidas
para os preos. Esta transmisso pode ter lugar com mais desfasamentos do
que no caso de depreciao

Alm disso, em outro momento, os autores encontram que os efeitos do cmbio sobre a
inflao de fato variam segundo a volatilidade do perodo e no ignoram o resultado
encontrado a despeito de no ter se obtido a significncia estatstica. Eles apenas
sugerem maior cautela ao leitor. Nas palavras dos autores (p. 239, grifo nosso),

[...] em termos de magnitude, as estimativas pontuais indicam um maior pass-


through em perodos de baixa volatilidade do que em momentos de
volatilidade elevada (80% e 7%, respectivamente). No entanto, a estimativa do
pass-through no estatisticamente significativa no regime de baixa
volatilidade, embora seja significativa no outro regime e os valores dos
parmetros so semelhantes aos relatados na literatura para os perodos de
taxas de cmbio administrada e flutuante. A diviso da amostra resultante
atribuiu a maior parte das observaes do cmbio administrado para o regime
de baixa volatilidade. As observaes correspondentes a valores abaixo do

84
Muito embora tenha sido de um modo considerado positivo por muitos autores, como Spanos (2008) e
Kramer (2011), pois um modelo estatisticamente inadequado no permitiria inferncias seguras.
116

limiar compreendem o perodo 1995:4-1998:2 No entanto, de acordo com o


teste de Wald, no podemos rejeitar a hiptese nula de que ambos os
coeficientes sejam iguais, e os resultados desta especificao da curva de
Phillips so menos robustos do que os dos dois modelos anteriores. Portanto,
esses resultados devem ser considerados com mais cuidado.

Estes exemplos ilustram de maneira simples a diferena entre fundamentar a anlise


apenas na significncia estatstica, como realizado nos quatro primeiros textos, ou
consider-la apenas um aspecto dentre outros para se julgar a relevncia econmica dos
resultados, como feito nos dois ltimos. Veremos mais alguns casos nas duas prximas
questes.

B4 (Q15) Depois do ponto principal do artigo, este evita usar significncia


estatstica como o critrio de importncia cientfica?

Muitas vezes o artigo apresenta a significncia estatstica como ponto central por
exigncia da tradio da literatura, da presso dos editores ou a pedido dos revisores.
Assim, poderia ser que o autor desse destaque significncia estatstica no ponto
principal do texto e, mais a frente, argumentasse com outros critrios sobre a
importncia cientfica de seu trabalho. Iremos abordar dois exemplos ilustrativos que
diferenciam a presente questo das questes B3 e B5. Abordaremos um artigo que
recebeu no nas questes B3, B4 e B5; e outro que recebeu sim na questo B3,
sim na questo B4, mas no na questo B5.

O primeiro exemplo trata-se do artigo de nmero 04 (p. 64). O trabalho teve como pice
do estudo a significncia estatstica da varivel de qualidade institucional, recebendo
no na questo anterior. Ainda, no decorrer do texto, nenhum outro critrio foi
explorado, recebendo, portanto, no nesta questo. Por fim, chegou-se apenas
concluso meramente qualitativa de que a qualidade das instituies tem impacto
positivo no PIB. Nas palavras dos autores:

[...] o estudo mostrou que a insero da qualidade institucional no modelo de


Solow contribui para aumentar o poder de explicao do modelo. A qualidade
das instituies de um pas apresenta um impacto positivo no PIB per capita
e pode ser considerada de grande importncia para a acumulao da riqueza e
de um crescimento sustentvel.

O ideal nesta questo seria exigir critrios mais substantivos complementares


significncia, principalmente aspectos quantitativos ou outras abordagens estatsticas.
Alm disso, seria fundamental que o autor evitasse remeter significncia como critrio
de importncia. Entretanto, sendo muito rigoroso na avaliao, poucos artigos
117

receberiam sim em nossa amostra. Dessa forma, anlises que apresentaram algum
outro elemento como importante, dando o devido destaque, foram consideradas.

Vejamos o caso do artigo de nmero 01. Quando do primeiro uso dos testes de
significncia estatstica (p. 13), o trabalho, em sua argumentao, considera algo a mais
do que o teste aplicado. Um exemplo seria o destaque dado ao coeficiente de emenda da
reeleio:

[...] os resultados relativos Emenda da Reeleio indicam que a nova lei


introduziu um estmulo adicional para as manipulaes eleitoreiras. No lado
das receitas, as estimativas apontam que ela implicou em um aumento na
amplitude dos ciclos na receita total (27%), na receita corrente (14%) e nas
transferncias correntes (22%). No lado das despesas, os resultados indicam
que governantes candidatos reeleio elevam a despesa total (29%), a
despesa corrente (21%) e as despesas de custeio (47%) acima dos demais
governantes (no-candidatos reeleio). Estes resultados parecem fazer
bastante sentido, principalmente, quando se consideram as caractersticas das
instituies polticas e eleitorais brasileiras. A falta de um maior grau de
transparncia poltica e a inexperincia do eleitorado, entre outros aspectos,
criam elevados incentivos para que os governantes se distanciem das polticas
socialmente timas.

Assim, o artigo recebeu sim na questo B3. No decorrer do artigo os autores do


primazia significncia estatstica e aos sinais das variveis, realizando uma
comparao de magnitudes apenas de modo qualitativo. Isto , as magnitudes em si no
importaram na anlise, apenas se eram maiores ou menores, e somente quando
estatisticamente significantes. Por exemplo:

[...] a Tabela 6 apresenta os resultados para as variveis da despesa


oramentria. De forma semelhante ao obtido anteriormente, a varivel
oportunismo mostrou-se significante na maioria das regresses, com o seu
coeficiente apresentando uma ntida tendncia de queda ao longo do tempo [...]
a varivel competncia, por outro lado, no se mostrou significante em
nenhuma das regresses (p.16).

Entretanto, os autores consideraram o fato de os coeficientes reduzirem como algo


importante e argumentaram em cima disto, concluindo que [...] (1) a falta de um
controle poltico adequado tem induzido a produo de ciclos nas despesas
oramentrias; e (2) o nvel de controle poltico tem se elevado ao longo do tempo.
(p.16). Assim, a despeito da ausncia de uma anlise quantitativa, considerou-se sim
na presente questo. Perceba, todavia, como a significncia estatstica foi o critrio
decisivo do ponto de vista emprico do artigo sua ausncia impediu qualquer anlise
posterior. Alm disso, as magnitudes, na segunda parte do artigo, forem solenemente
ignoradas, bastando a significncia estatstica para a deciso acerca da importncia dos
118

resultados. Sem diferenciar a significncia econmica da significncia estatstica,


recebeu no, portanto, na questo seguinte.

B5 (Q16) O artigo considera mais do que a significncia estatstica para um


argumento decisivo do ponto de vista emprico?

Esta questo diz respeito a qual o argumento decisivo utilizado pelo autor para a retrica
de suas descobertas. Por exemplo, alegar que o coeficiente zero por no ser
estatisticamente significante um destes casos; dessa forma, quando o autor descarta
por completo o resultado de sua investigao emprica apenas por no se obter
significncia estatstica e geralmente a nveis usuais sem qualquer preocupao com o
limiar adotado recebe-se no. O mesmo ocorre quando o resultado encontrado
considerado importante simplesmente por ser estatisticamente significante. O erro deste
tipo de inferncia j deve ter ficado claro neste ponto do trabalho. Por todo o exposto
nas questes anteriores, possvel constatar diversos casos em que este problema surge.
Tentaremos trazer aqui apenas mais alguns exemplos, separados por categorias, de
modo a ilustrar as diferentes formas de ocorrncia.

Insignificante, portanto negligencivel.

Alguns artigos consideraram a ausncia de significncia estatstica como prova da


ausncia de efeito, sem levar em considerao o poder (ou a severidade) do teste
analisado. O artigo de nmero 06 estimou o coeficiente para aposentadorias rurais em
de -0,0578, com p-valor de 0,34. O fato de o coeficiente no ter sido estatisticamente
significante aos nveis usuais fizeram os autores considerar que [...] os resultados do
modelo permitem concluir que os benefcios da aposentadoria per capita no
impactaram a pobreza rural no Brasil (p.161, grifo nosso), afirmando este ter sido o
principal resultado do artigo. Note, entretanto, que um intervalo de confiana no
coeficiente abarcaria valores to grandes quanto o da varivel PIB, que foi considerada
importante pelos autores.

Artigo de nmero 17 procedeu de maneira similar. Os autores buscaram medir o


impacto da reduo dos encargos trabalhistas sobre a formalizao das empregadas
domsticas. Quando da anlise do coeficiente de interesse, o trabalho considerou que a
ausncia de significncia correspondia a efeito nulo, como na seguinte passagem
(p.104):
119

[...] os resultados, que podem ser observados na Tabela 5, evidenciam que a


varivel de interesse (lei*mensalista) positiva quanto a formalizao,
porm, no significativa, o que indicaria que a mudana na legislao no
surtiu efeito sobre a taxa de formalizao das trabalhadoras domsticas no
perodo analisado.

E, por fim, o artigo concluiu que

[...] levando em considerao as evidncias aqui mostradas, no se pode


classificar o esforo do governo em reduzir os encargos trabalhistas
incidentes sobre esta ocupao como instrumento eficaz de aumento da
formalizao devido aos resultados inconclusivos encontrados; em alguns
casos houve aumento na formalizao e em outros, no.

Note que ambos tratam de polticas pblicas e que, se suas concluses fossem tomadas
ao p da letra, poderiam levar a decises de consequncias relevantes, como o
encerramento do programa de aposentadorias rurais bem como o aumento dos encargos
trabalhistas das empregadas domsticas.

Significante, portanto importante.

Similarmente aos casos anteriores, mas na direo contrria, muitos trabalhos


consideravam a significncia estatstica como fato suficiente para a importncia
cientfica dos resultados. O artigo de nmero 19 (p.142, grifo nosso), ao medir as
relaes entre ciclo econmico e oferta de trabalho no Brasil, encontrou um efeito
desalento estatisticamente significante e concluiu que:

[...] o efeito desalento tambm se mostrou relevante, influenciando as


decises de participao das esposas cujos maridos permaneceram
empregados. Para esse grupo de mulheres, uma reduo de 10% na mdia dos
rendimentos em relao ao valor de referncia est associada a uma
probabilidade de participao menor em 0,39 ponto percentual .

Com uma base de dados de 502.627 observaes, um efeito desta magnitude relevante
apenas por ser estatisticamente significante aos nveis usuais?

O artigo de nmero 59 estudou os determinantes do protecionismo brasileiro tendo por


base uma teoria de proteo endgena. Uma das variveis de interesse era a quantidade
de trabalhadores do setor com curso superior completo, denominada de INST, e a
suposio era a de que setores mais intensivos em mo-de-obra qualificada
demandariam maior proteo. Como esta varivel foi a que apareceu como significante
na maioria das especificaes, o autor a considerou a mais importante (p.271, grifo
nosso):
120

[...] como se nota, a varivel INST a nica que mantm o mesmo sinal em
todas as regresses. Tambm a varivel que com maior freqncia aparece
como significativa: em seis dos oito modelos. Essa consistncia de sinais e
significncia sugere que, do conjunto de regressores utilizados neste trabalho,
INST a varivel mais importante e deveria ser includa em trabalhos
futuros que pretendam estudar o protecionismo brasileiro a partir de uma
abordagem economtrica.

O artigo de nmero 66 buscou identificar se h um conflito entre quantidade e qualidade


nas publicaes dos pesquisadores de economia, bolsistas do CNPq, no Brasil. Na maior
parte das vezes, o autor apenas comenta se as diferenas entre mdias so significantes
ou no85. Como, por exemplo, na seguinte passagem (p. 475-477):

[...] as duas ltimas linhas do painel A mostram que a publicao mdia das
10 principais escolas ortodoxas nos peridicos internacionais de maior
impacto estatisticamente maior do que a das demais escolas (p-valor de
0,000) [...] o painel B da Tabel [sic] 3 mostra que a publicao mdia dos
heterodoxos nos peridicos 101 a 144 estatisticamente maior do que a dos
ortodoxos (p-valor de 0,000), enquanto que a publicao nos peridicos de
maior impacto estatisticamente menor (p-valor de 0,000).

Mais ainda, o argumento principal do artigo que, como a diferena entre as mdias de
publicaes entre os pesquisadores do CNPq e os pesquisadores americanos
estatisticamente significativa, ento existe o vis de quantidade em detrimento da
qualidade. Vide, por exemplo, o prprio resumo e a introduo (p.467-469, grifo nosso):

[...] o nmero mdio total das publicaes dos pesquisadores no Brasil


estatisticamente maior, sugerindo um sacrifcio de qualidade para aumentar
o nmero de publicaes. [...] na ortodoxia, os pesquisadores do CNPq
publicaram entre 1999 e 2004, em mdia, 5,2 artigos, enquanto os
pesquisadores ortodoxos nos EUA publicaram 4,3 artigos; uma diferena
estatisticamente significativa com um p-valor de 0,083. Na heterodoxia, o
vis de quantidade parece ser ainda mais severo. Enquanto os pesquisadores
heterodoxos no Brasil publicaram, em mdia, 5,1 artigos, os heterodoxos nos
EUA publicaram apenas 1,8 artigo; uma diferena estatisticamente
significativa a 1%. Os resultados constituem evidncia forte de que tanto os
ortodoxos como os heterodoxos no Brasil sacrificam qualidade (prestgio
do peridico de publicao) em nome de quantidade.

Ora, tomando o caso dos economistas ortodoxos como exemplo, a diferena de 0,15
artigo por ano, na mdia, dos pesquisadores do CNPq (cuja amostra, frise-se, era de 57,
contra 1.123 pesquisadores americanos), que foi estatisticamente significante ao nvel
de 10% (mas no ao nvel de 5%) realmente uma diferena importante?

85
O artigo no menciona qual teste de mdias foi utilizado.
121

Uma problemtica significante.

Muitos artigos, j de incio, definiam o prprio problema do trabalho como encontrar ou


no a significncia estatstica de uma varivel. O artigo de nmero 16, que j havamos
citado na questo B3, utilizou a significncia estatstica a um nvel arbitrrio como
nico critrio de relevncia cientfica e isso pde ser visto na prpria definio do
problema pelos autores (p. 84, grifo nosso):

[...] iremos testar duas hipteses: a primeira hiptese se as intervenes


impactam a volatilidade cambial. Caso positivo, os coeficientes [...] precisam
ser significantemente diferente de zero. A segunda hiptese a ser testada se
as intervenes conseguem diminuir a volatilidade da taxa de cmbio
nominal, com intuito de transformar a relao real-dlar mais estvel,
especialmente em momentos de crise. Para isso os coeficientes [...] precisam
ser significativos e ter sinais negativos.

O artigo de nmero 30 definiu de maneira similar o seu problema. Para estudar a


convergncia de renda entre os municpios do estado do Mato Grosso, os autores
definiram seu problema da seguinte forma (p.361, grifo nosso): [...] portanto, para
verificar a existncia de convergncia, analisa-se o parmetro , para haver
convergncia de renda per capita, tem-se um , estatisticamente significativo a 5%
de significncia. Se o autor obtivesse p-valor de 6% a convergncia no existiria?

Significncia, necessidade e prova.

O artigo de nmero 12 (p. 434) trouxe uma situao interessante; o trabalho, em alguns
momentos, sequer realizou o exerccio de comparar os coeficientes estimados, pois
acreditou que a falta de significncia estatstica ao nvel usual comprometeria
qualquer julgamento. Na palavra dos autores, [...] no caso da equao 31.a (modelo
2.a), os valores no so comparveis, pois no so estatisticamente significativos para a
esfera federal. Ora, neste caso fica evidente a primazia da significncia estatstica
como argumento decisivo do ponto de vista emprico, pois sua ausncia inviabilizaria
at a comparao de estimativas.

A (in)significncia estatstica chegou a ser considerada prova irrefutvel em alguns


momentos, como no caso do artigo de nmero 04 (p. 63, grifo nosso). Os autores
afirmam que a validade dos instrumentos comprovada pela estatstica de Sargan
(OVERID test) 3,5550, complementando com a afirmao de que [...] de fato, os
instrumentos utilizados no esto correlacionados com a perturbao. Percebe-se que a
122

argumentao terica sobre os instrumentos serem ou no exgenos foi sumariamente


substituda por um teste estatstico de sobreidentificao.

Houve quem diferenciou.

Finalizemos com dois artigos que fizeram a devida separao entre a significncia
estatstica e a significncia econmica dos resultados. O artigo de nmero 64, que
citamos em outros momentos, buscou testar as hipteses do modelo de Mincer para a
estimativa da taxa de retorno da educao ao Brasil, rejeitando-as. Todavia,
especificamente com relao funo spline, apesar de o autor ter rejeitado o
pressuposto de paralelismo, considerou-se que esta fornece boa aproximao para a
estimativa da taxa de retorno. Conforme o autor (p.422-423, grifo nosso):

[...] vale notar que as TIRs no linear (terceira linha) e no paramtrica


(ltima linha) diferem pouco. Por exemplo, quando se incorpora o desenho
amostral, este vis chega a no mximo 2.08 p.p. na comparao S4-S0
(9.18% - 7.11%) de 2001, e a 1.08 p.p. (7.07% - 5.98%) quando se compara
EF8- EF4 de 2003. Em relao ao Censo, chega a quase 2.4 p.p. de vis
comparando os dois maiores nveis escolares (S17+-S15) em 2000 e, para as
sries, com exceo de 1970, o vis no chega a 1.5 p.p., em termos
absolutos. Isso nos leva a crer que, apesar de rejeitarmos o paralelismo, a
funo spline uma boa aproximao ao se estimar as TIRs.

Isto , o modelo foi rejeitado estatisticamente, mas considerado economicamente


razovel. Podemos elencar ainda uma citao do artigo de nmero 22, que se trata de
um exemplo claro em que houve separao entre a significncia estatstica e econmica
da varivel. O artigo buscou verificar se as medidas de ncleo da inflao brasileira so
enviesadas, e em certa passagem afirma que:

[...] no apenas os vieses so estatisticamente significativos, mas seus


tamanhos so economicamente relevantes. Enquanto o ncleo de excluso
tem um vis de 1,2 p.p. durante o perodo de metas de inflao, o vis da
mdia aparada atinge 1,6 p.p. Alm disso, embora no estatisticamente
significativa, a mdia de ncleo suavizada e aparada fornece um vis de
meio ponto percentual durante o perodo de metas de inflao, uma
magnitude que economicamente relevante (ou seja, suficiente para
interferir tanto no planejamento dos agentes quanto na poltica monetria
do banco central).

B6 Q(19) O artigo evita usar a palavra significante em sentidos ambguos,


como significncia estatstica e influncia econmica?

Este caso no trata da confuso em si, pois no apenas por utilizar inadvertidamente a
palavra significante com sentido ambguo que o autor ir receber no em algumas das
trs questes discutidas anteriormente. Contudo, a constncia com que a ambiguidade
123

ocorre surpreende bastante; alm disso, em muitos casos, o uso ambguo , de fato,
indcio da confuso entre a significncia econmica e estatstica. Tendo em vista a
similaridade das situaes em que a ambiguidade ocorre, citemos apenas um trabalho. O
artigo de nmero 09 (p. 261) logo em seu resumo utiliza a palavra em sentido ambguo
[...] os resultados economtricos sugerem que os juros no so significativos. Em
outras passagens a ambiguidade se repete: Hansen e Singleton (1983) no obtm
estimativas significativas [...] Reis et alii (1998) tambm concluem que a resposta da
taxa de crescimento do consumo taxa de juros no significativa (p.263). Nestes
casos, h a ambiguidade entre o sentido de no significativo como no importante
ou como estatisticamente insignificante.

B7 (includa) O artigo demonstra preocupao com a especificao ou


adequao estatstica do modelo?

Como visto, dentro de um paradigma de Neyman-Pearson, a adoo de um nvel de


significncia de 5% para um teste estatstico estabelece que, se a hiptese nula for
verdadeira, ainda assim esta seria rejeitada em 5% das vezes. Contudo, este nmero
apenas (aproximadamente) vlido se os pressupostos estatsticos utilizados no teste
tambm forem (aproximadamente) vlidos. Caso contrrio, o nvel nominal de 5% pode
ser bastante diferente do nvel real (menor ou maior), e o teste de hiptese baseando-se
neste nvel nominal tornar-se-ia um exerccio cego e incoerente. Esta seria uma forma
de erro real, apontada por Ziliak e McCloskey (2008a), cuja preocupao tambm foi
levantada por Kramer (2011), com maior nfase na especificao dos primeiros
momentos, Spanos e McGuirk (2001), Spanos (1993, 2008, 2010), com nfase em todos
os pressupostos adotados86. Este ltimo autor e Leamer (2010) enfatizam ainda que a
confiana em estimadores de varincia assintticos robustos heterocedasticidade e
autocorrelao no justificvel em grande parte dos casos.

Esta questo, portanto, buscou verificar se os autores demonstravam alguma


preocupao com a especificao ou adequao estatstica de seu modelo, de modo a
assegurar a confiabilidade das estimativas e dos testes utilizados. importante deixar
claro que, infelizmente, no foi possvel verificar a adequao estatstica de fato e, deste

86
Para o modelo clssico de regresso linear a reduo probabilstica dos pressupostos poderiam ser
resumidas (i) normalidade, (ii) linearidade, (iii) homocedasticidade, (iv) invarincia temporal e (v)
independncia. Spanos critica a correo ad-hoc da violao de algum desses pressupostos proposta nos
livros-textos. O autor afirma que, em muitos casos, a correo torna a inferncia ainda menos confivel.
124

modo, um sim para esta questo no significa que as inferncias realizadas pelo autor
eram seguras, mas to somente que este se preocupou com o problema. Em muitos
casos, possvel, inclusive, que as correes adotadas no tenham sido adequadas,
mas no entraremos neste mrito devido ao escopo deste trabalho. Ademais, para
identificar problemas de especificao com testes estatsticos, o julgamento de quo
grande grande um desvio em relao ao pressuposto deveria ser igualmente
ponderado, algo que tambm foi relaxado nesta questo, pois, do contrrio, quase
ningum receberia sim.

Para ilustrar como esta preocupao poderia se manifestar, citemos alguns casos87. O
artigo de nmero 30 (p.365), por exemplo, preocupou-se com a heterocedasticidade e
com os efeitos espaciais dos erros, buscando correes para os problemas e verificando
se estas eram satisfatrias:

[...] analisando os resultados da estimao e dos testes de especificao do


modelo, constataram-se problemas de heterocedasticidade,
multicolinearidade e ainda efeitos espaciais nos erros. O prximo passo foi
corrigir o modelo estimando-o considerando-se os efeitos espaciais, com o
intuito de investigar se os problemas estavam sendo causados por omisso
desses efeitos. Porm, os resultados permaneciam com problemas de
heterocedasticidade e multicolinearidade. Investigou-se qual varivel estaria
causando a heterocedasticidade no modelo. Aps identificar algumas
variveis que poderiam estar acarretando esse problema, buscou-se corrigir o
modelo conforme o mtodo de correo de White. Porm, este mtodo
tambm no permitiu um bom resultado.

Analogamente, o artigo de nmero 32 (p.419) buscou verificar o quo satisfatrios eram


os pressupostos de autocorrelao, heterocedasticidade e normalidade de seus modelos,
tentando corrigir quando necessrio:

[...] uma vez estimados os modelos para cada um dos estados, os resduos de
cada modelo foram testados para a presena de autocorrelao e para a
presena de heterocedasticidade condicional. Quando se detectou a presena
de resduos autocorrelacionados, foi feita uma tentativa de se obter resduos
melhores atravs da introduo de uma ou duas defasagens. Adicionalmente,
ns testamos para a normalidade dos resduos. As Tabelas A-2, A-3 e A-4 no
Apndice A apresentam os resultados desta anlise. De um modo geral, os
resultados so pobres em termos de normalidade, mas so relativamente

87
Modelos que foram utilizados apenas para previso no foram considerados, recebendo a classificao
no se aplica e, portanto, no entrando no clculo do percentual. Considerou-se no a simples
realizao de alguns testes j clssicos sem outras preocupaes com o comportamento do erro, tais
como: testes de Hausman na anlise de modelos de efeitos fixos vs efeitos aleatrios, testes de raiz
unitria em anlises de sries temporais, ou testes de sobreidentificao na anlise de regresso por
variveis instrumentais. Entretanto, nestes casos, se o artigo complementasse a anlise com algum outro
teste, como o teste RESET, de independncia, de normalidade, de quebra estrutural, de
heterocedasticidade entre outros receberia sim, mesmo se no julgasse a relevncia econmica do
desvio.
125

satisfatrios em termos de autocorrelao e de heterocedasticidade


condicional.

Uma preocupao bastante evidente com o impacto de erros de especificao nos


exerccios de inferncia foi encontrada no artigo de nmero 22 (p. 213, grifo nosso). Os
autores questionaram um modelo considerado inocente utilizado na literatura para
verificar o poder preditivo do ncleo da inflao, que provavelmente estaria mal
especificado. Em suas palavras:

[...] um problema importante aqui que [a equao] (10) muito


provavelmente est mal especificada, impedindo qualquer inferncia
confivel. Por exemplo, ela no inclui nem mesmo desfasamentos da inflao
ou do ncleo da inflao. Por isso, no de se estranhar que para a maioria
dos casos e pases Catte e Slok (2005) encontraram um coeficiente
insignificante. A falta de significncia no diz muito, j que as mudanas do
ncleo da inflao poderiam realmente ser teis na previso da inflao uma
vez que outras variveis relevantes fossem adicionadas ao modelo. Com
efeito, nos poucos casos onde o regressor foi significativo, o seu sinal era
teoricamente errado, um sintoma tpico do problema de varivel omitida.

Preocupao semelhante e mais extrema com a confiabilidade das inferncias em


um modelo mal especificado foi encontrada no artigo de nmero 39. Em certo momento
do trabalho, ao realizaram testes de autocorrelao de Breusch-Godfrey, e testes de
heterocedasticidade de Bartlett, Levene e Brown-Forsythe, os autores concluem que (p.
39):

[...] em virtude do problema de erro de especificao [...], que causa


heterocedasticidade e autocorrelao, a varincia dos parmetros capital e
trabalho no mnima, no se podendo fazer nenhuma inferncia sobre eles .

Resultados Culto da Significncia Estatstica

Os percentuais de sim para as questes do Grupo B encontram-se elencados na


tabela de nmero 10.

Em geral, os nmeros no so animadores. Iniciando com a questo principal (B5),


cerca de 64% dos artigos na Revista Brasileira de Economia, entre os anos de 2008 a
2011, confundiram significncia estatstica com significncia econmica. Este valor
bastante similar aos 70 e 79% encontrados para o American Economic Review nos anos
80 e 90, respectivamente, bem como ao intervalo de 56-85% verificado no German
Economic Review. Como os Estados Unidos, atualmente, detm grande parte das
publicaes e peridicos de maior impacto internacional 88 , era de se esperar que os
resultados dos demais pases fossem de certo modo semelhantes. Observando-se as

88
Conforme medido pelos ndices REPEC, por exemplo.
126

duas questes auxiliares, percebe-se que, ao se considerar o primeiro uso dos testes
(B3), a nfase na significncia estatstica torna-se ainda maior, representado 74% dos
artigos; e, mesmo levando-se em conta outros argumentos apresentados no decorrer do
texto (B4), este nmero ainda representa mais da metade da amostra analisada, com
52%.

Tabela 10 Significncia estatstica na RBE 2008-2011, AER 90s e 80s e GER


O artigo Percentual AER AER GER**
"sim" RBE* (90's) (80's)
B1 (includa) Discute o nvel de significncia 3,1 n.a. n.a. n.a
utilizado?
B2 (Q8) Menciona o poder do teste? 16,9 8,0 4,4 n.a.
B2.1 (Q9) Caso mencione o poder do teste, faz algo 81,8 44,0 16,7 n.a
em relao a isso?
B3 (Q7) Quando no primeiro uso, considera a 23,9 39,6 47,3 n.a.
significncia estatstica como apenas um entre outros
critrios de importncia?
B4 (Q15) Aps o ponto principal, evita usar a 47,8 27,8 40,7 n.a.
significncia estatstica como o critrio de
importncia cientfica?
B5 (Q16) Considera mais do que a significncia 35,8 20,9 29,7 15,4 43,6
estatstica para um argumento decisivo do ponto de
vista emprico?
B6 (Q19) Evita utilizar a palavra significante com 20,9 37,4 41,2 n.a.
sentidos ambguos?
B7 (includa) O artigo demonstra preocupao com 26,2 n.a. n.a. 23,6
a especificao ou adequao estatstica do modelo?
Fonte: todos os artigos que utilizaram inferncia estatstica na Revista Brasileira de Economia, 2008-
2011. Todos os artigos completos publicados na American Economic Review nas dcadas de 1980 e
1990, conforme anlise de Ziliak e McCloskey (2008a). Todos os artigos publicados na German
Economic Review, conforme anlise de Kramer (2011). *percentual de artigos que receberam sim
dentre os artigos em que a questo se aplica.** Kramer classificou dois erros, a falcia da aceitao e a
falcia da rejeio. Conforme correspondncia com o autor (KRAMER, 2012, comunicao pessoal),
entretanto, no possvel somar os erros, pois possivelmente h artigos que cometeram ambos e, poca
que realizou a classificao, Kramer no os separou. Deste modo, o limite mais otimista que apenas
43,6% dos artigos do GER no confundiram significncia estatstica com econmica e este valor poderia
chegar a expressivos 15,4%.

Alm disso, os demais indicadores corroboram o quadro apresentado. Com relao


questo B1, apenas 02 artigos discutiram o nvel de significncia adotado, em
concordncia com resultados observados por Zellner (1981) ou Keuzenkamp e Magnus
(1995). A despeito de ter se observado amostras de tamanhos diferentes, mtodos de
estimao diferentes (com propriedades assintticas diferentes), multiplicidade de testes
em alguns casos e em outros no, virtualmente todos os artigos utilizaram o mesmo
nvel de significncia89. J com relao questo B7, observou-se que apenas 26,2%
dos artigos demonstraram preocupao com a correta especificao ou com a adequao

89
Alm disso, conforme tambm verificaram Keuzenkamp e Magnus (1995), houve artigos que
confundiram nvel de significncia com nvel de confiana. Tambm foram vistas tabelas com
asteriscos nos coeficientes sem legenda adequada.
127

estatstica do modelo, algo bastante similar ao encontrado por Kramer (2011) na GER.
Em conjunto estes resultados so bastante preocupantes e reforam a ideia de que os
testes de significncia tem servido mais como um ritual do que como genuna
preocupao com o erro amostral na inferncia estatstica.

Os resultados da questo B2, no geral, tambm foram baixos. Todavia,


surpreendentemente, a preocupao com o poder do teste foi de 16,9%, bastante
acima dos 4,5% encontrados por Zellner (1981), dos 4,4% na AER nos anos 80, e
tambm dos 8,0% para o mesmo peridico nos anos 90. O mesmo padro pode ser visto
com relao questo B2.1, que apresentou 16,7% na AER nos anos 80, 44,0% nos
anos 90 e, para os anos de 2008-2011, na RBE, chegou a 81,8%. Tal resultado, mais do
que uma diferena entre os peridicos, pode ser indcio de uma evoluo, ao longo do
tempo, da conscientizao da importncia de se observar o poder dos testes utilizados.
Mais especificamente, o nmero geral (16,9%) esconde um resultado que pode ser
relativamente animador. Nota-se que 91% 90 dos artigos que se preocuparam com o
poder dos testes utilizaram anlise de sries temporais, e o resultado da questo B2 para
este subgrupo seria de 32,1%, melhora ainda mais expressiva. Alis, 64% das
preocupaes concerniram a testes de raiz unitria, com os artigos, em geral, referindo-
se ampla literatura acerca do poder dos testes utilizados (como Augmented Dickey-
Fuller ou Phillips-Perron). Interpreta-se isso como um indcio de que existe demanda
para a anlise de poder e que, muito provavelmente, a rea de sries temporais, em
especial de testes de raiz unitria, tem tido maior avano e divulgao de mtodos para
supri-la. Se realmente for este o caso, frentes de pesquisa que desenvolvam mtodos de
fcil aplicao para anlise de poder (ou severidade), ou at simples surveys que
recuperem trabalhos j feitos na rea e os tornem mais acessveis aos pesquisadores
podem ter impacto significativo na melhoria deste indicador.

A tabela de nmero 11 apresenta as principais estatsticas descritivas dos percentuais de


sim obtidos nas questes do culto da significncia estatstica. Percebe-se forte
assimetria direita, com tanto a mdia e a mediana bastante baixas, bem como desvio
padro relativamente mais alto do que nas questes de magnitude, com coeficiente de
variao prximo a 100% da mesma maneira que nas questes de magnitude, houve
artigos com percentual zero bem como artigos com percentual mximo obtido.

90
Na verdade um desses artigos teve como anlise predominante dados em painel, mas a preocupao
com o poder ocorreu no contexto da anlise de srie temporal.
128

Tabela 11 Resumo dos resultados da avaliao: culto da significncia


(RBE 2008-2011)
Percentual de sim Mdia Mediana DP Mnimo Mximo
Percentual 26,7 14,3 24,7 0,0 100
Fonte: todos os artigos que utilizaram inferncia estatstica na Revista Brasileira de Economia, 2008-
2011.

Em conformidade com a tabela anterior, verifica-se na tabela de nmero 12 que mais da


metade dos artigos encontra-se na primeira classificao, com percentual de sim
abaixo de 20%, chegando, por fim, a apenas uma observao na classificao de 80 a
100%.

Tabela 12 Classificao dos artigos: Culto da Significncia


(RBE 2008-2011)
Percentual de
(0 20) (20 40) (40 60) (60 80) (80 100)
sim
Artigos 35 11 13 7 1
Percentual 52,2 16,4 19,4 10,5 1,5
Acumulado 52,2 68,6 88,0 98,5 100
Fonte: todos os artigos que utilizaram inferncia estatstica na Revista Brasileira de Economia, 2008-
2011.

3.2.4. Vis de publicao e o poder dos testes

Os artigos tambm foram classificados conforme tenham rejeitado ou aceitado a


hiptese nula do trabalho. Como a maior parte das pesquisas utilizou regresses
mltiplas, para classific-las adotou-se o seguinte mtodo: sempre que houvesse uma
hiptese dominante claramente especificada, esta foi considerada como a hiptese nula.
Caso esta no estivesse claramente especificada, mas fosse possvel identific-la pelo
contexto, tambm se considerou esta hiptese como , seguindo DeLong e Lang
(1992). Quando a arbitrariedade de escolher a hiptese principal fosse demasiadamente
grande, o estudo foi classificado como rejeio da hiptese nula caso metade ou mais da
metade dos resultados tenham sido estatisticamente significantes.

Tendo em vista o baixo nmero de artigos classificados como , no se mostrou


adequado estimar a proporo de hipteses nulas no rejeitadas que so verdadeiras,
como feito por DeLong e Lang (1992). Ao invs disso, tomou-se o conjunto de
hipteses nulas no rejeitadas e verificou-se a existncia de hipteses economicamente
129

relevantes na regio aproximada de baixo poder, isto , seguindo o


mtodo proposto por Andrews (1989). Vale frisar que no se quer dizer que realizar
testes com baixo poder seja algo ruim per se afinal, nem sempre amostras grandes ou
com pouco rudo esto disponveis. A ideia aqui seria apenas ter alguma medida,
mesmo que rude, do poder dos testes que falharam em rejeitar a hiptese nula nos
artigos empricos aplicados91.

Conforme pode ser visto na tabela de nmero 13, apenas 15,6% artigos da amostra no
rejeitaram . Este nmero substancialmente menor do que os 28% encontrado, para a
economia, por DeLong e Lang (1992). Mas ainda bastante superior aos verificados em
outras cincias como 3% na psicologia (STERLING, 1959) ou 7,8% em Marketing
(HUBBARD, ARMSTRONG, 1992). Nota-se, ainda, que 80% das hipteses nulas no
rejeitadas tinham poder menor do que 50% para alternativas econmicas relevantes. E
todas elas tratavam de problemas em que a crena a priori de algum efeito era bastante
alta. Isto, de certo modo, corrobora a concluso de DeLong e Lang (1992, p.1270):

[...] os autores, portanto, enfrentam um dilema: artigos que no conseguem


rejeitar a hiptese nula central sero publicados apenas quando os editores
acharem que eles so especialmente interessantes, mas os editores acharo
que eles so especialmente interessantes apenas quando a hiptese nula que
eles testam realmente falsa.

Tabela 13 Vis de publicao e poder dos testes


Artigos Artigos Artigos com baixo poder*
15,6% 84,4% 80,0%
Fonte: todos os artigos que utilizaram inferncia estatstica na Revista Brasileira de Economia, 2008-
2011. A classificao sobre a rejeio ou no de foi feita conforme mtodo utilizado por DeLong e
Lang (1992), Hubbard (1992) e por Sterling (1959). Artigos com baixo poder referem-se a artigos
classificados como em que havia uma hiptese alternativa relevante em regio em que a funo
poder seria menor ou igual a 50%, segundo mtodo proposto por Andrews (1989). Caso o artigo
explicitasse uma hiptese alternativa pontual, esta seria considerada. *As regies somente foram
calculadas para aqueles artigos que forneceram erro-padro para tanto, o que reduziu a amostra,
infelizmente, para apenas 05 artigos.

Evidentemente que apenas o fato de poucos resultados nulos terem sido publicados
no evidncia conclusiva sobre o vis de publicao pode ser simplesmente que, de
fato, todas (ou a maior parte) das hipteses nulas em economia sejam falsas. Entretanto,
tendo em vista a cultura em torno da busca por resultados significantes, e a confuso
entre significncia econmica e significncia estatstica, o vis de publicao parece ser

91
Ademais, da mesma forma que , para ser (aproximadamente) vlido, tambm os pressupostos
dos modelos tem de ser (aproximadamente) vlidos, o que nem sempre o caso.
130

natural. Somem-se a isso trabalhos como os de Kerr, Tolliver, e Petree (1977), Rowney
e Zenisek (1980) ou Atkinson, Furlong, e Wampold (1982) que confirmaram
diretamente esta hiptese para as reas de gerenciamento, sociologia e psicologia, o
vis se torna ainda mais plausvel92.

Julga-se que estes resultados, juntamente com a discusso anterior de cada uma das
questes, com seus respectivos exemplos, expem com clareza a situao do uso dos
testes de significncia estatstica na literatura econmica e a necessidade de se atuar
para reverter este quadro.

92
Os dois primeiros trabalhos realizaram surveys com editores e revisores. J o ltimo solicitou a editores
que analisassem artigos que diferiram apenas com relao significncia estatstica reportada.
131

4) CONSIDERAES FINAIS

Esta dissertao buscou discutir o uso da significncia estatstica nos trabalhos


economtricos aplicados mais especificamente, a confuso entre significncia
estatstica e significncia econmica. Para tanto, na introduo, trouxemos um exemplo
de como esta confuso pode ter consequncias prticas, ilustrando a importncia real de
se fazer a distino o erro poderia ter levado uma corte a requerer a significncia
estatstica para discutir a materialidade jurdica de um caso. Viu-se tambm que o fato
se encontra disseminado em vrias cincias sociais, inclusive na economia, mas que
ainda no havia trabalho especfico para a literatura brasileira o que justificaria a
realizao deste estudo.

No segundo captulo, abordamos algumas noes tericas necessrias para a discusso


do tema. Diferenciamos as abordagens de testes de hipteses de Fisher, Neyman-
Pearson e Bayes, e como o ritual de inferncia atualmente praticado trata-se de um
hbrido que acaba por levar a falcias de aceitao, falcias de rejeio e interpretao
errnea do p-valor, com a consequente confuso entre significncia estatstica e
significncia cientfica. Detivemo-nos, em seguida, discusso do p-valor como
evidncia, distino entre erro amostral e erro real bem como entre diferena
estatstica e diferena substantiva. Ao final, buscou-se ilustrar alguns mtodos que
pudessem amenizar os problemas de inferncia mencionados.

O terceiro captulo tratou da parte emprica. Resgatamos os principais levantamentos


tangencialmente ou diretamente relacionados confuso entre significncia estatstica e
econmica feitos na literatura internacional, como os de Zellner (1981), McCloskey
(1985), DeLong e Lang (1992), Keuzenkamp e Magnus (1995), McCloskey e Ziliak
(1996), Mayer (2001), Ziliak e McCloskey (2004a, 2008a) e Kramer (2011). Verificou-
se o fato, de maneira disseminada, tanto na American Economic Review quanto na
German Economic Review. Desta forma, adaptamos o questionrio de McCloskey e
Ziliak (1996) e analisamos os artigos publicados na Revista Brasileira de Economia, no
perodo de 2008 a 2011.
132

Em virtude dos resultados encontrados, difcil no se lembrar de alguns dos dez


mandamentos da econometria aplicada elencados por Peter Kennedy (2002), tais
como93:

Tu inspecionars seus dados;


Tu estars ciente dos custos de data-mining;
o Corolrio: tu no adorars o
o Corolrio: tu no caars a significncia estatstica com uma espingarda;
o Corolrio: tu no adorars o nvel de significncia de 5%;
Tu no confundirs significncia estatstica com substantiva;
o Corolrio: tu no ignorars poder;
o Corolrio: tu no testars hipteses precisas;
o Corolrio: tu procurars evidncia adicional;
Tu confessars na presena da sensitividade.

Dentro da analogia de Kennedy, estamos pecando bastante: entre outros nmeros,


cerca de 40% dos artigos analisados no apresentaram suas estatsticas descritivas,
pouco mais da metade interpretou cuidadosamente seus coeficientes e menos da metade
discutiu a magnitude de suas estimativas. Apenas 3% dos artigos discutiram o nvel de
significncia adotado e o mesmo nmero foi observado na construo de intervalos de
confiana para se discutir magnitudes; mais de 80% ignoraram o poder dos testes,
aproximadamente 64% dos trabalhos tomaram a significncia estatstica como
argumento decisivo do ponto de vista emprico e apenas 26% demonstraram
preocupao com a especificao ou adequao estatstica do modelo.

Como afirma Abelson (1995, p. xii), estudantes no parecem ter tanta dificuldade com o
aspecto matemtico e operacional da estatstica, mas principalmente em entender o que
esto fazendo em geral, estes se tornam presos a regras e passam a encarar a estatstica
como um rito mdico ou religioso. Assim, apesar de esta dissertao no ter o intuito
de prescrever solues, parece ser necessrio modificar o ensino da econometria nos
cursos de ps-graduao, enfatizando-se mais a anlise descritiva e exploratria de
dados, a meta-anlise, a anlise de sensibilidade, a conexo entre hipteses estatsticas e
substantivas, bem como os fundamentos metodolgicos e filosficos da estatstica;
tambm parece ser produtiva a contraposio de mtodos clssicos e bayesianos e suas

93
Para comentrios acerca do texto de Peter Kennedy, ver Magnus (2002) e Hendry (2002).
133

interfaces com a epistemologia cientfica e a teoria da deciso. Isto deve ser sobreposto
ao ensino de um nico e simples algoritmo de inferncia, como o ritual nulo,
permitindo ao futuro pesquisador a ponderao dos pontos fortes e fracos de cada
abordagem e munindo-o da capacidade de escolher o melhor mtodo segundo o
problema, ou at mesmo de definir adequadamente o seu problema. Alm disso,
tambm parece ser necessrio alterar os critrios de publicao, eliminando os
incentivos busca por resultados significantes. Se os resultados encontrados nesta
dissertao, por um lado, so preocupantes, por outro, em alguns momentos do
indcios de que h demanda para este tipo de abordagem, e que um esforo neste sentido
pode ter resultados muito positivos.

Talvez a principal fragilidade deste estudo seja a possibilidade de erros de codificao,


tanto por conta da subjetividade envolvida, quanto pela exaustiva tarefa de apenas uma
pessoa ler e codificar todos os artigos. Aps a finalizao deste trabalho, ficou claro o
sentido da seguinte passagem de Ellis:

[...] codificao difcil, um trabalho de entorpecimento mental. Ela comea


divertida, mas muitas vezes termina com o revisor abandonando o projeto por
frustrao ou fadiga. Muitos daqueles que conseguem terminar o processo de
codificao no desejam repetir a experincia (ELLIS, 2010, captulo 5).

Realmente, o autor desta dissertao no pretende realizar outro levantamento deste tipo
to cedo. Frisa-se, entretanto, que se buscou ao mximo identificar inconsistncias e
corrigi-las. Alm disso, a discusso extensiva dos exemplos teve o intuito de minimizar
ambiguidades e de trazer casos concretos que deixem claro como o problema se
manifesta. Ademais, ainda que codificaes ambguas ou erradas tenham persistido,
basta o leitor fazer um breve exerccio contra factual para perceber que seria necessria
alterao bastante drstica em quase todas as questes, simultaneamente, para mudar o
quadro apresentado. Argumenta-se aqui que a discusso e os exemplos elencados na
seo 3.2., em conjunto com os resultados obtidos na literatura internacional
apresentados na seo 3.1., e a discusso terica do captulo 2, so suficientes para o
convencimento de que isto implausvel.

Como sugesto de pesquisa futura, volta-se para o fato de a educao ser uma das
provveis causas das questes levantadas. Ziliak e McCloskey (2009, p. 2308), sobre os
Estados Unidos, afirmam que nos departamentos de economia quase todos os
professores de probabilidade, estatstica e econometria alegam que significncia
estatstica a mesma coisa de significncia cientfica. Como vimos, Oakes (1986) no
134

Reino Unido, Flak e Greenbaum (1995) em Israel e Haller e Krauss (2002) na


Alemanha verificaram que o desconhecimento sobre o significado do p-valor
generalizado, inclusive nos professores que ensinam estatstica.

Desta forma, h espao para pesquisas que examinem qual o mtodo de ensino e livros-
textos adotados nos cursos de graduao e ps-graduao em economia, e que
averiguem diretamente qual o grau de compreenso dos mestrandos, doutorandos e
pesquisadores sobre o tema, principalmente quanto interpretao dos testes de
significncia estatstica baseado em p-valores, tomando por base os pontos levantados
em Oakes (1986), Flak e Greenbaum (1995), Haller e Krauss (2002), Gigerenzer (2004),
Gigerenzer, Krauss e Vitouch (2004), Goodman (2008), Gelman e Stern (2006), Mayo e
Spanos (2011) e Ziliak e McCloskey (2008a). Uma anlise sobre este tema talvez seja
capaz de prover um diagnstico mais preciso de onde e como atuar na produo ou
sugesto de novos livros-textos, no desenvolvimento de novas rotinas que venham
como default nos softwares economtricos, na sugesto de padres para o auxlio da
reviso de artigos aplicados entre outras atividades.
135

5) REFERNCIAS BIBLIOGRFICAS

ABELSON, R. Statistics as Principled Argument. New York: Psychology Press,


1995.

ABELSON, R; MILLER, J. Negative Persuasion via Personal Insult. Journal of


Experimental Social Psychology, 3, p. 321-333. 1967.

ACEMOGLU, D.; JOHNSON, S.; ROBINSON, J.A. The Colonial Origins of


Comparative Development: an empirical investigation. American Economic Review, v
91(5), dezembro, 2001.

ACEMOGLU, D.; JOHNSON, S.; ROBINSON, J.A. Institutions as the Fundamental


Cause of Long-Run Growth. Prepared for the Handbook of Economic Growth. 2004.

ANDREWS, D. W. K. Power in Econometric Applications. Econometrica, v. 57(5),


setembro, p. 1059-1090. 1989.

ARMSTRONG, S.A.; HENSON, R.K. Statistical and practical significance in the


IJPTP: a research review from 1993-2003. International Journal of Play Therapy,
13(2), p. 9-30. 2004.
ARROW, K. J. Decision Theory and the Choice of a Level of Significance for the t-
test. In: Olkin et alii., Contributions to Probability and Statistics: Essays in Honor of
Harold Hotelling. Stanford: Stanford University Press. p. 70-78. 1960.
ATKINSON, D. R.; FURLONG, M. J; WAMPOLD, B. E. Statistical Significance,
Reviewer Evaluations, and the Scientific Process: Is There a (Statistically) Significant
Relationship? Journal of Counseling Psychology, 29, p. 189-194. 1982.
BAKAN, D. The Test of Significance in Psychological Research. Psychological
Bulletin, 66(6), p. 423-437, 1966.
BERGER, J. O. Could Fisher, Jeffreys and Neyman Have Agreed on Testing?
Statistical Science, v. 18(1), p. 1-32, 2003.
BERGER, J. O. Statistical Decision Theory and Bayesian Analysis. New York:
Springer-Verlag, 1985.
BERGER, J. O.; DELAMPADY, M. Testing Precise Hypotheses. Statistical Science,
v.2(3), p. 317-352, 1987.
BERGER, J. O.; SELLKE, T. Testing a point null hypothesis: The irreconcilability of P
values and evidence. Journal of the American Statistical Association, v.82(397), p.
112-122, 1987.
BROCK, J. The Power of international business research. Journal of International
Business Studies. 34(1), p. 90-99. 2003.
CALLAHAN, J.L.; REIO, T.G. Making Subjective judgments in quantitative studies:
The importance of using effect sizes and confidence intervals. Human Resource
Development Quarterly, 17(2), p. 159-173. 2006.
136

CASELLA, G.; BERGER, R. L. Reconciling Bayesian and Frequentist Evidence in the


One-Sided Testing Problem. Journal of the American Statistical Association, 82, p.
106-111, 1987a.
CASELLA, G.; BERGER, R. L. Testing Precise Hypotheses: Comment. Statistical
Science, v.2(3), p. 344-347, 1987b.
CASELLA, G.; BERGER, R. L. Statistical Inference. EUA: Thomson Learning, 2002.
CASTRO, SOTOS et alii. Students misconceptions of statistical inference: A review of
the empirical evidence from research on statistics education. Educational Research
Review, 2, p. 98113. 2007.
CASTRO, SOTOS et alii. How confident are students in their misconceptions about
hypothesis tests? Journal of Statistics Education, v. 17, n.2, 2009.
CHRISTENSEN, R. Testing Fisher, Neyman, Pearson, and Bayes. The American
Statistician, Vol. 59, No. 2, p. 121-126. 2005.
CINELLI, C. L. K. Eficincia fraca no Brasil durante crises: evidncias de um teste
de razo de varincias. Trabalho apresentado para obteno de grau de especialista em
Controladoria e Finanas. FUCAPE, Vitria, 2010.
CINELLI, C. L. K. Transferncias voluntrias e corrupo municipal no Brasil:
evidncias preliminares do cadastro de contas irregulares do TCU. Revista Economia e
Tecnologia, Ano 07, V. 27, p. 89-98, 2011.
COBB, G. Book Review. Journal of the American Statistical Association, Volume
104, Issue 488, p. 1716-1720, 2009.

COHEN, J. The Earth is Round ( American Psychologist, 49, p. 997-1003.


1994.
COX, D. R. Some problems connected with statistical inference. Ann. Math. Statist.,
29, p. 357-372. 1958.
COX, D. R. Statistical Significance Tests. British Journal of Clinical Pharmacology,
14, 325-331, 1982.
COX, D. R .Testing Precise Hypotheses: Comment. Statistical Science, v.2(3), p. 335-
336, 1987.
COX, D. R. The role of significant tests (with discussion). Scandinavian Journal of
Statistics, 4, p. 4970. 1977.
COX, D. R.; MAYO, D. A Statistical Scientist Meets a Philosopher of Science: A
Conversation between Sir David Cox and Deborah Mayo (as recorded, June, 2011).
RMM, Vol. 2, 103114, 2011.
COX, D. R; MAYO, D. Frequentist Statistics as a Theory of Inductive Inference. In:
MAYO, D.; SPANOS, A. (eds) Error and Inference. New York: Cambridge University
Press, 2010.
DELMAS, R. C. et alii. Assessing Students conceptual understanding after a first
course in statistics. Statistics Education Research Journal, 6(2), p. 28-58. 2007.
137

DELONG, B. J.; LANG, K. Are all Economic Hypotheses False? Journal of Political
Economy, Vol. 100, No. 6, Centennial Issue, p. 1257-1272, 1992.
DEMING, W. E. Sample Design in Business Research. New York: Wiley, 1961.
DEGROOT, M. H. Doing What Comes Naturally: Interpreting a Tail Area as a
Posterior Probability or as a Likelihood Ratio. Journal of the American Statistical
Association, 68, p. 966-969, 1973.
DEZHBAKHSH, H.; RUBIN, p; SHEPHERD, J. Does Capital Punishment Have a
Deterrent Effect? New Evidence from Postmoratorium Panel Data. American Law
and Economics Review 5: p. 344-376. 2003.
DONOHUE, J.; WOLFERS, J. Uses and Abuses of Empirical Evidence in the Death
Penalty Debate. Stanford Law Review 58: p. 791-846. 2005.
DURLAUF, S.; FU, C. NAVARRO, S. Capital Punishment and Deterrence:
Understanding Disparate Results. Human Capital and Economic Opportunity: A
Global Working Group Working Paper Series, WP 2012-005. 2012.
DURLAUF, S.; NAVARRO, S; RIVERS, D. Understanding Aggregate Crime
Regressions. Journal of Econometrics 158: 306-317. 2010.
EASTERLY, W.; LEVINE, R. Tropics, germs, and crops: how endowments influence
economic development. Journal of Monetary Economics, v. 50, p. 3-39, 2003.
ECONOMIST, THE. Signifying Nothing?, The Economist, 370(8360) January 31,
2004, 71, 2004.
EDWARDS, W.; LINDMAN, W.; SAVAGE, L. Bayesian Statistical Inference for
Psychological Research. Psychological Review, 70, p. 193-242, 1963
ELLIS, P. D. The essential guide to Effect Sizes, Statistical Power, Meta-Analysis,
and the interpretation of Research Results. New York: Cambridge University Press,
2010.
ELIOT, G.; GRANGER, C. W. J. Evaluating Significance: Comments on Size
Matters. Journal of Socio-Economics, 33(5): p. 547-550. 2004.
ENGSTED, T. Statistical vs. economic significance in economics and econometrics:
Further comments on McCloskey and Ziliak. Journal of Economic Methodology,
16:4, p. 393-408, 2009.
FALK, R.; GREENBAUM, C. W. Significance tests die hard. Theory and Psychology,
v. 5(1), p. 7598. 1995.
FIDLER, F; CUMMING, G; BURGMAN, M; THOMASON, N. Statistical Reform in
Medicine, Psychology and Ecology. Journal of Socio-Economics 33(5), p. 615-630.
2004.
FISHER, R. A. Statistical Methods for Research Workers. New York: Hafner
Publishing Company, 14 ed. 1973a. In: BENNET, J. H. (ed.). Statistical Methods,
Experimental Design and Scientific Inference. Oxford: Oxford University Press, 1993.
138

FISHER, R. A. Statistical Methods and Scientific Induction. Journal of the Royal


Statistical Society, Series B (Methodological), Vol. 17, n1, p. 69-78, 1955.
FISHER, R. A. Statistical Methods and Scientific Inference. New York: Hafner
Publishing Company, 3 ed. 1973b. In: BENNET, J. H. (ed.). Statistical Methods,
Experimental Design and Scientific Inference. Oxford: Oxford University Press, 1993.
FISHER, R. A. The Design of Experiments. New York: Hafner Publishing Company,
8 ed. 1971. In: BENNET, J. H. (ed.). Statistical Methods, Experimental Design and
Scientific Inference. Oxford: Oxford University Press, 1993.
GIGERENZER, G.; KRAUSS, S.; VITOUCH, O. The null ritual: What you always
wanted to know about null hypothesis testing but were afraid to ask. In: Kaplan, D.
(Ed.), Handbook on quantitative methods in the social sciences. Thousand Oaks, CA:
Sage, p. 389-406. 2004.
GIGERENZER, G. The Superego, the Ego, and the Id in Statistical Reasoning, in
A Handbook for Data Analysis in the Behavioral Sciences. In: KEREN, G. LEWIS,
C.A. (eds), Methodological Issues. Hillsdale, NJ: Erlbaum, 1993.
GIGERENZER, G. Mindless Statistics. Journal of Socio-Economics, 33(5): p. 587-
606, 2004.
GELMAN, A. ROBERT, C. Not only defended but also applied: The perceived
absurdity of Bayesian inference. 2012. Disponvel em: http://arxiv.org/abs/1006.5366v4.
Acesso em: 25/05/2012.
GELMAN, A.; STERN, H. The difference between significant and not significant is
not itself statistically significant. The American Statistician, 60(November): p.328-
331. 2006.
GLEASER, E. et alii. Do institutions Cause Growth. NBER Working Paper No. 10568,
2004.
GOLDBERGER, A. S. The ET Interview: Arthur S. Goldberger. Econometric Theory,
5, p. 133-160. 1989.
GOODMAN, S. P-Values, Hypothesis Tests, and Likelihood: Implications for
Epidemiology of a Neglected Historical Debate. American Journal of Epidemiology,
137, 485-496. 1993.
GOODMAN, S. A dirty dozen: twelve p-value misconceptions. Seminars in
Hematology. V.45. p. 135-140. 2008.
GRAVES, S. On the Neyman-Pearson Theory of Testing. British Journal for the
Philosophy of Science 29: 1-23. 1978.
GREENE, C. I Am Not, Nor Have I Ever Been a Member of a Data-Mining Discipline.
Journal of Economic Methodology 7:2, p. 217-230. 2000.
GREENE, W. H. Econometric Analysis. New Jersey: Prentice Hall, 2002.
139

GUNDLACH, E.; CARSTENSEN, K. The Primacy of Institutions Reconsidered: Direct


Income Effects of Malaria Prevalence. The world bank economic review, vol. 20, no.
3, p. 309339. 2006.
HALLER, H.; KRAUSS, S. Misinterpretations of significance: A problem students
share with their teachers? Methods of Psychological Research Online. v.7(1), p. 120.
2002.
HANSEN, B. Econometrics. 2012. Disponvel em: http://www.ssc.wisc.edu/~bhansen/.
Acesso em 02/02/2012.
HAYASHI, F. Econometrics. New Jersey: Princeton University Press, 2000.

HENDRY, D. Applied Econometrics Without Sinning. Journal of Economic Surveys,


16, p. 591-604. 2002.
HODGES, J. L.; LEHMANN, E. L. Testing the Approximate Validity of Statistical
Hypotheses. Journal of the Royal Statistical Society. Series B (Methodological), Vol.
16, No. 2, p. 261-268, 1954.
HOFFMAN, R. Estatstica para economistas. So Paulo: Pioneira Thompson
Learning, 2001.
HOGG, R. V.; CRAIG, A. T. Introduction to Mathematical Statistics. New York:
Macmillan Publishing Co, 1978.
HOOVER, K.; SIEGLER, M. V. Sound and Fury: McCloskey and significance testing
in economics. Journal of Economic Methodology, v. 15(1), maro, p.1-37. 2008a.
HOOVER, K.; SIEGLER, M. V. The rhetoric of Signifying nothing: a rejoinder to
Ziliak and McCloskey. Journal of Economic Methodology, v. 15(1), maro, p.57-68.
2008b.
HOROWITZ, J. L. Comments on Size Matters. Journal of Socio-Economics, 33(5):
p. 551-554. 2004.
HUBBARD, R.; ARMSTRONG, J.S. Why We Dont Really Know What "Statistical
Significance" Means: A Major Educational Failure. Journal of Marketing Education,
Volume 28, Issue 2, p. 114-120. 2006.
HUBBARD, R.; ARMSTRONG, J.S. Are Null Results Becoming an Endangered
Species in Marketing?. Marketing Letters, 3 127-136, 1992.
HUBBARD, R.; BAYARRI, M. J. P-values are not error probabilities. Working
Paper Universitat de Valencia. 2003.
HUBBARD, R.; BAYARRI, M. J.; BERK, K.; CARLTON, M. A. Confusion over
Measures of Evidence (p's) versus Errors ('s) in Classical Statistical Testing. The
American Statistician, Vol. 57, No. 3, pp. 171-182. 2003.
JEFFREYS, H. Theory of probability. London: Oxford University Press, 1961.
KADANE, J. B. Testing Precise Hypotheses: Comment. Statistical Science, v.2(3), p.
347-348, 1987.
140

KADANE, J. B. Principles of Uncertainty. EUA: CRC Press, 2011.


KENNEDY, P. A Guide to Econometrics. 6ed. Malden: Blackwell Publishing, 2008.
KENNEDY, P. Sinning in the Basement: What are the rules? The ten commandments of
Econometrics. Journal of Economic Surveys, 16, p. 569-589. 2002.
KERR, S; TOLLIVER , J; PETREE, D. Manuscript Characteristics Which Influence
Acceptance for Management and Social Science Journals, Academy of Management
Journal, 20, 132-141, 1977.
KEUZENKAMP, H. A.; MAGNUS, J. R. On tests and significance in econometrics.
Journal of Econometrics 67, p. 5-24, 1995.
KRAMER, W. The Cult of Statistical Significance: What economists should and should
not do to make their data talk. Schmollers Jahrbuch 131, p. 455 468, 2011.
KRAMER, W. GIGERENZER, G. How to Confuse with Statistics or: The Use and
Misuse of Conditional Probabilities. Statistical Science, Vol. 20, No. 3, p. 223230,
2005.
KRAMER, W; SONNBERGER, H; MAURER, J; HAVLIK, P. Diagnostic checking in
practice, Review of Economics and Statistics 68, p. 118123. 1985.
KRUSKAL, W. S. Tests of Statistical Significance. In: SILLS, David (ed).
International Encyclopedia of the Social Sciences. V.15. MacMillan: New York, 1968.
LEAMER, .E.E. Are the roads red? Comments on Size Matters. Journal of Socio-
Economics, 33(5): p. 355-358. 2004.
LEAMER, .E.E. Lets take the con out of econometrics. The American Economic
Review, v. 73, n 01, p. 31-43, 1983.
LEAMER, E.E. Specification Searches: Ad Hoc Inference with Nonexperimental
Data. New York: John Wiley, 1978.
LEAMER, .E.E. Tantalus on the Road to Asymptopia. Journal of Economic
Perspectives, v.24, n 02, p. 31-46, 2010.
LEHMANN, E. L.; ROMANO, J. P. Testing Statistical Hypothesis. New York:
Springer, 2008.
LEVINE, M.; SCHERVISH, M. J. Bayes Factors: What They Are and What They Are
Not. The American Statistician, Vol. 53, No. 2 p. 119-122, 1999.
LINDSAY, R. M. Incorporating statistical power into the test of significance procedure:
a methodological and empirical inquiry. Behavioral Research in Accounting. V5. P.
211-236. 1993.
LINK, C. W. An Examination of Student Mistakes in Setting Up Hypothesis Testing
Problems. Proceedings of the Louisiana-Mississippi Section of the Mathematical
Association of America. Louisiana, Spring, 2002.
141

LOU, F. The Widest Cleft in Statistics - How and Why Fisher opposed Neyman and
Pearson. School of Economics and Management, Technical University of Lisbon,
WP 02/2008/DE/UECE, 2008.
MADDALA, G.S. Introduo Econometria. 3ed. Rio de Janeiro: LTC, 2003.
MAGNUS, J. The Missing Tablet: Comment On Peter Kennedys Ten Commandments
Journal of Economic Surveys, 16, p. 605-609. 2002.
MAYER, T. A Frequent Misuse of Significance Tests. CESifo Working Paper No.
549, 2001.
MAYER, T. The Empirical Significance of Econometric Models. UCDAVIS
Department of Economics Working paper Series, Paper 06-20, 2006.
MAYO, D. G. An Error-Statistical Philosophy of Evidence. In: M. Taper and S. Lele
(eds.), The Nature of Scientific Evidence: Statistical, Philosophical, and Empirical
Consideration, Chicago, IL: University of Chicago Press, p. 7997. 2004.
MAYO, D. Behavioristic, Evidentialist, And Learning Models Of Statistical Testing.
Philosophy of Science, 52, p. 493-516. 1985.
MAYO, D. Did Pearson Reject the NeymanPearson Philosophy of Statistics?
Synthese, 90, p. 23362. 1992.
MAYO, D. Evidence as Passing Severe Tests: Highly Probed vs. Highly Proved. In
Scientific Evidence, P. Achinstein (ed.), Johns Hopkins University Press, 2005a.
MAYO, D. Philosophy of Statistics. In: S. Sarkar and J. Pfeifer (eds.) Philosophy of
Science: An Encyclopedia, London: Routledge, p. 80215. 2005b.
MAYO, D.; SPANOS, A. Error Statistics. In: BANDYOPADHYAY, P.S.;
FORSTER, M. R. Handbook of the Philosophy of Science. Volume 7: Philosophy of
Statistics. EUA: Elsevier, 2011.
MAYO, D.; SPANOS, A. Severe testing as a basic concept in a Neyman-Pearson
philosophy of induction. British Journal for the Philosophy of Science, 57 (2): 323-
357. 2006.
MAZEN, A.M.; GRAF, L.A., KELLOG, C.E.; HEMMASI, M. Statistical power in
contemporary management research. Academy of Management Journal, 30(2), p.
369-380. 1987.
MCCLOSKEY, D. N. Other things equal: The bankruptcy of statistical significance.
Eastern Economic Journal, 18, 3, 1992a.
MCCLOSKEY, D. N. The Art of Forecasting: From Ancient to Modern Times. Cato
Journal, 12(1), 1992b.
MCCLOSKEY, D.N. Other Things Equal: Cassandras Open Letter to Her Economist
Colleagues. Eastern Economic Journal, 25(3), p. 357363. 1999.
MCCLOSKEY, D.N. The Secret Sins of Economics. Chicago: Prickly Paradigm Press,
2002.
142

MCCLOSKEY, D.N. The Insignificance of Statistical Significance. Scientific


American, 272(4), p. 3233, 1995.
MCCLOSKEY, D.N. Rhetoric within the citadel: statistics. In WENZEL et alii (eds)
Argument and Critical Practice: Proceedings of the Fifth SCA/AFA Conference on
Argumentation reprinted in C. A. Willard and G. T. Goodnight, eds., Public Argument
and Scientific Understanding p. 485-490, 1993.
MCCLOSKEY, D.N. Other Things Equal: Aunt Deirdres Letter to a Graduate Student.
Eastern Economic Journal, 23(2), p. 241244, 1997a.
MCCLOSKEY, D.N. The Vices of Economists; The Virtues of The Bourgeoisie.
Amsterdam: University of Amsterdam Press, 1997b.
MCCLOSKEY, D.N. Two Vices: proof and significance. Speech for the AEA session
at Chicago, 1998.
MCCLOSKEY, D. N. The loss function has been mislaid: the rhetoric of significance
tests. American Economic Review, 25(2): p. 201-205, 1985.
MCCLOSKEY, D. N. The rhetoric of economics. Journal of Economic Literature,
21, p. 481-517, 1983.
MCCLOSKEY, D. N. Why Economic Historians Should Stop Relying on Statistical
Tests of Significance and Lead Economists and Historians into the Promised Land.
Newsletter of Cliometrics Society, v. 2, n 02, 1986.
MCCLOSKEY, D. N.; ZILIAK, S. T. Brief of amici curiae statistics experts
professors Deirdre N. McCloskey and Stephen T. Ziliak in support of respondents:
Matrixx Initiatives, Inc, et al. v. James Siracusano and NECA-IBEW Pension Fund. The
Supreme Court of the United States, 2010.
MCCLOSKEY, D. N.; ZILIAK, S. T . The Standard Error of Regressions. Journal of
Economic Literature, 34, p. 97-114, 1996.
NEYMAN, J. First Course in Probability and Statistics, New York: Holt. 1950.
NEYMAN, J. Note on an Article by Sir Ronald Fisher. Journal of the Royal
Statistical Society. Series B (Methodological), v. 18, n 02, p. 288-294, 1956.
NEYMAN, J.; PEARSON, E. On the Use and Interpretation of Certain Test Criteria for
Purposes of Statistical Inference: Part I. Biometrika, Vol. 20A, No. 1/2, p. 175-240.
1928a.
NEYMAN, J.; PEARSON, E. On the Use and Interpretation of Certain Test Criteria for
Purposes of Statistical Inference: Part II. Biometrika, Vol. 20A, No. 3/4, p. 263-294.
1928b
NEYMAN, J.; PEARSON, E. On the Problem of the Most Efficient Tests of Statistical
Hypotheses. Philosophical Transactions of the Royal Society of London. Series A,
Containing Papers of a Mathematical or Physical Character, Vol. 231, p. 289-337. 1933.
OAKES, M. Statistical inference: A commentary for the social and behavioral
sciences. New York: Wiley. 1986.
143

PATRIOTA, A. A classical measure of evidence for general null hypotheses. 2012.


Disponvel em: http://arxiv.org/abs/1201.0400v1. Acesso em: 05/05/2012.
PEARL, JUDEA. Causality: models, reasoning and inference. New York: Cambridge
University Press, 2010.
PEARSON, E. Statistical Concepts in the Relation to Reality. Journal of the Royal
Statistical Society. Series B (Methodological), v. 17, n 02, p. 204-207, 1955.
PEARSON, E. Some Thoughts on Statistical Inference. The Annals of Mathematical
Statistics, Vol. 33, No. 2, p. 394-403. 1962
ROBERT, C. The Cult of Significance. 2011. Disponvel em:
http://xianblog.wordpress.com/2011/10/18/the-cult-of-significance/. Acesso em:
04/03/2012.
RODRIK, D.; SUBRAMANIAN, A.; TREBBI, F. Institutions Rule: The Primacy of
Institutions over Geography and Integration in Economic Development. NBER
Working Paper 9305. 2002.
RODRGUEZ, M. I. Estudio Terico y Experimental sobre Dificuldades en la
Comprensin del Contraste de Hiptesis en Estudantes Universitarios. Acta
Latinoamericana de Matemtica Educativa, Mxico, v. 19, s/n, p. 162-168, 2006.
ROWNEY, J. A; ZENISEK, T. J. Manuscript Characteristics Influencing Reviewers'
Decisions, Canadian Psychology, 21, p. 17-21. 1980.
SACHS, J. 2003. Institutions Dont Rule: Direct Effects of Geography on Per Capita
Income. NBER Working Paper 9490. 2003.
SALSBURG, D. The lady tasting tea: how statistics revolutionized science in the
twentieth century. New York: Freeman and Company, 2001.
SCHERVISH, M. J. P values: What They Are and What They Are Not. The American
Statistician, Vol. 50, No. 3, p. 203-206, 1996.
SEBASTIANI, R. G.; VIALI, L. Teste de Hipteses: uma anlise dos erros cometidos
por alunos de engenharia. Bolema, Rio Claro (SP), v. 24, n. 40, p. 835-854. 2011
SELKE, T. BAYARRI, M. J. BERGER, J. Calibration of p Values for Testing Precise
Null Hypotheses. The American Statistician, Vol. 55, No. 1, p. 62-71, 2001.
SETH, A.; CARLSON, K.D.; HATFIELD,D.E.; LAN, H.W. So what? Beyond
statistical significance to substantive significance in strategy research. In: BERGH,
D.D.; KETCHEN, D.J. Research in Methodology in Strategy and Management, V.5.
Emerald, p. 3-27. 2009
SHEPHERD, J. Deterrence Versus Brutalization: Capital Punishments Differing
Impacts Across States. Michigan Law Review 104: 203-255. 2005.
SPANOS, A. Review of S. T. Ziliak and D. N. McCloskeys The Cult of Statistical
Significance. Erasmus Journal for Philosophy and Economics, 1 (1), p. 154-164,
2008.
144

SPANOS, A. Statistical Foundations of Econometric Modeling. New York:


Cambridge University Press, 1993.
SPANOS, A. Statistical adequacy and the trustworthiness of empirical evidence:
Statistical vs. substantive information. Economic Modelling 27, p. 14361452. 2010.
SPANOS, A.; MCGUIRK, A. The Model Specification Problem from a Probabilistic
Reduction Perspective. Journal of the American Agricultural Association 83, p.
1168 1176. 2001.
SPIELMAN, S. The Logic of Tests of Significance. Philosophy of Science, Vol. 41,
No. 3, p. 211-226. 1974.
STERLING, T. D. Publication decisions and their possible effects on inferences drawn
from tests of significance or vice versa. Journal of the American Statistical
Association, 54, 30-34. 1959.
SUPREME COURT OF THE UNITED STATES. Matrixx initiatives, Inc., et alii. V.
Siracusano et alii. Certiorari to the United States Court of Appeals for the Ninth
Circuit, 2011.
TVERSKY, A. KAHNEMAN, D. Belief in the law of small numbers. Psychological
Bulletin, v. 76, p. 105-110. 1971.
TVERSKY, A. KAHNEMAN, D. Judgment under Uncertainty: Heuristics and Biases.
Science, New Series, Vol. 185, No. 4157, p. 1124-1131, 1974.
WALD, A. Contributions to the Theory of Statistical Estimation and Testing
Hypotheses. The Annals of Mathematical Statistics, Vol. 10, No. 4, p. 299-326. 1939.
WALD, A. Statistical Decisions Functions. The Annals of Mathematical Statistics,
Vol. 20, No. 2, p. 165-205. 1949.
WAGENMAKERS, EJ. A practical solution to the pervasive problems of p values.
Psychonomic Bulletin & Review, 14 (5), p. 779-804. 2007.
WOOLDRIDGE, J. M. Introduo Econometria: uma abordagem moderna. So
Paulo: Pioneira Thomson Learning, 2006.
WOOLDRIDGE, J. M. Statistical Significance is Okay Too: Comments on Size
Matters. Journal of Socio-Economics, 33(5): p. 577-580. 2004.
ZELLNER, A. Posterior odds ratios for regression hypotheses: General considerations
and some specific results. Journal of Econometrics, v 16, n 01, p. 151-152, 1981.
ZELLNER, A. To Test or not to Test and if So, How? Comments on Size Matters.
Journal of Socio-Economics, 33(5): p. 581-586.2004.
ZILIAK, S. T.; MCCLOSKEY, D. N. Size Matters: The Standard Error of Regressions
in the American Economic Review. Journal of Socio-Economics, 33(5): p. 527-46,
2004a.
ZILIAK, S. T.; MCCLOSKEY, D. N. Significance Redux. Replies to comments by
Elliot, Granger, Horowitz, Leamer, OBrien, Thorbecke, and Zellner. Journal of Socio-
Economics, 33(5): p. 665-75, 2004b.
145

ZILIAK, S. T.; MCCLOSKEY, D. N. The Cult of Statistical Significance: How the


Standard Error Costs Us Jobs, Justice and Lives. Ann Arbor: The University of
Michigan Press, 2008a.
ZILIAK, S. T.; MCCLOSKEY, D. N. Science is judgment, not only calculation: a reply
to Aris Spanoss review of The cult of statistical significance. Erasmus Journal for
Philosophy and Economics, Volume 1, Issue 1, p. 165-170, 2008b.
ZILIAK, S. T.; MCCLOSKEY, D. N. Signifying nothing: reply to Hoover and Siegler.
Journal of Economic Methodology, v. 15(1) , maro, p.39-55. 2008c.
ZILIAK, S. T. ; MCCLOSKEY, D. N. The Cult of Statistical Significance. JSM,
Section on Statistical Education: 2302-19. 2009.
ZIMMERMAN, P. State Executions, Deterrence, and the Incidence of Murder.
Journal of Applied Economics 7: 163-193. 2004.

Potrebbero piacerti anche