Sig PoderTeste TamanhoEfeito

ARTIGO TERICO
Interpretao crtica dos resultados estatsticos:

para l da significncia estatstica
Critical interpretation of statistical results: beyond statistical significance
Interpretacin crtica de resultados estadsticos: mas all de la significancia estatstica
Lus Manuel de Jesus Loureiro*
Manuel Gonalves Henriques Gameiro**
Resumo
Este artigo tem como objectivos a descrio e anlise do processo de tomada de deciso (interpretativo
e conclusivo) em estatstica, quando se recorre a testes de hipteses. apresentada a lgica do processo
decisrio e os conceitos de erros tipo I e II, poder do teste e magnitude do efeito (effect size), demonstrados a
partir da medida d de magnitude do efeito.
O artigo dirige-se a duas situaes crticas: resultados com significado estatstico mas sem significado clnico
efectivo; e resultados sem significado estatstico mas que se devem a problemas relacionados com a natureza
dos fenmenos, effect size pequeno e reduzido tamanho da amostra.
Palavras-chave: erros de inferncia; tamanho do efeito; poder do teste; significncia.
Abstract
Resumen
This paper aims to describe and analyse the decisionmaking process (conclusive and interpretative) in
statistics when performing hypothesis tests. The logic
of the decision process is presented, as well as the
concepts of type I and type II errors, power of the test
and effect size. We also make demonstrations of effect
size d measure.
This paper targets two critical situations: results of
statistical significance but no real clinical significance,
and results without statistical significance but which
are due to problems related to the nature of the
phenomena, small effect size and small sample size.
Este artculo tiene el doble objetivo de describir y el

analizar el proceso de toma de decisin (interpretativo
y conclusivo) cuando se recurre en estadstica a tests
de hiptesis. Se presenta a continuacin la lgica del
proceso decisorio y los conceptos de errores de tipo
I y II, la potencia de la prueba y el tamao del efecto
(effect size), demostrados a partir de la medida d de
tamao del efecto.
El artculo se orienta hacia dos situaciones crticas:
resultados con significado estadstico aunque
sin significado clnico efectivo; y resultados sin
significado estadstico pero que se deben a problemas
relacionados con la naturaleza de los fenmenos,
tamao del efecto pequeo y reducido tamao de la
muestra.
Keywords: inference errors; effect size; power test; significance.
Palabras clave: errores de la inferencia, tamao del efecto,

prueba de potencia, significancia.
* Professor Adjunto da Escola Superior de Enfermagem de Coimbra (ESEnfC

UCPSMP). Doutorado em Sade Mental [luisloureiro@esenfc.pt].
** Professor Coordenador da ESENFC UCPSMP. Mestre em Cincias da
Enfermagem [mgameiro@esenfc.pt].
Revista de Enfermagem Referncia
Recebido para publicao em: 21.08.10

Aceite para publicao em: 04.02.11
III Srie - n. 3 - Mar. 2011
pp.151-162
Introduo
reconhecido o impacto que tiveram, nos domnios
acadmico e cientfico, dois artigos publicados na
dcada de noventa do sculo precedente, um da
autoria de Cohen (1994), com o ttulo The earth
is round (p<.05), o outro de Johnson (1999)
sob o ttulo The insignificance of statistical
significance testing. Eram apontadas, como crticas
e insuficincias, quer a ausncia do clculo de
diferentes medidas (ex: Intervalos de confiana) que
se traduzia em interpretaes abusivas e concluses
inocentes dos resultados dos testes de significncia
estatstica (Wilkinson e APA, 1999), quer ainda uma
subservincia desmedida ao p-level (ou sig.) dos
softwares estatsticos, tomadas como sinnimos e
garante do valor cientfico dos resultados obtidos,
ou mesmo, da qualidade das hipteses formuladas e
desenho utilizados (Glasser, 1999).
Bastar ainda hoje folhear as publicaes cientficas
ou assistir resignadamente s comunicaes em
congressos e simpsios, e todos os outros meios

de difuso cientficos, para ouvir quer as menes
sonantes s relaes ou diferenas estatisticamente
significativas encontradas, escoltadas pela clebre
simbologia p<.05, p<.01 e p<.001 e respectivos
asteriscos ou estrelinhas [*; **; ***], quer a referncia
ns, ou p>.05, sinnimo de um resultado no
significativo de um ponto de vista estatstico.
Em ambos os casos, encontrando-se ou no
diferenas/relaes estatisticamente significativas
nas amostras observadas, no basta acenar com os
p-level (ou sig.), considerando satisfatrio quando
os resultados vm ao encontro do que expectvel,
ou ento, diminuindo/desvalorizando-os (resultados)
quando o no so, relevando o seu significado
efectivo. No Quadro 1, podem observar-se aquelas
que so as reaces dos investigadores, sendo que,
na generalidade das vezes, apenas se d importncia
s significncias estatsticas, omitindo a significncia
prtica.
QUADRO 1 Reaces do investigador s significncias estatstica e prtica

Significncia Estatstica
No significativa
Significativa
Alegria
Aborrecimento
Tristeza
Euforia
Importncia prtica das diferenas observadas

No importante
importante
Fonte: Nester (1996) cit. in. Johnson, (1999, p. 776)
Em ambos os casos, podemos estar perante aquilo

que Johnson (1999) designou como resultados
estatisticamente significativos e substancialmente
insignificantes ou, ento, quando no so
estatisticamente significativos, o investigador escava
as insuficincias e erros, pensando muitas vezes
que agindo dessa maneira lhes consegue atribuir
significado (Johnson, 1999). comum, neste ltimo

caso, o investigador apontar baterias ao tamanho
da amostra, ou questionar da sua aleatoriedade e
representatividade. Relativamente s significncias,
estatstica e prtica, considerando o tamanho da
amostra (n), so apresentadas no Quadro 2 as
consideraes comuns dos investigadores.
QUADRO 2 Consideraes acerca do tamanho da amostra (n) no contexto das significncias

(estatstica e prtica)
Importncia prtica das diferenas observadas
No importante
importante
Fonte: Nester (1996) cit. in. Johnson, (1999, p. 776)
Significncia estatstica
No significativa
Significativa
n bom
n muito grande
n muito pequeno
n bom
Os dois quadros (1 e 2) reflectem uma atitude por

parte dos investigadores que tendem a ver o valor e
qualidade dos resultados a partir das significncias
estatsticas (Glasser, 1999), descurando o conceito de

significncia prtica. Assim, e na afirmao de que uma
relao ou diferena observada estatisticamente
Revista de Enfermagem Referncia - III - n. 3 - 2011
Interpretao crtica dos resultados estatsticos: para l da significncia estatstica
152
significativa ou que os resultados vm ao encontro ou

no, dos de a, b ou c, reflecte-se normalmente uma
insuficincia, quer quanto ao alcance dos resultados,
quer quanto aos limites e fragilidades do prprio
estudo, o que se pode traduzir em leituras aligeiradas
e acrticas.
Ento, para l do esforo entusiasmado dos
investigadores, verificado no relevo que dado ao
debitar de resultados considerados estatisticamente
significativos, o que subsiste destas declaraes
mais ou menos convictas? Qual o fundamento
destas decises e a sua relevncia no contexto
da investigao? Qual o alcance e significado
substantivo dos resultados tidos como sendo, ou
no, estatisticamente significativos?
A resposta a algumas destas questes passa por
entender quer a lgica do processo de tomada
de deciso estatstica (erros comuns envolvidos
tipos I e II), quer, inclusive, o manuseamento de
outras medidas estatsticas, como a de tamanho
ou magnitude do efeito (effect size) e as anlises
do poder dos testes (relacionadas com o erro
tipo II). Torna-se, pois, fundamental reconhecer
que significncia estatstica no sinnimo de
significncia prtica ou clnica (Kendall, 1999;
Tallmadge, 1977), isto porque, um resultado pode
ser estatisticamente significativo e no ter relevncia,
sendo de reter que a substancialidade no se esgota
nos valores de p obtidos. Os objectivos deste artigo
passam, no s, por entender o processo decisrio
em estatstica, mas, sobretudo, contribuir para uma
interpretao crtica dos resultados estatsticos
obtidos, no se cingindo apenas aos valores das
significncias estatsticas.
O processo de deciso em estatstica
Quem recorre estatstica como ferramenta de
tomada de deciso depara-se, antes mesmo de
calcular qualquer medida ou teste estatstico ou ainda
no processo de ensino aprendizagem da disciplina
de investigao, com o conceito de erro. Este um
conceito comum no campo da investigao cientfica,
especialmente quando se recorre aos mtodos
quantitativos, onde a estatstica se assume como uma
ferramenta fundamental. Por exemplo, quando se
utiliza a mdia amostral (estatstica) como estimador
da mdia populacional (parmetro), fala-se de erro
LUS MANUEL DE JESUS LOUREIRO, et al.
padro da mdia ( s / n )1 com o objectivo de

caracterizar a preciso desse estimador. De facto, os
erros aleatrios querem significar aqueles erros que
derivam do acaso, como o caso do erro amostral. A
questo no est tanto em trabalhar com estes erros,
mas na forma de os reduzir ou minimizar, admitindo
que nunca se poder decidir sem um erro associado,
no entanto, ao erro amostral acresce ainda o erro
associado deciso.
Na investigao, seja no mbito da Enfermagem ou
noutros campos do saber, trabalha-se tradicionalmente
com testes de hipteses. Partindo de um corpo
terico formula-se uma ou vrias hipteses e depois,
com base nos dados empricos, tomam-se decises.
Face hiptese o que poder o investigador decidir?
Com que base lgica toma uma deciso?
Um exemplo simples poder servir para compreender
a formulao lgica das hipteses e a sua ligao com
o raciocnio estatstico. Tome-se a proposio de que
todos os cisnes so brancos. Pode-se demonstrar sem
erro (provar) esta afirmao? Naturalmente que no,
pois no se conhecem todos os cisnes e pode-se
colocar a hiptese de que existam alguns de outra
cor. A nica certeza existente prende-se com o facto
de todos os cisnes que se observam serem brancos,
ou seja, a certeza que advm da experincia. Mas se
aparecesse um cisne azul, isso bastaria para provar
que se estava errado, ou seja, para falsificabilizar ou
provar como errada a proposio.
Assim, a regra da lgica subjacente : nenhuma afirmao
ou declarao pode ser provada por inferncia como
verdadeira, mas apenas como falsa. Faz-se recurso
a um procedimento lgico designado por modus
tollens, tambm denominado como procedimento de
falsificao. Este procedimento assenta no facto de uma
observao singular poder conduzir concluso de que
a premissa incorrecta. A utilizao do modus tollens
na estatstica exige a existncia de duas hipteses, a
hiptese nula ou estatstica (H0) e a hiptese alternativa
ou contra hiptese (H1).
Ser utilizado o teste t de comparao de mdias em
grupos independentes como exemplo para explicitar
estas ideias, sendo tambm que este teste um
dos testes mais utilizados na investigao cientfica
publicada.
1
s = s
n melhor
:
n-1
estimativa do desvio padro
populacional (s) a partir do desvio padro amostral (s).
153
As hipteses de nulidade e a hiptese

conceptual ou de investigao
A hiptese nula (H0) a afirmao a priori, aquela que
vai ser posta prova, isto , utilizam-se os resultados
para decidir no sentido de a rejeitar (assumindo que
falsa) ou no rejeitar (assumindo que verdadeira).
traduzida simbolicamente por 1=2. Este processo
anlogo presuno de inocncia do direito penal. At
prova em contrrio, o ru inocente; face s provas,
o juiz ou jurados decidem: culpado ou no culpado.
A inocncia traduzida em estatstica pela condio
de igualdade (1=2). sobre esta relao entre
parmetros que se toma uma deciso, ou se rejeita,
ou no se rejeita a igualdade das mdias e, quando se
rejeita, opta-se pela hiptese de investigao (12)
como uma justificao mais adequada para explicar
o fenmeno.
A hiptese definida por Kerlinger (1980, p. 38)
como um enunciado conjectural das relaes entre
duas ou mais variveis. Hipteses so sentenas
declarativas e relacionam, de alguma forma, variveis
a variveis. So enunciados de relaes, e (...) devem
implicar a testagem das relaes enunciadas. Ainda
que a definio no refira que se podem formular
hipteses univariadas, repare-se que o conceito
inclui o de relao, querendo significar ou definir o
comportamento relativo das variveis. Uma distino
importante, relativamente utilizao do conceito,
a de que quando falamos de hiptese estatstica
referimo-nos a uma relao matemtica entre dois
ou mais parmetros populacionais, quando falamos
de hiptese conceptual, entendida aqui como
hiptese operacional ou de investigao, fazemos
uma afirmao que prev uma relao entre variveis,
por exemplo uma dependente e uma independente
(Runyon et al.,1996). Todavia, na maioria das vezes
a designao das variveis como independentes e
dependentes indevida, para no dizer abusiva, pois
nos tipos de estudos realizados no existe qualquer
tipo de controlo da varivel independente, ainda
assim, um bom meio para distinguir o estatuto das
variveis na investigao.
Ainda relativamente ao conceito de relao, este
encontra-se aplicado regularmente em todos
os tipos de hipteses, no entanto, calculadas
as medidas dos grupos amostrais e os valores
dos testes de significncia, verifica-se que no
apresentada qualquer referncia medida de relao,
especificamente nos testes de diferena de mdias

ou, por exemplo, no teste de diferena de propores
do qui-quadrado (tabelas de contingncia). Contudo,
quando os investigadores recorrem ao coeficiente
de correlao de Pearson, simbolizado a estatstica
pela letra r, sabem que esta medida indica o grau
ou fora e sentido da relao linear entre duas
variveis quantitativas (x e y) na amostra. Se o valor
do coeficiente ou no estatisticamente significativo,
avalia-se a posteriori atravs do teste de significncia
da correlao.
O coeficiente de correlao (r) tem associado um
outro coeficiente, designado por coeficiente de
determinao (r2) que indica a proporo (%) de
variao em y que explicada pela variao em x e
vice-versa. Assim, se r=.40, logo r2=0.16, se r=.70,
r2=0.49 e assim sucessivamente. Se, quando
utilizado o coeficiente de correlao linear de Pearson
para testar uma hiptese, os investigadores referem,
algumas vezes, o valor do coeficiente de determinao
para atestar a relao encontrada entre as variveis
na amostra, noutros testes existe uma resistncia ao
clculo deste tipo de medidas. Por exemplo, se o
investigador recorre ao coeficiente (r) e respectivo
teste de significncia para testar a hiptese de que
existe relao entre a idade dos estudantes do
ensino superior e a permissividade na sexualidade,
sendo a amostra de 960 estudantes, e encontra um
valor de r=.101, com p<.01, deve ser rigoroso na
interpretao deste resultado, isto porque, apesar
de a correlao ser estatisticamente significativa, ela
no se reveste de significado prtico ou substancial
(r2=.01), dado que, nesta amostra to numerosa, a
varincia explicada de 1%.
Nos testes de diferenas de mdias ou no quiquadrado, entre outros, como j se referiu, ocorre
uma situao anloga, mas mais gravosa, pois
ocultam-se muitas vezes os valores das estatsticas
resumo e mesmo da estatstica do teste, acenandose em exclusivo com o valor da significncia (p)
associado ao teste calculado. de referir que existem
medidas para avaliar a fora das relaes, ou das
diferenas, noutra tipologia de testes, como o
caso do mega (w) no teste t, o eta (h) na Anova
de um critrio (quando o factor no comporta uma
ordem intrnseca) e o f (phi) ou o V de Cramer,
no Qui-Quadrado (2), consoante as tabelas sejam
de 2x2 ou LxC. Estas medidas so teis em todas as
circunstncias, mas revelam-se fundamentais para a
154
crtica dos resultados quando as diferenas/relaes

so estatisticamente significativas (Murphy, 1998).
Quando o investigador enuncia, como hiptese do
estudo, que o burnout est relacionado com a
natureza dos cuidados prestados pelos enfermeiros,
imaginando que se avalia e compara o burnout de
enfermeiros de dois servios distintos (internamento
de oncologia e servio de urgncias gerais), ao utilizar
o teste t de diferena de mdias, ele deve calcular
posteriormente a respectiva medida de associao
ou ento, indicar a percentagem de variao no
burnout dos enfermeiros que devida natureza do
servio onde trabalham. De modo prtico responde
a duas questes: a) h evidncia para afirmar que os
nveis de burnout so diferentes? b) Se sim, qual a
substancialidade de tal diferena, ou, se no, a que se
pode dever tal resultado?
No se deve esquecer que os testes de hiptese so
um conjunto de tcnicas de inferncia estatstica que
avaliam a probabilidade de determinados desvios,
diferenas, ou relaes registadas nas distribuies
observadas, serem devidos ao acaso amostral ou
existncia real na populao, tendo por base,
obviamente, observaes realizadas em amostras
(subconjuntos que se pretendem representativos
da populao). tambm necessrio relembrar
que as amostras devero ser no s representativas,
para que se possa generalizar os resultados, mas
tambm aleatrias, permitindo a aplicao da teoria
das probabilidades com a aplicao das tcnicas de
inferncia (as tcnicas de inferncia exigem amostras
aleatrias).
O erro na deciso estatstica analogias
Como se referiu, a deciso estatstica est sujeita ao
erro, como o caso das decises que derivam da
aplicao dos testes de hipteses. Os testes baseiamse nas regras da inferncia negativa, ou seja, parte-se
do pressuposto de que a hiptese nula verdadeira,
semelhana do conceito de presuno de inocncia no
direito penal. At prova em contrrio, todo o arguido
deve ser considerado inocente. Em analogia com os
testes de hipteses, a hiptese nula verdadeira at
que uma evidncia suficientemente forte indique que
essa afirmao incorrecta, com baixa probabilidade
de erro. Exemplificando: a hiptese H0 ser o
acusado ser inocente de ter cometido o crime x, a
contra hiptese H1 ser o acusado ser culpado de ter

cometido o crime x.
No sistema judicial, para que um indivduo seja
condenado necessrio que se apresentem provas
nesse sentido e estas devem ir para alm de uma
dvida razovel. Face s provas obtidas, o juiz toma
uma deciso: considera o acusado culpado ou no
culpado. Se existem semelhanas entre o raciocnio
jurdico e os testes de hipteses, existem tambm
diferenas, nomeadamente, no conceito de prova.
A rejeio da hiptese nula no constitui prova, em
definitivo, de que a hiptese alternativa seja vlida,
isto , trata-se apenas de uma evidncia, muitas vezes
provisria, de que a hiptese nula provavelmente
incorrecta. Mesmo que ela tenha sido declarada como
incorrecta, h possibilidade dela ser verdadeira.
Com os testes de hipteses faz-se do seguinte modo:
formula-se uma H0 e, face ao conjunto de dados
amostrais, toma-se uma deciso: rejeita-se ou no a
hiptese nula. Relembre-se o exemplo j apresentado
de que o burnout est relacionado com a
natureza dos cuidados prestados pelos enfermeiros
Simbolicamente, tem-se H1: m1m2. No entanto,
partindo do princpio de que nada h que justifique,
a priori, que as mdias sejam diferentes, portanto a
H0, hiptese a testar, ser m1=m2, e sobre esta que
se toma a deciso. Quando se rejeita porque existe
uma evidncia suficientemente forte para considerar
que, efectivamente, o nvel de burnout diferente
consoante a natureza dos cuidados prestados pelos
enfermeiros (relacionados com o local de trabalho).
Quando no se rejeita porque as diferenas
observadas nas mdias se podem dever ao acaso
amostral e por isso mesmo se considera m1=m2. Podese encontrar diferenas estatisticamente significativas
entre as mdias dos grupos (p<.05), sendo que, o
trabalho posterior passa por analisar o alcance dessa
significncia.
Como se sabe, muitas vezes cometem-se erros nos
tribunais. No a primeira vez que algum que foi
condenado priso posteriormente colocado em
liberdade, por se ter verificado entretanto que a pessoa
no era culpada. Uma deciso do tribunal acarreta
dois erros possveis, pode-se libertar um criminoso
ou prender um inocente. Na deciso estatstica passase o mesmo. O investigador pode rejeitar a hiptese
nula quando ela de facto verdadeira (erro tipo I), ou
ento no a rejeita quando ela uma afirmao falsa
(erro tipo II). quando se rejeita a hiptese nula que
155
aparecem as clebres expresses: p<.05, p<01 ou

ainda p<.001.
Assim, relativamente aos erros, o erro tipo
I2 designado por alfa (a), define-se como a
probabilidade de rejeitar a hiptese nula quando
ela verdadeira, enquanto o erro tipo II, designado
por beta (b), define-se como a probabilidade de no

rejeitar a hiptese nula quando ela falsa. No quadro
3 esto indicados os dois tipos de erro e enquadradas
as decises estatsticas por analogia com a deciso do
tribunal. Como se pode observar, quatro resultados
so possveis numa deciso.
QUADRO 3 Decises e erros associados - analogia com sistema judicial

A interpretao da realidade
Rejeitamos a H0
Declarado culpado
[O burnout diferente]
Erro tipo I
(a)
Deciso
Correcta
Os factos (a realidade)
(H0 verdadeira) - (na realidade inocente)
[O burnout no diferente]
(H0 falsa) - (realmente culpado)
[O burnout diferente]
Qual dos erros mais importante controlar e

evitar? Na realidade, ambos so importantes, mas
tradicionalmente d-se mais importncia ao erro tipo
I, um pouco como no tribunal. Na dvida, decide-se a
favor do ru, isto , na dvida, prefervel libertar um
criminoso a prender um inocente.
Como se controlam esses erros na estatstica? O
erro tipo I controlado partida, atravs do nvel
de significncia do teste. O investigador decide o
risco que quer correr para rejeitar a H0. Os nveis
de significncia utilizados convencionalmente nas
cincias sociais e humanas, como valor critrio para a
rejeio da hiptese nula, so 5% (0,05) e 1% (0,01),
mas pode-se encontrar tambm 10% (0,10).
O controlo do erro tipo II mais complexo e est
relacionado com o poder dos testes estatsticos. O
risco do erro tipo II afectado por variados factores:
tamanho das amostras, desenhos de investigao,
relacionamento previsto entre variveis, bem como, o
tipo de teste que se utiliza. Normalmente quando se
estabelece um critrio rgido para o a, aumenta-se a
probabilidade de cometer o erro tipo II.
No rejeitamos a H0
Declarado no culpado
[O burnout no diferente]
Deciso
Correcta
Erro tipo II
(b)
Erro tipo II e Poder do teste

Em seguida so apresentados os resultados de dois
estudos (Quadro 4) com base na mesma hiptese,
realizados em duas grandes instituies hospitalares
(A e B) de Portugal Continental, admitindo que
as amostras so equivalentes relativamente s
caractersticas sociodemogrficas dos enfermeiros.
Os resultados da aplicao dos testes (assumidos
os pressupostos de distribuio normal da varivel
na populao e a homogeneidade das varincias) e
as estatsticas resumo so apresentados no mesmo
quadro. O nvel de significncia utilizado (erro tipo I)
para ambos os testes foi de a =.05.
Como pode observar do Quadro 4, a diferena das
mdias do burnout dos enfermeiros estatisticamente
significativa na instituio A (t(138)=-4.643;p=.000),
enquanto na instituio B, a diferena no o (t(58)=1.903;p=.062).
QUADRO 4 Estatsticas resumo e teste t de Student de comparao de mdias do burnout dos enfermeiros
Local:
Urgncia da instituio A
Oncologia da instituio A
Urgncia da instituio B
Oncologia da instituio B
70
70
30
30
20.34
22.94
20.65
22.23
3.45
3.17
3.27
3.16
sem
.41
.38
.60
.58
-4.643
.000
-1.903
.062
Tecnicamente designado por nvel de significncia e simbolizado por . Indica a rea numa distribuio terica de probabilidades
que corresponde condio (valor crtico) de rejeio da hiptese nula.
2
156
Antes mesmo de procurar analisar os resultados

em cada um dos estudos relativamente sua
substancialidade, nomeadamente, calculando outras
medidas que auxiliem no trabalho interpretativo,
deve atentar nos resultados da instituio B. De facto,
ao afirmar que a diferena no estatisticamente
significativa para um nvel de significncia de .05,
pode-se estar a cometer um erro tipo II (Quadro 3),
isto , afirmar que as mdias so iguais quando de
facto no so, o mesmo dizer que no se rejeita a
hiptese nula quando ela falsa.
O erro tipo II (b) tem associado a si o conceito
de poder do teste (1-b). Este erro tem sido
menosprezado na prtica corrente da investigao
em cincias sociais e humanas, mas o seu controle
importante. A sua omisso ou desconsiderao
pode constituir uma grave lacuna no processo de
investigao, especialmente nos casos em que se
assume que as diferenas no so significativas e
todo o processo cessa a, como se os resultados no
tivessem significado ou o desenho de investigao
no precisasse de ser repensado.
O poder do teste pode definir-se como a
probabilidade de correctamente rejeitar uma falsa
H0 ou, dito de outra forma, a probabilidade de
rejeitar a hiptese nula quando ela falsa. Assim,
enquanto no erro tipo I se utiliza 5% ou 1%, comum
referir que o teste deve ter um poder (potncia) de
80% (para b de 20%). No caso das cincias sociais
e humanas, refere-se que o poder nunca dever ser
menor de 50% (Hill e Hill, 2000). Ento, quando no
se rejeita H0 sem mais consideraes, e se tem um
teste com fraco poder, isso pode mostrar alguma
ingenuidade por parte do investigador.
Face aos resultados dos dois estudos, quais as reaes
mais comuns nos investigadores? Naturalmente
que as descritas por Johnson (1999), e referidas no
Quadro 1, ainda que o investigador se cinja leitura
da significncia estatstica. O que distingue estes
dois resultados de facto, para l da significncia e do
tamanho da amostra? So esses aspectos que iro
ser apresentados agora, comeando pelo aspecto
magnitude do efeito (effect size) e, posteriormente,
analisando o poder dos testes estatisticos.
Magnitude do efeito (Effect Size)

Effect size (ES), enquanto conceito estatstico,
traduzido normalmente por tamanho, dimenso
ou magnitude do efeito e pode ser definido como
o grau em que o fenmeno est presente na
populao (Cohen, 1988), isto , diferena efectiva
na populao. Assim, quanto maior for o ES, maior
ser a manifestao do fenmeno na populao. Em
termos prticos, o ES uma medida que codifica
a informao quantitativa crtica encontrada nos
estudos, ou seja, permite estabelecer a diferena
real entre grupos (dois, no caso do teste t). O ES
representado simbolicamente por letras, consoante
o tipo de teste. No caso do teste t a letra o d,
na Anova utiliza-se o f, seguindo a simbologia de
Cohen (1988). De modo genrico, poderemos referir
que estas medidas vm de algum modo dar resposta
significncia prtica dos resultados, seja clnica ou
educacional (Conboy, 2003).
Simbolicamente, o ES no teste t representado pela
letra d (Cohen, 1988), mas existem outras letras
para o designar, consoante os autores (Hedges e
Olkin, 1985; Hunter e Schmidt, 1990). De acordo
com Cohen (1988), convenciou-se que os valores de
d so considerados pequenos se (.20 d < .50);
mdios se (.50 d < .80) e grandes se (d .80). Este
critrio constitui-se como uma referncia resultante
de uma conveno, tendo surgido na dcada de 60 do
sculo precedente, inspirados a partir dos trabalhos
publicados nas reas da Psicologia e da Educao.
Relembre-se que o valor da estatstica do teste t para
grupos independentes dado pela equao (e1),
sendo que gl=n1+n2-2:
Assim, o clculo do d dado pela equao (e2):
de salientar, ainda, que o teste bilateral e que

os grupos em cada estudo so de igual tamanho,
existindo homogeneidade das varincias, da que o
desvio padro seja a mdia aritmtica dos desvios
padres das amostras. No Quadro 5 apresentam-se os
valores do ES calculados para ambos os estudos.
157
QUADRO 5 ES d calculado a partir das estatsticas resumo com recurso frmula e2

Local:
sem
70
70
30
30
20.34
22.94
20.65
22.23
3.45
3.17
3.27
3.16
.41
.38
.60
.58
Repare-se que, considerando as estatsticas como

boas estimativas dos parmetros respectivos, e de
acordo com os valores de Cohen (1988), o valor do
ES do 1. estudo (instituio A) mdio (d=.79),
apesar de prximo do ES grande, enquanto no 2.
estudo o valor considerado pequeno (d=.49),
no entanto, no 2. estudo as diferenas no se
revelaram estatisticamente significativas para
a=.05.
O ES pode ser transformado em r (coeficiente de
correlao ponto bisserial) e vice-versa, quer a partir
do prprio valor do d (equao e3), quer a partir do
t do teste e respectivos graus de liberdade (equao
e4), permitindo por esta via obter a variao explicada
(VE), tal como o coeficiente de determinao (r2)
na correlao, com uma pequena diferena, os
coeficientes do r2 assumem designaes diferentes
no caso dos testes, sendo que, no teste t se designa
por mega quadrado (equao e5).
d (ES)
-4.643
.000
.79
-1.903
.062
.49
Os valores do ES, do r (coeficiente ponto bisserial),

assim como do w2 (VE), encontram-se no Quadro
6. Como se pode observar, o resultado do teste
referente comparao das mdias do burnout dos
enfermeiros da instituio A revela que a diferena (das
mdias) estatisticamente significativa, com um valor
de ES muito prximo do elevado (d=.79; r=.370),
o que indicia um efeito moderado da natureza do
trabalho no burnout dos enfermeiros, sendo o valor
do w2 modesto (13,5%). No que se refere ao estudo
efectuado na instituio B, a diferena das mdias
no se revelou estatisticamente significativa (t(58)=1.903;p=.062), e o valor do ES est prximo do
mdio (ES=.49), com r=.24 e w2=5,9%.
QUADRO 6 ES (d) calculado a partir das estatsticas resumo com recurso frmula e3; e4; e e5
Local:
70
70
30
30
20.34
22.94
20.65
22.23
3.45
3.17
3.27
3.16
Note-se que ambos os valores das medidas de

tamanho do efeito esto no intervalo considerado por
Cohen (1988), como ES mdio, ainda que, no estudo
realizado na instituio B o valor seja de ES=.49,
neste caso a diferena no se revelou estatisticamente
significativa. Considerando que a amostra foi a maior
possvel, resta calcular o poder a posteriori. Neste
sentido vai-se iniciar a apresentao das questes
relacionadas com o poder do teste, referenciadas no
Quadro 3.
d (ES)
(r)
VE (w2)
,79
.37
.135
,49
.24
.059
Poder do teste
O poder dos testes funo (Cohen, 1988; Sedlmeier
e Gigerenzer, 1989; Murphy e Myors, 1998) do tipo
de teste e direccionalidade ou no das hipteses, da
amostra (sensibilidade), do nvel de significncia e do
ES.
A sensibilidade de um teste estatstico , em grande
parte, funo do tamanho da amostra. Relembrese que amostras grandes fornecem estimadores
mais precisos dos parmetros populacionais, isto ,
medida que se aumenta o tamanho da amostra,
158
aumenta a preciso dos estimadores. Os estudos

com amostras de reduzida dimenso, e por isso
com baixa sensibilidade, transportam uma incerteza
considervel quanto inferncia estatstica.
Relativamente ao nvel de significncia utilizada, ele
tambm influencia no poder do teste. Referenciouse que, convencionalmente, so utilizados os valores
de 5% e 1% e algumas vezes 10%. Aumentar o valor
do alpha de 1% para 5% ou 10% aumenta o poder do
teste. Assim, um alpha de, por exemplo, 5% ou 10%
aumenta o poder do teste relativamente utilizao
de 1%. No que respeita ao poder do teste e ao ES, a
relao aponta para que medida que se aumenta o
ES, o poder do teste aumenta.
Voltando ao exemplo que foi referido anteriormente,
ir proceder-se s anlises do poder dos testes. Estas
anlises so, na maioria das vezes, utilizadas nos

desenhos experimentais, mas isso no invalida a sua
utilizao noutro tipo de desenhos, podendo ser
usadas, quer na fase de planeamento dos estudos (a
priori), por exemplo, para determinar o tamanho da
amostra necessrio para um determinado poder ou,
ento, na fase de interpretao dos resultados (a
posteriori) que este caso, especialmente, quando as
diferenas no so significativas.
O clculo do poder do teste pode ser efectuado com
software adequado para o efeito (Faul et al., 2007),
dado que, a estimativa manual obriga utilizao
das tabelas de Cohen (1988). No quadro 7 so
apresentados os valores das medidas de ES, assim
como, as estimativas de poder (1-b) dos testes,
efectuadas com software.
QUADRO 7 Resultados do clculo das medidas de ES e PO

Local:
70
70
30
30
20.34
22.94
20.65
22.23
3.45
3.17
3.27
3.16
De referir que as estimativas do poder do teste na

instituio A mostram que o poder observado (PO)
de 99,5%, enquanto na Instituio B, PO=46%, isto
, tendo como critrio para o poder do teste 80%, ou
mesmo 50%, de acordo com o critrio apresentado
por Hill e Hill (2000), sugerido que a probabilidade
de estar a cometer um erro tipo II elevada.
Neste caso, existindo um ES muito prximo do
mdio, o mais provvel que a no verificao de
diferenas se fique a dever ao tamanho da amostra.
Ento, num novo estudo a realizar, e apontando para
um ES mdio, qual o tamanho de amostra adequado,
supondo que se mantm o a=.05? O tamanho da
amostra pode ser calculado a priori se o investigador
tiver os resultados dos estudos efectuados. Neste
caso, era necessrio, para um poder requerido
de 80% (a=.05) e ES=.50, uma amostra de 130
enfermeiros, 65 em cada grupo. naturalmente
perceptvel porque se refere o efeito do tamanho da
amostra sobre os testes de significncia.
d (ES)
VE (w2)
PO
,79
.37
.135
.995
,49
.24
.059
.460
Concluso
Quando se refere que algo estatisticamente
significativo, tal no quer dizer que seja significativo
do ponto de vista clnico ou educacional.
Provavelmente esse efeito ou diferena no
nulo (na estatstica), pode at ser estatisticamente
significativo, mas pode ser clinicamente irrelevante,
como o contrrio tambm pode ser verdadeiro.
A rejeio da hiptese nula, recorrendo, por
exemplo, ao teste t, pode evidenciar que existe um
efeito significativo e esse efeito pode ser tambm
clinicamente ou educacionalmente significativo. No
entanto, amostras grandes (com pequena variao)
podem conduzir a um problema, verificando-se a
diferena estatisticamente significativa que, todavia,
no tem significado efectivo. Tambm quando se
conclui que uma diferena no significativa, isso
no indica propriamente que as mdias sejam iguais,
ou que no exista um efeito substantivo, significa sim
que no houve evidncia suficientemente forte para
provar que essas diferenas eram significativas. Se
159
houve falha (erro tipo II), pode ter sido pelo facto do
tamanho da amostra ser inadequado.
Muitas vezes, a apresentao dos resultados dos testes
cinge-se apenas aos valores das significncias obtidas.
Repare-se, quando dois estudos sobre a mesma
temtica, mas em amostras diferentes, produzem
valores de p value significativos (p=.05 e p=.001),
-se levado a supor que as diferenas so maiores no
segundo estudo. Se as amostras forem iguais bem
possvel que sim, mas um valor p=.05 num estudo
com amostras de reduzida dimenso, pode reflectir
um efeito maior do que um p=.001 num estudo
que recorreu a uma amostra de grande dimenso.
Tambm, e ainda neste sentido, quando uma dada
temtica estudada em duas amostras com a mesma
dimenso e caractersticas semelhantes, mas o valor
encontrado tenha sido de p=.04 numa, e noutra
p=.06, isso no significa que apenas no primeiro
estudo que existem diferenas e efeito significativos.
O efeito varia de amostra para amostra, assim como o
p value encontrado.
Relativamente ao ES, ele pode ser estimado a
posteriori da colheita de dados (como para a
generalidade dos estimadores) e esse valor pode ser
usado na anlise do poder do teste. O ES um valor
estimado padro e deve ser o menor efeito que seja
importante detectar no caso de uma anlise a priori
para determinar o tamanho mnimo da amostra
necessrio para determinado poder.
O ES no est de todo fora do controlo do
investigador. Se um investigador encontra resultados
estatisticamente significativos num 1. estudo, com
uma amostra de 30 indivduos, isso no significa que
uma amostra de 30 seja suficiente para planear outro
estudo (2. estudo), pois o valor do ES diferente nos
estudos. Poder, at, acontecer que num 2. estudo
o ES seja menor e os resultados estatisticamente
no significativos, assim como, no 1. estudo o valor
estimado a partir da amostra pode ser superior ao
verdadeiro valor. relativamente comum falar-se em
30 sujeitos como sendo uma grande amostra e, por
isso, suficiente para realizar um estudo. Se pensarmos
no valor do ES obtido na maioria dos estudos, o
nmero 30 desprovido de significado, sobretudo se
for para evitar suposies ou pressupostos dos testes
paramtricos, como a normalidade das distribuies,
entrando-se, j, no campo do equvoco. O clculo do
tamanho da amostra feito com base numa previso
do ES.
Igualmente, o valor de 80% para o poder do teste

pode no fazer sentido se no se basear na natureza
da temtica, tipo de desenho de investigao e,
sobretudo, nas consequncias lgicas do erro tipo
II na deciso do investigador. Se no se encontram
diferenas significativas num estudo, a estimao do
poder pode ajudar a reflectir sobre os resultados.
A terminologia inconclusivo refere-se aos casos
em que o investigador, mesmo depois de no ter
encontrado resultados estatisticamente significativos,
considerando o baixo poder e pequeno ES, deve
manter uma forte suspeita sobre os resultados e
pretende question-los.
De facto, a deciso em estatstica complexa
porque est relacionada com todas as fases do
processo de investigao e, principalmente, porque
tem implicaes no desenho de novos estudos.
As revises sistemticas, e no apenas as metaanlises como se faz supor, tal como protagonizadas
e desejadas actualmente, se no forem efectuadas
tendo em linha de conta estas anlises e obviamente
o seu domnio, correm o risco de decalcar os abstracts
ou os quadros e tabelas dos artigos, sem juizo crtico
dos estudos produzidos, para alm de serem ou no
estatisticamente significativos os resultados, com
prejuzo para o que se procura evidenciar.
Referncias Bibliogrficas:
COHEN, J. (1988) - Statistical power analysis for the behavioral
sciences. 2 ed. Hillsdale, New Jersey: Lawrence Erbaum.
COHEN, J. (1994) - The earth is round (p < .05). American
Psychologist. Vol. 49, n 12, p. 997-1003.
CONBOY, J. (2003) - Algumas medidas tpicas univariadas da
magnitude do efeito. Anlise Psicolgica. Srie 21, n 2, p. 145158.
FAUL, F. [et al.] (2007) - G*Power 3: a flexible statistical power
analysis program for the social, behavioral, and biomedical
sciences. Behavior Research Methods. Vol. 39, n 2, p. 175-191.
GLASSER, D. (1999) - The Controversy of significance testing:
misconceptions and alternatives. American Journal of Critical
Care. Vol. 8, n 5, p. 291-296.
HEDGES, L. ; OLKIN, I. (1985) - Statistical methods for metaanalysis. Orlando : Academic Press.
HILL, M.; HILL, A. (2000) - A investigao por questionrio.
Lisboa : Edies Slabo.
HUNTER, J. ; SCHMIDT, F. (1990) - Methods of meta-analysis:
correcting error and bias in research findings. Newbury Park :
Sage Publications.
160
JOHNSON, D. (1999) - The insignificance of statistical

significance testing. Journal of Wildlife Management. Vol. 63, n
3, p. 763-772.
KENDALL, P. (1999) - Clinical significance [Special section].
Journal of Consulting and Clinical Psychology. Vol. 67, p. 283239.
RUNYON, R. [et al.] (1996) - Fundamentals of behavioural

statistics. New York : McGraw-Hill.
SEDLMEIER, P.; GIGERENZER, G. (1989) - Do studies of statistical
power have an effect on the power of studies? Psychological
Bulletin. Vol. 105, n 2, p. 309-316.
KERLINGER, F. (1980) - Metodologia da pesquisa em cincias

sociais: um tratamento conceptual. So Paulo : E.P.V.
TALLMADGE, G. (1977) - The joint dissemination review panel

ideabook. Washington: National Institute of Education and the US
Office of Education.
MURPHY, K.; MYORS, B. (1998) - Statistical power analysis:

a simple and general model for traditional and modern
hypothesis tests. Mahwah, New Jersey : Erlbaum.
WILKINSON, L.; APA TASK FORCE ON STATISTICAL INFERENCE

(1999) - Statistical methods in psychology journals: guidelines and
explanations. American Psychologist. Vol. 54, n 8, p. 594-604.
NESTER, M. (1996) - An applied statisticians creed. Applied

Statistics. Vol. 54, n 4, p. 401-410.
161

Sig PoderTeste TamanhoEfeito

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Sig PoderTeste TamanhoEfeito

Caricato da

Copyright:

Formati disponibili

ARTIGO TERICO

Interpretao crtica dos resultados estatsticos:

Este artculo tiene el doble objetivo de describir y el

Keywords: inference errors; effect size; power test; significance.

Palabras clave: errores de la inferencia, tamao del efecto,

* Professor Adjunto da Escola Superior de Enfermagem de Coimbra (ESEnfC

Revista de Enfermagem Referncia

Recebido para publicao em: 21.08.10

III Srie - n. 3 - Mar. 2011

congressos e simpsios, e todos os outros meios

QUADRO 1 Reaces do investigador s significncias estatstica e prtica

Importncia prtica das diferenas observadas

Em ambos os casos, podemos estar perante aquilo

significado (Johnson, 1999). comum, neste ltimo

QUADRO 2 Consideraes acerca do tamanho da amostra (n) no contexto das significncias

Os dois quadros (1 e 2) reflectem uma atitude por

estatsticas (Glasser, 1999), descurando o conceito de

Revista de Enfermagem Referncia - III - n. 3 - 2011

Interpretao crtica dos resultados estatsticos: para l da significncia estatstica

significativa ou que os resultados vm ao encontro ou

LUS MANUEL DE JESUS LOUREIRO, et al.

padro da mdia ( s / n )1 com o objectivo de

estimativa do desvio padro

populacional (s) a partir do desvio padro amostral (s).

Revista de Enfermagem Referncia - III - n. 3 - 2011

As hipteses de nulidade e a hiptese

especificamente nos testes de diferena de mdias

Revista de Enfermagem Referncia - III - n. 3 - 2011

Interpretao crtica dos resultados estatsticos: para l da significncia estatstica

crtica dos resultados quando as diferenas/relaes

LUS MANUEL DE JESUS LOUREIRO, et al.

contra hiptese H1 ser o acusado ser culpado de ter

Revista de Enfermagem Referncia - III - n. 3 - 2011

aparecem as clebres expresses: p<.05, p<01 ou

por beta (b), define-se como a probabilidade de no

QUADRO 3 Decises e erros associados - analogia com sistema judicial

Qual dos erros mais importante controlar e

Erro tipo II e Poder do teste

Revista de Enfermagem Referncia - III - n. 3 - 2011

Interpretao crtica dos resultados estatsticos: para l da significncia estatstica

Antes mesmo de procurar analisar os resultados

LUS MANUEL DE JESUS LOUREIRO, et al.

Magnitude do efeito (Effect Size)

Assim, o clculo do d dado pela equao (e2):

de salientar, ainda, que o teste bilateral e que

Revista de Enfermagem Referncia - III - n. 3 - 2011

QUADRO 5 ES d calculado a partir das estatsticas resumo com recurso frmula e2

Repare-se que, considerando as estatsticas como

Os valores do ES, do r (coeficiente ponto bisserial),

Note-se que ambos os valores das medidas de

Revista de Enfermagem Referncia - III - n. 3 - 2011

Interpretao crtica dos resultados estatsticos: para l da significncia estatstica

aumenta a preciso dos estimadores. Os estudos

anlises so, na maioria das vezes, utilizadas nos

QUADRO 7 Resultados do clculo das medidas de ES e PO

De referir que as estimativas do poder do teste na

LUS MANUEL DE JESUS LOUREIRO, et al.

Revista de Enfermagem Referncia - III - n. 3 - 2011

Igualmente, o valor de 80% para o poder do teste

Revista de Enfermagem Referncia - III - n. 3 - 2011

Interpretao crtica dos resultados estatsticos: para l da significncia estatstica

JOHNSON, D. (1999) - The insignificance of statistical

RUNYON, R. [et al.] (1996) - Fundamentals of behavioural

KERLINGER, F. (1980) - Metodologia da pesquisa em cincias