Sei sulla pagina 1di 14

Anlise Psicolgica (2003), 2 (XXI): 145-158

Algumas medidas tpicas univariadas


da magnitude do efeito (*)
JOSEPH EDWARD CONBOY (**)

As crescentes crticas ao uso de estatstica


inferencial para a anlise de dados nos estudos
em psicologia e outras cincias sociais, provocaram, ao longo do ltimo quarto de sculo, um
movimento para o desenvolvimento, e maior divulgao, de mtodos alternativos (Conboy,
2002; Glass, 2000; Henkel, 1976; Hunt, 1997;
Lipsey & Wilson, 2001). Uma das respostas s
crticas foi o desenvolvimento (e a redescoberta)
de medidas de effect size, ou seja, a magnitude
do efeito. O uso destas mtricas representa uma
tentativa de substituir o conceito de significncia
estatstica com noes mais teis de significncia prtica especfica (Kirk, 1996), por exemplo
a significncia clnica (Jacobson & Truax, 1991;
Kendall, 1999) e a significncia educacional.
(Tallmadge, 1977). O uso da magnitude do efeito

(*) Agradecimentos: Gostava de agradecer Professora Jesuna M. B. Fonseca, da Universidade do


Algarve, e A. K. Conboy da Universidade de Bowdoin
que comentaram uma verso anterior do trabalho.
Gostava igualmente de mencionar o meu reconhecimento aos responsveis das Bibliotecas Guttman da
Harvard Graduate School of Education e Milbank da
Columbia University que possibilitaram o acesso a algumas das referncias includas no artigo.
(**) Instituto Superior Dom Afonso III, Loul, Portugal.

como mtodo de anlise cada vez mais aceite


por investigadores de diversas disciplinas, quer
nas cincias sociais, quer noutras reas (nomeadamente, na medicina). A tendncia crescente:
Por exemplo, em 1994, a American Psychological Association (APA, 1994) encorajou os
autores de estudos de investigao a relatar medidas de magnitude do efeito. Cinco anos mais
tarde, num reforo a este incitamento, Wilkinson
& APA Task Force on Statistical Inference
(1999) afirmaram que o relato de medidas de
magnitude do efeito, e a sua interpretao face a
efeitos previamente observados, eram essenciais para a boa investigao. Ainda mais recentemente, na quinta edio do seu manual de
publicao, a American Psychological Association (APA, 2001) descreve o relato de magnitudes de efeito como sendo quase sempre necessrio (p. 25). No apenas a APA que se interessa pelo tpico: Outras associaes profissionais de grande influncia, preocupadas com a
qualidade da investigao, tambm tm discutido
os mritos dos mtodos baseados na magnitude
do efeito (Fidler, 2002; Thompson, 2002b).
Embora o relato de magnitudes de efeito j
tenha sido aceite e esteja a ser considerado obrigatrio por parte de um conjunto crescente de revistas da especialidade (Huberty, 2002; Roberts
& Henson, 2002; Thompson, 2002a), um facto
que um grande nmero de investigadores e psiclogos no tm nem formao, nem experincia
145

directa, com essas mtricas. Ao longo do sculo


XX, os testes de hiptese tm constitudo a
ferramenta principal de investigao quantitativa
nos campos da psicologia, educao e outras
cincias sociais. A formao de investigadores
foi, naturalmente, focada nesses mtodos. pois
urgente proceder-se a modificao dos currculos
nessa temtica, sendo que a observao casual
confirma que os contedos programticos de
disciplinas de estatstica e investigao continuam a dar nfase aos testes de hiptese e valores de p em detrimento de medidas de magnitude do efeito. Para alm dessa falta de formao
e prtica especficas, existe igualmente o problema de muitos trabalhos sobre a magnitude do
efeito terem como propsito a descrio de anlises secundrias para efeitos de eventual metaanlise, ou seja, os referidos trabalhos no tratam
da apresentao do problema de clculo de valores de magnitude do efeito relativamente aos dados primrios obtidos pelo investigador.
O propsito deste artigo , ento, o de apresentar aos leitores interessados algumas das formas mais comuns de medidas da magnitude do
efeito e descrever a interpretao prtica de cada
uma. Tal conhecimento necessrio quer para o
investigador que pretende relatar os seus prprios resultados, quer para o estudante cuidadoso
que pretende compreender melhor os trabalhos
publicados por outros investigadores.
A lgica subjacente ao uso de medidas de
magnitudes de efeito, bem como as suas vantagens relativamente aos testes de hiptese, encontram-se descritas noutras publicaes (Conboy, 2002; Glass, McGaw, & Smith, 1981;
Henkel, 1976; Hunt, 1997). Sugere-se que o leitor recorra a tais fontes para informao mais detalhada, mas, de maneira resumida, podemos
aqui referir o problema principal que existe com
o uso de testes de hiptese: A natureza da informao que estes testes fornecem sempre negativa e sempre do tipo tudo ou nada. Nas
cincias sociais muitos fenmenos existem no
mbito de um contnuo de valores possveis. Os
testes de significncia, contudo, apenas permitem resultados dicotmicos: O investigador tem
a opo de aceitar a independncia presumvel
dos factores estudados, ou de rejeitar a probabilidade da independncia; de aceitar que no
existem diferenas entre grupos estudados, ou de
rejeitar a probabilidade de uma diferena zero
146

entre eles. A anlise das magnitudes de efeito,


por outro lado, fornece informao positiva
acerca da grandeza da relao observada entre
factores. Interligado com a questo da natureza
da informao fornecida est o problema do
papel do factor N, a dimenso da amostra estudada, no processo de produzir um valor de p (a
probabilidade de observar uma determinada
diferena ou relao). O valor de p sempre uma
funo de N, seja qual for a importncia prtica
da diferena ou relao observada (Conboy,
2000; Hays, 1981). Deste modo, amostras
grandes podem dar origem a valores reduzidos
de p, exagerando assim a importncia aparente
de diferenas que podem ser, de facto, triviais.
Para alm disso, uma vez que a magnitude do
efeito proporciona informao da intensidade
de relaes, tambm fornece ao investigador
melhor informao acerca da generalizao e
eventual reprodutibilidade dos resultados observados.
Existem numerosas medidas de magnitude
do efeito (Huberty, 2002). Tm sido classificadas
frequentemente em duas grandes categorias: As
diferenas padronizadas e as medidas de varincia contabilizada (Thompson, 2002a). Cooper
(1997), por outro lado, descreve trs categorias
da referida mtrica, tendo-as denominado de
tipo d, (equivalente s diferenas padronizadas),
tipo r (equivalente s medidas de varincia contabilizada) e uma terceira categoria, o odds ratio,
ou seja, o rcio de probabilidades.
Para fins de organizao deste artigo, referemse alguns delineamentos experimentais comuns
enquadrados, sempre que possvel, dentro das
grandes categorias identificadas. O rcio de probabilidades ser tratado numa seco que se
centra na anlise de dados categricos.

DIFERENAS PADRONIZADAS: MAGNITUDES


DE EFEITO TIPO d

A experincia clssica submete um grupo de


sujeitos a um tratamento experimental a fim de
comparar o efeito observado na varivel dependente com o efeito num grupo de controlo, que
no sofre a exposio ao tratamento experimental. A magnitude do efeito, nessa situao experimental, , geralmente, uma diferena padronizada entre os dois valores mdios observados na

varivel dependente. Assim, a magnitude do


efeito dada por:
(1)

d = (ME MC) / DP

Onde:
d a magnitude do efeito;
M E o valor mdio observado no grupo
experimental;
MC o valor mdio observado no grupo de
controlo;
DP uma medida de variabilidade, um desvio-padro.
Deste modo, a magnitude do efeito, tipo d,
uma medida da diferena entre mdias em termos de unidades de desvio-padro. Mas qual a
medida de variabilidade a utilizar? De facto, h
vrias possibilidades: podemos usar o desvio-padro do grupo de controlo, o do grupo experimental, ou ainda alguma combinao dos dois.
Para alm disso, nos clculos, podemos optar por
utilizar o desvio-padro da amostra observada
(com N no denominador) ou a estimativa do desvio-padro da populao, e (com N1 no denominador).
Nesta questo h essencialmente trs posies. Segundo Glass (1976; 2000; Glass, &
Hopkins, 1996; Glass, McGaw, & Smith, 1981;
Smith & Glass, 1977) deve-se usar a estimativa
no-enviesada do desvio-padro da populao do
grupo de controlo. Ento o valor a atribuir ao DP
da frmula (1) seria:
(2)

ec

= [(xi Mc)2 / N1 ]

Onde:
ec a estimativa no-enviesada do desviopadro da populao da qual foi retirada a amostra do grupo de controlo;
xi o valor observado do indivduo i no grupo
de controlo;
MC o valor mdio observado no grupo de
controlo;
N o nmero de elementos no grupo de controlo.
Embora se pressuponha que, em princpio,
existe uma homogeneidade da varincia entre os
dois grupos (experimental e de controlo) aleatoriamente seleccionados da mesma populao,

Glass indica que a interveno experimental pode alterar no s a tendncia central da varivel
dependente no grupo experimental, mas tambm
a sua variabilidade (Glass, McGaw, & Smith,
1981).
Numa posio contrria, Cohen (1988) defende que a melhor estimativa do desvio-padro da
populao encontra-se na variabilidade combinada dos dois grupos, ew (desvio-padro pooled
within groups) dado por:
(3)

ew

= ((eE2 + eC2) / 2 )

Onde:
ew a estimativa no enviesada do desvio-padro da populao pooled within groups;
2
2
eE e eC so as estimativas no-enviesadas
da varincia populacional nos grupos experimental e de controlo (i.e. com N1 no denominador).
Hedges (1981; Hedges & Olkin, 1985) concorda com a posio de Cohen que o termo da
padronizao dever incluir informao no s
do grupo de controlo mas tambm do grupo experimental. Contudo, argumenta que o uso da estimativa no-enviesada da variabilidade da populao inflaciona indevidamente a magnitude
de efeito observada. Assim recomenda que no
denominador da frmula (1) se deve utilizar S w,
ou seja, o desvio-padro pooled within groups :
(4)

Sw = [(SE2 + SC2 )/ 2]

Onde:
Sw o desvio-padro pooled within groups e
SE2 e SC2 so as varincias das amostras observadas nos grupos experimental e de controlo (i.e.
com N do denominador).
Resumindo, podemos definir as trs medidas
mais comuns da magnitude de efeito do tipo diferenas padronizadas, do seguinte modo:
(5)

d de Glass = (ME MC) / eC

(6)

d de Cohen = (ME MC) / ew

(7)

g de Hedges = (ME MC) / Sw

O uso de ew ou de SW no denominador da
frmula (1) pressupe que o tratamento experimental no altera a variabilidade do grupo expe147

rimental. Este pode ser um pressuposto demasiado forte e irrealista. Por outro lado, ew tem a
vantagem de ser uma estimativa no-enviesada
da variabilidade verdadeira na populao, quer a
hiptese nula seja verdadeira, quer no (Glass, &
Hopkins, 1996). Para alm disso, com o desenvolvimento de mtodos de meta-anlise, foi demonstrado que o d de Cohen est menos enviesado que o d de Glass. Note-se tambm que o
valor de g de Hedges ser sempre menor que o
de d de Cohen. Por estas razes, o d de Cohen
tem ganho maior aceitao entre os investigadores. De qualquer forma, ao relatar valores de
magnitude do efeito do tipo diferenas padronizadas, o investigador tem a responsabilidade
de informar os leitores de qual a frmula que foi
utilizada.

INTERPRETAO DA MAGNITUDE DO EFEITO


TIPO d

Vimos que a magnitude do efeito, tipo d, a


quantificao padronizada do aumento, incremento, melhoria ou benefcio que observamos,
devido interveno estudada (pressupondo,
claro, um valor positivo de d). Se aceitarmos o
pressuposto da normalidade da distribuio, este
benefcio pode ser descrito em termos de uma
proporo de sujeitos do grupo experimental
que podemos esperar exceder o valor tpico do
grupo de controlo em intervenes futuras. O
valor da magnitude do efeito, tipo d, permite-nos
chegar a uma estimativa da proporo de sujeitos
num grupo experimental que ter melhor cotao, em estudos futuros, do que o valor mdio do
grupo de controlo. O valor desta proporo
facilmente derivado atravs do pressuposto de
normalidade da distribuio da varivel dependente e de uma anlise de uma tabela de valores
de z que fornece as propores de rea localizada
por baixo de seces da curva normal padronizada (para ilustrao de um exemplo trabalhado, consultar Conboy, 2002). Por exemplo,
uma magnitude de efeito de d= 0.4 implica que,
nos estudos futuros, podemos esperar que
65.54% dos sujeitos num grupo experimental exceder o valor mdio de um grupo de controlo;
d=1.0 implica 84.13%; d=1.4 implica 91.92%.
148

A MAGNITUDE DO EFEITO E A
SIGNIFICNCIA PRTICA

Uma anlise dos valores acima citados leva-nos concluso de que um d= 1.4 representa
um efeito superior a um d= 0.4. Mas ser assim
mesmo? E quo grande suficientemente grande? Esta a questo fundamental da estatstica
aplicada e a pergunta a que os testes de hiptese,
e os seus valores associados de p, respondem
presumivelmente com clareza. Ao adoptar uma
metodologia que enfatiza a magnitude do efeito,
quer como complemento quer em substituio
dos testes de hiptese, no podemos fugir a esta
questo primordial.
Tem havido vrias tentativas de estabelecer
um guio geral que caracterize os nveis de
magnitude do efeito segundo as categorias de
pequeno ou grande. Talvez o mais conhecido seja o esquema de Cohen (1988) que sugeriu d= 0.2 como sendo um efeito pequeno, d=
0.5 como intermdio e d= 0.8 como grande.
Para alguns autores (e.g. Barnette & McLean,
2002b), o estabelecimento dessas categorias foi
um erro grave. Mesmo assim, muitos investigadores agarraram-se a estes termos a fim de facilitar a interpretao dos efeitos observados.
Mas quem fizer isso est por certo a simplificar
demasiado as suas concluses. O prprio Cohen
avisa-nos contra o uso arbitrrio destes termos
indicando que
Os termos pequeno, intermdio e
grande so relativos, no s uns perante
os outros, mas em relao rea cientfica
em que o estudo se insere, ou mais particularmente, relativamente ao contedo e
mtodo de investigao usados num determinado estudo (...) O uso de um quadro
de referncia comum (...) recomendado
somente no caso de no existir nenhuma
base de comparao melhor (1988, p. 25).
Relativamente mesma problemtica, Glass
afirma,
No faz sentido tentar associar regies da
medida de magnitude do efeito com adjectivos descritivos como pequeno,
moderado, grande etc. Desligado de
um contexto de deciso e valor comparativo, no existe valor inerente a uma

magnitude do efeito quer ela seja de 3.5


ou 0.2. Dependendo dos benefcios que
podem ser alcanados a determinado
custo, uma magnitude do efeito de 2.0
pode ser fraca e uma de valor 0.1 pode
ser boa (Glass, McGaw, & Smith, 1981,
p. 104).
Nas duas opinies supracitadas temos exemplos de duas abordagens interpretao de valores de magnitude do efeito e duas noes do
conceito de significncia prtica. Cohen prefere que o efeito observado seja comparado com
efeitos previamente estabelecidos dentro de uma
determinada rea de investigao. Deste modo,
encontrar um efeito de d= 0.3 quando valores
tipicamente observados so na ordem de 0.2,
pode indicar um efeito importante. Mas a observao de um efeito de d= 0.6 por outro lado, pode no ser considerado como importante se os
valores tipicamente observados no mbito da
rea cientfica de interesse forem de ordem de d=
0.8. Glass, por sua vez, advoga que seja efectuada uma anlise de custos e benefcios. Assim,
se os custos de uma determinada interveno forem muito baixos, e os benefcios grandes, um
efeito observado de d= 0.2 pode ter enorme
significncia prtica. Por outro lado, a demonstrao de um efeito de d= 0.6 pode no ter
significncia prtica se os custos forem demasiado elevados.
De qualquer modo, no existe nenhum nvel
de magnitude do efeito que se traduza, automaticamente, em significncia prtica. A significncia prtica ter que ser estabelecida caso a
caso, usando um destes mtodos: uma anlise de
custos versus os benefcios e/ou atravs de uma
comparao com os efeitos previamente observados na mesma rea temtica.

d a magnitude do efeito;
Mps o valor mdio observado no ps-teste;
Mpr o valor mdio observado no pr-teste;
DP uma medida de variabilidade, por exemplo o desvio-padro.
Permanece a polmica da escolha do valor de
DP nesta frmula. Uma vez que h fortes razes
para pressupor uma alterao na variabilidade
numa amostra de sujeitos do pr- para o psteste, o argumento de Glass (no sentido de utilizar o desvio-padro controlo aqui o e do
pr-teste) parece particularmente forte. Por outro
lado, as vantagens j referidas do uso de ew ou
Sw no denominador tambm permanecem na
situao pr-ps. O investigador cuidadoso informar os seus leitores de decises tomadas
nesse sentido e acerca das respectivas justificaes.
Deve-se mencionar que a frmula (8) indicada para a anlise de dados primrios. prtica corrente, no mbito de estudos de meta-anlise, utilizar frmulas para transformar valores
estatsticos (por exemplo t ) em valores de d. Se
for essa a inteno do investigador, imprescindvel relembrar que as frmulas de transformao so diferentes para os delineamentos envolvendo grupos independentes e os de medidas
repetidas. Cortina e Nouri (2000) apresentam as
respectivas frmulas de transformao. Realce-se que, no delineamento de medidas repetidas, a
correlao entre os valores pr e ps um elemento imprescindvel no clculo da magnitude
de efeito obtido base de valores estatsticos.
Por esta razo, o investigador dever sempre relatar o valor da correlao entre valores de pr-teste e ps-teste.

O NDICE DE MUDANA FIEL E A


SIGNIFICNCIA CLNICA
MAGNITUDE DO EFEITO NO ESTUDO
PR-TESTE / PS-TESTE

No caso de um estudo feito com um delineamento pr-teste / ps-teste, a magnitude do efeito dada por:
(8)
Onde:

d = (Mps Mpr / DP)

Uma outra abordagem descrio da magnitude do efeito em estudos que usam um delineamento pr- ps o ndice de mudana fiel (Reliable Change Index-RCI) sugerido por Jacobson
e Truax (1991).
Em questes relacionadas com a eficcia de
uma dada terapia, um objectivo comum descrever se um determinado cliente/paciente demonstrou melhoria em relao sua situao
149

clnica inicial. Sendo assim, no suficiente focar a mudana de mdias de grupos. Para alm
disso, no suficiente descrever melhoria apenas
em relao posio clnica inicial do cliente,
uma vez que um cliente pode ficar melhor sem
ficar bom. Assim, na situao de terapia, o terapeuta tem que responder a duas perguntas: (a)
Ser que a mudana observada no cliente verdadeira? Por outras palavras, ser que a mudana
observada no se deve apenas a erro de medida?;
e, (b) Ser que a mudana observada coloca o
cliente dentro das normas de grupos funcionais?
Com o objectivo de responder a essas questes, Jacobson e Truax (1991) sugerem que a
diferena observada entre o ps-teste e o pr-teste seja dividida pelo erro padro da diferena
(Sdif) a fim de criar um ndice de mudana fiel.
O erro padro da diferena o desvio padro de
uma distribuio terica de mudanas (diferenas) que iro ser observadas numa populao, se
de facto, no houver mudana na populao
(i.e. erros de diferena que sero observveis se
a diferena verdadeira for de zero). Assim, a mudana observada no cliente posta prova relativamente ao erro de medida e fidelidade do
instrumento usado. Aps a verificao de que a
mudana observada verdadeira, ento comparada com as normas previamente definidas.
O ndice de mudana fiel dado por

observada num indivduo, ao longo do perodo


de terapia, em termos de unidades de Sdif de uma
populao em que a mudana verdadeira zero.
Uma vez que esta mtrica, RCI, no nem
muito conhecida nem disponvel atravs de programas como o SPSS (2001), vamos dar um
exemplo especfico do seu clculo e interpretao. Como o ndice RCI especialmente indicado para situaes em que se pretende estabelecer significncia clnica, imaginemos um
grupo de sujeitos depressivos que completa um
percurso de terapia. Antes de iniciar o tratamento
todos os sujeitos respondem a uma escala de sintomas depressivos. A escala tem fidelidade de
= .85 e um desvio-padro de DP = 10. Neste
caso, o erro padro de medida
Sem = 10 x (1 .85) = 3.87
e o erro padro de diferena :
Sdif = (2 x (3.87)2 ) = 5.48
Agora, imaginemos que um dos clientes depressivos teve um valor pr-terapia de 30 pontos
e um valor ps-terapia de 45 na escala utilizada.
Assim o ndice de mudana fiel para esse cliente
dado por
RCI = (45 30 ) / 5.48 = 2.74

(9)

RCI = (Ps Pr) / Sdif)

e o erro padro de diferena dado por:


(10)

Sdif = (2 (Sem)2)

onde Sem o erro padro de medida. Finalmente, o Sem dado por


(11)

Sem = DPx (1r xx )

Onde
Sem o erro padro de medida,
DP o desvio-padro do instrumento
r xx uma estimativa da fidelidade do instrumento.
Assim, tendo disponvel o desvio-padro do
instrumento utilizado e uma estimativa da sua
fidelidade, podemos calcular o Sdif e o RCI.
Deste modo, o ndice RCI relata a mudana
150

O ndice de mudana fiel ensaia, essencialmente, a hiptese de que a mudana observada


no cliente foi de zero. Se um cliente mostrar mudana maior que 1.96 erros padro de diferena,
ento rejeitamos essa hiptese de mudana zero (com confiana de .95) e aceitamos que a
mudana observada verdadeira. No exemplo
acima, uma vez que o valor do RCI atinge um
valor de 2.74 (RCI > 1.96), a mudana observada
ser considerada fiel. Tendo concludo que a mudana fiel, o terapeuta agora compara o resultado do cliente com um valor limiar que indica
se o cliente fica, ou no, dentro das normas de
grupos funcionais.
Jacobson e Truax sugerem a apresentao
dos dados num grfico de disperso, acompanhado de a) uma linha diagonal que representa
mudana zero; b) ponto normativo limiar que
indica funcionamento normativo (representado
por uma linha tracejada horizontal); e c) o inter-

FIGURA 1

ndice de mudana fiel: Dados fictcios apresentados no formato recomendado por Jacobson
& Truax (1991)

valo de confiana (1.96 Sdif) volta da linha de


mudana zero. Apresenta-se na Figura 1 um
exemplo em que trs indivduos ficam situados
na zona que indica que as mudanas observadas
no so fiis (um caso mostra deteriorao, um
fica precisamente no ponto de mudana zero,
e um terceiro apresenta-se com mudana positiva
mas no fiel); quatro casos situam-se na zona
representando mudana fiel sem terem alcanado
o valor limiar para serem considerados parte do
grupo funcional; e cinco clientes mostram mudana fiel bem como a passagem para o grupo
funcional.

MEDIDAS DE VARINCIA CONTABILIZADA:


MAGNITUDES DE EFEITO TIPO r

As medidas mais comuns do tipo varincia


contabilizada so r2 e R2, eta2 (2), e omega2
(2). A primeira, r2 , tambm conhecida como o

coeficiente de determinao, diz-nos qual a proporo de variabilidade contabilizada (explicada) por uma relao linear entre duas variveis.
Assim, a correlao r =.50 d origem a um
valor de r2 = .25, ou seja 25% da variabilidade
observada explica-se atravs de uma possvel
relao linear entre os dois factores. O coeficiente de correlao mltipla, R, quando elevado
ao quadrado, d-nos a proporo da varincia
explicada por uma relao linear entre uma varivel prevista e um conjunto de variveis de
previso. Os coeficientes r2 e R2 so as medidas
de magnitude do efeito mais comuns na investigao efectuada com uma anlise correlacional
e de regresso. No caso de se utilizar, como
vulgar hoje em dia, um software estatstico,
pode constatar-se que este tipicamente relata
no s o R2 mas tambm o R2 ajustado (uma vez
que o R2 baseado numa amostra sobre-estima,
em geral, o valor na populao). Se utilizar um
valor de R2 como uma magnitude do efeito, o
151

investigador dever ter o cuidado de distinguir


qual o valor que relata, R2 ou R2 ajustado.
Na situao de Anlise da Varincia Oneway,
as medidas frequentemente relatadas so de 2 e
2 . Essas medidas de magnitude do efeito so
apenas vlidas, contudo, se os nveis da varivel
independente forem ordenados: por exemplo, se
a varivel independente fosse a administrao de
uma nova droga anti-depressiva e os nveis fossem constitudos por grupos de sujeitos que receberam 0.1 mg, 0.2 mg, 0.3 mg e 0.4 mg. Neste
caso, a ordenao dos nveis da varivel independente evidente e invariante. Por outro lado,
se os nveis da varivel independente fossem trs
diferentes drogas anti-depressivas e um placebo,
ento o uso de 2 ou 2 seria incorrecto uma vez
que no existe nenhuma seriao evidente dos
valores da varivel independente. Nesse caso, a
soluo mais tpica a de relatar magnitudes de
efeito de contrastes planeados: Droga 1 vs. Placebo; Droga 2 vs. Placebo, Droga 1 vs. Droga 2,
e assim por diante.
Se existirem apenas dois nveis da varivel
independente, quer o 2 quer o 2 podem ser utilizados como uma medida de magnitude do efeito, mas nesta situao mais tipicamente relatado um valor de uma das verses de magnitude
do efeito do tipo d.
O clculo de 2 dado por
(12)

2 = (SStotal SSerro) /SStotal

Vrios autores notaram que 2 se encontra enviesado positivamente (Hays, 1981; Huberty,
1994). Hays props ento 2 como uma alternativa no enviesada: O clculo de 2 dado por
(13) 2 = (SStrat (k 1) MSerro) / (SStotal +
MSerro)
Barnette e McLean (2002a) descreveram a
relao entre d, 2 e 2 . Estes autores realizaram um estudo tipo Monte Carlo e concluram
que a relao entre 2 e 2 linear e previsvel
seja qual for a dimenso da amostra. Contudo, a
relao entre estas medidas e d mais varivel:
Quando o nmero de grupos analisados de k=2,
a relao essencialmente linear; mas nas situaes de k > 2 essa relao desmantela-se rapidamente.
Ainda no se encontram bem desenvolvidos
152

mtodos de clculo da magnitude do efeito em


modelos de ANOVA mais complexos. O leitor
dever consultar os trabalhos de Cortina e Nouri
(2000) e Cooper e Hedges (1994) para uma anlise mais profunda sobre este assunto. Nos delineamentos experimentais analisados por tais
modelos mais complexos, a abordagem mais
simples a de efectuar uma srie de contrastes
especficos sempre entre dois grupos, que resulta
no relato de um dos valores do tipo d.

MAGNITUDES DE EFEITO PARA DADOS


CATEGRICOS

Depois de efectuar uma anlise do cruzamento de duas variveis nominais e a anlise de frequncias por clulas, enfrentamos o mesmo problema que surge relativamente aos testes paramtricos: nem o valor da medida estatstica,
nem o valor associado de p, nos dizem alguma
coisa sobre a intensidade da relao entre as duas
variveis. O 2 significativo, por exemplo, implica apenas que o investigador rejeita a probabilidade de independncia total das duas
distribuies. Assim, aps ter efectuado uma
anlise do tipo 2, aconselhvel calcular e relatar uma estimativa da magnitude do efeito. Dependendo da situao experimental, existe uma
srie de medidas teis e ao dispor do investigador. Algumas (por exemplo , , e V de Cramr) j foram descritas por Siegel (1975) e
Hays (1972; 1981) e encontram-se, geralmente,
disponveis como opes em SPSS verso 11.0,
(Analyze>Descriptive Statistics>Crosstabs/ Statistics). Outros, como BESD e o Rcio de Probabilidades, so menos conhecidos.

e2
O uso do coeficiente phi ( ) mais indicado
na situao em que a tabela de contingncia tem
apenas duas colunas e duas filas. Aps ter
efectuado uma anlise de 2 , o valor desse
coeficiente dado por
(14)

= (2 / N)

Tal como o r de Pearson, o coeficiente pode


variar entre 1 e +1. Se os valores das duas varveis puderem ser considerados como sendo dicotmicos e ordenados (codificados 1 ou 0),

ento pode-se demonstrar que = r (Hays,


1972). Sendo assim, o valor de 2 (dado simplesmente por 2 / N ) pode ser tratado como
uma medida de varincia contabilizada tal como
r2 . Embora o 2 possa ser relatado para tabelas
com mais de duas colunas ou filas, essa mtrica
perde a sua utilidade em tal circunstncia uma
vez que o limite superior poder ento exceder
1.0.
BESD
Aps o clculo de um valor , ou de um valor
r, possvel construir uma representao terica
que ilustre o aumento revelado pelos dados a
respeito da taxa de sucesso. Esta representao
constitui-se na forma de um quadro de dupla
entrada no qual a informao proveniente dos
dados colocada em categorias dicotmicas.
Rosenthal e Rubin (1982) referem-se a este tipo
de representao como um Binomial Effect Size
Display (BESD). especialmente til na situao de meta-anlise quando o investigador quer
interpretar o significado de um valor mdio de r
calculado base de uma srie de estudos independentes. O valor de r transformado e apresentado numa tabela de contingncia, 2 x 2,
com a atribuio de valores iguais a todos os
valores marginais. As linhas correspondem a
uma varivel independente ou de previso, e as
colunas a uma varivel dependente ou prevista.
Como exemplo, pensemos numa srie de estudos
genricos que envolvem a aplicao de um

Tratamento versus um Placebo. Suponhamos


que se observa, neste estudo, uma correlao
mdia entre as duas variveis de r = .40 . Qual
seria o significado de tal correlao se os resultados fossem simplificados em Melhoria
Observada e Melhoria No Observada?
Constri-se a tabela BESD (Quadro 1), atribuindo partida valores iguais nas margens. A
taxa de sucesso, calcula-se por
(15)

.50 + r / 2

e a taxa de insucesso (ou seja, sucesso associado com o placebo) calcula-se por
(16)

.50 r / 2

A interpretao do BESD simples e directa.


Se no existisse nenhum efeito do tratamento (i.
e., no caso de r = 0), os valores calculados
seriam todos .50. No entanto, o que se verificou,
com base na correlao de r = .40, foi que a
aplicao do tratamento neste estudo aumentou a
taxa de sucesso de .30 para .70. ( importante
lembrar que estas propores no representam os
dados brutos observados, mas sim, uma representao terica do que se pode esperar em futuros estudos com base na correlao observada).
A grande utilidade do BESD que nos permite
responder a questes como: Se, numa determinada populao, metade dos elementos for admi-

QUADRO 1

Binomial Effect Size Display (BESD) que tem por base r = .4


Resultado
Melhoria Observada

Melhoria No Observada

Total

Tratamento

.70

.30

Ntratamento

Placebo

.30

.70

Nplacebo

Nmelhoria

Nno melhoria

Total

Nota: Ntratamento = Nplacebo = Nmelhoria = Nno melhoria

153

nistrado um tratamento e outra metade um placebo, e se metade da populao melhora e a outra metade no, qual o aumento na taxa de sucesso que podemos esperar observar devido ao
efeito do tratamento? Wolf (1986, p. 33) fornece
uma tabela indicando o aumento na taxa de sucesso para vrios valores de r.
V de Cramr
O coeficiente um caso especfico da medida mais generalizada V de Cramr. Nomeadamente, V = se o nmero de colunas e linhas
na tabela de contingncia for de dois (Iversen &
Gergen, 1997). Sendo assim, o uso de V como
uma medida de magnitude do efeito especialmente indicado quando o nmero de colunas ou
linhas na tabela de contingncia for maior que
dois. O clculo desta mtrica dado por
(17)

V = [(2 / N (L-1)]

onde L representa o mais pequeno dos dois


nmeros, o nmero de linhas e o nmero de colunas. Diferentemente do coeficiente , V assume valores entre 0 e +1 (os valores perto de 0
indicam a independncia dos factores, enquanto
valores perto de 1 indicam dependncia). Assim,
os valores de V no devem ser interpretados como indicando varincia contabilizada.

de Goodman e Kruskal
At que ponto ser possvel prever a preferncia de um aluno em relao apresentao de
matria curricular, se soubermos qual o estilo de
aprendizagem do aluno? Para responder a esse

tipo de pergunta podemos recorrer ao ndice de


Goodman e Kruskal. Lambda um ndice de
associao previsvel com valores possveis
entre 0 e +1. Um determinado valor de lambda
diz-nos at que ponto a informao numa varivel nos ajuda a prever o valor de uma segunda
varivel. O valor de 0 implica que o conhecimento relativamente categoria a que pertence
um sujeito, numa varivel, no nos fornece informao nenhuma que ajude a prever a categoria do sujeito numa segunda varivel. Um
valor de +1 implica que tal conhecimento fornece toda a informao necessria para prever
com preciso a categoria da segunda varivel.
No referido exemplo, para calcular , realizase primeiro o somatrio das frequncias celulares mximas observadas para cada estilo de aprendizagem (sublinhadas no Quadro 2), depois subtrai-se o valor mximo observado na coluna de
frequncias totais para as diferentes categorias
(igualmente sublinhado). Divide-se o resultado
obtido pelo resultado da subtraco entre o nmero total de observaes e o valor mximo observado na coluna de frequncias totais. Assim,
para os dados do Quadro 2:
= (150 + 90 + 90 250) / (410 250) = .50
A interpretao de lambda muito fcil de
compreender: A disponibilidade de informao
sobre uma varivel reduz a probabilidade de erro
na previso do valor da segunda varivel por x
100%. Seguindo o exemplo, se tivermos disponvel informao acerca do estilo de aprendizagem de um aluno (A, B, ou C), reduz-se em 50%

QUADRO 2

Dados fictcios para o clculo de de Goodman e Kruskal


Preferncia

Estilo A

Estilo B

Estilo C

Total

Verbal

150

90

10

250

Visual

30

40

90

160

Total

180

130

100

410

154

a probabilidade de errar ao prever a posio daquele aluno relativamente preferncia por apresentao verbal ou visual.
O Rcio de Probabilidades
Odds ratio (Haddock, Rindskopf, & Shadish,
1998; Rudas, 1998) pode ser traduzido como rcio de probabilidades, rcio de diferenas, disparidades de proporo ou at rcio de partido
ou aposta. A ideia simples para quem j trabalhou com tabelas de contingncias e lembra-nos a situao que requer uma anlise do tipo
qui-quadrado. O rcio de probabilidades muito
comum nos estudos mdicos de sobrevivncia
uma vez que associa a presena de um factor
(por exemplo, Tratamento versus Placebo) com
um acontecimento (por exemplo, Sobrevivncia
versus Morte). Imagine um estudo no mbito da
reinsero social. Um grande nmero de reclusos, prestes a sair da priso, participa em dois
programas de interveno com vista sua
reinsero na sociedade. Realiza-se um estudo
longitudinal a fim de avaliar a eficcia dos dois
programas, P1 e P2. Pergunta-se, aps um perodo de cinco anos, qual a taxa de reincidncia
nos dois grupos? Apresentam-se no Quadro 3
dados fictcios para um tal estudo.
primeira vista parece que o programa de
interveno P1 foi mais eficaz que o programa P2
e podemos efectuar uma anlise do tipo qui-quadradro para ensaiar a hiptese de independncia
de programas de interveno e o resultado em
termos de reincidncia. A fim de descrever a
magnitude de efeito, contudo, determinamos o
rcio de probabilidades (RP). O rcio dentro do
programa P1 de 75:25, ou 3:1 a favor da situa-

o recluso consegue manter uma vida social


sem voltar priso. Dentro do programa P2 o
rcio de 60:40 ou 3:2. Se o tipo de programa
no constituir um factor em termos de reincidncia, esperamos um RP igual a 1.0. No caso
do exemplo, o rcio das probabilidades (RP= 3:1
/ 3:2) igual a 2. O recluso que participa no programa P1 tem duas vezes mais a probabilidade
de ficar fora da priso aps cinco anos que o
recluso que participa no programa P2 um resultado no necessariamente evidente quando se
comparam os valores sucesso de 75% versus
60%. Assim o rcio de probabilidades fornece
uma medida mais concreta da magnitude do
efeito do que um mero valor de qui-quadrado ou
do valor de p que lhe est associado.
Como indicaram Haddock, Rindskopf, e
Shadish (1998), o investigador pode preferir relatar o logaritmo natural do RP em vez do valor
bruto do mesmo. Uma vez que o logaritmo natural de 1 zero, este procedimento tem a vantagem de transformar a escala de RP de tal modo
que um valor de zero represente a ausncia total
de associao entre o tratamento e o resultado.

A QUESTO DOS INTERVALOS DE


CONFIANA

Uma das recomendaes do Task Force da


APA (Wilkinson et al., 1999) secundada por
Thompson (2002b), a de que investigadores
devero relatar os intervalos de confiana volta de medidas de magnitude do efeito. Segundo
Cortina e Nouri (2000), os procedimentos para o
clculo de intervalos de confiana volta de me-

QUADRO 3

Rcio de probabilidades: Dados fictcios para um estudo de taxa de reincidncia aps cinco anos
Programa de Reinsero Social
P1

P2

Participantes fora da priso aps cinco anos

75%

60%

Participantes em priso aps cinco anos

25%

40%

155

didas de magnitude do efeito so iguais aos procedimentos para calcular um intervalo volta de
outras estatsticas, por exemplo, volta de um
valor mdio: Primeiro, calcula-se o erro padro
de d e seguidamente multiplica-se esse valor por
um valor crtico da escala de z (por exemplo,
1.96, a fim de criar um intervalo de confiana de
95%). O produto desses factores ento somado
e subtrado do valor observado de d, produzindo
os limites superiores e inferiores do intervalo.
Contudo, este procedimento foi questionado
por alguns autores (Cumming & Finch, 2001;
Steiger & Fouladi, 1997; Thompson, 2002b)
que defendem que a determinao dos limites
superior e inferior dos intervalos volta de
magnitudes de efeito dever ser efectuada
usando distribuies no-centrais. Uma anlise
mais aprofundada desta polmica extravasa o
presente trabalho. A temtica apenas mencionada de forma cursiva no sentido de alertar o leitor para o facto de que, embora a incluso de intervalos de confiana volta de magnitudes de
efeito seja um objectivo desejvel, no necessariamente uma tarefa simples. No futuro, face a
um maior desenvolvimento das metodologias
de medidas estatsticas de magnitude do efeito,
por certo esta questo vir a ser clarificada.

CONCLUSO

As medidas de magnitude do efeito so ferramentas estatsticas genericamente teis quer em


estudos isolados quer na situao de metaanlise (Lipsey, & Wilson, 2001). Estas mtricas
facultam informao respeitante intensidade de
relaes entre variveis, ou seja, ao grau de divergncia entre a hiptese nula e os resultados
observados.
Neste artigo foram tratadas as medidas mais
comuns da magnitude do efeito: a da experincia
clssica que inclui um grupo de controlo e um
grupo experimental, a situao pr-teste/psteste, os estudos de correlao e regresso, a anlise de varincia, e o caso da anlise de dados categricos. Seguindo as numerosas recomendaes recentes (APA, 2001; Barnette, & McLean,
2002b; Thompson, 2002b; Wilkinson et al.,
1999), os investigadores em cincias sociais,
comportamentais, mdicas e educacionais
devero ter o cuidado de relatar magnitudes de
156

efeito adequadas aos seus dados. Os agentes de


formao em estatstica e metodologias de investigao devero incluir estes tpicos nos seus
planos curriculares. Os mtodos de aplicao da
magnitude de efeito esto actualmente bem desenvolvidos para as situaes de delineamentos
experimentais mais simples e comuns.
Questes ainda em aberto sobre o tpico
incluem aquelas relacionadas com modelos de
anlise mais complexos: os procedimentos para
o clculo de magnitude do efeito ficam progressivamente mais intrincados com delineamentos
mais complexos. Para alm dessa questo, o
uso de intervalos de confiana volta de valores
de magnitude de efeito recomendado mas, por
enquanto, o assunto est insuficientemente desenvolvido para o investigador avanar no seu
uso com a desejada confiana.

REFERNCIAS
APA (1994). Publication manual of the American Psychological Association (4 edio). Washington,
DC: Autor.
APA (2001). Publication manual of the American Psychological Association (5 edio). Washington,
DC: Autor.
Barnette, J., & McLean, J. (2002a, Abril). Shedding
light on the eta-square and omega-square relationships with the standardized effect size. Paper presented at the annual meeting of the American Educational Research Association. New Orleans, LA.
Barnette, J., & McLean, J. (2002b, Abril). The need to
abolish the arbitrary effect size standards. Paper
presented at the annual meeting of the American
Educational Research Association. New Orleans:
LA.
Cohen, J. (1988). Statistical power analysis for the behavioral sciences. Hillsdale, NJ: Erlbaum.
Conboy, J. (2002). A magnitude de efeito como forma
de anlise em cincias sociais. Lusiada Psicologia, 1 (1), 187-210.
Conboy, J. (2000). Estimando a dimenso do N de uma
amostra. INUAF Studia, 1 (2), 227-274.
Cooper, H. (1997). Some finer points in meta-analysis.
In M. Hunt (Ed.), How science takes stock: The
story of meta-analysis (pp. 169-181). New York:
Russell Sage Foundation.
Cooper, H., & Hedges, L. (1994). The handbook of research synthesis. New York: Russell Sage Foundation.
Cortina, J., & Nouri, H. (2000). Effect size for ANOVA
designs. Thousand Oaks, CA: Sage.

Cumming, G., & Finch, S. (2001). A primer on the


understanding, use, and calculation of confidence
intervals that are based on central and non-central
distributions. Educational and Psychological Measurement, 61, 532-575.
Fidler, F. (2002). The 5th edition of the APA Publication Manual: Why its statistics recommendations
are so controversial. Educational and Psychological Measurement, 62 (5), 749-770.
Glass, G. (2000). Meta-analysis at 25. Retirado do
World Wide Web em 1 de Fevereiro de 2002:
http://glass.ed.asu.edu/gene/papers/meta25.html
Glass, G. (1976). Primary, secondary, and meta-analysis
of research. Educational Researcher, 10, 3-8.
Glass, G., McGaw, B., & Smith, M. (1981). Meta-analysis in social research. Beverly Hills, CA: Sage.
Glass, G., & Hopkins, K. (1996). Statistical methods in
education and psychology, Third Edition. Needham
Heights, MA: Allyn & Bacon.
Haddock, C., Rindskopf, D., & Shadish, W. (1998).
Using odds ratios as effect sizes for meta-analysis
of dichotomous data: A primer on methods and
issues. Psychological Methods, 3 (3), 339-353.
Hays, W. L. (1981). Statistics for the social sciences
(3rd ed.). New York: Holt, Rinehart and Winston.
Hays, W. L. (1972). Statistics for the social sciences
(2nd ed.). New York: Holt, Rinehart and Winston.
Hedges, L. (1981). Distribution theory for Glasss estimator of effect size and related estimators. Journal of Educational Statistics, 6, 107-128.
Hedges, L., & Olkin, I. (1985). Statistical methods for
meta-analysis. New York: Academic Press.
Henkel, R. (1976). Tests of significance. Beverly Hills,
CA: Sage.
Huberty, C. (2002). A history of effect size indices.
Educational and Psychological Measurement, 62
(2), 227-240.
Huberty, C. (1994). A note on interpreting an R-squared
value. Journal of Educational and Behavioral Statistics, 19, 351-356.
Hunt, M. (1997). How science takes stock: The story of
meta-analysis. New York: Russell Sage Foundation.
Jacobson, N., & Truax, P. (1991). Clinical significance:
A statistical approach to defining meaningful
change in psychotherapy research. Journal of Consulting and Clinical Psychology, 59, 12-19.
Kendall, P. (Ed.) (1999). Clinical significance [Special
section]. Journal of Consulting and Clinical Psychology, 67, 283-339.
Kirk, R. E. (1996). Practical significance: A concept
whose time has come. Educational and Psychological Measurement, 56, 746-759.
Lipsey, M., & Wilson, D. (2001). Practical metaanalysis. Applied Social Research Methods Series
(Vol. 49). Thousands Oaks, CA: Sage.
Roberts, J. K., & Henson, R. (2002). Correction for bias
in estimating effect sizes. Educational and Psychological Measurement, 62 (2), 241-253.

Rosenthal, R., & Rubin, D. (1982). A simple general


purpose display of magnitude of experimental effect. Journal of Educational Psychology, 74, 166-169.
Rudas, T. (1998). Odds ratios in the analysis of contingency tables. Thousand Oaks, CA: Sage.
Siegel, S. (1975). Estatstica no-paramtrica. So
Paulo: McGraw-Hill.
Smith, M., & Glass, G. (1977). Meta-analysis of psychotherapy outcome studies. American Psychologist, 32 (9), 752-760.
SPSS. (2001). Statistical package for the social sciences
(Verso 11.0). [Computer Software]. Chicago: IL:
SPSS.
Steiger, J., & Fouladi, R. (1997). Non-centrality interval
estimation and the evaluation of statistical models.
In L. L. Harlow, S. A. Mulaik, & J. Steiger (Eds.),
What if there were no significance tests? (pp. 221257). Mahwah, NJ: Erlbaum.
Tallmadge, G. (1977). The joint dissemination review
panel ideabook. Washington, DC: National Institute of Education and the US Office of Education.
Thompson, B. (2002a). Statistical, practical, and
clinical: How many kinds of significance do
counselors need to consider? Journal of Counseling and Development, 80 (1), 64-71.
Thompson, B. (2002b). What future quantitative social
science research could look like: Confidence intervals for effect sizes. Educational Researcher, 31
(3), 25-32.
Wilkinson, L., & APA Task Force on Statistical Inference (1999). Statistical methods in psychology
journals: Guidelines and explanations. American
Psychologist, 54, 594-604.

RESUMO
As medidas de magnitude do efeito representam
uma resposta eficaz s diversas crticas s metodologias de investigao tradicionalmente utilizadas nas
cincias sociais. Tais medidas evitam algumas das dificuldades mais evidentes dos testes de hiptese; so
de interpretao simples, sem o recurso a valores de p,
que podem ser enganadores; e fornecem uma base para
a sntese de grande nmero de estudos. Este artigo descreve o clculo e interpretao das formas mais comuns desta abordagem alternativa, ou complementar,
aos testes de hiptese. Pressupe-se que o leitor dispe
de um conhecimento bsico de estatstica aplicada sem
ter, necessariamente, uma forte formao em estatstica matemtica.
Palavras-chave: Magnitude do efeito, Mtodos de
Investigao, Anlise de Dados, Cincias Sociais.

157

ABSTRACT
Measures of effect size represent an alternative to
traditional methods of data analysis in the social
sciences. These metrics avoid some of the most evident problems associated with tests of hypotheses, are
more simply interpreted than sometimes misleading p
values, and provide the basis for the synthesis of large

158

numbers of research studies. This text assumes that the


reader has a basic understanding of inferential statistics and describes the calculation and interpretation
of common forms of effect size that can be used either
as alternatives, or complements, to classical hypothesis
testing.
Key words: Effect size, Research methods, Data
analysis, Social Sciences.

Potrebbero piacerti anche