Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
| 61
Captulo 4
Testes de Hipteses
Inferncia estatstica pode ser denida como um conjunto de procedimentos que nos permite
tirar concluses acerca de populaes, a partir do estudo de amostras coletadas desta populao.
No captulo 3 aprendemos a quanticar caractersticas de uma populao ou grupo de dados,
fazer estimativas e, principalmente, saber a preciso destas estimativas.
Os testes de hipteses, que fazem parte da inferncia estatstica, incluem um amplo conjunto
de procedimentos, mas no que diz respeito oncologia, o mais importante so os testes de
signicncia estatstica, por fornecer indicaes sobre a extenso da diferena entre os valores mdios
de 2 ou mais agrupamentos de dados e qual a probabilidade desta diferena ser devida ao acaso.
Trata-se de ferramenta amplamente usada em vrias reas do conhecimento humano nas
quais os dados envolvidos esto sujeitos variabilidade.
No contexto deste Manual, estamos interessados na comparao entre dois, ou mais, grupos,
como por exemplo, tratamentos, procedimentos diagnsticos, dietas, etc.
Este tema dever ser subdividido nos seguintes tpicos:
4.1) Hipteses a serem testadas
4.2) Critrio de deciso
4.3) Erros tipos I e II, nvel de signicncia e o poder do teste
4.4) Probabilidade de signicncia (valor p)
4.5) Hipteses unilaterais X bilaterais (one-sided e two-sided)
4.6) Critrios de escolha e exemplos
62 |
L E IT u R A CR T IC A D E A RT IG OS C IE NT FICOS
cada situao existem muitas hipteses alternativas adequadas. Seguindo conveno, a hiptese
alternativa a inexistncia de igualdade entre os tratamentos.
Exemplo:
H0 : pc = pt versus H1: pc pt
Onde pc e pt so respectivamente as probabilidades de se observar a resposta de interesse
entre os controles e entre os pacientes do grupo tratamento.
importante notar que as hipteses denidas se referem comparao do parmetro
populacional dos pacientes controles com o parmetro populacional do grupo tratamento. No
entanto, para testar estas hipteses so empregados resultados baseados em amostras. Logo, os
resultados amostrais so generalizados, aps o teste de hiptese, para todo o universo estudado.
Existem situaes inerentes a alguns experimentos clnicos nos quais hipteses diferentes
podem ser utilizadas, como veremos no prximo captulo.
| 63
Situao
H0 verdadeira
Real
H0 falsa
No rejeitar H0
Rejeitar H0
deciso correta
erro tipo I
erro tipo II
deciso correta
FIGURA 4.1 - Concluso para um teste de hiptese. Na primeira curva, a estatstica de teste
se encontra fora da rea de rejeio, logo no rejeito Ho. Para a segunda curva, a estatstica
de teste se encontra dentro da rea de rejeio, logo rejeito H0.
Na segunda opo, a mais usada, o interesse quanticar a ocorrncia do que foi observado
ou de resultados mais extremos, sob a hiptese da igualdade dos grupos. Assim, essa opo, baseiase na probabilidade de ocorrncia de valores iguais ou superiores ao assumido pela estatstica de
teste, sob a hiptese de que H0 seja verdadeira, conforme mostrado na gura 4.2.
64 |
L E IT u R A CR T IC A D E A RT IG OS C IE NT FICOS
FIGURA 4.2 - CConcluso para um teste de hiptese. Na primeira curva, o valor p maior do
que o nvel de significncia (alfa), logo no rejeito H0. Para a segunda curva, o valor p
menor do que o nvel de significncia(alfa), logo rejeito H0.
Este nmero chamado de probabilidade de signicncia ou valor p e freqentemente
indicado apenas por p. Como o valor p calculado supondo-se que H0 seja verdadeira, duas
conjecturas podem ser feitas quando se obtm um valor muito pequeno. um evento que
extremamente raro pode ter ocorrido ou a hiptese H0 no deve ser verdadeira, isto , a conjectura
inicial e conservadora no parece plausvel.
De um modo geral, na rea mdica, considera-se que valor p menor ou igual a 0,05 indica
que h evidncias para rejeitar H0, ou seja, h diferena signicativa entre os grupos.
Nas outras situaes a diferena encontrada no signicante, do ponto de vista estatstico.
Esses pontos de corte so arbitrrios e no se deve dar uma importncia exagerada a eles.
inaceitvel que os resultados de dois estudos em que os valores p sejam 0,045 e 0,055 sejam
interpretados de forma diferente para a= 0,05. Esses valores devem levar a concluses muito
parecidas e no diametralmente opostas (signicativo e no signicativo).
Propores
H1: p1 > p2
H1: p1 < p2
Mdias
H1: 1 > 2
H1: 1 < 2
| 65
66 |
L E IT u R A CR T IC A D E A RT IG OS C IE NT FICOS
Alguns estatsticos e editores de jornais acreditam que o valor p unilateral nunca deva ser
usado. O primeiro argumento a uniformidade de apresentao dos resultados, tal que um
determinado valor p tenha um mesmo signicado em todos os artigos. Segundo, acreditam que
situaes que justicam o uso do testes unilaterais so extremamente raras. Terceiro, em estudos
sobre importantes questes, como a regulamentao de uma droga, o valor p apenas um fator
usado na tomada de decises. O critrio de que o valor p seja menor que 0,05, em geral
insuciente para estabelecer ecincia e pelo menos o teste bilateral mais conservador.
Aceitando estes argumentos e considerando a padronizao j existente na maioria dos
peridicos mdicos, recomendamos o uso rotineiro de hipteses bilaterais.
| 67
Distribuio
Escala Numrica
Normal
Quant. Contnua
Quant. discreta
Quant. discreta,
Quant. contnua
Qualitativa
Dicotmica*
Quant. Contnua
Quant. discreta
Quant. discreta,
Quant. contnua
Qualitativa
Quant. Contnua
Quant. discreta
Quant. discreta,
Quant. contnua
Qualitativa
Quant. Contnua
Quant. discreta
Quant. discreta,
Quant. contnua
Qualitativa
Pareadas
No-Normal
Pareadas
No-Normal
No-Pareadas
Normal
No-Pareadas
No-Normal
2
3
No-Pareadas
Pareadas
No-Normal
Normal
Pareadas
No-Normal
3
3
Pareadas
No-Pareadas
No-Normal
Normal
No-Pareadas
No-Normal
No-Pareadas
No-Normal
Anlises
Aplicveis
Teste t de Student
Pareado
Sign-Test, Wilcoxon
Matched-Pairs Test
Teste de McNemar
Teste t de Student
Teste Mann-Whitney u
Teste de Qui-Quadrado
ANOVA c/ Medidas
Repetidas
Teste de Friedman
Teste Q de Cochran
ANOVA c/ Grupos
Independentes
Teste de Kruskal-Wallis
Teste de Qui-Quadrado
68 |
L E IT u R A CR T IC A D E A RT IG OS C IE NT FICOS
Distribuio
Normal
No-Normal
Quantitativa
contnua
Normal ou
No-Normal
Qualitativa
No-Normal
Quantitativa
contnua
Normal e/ou
No-Normal
Qualitativa
dicotmica* (VarivelResposta) e
Qualitativa ou
Quantitativa
(variveis explicativas)
Normal e/ou
No-Normal
No-Normal
Anlises
Aplicveis
Correlao de
Pearson, Regresso
Linear Simples
Correlao de
Spearman
Odds Ratio, Teste de
Qui-Quadrado
Regresso Mltipla
(Linear
e No-linear)
Anlise
Discriminante
Regresso Linear
Mltipla, Regresso
No-Linear
Regresso Logstica
Grficos
Aplicveis
Diagrama de
Disperso (X,Y)
Diagrama de
Disperso (X,Y)
--Diagrama
Previso vs.
Observao
---
---
---
Os quadros acima apontam para as anlises de dados possveis nas diversas situaes de
pesquisa, porm, no indicam exatamente os procedimentos a serem adotados em cada situao.
Isso ocorre devido ao fato de que a deciso nal depende no apenas das restries matemticas,
mas tambm dos objetivos do estudo e da prpria natureza dos achados que vo sendo
produzidos. importante, contudo, ter em mente que as tabulaes apresentadas constituem um
mapa de referncia que deixa claro espao para aes, dentro do qual pode se manifestar a
liberdade do pensador analtico.
4.6.2 Exemplos
I - Testes paramtricos
Ilustraremos alguns testes estatsticos da tabela 4.3 acima omitindo no entanto, o clculo da
estatstica de teste, que fornecido pelos programas estatsticos usuais.
Varivel dicotmica: amostras independentes
Neste caso, a varivel de interesse a ocorrncia de um determinado evento, como o
desenvolvimento de uma doena, ou a presena de certo atributo, por exemplo, albinismo.
usaremos exemplo citado por Siqueira e Teixeira (2002), a propsito do tratamento de
pacientes aidticos com AZT ou placebo e cujos resultados so descritos na tabela 4.4.
| 69
Vivo
144
121
265
Situao
Morto
1
16
17
Total
145
137
282
Calculado o valor da estatstica do teste (teste do X2), preciso decidir se este ou no um valor
grande. Assim, para se tomar uma deciso sobre a igualdade ou no das duas propores, preciso
conhecer o comportamento, isto , a distribuio estatstica dos valores de X2 quando as propores
so iguais. Esta distribuio foi obtida e recebeu o nome de qui-quadrado com 1 grau de liberdade,
indicada por X21 e est sintetizada em tabelas de fcil utilizao. A gura 4.4 ilustra a distribuio
do X2 com 1 grau de liberdade.
70 |
L E IT u R A CR T IC A D E A RT IG OS C IE NT FICOS
FIGURA 4.5 - Curva normal com o valor da estatstica de teste e o ponto crtico.
Fixando-se o nvel de signicncia em 5%, rejeita-se H0. O valor p encontrado para Z 0,026.
Portanto pode-se concluir, com conana de 95%, que as duas plulas no so igualmente efetivas.
H indicaes de que a plula A oferece maior proteo contra nuseas comparada plula B.
Varivel dicotmica: amostras pareadas
Foram avaliados 100 doentes com cefaleias frequentes. Os mesmos 100 doentes tomaram
durante um ms um determinado medicamento A e no ms seguinte o medicamento B. Pediu-se
aos pacientes que registrassem se durante cada ms tiveram ou no dores de cabea.
| 71
Tabela 4.5 - Pacientes com cefalias frequentes usandos dois tipos de medicamentos
Medicamento B
Sem cefalia
Com cefalia
Total
Medicamento A
Sem cefalia
Com cefalia
45
4
17
34
62
38
Total
49
51
100
Fonte: http://medicina.med.up.pt/im/im2004/teoricas/categoricas.ppt
72 |
L E IT u R A CR T IC A D E A RT IG OS C IE NT FICOS
H0: 1 = 2 versus H1 :1 2
Vamos apresentar agora, o teste mais conhecido (o teste t para duas amostras) e adequado
para situaes em que as respostas aos dois tratamentos so variveis quantitativas com
distribuio normal (gaussiana) para os dois grupos. Assim, as suposies para se usar este teste
so que as variveis estudadas tm distribuies gaussianas com o mesmo desvio padro. Para
isso, deve-se realizar o teste de normalidade (Kolmogorov-Smirnov) e o teste de duas varincias
(teste de Fisher).
um estudo relata os resultados de um ensaio clnico aleatorizado, duplo-cego, realizado com
o objetivo de comparar a tianeptina com o placebo. Participaram desse estudo pacientes de Belo
Horizonte, Campinas e Rio de Janeiro.
Sucintamente, o ensaio consistiu em administrar a droga a dois grupos de pacientes,
compostos de forma aleatria, e quanticar a depresso atravs da escala de MADRS, em que os
valores maiores indicam maior gravidade da doena. O escore foi obtido para cada paciente 7, 14,
21, 28 e 42 dias aps o incio do ensaio.
Pelo planejamento adotado, os dois grupos no diferiam em termos de depresso no incio
do ensaio. Assim, uma evidncia sobre o efeito da tianeptina obtida comparando-se os dois
grupos ao m de 42 dias.
A Tabela 4.6 apresenta os escores nais dos pacientes dos dois grupos admitidos em Belo
Horizonte.
Tabela 4.6 - Escore final na escala MADRS de pacientes dos dois grupos admitidos em Belo
Horizonte
Grupo
Placebo
Tianeptina
Escores
6 33 21 26 10 29 33 29
37 15 2 21 7 26 13
10 8 17 4 17 14 9 4
21 3 7 10 29 13 14 2
| 73
Anestesia
Halotano
66,9
12,2
61
Morfina
73,2
14,4
61
74 |
L E IT u R A CR T IC A D E A RT IG OS C IE NT FICOS
| 75
Programa
Final (x2)
200
236
216
233
224
216
296
195
207
247
210
209
Diferena
d = x1-x2
1
-5
5
27
4
21
30
40
33
20
74
-8
Desvio
d- d
-19,16
-25,16
-15,16
6,83
-16,16
0,83
9,83
19,83
12,83
-0,16
53,83
-28,16
Desvio ao quadrado
(d-d)2
367,36
633,36
230,03
46,69
261,36
0,69
96,69
393,36
164,69
0,03
2898,03
793,36
Quanto maior o valor d (que representa a mdia das diferenas x1-x2) maior a evidncia de
que o programa reduz o nvel de colesterol; quanto menor a variabilidade das diferenas
individuais, maior a chance de se detectar um efeito mdio signicativo, isto , uma reduo
signicativa do colesterol devido ao do programa e no ao acaso. Estes aspectos podem ser
avaliados atravs do teste t.
Sejam a e d respectivamente as mdias dos nveis de colesterol antes e depois do programa.
Para testar a hiptese de que o programa altera o nvel de colesterol (H0: a = d x H1: a d) ser
aplicado o teste t (11 graus de liberdade).
Apenas dois participantes tiveram o nvel de colesterol aumentado aps o programa, mas
por pequenas quantidades (5 e 8 mg/dl). As mdias antes e depois do programa so respectivamente 244,25 e 224,08, correspondente a uma reduo mdia de 20,12 mg/dl (d = 20,17). A
estatstica de teste foi de 3,02 (p = 0,012), isto , h evidncia de que, em mdia, o programa altera
o nvel de colesterol (gura 4.9).
76 |
L E IT u R A CR T IC A D E A RT IG OS C IE NT FICOS
II - Testes No Paramtricos
Os testes estudados at agora envolviam problemas nos quais a distribuio da populao em
estudo era conhecida, ou pelo menos nunca colocada em causa, e as hipteses testadas apenas
envolviam parmetros populacionais.
No entanto, outros tipos de problemas podem ser colocados: se a distribuio de uma
populao desconhecida e se pretender testar a hiptese de uma distribuio particular para
aquela populao, que fazer?
Os testes denominados testes no paramtricos ou testes de distribuio livre constituem uma
alternativa para este e outros tipos de problemas.
O termo distribuio livre popularmente usado para indicar que os mtodos so aplicveis
independentemente da forma da distribuio.
Estes mtodos so, em geral, fceis de aplicar, pois podem ser usados quando as hipteses
exigidas por outras tcnicas no so satisfeitas.
Relembramos aqui que os testes paramtricos estudados at agora comportam uma
diversidade de suposies fortes a que o seu emprego deve subordinar-se: as observaes devem
ser extradas de populaes com distribuio normal, as variveis em estudo devem ser medidas
em escala intervalar ou de razo, de modo a que seja possvel utilizar operaes aritmticas sobre
os valores obtidos das amostras (adio, multiplicao, obteno de mdias, etc.).
Apesar de haver certas suposies bsicas associadas maioria das provas no paramtricas,
essas suposies so em menor nmero e mais fracas do que as associadas s provas paramtricas.
Servem para pequenas amostras e, alm disso, a maior parte das provas no paramtricas
aplica-se a dados medidos em escala ordinal e, alguns, a dados em escala nominal.
Dentre uma vasta gama de testes no paramtricos disponveis, foram selecionados, para
anlise neste captulo, apenas alguns testes de utilizao freqente ou que complementam, de
alguma forma, os testes paramtricos discutidos anteriormente.
Em resumo, nos exemplos mencionados anteriormente, os testes aplicados foram baseados
em distribuies de probabilidade, denominado testes paramtricos; contudo, abordaremos nos
prximos exemplos testes no paramtricos, ou seja, testes que no possuem distribuio de
probabilidade.
Resposta Contnua ou Discreta: duas amostras independentes
O teste de Mann-Whitney a verso no paramtrica do teste t. Sendo assim, o interesse
testar se as medianas so iguais ou diferentes entre si.
A tabela ao lado exibe a taxa de uria de pacientes renais e sua condio quanto presena
de insucincia renal aguda (IRA).
Neste tipo de situao, cruzamento de uma varivel quantitativa (uria) com uma varivel
dicotmica (IRA), vivel empregar o teste de Mann-Whitney.
usando um programa de estatstica adequado, temos que a estatstica de teste foi de -2,76.
Este valor corresponde a um valor p = 0,00289. Como o valor-p menor que o nvel de signicncia
de 5%, logo pode-se dizer que existe uma diferena, signicativa, entre a taxa de uria de
portadores ou no portadores de IRA.
| 77
Uria
92
120
68
70
77
63
26
33
38
25
21
15
IRA
Sim
Sim
Sim
Sim
Sim
Sim
No
Sim
No
No
No
No
Estadiamento II
22.26
28.24
18.37
22.10
7.33
22.21
Estadiamento III
20.83
22.31
18.22
20.88
18.73
21.27
usando um software adequado, temos que a estatstica de teste foi de 0,758. Este valor
corresponde a um valor-p = 0,685. Como o valor-p maior que o nvel de signicncia de 5%,
pode-se dizer que o estadiamento do cncer colorretal no se correlacionou com o ndice de Massa
Corporal.
Resposta Contnua ou Discreta: duas amostras pareadas
O teste de Wilcoxon utilizado quando no possvel aplicar o teste t pareado, pois os dados
no seguem distribuio normal, ou seja, a verso no paramtrica do teste t pareado. Sendo
assim, o interesse testar se as medianas so iguais ou diferentes entre si.
A tabela abaixo mostra o nvel mximo de concentrao (NMC) de 12 pacientes selecionados
aleatoriamente, antes e depois da ingesto de determinada droga. O objetivo deste estudo era
testar a eccia desta droga em relao capacidade de aprendizado.
78 |
L E IT u R A CR T IC A D E A RT IG OS C IE NT FICOS
NMC Antes
9
16
12
28
5
33
17
13
18
12
26
14
NMC Depois
14
22
18
23
11
40
15
18
22
31
19
8
usando um programa de estatstica adequado, temos que a estatstica de teste foi de 1,44.
Este valor corresponde a um valor-p = 0,074 para o teste unilateral. Como o valor-p maior que o
nvel de signicncia de 5%, pode-se dizer que o uso da nova droga no aumenta a capacidade de
aprendizado. Recomenda-se fazer o teste com um nmero maior de pacientes para se ter uma
melhor concluso sobre o efeito real da droga.
Resposta Contnua ou Discreta: trs ou mais amostras pareadas
O teste de Friedman uma generalizao do teste de Wilcoxon para situaes de mais de
duas opes na comparao de dados. Este teste utilizado quando no possvel aplicar o teste
Anova com medidas repetidas, pois os dados no seguem distribuio normal. Sendo assim, as
hipteses so denidas pela mediana e no pela mdia.
A tabela 4.12 mostra dados ctcios sobre 25 pacientes, com diagnstico de metstase em
coluna vertebral. Para cada paciente, foi aplicado o questionrio VAS (Escala Analgica Visual), em
uma escala de 0 a 10, para avaliao de dor no perodo pr-operatrio, ps-operatrio e um ano
aps a cirurgia. O objetivo avaliar a evoluo da dor em pacientes com leso metasttica em
coluna vertebral operados por abordagem posterior.
usando um software adequado, temos que a estatstica de teste foi de 7,96. Este valor
corresponde a um valor-p = 0,000 para o teste bilateral. Como o valor-p menor que o nvel de
signicncia de 5%, pode-se dizer que os valores de VAS diferem entre si quando comparados
estatisticamente os perodos pr-operatrio, ps-operatrio e um ano aps a cirurgia.
Observe que o teste de Friedman apenas conclui que pelo menos uma situao difere das
demais. Neste caso, necessrio realizar comparao de dois a dois grupos para identicar a
hierarquia desta diferena.
| 79
Tabela 4.12 - Escala Analgica Visual (VAS) para avaliao da dor no pr-operatrio, psoperatrio e um ano aps cirurgia, em uma amostra de 25 indivduos
Paciente
01
02
03
04
05
06
07
08
09
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
VAS pr-operatrio
5
6
9
7
8
7
9
6
3
7
8
8
9
10
8
4
10
10
10
8
8
7
8
10
7
VAS ps-operatrio
1
0
0
5
8
2
9
6
3
7
8
8
0
6
0
2
10
0
8
8
7
7
6
4
7
A Tabela 4.13 mostra os resultados da comparao de dois a dois entre Escala Analgica Visual
(VAS) para avaliao da dor no pr-operatrio, ps-operatrio e um ano aps cirurgia.
Tabela 4.13 - Teste de comparao mltipla entre a Escala Analgica Visual (VAS) para
avaliao da dor no pr-operatrio, ps-operatrio e um ano aps cirurgia
Comparao Mltipla
de VAS
VAS pr-operatrio (1)
VAS ps-operatrio (2)
VAS pr-operatrio (1)
VAS um ano aps cirurgia (3)
VAS ps-operatrio (2)
VAS um ano aps cirurgia (3)
Mediana
8.00
6.00
8.00
5.00
6.00
5.00
Resultados
Valor p
0.000**
Concluso
1 > 2
0.000**
1 > 3
0.074
2 = 3
80 |
L E IT u R A CR T IC A D E A RT IG OS C IE NT FICOS
Em anlise comparativa da Escala Analgica Visual (VAS), vericou-se que a Escala Analgica
Visual no pr-operatrio maior do que os demais momentos, pois o valor p < 0,05. Enquanto que
a Escala visual no ps-operatrio e no ano aps a cirurgia so iguais, valor p > 0,05 (Tabela 4.13).
Para as comparaes mltiplas, o nvel de signicncia ca dividido por trs (a/3), por se tratar
de comparaes entre 3 grupos, ou seja, ser considerado signicativa aquela comparao cujo
valor p for inferior a 0,0167.
Para casos em que existam n comparaes o nvel de signicncia ca dividido por n (a/n).
Referncias
1. Siqueira AL. Teixeira FJS. Introduo a Estatstica Mdica. 2ed. Belo Horizonte: COOPMED, 2002.
2. Triola M.Introduo Estatstica. 10ed. Rio de Janeiro: LTC, 2008, p.722-801.
3. Arango HG. Bioestatstica: terica e computacional. 2ed.Rio de Janeiro. Guanabara Koogan, 2005.