Sei sulla pagina 1di 57

Antnio Paula Brito de Pina

2005

Gabinete de Investigao e Estatstica
Delegao Regional do Algarve do Instituto da Droga e Toxicodependncia

i
Investigao e Estatstica com o EpiInfo

Antnio Pina
Gabinete de Investigao e Estatstica
Delegao Regional do Algarve do Instituto da Droga e Toxicodependncia

ndice
PARTE 1 - A metodologia bsica de investigao ...............................................1

1- Identifique o assunto a investigar.....................................................................3
a) Quais so as perguntas que o investigador prope?..............................................3
b) Qual a investigabilidade do problema?.................................................................4
c) pertinente gastar recursos para tentar conseguir respostas a tais perguntas?.....4
d) O que que j se sabe ou foi publicado sobre o assunto?.....................................4
e) Quais so as hipteses a comprovar?....................................................................5

2- Identifique as variveis a estudar.....................................................................5
a) Quais so as variveis?..........................................................................................5
b) Classifique cada varivel segundo a sua escala de medio.................................6
c) Como vamos proceder medio da varivel?.....................................................6
d) Posicione cada varivel no desenho do estudo.....................................................7

3- Identifique a populao e a amostra a estudar...............................................8
a) Qual a unidade de observao?.............................................................................8
b) A populao vai ser toda estudada?......................................................................8

4- Defina o desenho do seu estudo......................................................................10
5- Planeie a recolha e a anlise dos dados..........................................................11
6- Interprete os resultados para elaborar um relatrio....................................12
7 - Comentrios finais..........................................................................................17

ii
Investigao e Estatstica com o EpiInfo

Antnio Pina
Gabinete de Investigao e Estatstica
Delegao Regional do Algarve do Instituto da Droga e Toxicodependncia


PARTE 2 - Noes de estatstica..........................................................................19

1. A Estatstica descritiva......................................................................................20
1.1. Interpretar as frequncias absolutas e relativas................................................21
1.2. Interpretar as mdias, desvios-padro, medianas, etc. .....................................22

2. A Estatstica Dedutiva.......................................................................................25
2.1- Os intervalos de confiana...............................................................................27
2.2.- Provas para verificar a associao entre duas
variveis qualitativas - o Qui-quadrado e a Prova de Fisher..................................28
2.3.- Provas para verificar a associao entre uma varivel qualitativa
e uma varivel quantitativa - o t de Student / ANOVA
e o U de Mann-Whitney / Kruskal-Wallis..............................................................31

3- A fora da associao........................................................................................32
3.1. Estudos de coorte..............................................................................................33
3.2. Estudos de caso-controlo..................................................................................36

Bibliografia.............................................................................................................37


Anexo 1 - A Reviso Bibliogrfica
Anexo 2 - Controlo das variveis interferentes
Anexo 3 - Clculo da dimenso da amostra

Investigao e Estatstica com o EpiInfo
1
Antnio Pina
Gabinete de Investigao e Estatstica
Delegao Regional do Algarve do Instituto da Droga e Toxicodependncia
1








PARTE 1
A metodologia bsica de investigao











Investigao e Estatstica com o EpiInfo
2
Antnio Pina
Gabinete de Investigao e Estatstica
Delegao Regional do Algarve do Instituto da Droga e Toxicodependncia
2
A metodologia bsica de investigao

Ao contrrio do que muitos julgam, no basta saber Estatstica para fazer Investigao,
atendendo que:

1- A Estatstica nunca d certezas, d apenas probabilidades baseadas em pressupostos
fictcios ..., tal como explicaremos na Parte 2 desta brochura.

2- Os resultados estatisticamente significativos podem no ter relevncia...,
nomeadamente quando a amostra muito grande, porque possvel obter resultados
estatisticamente significativos nas pequenas diferenas encontradas entre dois subgrupos da
amostra, mesmo quando estas diferenas, alm de pequenas, so pouco importantes.

3- Os resultados da Estatstica podero dar-nos uma ideia sobre a eventual associao
entre variveis, mas nunca nos revela a relao de causalidade... Por exemplo, a Estatstica
poder demonstrar que determinados perfis psicopatolgicos podero estar associados
toxicodependncia mas, saber se esta psicopatologia que leva toxicodependncia, ou vice-
versa, s pode ser respondido tendo em conta o desenho do estudo, nomeadamente um desenho
que permita saber o que que acontece primeiro (as perturbaes psicopatolgicas ou a
toxicodependncia).

4- Se os dados que introduzimos no computador para fazer os clculos estatsticos no
forem os correctos, a interpretao dos resultados poder ser impossvel ou levar a concluses
totalmente erradas... Por exemplo, se quisermos comparar o peso de dois grupos, e utilizarmos
uma balana diferente para os dois grupos poderemos obter resultados enganadores... Este
problema inclui-se nos denominados vieses de informao!

5- Se o enquadramento terico do estudo no for o correcto, fcil chegar a concluses
erradas porque os resultados estatsticos so esprios... Um exemplo de uma de uma associao
espria a associao estatisticamente significativa entre o nmero de telemveis existentes num
pas e o nmero de doenas cardacas. Um aprendiz a investigador poderia concluir erradamente
que a influncia das ondas dos telemveis poderia provocar um aumento das doenas
Investigao e Estatstica com o EpiInfo
3
Antnio Pina
Gabinete de Investigao e Estatstica
Delegao Regional do Algarve do Instituto da Droga e Toxicodependncia
3
cardiolgicas. Sucede no entanto que os pases onde h mais telemveis so tambm os mais
ricos e, devido sobre-alimentao, tm com maior frequncia doenas cardacas. Assim, h
aqui uma terceira varivel escondida, que pode provocar uma associao estatisticamente
significativa mas totalmente espria. Esta terceira varivel denomina-se de confundimento
porque produz um vis de confundimento.
Outro exemplo dum vis de confundimento em investigao o que aconteceu num
estudo efectuado h alguns anos, sobre os efeitos de deixar de fumar. Verificou-se ento que a
maioria dos fumadores que largavam o mau hbito, morriam mais frequentemente no primeiro
ano que os que continuavam a fumar. A concluso lgica seria que qualquer fumador deveria
manter o seu hbito ... Sucede que, infelizmente, muito dos fumadores que deixam de fumar,
fazem-no porque j se sentem doentes, o que aumenta a probabilidade de morrerem no ano
seguinte, enquanto os outros ainda se sentem saudveis e em muitos casos ainda o esto...
O que se passou neste estudo que no se controlou o efeito de uma varivel de
confundimento fundamental: o fumador j estava doente ou no, quando deixou de fumar? Estas
questes tm a ver fundamentalmente com o desenho do estudo e no com a Estatstica.

Assim, para iniciar um trabalho de investigao necessrio seguir vrias regras para
evitar escorregadelas. A primeira regra de ouro que antes de avanar para o trabalho de campo
fundamental sempre elaborar um protocolo que nos guie no futuro. Para isto teremos que
seguir uma sequncia de passos que nos pouparo muitos problemas e dissabores...
A sequncia que vou expor pode ser parcialmente modificada, nomeadamente as fases
posteriores podero obrigar a reconsiderar as fases iniciais, mas genericamente sempre a
sequncia a utilizar.


1- Identifique o assunto a investigar
a) Quais so as perguntas que o investigador prope?
Clarifique estas perguntas que quer ver respondidas pelo estudo. No seja vago. Formule
poucas perguntas e restrinja o mais possvel os objectivos do seu estudo, caso contrrio arrisca-se
a sentir-se completamente perdido quando comear o seu trabalho de campo. Quanto menos
objectivos um estudo tiver, maiores sero as suas probabilidades de xito.
Investigao e Estatstica com o EpiInfo
4
Antnio Pina
Gabinete de Investigao e Estatstica
Delegao Regional do Algarve do Instituto da Droga e Toxicodependncia
4
Por outro lado, um outro bice importante em estudos com muitos objectivos que
podero ser necessrios desenhos diferentes de estudo e amostras com dimenses diferentes para
os diferentes objectivos, o que complica muito a sua conduo.

b) Qual a investigabilidade do problema?
necessrio verificar se existem tabus ou outros obstculos culturais ou polticos que
impossibilitem a investigao. Existem ainda questes ticas relativamente possibilidade de
colher alguns dados privados. Alguns estudos experimentais como por exemplo, os ensaios
teraputicos, tm tambm de seguir normas ticas muito estritas, atendendo perigosidade para a
sade dos indivduos que neles participam.

c) pertinente gastar recursos para tentar conseguir respostas a tais perguntas?
evidente que devemos ter imediatamente o pragmatismo necessrio para identificar as
perguntas que esto muito para alm das nossas possibilidades e recursos. Por outro lado, h aqui
tambm uma questo tica. Mesmo que hajam recursos para investigar um problema, caso este
seja menos pertinente que outros problemas existentes, no ser tico gastar os recursos nesta
investigao, pois isto ir anular a oportunidade de investigar o assunto realmente pertinente. Isto
uma considerao tica importante quando se tem dinheiro para investigar um assunto
particular...

d) O que que j se sabe ou foi publicado sobre o assunto?
Trata-se de fazer o enquadramento terico ou definio conceptual do problema, ou seja,
definir o que se sabe de universal sobre o assunto. Repare que aqui necessrio fazer uma
reviso bibliogrfica sobre o tema, onde poderemos descobrir que outros j encontraram resposta
para algumas das nossas perguntas. Na reviso bibliogrfica poderemos tambm encontrar ideias
novas sobre como conduzir o nosso estudo (Anexo 1- A reviso bibliogrfica).
Esta definio conceptual do problema permite tambm identificar as variveis que
deveremos controlar para no confundirem as nossas concluses.




Investigao e Estatstica com o EpiInfo
5
Antnio Pina
Gabinete de Investigao e Estatstica
Delegao Regional do Algarve do Instituto da Droga e Toxicodependncia
5
e) Quais so as hipteses a comprovar?
A enunciao de hipteses s poder acontecer se ns tivermos j uma descrio das
caractersticas do problema. Por exemplo, se estiver descrito que a frequncia de uma
determinada doena diferente em duas populaes, poderemos formular a hiptese de que essa
diferena est associada a uma diferena de um determinado factor de risco entre as duas
populaes.
Quando falamos em hipteses estamos a falar de perguntas sobre a relao entre
variveis, para as quais ns vamos tentar encontrar respostas concretas, atravs da observao
planeada dos factos (no caso anterior, a pergunta poderia ser formulada da seguinte forma: est a
varivel "doena" associada varivel "factor de risco"?)
Repare-se que as hipteses so apenas fundamentais em estudos analticos ou
experimentais. Um estudo descritivo no necessita de hipteses: basta-lhe descrever as
caractersticas do fenmeno.


2- Identifique as variveis a estudar
a) Quais so as variveis?
As variveis descrevem as caractersticas do atributo a medir.
Num estudo descritivo bastar fazer a anlise de forma isolada para cada varivel: a
anlise univariada.
Num estudo analtico as variveis j esto enunciadas nas hipteses e tentar-se- verificar
a associao ou no destas: a anlise bi ou multivariada.
importante definir quais sero as nossas variveis. A primeira definio conceptual.
Por exemplo, se quisermos saber quantos toxicodependentes existem numa populao, temos
primeiro que definir conceptualmente o que , para o nosso estudo, ser "toxicodependente". Ser
fumador toxicodependente? Ou apenas os consumidores de drogas ilcitas o so?
Tambm aqui, quanto menor for o nmero de variveis a estudar, maior a probabilidade
de atingir os objectivos. Para um principiante, mais de 15 variveis perigoso...



Investigao e Estatstica com o EpiInfo
6
Antnio Pina
Gabinete de Investigao e Estatstica
Delegao Regional do Algarve do Instituto da Droga e Toxicodependncia
6
b) Classifique cada varivel segundo a sua escala de medio.
Agora passamos definio operacional. Vamos supor que considermos que um
fumador era um toxicodependente. H que ainda definir se consideramos que algum que fuma
um cigarro por semana tambm ser considerado fumador, como outro que fuma um mao por
dia. Ou seja, h que definir agora a escala de medio: por exemplo, vamos contar o nmero de
cigarros por dia, ou apenas criamos dois grupos - fumadores/no fumadores?
Sumariamente, tendo em conta a escala de medio, poderemos classificar as variveis da
seguinte forma:
1- Variveis qualitativas nominais, cujos valores no tem uma relao de ordem entre
eles, por ex., o "Sexo" e "Raa". Para este tipo de variveis, poder-se- fazer o estudo das
propores e aplicar-se o Qui-quadrado.
2- Variveis qualitativas ordinais, cujos valores no so mtricos mas incluem relaes de
ordem. o caso da varivel "Peso" medida em 3 nveis (pouco pesados, pesados, muito
pesados). Para este tipo de variveis poder-se- fazer tudo quanto possvel fazer-se para as
variveis nominais, mas tambm adicionalmente possvel estudar as medianas, quartis, modas,
e aplicar o Kruskal-Wallis, a regresso logstica e outros testes no paramtricos.
3- Variveis quantitativas, cujos valores so medidos numa escala mtrica, como por ex.,
a "Idade", ou o "Peso" medido em gramas. Para este tipo de variveis poder-se- fazer tudo
quanto possvel fazer-se para as variveis nominais e ordinais, mas tambm adicionalmente
possvel estudar as mdias, desvios-padro, e aplicar o ANOVA, a correlao e regresso linear,
etc.
Assim, fundamental planearmos que tipo de variveis queremos ter, para sabermos de
antemo quais as provas estatsticas que poderemos aplicar. evidente que as variveis
quantitativas so melhores que as meramente ordinais, e estas so melhores que as nominais,
porque incluem mais informao e so susceptveis de lhes serem aplicadas provas estatsticas
mais potentes.

c) Como vamos proceder medio da varivel?
No caso da varivel peso, ser numa balana? Ser sempre na mesma balana? Faremos 2
ou 3 pesagens e confiaremos na mdia? Ser sem roupa ou com roupa? Confiaremos apenas no
peso que o prprio nos refere? Colhemos o dado da ficha clnica? No caso da varivel "Fumar",
ser atravs de um questionrio, ou atravs de anlise saliva, etc.? E quem que vai colher os
Investigao e Estatstica com o EpiInfo
7
Antnio Pina
Gabinete de Investigao e Estatstica
Delegao Regional do Algarve do Instituto da Droga e Toxicodependncia
7
dados - o prprio investigador ou outros indivduos? Se for com um questionrio, como que as
perguntas esto dispostas e em que condies vai ser aplicado o questionrio?
Estas definies so extremamente importantes porque tm a ver com a qualidade da
medio. Aqui pem-se problemas relacionados com a preciso ou repetibilidade e a validade ou
exactido do nosso mtodo. Todos estes problemas podem traduzir-se em vieses de informao.

d) Posicione cada varivel no desenho do estudo.
Quando se querem testar hipteses, o que s possvel em estudos experimentais ou
analticos, til dividir as variveis, segundo as nossas hipteses de estudo, em:
variveis explicativas, ou de exposio, independentes ou preditoras
variveis resposta, ou resultado, ou dependentes
variveis interferentes
muito importante fazer um desenho que clarifique a relao destas variveis, por
exemplo:








Suponhamos que vamos fazer um estudo em que uma hiptese : o "tempo prvio de
consumo de cannabis" est associado ao "tempo de consumo de herona". Neste caso, o "tempo
de consumo de cannabis" ser uma varivel de exposio e o "tempo de consumo de herona" a
varivel resultado. As variveis interferentes podero ser a idade e o sexo, o nvel educacional,
social, etc. Ou seja, em muitos casos, h variveis que podem interferir e alterar a relao entre
outras duas. possvel que um determinado subgrupo etrio ou apenas um sexo tenha uma
associao positiva entre a varivel de exposio e a do resultado, enquanto o outro subgrupo
tem uma associao negativa! Este um dos problemas mais complexos da investigao, que
V.
Exposio
V. resultado
V. interferentes
Investigao e Estatstica com o EpiInfo
8
Antnio Pina
Gabinete de Investigao e Estatstica
Delegao Regional do Algarve do Instituto da Droga e Toxicodependncia
8
vicia frequentemente as concluses e que s se resolve cabalmente com a implementao de um
desenho de estudo experimental.
Apesar de tudo, nos outros estudos possvel controlar razoavelmente o efeito das
variveis interferentes atravs da anlise estratificada (uma anlise independente para cada
estrato da varivel interferente, verificando seguidamente se h alterao dos resultados de um
estrato para outro) e outras tcnicas mais sofisticadas que o EpiInfo disponibiliza (Anexo 2 -
Controlo das variveis interferentes).


3- Identifique a populao e a amostra a estudar
a) Qual a unidade de observao?
uma pessoa, ou uma famlia, ou outro grupo?

b) A populao vai ser toda estudada?
Enquanto o Universo do nosso estudo poder ser um conjunto de unidades de observao
para as quais no temos uma listagem (p.ex., os toxicodependentes no nosso Pas), a Populao
j um conjunto destas unidades para as quais temos uma listagem (p.ex., os toxicodependentes
existentes no ficheiro dos servios de sade) e, por isso, da qual poderemos extrair uma amostra
de forma aleatria.
Caso a populao seja muito extensa, torna-se impossvel ou muito dispendioso incluir
todas as suas unidades de observao no estudo, pelo que se faz a seleco da amostra.
Claro que a nica forma de termos alguma confiana na representatividade desta amostra
ser fazermos a sua seleco de forma aleatria, para que cada elemento da amostra tenha
exactamente a mesma probabilidade de ser seleccionado. Tambm ser importante calcularmos a
dimenso da amostra, de forma a dar a preciso que queremos s nossas estimativas, o que pode
ser ajudado pelo EpiInfo na seco STATCALC (Anexo 3 - Clculo da dimenso de uma
amostra).
Existem vrios mtodos de seleco aleatria:
1. Seleco aleatria simples: necessrio ter uma listagem de toda a populao, por
exemplo, de todos utentes dum servio de sade, aos quais se atribui um nmero de 1
Investigao e Estatstica com o EpiInfo
9
Antnio Pina
Gabinete de Investigao e Estatstica
Delegao Regional do Algarve do Instituto da Droga e Toxicodependncia
9
a x. Posteriormente, ao acaso, seleccionam-se alguns elementos de toda a lista,
geralmente com a ajuda de uma tabela de nmeros aleatrios.
2. Seleco aleatria sistemtica: necessrio tambm ter uma listagem de toda a
populao. Depois seleccionam-se elementos de x em x intervalos, por exemplo,
selecciona-se 1 elemento de 10 em 10 da listagem.
3. Seleco aleatria por conglomerados: necessrio uma listagem dos conglomerados,
por exemplo, uma listagem de escolas da regio. Aps se seleccionar aleatoriamente
um pequeno nmero de escolas desta listagem, estudam-se todos os alunos (ou uma
amostra) de cada escola seleccionada. Repare-se que aqui a primeira seleco
aleatria feita sobre uma listagem de unidades - os conglomerados - que no so as
verdadeiras unidades de observao que interessam. S numa segunda fase, depois de
escolher os conglomerados, se poder fazer uma seleco aleatria a partir de uma
listagem que inclua as verdadeiras unidades de observao - os cidados includos em
cada conglomerado, por exemplo.
4. Seleco aleatria estratificada: necessrio ter uma listagem de toda a populao
com alguma informao adicional (eventualmente socio-demogrfica) da mesma.
Posteriormente definem-se vrios estratos da populao, de acordo com a informao
adicional que j se tinha e, a partir da listagem de elementos de cada estrato, faz-se
uma seleco aleatria de uma amostra em cada estrato.

Os mtodos de seleco no aleatria podero ser utilizados em estudos preliminares,
mas nunca garantem minimamente a representatividade, pelo que os seus resultados devero
sempre ser confirmados com outros estudos.
Por outro lado, mesmo sendo a amostra representativa da populao, no obrigatrio
que a populao seja representativa do universo no atributo a medir. Por exemplo, a populao
de toxicodependentes dos servios de sade quase certamente no so representativos de todos
os toxicodependentes (incluindo aqui os que no tm contacto com os servios de sade).
Todos os erros cometidos na fase da amostragem incluem-se na categoria dos vieses de
seleco.


Investigao e Estatstica com o EpiInfo
10
Antnio Pina
Gabinete de Investigao e Estatstica
Delegao Regional do Algarve do Instituto da Droga e Toxicodependncia
10
4- Defina o desenho do seu estudo
Seguidamente tentaremos classificar os vrios tipos de estudos de investigao existentes.
Como costume, os melhores desenhos so tambm os que requerem mais recursos, sendo
geralmente impossveis de executar...

A- Estudos experimentais: so estudos caracterizados por aleatoriamente distribuirmos
uma populao em dois grupos e posteriormente manipularmos as variveis explicativas num
grupo, de forma a estudar o seu efeito nas variveis resultado. O outro grupo serve como termo
de comparao e chama-se o grupo-controlo ou testemunha.
Estes estudos so os mais sofisticados e so os nicos que podero fazer um controlo
eficaz das confuses provocadas pelas variveis de confundimento que desconhecemos,
revelando assim relaes de causalidade. Isto porque ao distribuirmos aleatoriamente os
indivduos pelos dois grupos, temos a garantia de no haver grandes diferenas significativas
entre os grupos, relativamente s ditas variveis de confundimento desconhecidas.

B- Estudos de observao analticos
a) Estudos de coorte
Se pudermos fazer duas ou mais medies ao longo do tempo numa determinada
populao, poderemos saber quais os efeitos que a exposio a um factor ter no final,
comparando os que desde o incio estiveram expostos com aqueles que nunca estiveram expostos
ao factor. Embora possamos ver algumas semelhanas destes estudos com os estudos
experimentais, repare-se que o investigador no faz a diferenciao dos dois grupos de forma
aleatria como acontece nos estudos experimentais, sendo apenas o destino que separa o grupo
exposto do no exposto. Da mesma forma, neste caso, o investigador tambm no tem qualquer
poder de manipulao da varivel de exposio, limitando-se a observar...
Um exemplo prtico estudar numa populao de heroinodependentes qual a forma de
consumo com maior risco de mortalidade ao fim de um ano. Bastaria dividir a populao
segundo a forma de consumo (ex.: injectvel ou no) no incio do ano, e depois, no final do ano,
verificar quantos morreram num grupo e no outro. Estes estudos possibilitam o clculo de taxas
de incidncia e prevalncia, assim como do risco relativo (o EpiInfo efectua estes clculos
automaticamente).
Investigao e Estatstica com o EpiInfo
11
Antnio Pina
Gabinete de Investigao e Estatstica
Delegao Regional do Algarve do Instituto da Droga e Toxicodependncia
11


b) Estudos de caso-controlo
Podero ser confundidos com os estudos de coorte porque tambm se baseiam em
medies ao longo do tempo, mas aqui os 2 grupos dividem-se tendo em conta os efeitos e no a
exposio. Ou seja, utilizando o exemplo anterior, caso no pudssemos de antemo saber
quantos estiveram expostos ou no, seria sempre fcil diferenciar o grupo entre os que morreram
ou no no final do ano. Se soubermos, atravs de informao colhida num ficheiro, qual a forma
de consumo utilizada no passado, possvel estimar tambm algo aproximado ao risco relativo
que, neste caso, denominado Odds Ratio.

c) Estudos transversais analticos
Os estudos transversais analticos so "fotografias" mas que tambm podero incluir
alguma anlise quando as variveis de exposio e de resultado so persistentes ao longo do
tempo. Por exemplo, possvel estudar a associao entre a varivel sexo (obviamente, quase
imutvel...) e uma determinada doena crnica, numa populao.

C - Estudos descritivos
Um estudo descritivo aquele que ambiciona apenas estimar parmetros de uma
populao, nomeadamente propores, mdias, etc. No necessita de elaborao de hipteses de
estudo pois trata-se apenas de uma "fotografia" da situao. Tais estudos tm a importncia
fundamental de serem sempre o primeiro passo da investigao. Deles nascem as hipteses que
podero ser estudadas em estudos mais sofisticados.
Todos os investigadores e toda a investigao dever comear por aqui.


5- Planeie a recolha e a anlise dos dados
Decida quais sero os suportes de informao que vai utilizar, ou seja, desenhe a ficha ou
a tabela onde vai pr os dados para posteriormente passar para o computador.
Claro que s dever ser utilizado o computador se estiver previsto que vo ser efectuadas
vrias anlises aos mesmos dados (ex.: pedir cumulativamente frequncias, mdias e outros
Investigao e Estatstica com o EpiInfo
12
Antnio Pina
Gabinete de Investigao e Estatstica
Delegao Regional do Algarve do Instituto da Droga e Toxicodependncia
12
testes estatsticos). Se estiver previsto apenas saber uma mdia e algumas frequncias,
provavelmente no ser importante utilizar o computador, atendendo que o tempo que levamos a
introduzir os dados no compensa os benefcios da sua utilizao. Neste caso, bastar utilizar
uma mquina calculadora!
Finalmente, tendo em conta as hipteses do estudo e a escala de medio das variveis,
decida quais sero os testes estatsticos a aplicar.
A anlise dos dados, depois de colhidos, genericamente efectuada segundo 4 fases:
1- Verificar e corrigir os erros de preenchimento que sempre se cometem na introduo
dos dados (para isto conveniente ver a base de dados em matriz, ou seja, listando
todos os valores de uma ou mais variveis numa tabela; no EpiInfo um bom mtodo
ser clicar em LIST na seco ANALYSIS e seleccionar "update" para fazer as
correces).
Os erros na colheita e transcrio dos dados para as fichas e o computador traduzem-
se em vieses de informao.
2- Efectuar a anlise univariada: cada varivel estudada isoladamente e de forma
descritiva (frequncias, medianas, mdias, etc.).
3- Efectuar a anlise bivariada: estuda-se a possibilidade de existir algum tipo de relao
entre uma varivel de exposio e uma varivel resposta (Qui-quadrado, Kruskall-Wallis,
ANOVA, etc.).
4- Efectuar a anlise multivariada: estuda-se o efeito das variveis interferentes na
relao entre as variveis de exposio e as de resultado (anlise estratificada, emparelhamento
das amostras, regresso linear ou logstica multivariada, etc.).


6- Interprete os resultados para elaborar um relatrio
J referimos que no bastar aplicar os testes estatsticos para tirar concluses sobre os
nossos dados porque eles podero estar errados ou porque o desenho do estudo pode no ser o
correcto. Assim, fundamental, na hora de concluir o que quer que seja, pensar sempre em todas
as possibilidades de erro nos procedimentos metodolgicos escolhidos. tambm fundamental
revelar todos estes problemas de forma transparente no captulo "Discusso" do relatrio final,
sem tentar camuflar ou esconder estes erros, pois tal comportamento extremamente grave para
Investigao e Estatstica com o EpiInfo
13
Antnio Pina
Gabinete de Investigao e Estatstica
Delegao Regional do Algarve do Instituto da Droga e Toxicodependncia
13
quem suposto estar procura da "Verdade". Fica-nos a consolao que todos os estudos
cometem erros e tm limitaes, pelo que se o nosso os no cometeu, ser muito de desconfiar, a
no ser que tenhamos sido orientados por alguma entidade divina.
Na hora de interpretar os resultados, poderemos classificar todas as possibilidades de erro
da seguinte forma:

1- Os erros aleatrios relacionados com o processo de seleco aleatria de
amostragem e que as provas estatsticas medem quando nos informam da
probabilidade de os nossos resultados representarem o que sucede realmente na
populao. Para diminuir estes erros ser necessrio aumentar a dimenso da amostra
at um limite razovel, de acordo com os nossos recursos. No Anexo 3 explica-se
uma forma fcil de calcular a dimenso da amostra, tendo em conta o mximo erro
aleatrio admissvel.

2- Os erros sistemticos ou vieses que podero ser classificados da seguinte forma:
Vieses de seleco.
Tm a ver com o facto de seleccionarmos uma amostra atravs de um mtodo
que no garante a sua representatividade:
a) vieses de admisso, p.ex., quando a nossa amostra seleccionada a partir
de uma populao especial, no representativa da realidade. o caso se
fizermos um estudo baseado na populao de toxicodependentes que vo
aos servios de sade: evidentemente as concluses tiradas de um estudo
como este no podem ser generalizadas para todos os toxicodependentes,
por no incluirem aqueles que no vo aos servios de sade. Relacionado
com esta problemtica est caracterizado o chamado vis de Berkson, que
tem a ver com o facto de quando se estuda uma populao de doentes de
um servio de urgncia hospitalar, encontram-se frequentemente
associaes estatsticas entre doenas que no se encontram associadas,
nem na populao em geral, nem patogenicamente (p.ex., gota e bronquite,
atendendo serem ambas doenas com o denominador comum de
implicarem contactos frequentes com os servios de urgncia).

Investigao e Estatstica com o EpiInfo
14
Antnio Pina
Gabinete de Investigao e Estatstica
Delegao Regional do Algarve do Instituto da Droga e Toxicodependncia
14
b) vieses de amostragem, p.ex., quando aplicamos um questionrio a uma
amostra de convenincia que "apanhamos" na rua, esta poder ser
constituda s pelos cidados mais simpticos e que mais saiem rua, o
que poder ser muito diferente dos cidados em geral! A nica forma de
evitar este vis fazer sempre a seleco de forma aleatria.

c) vieses de no participao, p.ex., quando muitos elementos da amostra se
recusam a responder ao questionrio.

d) vieses de ausncia de respostas, p.ex., quando no se consegue contactar
todos os elementos da amostra.

e) vieses relacionados com o desaparecimento de elementos da amostra em
estudos longitudinais.

Nos casos referidos nas alneas c), d) e e), importante comparar o grupo da
amostra que no respondeu com o grupo que respondeu relativamente a outras
variveis conhecidas (geralmente scio-demogrficas). Se no h diferenas
estatisticamente significativas entre os dois grupos aumenta a probabilidade de
as no-respostas no terem significado.


Vieses de informao.
Tm a ver com os erros de classificao dos elementos da amostra, erros na
medio das variveis, ou na codificao e recolha da informao. Geralmente
classificam-se segundo dois tipos:

a) vieses do observador (ou de classificao)

b) vieses de resposta: o caso de um questionrio que por ser mal feito poder
induzir a maioria dos elementos da amostra a responderem num determinado
sentido...
Investigao e Estatstica com o EpiInfo
15
Antnio Pina
Gabinete de Investigao e Estatstica
Delegao Regional do Algarve do Instituto da Droga e Toxicodependncia
15
Estes erros podero ser minorados se houver rigor humano e tcnico, utilizando
instrumentos de medio mais vlidos, etc.

Vieses de confundimento.
Falmos j que importa em estudos analticos classificar as nossas
variveis em trs categorias: variveis de exposio, de resposta e interferentes.
H dois tipos de variveis interferentes: as de confundimento e as
modificadoras de efeito.
O confundimento pode surgir quando uma varivel interferente, neste caso
denominada de confundimento, distorce ficticiamente a associao entre a
varivel de exposio e de resposta, alterando-lhe a fora ou mesmo o sentido.
Um exemplo muito prtico quando o investigador quer saber se h
associao entre o estado civil e o cancro. Possivelmente, encontrar-se- uma
associao positiva entre o facto de se estar casado e ter cancro, pelo que se
poderia tirar a concluso errada que o casamento constitui um risco cancergeno!
A verdade que existe aqui uma varivel de confundimento - a idade - que
distorce a associao! Efectivamente, a idade (v. de confundimento) est
associada tanto ao estado civil (v. de exposio), porque os casados tendem a ser
mais velhos, como ao cancro (v. resposta) porque os doentes de cancro tambm
tendem a ser mais velhos.
Em todos os casos de confundimento necessrio que a v. de
confundimento esteja associada tanto exposio como resposta. Outra forma
de dizer a mesma coisa referir que alm de a v. de confundimento estar
associada resposta, necessrio tambm que os diversos grupos classificados
segundo a v. de exposio (no exemplo atrs apontado: dois grupos -
casados/solteiros) estarem desajustados quanto v. de confundimento
(efectivamente, a proporo de velhos era diferente entre os casados e solteiros).
Repare-se que isto significa que, de alguma maneira, um confundimento um erro
no desenho do estudo, porque no se deve comparar dois grupos desajustados (no
Anexo 2 do-se mais informaes sobre como controlar o efeito destas variveis)!

Investigao e Estatstica com o EpiInfo
16
Antnio Pina
Gabinete de Investigao e Estatstica
Delegao Regional do Algarve do Instituto da Droga e Toxicodependncia
16
Finalmente, para decidirmos que uma determinada varivel de exposio poder ter uma
relao de causalidade com uma varivel resposta, deveremos pensar se se cumprem vrios
critrios de causalidade. Existem trs critrios essenciais de "causalidade":

a temporalidade: efectivamente, impossvel um efeito ser anterior sua causa... no entanto,
possvel uma varivel ser anterior a outra e no haver qualquer relao de causalidade...

a associao estatstica: as variveis de exposio tero de estar associadas s variveis efeito
de forma estatisticamente significativa, ou seja, a associao no dever ser fortuita (devida
ao acaso). No entanto, possvel haver associaes causais entre variveis que, em virtude da
pequena dimenso da amostra, no do resultados estatisticamente significativos!

a ausncia de espuriedade, ou seja, ausncia de associaes "artificiais" entre variveis, que
no tm significado prprio (por ex.: a associao entre o estado civil e o cancro, ou nmero
de telemveis e as doenas cardacas ...) provocadas pela interferncia de terceiras variveis
escondidas. Estamos aqui a falar novamente do problema do confundimento em investigao.
Os estudos experimentais so os que melhor podem controlar as confuses que todas estas
variveis interferentes podem provocar. Nos outros estudos, tenta-se controlar estas
interferncias atravs do emparelhamento, da padronizao, ou da anlise estratificada e
multivariada (Anexo 2 - Controlo das variveis interferentes).

Outros critrios de causalidade menos importantes so:
a fora da associao: quanto maior a diferena entre duas populaes quanto frequncia da
doena e do factor de risco, mais provvel ser haver uma associao entre a doena e o
referido factor de risco. A fora da associao mede-se em termos epidemiolgicos pelo risco
relativo (ou odds ratio), risco absoluto, coeficiente de determinao na correlao linear, etc.
No entanto, possvel pensarmos existir uma verdadeira associao causal, embora fraca,
quando os resultados, apesar de revelarem pouca fora de associao, so estatisticamente
significativos...

Investigao e Estatstica com o EpiInfo
17
Antnio Pina
Gabinete de Investigao e Estatstica
Delegao Regional do Algarve do Instituto da Droga e Toxicodependncia
17
o gradiente biolgico da associao refere-se existncia de uma curva dose-resposta entre a
varivel "causal" e a varivel efeito. No entanto, este gradiente pode existir mesmo sem
relao de causalidade se existirem variveis de confundimento a modificar a associao...

a consistncia: quando a associao se repete em populaes diferentes e em circunstncias
diferentes.

a especificidade: quando a causa leva sempre a um s efeito nico mais fcil estabelecer a
relao de causalidade, no entanto, a maioria das causas de doena ou sade tm efeitos
mltiplos...

a coerncia com as teorias e conhecimentos vigentes, no entanto, se tivessemos que ser
sempre coerentes com o passado nunca evoluiramos...


7 - Comentrios finais
importante escrever o protocolo no computador pois ser seguramente necessrio fazer
muitas modificaes e correces at a forma final! Por outro lado, muito do que se escreve para
o protocolo poder ser utilizado para o relatrio ou artigo a publicar, especialmente para os
captulos de introduo e mtodos.
Faa sempre ainda um cronograma com as suas actividades. mais uma forma de auto-
disciplina que nos ajuda a levar a bom termo o nosso processo de investigao.
O rigor no cumprimento dos passos do protocolo muito importante mas evidente que
no h estudos perfeitos que nos possam revelar a "Verdade". Assim, depois da elaborao do
protocolo, resta-nos segui-lo com o rigor possvel mas, tambm, com a conscincia das
imperfeies do mesmo. A paixo pela perfeio no nos deve bloquear e, sobre este assunto,
algum disse que em investigao, assim como no amor, uma exagerada concentrao na
tcnica, levar provavelmente impotncia...

Atendendo aos erros que todos os estudos incluem, as concluses tm de ser geralmente
cuidadosas e prudentes.
Investigao e Estatstica com o EpiInfo
18
Antnio Pina
Gabinete de Investigao e Estatstica
Delegao Regional do Algarve do Instituto da Droga e Toxicodependncia
18
Um remate final: a investigao dever sempre que possvel resultar num
trabalho publicado, pois s aquilo que publicado tem existncia real...



















Investigao e Estatstica com o EpiInfo
19
Antnio Pina
Gabinete de Investigao e Estatstica
Delegao Regional do Algarve do Instituto da Droga e Toxicodependncia
19








PARTE 2
Noes de estatstica











Investigao e Estatstica com o EpiInfo
20
Antnio Pina
Gabinete de Investigao e Estatstica
Delegao Regional do Algarve do Instituto da Droga e Toxicodependncia
20
Noes de Estatstica

1. A Estatstica descritiva.
Quando queremos investigar, o primeiro objectivo descrever o fenmeno. Por isso, a
primeira fase de tratamento dos dados a anlise univariada, atravs da verificao das
frequncias e o clculo das medidas de localizao central e de disperso para cada varivel
isoladamente.
Geralmente, no se calculam mais que as seguintes medidas:
as frequncias absolutas (nmeros absolutos de cada valor) e as frequncias relativas
(as propores em percentagens ou permilagens, etc.).
a mdia e desvio-padro
a mediana e desvio-quartil
a moda.

No entanto, as medidas atrs referidas no podero ser calculadas para qualquer tipo de
varivel. Tudo depende da escala de valores de cada varivel, pelo que aqui ser importante fazer
um pequeno parntesis para classificarmos as variveis quanto sua escala. Compreender esta
classificao de importncia crucial para utilizarmos de forma adequada a estatstica.
Sumariamente, poderemos classificar as variveis da seguinte forma:

1- Variveis qualitativas nominais: so variveis cujos valores no tem uma relao de
ordem entre eles, por ex., o Sexo e Raa.
Para este tipo de variveis poder-se- fazer o estudo das frequncias absolutas e relativas (no EpiInfo
escolhemos o Comando FREQUENCIES).

2- Variveis qualitativas ordinais, cujos valores no so mtricos mas incluem relaes de
ordem. o caso da varivel "Peso" medida em 3 nveis (pouco pesados, pesados, muito
pesados).
Para este tipo de variveis poder-se- fazer tudo quanto possvel fazer-se para as variveis nominais, mas
tambm adicionalmente possvel estudar as medianas, quartis, modas (Comando MEANS no EpiInfo);

Investigao e Estatstica com o EpiInfo
21
Antnio Pina
Gabinete de Investigao e Estatstica
Delegao Regional do Algarve do Instituto da Droga e Toxicodependncia
21
3- Variveis quantitativas, cujos valores so medidos numa escala mtrica, como por ex.,
a "Idade", ou o "Peso" medido em gramas.
Para este tipo de variveis poder-se- fazer tudo quanto possvel fazer-se para as variveis nominais e
ordinais, mas tambm adicionalmente possvel estudar as mdias e desvios-padro (Comando MEANS no
EpiInfo).

Se quiser utilizar o EpiInfo (disponvel gratuitamente em www.cdc.gov/epiinfo), aconselho a
criar uma pequena base de dados, (recomenda-se estudar o "Manual" existente em
http://www.saudepublica.web.pt/03-Investigacao/032-EpiInfoSoftware/apresentao_epiinfo_2000.htm), e que
poderemos nomear "Experincia":
Nome Data de Nascimento Data Actual Peso Sexo
Joo 13-12-1973 15-12-2000 60 homem
Maria 10-07-1961 15-12-2000 55 mulher
Manuel 20-11-1980 15-12-2000 80 homem
Lus 11-05-1950 15-12-2000 75 homem
Ana 15-08-1985 15-12-2000 50 mulher

Com esta base de dados criada ser mais fcil compreender as provas estatsticas.

1.1.Interpretar as frequncias absolutas e relativas.
No caso de variveis nominais como o sexo ou a raa, s podero ser calculadas as
frequncias. totalmente impossvel calcular a mdia ou a mediana do sexo porque a escala
destas variveis no tem sequer uma relao de ordem. Repare-se que por vezes codificam-se as
variveis com nmeros para introduo no computador, o que torna possvel pedir erradamente
mdias para variveis nominais, embora tais resultados, evidentemente, no tenham significado
nenhum!
No caso de variveis ordinais ou quantitativas, claro que tambm possvel calcular as
frequncias. Por exemplo, suponhamos que sabemos o Peso medido em Kg de 1000 pessoas.
Ser possvel calcular as frequncias de quem tem 40 Kg, 41 Kg, 42 Kg, ..., etc., mas atendendo
ao elevado nmero de pessoas, ser prefervel agrup-las em grupos com o mesmo intervalo, por
exemplo, grupo A (40-45 Kg), grupo B (46-49 Kg), etc., de forma a calcular as frequncias para
cada grupo.
Investigao e Estatstica com o EpiInfo
22
Antnio Pina
Gabinete de Investigao e Estatstica
Delegao Regional do Algarve do Instituto da Droga e Toxicodependncia
22
Convm que o intervalo de amplitude dos diferentes grupos seja sempre o mesmo, caso
contrrio, os resultados podero confundir-nos, pois tenderemos a comparar grupos que no so
comparveis!
1


1.2.Interpretar as mdias, desvios-padro, medianas, etc.
Para alm das frequncias absolutas e relativas j referidas, existem outras medidas
geralmente calculadas para variveis ordinais ou quantitativas, tal como se encontra no Quadro
seguinte:

Escala da varivel Medidas de localizao central Medidas de disperso
Ordinal ou Quantitativa Mediana Amplitude interquartil / Desvio
interquartil
Quantitativa Mdia Varincia / Desvio-padro
Qualquer escala Moda -


A Mdia aritmtica assim como o Desvio-padro que lhe est associado, so conceitos
que geralmente oferecem poucas dvidas. So calculados apenas em variveis com a escala
quantitativa. Por exemplo, no tem significado calcular a mdia para o Sexo (varivel nominal)
ou para o Peso medido em escala ordinal.
O conceito de Mediana, no entanto, gera muitas confuses: a Mediana simplesmente o
valor que se situa a meio da fila ordenada de valores, desde o mais baixo ao mais alto. Assim,
tem que haver uma relao de ordem nos valores, pelo que a Mediana pode ser calculada tanto
para as variveis ordinais como para as quantitativas puras. A partir do exemplo relacionado com
a base de dados "Experincia" criada no EpiInfo, poderemos criar uma nova varivel idade a
partir da data de nascimento e data actual, tal como se explica no Manual sobre o EpiInfo, e
executar o comando MEANS para a idade, obtendo todas estas medidas. Neste exemplo, temos
cinco pessoas com as seguintes idades j ordenadas:

1
Apesar de tudo, existe a possibilidade de comparar graficamente classes de diferentes amplitudes atravs dos
histogramas que, so grficos em que a rea das colunas representam o nmero de indivduos (ao invs da altura das
colunas). No entanto, apesar deste tipo de grficos ser muito falado nos cursos de estatstica, raramente se vm em
artigos ...
Investigao e Estatstica com o EpiInfo
23
Antnio Pina
Gabinete de Investigao e Estatstica
Delegao Regional do Algarve do Instituto da Droga e Toxicodependncia
23

15
20
27
39
50
O nmero 27 representa o valor que est a meio, ou seja, a Mediana. Isto significa que
50% das pessoas tm uma idade igual ou maior que 27 e, evidentemente, os outros 50% tm uma
idade igual ou menor que 27.
O nmero 20 representa o valor que est a meio da primeira metade, ou seja, o primeiro
Quartil ou Percentil 25. Isto significa que 75% das pessoas tm uma idade igual ou maior que 20
e, evidentemente, os outros 25% tm uma idade igual ou menor que 20.
O nmero 39 representa o valor que est a meio da segunda metade, ou seja, o terceiro
Quartil ou Percentil 75. Isto significa que 75% das pessoas tm uma idade igual ou menor que 39
e, evidentemente, os outros 25% tm uma idade igual ou maior que 39.
Claro que a mediana tambm o segundo Quartil e o Percentil 50. No caso deste
exemplo, com um nmero mpar de valores ordenados (cinco), a mediana o valor que est a
meio, mas no caso de um nmero par de valores ordenados, a mediana ter ser calculado
fazendo-se a mdia entre os dois valores que esto a meio.
A Moda o valor mais frequente (ou seja, o que "est na moda"...). Neste caso, como no
existe nenhum valor mais frequente, o EpiInfo d-nos o menor valor (atravs do comando
MEANS), o que no tem significado absolutamente nenhum, podendo mesmo induzir-nos em
erro. O que se passa que quando existem vrias Modas, o EpiInfo apresenta sempre a menor:
ou seja, se numa amostra existem 10 pessoas com 20 anos e 10 pessoas com 30 anos, sendo
todas as outras idades menos frequentes, sucede que existem duas Modas, mas o EpiInfo vai
referir apenas a que apresenta o menor valor ou seja, dir que 20 anos o valor mais frequente.
Por isto, se nos interessa referir a Moda, convm verificar se no h outro valor to frequente na
nossa amostra. Para isto basta executar o comando FREQUENCIES, que nos d as frequncias
de todos os valores.
Qual a diferena de interpretao entre a Mediana e a Mdia?
Em primeiro lugar a Mediana pode ser utilizada tanto em variveis quantitativas como em
variveis qualitativas ordinais, enquanto a Mdia s pode ser utilizada em variveis
quantitativas.
Investigao e Estatstica com o EpiInfo
24
Antnio Pina
Gabinete de Investigao e Estatstica
Delegao Regional do Algarve do Instituto da Droga e Toxicodependncia
24
Em segundo lugar, no caso das variveis quantitativas, embora a Mdia seja um valor
mais fcil de entender, tem o defeito de nos induzir em erro se a nossa amostra tiver valores
muito extremos. Por exemplo, na distribuio de idades da nossa amostra a Mdia de 30,2 e a
Mediana de 27. Imagine que o indivduo mais velho tinha no 50 anos de idade mas sim 100
anos. Isto faria com que a Mdia saltasse para 40,2, ou seja, seria superior a quase todos os
valores individuais, mas a Mediana continuaria a ser 27. Se olharmos para todos os 5 valores
individuais da nossa amostra, verificamos que o nmero 27 melhor representante da
distribuio global da idade na nossa amostra que o errneo nmero 40,2.
Assim, no caso das variveis quantitativas, quando o valor da Mediana muito diferente
da Mdia, aconselhvel considerar sempre a Mediana como valor de referncia mais
importante.
Alm das medidas de localizao central (mdia, mediana, moda) existem as medidas de
disperso que nos do a ideia da variao dos dados.
Quando se calcula a mdia dever-se- sempre calcular o desvio-padro, apresentando-se a
sua frmula apenas para ficar-se com uma ideia do que representa:

Desvio-padro =
N
Mdia Xi


2
) (

em que
Xi = Cada valor individual
N = Nmero de todos os valores
Ou seja, para calcular o Desvio-padro necessrio primeiro calcular a Mdia e depois
calcular todas as diferenas entre cada valor individual e a mdia. um erro dizer que o desvio-
padro a mdia de todas as diferenas, mas podemos senti-lo como algo aproximado.
Por vezes, queremos comparar duas variveis quantitativas quanto ao seu grau de
disperso, por exemplo, o Peso (em Kg) e a Idade (em Anos). Esta comparao no poder ser
feita comparando simplesmente os Desvios-padro respectivos, porque estes esto expressos em
unidades de medida diferentes, i.e., no se pode comparar a disperso de Kg com a de Anos! No
entanto, possvel fazer esta comparao em termos relativos, se calcularmos o coeficiente de
variao, da seguinte forma:
Coeficiente de variao =
Mdia
padro Desvio
X 100%
Investigao e Estatstica com o EpiInfo
25
Antnio Pina
Gabinete de Investigao e Estatstica
Delegao Regional do Algarve do Instituto da Droga e Toxicodependncia
25
convencionando alguns autores que um coeficiente variao maior que 10% significa que
a disperso forte.

Nas variveis ordinais, como no possvel calcular mdias ou desvios-padro, para
avaliar o grau de disperso, poder-se- calcular a Amplitude interquartil e o Desvio-quartil.
A Amplitude interquartil simplesmente a diferena entre o 3 e o 1 Quartil, ou seja, no
exemplo anterior, 39-20= 19. Repare-se que nesta Amplitude inter-quartil situam-se os 50%
centrais dos valores.
O Desvio interquartil sempre metade da Amplitude interquartil, ou seja, 19/2=9,5.
Tambm possvel, calcular a o coeficiente de variao quartil da seguinte forma:
Coeficiente de variao quartil=
Quartil Quartil
erquartil Amplitude
1 3
int
+
X 100%
Claro que estes clculos tambm podem ser efectuados para as variveis quantitativas.


2. A Estatstica Dedutiva
Para alm da simples descrio dos dados que temos, a Estatstica pretende ajudar-nos a
inferir at que ponto os nossos resultados podero ser representativos da populao que est por
trs da nossa amostra.
Ou seja, suponhamos que retiramos de forma aleatria uma amostra de 100 doentes de
um ficheiro clnico com 1000 doentes. Aps verificarmos que na nossa amostra temos 10% de
mulheres, poderemos perguntar-nos at que ponto, na populao, tambm existe 10% de
mulheres.
De facto, devido ao acaso, ao seleccionar aleatoriamente uma amostra, podemos sempre
ter o azar de encontrar 100 sujeitos que so muito diferentes da populao.
intuitivo que quanto maior for a diferena entre a amostra e a populao de origem,
menor ser a probabilidade de isso acontecer. Por outras palavras, a probabilidade de termos uma
amostra semelhante sua populao elevada, mas existe sempre uma possibilidade de a
amostra ser diferente, sendo a probabilidade de isto acontecer tanto menor quanto maior for esta
diferena. Mas, como medir esta probabilidade?
Investigao e Estatstica com o EpiInfo
26
Antnio Pina
Gabinete de Investigao e Estatstica
Delegao Regional do Algarve do Instituto da Droga e Toxicodependncia
26
Aqui entram as Provas estatsticas e os seus resultados em termos de probabilidades "p"
de significncia estatstica.
importante referir que existem 3 formas de aplicar os testes estatsticos:
1 - Provas de conformidade, ou seja, para verificar se h diferenas entre uma amostra e
uma populao ( o exemplo atrs referido em que pretendemos saber qual a probabilidade de a
percentagem de mulheres na nossa amostra ser semelhante h que existe na populao de
origem). Por outras palavras, at que ponto a minha amostra representativa da populao?.
2 - Provas de homogeneidade, ou seja, para verificar se as diferenas encontradas entre
dois grupos da amostra sero representativas de diferenas reais na populao de origem. Por
exemplo, atravs do comando MEANS no EpiInfo, podemos ver se as mulheres so diferentes
dos homens quanto varivel idade na nossa amostra. Tambm aqui h a possibilidade de haver
diferenas entre a idade dos dois grupos, mas isto poder ser devido apenas ao acaso e no a
verdadeiras diferenas na populao. As provas estatsticas medem sempre a probabilidade de as
diferenas encontradas serem devidas ao acaso, partindo do pressuposto que na verdade no
existem diferenas na populao. Se a probabilidade encontrada for pequena, teremos mais
confiana em afirmar que as mulheres e os homens tm idades diferentes na populao.

3- Provas de independncia, ou seja, verificar se duas variveis simtricas so
independentes (ex.: se a cor dos olhos independente ou est associada `a raa e at que ponto
isso tambm existe na populao de origem).

Repare-se que o "p" de significncia estatstica, resultante destas provas, d-nos sempre a
a probabilidade de os nossos resultados serem semelhantes ao que existe na populao de origem
(partindo do pressuposto que na populao de origem no h diferenas entre grupos, nem
associaes entre variveis). Geralmente, em cincias da sade, quando estas probabilidades so
inferiores a 5%, ou seja, h menos de 5 possibilidade em 100 de suceder um determinado
resultado, ns consideramos que so estatisticamente significativas.
Como este "p" tem a ver apenas com a probabilidade de os nossos resultados se
assemelharem ao que existe na populao, tm uma grande limitao: no nos dizem se as
diferenas encontradas ou a associao entre as variveis so fortes ou importantes! De facto,
nem sempre aquilo que estatisticamente significativo importante! Repare-se: suponhamos que
queremos saber se as mulheres so diferentes dos homens quanto idade. Se aplicarmos um teste
Investigao e Estatstica com o EpiInfo
27
Antnio Pina
Gabinete de Investigao e Estatstica
Delegao Regional do Algarve do Instituto da Droga e Toxicodependncia
27
estatstico os seus resultados so tanto mais estatisticamente significativos quando maiores forem
as diferenas entre os dois grupos, e tambm, quanto maior for a dimenso da amostra estudada.
Isto significa que por vezes, pequenssimas diferenas entre os dois grupos podem ser
estatisticamente significativas se a amostra tiver grandes dimenses. Mas a questo que aqui se
pe : so estas pequenssimas diferenas importantes do ponto de vista clnico, social, etc.?
Neste caso particular, o aprendiz de estatstica tender a valorizar um qualquer resultado
estatisticamente significativo, mesmo que este no tenha interesse absolutamente nenhum,
atendendo ter a ver com pequenssimas diferenas...
Em concluso, existem duas dimenses na anlise dos resultados: uma em que a
Estatstica nos diz at que ponto o que vemos na nossa amostra o que existe na populao, ou
seja, at que ponto estatisticamente significativo; outra em que procuramos verificar at que
ponto os nossos resultados implicam associaes entre variveis ou diferenas importantes e
fortes, calculadas atravs de simples subtraces (Diferenas de Riscos) ou quocientes (Risco
Relativo, Odds Ratio, etc). possvel haver uma associao forte nos resultados da nossa
amostra que, no entanto, no sendo estatisticamente significativos, tm pouco interesse porque
no temos garantias de existirem na populao real. Por outro lado, tal como j referimos,
possvel haver uma associao estatisticamente significativa mas que, por ser to fraca, no tem
importncia nenhuma.
Posto isto vamos agora partir para a compreenso dos testes estatsticos no EpiInfo.

2.1- Os intervalos de confiana
Quando solicitamos o comando "FREQUENCIES" para uma varivel como o sexo, por
ex., o EpiInfo d-nos os valores das percentagens de cada sexo e o Intervalo de Confiana de
95% para as mesmas percentagens.
Este intervalo de confiana s tem interesse se as percentagens em causa so de uma
amostra seleccionada aleatoriamente de uma populao mais vasta.
Por exemplo, suponhamos que a nossa base de dados "Experincia" (5 elementos em que
3 so homens e 2 so mulheres) representa uma amostra de todos os utentes dum servio de
sade. Nesta amostra poderemos dizer que existem 60% (3/5=0,6) de homens e 40% (2/5=0,4)
de mulheres. Mas ser que as percentagens de cada sexo, em toda a populao de utentes, so
tambm estas? Nunca o saberemos ao certo com estes dados. No entanto, aplicando a prova que
Investigao e Estatstica com o EpiInfo
28
Antnio Pina
Gabinete de Investigao e Estatstica
Delegao Regional do Algarve do Instituto da Droga e Toxicodependncia
28
o EpiInfo aplica, poderemos acreditar com uma confiana de 95% que a percentagem de homens
na populao estar algures entre 14,7% e 94,7% e a percentagem de mulheres entre 5,3% e
85,3%
2
.
Repare-se que neste caso os intervalos de confiana so muitssimos dilatados, atendendo
que a amostra em causa conta com apenas 5 elementos, pelo que o erro de amostragem enorme.
evidente que quanto maior for a nossa amostra, mais pequeno ser o intervalo de
confiana e por isso, mais provvel ser obtermos extrapolaes precisas das verdadeiras
percentagens da populao.
Mas ateno: mesmo este intervalo no uma certeza pois tem uma confiana de 95%,
ou seja, h sempre uma probabilidade de 5% de a verdadeira percentagem estar fora destes
limites...
claro que, se as percentagens em causa forem calculadas tendo por base no uma
amostra mas toda a populao, os intervalos de confiana que o EpiInfo automaticamente vomita
no tm significado absolutamente nenhum, pelo que devem ser ignorados. Um exemplo
quando um mdico introduz os dados de todo o seu ficheiro clnico e depois quer saber a
percentagem de cada sexo para o seu ficheiro. Se o resultado for 35% de mulheres, mesmo
35% sem qualquer dvida ou intervalo de confiana, pois ele quis saber a percentagem de
mulheres do seu ficheiro que, neste caso, est totalmente informatizado.
Finalmente, tenha-se em ateno que se a amostra no aleatria, tambm no ser
legtimo falar-se em intervalos de confiana para a populao, porque aqui a amostra no ser
representativa de nenhuma populao conhecida.

2.2.- Provas para verificar a associao entre duas variveis qualitativas - o
Qui-quadrado e a Prova de Fisher.

Suponhamos que temos uma amostra de 5 pessoas, para as quais sabemos o sexo e a
idade. O sexo uma varivel nominal, enquanto a idade poder ser quantitativa, caso faamos a
sua medio em "anos". No entanto, neste caso vamos transform-la numa varivel tambm
nominal, criando duas classes - a classe dos adultos e a dos jovens.

2
Novamente, segundo os Estatsticos, a interpretao dever ser feita com uma pequena nuance: um Intervalo de
confiana de 95% significar que se seleccionarmos um nmero infinito de amostras sempre da mesma forma
aleatria, em 95% delas, estaro incluidos os valores "verdadeiros" no intervalo de confiana resultante.
Investigao e Estatstica com o EpiInfo
29
Antnio Pina
Gabinete de Investigao e Estatstica
Delegao Regional do Algarve do Instituto da Droga e Toxicodependncia
29
Nestes casos, assim como em qualquer caso onde tenhamos duas variveis qualitativas
em jogo, poderemos expor os dados segundo uma tabela de dupla entrada. Tendo em conta o
exemplo j criado no EpiInfo, poderemos criar esta tabela atravs da execuo do comando
TABLES, em que pomos Sexo como varivel de exposio e Grupos etrios (ex.: Jovens com
menos de 18 anos e Adultos) como varivel resposta:

Varivel "output" (Grupos)
Adultos Jovens Total
Homem 3 0 3
Mulher 1 1 2

Varivel de
exposio (Sexo)
Total 4 1 5

Tambm na seco STATCALC possvel construir tabelas mas, neste caso,
directamente do teclado, e no a partir de uma base de dados j existente.
Seja como for, face aos dados da tabela exemplificada em cima, pode-se perguntar se o
grupo de "Adultos" diferente do grupo de "Jovens" quanto ao sexo.
Vamos supor que na verdade no existe uma diferena entre os dois grupos quanto ao
sexo na populao de onde vem esta amostra. Novamente, mesmo que seja esta a verdade,
tambm possvel que quando colhemos uma amostra o resultado possa apresentar uma diferena
por questes ligadas ao acaso.
claro que quanto maior for a dimenso da amostra, mais fcil ser identificar diferenas
verdadeiras entre os dois grupos. Tambm, quanto maior for a diferena no gnero sexual entre
os dois grupos, mais provvel ser a existncia desta diferena verdadeira entre os dois grupos.
O Qui-quadrado mede a probabilidade de as diferenas encontradas nos dois grupos da
nossa amostra serem devidas ao acaso, partindo do pressuposto que, na verdade, no h
diferenas entre os dois grupos na populao donde provm. Se a probabilidade for alta
poderemos concluir que no h diferenas estatisticamente significativas. Se a probabilidade for
baixa (particularmente menor que 5%) poderemos concluir que o grupo de "Adultos" diferente
do grupo de "Jovens" quanto ao sexo, e de forma estatisticamente significativa.
No entanto, o Qui-quadrado tem limitaes, nomeadamente, dever ser substitudo pela
Prova exacta de Fisher quando os valores esperados nas clulas da tabela so inferiores a 5.
Investigao e Estatstica com o EpiInfo
30
Antnio Pina
Gabinete de Investigao e Estatstica
Delegao Regional do Algarve do Instituto da Droga e Toxicodependncia
30
Assim, eu recomendo que se verifique sempre se somos avisados - "Warning: the
expected value of a cell is < 5. Fisher Exact Test should be used". Nestes casos, evidentemente
utilizaremos o "p" unilateral de Fisher ("1-tailed P-value"). Quando no recebemos este aviso
poderemos utilizar o valor "p" do Qui-quadrado no corrigido.
No caso do nosso exemplo o valor "p" do Qui-quadrado seria 0,17 mas o valor a utilizar
deveria ser o de Fisher, ou seja 0,40 (o que significaria que as eventuais diferenas no seriam
estatisticamente significativas).

Outras tabelas (com mais de duas filas e/ou colunas)
Neste caso a Prova de Fisher no aplicvel (s o para tabelas de 2x2) pelo que o seu
resultado nunca aparece.
O comando TABLES produz a tabela e calcula o Qui-quadrado mas, quando a tabela
superior a 2x2, no nos avisa quando os valores esperados nas clulas so inferiores a 5.
S a seco STATCALC nos d tais avisos pelo que eu recomendo sempre reproduzir
estas tabelas, com mais de duas filas ou colunas, nesta seco. Dever ser aceite o valor de "p"
proposto excepto quando somos avisados que o valor esperado de uma clula inferior a 5.
Nestes casos, como j no podemos utilizar a Prova de Fisher, resta-nos agregar a tabela de
forma a conter menos colunas ou filas, e voltar a aplicar o Qui-quadrado.
Tambm na seco STATCALC existe a possibilidade muito interessante de se fazer a
prova da tendncia linear do Qui-quadrado.
Suponhamos que temos uma tabela do gnero:


Doenas cardacas
(Varivel resultado)
Sim
(casos)
No
(controlos)
1 (no fuma) 5 85
2 (1-15
cigarros/dia)
6 54
Varivel de
exposio
(Consumo de
tabaco)
3 (>15
cigarros/dia)
9 41
Fonte:Massons, J.M.D. - Mtodos estadsticos en ciencias de la salud, UD 10 - Barcelona, 11 Ed, ISBN:
84-8049-189-2, 1999.

Investigao e Estatstica com o EpiInfo
31
Antnio Pina
Gabinete de Investigao e Estatstica
Delegao Regional do Algarve do Instituto da Droga e Toxicodependncia
31
Neste caso, temos uma varivel de exposio ordenada e uma varivel resultado
dicotmica. Se, fizermos o Qui-quadrado obteremos o seguinte resultado: p=0,0629 .
Este resultado diz-nos que no h diferenas estatisticamente significativas (para um
nvel de significncia convencionado de 0,05) entre os doentes e no doentes quanto ao seu
consumo de tabaco, mas no tem em conta o efeito crescente da varivel exposio.
Se entrarmos em conta com este efeito, no s tornamos mais potente o teste como
poderemos verificar existir uma relao linear entre as duas variveis. o que faz a Prova da
tendncia linear do Qui-quadrado cujo p, neste caso, igual a 0,0206. Ou seja, h uma relao
linear estatisticamente significativa entre o nvel de consumo de tabaco e a existncia de doena
cardaca.
Esta Prova da tendncia linear s poder ser aplicada quando a varivel resposta seja
dicotmica e a varivel exposio seja quantitativa ou ordinal (varivel de categorias ordenadas
em trs ou mais nveis).
Tambm s poder ser aplicada depois de verificarmos que no h valores esperados nas
clulas inferiores a 5. Isto no automaticamente verificado pelo EpiInfo enquanto se faz a
prova da tendncia linear: ter-se- sempre que aplicar o Qui-quadrado convencional na seco
STATCALC, da forma j referida.

2.3.- Provas para verificar a associao entre uma varivel qualitativa e uma
varivel quantitativa - o t de Student / ANOVA e o U de Mann-Whitney / Kruskal-
Wallis.

Agora execute o comando MEANS da varivel Idade segundo o Sexo ("crosstabulated by
value of ...").
Alm das Mdias, Desvios-padro, Medianas, Quartis, etc. das idades para os dois sexos,
aqui temos ainda os resultados dos tpicos testes de homogeneidade nos quais a pergunta
"haver diferenas entre os dois grupos (masculino/feminino) quanto idade?".
O EpiInfo vomita os resultados do teste ANOVA (correspondem ao teste t de Student
quando aplicado apenas para duas subamostras) e do teste de Kruskal-Wallis (que
correspondem ao teste U de Mann-Whitney/Wilcoxon quando tambm aplicado apenas para
duas subamostras).
Investigao e Estatstica com o EpiInfo
32
Antnio Pina
Gabinete de Investigao e Estatstica
Delegao Regional do Algarve do Instituto da Droga e Toxicodependncia
32
O teste ANOVA exige muitos pressupostos pelo que perigoso ser utilizado por
principiantes, especialmente em amostras de pequena dimenso. Em alternativa, recomendo
utilizar sempre os resultados do teste de Kruskal-Wallis porque robusto, muito conservador e
no exige nenhum pressuposto. O Kruskal-Wallis pode ser utilizado para variveis quantitativas
e qualitativas ordinais, tal como a Mediana.
No entanto, caso haja interesse em utilizar o ANOVA, atendendo que quando se
cumprem os seus pressupostos, este teste de facto um pouco mais potente que o Kruskal-
Wallis, recomenda-se faz-lo s nestas circunstncias:
1- A varivel a testar ter de ser quantitativa.
2- Quando os grupos tm dimenses diferentes, dever existir homogeneidade nas
varincias, ou seja, o "p" do teste de Bartlett, efectuado automaticamente pelo EpiInfo deve ser
superior a 0,05. No caso do nosso exemplo 0,9385 pelo que se conclui estar cumprido este
pressuposto.
3- Quando pelo menos um dos grupos tem menos de 30 elementos, devero os diversos
grupos ter uma distribuio Normal. Infelizmente, o EpiInfo no executa qualquer teste para
confirmar esta Normalidade, pelo que se aconselha a nunca aplicar o ANOVA nestes casos.

No caso do nosso exemplo, o grupo de mulheres tem apenas 2 elementos e o grupo de
homens apenas 3 elementos, pelo que nunca se deveria utilizar o ANOVA. Apenas o teste de
Kruskal-Wallis poderia ser aplicado, no sendo as diferenas estatisticamente significativas
(p=0,5637).


3- A fora da associao.
J referimos que existe duas dimenses quando estudamos uma associao entre
variveis: uma em que a Estatstica nos diz at que ponto o que vemos na nossa amostra poder
ser o que existe na populao, ou seja, at que ponto estatisticamente significativo; outra em
que procuramos verificar at que ponto os nossos resultados implicam associaes fortes entre
variveis, calculadas atravs de simples subtraces (Diferena de Riscos ou Risco Atribuvel)
ou quocientes (Risco Relativo, Odds Ratio, etc). possvel haver uma associao forte nos
resultados da nossa amostra que, no entanto, no sendo estatisticamente significativos, tm
Investigao e Estatstica com o EpiInfo
33
Antnio Pina
Gabinete de Investigao e Estatstica
Delegao Regional do Algarve do Instituto da Droga e Toxicodependncia
33
pouco interesse porque no temos garantias de existirem na populao real. Por outro lado, tal
como j referimos, possvel haver uma associao estatisticamente significativa mas que, por
ser to fraca, no tem importncia nenhuma.
Vamos agora falar de duas importantes medidas da fora da associao - o Risco Relativo
e o Odds Ratio.
Estas medidas s podero ser calculadas em tipos particulares de estudos de observao
analtica - os estudos de coorte e de caso-controlo.

3.1. Estudos de coorte
Se pudermos fazer duas ou mais medies ao longo do tempo numa determinada
populao, poderemos saber quais os efeitos que a exposio a um factor ter no final,
comparando os que desde o incio estiveram expostos com aqueles que nunca estiveram expostos
ao factor.
Um exemplo prtico estudar numa amostra de heroinodependentes qual a forma de
consumo com maior risco de mortalidade ao fim de um ano. Bastaria separar a amostras em dois
estratos segundo a forma de consumo (ex.: injectvel ou no) no incio do ano, e depois, no final
do ano, verificar quantos morreram num grupo e no outro. Estes estudos possibilitam o clculo
de taxas de incidncia e prevalncia, assim como do risco relativo.
Vamos a um exemplo com nmeros.
Suponhamos que definimos que existe um problema de maior mortalidade entre os
toxicodependentes e que seria pertinente estud-lo. Assim, queremos estudar ou identificar
aqueles toxicodependentes que esto em maior risco de morrer. Aps a reviso bibliogrfica e o
conhecimento que j tnhamos do assunto, pomos a hiptese de existir uma associao entre a
forma de administrao da droga e a mortalidade, ou seja, "acreditamos" que o consumo
injectvel poder incluir um maior risco de mortalidade que os outros consumos.
Aps termos seguido durante um ano uma amostra de 2000 toxicodependentes, j
caracterizados quanto aos seus consumos, vamos no final caracteriz-los quanto ao seu estado
vital no fim do perodo e dispor os dados numa tabela de 2x2:



Investigao e Estatstica com o EpiInfo
34
Antnio Pina
Gabinete de Investigao e Estatstica
Delegao Regional do Algarve do Instituto da Droga e Toxicodependncia
34


Casos de doena ou de outro tipo de evento
(bitos durante o ano em estudo?)
SIM NO TOTAL
SIM A (200) B (800) A+B (1000)
NO C (50) D (950) C+D (1000)
Exposio no
incio do
perodo em
estudo
(Consumos
injectveis?)
TOTAL A+C (250) B+D (1750) A+C+B+D
(2000)

Risco Absoluto ou Incidncia Cumulada nos Expostos = A/A+B=200/1000=20%
Risco Absoluto ou Incidncia Cumulada nos No Expostos = C/C+D=50/1000=5%
Diferena Absoluta ou Risco Atribuvel (RA)=Inc. C. nos expostos - Inc. C. nos no expostos =20%-
5%=15%
Diferena relativa ou Fraco Etiolgica do Risco (FER)= RA/Inc. C. nos expostos= 15/20=75%
Risco Relativo (RR) = Inc. C. nos expostos / Inc. C. nos no expostos =20/5=4
75 , 4
950 / 800
50 / 200
/
/
= = =
D B
C A
OR

Com estes dados, poderemos calcular o risco absoluto de morrer quando se injecta a
droga (A/A+B=20%) e o risco absoluto de morrer sem este comportamento (C/C+D=5%). A
medio da fora da associao entre as duas variveis poder ser calculada ou atravs da
diferena (20%-5%=15%) ou do quociente entre estes dois riscos (20/5=4). A Diferena de
Riscos frequentemente denominada como Risco Atribuvel (RA) e o quociente entre os dois
riscos corresponde ao denominado Risco Relativo (RR).
Repare-se que a fora de associao nula quando o RA for aproximadamente zero, ou
quando o RR for aproximadamente igual a um.
Qual a diferena de interpretao entre o RA e o RR?
Genericamente o RA uma medida importante para avaliar o impacto duma interveno
que diminua a exposio ao factor de risco na comunidade. Assim, no exemplo anterior
poderamos pensar que se consegussemos eliminar os hbitos de consumo endovenosos,
poderamos eliminar os bitos em 15% dos toxicodependentes com consumos injectveis. O RA
a quantidade de risco que pode ser atribuda ao factor em causa: se retirarmos este factor,
continuar a haver bitos, embora devido a outros factores. O RA s tem sentido se tivermos
Investigao e Estatstica com o EpiInfo
35
Antnio Pina
Gabinete de Investigao e Estatstica
Delegao Regional do Algarve do Instituto da Droga e Toxicodependncia
35
informao sobre as duas incidncias cumuladas. De facto, se as duas incidncias forem 95% e
80%, o significado de um RA=15% diferente de uma outra situao em que as duas incidncias
so de 20% e 5%. A Fraco Etiolgica do Risco (FER) j relativiza esta informao de acordo
com a incidncia nos expostos, sendo que para estas duas situaes daria resultados diferentes:
15/95=0,16 e 15/20=0,75. Isto significaria que, caso pudssemos erradicar o factor de risco, na
primeira situao haveria uma diminuio de 16% da mortalidade e, na segunda situao, de
75%.
J o RR uma medida mais utilizada em investigao porque d uma ideia mais apurada
da potncia de uma associao causal. Neste caso o RR 4, ou seja o risco de morrer 4 vezes
superior nos expostos que nos no expostos.
O Odds Ratio (OR), que poder traduzir-se como "razo de possibilidades", uma
aproximao estimada do RR, pelo que s tem interesse em estudos onde este no poder ser
calculado, nomeadamente nos estudos de caso-controlo, dos quais se falar depois.
Tal como possvel calcular os intervalos de confiana para as frequncias, tambm
possvel calcular intervalos de confiana para o RA, o RR e o OR.
O EpiInfo efectua estes clculos quer atravs do comando TABLES (quando j existe
uma base de dados criada) quer atravs da seco STATCALC (nesta seco apenas calcula os
intervalos de confiana do RR e OR).
Chama-se a ateno que o clculo dos intervalos de confiana de 95% destas medies,
substitui com vantagem qualquer outra prova de significncia estatstica. Repare-se que, se no
intervalo de confiana do RA no estiver includo o "0", ou no do RR e OR no estiver includo
o "1", poderemos afirmar com uma confiana de 95% que existe uma diferena entre o grupo
exposto e no exposto. Por outras palavras, poderemos concluir que existe uma diferena
estatisticamente significativa (para um nvel de significncia de 5%). Por exemplo, segundo o
EpiInfo o intervalo de confiana do Risco Relativo do exemplo mencionado seria 2,97-5,38 o
que, atendendo no incluir o 1, significaria haver uma associao estatisticamente significativa
entre a forma de consumo e a mortalidade.





Investigao e Estatstica com o EpiInfo
36
Antnio Pina
Gabinete de Investigao e Estatstica
Delegao Regional do Algarve do Instituto da Droga e Toxicodependncia
36
3.2. Estudos de caso-controlo
Podero ser confundidos com os estudos de coorte porque tambm se baseiam em
medies ao longo do tempo, mas aqui os dois grupos dividem-se tendo em conta os efeitos e
no a exposio. Vamos a um exemplo com nmeros.
Suponhamos que queramos estudar exactamente a mesma associao j referido entre a
forma de administrao da droga e a mortalidade. No entanto, ao contrrio do estudo anterior,
no tnhamos disponibilidade de recursos ou tempo para seguirmos durante um ano uma amostra
de toxicodependentes como no exemplo anterior de estudo de coorte. Por outro lado, previsvel
haver poucos bitos (poucos efeitos) no final de um ano pelo que, para implementarmos um
estudo de coorte, teramos que certamente vigiar milhares de pessoas. Isto torna, evidentemente,
um estudo de coorte totalmente impraticvel para a maioria das situaes onde o efeito a medir
pouco frequente (ex: doenas raras, etc). Felizmente, tnhamos a possibilidade de saber nos
ficheiros dos servios de sade quem tinha morrido no ltimo ano. Assim, desenhmos um
estudo de caso-controlo, formado por um grupo de toxicodependentes que morreram e um outro
grupo de sobreviventes. Aos dois grupos verificmos os hbitos de consumo (eventualmente,
atravs da consulta das fichas clnicas) e dispusemos os dados numa tabela de 2x2:


Casos de doena ou de outro tipo de evento
(bitos durante o ano em estudo?)
SIM NO TOTAL
SIM A (200) B (800) A+B (1000)
NO C (50) D (950) C+D (1000)
Exposio no
incio do
perodo em
estudo
(Consumos
injectveis?)
TOTAL A+C (250) B+D (1750) A+C+B+D
(2000)

Repare-se que esta tabela igual anterior mas os clculos efectuados anteriormente no
tm significado epidemiolgico e so incorrectos. Efectivamente, no poderemos calcular os
riscos absolutos porque no sabemos qual a populao exposta que deu origem a todos os
bitos. Consequentemente, tambm no poderemos calcular o RA e o RR. No entanto,
demonstra-se que, quando o efeito raro (neste caso, os bitos) possvel estimar
Investigao e Estatstica com o EpiInfo
37
Antnio Pina
Gabinete de Investigao e Estatstica
Delegao Regional do Algarve do Instituto da Droga e Toxicodependncia
37
aproximadamente o RR num estudo de caso-controlo, dando-lhe neste caso a denominao de
Odds Ratio (OR), da seguinte forma:
75 , 4
950 / 800
50 / 200
/
/
= = =
D B
C A
OR

O OR e o seu intervalo de confiana interpretam-se da mesma forma que para o RR,
sendo tambm calculados automaticamente pelo EpiInfo (neste caso, o intervalo de confiana de
95% 3,4-6,7 sendo este resultado tambm estatisticamente significativo porque no inclui o
"1").





Bibliografia

Abramson, J.H. Survey methods in community medicine - an introduccion to epidemiological
and evaluative studies. 2 ed. New York: Churchill Livingstone, 1979.
Dean, A.G.; et al. Epi Info 2000, a database and statistics program for public health
professionals for use on Windows 95, 98, NT, and 2000 computers. Atlanta (USA): Centers
for Disease Control and Prevention, 2000.
Domnech Massons, Jos M. Mtodos Estadsticos en Ciencias de la Salud. Barcelona
(Espanha): Universitat Autnoma de Barcelona, 1999.
Gerstman, Burt. Data Analysis With Epi Info.
http://www.sjsu.edu/faculty/gerstman/EpiInfo/, Novembro 2000.
Jimnez Villa, J. Como iniciar un trabajo de investigacin. Atencin Primaria, Vol. 5, N 2,
Espanha, 1988.
Serrano, Pedro. Redaco e Apresentao de Trabalhos Cientficos. Lisboa: Relgio D'gua,
1996.
Investigao e Estatstica com o EpiInfo
ANEXO 1. - A reviso bibliogrfica
Antnio Pina
Gabinete de Investigao e Estatstica
Delegao Regional do Algarve do Instituto da Droga e Toxicodependncia
Anexo 1 pg. 1










Anexo 1
A Reviso Bibliogrfica











Investigao e Estatstica com o EpiInfo
ANEXO 1. - A reviso bibliogrfica
Antnio Pina
Gabinete de Investigao e Estatstica
Delegao Regional do Algarve do Instituto da Droga e Toxicodependncia
Anexo 1 pg. 2
1- Porque fazer a pesquisa bibliogrfica?
Na fase inicial da elaborao de um protocolo de investigao necessrio fazer a reviso
bibliogrfica do assunto com os seguintes objectivos:
1- Saber se algum j publicou as respostas s nossas questes, para decidir da
pertinncia de repetir uma investigao com objectivos idnticos;
2- Saber quais os mtodos utilizados em investigaes similares, para decidir sobre o
melhor mtodo a utilizar;
3- Quando pretendemos enveredar por um estudo de desenho experimental ou
analtico, no qual pomos hipteses sobre a associao entre variveis, a reviso bibliogrfica
permite enquadrarmos o nosso estudo num modelo de causalidade e, assim, diferenciar quais
sero as variveis de exposio, de resposta e, sobretudo, as variveis interferentes. Estas
variveis interferentes (sejam elas de confuso ou apenas modificadoras do efeito), devero
ser identificadas logo no incio do estudo atravs do que j sabido sobre o assunto. Isto
possibilitar desenhar adequadamente o estudo de forma a controlar estas variveis, no
deixando que as mesmas confundam os nossos resultados (no Anexo 2. explica-se melhor
esta problemtica).

2- Como fazer a pesquisa bibliogrfica?
A reviso bibliogrfica, em primeiro lugar, dever ser efectuada nos livros de texto e
tratados, de forma a enquadrar o melhor possvel o problema a investigar.
No entanto, quando queremos fazer investigao, tambm obrigatrio ler aquilo que h
de mais actual sobre o assunto, e isto s se encontra em revistas peridicas ou atravs da consulta
de teses de doutoramento em mestrados. A questo saber onde esto os artigos que nos
interessam no meio das dezenas de milhares que so publicados anualmente.
Para identificar estes artigos dever fazer a pesquisa nas fontes secundrias (publicaes
que indexam a informao bibliogrfica de milhares de artigos, por assunto, palavras-chave,
autores, revistas, etc.). Actualmente, muito comum fazer tais pesquisas em computador,
embora ainda seja possvel faz-las em publicaes de papel. Estas fontes secundrias, em
Investigao e Estatstica com o EpiInfo
ANEXO 1. - A reviso bibliogrfica
Antnio Pina
Gabinete de Investigao e Estatstica
Delegao Regional do Algarve do Instituto da Droga e Toxicodependncia
Anexo 1 pg. 3
muitos casos, incluem os resumos dos artigos, o que possibilita obter rapidamente uma ideia
sobre os artigos que nos interessam.
Estas pesquisas podem ser feitas nas prprias bibliotecas. Neste caso, temos a vantagem
de ser ajudados pelo tcnico da biblioteca e, podemos pedir imediatamente os artigos que
queremos. As bibliotecas quando no tm os artigos, frequentemente, atravs de convnios com
outras bibliotecas, podem fornec-los.
Sucede que temos que ser criteriosos na nossa seleco, caso contrrio, arriscamo-nos a
ler demasiados artigos que no nos vo interessar e, eventualmente, a ter que pagar o envio
destes artigos desnecessariamente.
Em Portugal, a biblioteca que, na rea da toxicodependncia, melhor nos pode prestar tais
servios , sem sombra de dvida, a do Instituto da Droga e Toxicodependncia.
No Algarve, recomendaria o Centro de Documentao da Administrao Regional de
Sade e a Biblioteca da Universidade do Algarve.
No entanto, actualmente, ainda possvel fazer todas estas pesquisas em casa, desde que
tenhamos ligao Internet. Depois das pesquisas, ser possvel tambm solicitar os artigos em
casa embora, frequentemente, seja necessrio pagar este envio.
Eis alguns endereos onde tais pesquisas podero ser feitas na tranquilidade do lar:

1. Instituto da Droga e Toxicodependncia (www.idt.pt).
Um site com muita informao oficial na rea da toxicodependncia onde se poder
pesquisar artigos e documentos na sua biblioteca (que seguramente a melhor do Pas sobre o
assunto).
2. Medline (www.nlm.nih.gov/hinfo.html)
Talvez a melhor base de dados em biomedicina.
3. Annual Reviewes (http://annurev.org)
Excelente base de dados bibliogrfica na rea das cincias biomdicas (inclui o tema da
psicologia), fsicas, sociais (inclui temas da sade pblica).

4. TESEO (www.mcu.es/TESEO/index.html)
Base de dados de teses espanholas. Poder-se- saber em que universidade est a tese e as
diversas bibliotecas em Espanha onde ser possvel consult-las.

5. Base de dados da Organizao Mundial da Sade
(www.who.int/hlt/virtuallibrary/English/virtuallib.htm)
Investigao e Estatstica com o EpiInfo
ANEXO 1. - A reviso bibliogrfica
Antnio Pina
Gabinete de Investigao e Estatstica
Delegao Regional do Algarve do Instituto da Droga e Toxicodependncia
Anexo 1 pg. 4
Alm de possibilitar pesquisas de toda a documentao da OMS, tm ainda links para
dicionrios e outras bases de dados bibliogrficas.


H ainda endereos na Internet para revistas especializadas onde poderemos pesquisar
artigos, geralmente sem pagar e, evidentemente solicit-los, mediante um pagamento:
1. American Journal of Epidemmiology (www.aje.oupjournals.org)
2. American Journal of Public Health (www.apha.org/journal/AJPH2.htm)
3. Annals of Epidemiology (www.elsevier.nl/inca/publications/store/5/0/5/7/4/6/)
4. British Medical Journal (www.bmj.com)
5. Journal of the American Medical Association - JAMA (http://jama.ama-
assn.org)
6. The Journal of Public Health Medicine - Online services
(www3.oup.co.uk/pubmed)
7. The Lancet (www.thelancet.com)
8. The British Psychological Society (www.bps.org.uk/index.cfm)
Possibilita pesquisar e solicitar artigos de vrias revistas ligadas Psicologia.

Finalmente, h ainda a estratgia de pesquisa bibliogrfica em rvore: quando num artigo
interessante, verificamos que existem referncias bibliogrficas sobre um assunto, tentamos
aceder aos artigos citados. Este mtodo pode clarificar aspectos e pormenores importantes, mas
tem o defeito de fazer depender demasiado a pesquisa bibliogrfica de um s artigo ou autor,
pelo que nunca dever ser o mtodo nico de pesquisa bibliogrfica.

Referncia bibliogrfica aconselhada:
Serrano, Pedro. Redaco e Apresentao de Trabalhos Cientficos. 2 ed. Lisboa:
Relgio D'gua; 2004.
Investigao e Estatstica com o EpiInfo
ANEXO 2 - Controlo das variveis interferentes
Antnio Pina
Gabinete de Investigao e Estatstica
Delegao Regional do Algarve do Instituto da Droga e Toxicodependncia
Anexo 2 pag. 1










Anexo 2
Controlo das variveis interferentes











Investigao e Estatstica com o EpiInfo
ANEXO 2 - Controlo das variveis interferentes
Antnio Pina
Gabinete de Investigao e Estatstica
Delegao Regional do Algarve do Instituto da Droga e Toxicodependncia
Anexo 2 pag. 2
Uma introduo ao controlo das variveis interferentes
Como controlar o efeito de confundimento das variveis interferentes?
a) Em primeiro lugar ser necessrio um bom enquadramento terico do modelo de
causalidade para detectarmos tais confundimentos atravs de uma boa reviso bibliogrfica
do problema.
b) Aps esta reviso importante listar todas as variveis interferentes que
eventualmente podero levar a confundimento.
c) Infelizmente, mesmo com uma boa reviso bibliogrfica no temos a garantia de
conhecer todas as variveis interferentes pelo que apenas os estudos experimentais do
garantias de controlo de todas estas variveis, atendendo compararem grupos que so
formados de forma aleatria (nica forma de garantir com muita fiabilidade que os grupos
so idnticos relativamente a terceiras variveis interferentes desconhecidas).
d) Nos outros estudos de observao analticos existem vrios mtodos estatisticos
para controlar estas variveis (pelo menos as conhecidas...), nomeadamente atravs do
emparelhamento, da padronizao, ou da anlise estratificada e multivariada.

importante ter a noo da existncia dos dois tipos de variveis interferentes: as v. de
confundimento (que produzem confundimento) e as v. modificadoras de efeito (que produzem
interaco). Enquanto as primeiras traduzem um desajustamento na comparabilidade dos grupos
produzindo a confuso, as segundas fazem parte do modelo causal, ou seja, so tambm uma
varivel de exposio que modifica a varivel resposta, mesmo quando os grupos esto
ajustados.

Figura 1 - Exemplo de confundimento






V. Exposio
(casamento)
V. resultado
(cancro)
V. confundimento
(idade)
Investigao e Estatstica com o EpiInfo
ANEXO 2 - Controlo das variveis interferentes
Antnio Pina
Gabinete de Investigao e Estatstica
Delegao Regional do Algarve do Instituto da Droga e Toxicodependncia
Anexo 2 pag. 3

Um exemplo de confundimento clssico quando fazemos a comparao entre dois
grupos - casados/ no casados - e verificamos que o grupo dos casados tem mais cancro (Figura
1). A concluso errada poderia ser que o casamento provoca o cancro! Mas o problema aqui foi o
facto de o grupo dos casados ser mais idoso que o dos solteiros! Ou seja, os dois grupos estavam
desajustados quanto idade pelo que a sua comparao feita desta forma "crua" levava
confuso! Reala-se que as variveis de confundimento (ex.: a idade) esto sempre associadas
tanto s variveis de exposio (ex.: estado civil) como s variveis resultado (ex.: cancro).

Figura 2 - Exemplo de interaco







Um exemplo de interaco de uma varivel interferente modificadora de efeito quando
ao estudarmos a associao entre a idade (v. de exposio) e o cancro (v. resposta), verificamos
que o hbito de fumar (v. modificadora do efeito) tambm produz cancro (Figura 2). Repare-se
que, neste caso, a v. "hbito de fumar" tambm modifica a possibilidade de ter cancro, mesmo
que os dois grupos (fumadores/no fumadores) estejam ajustados quanto idade. Da mesma
forma, a idade modifica a possibilidade de ter cancro, mesmo que os dois grupos (novos ou
idosos) tenham exactamente os mesmos hbitos tabgicos. Ou seja, neste caso no h
confundimento: existe duas variveis tabaco e idade - que tm efeitos prprios e
independentes na varivel resultado (cancro).
Com as variveis modificadoras de efeito h um somatrio ou uma subtraco do efeito,
sendo por isso variveis que pertencem ao modelo causal, enquanto as variveis de
confundimento puras so apenas vieses.

V. Exposio
(idade)
V. resultado
(cancro)
V. modificadora de
efeito
(tabagismo)
Investigao e Estatstica com o EpiInfo
ANEXO 2 - Controlo das variveis interferentes
Antnio Pina
Gabinete de Investigao e Estatstica
Delegao Regional do Algarve do Instituto da Droga e Toxicodependncia
Anexo 2 pag. 4

Para complicar mais um pouco, possvel haver ainda v. interferentes que so
simultaneamente de confundimento e modificadoras de efeito. Basta que no estudo anterior, em
que verificamos a associao entre idade e cancro, a v. modificadora de efeito "hbito de fumar"
esteja tambm desajustada nos dois grupos etrios (velhos/jovens).
Na prtica, para verificar se h confundimento, bastar ver se h associao entre a v.
interferente e a v. resposta e, se h concomitantemente, desajustamento na varivel de exposio
entre os dois grupos (expostos/ no expostos) quanto v. interferente. Para verificar se h
interaco bastar verificar se a fora da associao entre as variveis de exposio e de
resultado (eventualmente medida atravs do Risco Relativo ou Odds Ratio) diferente nos
diversos estratos da varivel interferente.
O EpiInfo ajuda-nos a controlar o efeito destas variveis interferentes atravs do clculo
dos Riscos Relativos ou Odds Ratios no comando TABLES ou na seco STATCALC.
Efectivamente podemos calcular estas medidas ajustadas e no ajustadas e, atravs da sua
comparao, verificar o tipo de interferncia que existe.
Vejamos algumas situaes concretas:


1-Exemplo de inexistncia de confundimento e de interaco:

No estudo em que verificamos a associao entre a idade e o cancro, temos uma varivel
interferente que denominamos "hbito de fumar".
No primeiro quadro em a), expe-se a totalidade dos dados, com estratificao de acordo
com a varivel interferente, no segundo em b), expem-se os dados totais sem estratificao e,
nos terceiro e quarto quadro em c) e d), expem-se os dados para cada estrato da v. interferente:





Investigao e Estatstica com o EpiInfo
ANEXO 2 - Controlo das variveis interferentes
Antnio Pina
Gabinete de Investigao e Estatstica
Delegao Regional do Algarve do Instituto da Droga e Toxicodependncia
Anexo 2 pag. 5
a) Amostra total com estratificao para a v. interferente:
Doena (Cancro) V. Exposio V.
Interferente
Doena + Doena -
% de Fumadores
em cada grupo
etrio
Fumador 12 188
Exposio (Idade)
Positiva (>45 anos)
No Fumador 18 282
40%
Fumador 8 192
Exposio (Idade)
Negativa (<45 anos)
No Fumador 12 288
40%

b) Amostra total (sem estratificao):
Doena (Cancro)
Doena + Doena -
Positiva (>45 anos) 30 470
Exposio (Idade)
Negativa (<45 anos) 20 480
Risco Relativo=1,5

c) Estrato de no fumadores:
Doena (Cancro)
Doena + Doena -
Positiva (>45 anos) 18 282
Exposio (Idade)
Negativa (<45 anos) 12 288
Risco Relativo =1,5

d) Estrato de fumadores:
Doena (Cancro)
Doena + Doena -
Positiva (>45 anos) 12 188
Exposio (Idade)
Negativa (<45 anos) 8 192
Risco Relativo =1,5

Ou seja, neste caso, o Risco Relativo rigorosamente igual em qualquer estrato, o que
comprova que a v. hbito de fumar no modifica o efeito na v. cancro. Tambm a proporo de
fumadores tanto num grupo etrio como no outro idntica (em ambos os grupos etrios existe
Investigao e Estatstica com o EpiInfo
ANEXO 2 - Controlo das variveis interferentes
Antnio Pina
Gabinete de Investigao e Estatstica
Delegao Regional do Algarve do Instituto da Droga e Toxicodependncia
Anexo 2 pag. 6
uma proporo de fumadores semelhante de 40%), o que significa no haver desajuste ou
confundimento.
Repare-se que, se pedirmos ao EpiInfo (atravs da seco STATCALC) que calcule um
sumrio destes dados para os dois estratos temos os seguintes dados:
RR no ajustado (Crude RR) = RR ajustado (Mantel-Haenszel Weighted RR) = 1,5
Quando o RR no ajustado igual ao ajustado, no h confundimento.
Quando o RR igual em cada estrato, no h interaco ou modificao do efeito.


2- Exemplo de confundimento sem interaco:

a) Amostra total com estratificao para a v. interferente:
Doena (Cancro) V. Exposio V.
Interferente
Doena + Doena -
% de Fumadores
em cada grupo
etrio
Fumador 194 606
Exposio (Idade)
Positiva (>45 anos)
No Fumador 6 194
80%
Fumador 24 76
Exposio (Idade)
Negativa (<45 anos)
No Fumador 26 874
10%

b) Amostra total (no estratificada)
Doena (Cancro)
Doena + Doena -
Positiva (>45 anos) 200 800
Exposio (Idade)
Negativa (<45 anos) 50 950
Risco Relativo =4





Investigao e Estatstica com o EpiInfo
ANEXO 2 - Controlo das variveis interferentes
Antnio Pina
Gabinete de Investigao e Estatstica
Delegao Regional do Algarve do Instituto da Droga e Toxicodependncia
Anexo 2 pag. 7
c) Estrato de no fumadores
Doena (Cancro)
Doena + Doena -
Positiva (>45 anos) 6 194
Exposio (Idade)
Negativa (<45 anos) 26 874
Risco Relativo =1

d) Estrato de fumadores
Doena (Cancro)
Doena + Doena -
Positiva (>45 anos) 194 606
Exposio (Idade)
Negativa (<45 anos) 24 76
Risco Relativo =1

Ou seja, neste caso, o Risco Relativo rigorosamente igual em qualquer estrato, o que
comprova que a v. hbito de fumar no modifica o efeito na v. cancro. No entanto, a proporo
de fumadores diferente nos dois grupos etrios (h 80% de fumadores no grupo com mais de
45 anos, e apenas 10% no grupo com menos de 45 anos) e isto provoca confundimento na
associao entre a idade e o cancro.
Repare-se que, se pedirmos ao EpiInfo (atravs da seco STATCALC) que calcule um
sumrio destes dados para os dois estratos temos os seguintes dados:
RR no ajustado (Crude RR) = 4 RR ajustado (Mantel-Haenszel Weighted RR) = 1
Quando o RR ajustado diferente do no ajustado existe confundimento e, neste caso,
deveremos referir apenas o RR ajustado como medida de fora da associao.
Quando o RR igual em cada estrato, no h interaco ou modificao do efeito.






Investigao e Estatstica com o EpiInfo
ANEXO 2 - Controlo das variveis interferentes
Antnio Pina
Gabinete de Investigao e Estatstica
Delegao Regional do Algarve do Instituto da Droga e Toxicodependncia
Anexo 2 pag. 8
3- Exemplo de interaco sem confundimento:

a) Amostra total com estratificao para a v. interferente:
Doena (Cancro) V. Exposio V.
Interferente
Doena + Doena -
% de Fumadores
em cada grupo
etrio
Fumador 42 258
Exposio (Idade)
Positiva (>45 anos)
No Fumador 4 196
60%
Fumador 8 292
Exposio (Idade)
Negativa (<45 anos)
No Fumador 2 198
60%


b) Amostra total (no estratificada)
Doena (Cancro)
Doena + Doena -
Positiva (>45 anos) 46 454
Exposio (Idade)
Negativa (<45 anos) 10 490
Risco Relativo =4,6

c) Estrato de no fumadores
Doena (Cancro)
Doena + Doena -
Positiva (>45 anos) 4 196
Exposio (Idade)
Negativa (<45 anos) 2 198
Risco Relativo =2

d) Estrato de fumadores
Doena (Cancro)
Doena + Doena -
Positiva (>45 anos) 42 258
Exposio (Idade)
Negativa (<45 anos) 8 292
Risco Relativo =5,2
Investigao e Estatstica com o EpiInfo
ANEXO 2 - Controlo das variveis interferentes
Antnio Pina
Gabinete de Investigao e Estatstica
Delegao Regional do Algarve do Instituto da Droga e Toxicodependncia
Anexo 2 pag. 9

Ou seja, neste caso o Risco Relativo dos dois estratos diferente, o que significa que o
hbito de fumar interage com a associao idade - cancro. No entanto, no existe confundimento
porque no existe desajuste: a proporo de fumadores igual entre os dois grupos etrios (em
ambos de 60%).
Repare-se que, se pedirmos ao EpiInfo (atravs da seco STATCALC) que calcule um
sumrio destes dados para os dois estratos temos os seguintes dados:
RR no ajustado (Crude RR) = RR ajustado (Mantel-Haenszel Weighted RR) = 4,6
Quando o RR no ajustado igual ao ajustado, no h confundimento.
Quando o RR diferente em cada estrato, h interaco ou modificao do efeito, como
o caso.
No entanto, havendo interaco, comprovada pela diferena na fora de associao entre
os diversos estratos, deveremos sempre verificar adicionalmente se estas diferenas so
estatisticamente significativas, atravs da prova de Mantel-Haenszel Summary Chi-squared
proposta no EpiInfo, em que o "p", neste caso, de 0,0000017, ou seja, estatisticamente
significativo.
Quando h interaco como neste exemplo, no poderemos referir apenas um RR para
traduzir a relao entre as duas variveis. Nestes casos deveremos referir o resultado RR para
cada estrato, atendendo o risco ser efectivamente diferente em cada estrato.

4- Exemplo de confundimento e interaco juntos:

a) Amostra total com estratificao para a v. interferente:
Doena (Cancro) V. Exposio V.
Interferente
Doena + Doena -
% de Fumadores
em cada grupo
etrio
Fumador 12 188
Exposio (Idade)
Positiva (>45 anos)
No Fumador 188 612
20%
Fumador 48 752
Exposio (Idade)
Negativa (<45 anos)
No Fumador 2 198
80%
Investigao e Estatstica com o EpiInfo
ANEXO 2 - Controlo das variveis interferentes
Antnio Pina
Gabinete de Investigao e Estatstica
Delegao Regional do Algarve do Instituto da Droga e Toxicodependncia
Anexo 2 pag. 10

b) Amostra total (no estratificada)
Doena (Cancro)
Doena + Doena -
Positiva (>45 anos) 200 800
Exposio (Idade)
Negativa (<45 anos) 50 950
Risco Relativo =4

c) Estrato de no fumadores
Doena (Cancro)
Doena + Doena -
Positiva (>45 anos) 188 612
Exposio (Idade)
Negativa (<45 anos) 2 198
Risco Relativo =23,5

d) Estrato de fumadores
Doena (Cancro)
Doena + Doena -
Positiva (>45 anos) 12 188
Exposio (Idade)
Negativa (<45 anos) 48 752
Risco Relativo =1

Ou seja, neste caso o Risco Relativo dos dois estratos diferente, o que representa haver
interaco. Por outro lado tambm existe desajustamento entre os dois grupos etrios quanto v.
hbito de fumar (o grupo com maios de 45 anos tem 20% de fumadores, enquanto o grupo com
menos de 45 anos tem 80% de fumadores).
Claro que se pedirmos ao EpiInfo (atravs da seco STATCALC) que calcule um
sumrio destes dados, verificamos a existncia de confundimento porque o RR no ajustado
(Crude RR) = 4 RR ajustado (Mantel-Haenszel Weighted RR) = 4,2.
Quando o RR no ajustado diferente do ajustado, h confundimento.
Quando o RR diferente em cada estrato, h interaco ou modificao do efeito, como
o caso.
Investigao e Estatstica com o EpiInfo
ANEXO 2 - Controlo das variveis interferentes
Antnio Pina
Gabinete de Investigao e Estatstica
Delegao Regional do Algarve do Instituto da Droga e Toxicodependncia
Anexo 2 pag. 11
Repete-se que a interaco s dever ser valorizada quando estatisticamente significativa,
comprovada pelo resultado da prova de Mantel-Haenszel Summary Chi-squared (o "p", neste
caso, de 0,00000, ou seja, estatisticamente significativo).
O confundimento ter que ser valorizado apenas de acordo com o nosso juzo clnico,
porque no h uma prova objectiva, tal como a significncia estatistica da interaco. Neste caso,
embora seja um facto que existe confundimento, comprovado pela diferena entre o RR ajustado
e no ajustado, a verdade que essa diferena relativamente pequena (de 4 a 4,2), pelo que
provavelmente o mais correcto seria no a valorizar.

Posto isto qual ser a melhor estratgia para identificar as variveis de confundimento e
as variveis modificadoras do efeito? Proponho o seguinte procedimento:

a) J aqui foi referida a necessidade de fazer um bom enquadramento terico do qual
resulte uma listagem das possveis variveis interferentes.
b) Durante a anlise bivariada dever-se- verificar a possibilidade de alterao de
associaes aps a estratificao segundo possveis v. interferentes.
c) Se h diferenas de RR entre os estratos, existe interaco (que s deve ser
valorizada quando estatisticamente significativa). Nestes casos, nos resultados deveremos
apresentar os RR de cada estrato, no sendo compreensvel um RR global.
d) Se h diferena entre o RR ajustado e no ajustado, existe confundimento e dever
sempre ser apresentado o RR ajustado, como medida da fora de associao entre a varivel
de exposio e de resultado (eliminando o efeito da varivel de confundimento).
e) Se h diferenas estatisticamente significativas de RR entre os estratos, e entre o
RR ajustado e no ajustado, existe confundimento e interaco, devendo tambm ser
apresentados apenas os RR de cada estrato, no sendo compreensvel um RR global.
Investigao e Estatstica com o EpiInfo
ANEXO 3 - Clculo da dimenso da amostra
Antnio Pina
Gabinete de Investigao e Estatstica
Delegao Regional do Algarve do Instituto da Droga e Toxicodependncia
Anexo 3 pag. 1










Anexo 3
Clculo da dimenso da amostra













Investigao e Estatstica com o EpiInfo
ANEXO 3 - Clculo da dimenso da amostra
Antnio Pina
Gabinete de Investigao e Estatstica
Delegao Regional do Algarve do Instituto da Droga e Toxicodependncia
Anexo 3 pag. 2
Calcular a dimenso de uma amostra atravs do EpiInfo
Esta possibilidade de calcular a dimenso de uma amostra muito til se queremos partir
para o estudo com alguma confiana sobre a possibilidade de, no futuro, podermos extrapolar os
nossos resultados para a populao. Por outras palavras, a dimenso da amostra tem tudo a ver
com a preciso dos intervalos de confiana que queremos vir a ter quando fizermos os nossos
clculos. No entanto, necessrio ter em conta que esta amostra ter que ser obrigatoriamente
seleccionada pelo mtodo aleatrio (simples, sistemtico ou estratificado)
3
.
Para isso, na seco STATCALC do EpiInfo, poderemos verificar qual a dimenso
correcta da nossa amostra, escolhendo "Sample size & power" e depois "Population survey".
Teremos que responder seguidamente s perguntas colocadas, nomeadamente:
1- Qual a dimenso da populao total? Experimente pr 5000.
2 - Qual a frequncia que julgamos ser verdadeira na populao total? evidente que
no estamos certos desta frequncia, no entanto, tendo em conta outros estudos ou informaes
poderemos estimar esta frequncia... Quando no fazemos a mnima ideia desta frequncia real,
poderemos escolher o valor mais conservador que 50%. Experimente ento pr 50%.
3 - Qual o valor mais errado que admitiramos obter da nossa amostra? Suponhamos que
admitiramos ter um intervalo de confiana de 50% + 10%, ou seja seria obter ou 60% ou 40%
como limites. Ter que responder a esta pergunta colocando ou 60 ou 40%.
Ateno! Verifique sempre se ambos os valores limites so credveis! Suponha que d ao EpiInfo a
informao que admitiria um intervalo de confiana de 5% + 10%, ou seja, seria obter ou 15% como limite mximo,
ou -5% como limite mnimo, o que no credvel porque um nmero negativo!

Veja agora o resultado: ter de ter uma amostra de 94 elementos se quiser obter intervalos
de confiana de 95% ("confidence level of 95%"), cujo limites no ultrapassem 60 ou 40%,
partindo do pressuposto que a verdadeira proporo de 50%, e que a amostra ser seleccionada
pelos mtodos aleatrios j designados.
Complicado? Talvez, mas melhor que isto s se perguntar directamente a Deus ...


3
A amostragem por conglomerados aumenta um pouco o erro pelo que existem correces matemticas
apropriadas, actualmente s disponveis no EpiInfo 6.04.

Potrebbero piacerti anche