Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Atenção, após a escolha do teste, é importante a leitura do capítulo correspondente de um livro de estatística, um site da
internet, do manual do software que você usa, ou a consulta a uma pessoa com experiência na análise. Algumas explicações e
“receitas” são apresentadas após as tabelas, mas há detalhes importantes que não puderam ser tratados aqui. Há vários sites na
internet que podem ajudar (e.g. http://udel.edu/~mcdonald/statexactbin.html). É fortemente recomendado que se verifique
com um exercício resolvido do teste escolhido em um livro ou site se você está realizando corretamente o teste antes de
utilizá-lo com seus dados.
A diferença entre valores quantitativos pareados tem distribuição que pode teste t pareado (duas variáveis
ser considerada normal. pareadas) = teste t para uma
amostra com as diferenças. (g)
Diferença entre dados ordinais pareados ou entre dados quantitativos teste Wilkoxon Pareado (duas
pareados com distribuição das diferenças sem normalidade. variáveis). (h)
Diferença entre dados binários (+, -) pareados ou diferença entre dados “Sign test” (duas variáveis)=(teste
ordinais ou quantitativos pareados representada por [+, - ou zero]. de prop. simples. 1 var. dif.). (i)
V. dep→ Ordinal ou
Binário Quantitativo
Categórico Quantitativo
(Categ. de 2) Situação II*
Situação I*
V. ind.↓
Teste de 2 prop., Tabela de
Mann- Whitney Teste t (de 2
Binário T. Exato de Contingência (TC)
2S_KS(l1) grupos) (m)
(cat. de 2) Fisher ou T.C. (j) (k)
Tabela de Tabela de Kruskal-Wallis Análise de
Categórico
Contingência (k) Contingência (k) ou Friedman (n) Variância (o)
Dicotomizar VI ou
Mann- Whitney; VD e usar teste Correlação de Correlação de
Ordinal
Cochrans TLT (l2) apropriado (Max. Postos (q)/ RNL Postos (q)/ RNL
Balanço) (p)
Dicotomizar VI ou Pearson/
Regressão Correlação de
Quantitativo VD (Max. Balanço) Regressão
Logística (r) Postos (q)/ RNL
(p) Linear (s)
*Ver explicação abaixo no texto da tabela 3.
Tabela 1- Testes com uma única variável. Os citados aqui são testes de aderência (“goodness of fit”)
em que verificamos a compatibilidade de um valor ou de uma amostra com proporções, valores ou
modelos previamente estabelecidos. Exemplos: a razão sexual está dentro do esperado (50%)? As
freqüências observadas de tons de vermelho em rosas estão dentro da razão esperada de alelos pela
segunda a lei de Mendel (9:3:3:1)? Este crânio fóssil único é significativamente maior que as medidas
de vários crânios de outra localidade? Estas medidas de mercúrio estão significativamente maiores do
que a média recomendada pelo governo? A distribuição de freqüências de tamanhos de peixes se
ajusta a uma distribuição normal? Estes testes são geralmente denominados “testes de uma amostra”,
mas a denominação “testes com uma única variável” é mais apropriada na abordagem EPR (Entidade-
Propriedade-Relação) adotada neste curso. (OBS- estes testes geralmente não “pedem” gráficos, mas,
se necessário, destas situações podem ser representadas conforme as seções I e II da apostila de
gráficos.)
a) Variável binária. Considere esta situação: Fulano disse que tem uma técnica para distinguir
machos de fêmeas de pintinhos com 2 meses, o que é importante para granjas. De 20 pintinhos ele
acertou 16 com a técnica, mas esta proporção de acertos é significativamente maior que 50% (acaso)?
Temos um problema de proporção que é resolvido no Mystat12 assim: [Analyze/ Hip. Test/ Prop./
Single Proportion/ Number of trials=20; Number of successes=16; Proportion=0.5; Alternative type:
greater than]. Explicando: é proporção simples (“single proportion”) porque estamos comparando uma
proporção obtida com uma esperada; o número de casos total (“number of cases”) é 20; o número de
casos favoráveis (number of successes) é 16 e a chance unitária de sucesso (“chance de acertar o sexo
chutando”=0.5- “Proportion”). A pergunta é unicaudal porque você quer saber se ele acerta “mais que
50%” e não “diferente de 50%” (alternative type). Entretanto, se você precisar de uma taxa de acerto
igual ou superior a 75%, para valer a pena descartar os filhotes machos, mude “Proportion” para 0.75.
O resultado no Mystat12 é apresentado com testes Binomiais Exatos ou testes Z. Com tamanhos
amostrais pequenos (N<30), o Mystat12 fará o teste Binomial Exato que é o melhor neste caso. Em
tamanhos amostrais maiores, este teste não era feito porque era demorado e trabalhoso no passado
(sem computadores) e adotava-se aproximações da curva normal (aparentemente isto foi mantido por
tradição). Em tamanhos amostrais médios (30 a 100), opte pela probabilidade apresentada em “Normal
Aproximation” e em tamanhos amostrais grandes (>100), opte por “Large sample test”.
Tabela 2. Testes com uma variável calculada a partir de duas medidas da mesma entidade com
desenho amostral pareado.
g) Suponha a questão: há mais baratas silvestres de dias do que de noite em cada metro quadrado de
serrapilheira na floresta? Se a avaliação se baseia em amostras não pareadas, temos uma análise para
verificar se a variável “número de baratas” está relacionada à variável “dia/noite”, cada metro
quadrado é uma unidade amostral (entidade). Na análise pareada, a unidade amostral é o par e as
propriedades são os níveis da variável independente implícita. Neste exemplo as variáveis são “o
número de baratas de dia” e “o número de baratas de noite” (a variável independente implícita é o
período dia/noite e a dependente implícita é o número de baratas). A análise se baseia na diferença
entre dia e noite. O teste t pareado é paramétrico e tem a premissa de normalidade, que precisa ser
verificada. Crie uma outra variável: “diferença diaxnoite” para avaliar se há normalidade [DATA/
Transform/ Let/ Dif=V2-V1] para verificar esta premissa [Graph/ Dot density/ Dif→X variable]. Se a
distribuição for muito fora da normalidade, use o teste de Wilkoxon (G), do contrário utilize um teste t
Guia para testes estatísticos/ Bioestatística Aplicada 4
© Thierry R. Gasnier/ Universidade Federal do Amazonas
pareado. No Mystat12: Analyze/ Hip Test/ Mean/ Paired T test (se utilizar os dados das variáveis com
as medidas de cada situação por par) ou Analyze/ Hip test./ mean/ One sample T test (se utilizar as
diferenças). (Obs. Os gráficos para esta situação estão representados na seção VII da apostila de
gráficos.)
h) No Mystat12: Analyze/ Non Parametric tests/ Wilkoxon. (Lembre planilha com entidade=Par e as
propriedades são os níveis da variável independente implícita). Trata-se de um teste que ranqueia os
resíduos (positivos e negativos) totais e testa se a diferença das posições é significativamente diferente
de zero (duas caudas). (Obs. Os gráficos para esta situação estão representados na seção VII da
apostila de gráficos.)
i) Este teste é aplicável especialmente para casos de variáveis binárias pareadas. Ele pode ser aplicado
para variáveis quantitativas, e o programa vai considerar as diferenças. No Mystat: Analyze/ Non
Parametric Test/ Sign (lembre, entidade=par). Se você ainda não tiver os dados entrados na planilha, o
mais fácil é contar os sinais + e – e ir para o teste Binomial (= teste de 1 proporção) Mystat12:
Analyze/ Hyp Test./ Propor/ Simple Prop. e entrar opção “aggregate”; N em “number of trials”; o
número de positivos em successes P=0.05; e a alternativa se será unicaudal ou bicaudal. (Obs. Os
gráficos para esta situação estão representados na seção III da apostila de gráficos, mas sem
representação da relação pareada.)
Tabela 3. São os testes mais utilizados, pois medem a relação entre duas propriedades com
desenho amostral não pareado.
j) Quando há uma variável independente e uma dependente, o teste mais poderoso é o de duas
proporções. Por exemplo, verificar se há uma relação entre o sexo do estudante (VI) e se ele sabe
nadar (VD) com 20 meninos que sabem e 10 que não sabem e 9 meninas que sabem e 22 que não
sabem. No Mystat12: [Analyze/ Hypotesis testing/ Proportions/ Equality of two proportions]. Em
“sample1” entre em “number of trials” o total do primeiro nível da variável independente (30 meninos)
e em “number of Successes” entre o número de ocorrências do primeiro nível da dependente (20
Guia para testes estatísticos/ Bioestatística Aplicada 5
© Thierry R. Gasnier/ Universidade Federal do Amazonas
meninos) e em “sample2” entre o total do segundo nível da variável independente (31 meninas) e entre
em “number of Successes” o número de ocorrências do primeiro nível da dependente (9 meninas). Se
o teste for uma relação sem variáveis independente e dependente (e.g. V1= afinidade por matemática
[sim ou não] e V2= afinidade por ciências [sim ou não]), o teste mais poderoso é o Teste Exato de
Fisher e é errado se utilizar o teste de duas proporções. No Mystat12: [Analyze/ Tables/ Two way/
Measures/ Fisher Exact Test]. Nos dois testes é apresentada a probabilidade do teste bicaudal (PB).
Para se obter a probabilididade do teste unicaudal (PU) nestes dois testes, divide-se a PB por 2 se a
tendência vai na direção de rejeição de H0, do contrário PI= 1-(PB/2). Tabelas de contingência também
podem ser utilizadas, mas são menos exatas, especialmente para tamanhos amostrais pequenos. (Obs.
Os gráficos para esta situação estão representados na seção III da apostila de gráficos.)
k) As Tabelas de Contingência (TC) (no Mystat12: [Analyze/ Tables/ Two way/ uma variável vai em
“row variable” e a outra em “column variable”]) devem ser utilizadas com muito cuidado.
Freqüentemente são utilizadas sem independência real das unidades amostrais, o que é inapropriado.
Quanto mais células na Tabela de Contingência, mais fraco é o teste, de forma que é recomendado que
se agrupe categorias em X e/ou em Y (se chegar a 2x2 mudar para opção de testes “a” descritos
acima). Se a freqüência em alguma célula for inferior a 5, então deve-se realizar uma correção de
Yates (aba measures, opção Yates corrected chi square). (Obs. Os gráficos para esta situação estão
representados na seção III da apostila de gráficos.)
l) O teste Mann-Whitney (MW) pode ser utilizado com variável independente binária e dependente
categórica (l1) ou o oposto (l2). A variável binária é denominada “grouping variable” e a quantitativa
“selected variable. O teste MW no Mystat12 está em [Analyse/ Non Parametric tests, Kruskal], o
programa automaticamente fará este teste o ao detectar que a “grouping variable” é binária. Quando
você está na dúvida se vai utilizar o Teste t ou o Mann-Whitney, realize o primeiro no Mystat12, pois
quando o programa realiza o Teste t, ele mostra automaticamente um gráfico que ajuda a verificar
qualitativamente a normalidade e a homogeneidade das variâncias. Este teste não é recomendado caso
haja um forte desbalanço entre os níveis da variável independente, ou distribuições bem diferentes em
uma situação com alta proporção de “nós” (empates, “ties”). Neste caso, é recomendável utilizar um
teste de permuta (não abordado neste curso- consulte um estatístico). O Cochrans Test For Linear
Trend é um teste alternativo para a mesma situação. Está em Analyze/ Tables/ Two-Way/ entra x e y/
Marca aba Measures/ marca Cochrans test for Linear Trend. Outro teste aplicável na situação l1 é o
teste “Kolmogorov-Smirnov para 2 amostras”. Este teste é apropriado quando queremos comparar
diferença de distribuição entre duas amostras e está em Analyse/ Non parametric tests/ 2 sample KS
(Obs. Os gráficos para esta situação estão representados na seção IV da apostila de gráficos. Os
gráficos de l1 diferem de l2)
m) O Teste t no Mystat12 está em [Analyze, Hypothesis testing, mean, two sample t test]. Ao
realizar o teste, um gráfico é mostrado, verifique se o número de níveis e a normalidade são
apropriados para um teste paramétrico. Se não estiverem, considere a possibilidade de transformar os
dados (ver seção 3.5 da apostila texto) e repita o teste com a nova variável. A homogeneidade de
variâncias não é obrigatória para este teste. Foi criada uma opção de variâncias separadas (a primeira
probabilidade no “output” dos resultados) para lidar com esta situação. Como esta opção serve até para
quando as variâncias são iguais, o recomendado é que ela seja utilizada sempre. Provavelmente os
programas de estatística mantêm a opção de variâncias agrupadas apenas por uma questão de tradição.
O Teste t admite hipóteses unicaudais (opção “alternative types”). Se o teste for bicaudal e as
variâncias forem agrupadas, o resultado será o mesmo de uma Análise de Variância. (Obs. Os gráficos
para esta situação estão representados na seção IV da apostila de gráficos.)
Para o teste de Friedman no Mystat12: [Analyze, Non Parametric tests, Friedman], há dois caminhos.
Se você tem os dados em EPR que tem como entidade cada medida dentro de um bloco, informe as
variáveis “variável dependente” em “Selected variable”, a “variável independente” em “grouping
variable” e a variável que identifica os blocos em “blocking variable”. O segundo caminho é ter uma
planilha EPR com o bloco como entidade e cada nível da variável independente implícita como uma
variável. Neste caso, deve se entrar estas variáveis como “dependente variable” e nada na variável
independente. Uma alternativa ao Friedman é o teste “Quade” [Analyze, Non Parametric tests, Quade]
veja o “Help” do Mystat12 para mais informações. Friedman e Quade são análogos não paramétricos
da Anova com medidas repetidas. (Obs. Os gráficos para esta situação estão representados na seção
VII da apostila de gráficos.)
Para ANOVA de uma via no Mystat12: [Analyze, Analisys of Variance, Estimate Model]. Como
qualquer teste com variável independente categórica, quanto maior o número de níveis mais fraco será
o seu poder. Após a ANOVA, geralmente há o interesse de se determinar quais as diferenças entre
grupos (níveis de da variável independente) que são significativas. Este teste chama-se contraste e é
realizado pelo teste Tukey ou equivalente (Analyze, Analisys of Variance, Pairwise comparisons- esta
opção não está disponível no Mystat12, só no Systat12, e neste só se abre após ter-se realizado o teste).
Devido à falta da análise de contrastes no Mystat12, há duas opções para realizá-los a) transportar os
dados para a planilha Excel “Teste ANOVA_Tukey_8-6.XLS” do pacote de programas (melhor salvar
a planilha com outro nome para manter a original para outros testes), ou b) transportar os dados para o
programa Stats4U disponível no pacote de programas do curso ou por um download atualizado em
http://statpages.org/miller/openstat/. (Obs. Os gráficos para esta situação estão representados na seção
IV da apostila de gráficos.)
Embora o uso de um segundo programa seja um inconveniente, este programa é mais simples, didático
e completo para ANOVA que o Mystat12. Para quem vai trabalhar realmente com problemas com
ANOVA, o investimento compensa. A entrada de dados no Stats4U, seja direta ou por transferência de
dados, é um pouco chata. A entrada direta é muito ruim, é melhor entrar em Excel ou em Mystat e
salvar em Comma Separated (CSV) para importar neste formato (“import comma file”). Os fatores
(variáveis independentes ou variáveis de blocos) precisam estar na forma de números inteiros. Após
importar, entre em [variables/ Define] e coloque decimals=0 para os fatores, depois vá para [Edit/
Format Grid values], depois volte para [Variables/ Define] e mude Type=1 para os fatores, e depois
O desenho em blocos é uma abordagem mais poderosa e segura de avaliar uma variável independente
que a ANOVA de uma via. Normalmente não há interesse na diferença entre os blocos, ele apenas
permite um controle melhor de variáveis de risco, por isto incluo esta análise nesta seção e não em
ANOVA de dois fatores como tradicionalmente é feito. Este teste é equivalente ao teste t pareado, mas
há mais que duas medidas para cada bloco. Como no teste t pareado, a entidade é o bloco e as
propriedades são as diferentes medidas em cada bloco. Se você achou isto complicado, pode fazer a
análise no Stats4U, que é bem mais simples e já dá as opções de contraste. Para fazer a ANOVA vá
para [Analyses/ Analyses of variance/ Treatment by subject], as opções de contraste são diretas. (Obs.
Os gráficos para esta situação estão representados na seção VII da apostila de gráficos.) Caso a
seqüência das medidas em cada bloco não seja aleatória e haja alguma variável potencial de risco
ligada a esta seqüência, então é necessária uma análise de circularidade. Consulte um texto sobre
“Anova de medidas repetidas” ou “split plot ANOVA” para verificar como isto é feito (e.g. Split-
plotANOVA_p420w13.pdf do pacote de textos).
p) Existem técnicas avançadas que permitem realizar testes nestas condições, como a regressão
Poison. Entretanto, elas requerem certas premissas, e geralmente é mais fácil dicotomizar uma ou
ambas variáveis e usar um teste apropriado (conforme outras opções desta mesma tabela). A escolha
depende do caso. Se a variável categórica Y pode ser reduzida a duas categorias, teríamos Mann
Whitney para X ordinal e Regressão Logística para X Quantitativo. Se não puder, então a variável X
poderia ser dicotomizada, o que resultaria em Tabela de contingência. Dar preferência à fusão que leve
à menor diferença de número de casos entre os níveis da variável independente (melhor balanço).
(Obs. Os gráficos para esta situação estão representados na seção VI da apostila de gráficos.)
q) Relações não paramétricas monotônicas e regressão não linear. Em caso de variáveis dependentes
e independentes ordinais ou se a análise de resíduos indicar uma relação não linear, então a forma de
agir dependerá do problema: a) se o objetivo for apenas saber se há uma relação com previsão de
aumento ou redução monotônicos (sem reversão de tendência), pode se utilizar o teste não paramétrico
correlação de Spearman ou de Kendall. No Mystat12: Analyze/ Tables/ Two Ways/ entre X e Y/ na
aba “measures” marque Spearman e Kendall. São muito semelhantes, uma opção é escolher o mais
conservador dos dois.; b) se o objetivo inclui uma descrição da relação comparado a um modelo a
priori, então ajustamos os dados a este modelo e verificamos se ele é significativamente superior a
uma regressão. É interessante se verificar a existência de modelos flexíveis associados ao tipo de
problema em estudo (e.g. curva de Brisbin, 1986 para crescimento). Pode-se basear na forma dos
dados com uma curva com “Smooth=LOWESS” no gráfico Scatterplot. A partir de um modelo
matemático (e.g. Y= a+b*X+c*X^2), pode se determinar os coeficientes pela função NONLIN do
Mystat12: Analyze/ Regression/ Nonlinear/Loss e entrar o modelo trocando Y e X pelos nomes das
variáveis (a menos que tenha muita segurança, é bom fazer isto junto com alguém experiente nas
primeiras vezes); c) se não temos modelos a priori, podemos ajustar regressões polinomiais
aumentando seus índices enquanto os resultados indicarem uma melhora significativa (Zar, 1984). Se
se espera uma relação polinomial complexa, então é importante uma coleta de dados que maximize o
número de níveis na variável independente. (Os procedimentos descritos aqui são relativamente
complexos. Foram apresentados para se ter uma idéia do que se faz nesta situação, mas não serão