Sei sulla pagina 1di 121

Universidade dos Aores

Departamento de Matemtica

Estatstica
No Paramtrica

Testes de Hipteses e Medidas de Associao

Discente: Filipe Gago da Cmara


Docente: Dr. Osvaldo Silva

Ponta Delgada, 29 de Junho de 2001

ndice

NDICE
Teste de Hipteses ......................................................................................................................1
Introduo...................................................................................................................................3
Capitulo 1: Caso de uma amostra ...............................................................................................6
1.1 Teste da Binomial.............................................................................................................6
2
1.2 Teste do Qui-Quadrado ( ) para uma amostra............................................................10
1.3 Teste de Kolmogorov-Smirnov ......................................................................................12
1.4. Teste de Iteraes de Uma Amostra ..............................................................................17
Captulo 2: Caso de duas amostras relacionadas ......................................................................23
2.1 Teste dos Sinais ..............................................................................................................23
2.2 Teste de McNemar .........................................................................................................25
2.3 Teste de Wilcoxon ..........................................................................................................28
Capitulo 3: Caso de duas amostras independentes ...................................................................32
3.1 Teste de Iteraes de Wald-Wolfowitz ..........................................................................32
3.2 Teste U de Mann-Whitney .............................................................................................37
3.3 Teste de Moses para reaces extremas .........................................................................41
3.4 Teste da Qui-Quadrado ( 2 ) para duas amostras independentes ..................................44
Captulo 4: Caso de k amostras relacionadas ...........................................................................50
4.1 Teste Q de Cochran .......................................................................................................50
4.2 Teste de Friedman ..........................................................................................................54
Captulo 5: Caso de k amostras independentes ........................................................................57
5.1 Teste de Kruskal-Wallis .................................................................................................57
Capitulo 6: Medidas de Correlao ..........................................................................................60
6.1 Coeficiente de Correlao por postos de Kendall: .....................................................60
6.2 Coeficiente de Correlao por postos de Spearman: rS .................................................64
6.3 Coeficiente de Concordncia de Kendall: W ................................................................66
Concluso .................................................................................................................................70
Bibliografia...............................................................................................................................75
Anexos ......................................................................................................................................75
Anexo 0 ................................................................................................................................76
Anexo I: Caso de uma amostra.............................................................................................77
Anexo II: Caso duas amostras relacionadas .........................................................................81
Anexo III: Caso de duas amostras independentes ................................................................85
Anexos IV: Caso de k amostras relacionadas.......................................................................91
Anexo V: Caso de k amostras independentes.......................................................................94
Anexo VI: Medidas de Correlao. ......................................................................................95
Tabelas......................................................................................................................................75
Tabela A ...............................................................................................................................76
Tabela B................................................................................................................................77
Tabela C................................................................................................................................78
Tabela D ...............................................................................................................................79
Tabela E................................................................................................................................81
Tabela F ................................................................................................................................82
Tabela G ...............................................................................................................................84
Tabela J.................................................................................................................................85
Tabela K ...............................................................................................................................88
Tabela N ...............................................................................................................................89
Tabela O ...............................................................................................................................91
Tabela P ................................................................................................................................93
Tabela Q ...............................................................................................................................94
Tabela R................................................................................................................................95

Teste de Hipteses

TESTE DE HIPTESES
Em muitas situaes, queremos tomar uma deciso de forma a minimizar os riscos
envolventes.
No campo da estatstica, formulamos hipteses acerca de uma dada amostra, estas
hipteses so submetidas a determinados testes. A hiptese a ser testada designamos por
Hiptese Nula ( H 0 ), a Hiptese Alternativa ( H 1 ) a concluso a que chegamos quando a
hiptese nula rejeitada.
Quando formulamos uma deciso sobre H 0 podem ocorrer dois erros distintos. O
primeiro, designado por erro tipo I, consiste em rejeitar a hiptese nula quando ela
verdadeira. O segundo, designado por erro tipo II, consiste em aceitar H 0 quando ela falsa.
A estes erros esto associados uma probabilidade, isto ,

P(rej.H 0 | H 0 verd.) =
P(ac.H 0 | H 0 falsa) =
Quando queremos reduzir a probabilidade de ambos os tipos de erro, devemos aumentar
a dimenso da amostra.
probabilidade damos o nome de nvel de significncia.
Como o valor entra no processo de determinao de aceitao ou rejeio de H 0 , a
condio de objectividade da prova exige que o nvel de significncia seja fixado antes da
recolha de dados. Os valores mais comuns para so de 0,05 e 0,01 de acordo com a
importncia prtica dos resultados.
Quanto mais pequena a probabilidade mais potente o teste, ou seja, o teste ptimo
da hiptese H 0 vs. H 1 aquele que para uma probabilidade de ocorrer o erro tipo I, torne
mnima a probabilidade de ocorrer o erro tipo II.
Aps ter escolhido as hipteses e o nvel de significncia devemos determinar qual a
distribuio amostral. Esta uma distribuio terica que, se pusssemos considerar todos
os eventos possvel, dava-nos as probabilidades, sob H 0 , associadas aos valores numricos
possveis da estatstica.

Teste de Hipteses

Neste momento temos que escolher o teste estatstico apropriado, tendo em conta os
seus pressupostos.
Definida as hipteses, o nvel de significncia, o teste estatstico, falta-nos saber como
rejeitar/aceitar H 0 .
Regio de rejeio uma regio da distribuio amostral, na qual consiste num
conjunto de valores to extremos que, quando H 0 verdadeira, a probabilidade do valor
observado da amostra estar entre eles muito pequena. A probabilidade associada a qualquer
valor na regio de rejeio afectada pela natureza da hiptese alternativa. Se H 1 indica o
sentido da diferena, utiliza-se um teste unilateral, caso contrrio, utiliza-se um teste
bilateral.
A seguinte figura ilustra-nos como as duas regies diferem entre si, mas no altera o
tamanho.
Figura 1: Dois tipos de testes

Teste bilateral

P=0.025

Teste unilateral

P=0.025

P=0.05

A rea de cor azul a regio de rejeio para um = 0.05


Para uma deciso final, basta ver se o valor resultante de um teste estatstico est na
regio de rejeio ou no.
Uma abordagem alternativa para o teste de hipteses sugerida pelo clculo da
probabilidade associada. ( p ) a uma dada observao. O valor p a probabilidade de H 0 ser
verdadeira. Se p toma um valor menor ou igual a , ento rejeitamos a hiptese nula, caso
contrrio, se p toma um valor superior a , ento aceitamos H 0 . O valor p (ou
probabiliade de significncia) d-nos tambm uma ideia do poder do teste estatstico.
Quanto maior for a probabilidade p mais forte o teste e com mais facilidade se aceita a
hiptese nula.

Introduo

INTRODUO
Nos primrdios da estatstica, desde que o Homem se organiza em sociedade, ela
aparece como processo organizado de contagem, seja ela de pessoas, cereais, frutas, etc..
Estes processos de contagem eram, posteriormente, apresentados sociedade atravs de
tabelas e grficos.
A palavra estatstica aparece sempre ligada a coisas do Estado (status), mas s no sc.
XVII a estatstica tida como uma disciplina autnoma destinada a descrever factos ligados
ao estado. A estatstica era associada ao processo poltico, como base para o planeamento do
Estado.
Esse processo de contagem do todo, denominado Censo, no um procedimento dos
tempos passados. Na verdade ela constitui uma importante rea da Estatstica.
Relativamente totalidade dos dados, h uma outra linha de trabalho que conhecida
como Estatstica Descritiva, que procura expressar as informaes mais relevantes contidas
num conjunto de dados atravs do clculo de valores. Cada um destes valores resume de uma
forma especfica o conjunto de dados.
Mais recentemente, surgiu outro campo da estatstica que designa-se por Estatstica
Indutiva ou Inferncia Estatstica
Esta estatstica preocupa-se em estimar o verdadeiro valor desconhecido do(s)
parmetro(s) de uma populao e testar hipteses com respeito ao valor dos parmetros
estimados, ou natureza da distribuio da populao.
Aqui que surge uma separao, ou sabemos partida qual a distribuio da populao
(Estatstica Paramtrica), ou no sabemos qual a sua distribuio (Estatstica No
Paramtrica).
Focaremos o nosso estudo sobre a Estatstica No Paramtrica. Os primeiros mtodos
da estatstica no paramtrica, embora com pouco uso at aos anos 40, foram referidos por
John Arbuthnot em 1710. Estes comearam a ter maior impacto s a partir de 1942 com
Wolfowitz. A partir da o interesse aumentou de uma forma rpida.
Hoje a estatstica no paramtrica considerada como um dos campos mais importantes
da estatstica. As tcnicas que advm desta categoria so usadas com grande frequncia nas
cincias fsicas, biolgicas e sociais ou at mesmo na comunicao. Outros autores, tambm
do importncia a outros campos, tais como, na anlise de dados da qualidade da gua

Introduo

(Helsel), em aplicaes na medicina (Brown and Hayden) ou mesmo na psicologia


(Buckalew).
Enumeremos, algumas vantagens para os mtodos conhecidos:
1. Como os mtodos da estatstica no paramtrica depende do mnimo de suposies,
a possibilidade de o mtodo no ser adequado menor.
2. Para alguns mtodos a avaliao pode ser rpida e fcil, especialmente se o clculo
for manual. Deste modo, usando-os pode poupar tempo. considerado importante,
se no tivermos tempo ou se no temos meios tcnicos para o clculo rpido.
3. Os mtodos estatsticos so fceis de perceber, mesmo tendo o mnimo de
preparao matemtica e estatstica.
4. Muito dos testes no paramtrica trabalham s com a ordem dos dados.
5. Podero trabalhar com amostras de pequenas dimenses.
claro que os mtodos de estatstica no paramtrica tambm trazem desvantagens. As
mais importantes so as seguintes:
1. Os testes no paramtricos, por vezes, so usados quando os testes paramtricos so
mais apropriados, porque estes testes so mais simples e rpidos, deste modo, pode
haver perda de informao.
2. Ainda que os procedimentos no paramtricos tm a reputao de requerer s
clculos simples, a aritmtica em muitas instncias pode ser tendenciosa e
trabalhosa, especialmente quando as amostras so grandes.
3. Os mtodos paramtricos so mais potentes para uma mesma dimenso e um
mesmo do que os mtodos da estatstica no paramtrica.
Situao onde podemos usar os mtodos da estatstica no paramtrica
Os mtodos no paramtricos so apropriados quando:
1. As hipteses a testar no envolve parmetros da populao.
2. Se conhece a ordem dos dados.
3. Os pressupostos necessrios para o uso vlidos dos mtodos paramtricos no so
conhecidos. Em muitos casos o planeamento de um projecto de pesquisa pode

Introduo

sugerir um certo processo paramtrico, mas quando iremos aplicar este processo
poder violar de uma forma determinante os pressuposto. Neste caso, um mtodo
no paramtrico seria a nica alternativa.
Quando queremos implementar um mtodo devemos ter em conta o nvel de medida das
variveis a analisar, estas esto divididas em diferentes grupos:
1. Escala Nominal: neste nvel situam-se todas as observaes que so categorias e
no tm uma ordem natural, por exemplo, o sexo dos alunos de uma dada turma.
Para que tenha uma ordem, pode ser atribudo um valor numrico, no entanto, os
nmeros no tem um verdadeiro e nico significado (Ex.: masculino=1, feminino=2
ou feminino=1, masculino=2);
2. Escala Ordinal: as observaes so categorias que tm uma ordem natural. Estas
observaes podem no ser numricas. Por exemplo, as classificaes dos testes
podem ser mau, no satisfaz, satisfaz, bom ou muito bom.
3. Escala Intervalar: tem todas as caractersticas da ordinal com a vantagem de
conhecer as distncias entre dois nmeros quaisquer da escala. Estes valores esto
limitados entre dois valores. (Ex. As notas das frequncias de uma dada turma, os
valores esto entre zero e vinte).
4. Escala de Razes: alm das caractersticas de uma escala intervalar, tem um
verdadeiro ponto zero como origem. No existe limites. Nesta escala, a razo de
dois pontos quaisquer independente da unidade de mensurao, por exemplo, se
determinarmos os pesos de dois objectos diferentes no somente em libras, mas
tambm em gramas, observamos que a razo dos dois pesos em libras idntica
razo dos dois pesos em gramas.
Os vrios mtodos para testar as hipteses sero apresentados de forma a focar as
diferenas entre as vrias fontes de informao disponveis, tais como, as tabelas e os dois
Software especializados: o Mathematica e o SPSS. A introduo dos dados, no caso do
SPSS, e a programao das funes, no caso do Mathematica, estaro em anexo, bem com
as tabelas aqui utilizadas.

Captulo 1: Caso de uma amostra

CAPITULO 1: CASO DE UMA AMOSTRA


Os testes estatsticos inerentes ao caso de uma amostra servem para comprovar uma
hiptese que exige a extraco de uma amostra. usualmente usado para teste de aderncia,
isto , se determinada amostra provm de uma determinada populao com uma distribuio
especfica.
As provas de uma amostra verificam se h diferenas significativas na locao
(tendncia central) entre a amostra e a populao, se h diferenas significativas entre
frequncias observadas e as frequncias que poderamos esperar com base em determinado
princpio, se h diferenas significativas entre as propores observadas e as propores
esperadas e se razovel admitir que a amostra seja uma amostra aleatria de alguma
populao conhecida.

1.1 Teste da Binomial


Antes de falar no teste da Binomial, falemos um pouco da distribuio Binomial. Esta
distribuio comum ser usada para a contagem de eventos de um modelo observado.
baseado no pressuposto de que a contagem podem ser representada como um resultado de
uma sequncia de resultados independentes de Bernoulli (por exemplo: o lanamento de uma
moeda). Se a probabilidade de observar um resultado R P para cada n ensaios, ento a
probabilidade que R ser observado num ensaio x exacto

N
p x = P x (1 P) N x
x

(1.1.1)

A distribuio definida por: P[ X = x] = p x ( x = 1,K, N ) chamada distribuio


binomial com parmetros n e p. O nome aparece, pelo facto de que a expanso binomial de
( p + 1 p) n P0 + P1 + K + Pn .

O Teste da Binomial aplica-se a amostras que provm de uma populao, onde o


nmero de casos observados podem ser representados por uma varivel aleatria que tenha
distribuio binomial. As amostras consistem em dois classes (ex: cara ou coroa; sucesso ou
insucesso), deste modo este teste aplicado a amostra de escala nominal.

Captulo 1: Caso de uma amostra

Cada uma das classes tem a sua proporo de casos esperados, tomaremos, assim, P
para a proporo de uma das classes, e Q = 1 - P para a outra classe.

P fixo para uma determinada populao, mas, devido aos efeitos aleatrios, no
podemos esperar que determinada amostra tenha exactamente a mesma proporo.
A hiptese a ser testada se o valor da populao P .
A probabilidade de obter x objectos numa das categorias e N x noutra categoria
dada pela frmula 1.1.1..
No entanto, no queremos saber qual a probabilidade exacta dos valores observadas,
mas sim qual a probabilidade de obter os valores observados ou valores mais extremos. Ento
para o mtodo aplicamos a seguinte distribuio amostral:
x

C
i =0

N
i

P i Q N -i

(1.1.2)

Mtodo:
1. Determinar o nmero de casos observados N (dimenso da amostra);
2. Determinar as frequncias em cada uma das classes;
3. Conforme a dimenso da amostra, elas so classificadas em pequenas amostras
( N 25) ) e grandes amostras ( N > 25 ):
3.1. Para pequenas amostra e P = Q = 12 , a tabela D d as probabilidades unilaterais,
sob H 0 , de vrios to pequenos quanto um x observado. Emprega-se uma prova
unilateral quando se conhece em antemo qual das classes tem menor frequncia,
caso contrrio basta, para uma prova bilateral, duplicar os valores da tabela D.
3.2. Se P = Q , determina-se a probabilidade, sob H 0 , de ocorrncia do valor
observado x , utilizando a frmula 1.1.2.
3.3. Para grandes amostras, pode-se demonstrar que quando N cresce a distribuio
binomial tende para a distribuio Normal. Ser mais rpida se P estiver prximo
de

1
2

. Os parmetros a usar sero a mdia x=NP e o desvio padro x= NPQ ,

deste modo, z tem distribuio aproximadamente normal com mdia 0 e


varincia 1, sendo:
z=

x- x
x-NP
=
x
NPQ

(1.1.3)

Captulo 1: Caso de uma amostra

Devido natureza da varivel x ser discreta e a distribuio normal ser contnua,


deve-se incorporar um factor de correco. Assim sendo z fica

z=

( x 0.5)-NP

(1.1.4)

NPQ

onde x + 0.5 utilizado quando x < NP e x 0.5 quando x > NP.


Ento para grandes amostras e P prximo de

1
2

, testamos a hipteses aplicando a

frmula 1.1.4. A tabela A d a probabilidade, sob H 0 , associada ocorrncia de


valores to grandes quanto um valor de z observado, dado por aquela frmula. A
tabela d os valores unilaterais de p, sendo necessrio para prova bilateral,
duplic-los.
Se o valor p associado ao valor observado x, no superar , ento rejeita-se H 0 .
Exemplo 1.1.1:
Suponhamos que numa dada famlia nasceram 12 filhos, 7 do sexo feminino e 5 do sexo
masculino. Os pais querem saber se a probabilidade de nascer feminino ou masculino igual.
Resoluo:
Hipteses:
H 0 : p1 = p 2 No h diferenas na probabilidade de nascer menino ( p1 ) ou

menina ( p 2 ) .
H 1 : p1 p 2 H diferena na probabilidade.

Escolhe-se o teste binomial porque os dados esto dicotomizados em duas classes


discretas. O nascimento um processo aleatrio, assim, P = Q = 12 .
Seja = 0,01 e N nmero de filhos = 12

Captulo 1: Caso de uma amostra

A distribuio amostral dada pela frmula:


x

i =0

i =0

CiN P i Q N -i = Ci12 P i Q N -i = 0,387


Sabemos que o clculo anterior deu a probabilidade unilateral, para a bilateral basta
duplicar o valor, sendo assim, p = 2 0,387 = 0,774 . A regio de rejeio consiste em todos
os valores de x to pequenos que a probabilidade, sob a hiptese nula, associada sua
ocorrncia no seja superior a 0,01.
Como a probabilidade p = 0,774 associado a x 5 maior que = 0,01 , conclui-se
que no existe diferenas nas probabilidades de nascer menino ou menina.
O SPSS, alm do valor p, d-nos um quadro resumo da amostra:

Output 1.1.1:

Este software pode fazer o teste com maior rapidez, muito embora, se a dimenso da
amostra for muito grande, a introduo dos dados poder ser demorada. Para colmatar esta
situao podemos recorrer ao Mathematica, pois, basta dar o nmero de casos de um das
classes como ilustra o seguinte exemplo:
Exemplo 1.1.2:
Suponhamos agora que queremos saber se a probabilidade de nascer masculino ou
feminino num dado pas igual. Considerando uma amostra de 1500 nascimentos e que
nasceram 725 crianas do sexo masculino, para testar a hiptese, basta:
npmBinomial p-value = 0.5725
One- Sided PValue - > 0.102896822008

Two- Sided PValue - > 0.205793644017

Captulo 1: Caso de uma amostra

Como o p-value maior que = 0.01 , ento aceitamos a hiptese de que no existe
diferenas entre o nmero de nascimentos do sexo masculino e feminino.

1.2 Teste do Qui-Quadrado ( 2 ) para uma amostra


adequado aplicar este teste quando temos os dados da amostra dividida em duas ou
mais categoria. O propsito deste mtodo ver se existem diferenas significativas entre o
nmeros de indivduos, de objectos ou de respostas, em determinada classe, e o respectivo
nmero esperado baseado na hiptese nula. Isto , a tcnica 2 testa se as frequncias
observadas esto suficientemente prximas das esperadas para justificar sua ocorrncia sob a
hiptese nula.
Mtodo:
O mtodo envolve os seguintes passos:
1. Enquadrar as frequncias observadas nas k categorias. A soma das frequncias deve
ser N, nmero de observaes independentes;
2. Por meio de H 0 , determinar as frequncias esperadas para uma das k clulas;
3. Calcular o valor de 2 por meio da seguinte frmula:

(Oi Ei )2

i =1

Ei

2
calc
. =

(1.2.1)

Oi = nmero de casos observados na categoria i


E i = nmero de casos esperados na categoria i sob H 0

k = nmero de categorias na classificao;


4. Determinar o grau de liberdade ( gl = k 1 );
5. Com base na tabela C, determinar a probabilidade associada ocorrncia, sob H 0 ,
de um valor to grande quanto o valor observado de 2 para o valor de gl
considerado. Se o valor de p, assim obtido, for igual a, ou menor do que, , rejeitase a hiptese nula.

10

Captulo 1: Caso de uma amostra

Nota: quando k > 2, se mais de 20 por cento dos E i s so inferiores a cinco, combinase de maneira razovel, categorias adjacentes. Reduzindo, assim o nmero de classes e
aumentando o nmeros de alguns dos E i s. Quando k = 2. Pode-se empregar a prova 2
para uma amostra s se cada frequncia esperada no mnimo, igual a 5 (Cochran, 1954).
Exemplo 1.2.1:
Dada a seguinte tabela:

Tabela 1.2.1:

Cor

Vermelho

Branco

Preto

Azul

Cinzento

Nmero de automveis

29

25

19

15

17

Queremos saber se h preferncia em determinada cor, isto , h razes para dizer que
h preferncia em determinada cor? Com um nvel de significncia = 0,05 .
Resoluo:
Formulamos as hipteses:

H 0 : PVermelho = PBranco = PPreto = PAzul = PCinzento =

1
5

H 1 : H 0 falsa.

Calculamos o nmero total de frequncias e o valor esperado:


N = N Vermelho = N Branco = N Preto = N Azul = N Cinzento = 29 + 25 + 19 + 15 + 17 = 105

Ei =

N 105
=
= 21
k
5

Calculamos 2 :

2 =

(29 21)2 + (25 21)2 + (19 21)2 + (15 21)2 + (17 21)2
21

21

21

21

21

6,48

11

Captulo 1: Caso de uma amostra

A tabela C indica que 2 6,48 para gl = 4 tem a probabilidade de ocorrncia


entre p = 0,1 e p = 0,2 . Como p > ento no podemos rejeitar H 0 . Concluindo que a
proporo de casos em cada categoria igual, para um nvel de 0,05.
Atravs deste exemplo, verifica-se que no podemos ir buscar o valor exacto de p na
tabela, deste modo, seria mais preciso se utilizarmos outros meios de clculo mais eficazes,
assim, o SPSS seria a melhor escolha, como ilustra o seguinte output:

Output 1.2.1:

Poderamos utilizar o Mathematica, atravs da funo QuiQuadrada1Amostra[],


dando como parmetro a amostra:
QuiQuadrada1Amostra 29,25,19,17,15
PValue: 0.166297

como observado, o Mathematica calcula com maior preciso o valor da probabilidade


associada.

1.3 Teste de Kolmogorov-Smirnov


O Teste de Kolmogorov-Smirnov de uma amostra baseado na diferena entre a funo
de distribuio cumulativa F0 ( x ) e a funo de distribuio emprica da amostra S n (x) . A
funo de distribuio emprica da amostra define-se como a proporo das observaes da
amostra que so menores ou iguais a x para todos os valores reais x . S n (x ) dispe dum
estimador pontual consistente para a verdadeira distribuio FX (x ) . Mais, atravs do teorema

12

Captulo 1: Caso de uma amostra

de Glivenko-Cantelli1 , podemos afirmar que S n (x) aproxima-se da distribuio terica.


Portanto, para um n grande, o desvio entre as duas distribuies, S n ( x) FX ( x) , fica cada
vez mais pequenos para todos os valores de x . Assim ficamos com o seguinte resultado:

Dn = sup S n ( x) FX ( x)

(1.3.1)

estatstica D n chamamos estatstica de Kolmogorov-Smirnov de uma amostra.


particularmente til para a Estatstica No Paramtrica, porque a probabilidade de D n no
depende de FX (x) desde que FX seja contnua. Deste modo, Dn pode ser chamada estatstica
sem distribuio.
O desvio direita e esquerda definida por

Dn+ = sup[S n ( x) FX ( x)]

Dn = sup[FX ( x) S n ( x)]

(1.3.2)

so chamados estatsticas de Kolmogorov-Smirnov unilaterais. Estas medidas tambm no


tm distribuio.
Para que possamos utilizar a estatstica de Kolmogorov para inferncia, a distribuio
da amostra deve ser conhecida. Sabendo que as distribuies de Dn so independentes de FX ,
podemos assumir, sem perda de generalidade, que FX a distribuio uniforme com
parmetros (0,1). Assim obtemos o seguinte teorema:

Teorema 1.3.1:

Para Dn = sup S n ( x) FX ( x) onde FX (x ) uma funo distribuio


x

cumulativa contnua qualquer, temos:

Teorema de Glivenko-Cantelli: S n ( x ) converge uniformemente para FX (x ) com a probabilidade 1; que

P lim sup S n ( x) FX ( x) = 0 = 1
n < x <

13

Captulo 1: Caso de uma amostra

1 / 2 n + v 3 / 2 n + v ( 2 n 1) / 2 n + v
+ v =
P Dn <
f (u1 , u 2 , K , u n )du n K du1
K
2n

1 / 2 n v 3 / 2 n v ( 2 n 1) / 2 n v

se v 0
2n 1
2n
2n 1
se v
2n

se 0 < v <

n! 0 < u1 < K < u n < 1


onde f (u1 , u 2 ,K, u n ) =
0 caso contrrio
Mtodo:
Este mtodo pretende testar se uma determinada amostra foi extrada de uma populao
com uma determinada distribuio terica.
Quando se escolhe este teste preciso ter em conta que a varivel seja pelo menos
ordinal.
Seja F0 ( X ) uma distribuio de frequncias acumuladas, terica, sob H 0 .
Seja S N ( X ) a distribuio de frequncias acumuladas de uma amostra aleatria de N
observaes. Quando X qualquer valor possvel, S N ( X ) =

k
, onde k o nmero de
N

observaes no superiores a X.
Pela hiptese Nula, de que a amostra tenha sido extrada de uma populao com a
distribuio terica especfica, espera-se que as diferenas entre S N ( X ) e F0 ( X ) sejam
pequenas e estejam dentro dos limites dos erros aleatrios. O teste de Kolmogorov-Smirnov
focaliza a maior dessas diferenas. Ao valor de F0 ( X ) S N ( X ) chamado de desvio
mximo, D:
D = mx F0 ( X ) S N ( X )

(1.3.3)

A Distribuio amostral de D, sob H 0 , conhecida. A tabela E d certos valores


crticos dessa distribuio amostral. Note-se que a significncia de um dado valor D depende
de N.

14

Captulo 1: Caso de uma amostra

Exemplo 1.3.1:
Suponha-se que um pesquisador esteja interessado na confirmao experimental da
observao sociolgica, de que os negros Americanos aparentam demonstrar uma hierarquia
de preferncia em relao tonalidade de pele. Para comprovar quo sistemticas so essas
preferncias, o pesquisador fictcio tira uma fotografia de cada um dentro de 10 indivduos
negros. O fotgrafo revela essas fotografias, obtendo cinco cpias de cada uma, de tal forma
que cada cpia difira ligeiramente das outras em tonalidade, podendo, pois, ser classificadas
em cinco tipos, desde a mais clara at mais escura. fotografia mais escura atribudo o
posto 1, e para a mais clara atribuda o posto 5. Pede-se ento a cada indivduo que escolha
uma de entre as cinco cpias de sua prpria foto. Se os indivduos forem indiferentes em
relao tonalidade da cor da pele, a escolha dever recair igualmente sobre os cinco postos
(com excepo, bvio, de diferenas aleatrias).
Se, por outro lado, a cor tiver importncia, tal como supomos, ento os diversos
indivduos devero consistentemente manifestar preferncia por um dos postos extremos. Os
resultados esto na seguinte tabela:
Tabela 1.3.1:

Posto da foto

N. de indivduos

Resoluo:
Formulamos as hipteses:
H 0 : f 1 = f 2 = f 3 = f 4 = f 5 (No h diferenas no nmero esperado de escolhas para

cada um dos cinco postos, isto , a amostra provm de uma populao com uma distribuio
uniforme.)
H 1 : H 0 falsa ( f 1 , f 2 , f 3 , f 4 , f 5 no so iguais).

Com a ajuda de uma tabela, calculamos a diferena entre a distribuio de frequncias


acumuladas terica e a da amostra:

15

Captulo 1: Caso de uma amostra

Tabela 1.3.2:

f1

f2

f3

f4

f5

F0 ( X )

1
5

1
5

1
5

1
5

1
5

S0 ( X )

1
10

1
10

6
10

10
10

F0 ( X ) S N ( X )

1
5

3
10

5
10

2
10

N. de indivduos que
escolhem a cor

De seguida, calculamos o mximo entre estas diferenas:


D = mx{F0 ( X ) S N ( X ) } =

5
= 0,5
10

Consultamos a tabela E que nos d a probabilidade p associada de ocorrncia (bilateral)


de D 0,5 com N = 10 : p 0,01 .
Utilizando um nvel de significncia = 0,01 , podemos concluir que H 0 falsa, sendo
assim, os indivduos demonstram preferncia na tonalidade.
Como observado, a tabela d-nos intervalos de p , no sendo possvel obter o seu valor
exacto. Poderamos escolher um = 0,03 e se, aps o clculo de D, a probabilidade
associada estiver entre 0,01 e 0,05, no era possvel dar uma resposta.
No SPSS podemos obter o valor exacto de p:

Output 1.3.1:

16

Captulo 1: Caso de uma amostra

1.4. Teste de Iteraes de Uma Amostra


Dado uma sequncia de dois ou mais tipos de smbolos, uma iterao definida como
uma sucesso de um ou mais smbolos idnticos em que so seguidos e precedidos por outro
smbolo diferente ou nenhum smbolo.
Pistas para uma sequncia no aleatria so dadas atravs da existncia de algum
padro. O nmero de iteraes e o comprimento, em que esto interrelacionados, devem
reflectir a existncia de algum tipo de padro.
Uma alternativa para saber se ou no aleatria baseada no nmero total de iteraes.
Quer a situao de um nmero pequeno quer a situao de um nmero grande de iteraes,
sugere que a sequncia de smbolos esto dispostos de forma ordenada (no aleatria), isto ,
a hiptese nula rejeitada se o nmero de iteraes muito grande ou muito pequeno.
Este teste utiliza-se quando os valores esto numa escala nominal ou ordinal, em que a
amostra dicotmica.
Dada uma sequncia de n elementos de dois tipos, n1 do primeiro tipo e n 2 do segundo
tipo, onde n1 + n 2 = n . Se r1 o nmero de iteraes do tipo 1 e r2 do tipo 2, ento, o
nmero total de iteraes na sequncia R = r1 + r2 . Para fazer um teste para a aleatoriedade,
precisamos da distribuio de probabilidade de R quando a hiptese nula verdadeira.
A distribuio de R ser encontrada quando conhecermos a distribuio de r1 e r2 ,
bastando somar as duas distribuies. Sabendo que sobre a hiptese nula todos os arranjos de
n1 + n 2 objectos equiprovvel, a probabilidade de R1 = r1 e R2 = r2 o nmero de arranjos

distintos de n1 + n 2 objectos dividido pelo total de arranjos distintos, que n! / n1! n 2 ! . Para a
quantidade do numerador, o lema seguinte pode ser usado.
Lema 1.4.1:

O nmero de formas distintas para distribuir n objectos iguais por

n 1
, n r.
r distintas clulas sem clulas vazias
r 1
De modo a obter uma sequncia com r1 iteraes de objectos do tipo 1, os n1 objectos
n 1
iguais deve ser postas dentro de r1 clulas, em que pode ser feito em 1 diferentes
r1 1

17

Captulo 1: Caso de uma amostra

maneiras. Aplica-se do mesmo modo para obter r2 iteraes com outros n 2 objectos. O
nmero total de arranjos distintos comeando com uma iterao do tipo 1 o produto
n1 1 n2 1

. Analogamente, para uma sequncia comeando com uma iterao do tipo 2.


r1 1 r2 1

O conjunto de objectos do tipo 1 e do tipo 2 deve ser alternado, e consequentemente poder


acontecer o seguinte: r1 = r2 1 ou r1 = r2 . Se r1 = r2 + 1 , a sequncia deve comear com uma
iterao do tipo 1; Se r1 = r2 1 ento deve ser o tipo 2 a comear. Caso r1 = r2 a sequncia
pode comear com o do tipo 1 ou 2., portanto, o nmero de arranjos distintos deve ser
duplicado. Assim foi provado os seguintes resultados.
Teorema 1.4.1: Seja R1 e R 2 os respectivos nmeros de iteraes de n1 objectos do
tipo 1 e n 2 objectos do tipo 2 numa amostra aleatria de dimenso n = n1 + n 2 . A distribuio
da probabilidade conjunta de R1 e R 2

f R1 , R2 ( r1 ,r2 )

n 1 n 1
c 1 2
r 1 r2 1
= 1
n1 + n2

n1

r1 = 1,2,K , n1
r2 = 1,2,K , n2
r1 = r2

ou

(1.4.1)

r1 = r2 1

onde c = 2 se r1 = r2 e c = 1 se r1 = r2 1 .
Corolrio 1.4.1: A distribuio da probabilidade marginal de R1

f R1 ( r1 )

n1 1 n2 + 1

r1 1 r1

=
n1 + n2

n1

r1 = 1,2,K, n1

(1.4.2)

Similar para R 2 trocando posies de n1 com n 2 e vice-versa.


Teorema 1.4.2:

A distribuio de probabilidade de R , nmero total de iteraes e

n = n1 + n 2 objectos, n1 do tipo 1 e n 2 do tipo 2, numa amostra aleatria

18

Captulo 1: Caso de uma amostra

n1 1 n 2 1

/
2
1
/
2
1
r
r

se r impar

n1 + n 2

n1

f R (r ) =
n 1 n 1 n 1 n 1
1
2

2
+ 1
par

(
1
)
/
2
(
3
)
/
2
(
3
)
/
2
r
r
r

(r 1) / 2 se r

n1 + n 2

n1

(1.4.3)

para r = 2,3, K , n1 + n 2
Mtodo:
1. Dispor as n1 e n2 observaes na sua ordem de ocorrncia;
2. Contar o nmero r de iteraes;
3. Determinar a probabilidade, sob H 0 , associada a um valor to extremo quanto o
valor observado de r. Se tal probabilidade igual, ou inferior, a , rejeitar H 0 . A
tcnica para a determinao do valor de p depende do tamanho dos grupos n1 e n2 :
3.1. Se n1 e n2 so ambos no superiores a 20, recorrer tabela F. A tabela FI d o
valor de r que to pequeno que a sua probabilidade associada, sob H 0
p = 0,025 ; a tabela FII d o valor de r que to grande que a sua probabilidade

associada p = 0,025 . Para uma prova bilateral consideramos os dois valores, ao


nvel p = 0,05 . Para uma prova unilateral consideramos a tabela correspondente
aos valores previstos tambm a um nvel p = 0,05 .
3.2. Se n1 ou n2 for superior a 20 ento determinar uma aproximao Normal atravs
da seguinte frmula:

z=

r r

2n n
r 1 2 + 1

n1 + n2
2n1n2 (2n1n2 n1 n2 )

(1.4.1)

(n1 + n2 )2 (n1 + n2 1)

19

Captulo 1: Caso de uma amostra

calculado o valor de z, recorrer tabela A.


Exemplo 1.4.1:
Apresentamos uma tabela onde dado o total de pagamentos feitos pelas equipas da
Liga Nacional de baseball dos EUA:

Tabela 1.4.1: Pagamentos em milhes de dlares.

Equipa

Pagamento

Equipa

Pagamento

Atlanta

47.93

Montreal

15.41

Chicago Cubs

31.45

New York Mets

23.46

Cincinnati

40.72

Philadelphia

29.72

Colorado

38.19

Pittsburgh

21.25

Florida

30.08

San Diego

27.25

Houston

26.89

San Francisco

34.79

Los Angeles

34.65

St. Louis

38.92

A mediana deste conjunto de nmeros de 30,765.


Convertemos os valores indicados na tabela para zeros e uns, o zero corresponde a um
valor menor que a mediana e o um corresponde a um valor maior que a mediana.
Obtemos a seguinte sequncia:
1,1,1,1,0,0,1,0,0,0,0,0,1,1
Queremos saber se os valores esto numa sequncia aleatria. Com um nvel de
significncia = 0,05 .
Resoluo:
Formulamos as hipteses:
H 0 : os zeros e uns ocorrem em ordem aleatria
H 1 : H 0 falsa.

O nmero de iteraes r = 5 ; n1 = 7 e n 2 = 7
Calculamos os extremos para o r com a ajuda da Tabela F que nos d o seguinte
resultado:
Regio de Aceitao

Regio de Rejeio

Regio de Rejeio
20

13

Captulo 1: Caso de uma amostra

Como r pertence ao intervalo de aceitao, podemos aceitar H 0 , deste modo,


conclumos que, com um nvel de significncia = 0,05 , os pagamentos ocorrem de forma
aleatria.
Podemos verificar que estas tabelas no nos do o valor de p, apenas um intervalo de
rejeio. Quer no Mathematica, quer no SPSS podemos calcular de uma forma exacta o
valor da probabilidade associada.
Vejamos ento no SPSS:

Output 1.4.1:

Como podemos observar a probabilidade associada de p = 0,164 , assim chegamos ao


mesmo resultado, isto , aceitamos a hiptese nula.
No Mathematica usamos dois procedimentos, um para converter para zeros e uns
outro para o clculo da probabilidade:
Guardamos os valores numa varivel do tipo lista:
Pagamentos = 47.93, 31.45, 40.72, 38.19, 30.08, 26.89, 34.65, 15.41,
23.46, 29.72, 21.25, 27.25, 34.79, 38.92

convertemos para zeros e uns:


ZeroUns = convertToZerosAndOnes pagamentos
1, 1, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1

21

Captulo 1: Caso de uma amostra

e calculamos a probabilidade associada:


npmRunsTest ZeroUns
Number of Runs - > 5
Two- Sided PValue - > 0.155012

Conclumos, do mesmo modo, que no h razo para rejeitar a hiptese nula.


Como concluso para este teste, podemos afirmar que, com a ajuda do computador, no
necessrio fazer uma aproximao normal, visto que, no tem a limitao das tabelas.

22

Captulo 2: Caso de duas amostras relacionadas

CAPTULO 2: CASO DE DUAS


AMOSTRAS RELACIONADAS
Empregam-se os testes para duas amostras relacionadas quando queremos determinar,
para uma mesma situao, se duas abordagens, tratamentos ou mtodos so diferentes ou se
um melhor que o outro.

2.1 Teste dos Sinais

dado

uma

amostra

aleatria

de

pares

ordenados

da

forma

{( y11 , y12 ), ( y 21 , y 22 ),..., ( y n1 , y n 2 )} , cada par substitudo por um sinal mais ou menos depende
se o primeiro valor maior ou menor.
Mtodo:
1. Emparelhar n pares;
2. Determinar o sinal da diferena entre os dois membros de cada par;
3. Determinar N = nmero das diferenas com sinal;
4. O mtodo para determinar a probabilidade associada ocorrncia, sob H 0 , de um
valor to extremo quanto o valor observado de z depende do tamanho de N:
i. Se N 25 , a tabela D d a probabilidade unilateral p associada a uma
valor to pequeno quanto o valor esperado x = nmero de sinais com menor
frequncia. Duplica-se o valor da probabilidade quando se trata de um teste
bilateral.
ii. Se N > 25 , calcular o valor de z mediante o emprego da frmula:

z=

( x 0,5) 12 N
1
2

(2.1.1)

Utiliza-se x + 0,5 quando x < 12 N , caso contrrio, x 0,5 .


A tabela A d os valores unilaterais de p , para um teste bilateral duplicar o
valor de p .
Se o valor da probabilidade obtida no teste no for superior a , rejeitar H 0 .

23

Captulo 2: Caso de duas amostras relacionadas

Exemplo 2.1.1:
Um professor da disciplina de alemo pretende avaliar o impacto de uma viagem, com a
durao de uma semana Alemanha, sobre o vocabulrio dos estudantes. O professor acredita
que uma semana na Alemanha resultar num acrscimo significativo das palavras do
vocabulrio dos seus alunos, antes e depois de regressarem da viagem, tendo obtido os
seguintes resultados:

Tabela 2.1.1:
Antes 98
Depois 121

76
85

60
58

46
58

86
91

33
32

94 122
106 145

75
83

65
78

80
80

111
122

62
75

Resoluo:
Formulamos as hipteses:
H 0 : No h diferenas, isto , o nmero de sinais + o mesmo de sinais -.
H 1 : H 0 falsa.

Iremos usar o teste dos sinais, escolhendo um = 0,05 .


Aps a anlise dos pares ordenados verificamos a seguinte sequncia de sinais:
+ + - + + - + + + + + +i

N = 12 (neste caso houve um empate) e x = 2


Como N 25 , recorremos tabela D, e verificamos que para uma prova unilateral o
valor de p de 0,019, mas como a prova bilateral p = 0,038
Sendo assim, rejeitamos a hiptese nula, dado lugar hiptese alternativa, concluindo
que seria recomendvel os alunos irem Alemanha.
Para o caso de grandes amostras a contagem de sinais seriam demorados e susceptvel a
erros e teramos que utilizar uma aproximao, seria prudente a utilizao de um computador.
Vamos ver como seria no computador este exemplo:
Aps a introduo dos dados no SPSS, teramos os seguintes resultados:

24

Captulo 2: Caso de duas amostras relacionadas

Output 2.1.1:

Como pode-se verificar, alm de podermos visualizar o valor da probabilidade de um


modo mais exacto, podemos ver tambm o nmero total de sinais que ocorrem.
Outro modo seria utilizando o Mathematica, na funo a utilizar damos como
parmetros: o nmero de sinais positivos e o nmero de sinais negativos, excluindo os
empates em ambos os casos:
npmSignTestFrequencies 2, 10
Title: Sign Test
Test Statistic: Number of Pluses is 2
Distribution BinomialDistribution
2 - sided p- value - > 0.0385742

Podemos verificar que o valor de p dado com maior nmero de casas decimais.

2.2 Teste de McNemar


O teste desenvolvido por McNemar usado para analisar frequncias (propores) de
duas amostras relacionadas, isto , tem como objectivo avaliar a eficincia de situaes
antes e depois, em que cada o indivduo utilizado como o seu prprio controlo. Utilizase a mensurao em escala nominal para avaliar alteraes da situao aps em relao
situao antes.
Mtodo:
1. Enquadrar as frequncias observadas numa tabela de quatro clulas na forma
seguinte:

25

Captulo 2: Caso de duas amostras relacionadas

Tabela 2.2.1:

Depois
Antes
+
-

A
C

B
D

As clulas A e D so consideradas clulas de mudana, enquanto que as clulas B e C


so clulas que no muda de estado. O total de indivduos que acusam mudana

m = A+ D;
2. Considerando p1 a probabilidade de Antes Negativo; Depois Positivo e p 2 a
probabilidade de Antes Positivo; Depois Negativo e p1 = p 2 , calcular as
frequncias esperadas nas clulas A e D: E = 12 ( A + D ) .
Se as frequncias esperadas so inferiores a 5 , empregar a prova binomial em
substituio de McNemar, neste caso, N = A + D e x = min {A, D};
3. Caso no se verifique que as frequncias so inferiores a 5, calcular o valor de X 2
com o emprego da seguinte frmula:

( A D 1)

X =
2

A+ D

(2.2.1)

com gl = 1

4. Mediante referncia tabela C, determinar o probabilidade, sob H 0 , associada a um


valor to grande quanto o valor observado de X 2 . Se se tratar de uma prova
unilateral, basta dividir por dois o valor tabelado. Caso o valor de p, exibido pela
tabela, no supera , rejeitar H 0 em favor da hiptese alternativa.
Exemplo 2.2.1:
Dada a seguinte tabela de resultados:

Tabela 2.2.1:
M arca B
Marca A
Sucesso
Insucesso

Sucesso

Insucesso

19
4

11
16

26

Captulo 2: Caso de duas amostras relacionadas

Queremos saber qual a melhor marca de medicamentos com um nvel de significncia


de = 0,05 .
Resoluo:
McNemar demonstrou que A ou D no contribui para a determinao das diferenas
entre a marca A e a marca B, Mas sim atravs das restantes clulas (B e C). Se verificarmos
que B > C, podemos concluir que a Marca A melhor que a marca B, caso contrrio, se B < C
ento a marca B melhor. Com base neste raciocnio, formulamos as nossas hipteses:
H 0 : No existe diferenas entre a marca A e a Marca B ( p marcaA = p marcaB = 12 )
H 1 : H 0 falsa.

(19 16 1)

X =
2

19 + 16

= 0,1142857143 com gl = 1

Atravs da tabela C, calculamos uma aproximao do valor de X 12 (1) :


X 12 (1) = X 02.95 (1) = 0,0039

Como X 2 > X 02.95 (1) ento rejeitamos a hiptese nula, dando lugar hiptese
alternativa, isto , existe diferenas entre a marca A e a marca B, sendo a marca A melhor que
a marca B.
Com a ajuda do computador, no preciso recorrer tabela, podendo calcular o valor
preciso da probabilidade associada:

Output 2.2.1:

27

Captulo 2: Caso de duas amostras relacionadas

No Mathematica, a funo a utilizar ser a mesma da binomial dando como


parmetros: o nmero total dos valores das clulas onde h mudana de comportamento entre
as marcas, a probabilidade (neste caso 0,5) e o menor valor entre as clulas de mudana:
npmBinomial PValue 0.5, 4
One- Sided PValue - > 0.0592346
Two- Sided PValue - > 0.118469

Com o Mathematica chegamos mesma concluso do mtodo pelas tabelas, com a


vantagem de ser com maior preciso.

2.3 Teste de Wilcoxon


O teste de Wilcoxon mais poderoso que o teste dos sinais, pois, alm de considerar o
sentido da diferena tambm tem em conta o seu valor e o posto em que se insere.
Mtodo:
1. Para cada par, determinar a diferena ( d i ), com sinal, entre os dois valores;
2. Atribuir postos a esses d i s independentemente de sinal. No caso de ds empatados,
atribuir a mdia dos postos empatados;
3. Atribuir a cada posto o sinal + ou o sinal do d que ele representa;
4. Determinar T que igual menor das somas de postos de mesmo sinal;
5. Determinar N que igual ao total de ds com sinal;
6. O processo para determinao da significncia do valor observado de T vai depender
de N:
Se N 25 , a tabela G d os valores crticos de T para diversos tamanhos de N. Se o valor
observado de T no supera o valor indicado na tabela, para um dado nvel de significncia e
um particular N, H 0 pode ser rejeitada;
Se N > 25 , calcular o valor de z pela seguinte frmula:

z=

N ( N + 1)
4
N ( N + 1)(2N + 1
24
T

(2.3.1)

28

Captulo 2: Caso de duas amostras relacionadas

Determinar a sua probabilidade associada, sob H 0 , mediante referncia Tabela A.


Para uma prova bilateral, duplicar o valor de p dado.
Se o p assim obtido no for superior a , rejeitar H 0 .
Exemplo 2.3.1:
Na tabela seguinte apresentamos uma sequncia de valores que correspondem ao
nmero de pessoas que trabalham mais de 25 anos em diferentes profisses divididos pelo
sexo:
Tabela 2.3.1:

Feminino 47618 15110 6555 8556 2972 324 19448 1790 5163 12495 7594 1128

3724

614

Masculino 56523 16708 8883 7825 1002 442 11161 1661 6346 3153 4760 10946 10593 2356
Pretendemos determinar se existem grandes diferenas entre os sexos nas diferentes
ocupaes.
Resoluo:
Formulamos as hipteses:
H 0 : No h diferenas entre o sexo masculino e o feminino nas diferentes ocupaes.
H 1 : H diferenas entre os sexos.

Iremos usar o teste de Wilcoxon, escolhendo um = 0,05 .


Dispomos os dados numa tabela para calcular as diferenas e os postos:

29

Captulo 2: Caso de duas amostras relacionadas

Tabela 2.3.2:

Ai

Bi

d i = Ai Bi

Postos

47618

56523

-8905

12

15110

16708

-1598

6555

8883

-2328

8556

7825

731

2972

1002

1970

324

442

-118

19448

11161

8287

11

1790

1661

129

5163

6346

-1183

12495

3153

9342

13

7594

4760

2834

1128

10946

-9818

14

3724

10593

-6869

10

614

2356

-1742

T+ = 3 + 7 + 11 + 2 + 13 + 9 = 45
T = 12 + 5 + 8 + 1 + 4 + 14 + 10 + 6 = 60

T = min{T+ , T } = 45

Como N < 25 (N = 14) ento estamos perante a um caso de pequenas amostras, neste
caso basta ver qual o valor tabelado de T descrito na tabela G:
Para um N = 14 e = 0,05 (prova bilateral) temos Ttabelado = 21
Como T > Ttabelado ento aceitamos a hiptese, isto , no existe diferenas entre os
sexos nas diferentes ocupaes.
No SPSS, basta introduzir os dados em duas series de variveis, ficando com o
seguinte resultado:

30

Captulo 2: Caso de duas amostras relacionadas

Output 2.3.1:

Podemos observar que o SPSS faz um teste assimptotico. No nos d o valor de T mas
sim o valor da probabilidade associada. Neste caso p = 0,638 , ento podemos concluir que
no existe diferenas entre os sexos.

31

Captulo 3: Caso de duas amostras independentes

CAPITULO 3: CASO DE DUAS


AMOSTRAS INDEPENDENTES
Como os testes do captulo 2, os testes, de seguida, apresentados, servem, de um modo
geral, para determinar se as diferenas nas amostras constituem evidncia convincente de uma
diferena nos processos, ou tratamentos, aplicados a elas. A principal diferena de que as
amostras so independentes e como tal, podem ter dimenses diferentes.

3.1 Teste de Iteraes de Wald-Wolfowitz


Seja duas amostras independentes X 1 , X 2 , K , X m e Y1 , Y2 , K , Yn combinadas numa
nica sequncia ordenada da menor maior, no deixando de identificar a sua amostra.
Assumindo que as suas distribuies so contnuas, uma nica ordem sempre possvel,
visto que teoricamente no existem empates. Por exemplo, com m = 4 e n = 5 , a sequncia
poderia ser X Y Y X X Y Y em que indicado que o menor elemento pertence amostra X, o
segundo menor da amostra Y, etc., e o valor maior pertence amostra Y. Sobre a hiptese nula
de que as distribuies so idnticas

: F Y ( x ) = F x ( x ) para todo o x

esperamos que X e Y estejam bem misturadas na sequncia obtida. Visto que, a dimenso

m + n = N constitui uma amostra de dimenso N de uma populao comum.


Com a iterao, definida em 1.4, como uma sequncia de letras idnticas precedida e
seguida por uma letra diferente ou nenhuma letra, o nmero total de iteraes de uma amostra
ordenada um indicativo do grau de mistura. Um padro de arranjos com muito poucas
iteraes sugere que os N valores da sequncia no provm de uma nica amostra, mas sim de
duas amostras de duas populaes diferentes. Por exemplo, se todos os elemento de X so
menores que os elementos de Y, na sequncia formada deveria ter s duas iteraes. Esta
configurao particular pode indicar que no s as populaes no so equivalentes, como
tambm podem indicar que Xs so estocasticamente menores que os Ys. Contudo, a ordem
inversa tambm s contm duas iteraes, e, portanto, um teste baseado s no nmero total de
iteraes no pode distinguir estes casos.
Em primeiro lugar, o teste de iteraes apropriado quando a hiptese alternativa
bilateral

32

Captulo 3: Caso de duas amostras independentes

H 1 : FY ( x ) Fx ( x ) para alguns x

Definimos uma varivel R aleatria como o nmero total de iteraes numa ordem de m
X e n Y valores aleatrios.
Desde que poucas iteraes tendem a duvidar da hiptese nula quando a alternativa
H 1 , O teste de iteraes de Wald-Wolfowitz (1940) para um nvel de significncia

geralmente tem a regio de rejeio R c onde c escolhido para ser o maior inteiro que
satisfaz P ( R c ) quando H 0 verdadeira.
Desde que as observaes X e Y so dois tipos de objectos arranjados numa sequncia
completamente aleatria, se H 0 verdadeira, a distribuio da probabilidade nula de R
igual distribuio 1.4.2 do corolrio 1.4.1 para o teste de iteraes de uma amostra, bastando
mudar n1 e n 2 para m e n respectivamente, assumindo que os Xs so os objecto do tipo 1 e
os Ys so os objectos do tipo 2.
Este teste tem a particular vantagem de permitir comprovar qualquer tipo de diferena.
Para que possamos aplicar a prova de Wald-Wolfowitz supe-se que a varivel em
estudo tenha distribuio bsica contnua, e exige mensurao no mnimo ao nvel de escala
ordinal.
Mtodo:
Suponhamos que n1 = n e n 2 = m , os passos a seguir so:
i. Dispor os n1 + n 2 valores numa nica sequncia ordenada;
ii. Determinar r = nmero de iteraes;
iii. O mtodo para determinao da significncia do valor observado de r
depende do tamanho de n1 e n 2 :
iv. Se n1 , n 2 20 , a tabela FI d os valores crticos de r para um nvel de
significncia 0,05. Caso o valor observado de r no superar o valor tabelado
para os valores dados de n1 e n 2 , ento podemos rejeitar H 0 ao nvel de
significncia = 0,05 ;
v. Se um dos valores de n1 e n 2 superar 20, podemos utilizar a seguinte
aproximao Normal:

33

Captulo 3: Caso de duas amostras independentes

z=

2n n
r 1 2 + 1 0.5

2n1 n2
2n1 n2 (2n1 n2 n1 n2 )
(n1 + n2 ) 2 (n1 + n2 1)

(3.1.1)

Aps a determinao do valor de z, determina-se a probabilidade associada

p atravs da tabela A. Se o valor p no for maior que ento devemos rejeitar


a hiptese nula;
Caso ocorram empates.
Teoricamente, no deveria ocorrer empates nos valores de uma prova de iteraes,
porque as populaes, das quais se extraram as amostras, deveriam ter distribuies
contnuas. Na aplicao do mtodo, por falta de preciso ou de sensibilidade das
mensuraes pode eventualmente ocorrer empates nos diferentes grupos. Portanto,
por vezes, pode originar valores diferentes para r . Assim para abranger todos os
casos, deve-se repetir o mtodo para todas as ordens diferentes.
Caso chegue a diferentes decises sobre a hiptese nula, ento, este mtodo
inaplicvel.
Exemplo 3.1.1:
Num estudo destinado a comprovar a teoria da equipotencialidade, Ghiselli comparou o
nmero de tentativas de aprendizagem (numa tarefa de discriminao de brilho) de 21 ratos
normais com o nmero de tentativas de reaprendizagem de 8 ratos. Queremos saber se os dois
grupos de animais diferem nas suas taxas de aprendizagem (reaprendizagem).
A seguinte tabela d-nos as tentativas de aprendizagem (reaprendizagem) feitas pelos
ratos do grupo A e do grupo B:
Tabela 3.1.1:

Ratos A

20 55 29 24 75 56 31 45

Ratos B

23 8 24 15 8

6 15 15 21 23 16 15 24 15 21 15 18 14 22 15 14

34

Captulo 3: Caso de duas amostras independentes

Resoluo:
Formulamos as hipteses:
H 0 : No h diferenas entre os ratos normais e os ratos em perodo ps-operatrio com

leses corticais, no que diz respeito aprendizagem (ou reaprendizagem) numa


tarefa de discriminao de brilho.
H 1 : Os dois grupos de ratos diferem em relao taxa de aprendizagem

(reaprendizagem).
A prova a escolher a prova de Wald-Wolfowitz, pois uma prova global para a
diferena entre duas amostras. O nvel de significncia a escolher ser = 0,01 .
Dispomos por ordem crescente e contamos o nmero de iteraes:

Tabela 3.1.2:

Valores 6 8 8 14 14 15 15 15 15 15 15 15 16 18 20
Grupo

B B B B B B B

Iteraes

B B B

B B A

Tabela 3.1.2 (continuao):

Valores 21 21 22 23 23 24 24 24 29 31 45 55 56 75
Grupo
Iteraes

B B B B
3

A A A A A
6

Neste caso o nmero de iteraes r1 = 6 , mas, note-se que h empates entre os dois
grupos, neste caso, teremos que repetir a contagem:

Tabela 3.1.3:

Valores 6 8 8 14 14 15 15 15 15 15 15 15 16 18 20
Grupo
Iteraes

B B B B B B B

B
1

B B B

B B A
2

35

Captulo 3: Caso de duas amostras independentes

Tabela 3.1.3 (continuao):

Valores 21 21 22 23 23 24 24 24 29 31 45 55 56 75
Grupo

B B B B

Iteraes

A A A A A

Assim, ficamos com r2 = 4 .


Dado que n1 = 8 e n 2 = 21 > 20 , ento no podemos recorrer tabela F. Para que
possamos calcular a probabilidade associada teremos que fazer uma aproximao Normal
com o auxilio da frmula (3.2.1):
Para r1 = 4 :

z1 =

(2)(8)(21)
4
+ 1 0,5
8 + 21

(2)(8)(21)[(2)(8)(21) 8 21]
(8 + 21) 2 (8 + 21 1)

= 3,864

Para r2 = 6 :

z2 =

(2)(8)(21)
6
+ 1 0,5
8 + 21

(2)(8)(21)[(2)(8)(21) 8 21]
(8 + 21) 2 (8 + 21 1)

= 2,908

Recorrendo Tabela A, calcula-se o valor da probabilidade associada:


Para um z1 3,864 , verificamos que

Para um z 2 2,908 , verificamos que a

a probabilidade

probabilidade

p1 = 0

p 2 = 0,0014

Ambas as probabilidades p1 e p 2 , so inferiores a = 0,01 . Deste modo, conclumos


que os dois grupos de animais diferem significativamente nas suas taxas de aprendizagem
(reaprendizagem).
Caso, alguma das probabilidades fossem superior do que o nvel de significncia este
mtodo no teria efeito.
Vejamos como o SPSS apresentava o resultado:

36

Captulo 3: Caso de duas amostras independentes

Output 3.1.1:

Como podemos constatar, o SPSS indica-nos o nmero mnimo e mximo de


iteraes, calculando para cada um a probabilidade associada. A concluso a tirar seria a
mesma pelo mtodo tradicional.
Como vantagem para o SPSS, o modo rpido como se calcula as probabilidades,
visto que, no mtodo tradicional, em caso de empates, temos que repetir a ordenao e o
clculo de p , podendo provocar maior nmero de erros.

3.2 Teste U de Mann-Whitney


Como no teste de iteraes de Wald-Wolfowitz, o teste de U de Mann-Whitney (1947)
baseado na ideia de que um padro particular, exibido quando X e Y variveis aleatrias esto
numa nica fila postos em ordem crescente, fornece informao sobre a relao entre as suas
populaes. Contudo, em vez de basear-se pelo nmero total de iteraes, o critrio do teste
de Mann-Whitney baseado na magnitude de Ys em relao com os Xs, digamos que a
posio dos Ys numa sequncia ordenada.
O objectivo deste teste comprovar se dois grupos independentes foram ou no
extrados duma populao com a mesma mediana. Para isso, as amostras devem ser
independentes e aleatrias: uma extrada duma populao com mediana no conhecida M 1 e
outra extrada de outra populao com mediana desconhecida M 2 . O nvel de mensurao
tem que ser pelo menos ordinal e as duas populaes devem ter uma distribuio contnua.
A hiptese a comprovar ver se as populaes tm a mesma mediana, sendo a
alternativa, as medianas serem diferentes ou uma maior do que a outra.

37

Captulo 3: Caso de duas amostras independentes

Mtodo:
1. Determinar os valores n1 (=nmero de casos do menor grupo) e n 2 ;
2. Dispor em conjunto os valores dos dois grupos, ordenando-os de forma ascendente;
3. Atribuir postos aos valores, em caso de empate, fazer a mdia dos postos
correspondentes;
4. Para determinar U basta recorrer frmula seguinte:
U = min(U 1 ;U 2 )

Sendo: U 1 = n1 n2 +

(3.2.1)
n1 ( n1 + 1)
R1 e U 2 = n1 n 2 U 1
2

com R1 = soma dos postos atribudos amostra 1;


5. O mtodo para determinar a significncia do valor de depende de n 2 :
i. Se n 2 8 , a tabela J d a probabilidade exacta associada a um valor to
pequeno quanto o valor de U. Para uma prova bilateral basta duplicar o valor
obtido na tabela, Caso o valor de U no constar na tabela, deve ser
interpretado como U ' = n1 n 2 U ;
ii. Se 9 n 2 20 , utilizada a tabela K, que d os valores crticos de U para
nveis de significncia de 0,001, 0,01, 0,025, 0,05 para um teste unilateral,
duplicando estes valores para uma prova bilateral. Caso o valor observado de
U maior do que n1 n 2 /2, deve ser interpretado como U descrito na alnea
anterior;
iii. Se n 2 > 20 , a probabilidade deve ser calculada atravs de uma aproximao
distribuio Normal, atravs do valor de z que nos dado pela frmula:

z=

n1 n2
2
n1 n2 (n1 + n2 + 1)
12
U

(3.2.2)

Caso ocorram empates, em grandes amostras, expresso utilizada ser:

38

Captulo 3: Caso de duas amostras independentes

z=

n1 n 2
2
3

n1 n 2 N N

T
N ( N 1) 12

onde: N = n1 + n 2 e T =

(3.2.3)

t3 t
sendo t o nmero de observaes empatadas para uma dada
12

posio.
Se o valor observado de U tem probabilidade associada no superior a , rejeitar a
hiptese nula.
Exemplo 3.2.1:
Na disciplina de Estatstica Aplicada, onde se encontra inscritos alunos do curso de
Matemtica (ensino de) e Matemtica/Informtica, registaram-se as seguintes classificaes
numa das frequncias:

Tabela 3.2.1:

Mat. (ensino de) 10.5 16.5

11

9.8 17.1 1.5 14.8 9.9 9.8 10.3 8.7

Mat./Informtica 11.4 12.9 10.1 7.9

8.8 12.8

O que se pode concluir acerca das mdias das ordens das classificaes.
Resoluo:
Formulamos as hipteses:
H 0 : No h diferenas entre as mdias das ordens das notas dos alunos de Matemtica

(ensino de) e de Matemtica Informtica


H 1 : H diferenas entre as mdias das ordens (teste bilateral).

Aps a contagem do nmero de casos em ambas as amostras temos:

39

Captulo 3: Caso de duas amostras independentes

n1 = 6 e n 2 = 11

Calculemos U:
Tabela 3.2.2:

1,5 7,9 8,7 8,8 9,8 9,8 9,9 10,1 10,3 10,5 11 11,4 12,8 12,9 14,8 16,5 17,1
E

U 1 = 6 11 +

5,5 5,5

10

11

12

13

14

15

16

17

6 (6 + 1)
(2 + 4 + 8 + 12 + 13 + 14) = 34
2

U 2 = 6 11 34 = 32

U = min( 34;32 ) = 32

Como 9 n 2 20 recorremos tabela J:


Para n1 = 6 , n 2 = 11 e = 0.05 (bilateral),
temos: U tabelado = 13 .
Como U tabelado < U calculado , podemos concluir que as duas amostras provem de
populaes com a mesma mdia.
Vejamos como podemos resolver este exemplo no SPSS:
Aps a introduo dos valores, d-nos o seguinte resultado:

Output 3.2.1:

40

Captulo 3: Caso de duas amostras independentes

claro que existe clara vantagens em utilizar o SPSS. Pois, d um quadro resume que
contm o valor exacto da probabilidade, a probabilidade assimpttica e tambm o valor de U.
Tendo como principal vantagem o pouco tempo gasto para o emprego deste teste.
No Mathematica coma ajuda da funo npmMannWhitneyTest[list1,list2], fica:
MatEnsino = 10.5, 16.5, 11, 9.8, 17.1, 1.5, 14.8, 9.9, 9.8, 10.3, 8.7
MatInformatica = 11.4, 12.9, 10.1, 7.9, 8.8, 12.8
rpmMannWhitneyTest MatEnsino, MatInformatica
Title: Mann- Whitney Test
Sample Medians: 10.75, 10.3
Test Statistic: 32.
Distribution: Normal Approximation
2 - Sided PValue - > 0.919895

Esta funo apenas d um valor aproximado de p.


Podemos concluir que para fazer um teste com maior rigor e rapidez, o SPSS seria a
melhor escolha, pois o SPPS calcula o valor exacto.

3.3 Teste de Moses para reaces extremas


O teste de Moses destina-se especificamente a dados de mensurao mnima na escala
ordinal. Esta prova tem como objectivo ver se as populaes tm a mesma oscilao, isto , o
teste de Moses aplicvel quando previsto que um dos grupos tenha valores altos, e o outro
valores baixos.
A principal vantagem deste teste que no requer que as populaes tenha medianas
iguais. Todavia, Moses (1952b) salienta que um teste baseado em medianas ou em postos
mdios, por exemplo, o teste U de Mann-Whitney, mais eficiente, devendo, por
conseguinte, ser preferido prova de Moses. Esta ltima especialmente til quando existem
razes a priori para esperar que determinada condio experimental conduza a escores
extremos em uma ou em outra direco.
Mtodo:
Os passos a seguir para o teste de Moses so:
Seja n C e n E o nmero de casos de controlo e experimentais respectivamente.
1. Antes de reunir os dados deve-se especificar h . Ser um nmero pequeno arbitrrio;

41

Captulo 3: Caso de duas amostras independentes

2. Reunidos os dados, disp-los em postos em uma nica srie conservando a


identidade do grupo em cada posto;
3. Determinar o valor de s h , mbito ou abrangncia dos postos de controlo, aps
eliminar os h postos mais extremos dos C s em cada extremidade da respectiva
srie, isto ,
s h = C 2 C1 + 1

(3.3.1)

onde, C 2 o posto que corresponde o ltimo grupo de controlo, retirando h valores


de controlo e C1 corresponde ao primeiro posto do grupo de controlo, retirando h
valores de controlo;
4. Determinar o valor de g , excesso do valor observado de s h sobre nC 2h ,ou seja,
g = s h ( nC 2h) ;

5. Determinar a probabilidade associada aos dados observados, calculando o valor de

p pela frmula:
i + nC 2h 2 n E + 2h + 1 i

nE i
i
i =0

p(s h nC 2h + g ) =
n
n
+
C
E

nC
g

(3.3.2)

Em caso de ocorrncia de empates entre grupos, considerar esses empates de todos


os modos possveis e determinar p para cada um deles. A mdia desses ps ento
utilizada para a deciso;
6.

Se p no superar , rejeitar H 0 .
Exemplo 3.3.1:
Num estudo para avaliar o grau de medo, perante ratos, escolheu-se dois grupos de

indivduos. O grupo C, constitudo por 7 indivduos, que trabalha diariamente com ratos e o
grupo E, formado por 6 indivduos, tm dificuldades em controlar o medo, quando esto
prximos de ratos.
Quer o grupo C quer o grupo E estiveram em contacto com ratos durante 10 minutos e o
grau de medo foi medido numa escala de 0 a 20. o grau 20 significa que a pessoa tem pavor a
ratos. Os resultados foram:

42

Captulo 3: Caso de duas amostras independentes

Tabela 3.3.1:
Grupo C

10

12

Grupo E

11

18

19

Ser que as duas amostras provem da mesma populao?


Resoluo:
Formulamos as hipteses:
H 0 : No h diferenas entre o grupo C e o grupo E.
H 1 : H diferenas entre os dois grupos.

Dividimos em dois casos: o da esquerda com h = 0 e o da direita com h = 1.


Dispomos os valores em postos, conservando o grupo:

Tabela 3.3.2:
Posto 1 2 3 4 5 6 7 8 9 10 11 12 13
Grupo E C E C C C C E C E C E E

Tabela 3.3.3:
Posto 1 2 3 4 5 6 7 8 9 10 11 12 13
Grupo E C E C C C C E C E C E E

sh = 9 4 + 1 = 6
s h = 11 2 + 1 = 10
Determinamos o valor de g , com s h = 10 e Determinamos o valor de g , com s h = 6 e
nC = 7 :

nC = 7 :
g = 10 (7 2 0) = 3

g = 6 (7 2 1) = 1

Ento utilizando a frmula 3.3.2:


i + 5 7 i

i = 0 i 6 i
p(s h 10 ) =
13

7
3

= 0,2168

i + 3 9 i

i = 0 i 6 i
p (s h 6 ) =
13

7
1

= 0,1795

Sendo = 0,05 , conclumos que, para qualquer um dos casos, no existe diferenas
entre os grupos C e E, sendo assim, as amostras provem da mesma populao.

43

Captulo 3: Caso de duas amostras independentes

No SPSS, aps a introduo dos valores e escolha do teste, temos o seguinte


resultado:
Output 3.3.1:

Como podemos ver no SPSS, ele calcula a probabilidade associada para um h = 1 (por
ele escolhido) e para um h = 0 , assim no o precisamos de escolher um h no incio do teste.
No Mathematica, o procedimento a utilizar foi o npmMosesTest, este procedimento
aceita como parmetros as duas amostras, sendo a de controlo a primeira, e o h escolhido:
Primeiramente, criamos as duas listas e de seguida corremos o procedimento:
Amostra1 = 6, 5, 10, 7, 12, 3, 8
Amostra2 = 0, 4, 11, 18, 9, 19
rpmMosesTest amostra1, amostra2, 1
h = 1; Sh = 6
Nc = 7; Ne = 6; N = 13
Valor Unilateral de p: 0.179487
Valor Bilateral de p: 0.358974

Como podemos verificar, o Mathematica d-nos os valores de ambas a probabilidades


e as principais variveis do teste. As vantagens deste procedimento so a rapidez e a preciso
dos valores dados.

3.4 Teste da Qui-Quadrado ( 2 ) para duas amostras independentes


O objectivo deste teste de comprovar que dois grupos diferem em relao a
determinada caracterstica e, consequentemente, com respeito frequncia relativa com que
os componentes dos grupos se enquadram nas diversas categorias. Para a comprovao,
contamos o nmero de casos de cada grupo que recai nas diversas categorias, e comparamos a
proporo de casos de um grupo nas diversas categorias, com a proporo de casos do outro
grupo.
A escala de medida pode ser em apenas nominal.

44

Captulo 3: Caso de duas amostras independentes

Mtodo:
Os passos a seguir para o teste so:
1. Enquadrar as frequncias observadas numa tabela de contingncia k r . Utilizando
as k colunas para os grupos e as r linhas para as condies. Assim para este teste,

k = 2;
2. Determinar a frequncia esperada ( Eij ) de cada clula fazendo o produto dos totais
marginais referentes a cada uma e dividindo-o por N. (N o total de casos);
3. Para determinar o valor de 2 h que considerar dois casos:
Se r > 2 a frmula ser:
r
k (O E )2
ij
ij
2
=
E ij
i =1 j =1

(3.4.1)

Oij = nmero de casos observados na categoria i no grupo j


Eij = nmero de casos esperados na categoria i no grupo j sob H
0

k = nmero de grupos na classificao


r = nmero de categorias na classificao;

Se r = 2 ento consideramos a seguinte tabela:


Tabela 3.4.1:

Grupo 1 Grupo 2 Total


Categoria 1
A
B
A+B
Categoria 2
C
D
C+D
Total
A+C
B+D
N
Ento temos a frmula:
2

N AD BC
2

2 =
( A + B)(C + D )( A + C )( B + D)

(3.4.2)

Esta frmula um pouco mais fcil da aplicar do que a frmula (3.4.1), pois
requer apenas uma diviso. Alm disso, tem a principal vantagem de

45

Captulo 3: Caso de duas amostras independentes

incorporar uma correco de continuidade que melhora sensivelmente a


aproximao do 2 ;
4. Determinar a significncia do valor observado de 2 com gl = ( r 1)( k 1) , com o
auxlio da tabela C. Para um teste unilateral basta dividir por dois o nvel de
significncia indicado. Se a probabilidade indicada na tabela for inferior a ,
rejeitar a hiptese nula.
Exemplo 3.4.1:
Um investigador estudou a relao entre os interesses vocacionais e a escolha do
currculo, e a taxa de desistncia do curso universitrio por parte de estudantes bem dotados.
Os indivduos observados eram estudantes classificados no mnimo de 90 pontos
percentuais nos testes de admisso e que haviam resolvido mudar de carreira aps a matrcula.
o pesquisador comparou os estudantes destacados cuja a escolha curricular se manteve na
linha considerada desejvel vista do resultado obtido no Teste Vocacional de Strong (tais
casos sendo considerados como positivos) com os estudantes destacados cuja escolha
curricular se processou em sentido diverso do indicado pelo Teste de interesse. A hiptese do
investigador que os estudantes cuja escolha foi considerada positiva acusam maior
frequncia de permanncia na faculdade ou no curso universitrio inicialmente escolhido. Os
valores so dados na seguinte tabela:

Tabela 3.4.2:

Positivo Negativo Total


Afastamento

10

11

21

Permanncia

46

13

59

Total

56

24

80

Resoluo:
Formulamos as hipteses:
H 0 : No h diferenas entre os dois grupos no que diz respeito proporo dos

estudantes que permanecem na faculdade.

46

Captulo 3: Caso de duas amostras independentes

H 1 : A percentagem de permanncia na faculdade maior que os estudantes cuja a

escolha do currculo foi considerada positiva.


Iremos trabalhar com um nvel de significncia = 0,05 .
Considerando os valores dados pela tabela ficamos com:
2

80

80 (10)(13) (11)(46)
2
2 =
= 5,424
(21)(59)(56)(24)
A
p<

probabilidade

de

ocorrncia,

sob

H0 ,

de

2 5,424

com

gl = 1

1
(0,02) = 0,01 . Como este valor inferior a = 0,05 , a deciso rejeitar H 0 . Conclui2

se, pois, que os estudantes bem dotados cuja escolha de currculo foi considerando positiva
acusam maior frequncia de permanncia na universidade do que os estudantes bem dotados
cuja escolha foi considerada negativa.
No SPSS temos o seguinte Output:

Output 3.4.1:

O SPSS d-nos o valor de 2 , com e sem o factor de correco de continuidade e


calcula o valor assimpttico da probabilidade associada p = 0,009 .
O procedimento para o Mathematica, que ser descrito a seguir, serve s para as
tabelas de contingncia 2 2 . Este procedimento tem a particularidade de ter uma opo para

47

Captulo 3: Caso de duas amostras independentes

a escolha dois tipos de correco de continuidade: o mtodo de Yates (1934) , j considerado


na frmula 3.4.2, e o mtodo de Haber2. Vejamos ento para o exemplo acima considerado:
No caso de no escolhermos o mtodo de correco, o procedimento apenas calcula o
valor de p sem utilizar um dos factores de correco:
rpmChiSquare2x2Test 10, 11, 46, 13
Title: Chi Square Test
Distribution: Chi Square
Correction: None
Two- Sided P- Value: 0.00915693
One- Sided P- Value: 0.00457847

rpmChiSquare2x2Test 10, 11, 46, 13 mthdyates


Title: Chi Square Test
Distribution: Chi Square
Correction: Yates
Two- Sided P- Value: 0.0198649
One- Sided P- Value: 0.00993245

rpmChiSquare2x2Test 10, 11, 46, 13 mthdhaber


Title: Chi Square Test
Distribution: Chi Square
Correction: Haber
Two- Sided P- Value: 0.0125872
One- Sided P- Value: 0.00629361

Qualquer um dos trs casos chega deciso de rejeitar a hiptese nula. Assim
conclumos, que a percentagem de permanncia na faculdade maior que os estudantes cuja a
escolha do currculo foi considerada positiva. Note-se que qualquer dos valores
semelhante.
Sendo assim o Mathematica est em clara vantagem em relao utilizao da tabela
ou mesmo do SPSS.

Considerando

O = min{Oij : i = 1,2, j = 1,2} temos:

Se

Oij 2O ento D = maior mltiplo de 0.5 que < Oij O ou

se

Oij > 2O ento D = Oij O 0.5 o teste estatstico fica:

H2 =

N 3D2
( A + B)(C + D)( A + C )( B + D)

48

Captulo 4: Caso de k amostras relacionadas

CAPTULO 4: CASO DE K
AMOSTRAS RELACIONADAS
O objectivo principal dos testes que iro ser apresentados, comprovar a hiptese de
que as k amostras tenham sido extradas da mesma populao ou de populaes idnticas.
H dois planos bsicos para comprovar k grupos. No primeiro deles, as k amostras de
igual tamanho so postas em correspondncia de acordo com determinado(s) critrio(s) que
pode(m) afectar os valores das observaes. Ou ento cada um dos N grupos pode ser
mensurado sob todas as k condies. Em tais planos, devem-se usar os testes estatsticos aqui
apresentados.

4.1 Teste Q de Cochran


O modelo tpico para o teste Q de Cochran (1950) envolve um conjunto de k 2
tratamentos que so aplicados independentemente para cada N indivduos. Os resultados de
cada tratamento so guardados como uma varivel dicotmica de sucesso e insucesso. Os uns
e zeros (que correspondem ao sucesso e insucesso respectivamente) so dispostos numa tabela
de contingncia.
Deste modo, o teste de Cochran permite investigar quando um conjunto de k propores
relacionadas difere significativamente.
Mtodo:
Os passos a seguir para o teste so:
1. Para dados dicotomizados, atribuir o valor 1 a cada sucesso e o valor 0 a cada
insucesso;
2. Dispor os dados numa tabela k N , com k colunas e N linhas. N = nmero de
casos em cada k grupos.
3. Determinar o valor Q utilizando a frmula:
2
k

k
2
(k 1)k G j G j
j =1
j =1
Q=
N
N
2
k Li Li
i =1

(4.1.1)

i =1

50

Captulo 4: Caso de k amostras relacionadas

onde: G j a soma dos valores das j colunas;


Li a soma dos valores das i linhas.

4. a significncia do valor observado de Q pode ser determinada mediante referncia


tabela C, pois Q tem distribuio aproximadamente Qui-Quadrado com gl = k 1 .

Se a probabilidade associada ocorrncia, sob H 0 , de um valor to grande quanto


um valor observado de Q no supera , rejeita-se a hiptese nula.
Exemplo 4.1.1:
Cada um dos quatro fs de futebol criou um sistema para antever os resultados dos
jogos da 1 liga. Foram escolhidos ao acaso seis jogos, e cada um dos fs anteviu o resultado
de cada jogo. Os resultados dos prognsticos foram dispostos numa tabela, utilizando 1
para um prognstico bem sucedido e 0 para um prognstico falhado. Os resultados so
apresentados na tabela 4.1.1. Queremos testar a hiptese de que cada f tem um sistema de
igual efeito para antever os resultados dos jogos com um nvel de significncia de 5%.

Tabela 4.1.1:

Fs
Jogos

Totais

Totais

14

51

Captulo 4: Caso de k amostras relacionadas

Resoluo:
As hipteses so as seguintes:
H 0 : Cada f tem um sistema de igual efeito para antever os resultados dos jogos de

futebol.
H 1 : Existe diferenas nos efeitos dos sistemas criados pelos fs.

Primeiro dispomos os resultados de novo numa tabela, que ser apenas uma
modificao da tabela 4.1.1:

Tabela 4.1.2:

Fs
Jogos

Li

Li 2

Gj

14

36

Gj2

16

36

62

Ento, aps o clculo dos somatrios temos, com o auxlio da frmula 4.4.1:

Q=

3 4 62 (14)
= 7,8
4 14 36
2

Calculamos agora a significncia do valor observado, com a ajuda da tabela C:


gl = 4 1 = 3

Assim, como 0,02 p 0,05 e = 0,05 , rejeitamos a hiptese, concluindo que existe
diferenas nos efeitos dos sistemas criados pelos fs.

52

Captulo 4: Caso de k amostras relacionadas

No SPSS temos os seguintes resultados:


Output 4.1.1:

Output 4.1.2:

De facto, p est entre 0,01 e 0,05, mas teremos maior certeza de rejeitar a hiptese nula
se activssemos a opo de fazer um teste com maior preciso como consta no Output 4.1.2.
No Mathematica, utilizaremos a funo npmCochransQTest:
resultados = 1, 1, 0, 0 , 1, 1, 1, 0 , 1, 1, 1, 0 , 0, 1, 1, 0 , 0, 1,
0, 0 , 1, 1, 0, 1
rpmCochransQTest resultados , mthdapprox
Title: Cochran Q Test
Test Statistic: 7.8

Column Totals: 4, 6, 3, 1
Distribution: Chi Square
PValue: 0.0503311

rpmCochransQTest resultados , mthdexact


Title: Cochran Q Test
Test Statistic: 7.8

Column Totals: 4, 6, 3, 1
Distribution: Exact
PValue: 0.0481771

Foi introduzida a tabela na lista resultados. Com a opo para approx, obtemos um
valor aproximado de p = 0,053311 , baseado na distribuio da Qui-Quadrado com trs graus
de liberdade, com este valor aceitava-se a hiptese nula o que seria um erro. Porm,
rejeitvamos (com = 0,05) se escolhssemos o mtodo exacto.

53

Captulo 4: Caso de k amostras relacionadas

Para concluir, o Mathematica , de facto, o mais indicado para os clculos, porque dnos os valores com maior preciso, embora os dois resultados originassem respostas
diferentes. Cabe ao investigador escolher.

4.2 Teste de Friedman


Quando os dados de k amostras correspondentes se apresentam pelo menos em escala
ordinal, o teste de Friedman (1937) til para comprovar de que as k amostras tenham sido
extradas da mesma populao.
Mtodo:
Os passos a seguir para o teste so:
1. Dispor os valores numa tabela de dupla entrada com k colunas e N linhas;
2. Atribuir postos de 1 a k aos valores de cada linha;
3. Determinar a soma dos postos da cada coluna: R j ;
4. Calcular o valor de r2 , pela frmula:

2r =

k
12
(R j )2 3N (k + 1)

Nk (k + 1) j =1

(4.2.1)

onde: N o nmero de linhas;


k o nmero de colunas;
R j a soma das ordens na coluna.

5. O mtodo para determinar a probabilidade de ocorrncia sobre a hiptese nula


associado a valor observado de r2 depende dos tamanhos de N e k:
i. A tabela N d-nos as probabilidades exactas associadas a valores to grandes
quanto um r2 observado para k=3 com N de 2 a 9 e para k=4 com N de 2 a 4.
Caso os valores tenham excedidos os valores da tabela N, a probabilidade
associada pode ser determinada mediante referncia distribuio QuiQuadrado (Tabela C) com gl = k 1 ;
6. Se a probabilidade obtida pelo mtodo adequado indicado no item 5 no superar ,
rejeita-se H0.

54

Captulo 4: Caso de k amostras relacionadas

Exemplo 4.2.1:
A fim de avaliar se houve progresso na aprendizagem, um professor reteve as mdias
de um grupo de 4 alunos no final de cada trimestre:
Tabela 4.2.1:

Alunos

1 Trimestre

15

11

2 Trimestre

14

17

13

10

3 Trimestre

15

17

14

12

Considerando um = 0,05 , que concluso poder tirar?

Resoluo:
Hipteses:
H 0 : No houve progresso na aprendizagem ao longo do ano escolar;
H 1 : Houve progresso ao longo do ano escolar.

Atribumos os postos atravs da seguinte tabela e calculamos as somas:

Tabela 4.2.2:

Alunos 1 Trimestre 2 Trimestre

3 Trimestre

2.5

2.5

Rj

8.5

11.5

16

72.25

132.25

Rj

Assim, fica:

N = 4 e k = 3 ento r =
2

12
[16 + 72,25 + 132,25] 3 4 (3 + 1) = 7,125
4 3 4

55

Captulo 4: Caso de k amostras relacionadas

Com o auxlio da Tabela N temos 0,0046 p 0,042 . Assim, com = 0,05 ,


rejeitamos a hiptese nula, concluindo que houve progresso na aprendizagem ao longo do
ano escolar.
No SPSS, chegamos mesma concluso, pois, d-nos um p = 0,022 .

Output 4.2.1:

No Mathematica, d-nos a aproximao Qui-Quadrado, sendo o valor mais preciso


do que o SPSS.
medias = 8, 15, 11, 7, 14, 17, 13, 10, 15, 17, 14, 12
rpmFriedmanTest = medias
Title: Friedman Test
Sample Medians: 12, 13.5, 14.5
Test Statistic: 7.6
Distribution: ChiSquare
PValue: 0.0223708

56

Captulo 5: Caso para k amostras independentes

CAPTULO 5: CASO DE K
AMOSTRAS INDEPENDENTES
Na anlise de dados de pesquisa, o pesquisador frequentemente precisa decidir se
diversas variveis independentes devem ser consideradas como proveniente da mesma
populao. Os valores amostrais quase sempre so um tanto diferentes, e o problema
determinar se as diferenas amostrais observadas sugerem realmente diferenas entre as
populaes ou se so apenas variaes casuais que podem ser esperadas entre amostras
aleatrias da mesma populao.

5.1 Teste de Kruskal-Wallis


O objectivo do teste de Kruskal-Wallis (1952) ver se as diferentes k amostras provem
da mesma populao ou de populaes idnticas em relao s mdias.
O teste supe que a varivel tenha distribuio contnua, e exige mensurao no mnimo
ao nvel ordinal.
Mtodo:
So os seguintes passos a percorrer:
1. Dispor, em postos, as observaes de todos os k grupos numa nica srie,
atribuindo-lhes postos de 1 a N;
2. Determinar o valor de R (soma dos postos) para cada um dos k grupos de postos;
3. Caso no ocorram empates, calcular o valor de H pela seguinte frmula:
2

k R
12
j
H=
3( N + 1)

N ( N + 1) j =1 n j
onde: k = nmero de amostras;

(5.1.1)

n j = nmero de casos na amostra j


N = n j , nmero de casos em todas as amostras combinadas;

R j = soma das ordens na amostra j (colunas).


Se houver empates, atribui-se a cada uma delas a mdia das respectivas ordens. O
valor de H influenciado pelos empates, sendo assim, necessrio introduzir um
factor de correco. Deste modo, para o calculo de H deve-se utilizar a frmula:

57

Captulo 5: Caso para k amostras independentes

H=

k R
12
j
3( N + 1)

N ( N + 1) j =1 n j

(5.1.2)

N3 N
onde: T = t 3 t (sendo o nmero de observaes empatadas num grupo de valores
empatados);
4. O mtodo para determinar a significncia do valor observado de H depende do
tamanho de k e do tamanho dos grupos:
i. Se k = 3 e n1 , n2 , n3 5 , pode-se utilizar a tabela O para determinar a
probabilidade associada, sob H 0 , de um H to grande quanto o observado;
ii. Em outros casos, a significncia de um valor to grande quanto o valor
observado de H pode ser determinado mediante referncia tabela C, com

gl = k 1 ;
5. Se a probabilidade associada ao valor observado de H no superar o nvel de
significncia previamente fixado, rejeitar H 0 em favor de H 1 .
Exemplo 5.1.1:
Em 1996 nas semifinais da corrida de obstculos a cavalo femininos de 400 metros os
tempos foram os seguintes:
Tabela 5.1.1:

Atleta 1

54.88 54.96 55.91 55.99 56.67 57.29

Atleta 2

54.67 54.87 54.95 56.27 58.33 81.99

Atleta 3

55.66 56.46 56.74 57.86 58.90 59.56

Utilize o teste de Kruskal-Wallis, com = 0,05 , para testar se existe diferenas entre as
atletas.
Resoluo:
As hipteses a testar so:
H 0 : No h diferenas entre as atletas;
H 1 : H diferenas entre as atletas.

Dispomos os postos consoante os dados:

58

Captulo 5: Caso para k amostras independentes

Tabela 5.1.2:

54.88

Atleta 1
Posto
Atleta 2
Posto
Atleta 3
Posto

54.96
3

54.67

55.91
5

54.87
1

55.66

7
54.95

2
56.46

55.99
8
56.27
4

56.74
10

56.67
11
58.33
9

57.86
12

57.29
13
81.99
15

58.90
14

18
59.56

16

17

R1 = 47
R2 = 49

R3 = 75

Como no h empates, calculamos H pela frmula 5.1.1:

H=

47 2 49 2 75 2
12
+
+
3(18 + 1) = 2,854

(18)(18 + 1) 6
6
6

A partir da tabela C, observamos que o valor de p est entre 0,3 e 0,2, concluindo, a um
nvel de significncia de 0,05, que no h diferenas entre as atletas.
No SPSS temos o mesmo resultado mas com maior rigor e rapidez, pois sabemos agora
que p = 0,24 :

Output 5.1.1:

No Mathematica o resultado apresenta-se com maior nmero de casas decimais:


rpmKruskalWallisTest tabela
Title: Kruskal Wallis Test
Sample Medians: 55.9, 55.61, 57.3
Test Statistic: 2.8538
Distribution: Chi Square
PValue - > 0.240052

59

Captulo 6: Medidas de Correlao

CAPITULO 6: MEDIDAS DE CORRELAO


6.1 Coeficiente de Correlao por postos de Kendall:
Suponhamos que um nmero de alunos est classificado por postos de acordo com as
suas habilidades em matemtica e em msica. A seguinte tabela mostra os valores de cada
aluno designado por letras:
Tabela 6.1.1:

Aluno:

Matemtica:

10

Msica:

10

Queremos saber se h alguma relao entre a habilidade na matemtica e na msica.


Observando os resultados da tabela anterior, vemos que a concordncia entre eles est longe
de ser perfeita, mas alguns alunos ocupam a mesma ou perto da mesma posio entre as duas
disciplinas. Podemos ver a correspondncia mais facilmente se na tabela for dada uma ordem
natural aos resultados de matemtica:
Tabela 6.1.2:

Aluno:

Matemtica:

10

Msica:

10

O que queremos saber uma medida de correspondncia entre estas duas variveis, ou
medir a intensidade da correlao dos postos. esta medida (que ser um coeficiente que
designamos por ) deve ter as seguintes propriedades:
Se a correspondncia entre os postos for perfeita, por exemplo, se todos os indivduos

tiverem o mesmo posto nas duas disciplinas, deve ser +1, indicando uma correlao
perfeita positiva;
Se houver uma discordncia perfeita, por exemplo, se um dos postos for o inverso do

outro, deve ser 1, indicando uma correlao perfeita negativa;


Se houver um crescimento do valor de entre 1 e 1, ento deve corresponder a um

acrscimo na relao entre as duas variveis.

60

Captulo 6: Medidas de Correlao

Consideremos qualquer par de alunos da tabela 6.1.1, por exemplo, o par AB. Os seus
postos, 7 e 4, ocorrem em ordem inversa (a ordem natural 1,...,10 a ordem directa) e
consequentemente atribumos o valor a este par 1. Se o par estivesse em ordem directa,
deveramos atribuir +1. Na segunda varivel (msica) no par AB os postos esto em ordem
directa, deste modo, atribumos +1.
Agora, multiplicamos os dois valores do par que d (-1)(+1)=-1. evidente que para
cada par os valores seria +1 e 1, que significaria que ambas as variveis estavam (+1) ou no
(-1) iguais em termos de ordem.
O mesmo procedimento feito para todos os 45 pares.
O total de resultados positivos so P = 21 e os negativos so Q = 24 . Adicionando

os dois temos o resultado final S = 3 .


See os postos so idnticos em cada um, e se os 45 valores forem positivos ento o valor
mximo de S 45. Portanto calculamos o valor como:
mximo
Resultado actual
3
=
= 0,07
Resultado mximo possvel
45

O valor prximo de zero indica que existe uma correlao muito pequena entre as duas
variveis.
Consideremos o caso geral. Se tivermos duas variveis com n valores para comparar. O
n 1
nmero de pares para comparar = n(n 1) . Este o nmero mximo de resultados
2 2
possveis. Se S a soma dos resultados obtidos, ento definimos o coeficiente de correlao
como:

2S
n(n 1)

(6.1.1)

Existe um modo prtico de determinar o valor de S (nmero de resultados positivos):


Considerando a tabela 6.1.2. em que a primeira varivel (matemtica) est na ordem
natural, a segunda varivel apresenta a seguinte sequncia:
8 9 3 7 4 1 5 2 6 10
Considerando o primeiro valor, 8, observamos que na direita existe dois valores
maiores. Ento contribui-se para P o valor +2. Tendo em ateno o 9, encontramos, direita,
a contribuio de +1 para P e assim sucessivamente. Assim temos o valor de P que

61

Captulo 6: Medidas de Correlao

P = 2 + 1 + 5 + 1 + 3 + 4 + 2 + 2 + 1 = 21 consequentemente,

n
S = 2 P
2

(6.1.2)

Mtodo:
1. Atribuir postos de 1 a n varivel X. Atribuir tambm varivel Y postos de 1 a n.
Note-se que na tabela 6.1.1 os postos j foram atribudos;
2. Ordenar os n indivduos de maneira que os postos de X se apresentam na ordem
natural. No exemplo acima referido ser a tabela 6.1.2;
3. Observar a ocorrncia dos postos de Y quando os postos de X se acham na ordem
natural. Determinar o valor de S (soma dos resultados de todos os pares) pelo
processo acima descrito;
4. Se no h empates, aplicar a frmula 6.1.1.
Em caso de haver observaes empatadas, atribumos s observaes empatadas a mdia
dos postos que lhe caberiam se no houvesse empate.
O efeito dos empates consiste em modificar o denominador da frmula 6.1.1. Neste
caso temos:
S
=
(6.1.3)
1
1
n(n 1) Tx
n(n 1) T y
2
2
onde: Tx = 12 t (t 1) , t sendo o nmero de observaes empatadas em cada grupo
de empates na varivel X.
Ty =

1
2

t (t 1) , t sendo nmero de observaes empatadas em cada grupo de

empates na varivel Y.
Se os n indivduos constituem uma amostra aleatria de alguma populao, pode-se
comprovar se o valor observado de indica existncia de associao entre as variveis X e Y
na populao. O mtodo depende do tamanho de n:
1. Para n 10. a tabela Q d a probabilidade associada (unilateral) a um valor to
grande quanto um S observado;
2. Para n>10, pode-se calcular o valor de z associado a pela frmula:

62

Captulo 6: Medidas de Correlao

z=

2(n + 5)
9n(n 1)

(6.1.4)

A tabela A d a probabilidade associada a um valor to grande quanto um z observado.


Se o valor de p no superar , H 0 pode ser rejeitada.
Retomando o exemplo da tabela 6.1.1, vejamos o que acontece no SPSS:

Output 6.1.1:

O coeficiente ( ) dado com maior preciso e, claro, com rapidez. O SPSS tambm
d-nos o valor da probabilidade associada, assim podemos comprovar se o coeficiente indica
existncia ou no de associao entre as variveis. Neste caso, p > , sendo ele de 0.05,
podemos concluir que o coeficiente indica existncia de associao.
O Mathematica, com a funo KendallRankCorrelation, d-nos apenas o coeficiente,
mas neste software que consegue-se maior preciso
N KendallRankCorrelation 7, 4, 3, 10, 6, 2, 9, 8, 1, 5, 5, 7, 3, 10,
1, 9, 6, 2, 8, 4
- 0.0666667

63

Captulo 6: Medidas de Correlao

6.2 Coeficiente de Correlao por postos de Spearman: rS


uma medida de associao que exige que ambas as variveis se apresentem em escala
ordinal, de modo que os objectos ou indivduos em estudo possam dispor-se por postos em
duas sries ordenadas.
Consideremos a tabela 6.1.1, vamos subtrair os postos da msica pelos de matemtica e
amostrar os resultados na seguinte tabela:
Tabela 6.2.1:

Aluno:

Matemtica:

10

Msica:

10

di

-3

-7

-7

di 2

25

49

36

49

O somatrio das diferenas d i deve dar zero (serve como ferramenta de verificao),
porque a soma das diferenas de duas quantidades que cada uma delas vai de 1 a 10.
Tambm na tabela mostra o quadrado das diferenas. Denotando o somatrio destas
n

diferenas por

d
i =0

2
i

definimos o coeficiente de Spearman como


n

rs = 1

6 d i

i =0

n3 n
Da qual, aplicada ao exemplo, fica
rS = 1

(6.2.1)

6(4 + 9 + 0 + 0 + 25 + 49 + 9 + 36 + 49 + 1)
= 0,103
10 3 10

Mtodo:
1. Dispor em postos a varivel X, de 1 a n. O mesmo para a varivel Y;
2. Determinar o valor das diferenas de cada indivduo e elev-lo ao quadrado (Como
mostrado na tabela 6.2.1);
3. Calcular rS aplicando a frmula (6.2.1).

64

Captulo 6: Medidas de Correlao

Caso haja empates: Quando a proporo de empates na varivel X ou na varivel Y


grande, deve-se incorporar um factor de correco T =

t3 t
, onde t o nmero de
12

observaes empatadas em determinado posto. Assim, temos a frmula de rs para o caso de


empates:
n

rS =

x2 + y 2 di

x y

n3 n
x = 12 Tx e
2

onde:
em que

(6.2.2)

i =1

x ou y

n3 n
y = 12 Ty
2

o somatrio sobre os vrios valores de T para todos os grupos de

observaes empatadas.
Se os indivduos constituem uma amostra aleatrio de uma populao, pode-se
comprovar se o valor observado de rS indica a existncia de associao entre as variveis X e
Y na populao. O mtodo depende do tamanho de n:

1. Para n de 4 a 30, a tabela P, d os valores crticos de rS para nveis de significncia


0,05 e 0,01 (teste unilateral).
2. Para n 10 , pode-se determinar a significncia de um valor to grande quanto um
rS observado calcula-se o valor de t associado aquele valor, pela frmula:
n2
(6.2.2)
t ( n2)
2
1 rS
Em seguida determina-se a significncia do valor com o auxilio da tabela B.
t = rS

Atravs do SPSS, constatamos o mesmo valor calculado anteriormente:


Output 6.2.1:

65

Captulo 6: Medidas de Correlao

tambm apresentado a significncia do coeficiente que, neste caso, com um = 0,05 ,


podemos concluir que o valor indica a existncia de associao entre as variveis.
No Mathematica apenas fornecido o coeficiente, mas com maior nmero de casas
decimais:
N SpermanRankCorrelation 7, 4, 3, 10, 6, 2, 9, 8, 1, 5, 5, 7, 3, 10,
1, 9, 6, 2, 8, 4
- 0.10303

6.3 Coeficiente de Concordncia de Kendall: W


J conhecemos dois coeficientes ( e rS ) para a determinao da concordncia entre
dois conjuntos de postos. Suponhamos que temos k conjuntos de postos, poderia parecer
razovel determinar os coeficientes entre todos os pares possveis de postos e ento calcular a
mdia entre eles para saber o grau de concordncia das k amostras. Adoptando tal mtodo,
k
teremos que calcular coeficientes de correlao de postos o que seria impraticvel se k
2
tomar valores muito grandes.
O clculo de W muito mais simples:
Mtodo:
1. Se n o nmero de objectos ou indivduos a serem classificados em postos, e k o
nmero de juzes classificadores. Dispor os postos observados numa tabela k n ;
2. Para cada indivduo, ou objecto, determinar R j , soma dos postos atribudos quele
indivduo pelos k juzes;
3. Determinar S pela frmula seguinte:
2

Rj

n
j =1

S = Rj
n
j =1

4. Calcular o valor de W utilizando a frmula:

W =

S
1 2 3
k ( n n)
12

(6.3.1)

(6.3.2)

66

Captulo 6: Medidas de Correlao

Se houver observaes empatadas, atribui-se a elas a mdia dos postos que lhes
caberiam se no houvesse empates. Introduz-se um factor correctivo na frmula.

(t
T=

(6.3.3)
12
onde t o nmero de observaes empatadas em relao a um dado posto e ser a soma

de todos os grupos de empates dentro de qualquer um dos k conjuntos de postos.


Com a correco para empates incorporada, o coeficiente de concordncia de Kendall
S

W =

(6.3.4)
1 2 3
k ( n n) k T
12
T
onde T o somatrio sobre todos os valores de T para todos os k conjuntos de postos.
T

Podemos comprovar a significncia de qualquer valor observado de W determinando a


probabilidade associada ocorrncia, sob H 0 , de um valor to grande quanto o S a que est
associado. A determinao da probabilidade depende de n:
1. Se n 7 , a tabela R d os valores crticos de S associado com os Ws significativos
aos nveis 0.05 e 0.01;
2. Se n > 7 , podemos utilizar a frmula:

2 =

(6.3.5)
com gl = n 1
1
kn(n + 1)
12
Se o valor do 2 igual ou superior ao valor exibido na tabela C para um dado nvel
de significncia e com n-1 graus de liberdade, ento H 0 (de que no h relacionamento entre
os k conjuntos de postos) pode ser rejeitada.
Exemplo 6.3.1:
Sete empresas foram avaliadas em trs critrios (P - Produtividade, Q - Qualidade do
servio e M Motivao dos colaboradores) para anlise das suas performances no mercado
onde esto inseridas. A tabela seguinte apresenta os resultados obtidos:

67

Captulo 6: Medidas de Correlao

Tabela 6.3.1:

Empresa
Critrios
P

65

52

80

48

92

77

68

58

45

76

58

88

88

55

70

56

83

61

75

70

70

Calcular o coeficiente de concordncia de Kendall.


Resoluo:
Primeiramente atribumos os postos em cada critrio e de seguida calculamos a soma
dos postos por empresa:

Tabela 6.3.2:

Empresa
Critrios
P

3.5

3.5

6.5

6.5

Rj

10,5

18

6,5 19,5 15,5

10

A mdia das somas dos postos de cada empresa calculada de seguida:


7

R
j =1

10,5 + 4 + 18 + 6,5 + 19,5 + 15,5 + 10 84


=
= 12
7
7

Portanto o valor de S
S = (10,5 12) 2 + (4 12) 2 + (18 12) 2 + (6,5 12) 2 + (19,5 12) 2 + (15,5 12) 2 +
+ (10 12) 2 = 205
De seguida calculamos os valores para os empates:
Sendo TQ =

(2 3 2) + (2 3 2)
(33 3)
= 1 e TM =
= 2 ento
12
12

T = 1 + 2 = 3
T

Logo, obtemos o coeficiente pela frmula 6.3.4:

68

Captulo 6: Medidas de Correlao

W=

205
1
(3) 2 (7 3 7) 3(3)
12

= 0.844

Conclumos, assim, que existe uma forte correlao entre as diversas empresas.
No SPSS, era muito mais fcil, pois, no teramos que efectuar muitos clculos com a
vantagem de no haver erros desnecessrios.

Output 6.3.1:

Atravs do Output podemos concluir, alm da j mencionada correlao, que esta


medida significante para medir o grau de correlao entre as 7 amostras.

69

Concluso

CONCLUSO
Aps esta explanao, dos vrios mtodos para a estatstica no paramtrica, com abordagem
de dois softwares de aplicao nos vrios mtodos, podemos tirar vrias concluses.
Estas concluses so apresentadas de seguida em formato de quadro resumo. Cada quadro ir
conter os diferentes mtodos nas linhas e os mtodos de resoluo, quer do mtodo tradicional
(Tabelas), quer a utilizao do computador, nas colunas. O quadro ir conter as principais
caractersticas para cada mtodo em particular.
Quadro 1: Caso de uma amostra

Processo de
Resoluo:

Tabelas

Teste da Binomial

Nem sempre
possvel determinar
o valor exacto de p;
Apenas para
pequenas amostras;
Recorre-se tabela
A.

Qui-Quadrado
para uma
amostra

KolmogorovSmirnov para
uma amostra

Iteraes para
uma amostra

No calculamos o
valor de p, apenas
temos um intervalo;
Utiliza-se a tabela C.
No calculamos o
valor de p, apenas
temos um intervalo;
Utiliza-se a tabela
E;
No calculamos o
valor de p, apenas
temos um intervalo
das iteraes;
Utiliza-se a tabela
F.

SPSS

Mathematica

Valor de p com
preciso e rapidez
Fornece dados em
relao amostra.

Pode-se utilizar
para grandes
amostras;
O valor de p
apresentado com
maior n. de casas
decimais.

Calcula um valor
assimpttico;
D-nos algumas
informaes do teste
(ex.: valor esperado,
graus de liberdade).
D-nos a dimenso
da amostra, as
diferenas mximas;
Calcula o valor de p
assimpttico.
D-nos o valor de r,
e da probabilidade
assimpttica.

D o valor de p
com exactido.

No foi possvel
conseguir um
procedimento que
fizesse o teste.
Aps a converso
para zeros e uns,
calcula a
probabilidade e o
nmero de iteraes.

70

Concluso

Quadro 2: Caso de duas amostras relacionadas

Processo de
Resoluo:

Tabelas

Teste dos sinais

Nem sempre
possvel determinar
o valor exacto de p;
S para dimenses
menores que 25;
Recorre-se tabela
D.

Teste de
McNemar

Teste de
Wilcoxon

empregue a
frmula 2.2.1 que
d-nos o resultado
que, posteriormente,
comparado com
valores da tabela C;
No temos o clculo
de p.
No calculamos o
valor de p, apenas
comparamos o valor
de T calculado com
os tabelados na
tabela G;

SPSS
Utiliza a
distribuio Binomial
para o clculo da
probabilidade
Fornece dados em
relao ao teste:
empates, sinais
positivos e negativos.
Calcula um valor
assimpttico,
utilizando a
distribuio Binomial.

O clculo do valor
assimpttico de p
baseado nos nmeros
negativos.

Mathematica
Utiliza tambm a
distribuio binomial
para o clculo de p;
O valor de p o mais
preciso com maior
n. de casas decimais.
O calculo de p
feito atravs de
procedimento
npmBinomialPValue
[], o mesmo da
Binomial.

No foi possvel
conseguir um
procedimento.

71

Concluso

Quadro 3: Caso de duas amostras independentes

Processo de Resoluo:

Teste de WaldWolfowitz

Teste U de
Mann-Whitney

Tabelas
Recorre-se tabela
F, caso as dimenses
no superar 20, neste
caso no se calcula o
valor da
probabilidade,
apenas compara-se o
nmero de iteraes.
Caso contrrio,
recorre-se tabela
A.
Calculamos o valor
de U recorrendo
frmula 3.2.1, que,
posteriormente,
comparado com os
valores apresentados
na tabela K e J.

Teste de Moses para


reaces extremas

No preciso tabelas,
apenas recorre-se
frmula 3.3.2 para o
clculo de p;

Qui-Quadrado duas
amostras
independentes

No calculamos o
valor de p, apenas
temos um intervalo;
Utiliza-se a tabela C.

SPSS

Mathematica

Fornece o nmero
mnimo de iteraes e
o nmero mximo,
calculando para cada
um deles a
probabilidade
associada.

No foi possvel
conseguir um
procedimento que
fizesse o teste.

Calcula o valor de
U e o valor de p, quer
assimpttico, quer
exacto.

Calcula o valor
aproximado da
probabilidade com
maior nmero de
casas decimais.

D-nos a dimenso
da amostra, as
diferenas mximas;
Calcula o valor de p
assimpttico.
Calcula o valor
aproximado da
probabilidade
associada.

O processo o
mesmo do manual,
mas com a vantagem
de no haver erros;
Mais rpido.
Calcula o valor de
p de trs modos:
1. Sem correco;
2. Correco de
Yates;
3. Correco de
Haber.
Mas, s para tabela
2x2.

72

Concluso

Quadro 4: Caso de k amostras

Processo de
Resoluo:
Teste Q de Cochran
(Amostras
relacionadas)
Teste Friedman
(Amostras
relacionadas)

Teste de KruskalWallis
(Amostras
independentes)

Tabelas
Recorre-se tabela
C, para o clculo da
probabilidade de
ocorrncia de Q.
Calculamos um
intervalo para a
probabilidade com o
auxlio da tabela N.
Recorre-se
Tabela O para o
clculo da
probabilidade;
as amostras s
podem ser no
mximo dimenso
no superior a cinco.

SPSS

Mathematica

Podemos escolher
entre um teste exacto e Igual ao SPSS, mas
um teste assimpttico;
com maior preciso.
Calcula o valor de Q
Calcula o valor de p
Do mesmo modo
recorrendo Quique o SPSS, mas
Quadrado com k-1
com maior preciso.
graus de liberdade.
Calcula um valor
aproximado da
probabilidade,
recorrendo QuiQuadrado com k-1
graus de liberdade.

Igual ao SPSS, mas


com maior rigor.

SPSS

Mathematica

Quadro 5: Medidas de Correlao

Processo de
Resoluo:
Coeficiente de
correlao por postos
de Kendall:

Coeficiente de
correlao por postos
de Spearman ( rS )

Coeficiente de
concordncia de
Kendall (W)

Tabelas

Recorre-se tabela
O, estando limitado a Calcula o coeficiente e
dimenses no
tambm a
superiores a 10;
probabilidade
associada sob a
Para o clculo do
hiptese nula.
coeficiente pode
haver erro.
Calcula o
Recorre-se tabela P
coeficiente, como
para os valores
tambm a sua
crticos de rS .
probabilidade
associada.
Calcula o
Fcil cometer erros
coeficiente e a
probabilidade
no calculo do
associada;
coeficiente,
principalmente em
Apresenta a mdia
caso de empate.
dos postos para cada
amostra;

Apenas d o
coeficiente;
O coeficiente
apresentado com
maior nmero de
casas decimais.
Apenas d o
coeficiente.

No foi possvel
apresentar um
procedimento que
calcula-se o
coeficiente.

Se observarmos atentamente este resume, compreendemos que as tabelas esto inadequadas


para amostras de grandes dimenses, a melhor soluo para este problema ser recorrer ao
computador.

73

Concluso

O SPSS mais fcil de trabalhar, pois apresenta um ambiente de fcil utilizao, tornandose uma ferramenta popular. O output de cada teste tem a vantagem de poder ser
formatado ao gosto do utilizador. Este trabalho desenvolvido, apenas uma nfima parte do
que o SPSS pode fazer no campo da Estatstica.
O Mathematica uma ferramenta preciosa na Matemtica e em particular para a Estatstica
No Paramtrica, pois poder-se- desenvolver funo para testar hipteses utilizando os
diferentes mtodos da Estatstica.
Os procedimentos, aqui utilizados, apresentam resultados com mais preciso do que o
SPSS, podendo escolher o nmero de casas decimais com a funo N[]. A programao
destes procedimentos encontra-se em anexo.

74

Bibliografia

BIBLIOGRAFIA

Gibbons, Jean Dickinson e Chakraborti, Subhabrata, (1991) Nonparametric Statistical


Inference, Third Edition, Dekker, Estados Unidos da Amrica;

Siegel, Sidney, (1975) Estatstica


comportamento, McGraw-Hill, Brasil;

Daniel, W. W., Applied Nonparametric Statistic, Second Edition, PWS-Kent, Estados


Unidos da Amrica;

Wonnacott, Thomas H. e Wonnacott, Ronald J., Introductory Statistic, Fifth Edition;

Kendall, Maurice e Gibbons, Jean Dickinson, (1990) Rank Correlation Methods, Fifth
Edition, Oxford University Press, Estados Unidos da Amrica;

Kotz, Samuel e Johnson, Norman L., (1982) Encyclopedia of Statistical Sciences,


Volume 2, Wiley-Interscience, Estados Unidos da Amrica;

Mello, F. Galvo de Mello, Probabilidades e Estatstica conceitos e mtodos


fundamentais, volume I e II, Escobar Editora;

Abell, Martha L., Braselton, James P. e Rafter, John A., (1999) Statistic with
Mathematica, Academic Press, Estados Unidos da Amrica;

Sernadas, A. e Sernadas C., (1996) Programao em Mathematica, Seco de Cincias


da Computao, Departamento de Matemtica IST, Lisboa;

Carmo, Jos, (1998) Introduo Programao em Mathematica, Seco de Cincias


da Computao, Departamento de Matemtica IST, Lisboa.

No-Parametrica

para

as

cincias

do

75

Bibliografia

ANEXOS

Estatstica
No Paramtrica
Testes de Hipteses e Medidas de Associao

75

Anexo 0

Anexo 0
No SPSS preciso pesar os dados para que se possa aplicar alguns dos mtodos. Estes
so:
Teste da Qui-Quadrado, quer para uma amostra, quer para duas amostras independentes,
Teste de Kolmogorov-Smirnov;
Teste de McNemar.

Para pesar os dados preciso realizar os seguintes passos:

76

Anexo I: Caso de uma amostra

Anexo I: Caso de uma amostra


I.1 Teste da Binomial:
SPSS

Mathematica
OffGeneralspell1;
<< Statistics`DiscreteDistributions`

upperPSum p0, s :=Modulek


bdistBinominalDistribution
upboundPDFbdists
onetai = CDFbdists
twotai=onetai
k=n;
whileAndPDFbdist k <= upbounds <> s
twotai=ltwora+PDFbdist; k=k-1;
twotai=Mintwotai;
onetai, twotail;

77

Anexo I: Caso de uma amostra

lowerPSum, p0, s :=Modulek,


bdist=BinomialDistribution, p0;
upboundPDFbdist;
onetai=l1-CDFbdists;
twotai=lonetai1;
k=0;
whilePDFbdistk <= upbound,
twotai=ltwotai+PDFbdistk; k=k+1;
Mintwotai, l1;
onetai, ltwotail

npmBinomial PValue0, s := Modulebdist, pval, spHat,


bdist=binomialDistribution p0;
pHat=s n;
If pHat <= p0, pvals upperPSum, p0, s;
If pHat <= p0, pvals lowerPSum p0, s;
Print OneSidedPValue -> , pvals1;
Print TwoSidedPValue -> , pvals2

I.2 Teste da Qui-quadrado ( ) de uma amostra


2

SPSS

78

Anexo I: Caso de uma amostra

Mathematica

<<Statistics ContinuousDistributions,
QuiQuadrada1Amostra
Function Amostra;
Modulei, Ei,
i=1;
x=0;
Ei=NSumAmostraj, j, 1, LengtAmostra
LengtAmostra
Whilei <= LengtAmostra
x=x+Amostrai-Ei^2 Ei;
i = i+1
gl = LengtAmostra1;
Print PValue, 1-CDFChiSquareDistribution gl, x

I.3 Teste de Kolmogorov-Smirnov para uma amostra


SPSS

79

Anexo I: Caso de uma amostra

I.4 Teste de iteraes de uma amostra


SPSS

Mathematica

OffGeneral spell1;
<< Statistics`NormalDistribution`
<< Statistics`DataManipulation`

dropValxs := If x!=medAppendTo newListx


fy, m0 :=Module,
If y < m0, 0, 1
findFirstOne dlist := Module,
k=1;
while listk != 1, k=k+1
findFirstZero k:=Module,
k=1;
While listk !=0, k=k+1;

80

Anexo II: Caso de duas amostras relacionadas

Anexo II: Caso duas amostras relacionadas


A seguir introduo dos dados qualquer um dos testes deste anexo tem o seguinte passo:
Passo (*):

81

Anexo II: Caso de duas amostras relacionadas

II.1 Teste dos Sinais


SPSS

Passo (*)

Mathematica
OffGeneralspell1;
<< Statistics`DiscreteDistributions`

Option spmSignTestFrequencies sided -> 2

82

Anexo II: Caso de duas amostras relacionadas

Clean spmSignTestFrequencies
npmSignTestFrequencies f1, f2, opts := Modules, n, tail,
s=f1;
n=f1+f2;
tail=sided opts
Option spmSignTestFrequencies
If s <= n 2,
pval = N CDFBinomialDistribution 1, 2, s,
pval = 1-N CDFBinomialDistribution 1, 2, s;
Iftail == 2, pval = 2*pval;
Print TitleSignTest;
Print Distribution BinominalDistribution, n, , 1 2 ;
Print tail sided p-value -> , pval;

II.2 Teste dos McNemar


SPSS

Passo (*)

83

Anexo II: Caso de duas amostras relacionadas

II.3 Teste de Wilcoxon


SPSS

Passo (*)

84

Anexo III: Caso de duas amostras independentes

Anexo III: Caso de duas amostras independentes


A seguir introduo dos dados qualquer um dos testes (excepto o teste da QuiQuadrado) do Anexo III tem o seguinte Passo:
Passo (**):

85

Anexo III: Caso de duas amostras independentes

III.1 Teste de Wald-Wolfowitz


SPSS

Passo (**)
Na pgina seguinte:

86

Anexo III: Caso de duas amostras independentes

III.2 Teste de U de Mann-Whitney


SPSS

Passo (**)
Na pgina seguinte:

87

Anexo III: Caso de duas amostras independentes

III.3 Teste de Moses para reaces extremas


SPSS

Passo (**)

88

Anexo III: Caso de duas amostras independentes

III.4 Teste da Qui-quadrado ( 2 ) para duas amostras independentes


SPSS

89

Anexo III: Caso de duas amostras independentes

90

Anexo IV: Caso de k amostras relacionadas

Anexos IV: Caso de k amostras relacionadas


Aps a introduo dos dados, feito o seguinte passo, comum a todos:
Passo (***):

91

Anexo IV: Caso de k amostras relacionadas

IV.1 Teste de Q de Cochran


SPSS

Passo (***)

IV.2 Teste de Friedman


SPSS

Passo (***)

92

Anexo IV: Caso de k amostras relacionadas

93

Anexo V: Caso de k amostras independentes

Anexo V: Caso de k amostras independentes


V.1 Teste de Kruskal-Wallis
SPSS

94

Anexo VI: Medidas de Correlao

Anexo VI: Medidas de Correlao.


As medidas de correlao esto por defeito no Mathematica portanto neste
anexo s apresento os passos para o SPSS:

VI.1 Coeficiente de correlao por postos de Kendall:

95

Anexo VI: Medidas de Correlao

VI.2 Coeficiente de correlao por postos de Spearman: rS

96

Anexo VI: Medidas de Correlao

VI.3 Coeficiente de concordncia de Kendall: W

97

TABELAS

Estatstica
No Paramtrica
Testes de Hipteses e Medidas de Associao

75

Tabelas

Tabela A
Probabilidades associadas a valores to extremos quanto os valores observados de z na Distribuio Normal
O corpo da tabela d as probabilidades unilaterais de z sob H0. A coluna da margem esquerda d os valores de z
com uma dcima, e a linha superior d os valores com duas dcimas. Assim, por exemplo, a probabilidade
unilateral p de z 0,11 ou 0,11 p = 0,4562

z
0,0
0,1
0,2
0,3
0,4

0,00
0,5000
0,4602
0,4207
0,3821
0,3446

0,01
0,4960
0,4562
0,4168
0,3783
0,3409

0,02
0,4920
0,4522
0,4129
0,3745
0,3372

0,03
0,4880
0,4483
0,4090
0,3707
0,3336

0,04
0,4840
0,4443
0,4052
0,3669
0,3300

0,05
0,4801
0,4404
0,4013
0,3632
0,3264

0,06
0,4761
0,4364
0,3974
0,3594
0,3228

0,07
0,4721
0,4325
0,3936
0,3557
0,3192

0,08
0,4681
0,4286
0,3897
0,3520
0,3156

0,09
0,4641
0,4247
0,3859
0,3483
0,3121

0,5
0,6
0,7
0,8
0,9

0,3085
0,2743
0,2420
0,2119
0,1841

0,3050
0,2709
0,2389
0,2090
0,1814

0,3015
0,2676
0,2358
0,2061
0,1788

0,2981
0,2643
0,2327
0,2033
0,1762

0,2946
0,2611
0,2296
0,2005
0,1736

0,2912
0,2578
0,2266
0,1977
0,1711

0,2877
0,2546
0,2236
0,1949
0,1685

0,2843
0,2514
0,2206
0,1922
0,1660

0,2810
0,2483
0,2177
0,1894
0,1635

0,2776
0,2451
0,2148
0,1867
0,1611

1,0
1,1
1,2
1,3
1,4

0,1587
0,1357
0,1151
0,0968
0,0808

0,1562
0,1335
0,1131
0,0951
0,0793

0,1539
0,1314
0,1112
0,0934
0,0778

0,1515
0,1292
0,1093
0,0918
0,0764

0,1492
0,1271
0,1075
0,0901
0,0749

0,1469
0,1251
0,1056
0,0885
0,0735

0,1446
0,1230
0,1038
0,0869
0,0721

0,1423
0,1210
0,1020
0,0853
0,0708

0,1401
0,1190
0,1003
0,0838
0,0694

0,1379
0,1170
0,0985
0,0823
0,0681

1,5
1,6
1,7
1,8
1,9

0,0668
0,0548
0,0446
0,0359
0,0287

0,0655
0,0537
0,0436
0,0351
0,0281

0,0643
0,0526
0,0427
0,0344
0,0274

0,0630
0,0516
0,0418
0,0336
0,0268

0,0618
0,0505
0,0409
0,0329
0,0262

0,0606
0,0495
0,0401
0,0322
0,0256

0,0594
0,0485
0,0392
0,0314
0,0250

0,0582
0,0475
0,0384
0,0307
0,0244

0,0571
0,0465
0,0375
0,0301
0,0239

0,0559
0,0455
0,0367
0,0294
0,0233

2,0
2,1
2,2
2,3
2,4

0,0228
0,0179
0,0139
0,0107
0,0082

0,0222
0,0174
0,0136
0,0104
0,0080

0,0217
0,0170
0,0132
0,0102
0,0078

0,0212
0,0166
0,0129
0,0099
0,0075

0,0207
0,0162
0,0125
0,0096
0,0073

0,0202
0,0158
0,0122
0,0094
0,0071

0,0197
0,0154
0,0119
0,0091
0,0069

0,0192
0,0150
0,0116
0,0089
0,0068

0,0188
0,0146
0,0113
0,0087
0,0066

0,0183
0,0143
0,0110
0,0084
0,0064

2,5
2,6
2,7
2,8
2,9

0,0062
0,0047
0,0035
0,0026
0,0019

0,0060
0,0045
0,0034
0,0025
0,0018

0,0059
0,0044
0,0033
0,0024
0,0018

0,0057
0,0043
0,0032
0,0023
0,0017

0,0055
0,0041
0,0031
0,0023
0,0016

0,0054
0,0040
0,0030
0,0022
0,0016

0,0052
0,0039
0,0029
0,0021
0,0015

0,0051
0,0038
0,0028
0,0021
0,0015

0,0049
0,0037
0,0027
0,0020
0,0014

0,0048
0,0036
0,0026
0,0019
0,0014

3,0
3,1
3,2
3,3
3,4

0,0013
0,0010
0,0007
0,0005
0,0003

0,0013
0,0009

0,0013
0,0009

0,0012
0,0009

0,0012
0,0008

0,0011
0,0008

0,0011
0,0008

0,0011
0,0008

0,0010
0,0007

0,0010
0,0007

3,5
3,6
3,7
3,8
3,9

0,00023
0,00016
0,00011
0,00007
0,00005

4,0

0,00003

76

Tabelas

Tabela B
Valores crticos de t.

0,2

Nvel de significncia para o teste unilateral


0,05
0,025
0,01
0,005
Nvel de significncia para o teste bilateral
0,1
0,05
0,02
0,01

1
2
3
4
5

3,078
1,886
1,638
1,533
1,476

6,314
2,920
2,353
2,132
2,015

12,706
4,303
3,182
2,776
2,571

31,821
6,965
4,541
3,747
3,365

63,656
9,925
5,841
4,604
4,032

636,578
31,600
12,924
8,610
6,869

6
7
8
9
10

1,440
1,415
1,397
1,383
1,372

1,943
1,895
1,860
1,833
1,812

2,447
2,365
2,306
2,262
2,228

3,143
2,998
2,896
2,821
2,764

3,707
3,499
3,355
3,250
3,169

5,959
5,408
5,041
4,781
4,587

11
12
13
14
15

1,363
1,356
1,350
1,345
1,341

1,796
1,782
1,771
1,761
1,753

2,201
2,179
2,160
2,145
2,131

2,718
2,681
2,650
2,624
2,602

3,106
3,055
3,012
2,977
2,947

4,437
4,318
4,221
4,140
4,073

16
17
18
19
20

1,337
1,333
1,330
1,328
1,325

1,746
1,740
1,734
1,729
1,725

2,120
2,110
2,101
2,093
2,086

2,583
2,567
2,552
2,539
2,528

2,921
2,898
2,878
2,861
2,845

4,015
3,965
3,922
3,883
3,850

21
22
23
24
25

1,323
1,321
1,319
1,318
1,316

1,721
1,717
1,714
1,711
1,708

2,080
2,074
2,069
2,064
2,060

2,518
2,508
2,500
2,492
2,485

2,831
2,819
2,807
2,797
2,787

3,819
3,792
3,768
3,745
3,725

26
27
28
29
30

1,315
1,314
1,313
1,311
1,310

1,706
1,703
1,701
1,699
1,697

2,056
2,052
2,048
2,045
2,042

2,479
2,473
2,467
2,462
2,457

2,779
2,771
2,763
2,756
2,750

3,707
3,689
3,674
3,660
3,646

40
60
120

1,303
1,296
1,289
1,282

1,684
1,671
1,658
1,645

2,021
2,000
1,980
1,960

2,423
2,390
2,358
2,326

2,704
2,660
2,617
2,576

3,551
3,460
3,373
3,290

gl

0,1

0,0005
0,001

77

Tabelas

Tabela C
Valores crticos de Qui-Quadrado

Probabilidade, sob H 0 , de 2 qui-quadrado

gl
0,99

1
2
3
4
5

0,98

0,95

0,90

0,80

0,70

0,50

0,30

0,20

0,10

0,05

0,02

0,01

0,001

0,00016
0,02
0,11
0,30
0,55

0,00063
0,04
0,18
0,43
0,75

0,0039
0,10
0,35
0,71
1,15

0,016
0,21
0,58
1,06
1,61

0,064
0,45
1,01
1,65
2,34

0,15
0,71
1,42
2,19
3,00

0,45
1,39
2,37
3,36
4,35

1,07
2,41
3,66
4,88
6,06

1,64
3,22
4,64
5,99
7,29

2,71
4,61
6,25
7,78
9,24

3,84
5,99
7,81
9,49
11,07

5,41
7,82
9,84
11,67
13,39

6,63
9,21
11,34
13,28
15,09

10,83
13,82
16,27
18,47
20,51

6
7
8
9
10

0,87
1,24
1,65
2,09
2,56

1,13
1,56
2,03
2,53
3,06

1,64
2,17
2,73
3,33
3,94

2,20
2,83
3,49
4,17
4,87

3,07
3,82
4,59
5,38
6,18

3,83
4,67
5,53
6,39
7,27

5,35
6,35
7,34
8,34
9,34

7,23
8,38
9,52
10,66
11,78

8,56
9,80
11,03
12,24
13,44

10,64
12,02
13,36
14,68
15,99

12,59
14,07
15,51
16,92
18,31

15,03
16,62
18,17
19,68
21,16

16,81
18,48
20,09
21,67
23,21

22,46
24,32
26,12
27,88
29,59

11
12
13
14
15

3,05
3,57
4,11
4,66
5,23

3,61
4,18
4,77
5,37
5,98

4,57
5,23
5,89
6,57
7,26

5,58
6,30
7,04
7,79
8,55

6,99
7,81
8,63
9,47
10,31

8,15
9,03
9,93
10,82
11,72

10,34
11,34
12,34
13,34
14,34

12,90
14,01
15,12
16,22
17,32

14,63
15,81
16,98
18,15
19,31

17,28
18,55
19,81
21,06
22,31

19,68
21,03
22,36
23,68
25,00

22,62
24,05
25,47
26,87
28,26

24,73
26,22
27,69
29,14
30,58

31,26
32,91
34,53
36,12
37,70

16
17
18
19
20

5,81
6,41
7,01
7,63
8,26

6,61
7,25
7,91
8,57
9,24

7,96
8,67
9,39
10,12
10,85

9,31
10,09
10,86
11,65
12,44

11,15
12,00
12,86
13,72
14,58

12,62
13,53
14,44
15,35
16,27

15,34
16,34
17,34
18,34
19,34

18,42
19,51
20,60
21,69
22,77

20,47
21,61
22,76
23,90
25,04

23,54
24,77
25,99
27,20
28,41

26,30
27,59
28,87
30,14
31,41

29,63
31,00
32,35
33,69
35,02

32,00
33,41
34,81
36,19
37,57

39,25
40,79
42,31
43,82
45,31

21
22
23
24
25

8,90
9,54
10,20
10,86
11,52

9,91
10,60
11,29
11,99
12,70

11,59
12,34
13,09
13,85
14,61

13,24
14,04
14,85
15,66
16,47

15,44
16,31
17,19
18,06
18,94

17,18
18,10
19,02
19,94
20,87

20,34
21,34
22,34
23,34
24,34

23,86
24,94
26,02
27,10
28,17

26,17
27,30
28,43
29,55
30,68

29,62
30,81
32,01
33,20
34,38

32,67
33,92
35,17
36,42
37,65

36,34
37,66
38,97
40,27
41,57

38,93
40,29
41,64
42,98
44,31

46,80
48,27
49,73
51,18
52,62

26
27
28
29
30

12,20
12,88
13,56
14,26
14,95

13,41
14,13
14,85
15,57
16,31

15,38
16,15
16,93
17,71
18,49

17,29
18,11
18,94
19,77
20,60

19,82
20,70
21,59
22,48
23,36

21,79
22,72
23,65
24,58
25,51

25,34
26,34
27,34
28,34
29,34

29,25
30,32
31,39
32,46
33,53

31,79
32,91
34,03
35,14
36,25

35,56
36,74
37,92
39,09
40,26

38,89
40,11
41,34
42,56
43,77

42,86
44,14
45,42
46,69
47,96

45,64
46,96
48,28
49,59
50,89

54,05
55,48
56,89
58,30
59,70

78

Tabelas

Tabela D
Probabilidades associadas a valores to pequenas quanto os valores observados de x no Teste Binomial.
O corpo da tabela d as probabilidades unilaterais de z, sob H 0 , do teste binomial, quando P = Q = .
Omitiram-se as vrgulas decimais nos ps.
x
0

10

11

12

13

14

15

031
016
008
004
002
001

188
109
062
035
020
011
006
003
002
001

500
344
227
145
090
055
033
019
011
006
004
002
001
001

812
656
500
363
254
172
113
073
046
029
018
011
006
004
002
001
001

969
891
773
637
500
377
274
194
133
090
059
038
025
015
010
006
004
002
001
001

*
984
938
855
746
623
500
387
291
212
151
105
072
048
032
021
013
008
005
003
002

*
992
965
910
828
726
613
500
395
304
227
166
119
084
058
039
026
017
011
007

*
996
980
945
887
806
709
605
500
402
315
240
180
132
095
067
047
032
022

*
998
989
967
927
867
788
696
598
500
407
324
252
192
143
105
076
054

*
999
994
981
954
910
849
773
685
593
500
412
332
262
202
154
115

*
*
997
989
971
941
895
834
760
676
588
500
416
339
271
212

*
*
998
994
982
962
928
881
820
748
668
584
500
419
345

*
*
999
996
989
975
952
916
868
808
738
661
581
500

*
*
*
998
994
985
968
942
905
857
798
729
655

*
*
*
999
996
990
979
961
933
895
846
788

*
*
*
999
998
994
987
974
953
924
885

N
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25

* 1,0 ou aproximadamente 1,0

79

Tabelas

Probabilidades associadas a valores to pequenas quanto os valores observados de x no Teste Binomial.


O corpo da tabela d as probabilidades unilaterais de z, sob H 0 , do teste binomial, quando P = Q = .
Omitiram-se as vrgulas decimais nos ps.
x
0

10

11

12

13

14

15

031
016
008
004
002
001

188
109
062
035
020
011
006
003
002
001

500
344
227
145
090
055
033
019
011
006
004
002
001
001

812
656
500
363
254
172
113
073
046
029
018
011
006
004
002
001
001

969
891
773
637
500
377
274
194
133
090
059
038
025
015
010
006
004
002
001
001

*
984
938
855
746
623
500
387
291
212
151
105
072
048
032
021
013
008
005
003
002

*
992
965
910
828
726
613
500
395
304
227
166
119
084
058
039
026
017
011
007

*
996
980
945
887
806
709
605
500
402
315
240
180
132
095
067
047
032
022

*
998
989
967
927
867
788
696
598
500
407
324
252
192
143
105
076
054

*
999
994
981
954
910
849
773
685
593
500
412
332
262
202
154
115

*
*
997
989
971
941
895
834
760
676
588
500
416
339
271
212

*
*
998
994
982
962
928
881
820
748
668
584
500
419
345

*
*
999
996
989
975
952
916
868
808
738
661
581
500

*
*
*
998
994
985
968
942
905
857
798
729
655

*
*
*
999
996
990
979
961
933
895
846
788

*
*
*
999
998
994
987
974
953
924
885

N
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25

* 1,0 ou aproximadamente 1,0

80

Tabelas

Tabela E
Valores crticos de D no Teste de Kolmogorov-Smirnov para uma amostra.

Nvel de Significncia para

D = mx F0 ( X ) S N ( X )

0,20

0,15

0,10

0,05

0,01

1
2
3
4
5

0,900
0,684
0,565
0,494
0,446

0,925
0,726
0,597
0,525
0,474

0,950
0,776
0,642
0,564
0,510

0,975
0,842
0,708
0,624
0,565

0,995
0,929
0,828
0,733
0,669

6
7
8
9
10

0,410
0,381
0,358
0,339
0,332

0,436
0,405
0,381
0,360
0,342

0,470
0,438
0,411
0,388
0,368

0,521
0,486
0,457
0,432
0,410

0,618
0,577
0,543
0,514
0,490

11
12
13
14
15

0,307
0,295
0,284
0,274
0,266

0,326
0,313
0,302
0,292
0,283

0,352
0,338
0,325
0,314
0,304

0,391
0,375
0,361
0,349
0,338

0,468
0,450
0,433
0,418
0,404

16
17
18
19
20

0,258
0,250
0,244
0,237
0,231

0,274
0,266
0,259
0,252
0,246

0,295
0,286
0,278
0,272
0,264

0,328
0,318
0,309
0,301
0,294

0,392
0,381
0,371
0,363
0,356

25
30
35

0,21
0,19
0,18

0,22
0,20
0,19

0,24
0,22
0,21

0,27
0,24
0,23

0,32
0,29
0,27

Mais de 35

1, 07
N

1,14
N

1, 22
N

1, 36
N

0 , 63
N

81

Tabelas

Tabela F
Valores crticos de r no teste de Iteraes
O corpo das tabelas FI e FII contm diversos valores crticos de r para vrios valores de n1 e n2. Para o teste de
iteraes de uma amostra, qualquer valor de r no superior ao exibido na tabela FI ou no inferior ao exibido na
tabela FII significativo ao nvel 0,05. Para o teste de iteraes de Wald-Wolfowitz qualquer valor de r no
superior ao exibido na tbua FI significativo ao nvel 0,05.
Tabela FI
2

2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

2
2
2
2
2
2
2
2
2

2
2
2
2
2
2
2
2
2
3
3
3
3
3
3

2
2
2
3
3
3
3
3
3
3
3
4
4
4
4
4

10 11 12 13 14 15 16 17 18 19 20

2
2
3
3
3
3
3
4
4
4
4
4
4
4
5
5
5

2
2
3
3
3
3
4
4
4
4
5
5
5
5
5
5
6
6

2
2
3
3
3
4
4
5
5
5
5
5
6
6
6
6
6
6

2
3
3
3
4
4
5
5
5
6
6
6
6
6
7
7
7
7

2
3
3
4
4
5
5
5
6
6
6
7
7
7
7
8
8
8

2
3
3
4
5
5
5
6
6
7
7
7
7
8
8
8
8
9

2
3
4
4
5
5
6
6
7
7
7
8
8
8
9
9
9
9

2
2
3
4
4
5
6
6
7
7
7
8
8
8
9
9
9
10
10

2
2
3
4
5
5
6
6
7
7
8
8
9
9
9
10
10
10
10

2
2
3
4
5
5
6
7
7
8
8
9
9
9
10
10
10
11
11

2
3
3
4
5
6
6
7
7
8
8
9
9
10
10
11
11
11
12

2
3
4
4
5
6
6
7
8
8
9
9
10
10
11
11
11
12
12

2
3
4
4
5
6
7
7
8
9
9
10
10
11
11
11
12
12
13

2
3
4
5
5
6
7
8
8
9
9
10
10
11
11
12
12
13
13

2
3
4
5
6
6
7
8
8
9
10
10
11
11
12
12
13
13
13

2
3
4
5
6
6
7
8
9
9
10
10
11
12
12
13
13
13
14

82

Tabelas

Tabela FII
2 3 4

2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

9
9 10
9 10
11
11

9
10
11
12
12
13
13
13
13

10

11

12

13

14

15

16

17

18

19

20

11
12
13
13
14
14
14
14
15
15
15

11
12
13
14
14
15
15
16
16
16
16
17
17
17
17
17

13
14
14
15
16
16
16
17
17
18
18
18
18
18
18

13
14
15
16
16
17
17
18
18
18
19
19
19
20
20

13
14
15
16
17
17
18
19
19
19
20
20
20
21
21

13
14
16
16
17
18
19
19
20
20
21
21
21
22
22

15
16
17
18
19
19
20
20
21
21
22
22
23
23

15
16
17
18
19
20
20
21
22
22
23
23
23
24

15
16
18
18
19
20
21
22
22
23
23
24
24
25

17
18
19
20
21
21
22
23
23
24
25
25
25

17
18
19
20
21
22
23
23
24
25
25
26
26

17
18
19
20
21
22
23
24
25
25
26
26
27

17
18
20
21
22
23
23
24
25
26
26
27
27

17
18
20
21
22
23
24
25
25
26
27
27
28

83

Tabelas

Tabela G
Valores crticos de T no teste de Wilcoxon

Nvel de significncia para teste unilateral


0,025
0,01
0,005
Nvel de significncia para teste bilateral
0,05
0,02
0,01

6
7
8
9
10

0
2
4
6
8

0
2
3
5

0
2
3

11
12
13
14
15

11
14
17
21
25

7
10
13
16
20

5
7
10
13
16

16
17
18
19
20

30
35
40
46
52

24
28
33
38
43

20
23
28
32
38

21
22
23
24
25

59
66
73
81
89

49
56
62
69
77

43
49
55
61
68

84

Tabelas

Tabela J
Probabilidades associadas a valores to pequenos quanto os valores observados de U no
teste de Mann-Whitney

85

Tabelas

Probabilidades associadas a valores to pequenos quanto os valores observados de U no


teste de Mann-Whitney (continuao)

86

Tabelas

Probabilidades associadas a valores to pequenos quanto os valores observados de U no


teste de Mann-Whitney (continuao)

87

Tabelas

Tabela K
Valores crticos de U no teste de Mann-Whitney
Tabela KI. Valores crticos para um teste unilateral
com =0,001 e um teste bilateral com =0,002

Tabela KII. Valores crticos para um teste unilateral


com =0,01 e um teste bilateral com =0,02

Tabela KIII. Valores crticos para um teste unilateral


com =0,025 e um teste bilateral com =0,05

Tabela KIV. Valores crticos para um teste unilateral


com =0,05 e um teste bilateral com =0,1

88

Tabelas

Tabela N

Probabilidades associadas a valores to grandes quanto os valores observados de r2 no teste de Friedman

89

Tabelas

Probabilidades associadas a valores to grandes quanto os valores observados de r2 no teste de Friedman


(continuao) para k = 4

90

Tabelas

Tabela O
Probabilidades associadas a valores to grandes quanto os valores observados de H no
teste de Kruskal-Wallis.

91

Tabelas

Probabilidades associadas a valores to grandes quanto os valores observados de H no


teste de Kruskal-Wallis.

92

Tabelas

Tabela P
Valores Crticos de rS, coeficiente de correlao de Spearman

4
5
6
7
8
9
10
12
14
16
18
20
22
24
26
28
30

Nvel de significncia
(unilateral)
0,05
0,01
1,000
0,900
0,829
0,714
0,643
0,600
0,564
0,506
0,456
0,425
0,399
0,377
0,359
0,343
0,329
0,317
0,306

1,000
0,943
0,893
0,833
0,783
0,746
0,712
0,645
0,601
0,564
0,534
0,508
0,485
0,465
0,448
0,432

93

Tabelas

Tabela Q
Probabilidades associadas a valores to grandes quanto os valores observados de S no
coeficiente de correlao de Kendall
S
4
0
2
4
6
8
10
12
14
16
18
20
22
24
26
28
30
32
34
36

0,625
0,375
0,167
0,042

5
0,592
0,408
0,242
0,117
0,042
0,0083

Valores de N
8
0,548
0,452
0,360
0,274
0,199
0,138
0,089
0,054
0,031
0,016
0,0071
0,0028
0,00087
0,00019
0,000025

S
9
0,540
0,460
0,381
0,306
0,238
0,179
0,130
0,090
0,060
0,038
0,022
0,012
0,0063
0,0029
0,00012
0,00043
0,000012
0,000025
0,0000028

6
1
3
5
7
9
11
13
15
17
19
21
23
25
27
29
31
33
35
37
39
41
43
45

0,500
0,360
0,235
0,068
0,028
0,0083
0,0014

Valores de N
7
0,500
0,386
0,281
0,191
0,119
0,068
0,035
0,015
0,0054
0,0014
0,00020

10

0,500
0,431
0,364
0,300
0,242
0,190
0,146
0,108
0,078
0,054
0,036
0,023
0,014
0,0083
0,0046
0,0023
0,0011
0,00047
0,00018
0,000058
0,000015
0,0000028
0,00000028

94

Tabelas

Tabela R
Valores crticos de s no coeficiente de concordncia de Kendall

k
3*

3
4
5
6
8
10
15
20

4
5
6
Valores ao nvel de significncia de 0,05

49,5
62,6
75,7
101,7
127,8
192,9
258,0

48,1
60,0
89,8
119,7

64,4
88,4
112,3
136,1
183,7
231,2
349,8
468,5

103,9
143,3
182,4
221,4
299,0
376,7
570,5
764,4

Valores adicionais
para N=3
k
s

157,3
217,0
276,2
335,2
453,1
571,0
864,9
1 158,7

9
12
14
16
18

54,0
71,9
83,8
95,8
107,7

185,6
265,0
343,8
422,6
579,9
737,0
1 129,5
1 521,9

9
12
16
18

75,9
103,5
121,9
140,2
158,6

Valores ao nvel de significncia de 0,01


3
4
5
6
8
10
15
20

66,8
85,1
131,0
177,0

61,4
80,5
99,5
137,4
175,3
269,8
364,2

75,6
109,3
142,8
176,1
242,7
309,1
475,2
641,2

122,8
176,2
229,4
282,4
388,3
494,0
758,2
1 022,2

* Observe os valores adicionais para N=3 constantes direita da tabela

DEPARTAMENTO DE MATEMTICA
Seco de Estatstica e Investigao Operacional
Filipe Gago da Cmara

Cmara, Filipe Gago (2001) Estatstica No Paramtrica:


Testes de hipteses e medidas de associao Monografias da
SEIO. Depto. Matemtica da Univ. dos Aores: Ponta
Delgada, www.uac.pt/~amendes (ID 1.431)

HTU

O trabalho apresentado da exclusiva responsabilidade do aluno que o assina. O Departamento


de Matemtica e a Universidade dos Aores no se responsabilizam por eventuais erros
existentes no mesmo.
Os textos podem ser descarregados livremente, impressos e utilizados para ensino ou estudo
dos temas a que se referem. No entanto, no podem ser copiados ou includos noutros trabalhos
acadmicos ou de qualquer outra natureza, sem o consentimento do autor e a devida referncia
completa. Para autorizao de cpia parcial ou integral, utilize o endereo de correio electrnico:
seio@notes.uac.pt
UTH

95