Testes Não Paramétricos

Dep.
Matemática
Escola Superior de
TESTES DE HIPÓTESES NÃO PARAMÉTRICOS
Tecnologia de Viseu
Testes Não Paramétricos

Nos testes abordados até agora, ditos testes paramétricos, as hipóteses
envolvem apenas parâmetros populacionais, como a média, a variância, uma
proporção, etc. Além disso, em geral, estes testes comportam uma diversidade
de suposições fortes a que o seu emprego deve subordinar-se de que são
exemplo:
as observações devem ser extraídas de populações com distribuição
especificada;
as variáveis em estudo devem ser medidas em escala intervalar ou de
rácios, de modo a que seja possível utilizar operações aritméticas sobre os
valores obtidos das amostras (adição, multiplicação, ...),
etc.
Carla Henriques e Manuel Reis Tratamento Estatístico de Dados

1
Dep. Matemática
Escola Superior de
Tecnologia de Viseu
Vamos agora abordar um conjunto de testes que nos permitem testar outro tipo
de hipóteses que não apenas sobre parâmetros populacionais (e.g., se a
distribuição populacional em estudo pode ser considerada Normal). Estes são
chamados testes não paramétricos.
Estes testes são, em geral, fáceis de aplicar, pois podem ser usados quando
as hipóteses exigidas por outras técnicas não são satisfeitas. Apesar de haver
certas suposições básicas associadas à maioria das provas não paramétricas,
essas suposições são em menor número e mais fracas do que as associadas às
provas paramétricas. A maior parte das provas não paramétricas servem para
pequenas amostras e, além disso, aplicam-se a dados medidos em escala
ordinal, e alguns mesmo a dados em escala nominal.

2
Dep. Matemática
Escola Superior de
Tecnologia de Viseu Testes de Ajustamento
Testes de Ajustamento (testes da bondade do ajustamento)

Os testes de ajustamento servem para testar a hipótese de que uma
determinada amostra aleatória tenha sido extraída de uma população com
distribuição especificada.
Hipóteses a testar:
H0: a amostra provém de uma população com distribuição especificada
H1: a população de onde provém a amostra não segue a distrib. especificada

3
Dep. Matemática
Escola Superior de
Exemplo: Pretende-se construir um modelo de simulação das operações de um

determinado terminal de um porto situado na Europa.
Uma das variáveis a considerar no modelo é a diferença entre a data de chegada
dos navios provenientes dos EUA e a respectiva data planeada. Há razões para
supor que tal diferença é uma variável aleatória com distribuição Normal de
média 0.1 e desvio padrão 7.2.
Uma amostra de 30 navios revelou os resultados que se apresentam na tabela
seguinte.
-6.6 -2 5 2.4 -1.8 -0.3 15 -7.6 -0.6 2.6
-7.4 12.4 -6 -5.8 15.2 -2.4 -8.9 -5.6 -3.7 2.2
8.2 -9 13.2 7.6 -2.8 -1.8 1.8 4.4 2.2 4
Diferença entre a data de chegada e a data planeada para 30 navios.
Será mesmo de admitir que tais dados foram extraídos de uma pop. N(0.1, 7.2)?

4
Dep. Matemática
Escola Superior de
Neste exemplo, estamos perante um problema de ajustamento de dados a uma
determinada distribuição.
Existem vários testes de ajustamento que nos permitem fazer uma análise de
problemas deste tipo, entre os quais: o Teste de Ajustamento do Qui-quadrado
sugerido por Karl Pearson, o teste de Kolmogorov ou Kolmogorov-Smirnov e o
teste de normalidade de Lilliefors, que apresentamos a seguir.

5
Dep. Matemática
Escola Superior de
Teste do Qui-quadrado
Considere-se uma amostra aleatória de n elementos, extraída de uma
população com distribuição desconhecida, sobre os quais se observa uma
característica (qualitativa ou quantitativa).
Os valores possíveis da característica em estudo são, num primeiro passo,
repartidas por m classes mutuamente exclusivas, A1, A2, ... , Am (serão intervalos
da recta real se a característica é quantitativa e contínua).

6
Dep. Matemática
Escola Superior de
Denote-se por:
- Oi o nº de observações ou frequência absoluta observada da classe Ai;
- pi a probabilidade desconhecida de obter uma observação na classe Ai;
- p0i a probabilidade de obter uma observação na classe Ai , assumindo que
a observação foi extraída de uma população com a distribuição especificada
em H0.
H0: pi=p0i , i=1,...,m
H1: pi≠p0i para algum i

7
Dep. Matemática
Escola Superior de
Assim, a frequência esperada da classe Ai, quando H0 é verdadeira, é dada por
ei = n×p0i.
A estatística de teste, do teste de ajustamento do Qui-quadrado, é dada por
Q=∑
m (Oi − ei )2
i=1 ei
que, sendo verdadeira a hipótese nula, tem distribuição assimptótica do Qui-

quadrado com m-k-1 graus de liberdade (χ2m-k-1), onde k é o número de
parâmetros desconhecidos da distribuição proposta em H0, estimados a partir da
amostra.

8
Dep. Matemática
Escola Superior de
Se a hipótese nula for verdadeira, a diferença entre cada valor observado e o

respectivo valor esperado, Oi–ei, não deve ser muito grande e,
consequentemente, a estatística de teste terá um valor observado, Qobs, também
não muito grande.
De modo intuitivo, quanto maior for o valor observado de Q, menos plausível é

a hipótese nula, isto é, mais nos encaminhamos de concluir que as frequências
observadas não foram provenientes da população em que se baseou a hipótese
nula, levando à rejeição desta.
Trata-se portanto de um teste unilateral à direita.

9
Dep. Matemática
Escola Superior de
Na aplicação deste teste deve-se ter particular atenção às frequências

esperadas, ei’s, pois se estas forem muito pequenas a aproximação ao
Qui-quadrado não é a mais apropriada. São referidas na literatura várias regras
práticas de aplicação do teste, das quais avançamos a seguinte. Se tivermos:
- mais de 20% das classes com ei inferior a 5

ou,
- alguma classe com ei inferior a 1
devemos proceder à agregação de algumas classes contíguas, e iniciar

novamente o teste, agora com menos classes.

10
Dep. Matemática
Escola Superior de
Retomemos o exemplo exposto atrás.
Exemplo: Denotando por X a diferença entre a data de chegada dos navios e a

data planeada, as hipóteses a testar são
H0: X ~ N(0.1, 7.22)
H1: X ~/ N(0.1, 7.22)
Neste caso a distribuição proposta em H0 é contínua e, deste modo, as classes

Ai, i=1,...m, são intervalos da forma
A1=]-∞, a1[, A2=[ a1, a2[ A3=[ a2, a3[ ... Am=[ am-1, +∞[.

11
Dep. Matemática
Escola Superior de
Para a determinação das classes é sugerida a regra de Mann e Wald:
Número de classes = m, com m tal que n/m>5.
Os limites dos intervalos são tais que as probabilidades decorrentes da

hipótese nula sejam iguais a 1/m para todas as classes.
Assim, as frequências esperadas são todas iguais a n/m>5.
Para o exemplo escolheu-se m=4 classes (ei=30/4=7.5>5), donde
p0i = P(Ai\H0) = 1/4, para i=1,2,3,4.

12
Dep. Matemática
Escola Superior de
Cálculo dos limites dos intervalos de classe:
a3: p03 = 0.25 ⇔ a3=4.96 (EXCEL: INV.NORM(0.75;0.1;7.2));
1/4 1/4
1/4 1/4
a1 a2 =0.1 a3
Da simetria da distribuição normal:
a2=0.1 e a1=0.1-(4.924-0.1)= -4.724 (EXCEL: INV.NORM(0.25;0.1;7.2))

13
Dep. Matemática
Escola Superior de
-6.6 -2 5 2.4 -1.8 -0.3 15 -7.6 -0.6 2.6

-7.4 12.4 -6 -5.8 15.2 -2.4 -8.9 -5.6 -3.7 2.2
8.2 -9 13.2 7.6 -2.8 -1.8 1.8 4.4 2.2 4
Classes Frequências p0i Frequências

observadas esperadas
A1=]-∞, -4.76[ 8 0.25 7.5
A2=[-4.76,0.1[ 8 0.25 7.5
A3=[0.1, 4.96[ 7 0.25 7.5
A4=[4.96, +∞ [ 7 0.25 7.5
O valor observado da estatística de teste é
( 8 − 7 .5 ) 2 ( 8 − 7 .5 ) 2 ( 7 − 7 .5 ) 2 ( 7 − 7 .5 ) 2
Qobs= + + + = 0.13
7 .5 7 .5 7 .5 7 .5

14
Dep. Matemática
Escola Superior de
A estatística teste, sob o pressuposto de H0 ser verdadeira, tem

aproximadamente distribuição Qui-quadrado com m-1=4-1=3 graus de liberdade.
Para α=0.05: R.C.=[7.81, +∞[ . (EXCEL: 7.81=INV.CHI(0,05;3))
Como Qobs ∉R.C., somos levados a não rejeitar a hipótese de que a diferença
entre os tempos de chegada e os tempos planeados tem distribuição N(0.1, 7.22).

15
Dep. Matemática
Escola Superior de
Teste de Kolmogorov-Smirnov (K-S)
O teste de Kolmogorov-Smirnov (K-S) ao contrário do teste do Qui-quadrado,

não se aplica a dados qualitativos nem a variáveis discretas, pois a tabela
disponível para este teste só é exacta caso a distribuição em teste seja contínua.
No entanto, tem a vantagem de não estar dependente de classificações

dos dados, que além de serem sempre algo arbitrárias envolvem perdas de
informação. De facto, no ajustamento de uma distribuição contínua a uma
amostra usando o teste do Qui-quadrado, temos de proceder à agregação dos
dados em classes, sendo por isso mais adequado utilizar o teste K-S.

16
Dep. Matemática
Escola Superior de
Por outro lado, o teste K-S só pode ser aplicado quando a distribuição indicada
na hipótese nula está completamente especificada (o que não sucede com o
teste do Qui-quadrado). No caso de pretendermos, por exemplo, efectuar um
ajustamento de uma distribuição normal, sem especificar µ e σ, podemos recorrer
a outro teste, neste caso o teste desenvolvido por Lilliefors (teste de normalidade
de Lilliefors) que será abordado mais tarde.
Além disso, o teste do Qui-Quadrado está orientado essencialmente para
grandes amostras, enquanto que o teste K-S é aplicável a pequenas amostras.

17
Dep. Matemática
Escola Superior de
Seja F a função de distribuição da população em estudo e F0 a função de

distribuição proposta, contínua e completamente especificada.
H0: F(x)=F0(x), para qualquer x

H1: F(x)≠F0(x), para algum x
No teste de Kolmogorov-Smirnov comparam-se as frequências relativas

acumuladas registadas na amostra com as que se esperariam se a distribuição
populacional fosse a especificada na hipótese nula.

18
Dep. Matemática
Escola Superior de
A Estatística do teste de K-S considera a maior das diferenças, em valor absoluto, entre a
proporção de observações inferiores ou iguais a x, S(x), e a probabilidade de se observar
um valor inferior ou igual a x se a distribuição populacional for a especificada em H0, F0(x):
Dn = sup S ( x) − F0 ( x)
− ∞ < x < +∞
F0(x)
S (x)

19
Dep. Matemática
Escola Superior de
Uma vez que F0 é uma função (contínua) não decrescente e S é uma função
em escada, o supremo ocorre num ponto onde se verifica um salto de S :
Dn,obs = max { F0 ( xi ) − S ( xi ) , F0 ( xi ) − S ( xi −1 ) }.
i =1,..., n
Assim, se H0 for verdadeira, a distância vertical máxima entre as imagens das

duas distribuições não deve de ser muito grande, e logo espera-se que Dn,obs
tome um valor pequeno.
Então, para um nível de significância α, rejeita-se H0, se o valor observado for

superior ou igual ao ponto crítico Dn,α (os valores críticos Dn,α podem ser consultados
numa tabela).

20
Dep. Matemática
Escola Superior de
Exemplo: Acredita-se que o tempo despendido na execução de uma
determinada tarefa é uma variável aleatória com distribuição normal de média
290 minutos e desvio padrão 56 minutos. Foram registados os tempos
despendidos em 10 tarefas seleccionadas ao acaso, tendo-se registado o
seguinte:
198 254 262 272 275 278 285 287 287 292
Ao nível de significância de 5%, há evidência para rejeitar a hipótese de
normalidade da referida variável?

21
Dep. Matemática
Escola Superior de
Denote-se por X o tempo despendido na execução de uma tarefa.
As hipóteses a testar são, neste caso,
H0: X∼N(290, 562)
H1: X ~/ N(290, 562).
O ponto crítico da estatística de teste D10 é, para α=0.05, D10,0.05= 0.409

(consulte a tabela).
Para calcular o valor observado da estatística de teste, começa-se por ordenar

os valores da amostra por ordem crescente. Os cálculos estão efectuados na
tabela seguinte.

22
Dep. Matemática
Escola Superior de
EXCEL: DIST.NORM(198;290;56;VERDADEIRO)
xi S(xi) S(xi-1) F0(xi) |F0(xi)- S(xi) | |F0(xi)- S(xi-1)|

198 0,1 0 0,0502 0,05 0,0502
254 0,2 0,1 0,2602 0,06 0,1602
262 0,3 0,2 0,3085 0,009 0,1085
272 0,4 0,3 0,3739 0,026 0,0739
275 0,5 0,4 0,3944 0,106 0,0056
278 0,6 0,5 0,4152 0,185 0,0848
285 0,7 0,6 0,4644 0,236 0,1356
287 0,9 0,7 0,4786 0,421 0,2214
292 1 0,9 0,5142 0,486 0,3858
Como D10,obs =0.486>0.409, ao nível de significância de 5%, rejeitamos a

hipótese de o tempo despendido na execução de uma tarefa seguir distribuição
N(290, 562).

23
Dep. Matemática
Escola Superior de
Teste de Normalidade Lilliefors

Pretende-se testar se uma dada variável aleatória X tem distribuição N(µ, σ2)
sem especificar µ e σ, isto é, para algum µ e algum σ.
Hipóteses a testar
H0: X ~ N(µ, σ2)
H1: X ~/ N(µ, σ2)
Este teste processa-se como o teste de K-S, usando estimativas de µ e σ,

respectivamente, x e s.
Os pontos críticos são consultados na tabela elaborada por Lilliefors.

24
Dep. Matemática
Escola Superior de
Exemplo: Um distribuidor pretende estimar o tempo médio de entrega dos

seus produtos a um cliente bastante importante. Foi recolhida uma amostra
aleatória de cinco tempos: 29, 33, 35, 36 e 36.
O senhor quer estimar o tempo médio pretendido através de um intervalo de

confiança, mas nada sabe acerca da distribuição do tempo de entrega X, e além
disso, a dimensão da amostra é muito pequena (n=5). Poderá fazê-lo?
Sabemos que caso a distribuição subjacente aos dados seja normal, o

intervalo pode ser calculado usando a fórmula:
S
X mt , onde t: P(-t<T<t) =λ, T ~ tn-1
n

25
Dep. Matemática
Escola Superior de
Assim, interessa testar, em primeiro lugar, as hipóteses

H0: X ~ N(µ, σ2)
H1: X ~/ N(µ, σ2)
Uma vez que nada sabemos acerca de µ e σ, podemos utilizar o teste de

Lilliefors, recorrendo às estimativas x =33.8 s=2.95 .
O valor crítico da estatística teste, ao nível de significância de 0.05 é
D5*, 0.05 =0.337 (consulte a tabela).

26
Dep. Matemática
Escola Superior de
EXCEL: DIST.NORM(29;33.8;2.95;VERDADEIRO)
Cálculo do valor observado da estatística de Teste:
xi S(xi) S(xi-1) F0(xi) |F0(xi)- S(xi) | |F0(xi)- S(xi-1)|
29 0,2 0 0,0519 0,1481 0,0519

33 0,4 0,2 0,3931 0,0069 0,1931
35 0,6 0,4 0,6579 0,0579 0,2579
36 1 0,6 0,772 0,2279 0,1721
Como D5*, obs =0.2579<0.337, então, ao nível se significância de 5%, não
rejeitamos a hipótese de a população em estudo ter distribuição normal.

27
Dep. Matemática
Escola Superior de
Tecnologia de Viseu Tabelas de Contingência
Tabelas de Contingência
Teste do Qui-quadrado de Independência
Suponha que numa amostra aleatória de tamanho n de uma dada população
são observados dois atributos ou características A e B (qualitativas ou
quantitativas), uma com r e outra com s modalidades ou categorias,
respectivamente A1, A2,..., Ar e B1, B2,..., Bs.

28
Dep. Matemática
Escola Superior de
Cada indivíduo da amostra é classificado numa e numa só categoria (ou

classe) de A e numa e numa só categoria (ou classe) de B.
A classificação dos elementos da amostra dá origem a uma tabela de dupla

entrada, designada por tabela de contingência r×s, com o seguinte aspecto:
B1 B2 ... Bs
A1 O11 O12 ... O1s
A2 O21 O22 ... O2s
M M M O M
Ar Or1 Or2 ... Ors
Oij (i=1,...,r e j=1,...,s) Æ número de elementos classificados simultaneamente

nas categorias Ai de A e Bj de B, numa amostra de tamanho n.

29
Dep. Matemática
Escola Superior de
Sejam:
s
• Oi⋅ = ∑ Oij (i=1,...,r) Æ nº de elementos na amostra com modalidade Ai;
j=1
r
• O⋅j = ∑ Oij (j=1,...,s) Æ nº de elementos na amostra com modalidade Bj.
i=1
Tem-se,
r s r s
n = ∑ ∑ Oij =∑ Oi• = ∑ O • j
i=1 j=1 i=1 j=1
onde n é a dimensão da amostra.

30
Dep. Matemática
Escola Superior de
O objectivo a que nos propomos é o de tentar inferir sobre a existência ou não

de qualquer relação ou associação entre os atributos (variáveis) A e B, mais
concretamente, inferir se A e B são ou não independentes.
H0: A e B são independentes
H1: A e B não são independentes

31
Dep. Matemática
Escola Superior de
Denote-se por:
• pij=P(Ai∩Bj) (i=1,..,r e j=1,...,s) a probabilidade (desconhecida) de um
indivíduo da população ser classificado simultaneamente nas categorias Ai de
A e Bj de B;
• pi⋅=P(Ai) (i=1,...,r) a probabilidade (desconhecida) de um indivíduo da

população ser classificado na categoria Ai de A;
• p⋅j=P(Bj) (j=1,...,s) a probabilidade (desconhecida) de um indivíduo da

população ser classificado na categoria Bj de B.
r s r s
1 = ∑ ∑ pij =∑ pi• = ∑ p • j .
i=1 j=1 i=1 j=1

32
Dep. Matemática
Escola Superior de
Ora, se os atributos são independentes, verifica-se a conhecida relação,
P(Ai∩Bj) = P(Ai) P(Bj),

isto é,
pij= pi⋅× p⋅j
Assim, as hipóteses anteriores podem ser formuladas do seguinte modo:
H0: pij= pi⋅× p⋅j (para todo i e j)
H1: pij≠ pi⋅× p⋅j (para algum i≠j).

33
Dep. Matemática
Escola Superior de
Os verdadeiros valores das probabilidades pi⋅ e p⋅j são estimadas, a partir dos
dados amostrais, por
O O• j
p̂i• = i• e p̂• j = ,
n n
Notação: eij=n pij Æ número esperado de indivíduos na classe Ai de A e Bj de B.
Quando H0 é verdadeira, i.e, pij= pi⋅× p⋅j , temos
O i• × O • j
⎯⎯ ⎯ ⎯⎯→
estimado por
eij=n pij =n pi⋅× p⋅j ê ij = n p̂ i• p̂ • j =
n

34
Dep. Matemática
Escola Superior de
A estatística do teste de independência é então:

r s (Oij − êij )2
χ2 = ∑ ∑ ,
i=1 j=1 êij
que, sob o pressuposto de H0 ser verdadeira, tem distribuição assimptótica do

Qui-quadrado com (r-1)(s-1) graus de liberdade.
Vimos que quando H0 é verdadeira eij pode ser estimado por êij = n p̂i• p̂ • j .
Logo, a diferença entre Oij (frequência observada) e ê ij (estimativa da frequência
esperada supondo a independência) não deve ser grande.
Assim, a estatística teste, mede o afastamento dos dados em relação à

hipótese de independência. Trata-se então de um teste unilateral à direita.

35
Dep. Matemática
Escola Superior de
Exemplo: Um supermercado quer testar ao nível de significância de 5% a

hipótese de que o modo de pagamento dos clientes nesse estabelecimento é
independente do período do dia em que fazem as compras. Existem três modos
de efectuar os pagamentos: por cheque, dinheiro e cartão de débito/crédito.
A seguinte tabela de contingência 3×3 apresenta os resultados obtidos numa

amostra de 4000 clientes:
PERÍODO DO DIA
MODO DE PAGAMENTO Manhã Tarde Noite
Cheque 750 1500 750
Dinheiro 125 300 75
Cartão de débito/Crédito 125 200 175

36
Dep. Matemática
Escola Superior de
Denotando por A o atributo Modo de pagamento e por B o atributo Período do

dia em que faz as compras, as hipóteses as testar são
H0: A e B são independentes
H1: A e B não são independentes
Uma vez que A e B assumem cada uma 3 modalidades, sob H0, a estatística
teste tem distribuição assimptótica do Qui-quadrado com (r-1)(s-1)=(3-1)(3-1)= 4
graus de liberdade.
Ao nível de significância de 0.05, a região crítica é então [9.49, +∞[ (consulte

tabela ou faça no EXCEL: INV.CHI(0,05;4)).

37
Dep. Matemática
Escola Superior de
PERÍODO DO DIA
MODO DE PAGAMENTO Manhã Tarde Noite Totais
Cheque 750 1500 750 3000
Dinheiro 125 300 75 500
Cartão de Crédito 125 200 175 500
Totais 1000 2000 1000 4000
Oi• O • j Oi•O• j
Cálculo das frequências esperadas: ê ij = n p̂ i• p̂ • j =n =
n n n
ê11 =(3000×1000)/4000=750
ê12 =(3000×2000)/4000=1500
ê13 =(3000×1000)/4000=750.

38
Dep. Matemática
Escola Superior de
Frequências esperadas
PERÍODO DO DIA
MODO DE PAGAMENTO Manhã Tarde Noite Totais
Cheque 750 1500 750 3000
Dinheiro 125 250 125 500
Cartão de Crédito 125 250 125 500
Totais 1000 2000 1000 4000
Valor observado da estatística teste:
2 (750 − 750 )2 (1500 − 1500 )2 (200 − 250 )2 (175 − 125 )2

χ obs = + +...+ + =60.
750 1500 250 125
Uma vez que 60 excede o valor crítico 9.49, ao nível de significância de 0.05,
rejeitamos a hipótese de que o modo de pagamento é independente do período
do dia em que as compras são feitas.

39
Dep. Matemática
Escola Superior de
Medidas de Associação
No teste do Qui-Quadrado apresentado, se for rejeitada a hipótese de
independência entre os atributos, pode interessar medir a intensidade da
associação entre os mesmos, através de uma medida adequada.
Uma vez que a estatística do teste mede o afastamento em relação à hipótese

de independência, o seu valor observado poderá ser usado para avaliar o grau de
associação entre os atributos.

40
Dep. Matemática
Escola Superior de
χ2
Coeficiente de Contingência de Pearson: C =
χ2 + n
Este coeficiente varia entre 0 e (q − 1) q onde q=min{r,s} e portanto nunca

assume o valor 1.
Valores pequenos de C indicam fraca associação entre os atributos, enquanto
que valores grandes de C indicam forte associação.
O facto deste coeficiente não assumir o valor 1 no caso de associação
completa é uma sua limitação. Para obviar este problema, Tshuprow propôs o
seguinte coeficiente.

41
Dep. Matemática
Escola Superior de
χ2
Coeficiente de Tshuprow: T =
n (r − 1) × (s − 1)
Este coeficiente varia entre 0 e 1, tomando o valor 0 no caso de existir

independência e o valor 1 quando r=s e houver associação completa.
Por último, referimos o coeficiente proposto por Cramer que atinge o valor 1
quando há associação completa.
χ2
Coeficiente V de Cramer: V = , com q=min{r,s} 0≤V≤1.
n(q − 1)

42
Dep. Matemática
Escola Superior de
Para o exemplo anterior, rejeitámos a hipótese de independência entre o modo

de pagamento e o período do dia em que as compras eram efectuadas.
Para ter uma ideia da intensidade de associação entre estes dois atributos,
calculam-se os coeficientes que acabámos de descrever.
χ2 60
Coeficiente de Contingência de Pearson: C = = = 0.122
χ2 + n 60 + 4000
0≤C≤ (q − 1) q , onde q=min{r,s}=3, i.e, 0 ≤C≤ 0.816.

43
Dep. Matemática
Escola Superior de
χ2 60
Coeficiente de Tshuprow: T= = =0.087
n (r − 1) × (s − 1) 4000 2 × 2
χ2 60
Coeficiente V de Cramer: V = = =0.087
n(q − 1) 4000 × 2
Verificamos, então, que apesar de haver associação entre os atributos, esta

pode considerar-se fraca.

44
Dep. Matemática
Escola Superior de
Teste de Homogeneidade
Suponha que são recolhidas amostras aleatórias de s populações
(sub-populações ou estratos) B1, B2,..., Bs , nas quais se observa um atributo A
com r categorias A1, A2,..., Ar.
Neste contexto, surge também uma tabela de contingência r×s:
B1 B2 ... Bs
A1 O11 O12 ... O1s
A2 O21 O22 ... O2s
M M M O M
Ar Or1 Or2 ... Ors
Oij (i=1,...,r e j=1,...,s) Æ número de elementos da amostra da população Bj

classificados na categoria Ai de A.

45
Dep. Matemática
Escola Superior de
Sejam:
s
• Oi⋅ = ∑ Oij (i=1,...,r) Æ nº de elementos na categoria Ai de A em todas as
j=1
amostras;
r
• O⋅j = ∑ Oij (j=1,...,s) Æ tamanho da amostra recolhida na população Bj.
i=1
Neste caso, cada Bj rotula uma sub-população cujos elementos se distribuem

pelas r modalidades do atributo A, e o que se pretende saber é se existe
homogeneidade, isto é, se não há diferença entre as populações no modo
como os seus elementos se distribuem pelas modalidades do atributo A.

46
Dep. Matemática
Escola Superior de
À semelhança do teste de independência, a estatística do teste é
r s (Oij − êij )2
χ2 = ∑ ∑ ,
i=1 j=1 êij
que, sob o pressuposto de H0 ser verdadeira, tem distribuição assimptótica do

Qui-Quadrado com (r-1)(s-1) graus de liberdade.
Valores muito grandes da estatística de teste traduzem um grande afastamento

dos dados em relação à hipótese nula, conduzindo à rejeição desta. Assim, a
estatística de teste mede o afastamento dos dados em relação à hipótese de
homogeneidade.

47
Dep. Matemática
Escola Superior de
Para aplicar os testes de independência e de homogeneidade devem ser

seguidas as mesmas regras que vimos para o teste de ajustamento do Qui-
quadrado, isto é, se tivermos:
- mais de 20% das frequências esperadas, ei’s, inferiores a 5

ou,
- alguma frequência esperada inferior a 1
devemos proceder à agregação de algumas classes contíguas.

48
Dep. Matemática
Escola Superior de
Teste exacto de Fisher

O teste do Qui-quadrado é, como já se disse, baseado numa distribuição
assimptótica, o que portanto limita a sua aplicação ao caso de grandes amostras
(recorde as limitações sobre as frequências esperadas).
Em tabelas de contingência 2x2, existe uma alternativa ao teste do

Qui-quadrado, o teste de Fisher, que é um teste exacto, i.e., a distribuição da
estatística é exacta (os pontos críticos e valores-p são calculados de forma
exacta).

49
Dep. Matemática
Escola Superior de
Tecnologia de Viseu Ajuste entre duas Amostras Independentes
AJUSTE ENTRE DUAS AMOSTRAS INDEPENDENTES
Objectivo:
Dadas duas amostras aleatórias e independentes provenientes de duas
populações, pretende-se testar a hipótese H0 de que as duas distribuições
populacionais são idênticas, isto é, as duas amostras podem ser consideradas
como provenientes de populações com a mesma distribuição.
H0: As duas amostras são retiradas de populações com a mesma distribuição
H1: As duas amostras são retiradas de populações com distribuições diferentes

1
Dep. Matemática
Escola Superior de
Teste do Qui-quadrado
Os valores possíveis da característica em estudo são repartidos por m classes

mutuamente exclusivas A1, A2,...,Am.
A hipótese H0 que se pretende testar é a de que as duas populações em
estudo têm a mesma distribuição, isto é, não há diferença entre as duas
populações no modo como os seus elementos se distribuem pelas diversas
classes. Por outras palavras, as duas populações são homogéneas.
Trata-se então do teste do Qui-quadrado de homogeneidade para duas
populações (s=2).

2
Dep. Matemática
Escola Superior de
Teste de Kolmogorov-Smirnov
Este teste aplica-se a distribuições contínuas.
Comparam-se as frequências relativas acumuladas registadas nas duas amostras

(digamos A e B). Se não se registarem diferenças significativas, não é rejeitada a hipótese
nula de que as duas amostras provêm de populações com a mesma distribuição.
A estatística de teste considera a maior das diferenças, em valor absoluto, entre as
proporções de valores inferiores ou iguais a x observadas em cada amostra, SA(x)–SB(x).
Estatística de teste:
D ' = sup S A ( x) − S B ( x)
− ∞ < x < +∞
Para um nível de significância α, a hipótese H0 é rejeitada se o valor observado da

estatística de teste for superior ao ponto crítico D'α (a ser consultado numa tabela).

3
Dep. Matemática
Escola Superior de
Exemplo: Registaram-se os valores de uma análise feita a 80 indivíduos com a variante

A de uma dada doença, obtendo-se os seguintes resultados
VALORES 20 22 23 26 29 30 31 33 34
N.º indivíduos 2 3 9 12 27 16 7 2 2
Seleccionaram-se aleatoriamente 70 indivíduos com a variante B da mesma doença. Os

valores da análise para estes 70 indivíduos estão registados seguidamente.
VALORES 23 24 26 28 30 31 32 33 34 36 38
N.º indivíduos 1 2 3 6 15 20 13 4 3 2 1
Pode-se admitir que a distribuição dos valores da análise é a mesma para as duas
variantes da doença? Servirá esta análise como meio de diagnostico da variante A ou B
desta doença? (Use α=0.01)

4
Dep. Matemática
Escola Superior de
Variante A:
VALORES 20 22 23 26 29 30 31 33 34
N.º indivíduos 2 3 9 12 27 16 7 2 2
Freq. acumuladas 2 5 14 26 53 69 76 78 80
SA(x) 2/80 5/80 14/80 26/80 53/80 69/80 76/80 78/80 1
Variante B:
VALORES 23 24 26 28 30 31 32 33 34 36 38
N.º indivíduos 1 2 3 6 15 20 13 4 3 2 1
Freq. acumuladas 1 3 6 12 27 47 60 64 67 69 70
SB(x) 1/70 3/70 6/70 12/70 27/70 47/70 60/70 64/70 67/70 69/70 1

5
Dep. Matemática
Escola Superior de
Cálculo do valor observado da estatística de teste:
Valores 20 22 23 24 26 28 29 30 31 32 33 34 36 38
SA(x) 2/80 5/80 14/80 14/80 26/80 26/80 53/80 69/80 76/80 76/80 78/80 1 1 1
SB(x) 0 0 1/70 3/70 6/70 12/70 12/70 27/70 47/70 60/70 64/70 67/70 69/70 1
|SA(x)- SB(x)| 0,025 0,063 0,161 0,132 0,239 0,154 0,491 0,477 0,279 0,093 0,061 0,043 0,014 0
O valor observado da estatística de teste é então D’obs=0.491.
80 + 70
Para α=0.01, o ponto crítico é (consulte tabela): 1.63 = 0.267 .
80 × 70

6
Dep. Matemática
Escola Superior de
Dado que o valor observado da estatística de teste é 0.491>0.267, então

rejeita-se a hipótese nula de as duas variantes da doença não se distinguirem
quanto à distribuição dos valores da análise. Há portanto evidência estatística, ao
nível de significância de 0.01, de que os valores da análise de distribuem de
forma diferente na variante A e B da doença.

7
Dep. Matemática
Escola Superior de
Tecnologia de Viseu Teste de Kruskal_Wallis
TESTE DE KRUSKAL-WALLIS
Objectivo:
Dadas k populações nas quais se estuda uma característica comum e de onde
foram extraídas k amostras aleatórias e independentes, pretende-se testar a
hipótese H0 de que as distribuições populacionais são idênticas, isto é, as k
amostras podem ser consideradas como provenientes de populações com a
mesma distribuição.
Nota: O teste de Krukal-Wallis constitui uma alternativa à análise de variância com um

factor, a ser abordada mais tarde, quando os pressupostos desta não podem ser
verificados.

1
Dep. Matemática
Escola Superior de
H0: As k amostras são retiradas de populações com a mesma distribuição

H1: As k amostras não são retiradas de populações com a mesma distribuição,
isto é, há pelo menos duas populações com distribuições diferentes
O teste de Kruskal-Wallis é particularmente sensível a diferenças nas medidas

de localização.
Por esta razão as hipóteses são geralmente formuladas em termos das médias
ou das medianas populacionais.

2
Dep. Matemática
Escola Superior de
Notação: µi Æ média da i-ésima população

Mi Æ mediana da i-ésima população
H0: µ1=µ2=…=µk (as médias populacionais são iguais para as k populações)

H1: µi≠µj , i≠j (há pelo menos duas populações com médias diferentes)
H0: M1=M2=…=Mk (as k medianas populacionais são iguais)

H1: Mi=Mj , i≠j (há pelo menos duas populações com medianas diferentes)

3
Dep. Matemática
Escola Superior de
Notação: ni - o tamanho da amostra retirada da população i (i=1,...k);

k
N = ∑ ni - nº total de observações;
i =1
Xij - a j-ésima observação da amostra da população i.
Procedimento:
ordenam-se todas as observações por ordem crescente dos seus valores;
atribui-se um nº de ordem, ou posto, Rij, a cada observação Xij (a
observação mais pequena fica com o nº de ordem, ou posto, 1 e a observação
maior com o posto N);
para cada população i determina-se o valor Ri da soma dos postos das
ni
observações correspondentes a esse grupo populacional: Ri = ∑ Rij
j =1

4
Dep. Matemática
Escola Superior de
Quando há empates nos valores observados, o número de ordem, ou posto,

que deve ser atribuído a cada valor empatado deve ser a média dos números de
ordem que seriam atribuídos a estes valores se não estivessem empatados. Por
exemplo, suponhamos que ordenando os valores observados obtínhamos
100, 102, 102, 102, 102.5, 103, 103, 104.
Neste caso, os números de ordem seriam respectivamente,

1, 3, 3, 3, 5, 6.5, 6.5, 8.

5
Dep. Matemática
Escola Superior de
Quando não há empates nos valores observados das amostras, ou o nº de

empates é muito pequeno, a estatística de teste é:
12 k R2
H= ∑ i − 3(N + 1)
N(N + 1) i=1 ni
A hipótese nula deve ser rejeitada se o valor observado da estatística H for
muito grande, i.e., superior ao ponto crítico (teste unilateral à direita).
Pontos críticos:
o Se k=3 e ni≤5 para todo i=1,...,k, Æconsultar tabela da distribuição

exacta da estatística H, sob H0.
o Se ni≥5 para todo i=1,...,k, Æ sob H0, H tem aproximadamente
distribuição χ k2−1 ; consultar tabela desta distribuição.

6
Dep. Matemática
Escola Superior de
Quando há muitos empates nos valores observados das amostras a

estatística de teste a usar deve ser:
1 ⎡ k Ri2 N(N + 1)2 ⎤
H'= 2 ⎢ ∑ − ⎥
S ⎣i=1 ni 4 ⎦
onde,
2 1 ⎡ k ni 2 N(N + 1)2 ⎤
S = ⎢ ∑ ∑ Rij − ⎥
N − 1 ⎣i=1 j=1 4 ⎦
Pontos críticos:
o Se ni≥5 para todo i=1,...,k, Æ sob H0, H’ tem aproximadamente

distribuição χ k2−1 ; consultar tabela desta distribuição.

7
Dep. Matemática
Escola Superior de
Exemplo: Para avaliar o mérito de três métodos de ensino diferentes, cada um de 14

estudantes foi aleatoriamente matriculado em uma de três turmas. Em cada turma
utilizou-se um método de ensino diferente. Após algumas aulas, pediu-se a cada
estudante que resolvesse o mesmo problema. Os tempos respectivos (em minutos)
constam do quadro seguinte.
Método 1 Método 2 Método 3
15 21 11
12 16 19
18 13 17
20 9 22
10 24
Será possível afirmar que os métodos de ensino produzem resultados diferentes no que
diz respeito à rapidez de um aluno para resolver um problema? (Use α=0.05)

8
Dep. Matemática
Escola Superior de
Ordenam-se as observações, registando o grupo (mét. ensino) a que

pertencem, e determina-se o posto de cada uma:
Observação 9 10 11 12 13 15 16 17 18 19 20 21 22 24
Posto - Rij 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Grupo (mét.) 2 1 3 1 2 1 2 3 1 3 1 2 3 3
R1=2+4+6+9+11=32
R2=1+5+7+12=25
R3=3+8+10+13+14=48

9
Dep. Matemática
Escola Superior de
12 k R2
Não havendo empates, a estatística de teste é H= ∑ i − 3(N + 1) cujo
N(N + 1) i=1 ni
12 ⎛ 32 2 25 2 48 2 ⎞
valor observado é: Hobs= ⎜ + + ⎟ − 3(14 + 1) = 1.963.
14(14 + 1) ⎜⎝ 5 4 5 ⎟⎠
Consultando a tabela da distribuição exacta de H, sob H0, retira-se o ponto

crítico para α=0.05: 5.6429.
Dado que Hobs=1.963<5.6429, não se rejeita a hipótese nula dos três métodos
de ensino produzirem efeitos idênticos. Por outras palavras, não há evidência
estatística de que o tipo de método de ensino influencie o desempenho dos
estudantes na resolução de problemas.

10
Dep. Matemática
Escola Superior de
Testes de Comparações múltiplas

Quando rejeitamos a hipótese H0, surge a questão de identificar onde se
encontram as diferenças, i.e., quais são as amostras onde se encontram
diferenças significativas.
Para isso temos de comparar cada par de amostras da seguinte maneira:
para cada amostra, calcula-se o posto médio R i , dividindo a soma dos

postos Ri pelo tamanho da amostra ni;
Determinam-se as diferenças absolutas entre cada par de postos médios
Ri − R j , i,j=1,…,k

11
Dep. Matemática
Escola Superior de
Cada diferença absoluta R i − R j é comparada com o valor crítico
⎛ N( N + 1) ⎞⎛⎜1 1 ⎞⎟
c ij = χ α ,k −1 ⎜
2
⎟⎜ +
⎝ 12 ⎠⎝ n i n j ⎟⎠
onde, χ α2 ,k −1 é o ponto crítico usado para o teste de Kruskal-Wallis.
Se R i − R j > c ij , então, considera-se significativa a diferença entre as
amostras i e j, havendo, portanto, evidência de existirem diferenças entre

as populações de onde se extraíram estas amostras.

12

Testes Não Paramétricos

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Testes Não Paramétricos

Caricato da

Copyright:

Formati disponibili

Dep.

Testes Não Paramétricos

Carla Henriques e Manuel Reis Tratamento Estatístico de Dados

Carla Henriques e Manuel Reis Tratamento Estatístico de Dados

Testes de Ajustamento (testes da bondade do ajustamento)

H0: a amostra provém de uma população com distribuição especificada

H1: a população de onde provém a amostra não segue a distrib. especificada

Carla Henriques e Manuel Reis Tratamento Estatístico de Dados

Exemplo: Pretende-se construir um modelo de simulação das operações de um

Carla Henriques e Manuel Reis Tratamento Estatístico de Dados

Neste exemplo, estamos perante um problema de ajustamento de dados a uma

problemas deste tipo, entre os quais: o Teste de Ajustamento do Qui-quadrado

sugerido por Karl Pearson, o teste de Kolmogorov ou Kolmogorov-Smirnov e o

teste de normalidade de Lilliefors, que apresentamos a seguir.

Carla Henriques e Manuel Reis Tratamento Estatístico de Dados

Considere-se uma amostra aleatória de n elementos, extraída de uma

população com distribuição desconhecida, sobre os quais se observa uma

característica (qualitativa ou quantitativa).

Os valores possíveis da característica em estudo são, num primeiro passo,

da recta real se a característica é quantitativa e contínua).

Carla Henriques e Manuel Reis Tratamento Estatístico de Dados

- Oi o nº de observações ou frequência absoluta observada da classe Ai;

- pi a probabilidade desconhecida de obter uma observação na classe Ai;

- p0i a probabilidade de obter uma observação na classe Ai , assumindo que

a observação foi extraída de uma população com a distribuição especificada

H0: pi=p0i , i=1,...,m

H1: pi≠p0i para algum i

Carla Henriques e Manuel Reis Tratamento Estatístico de Dados

Assim, a frequência esperada da classe Ai, quando H0 é verdadeira, é dada por

A estatística de teste, do teste de ajustamento do Qui-quadrado, é dada por

que, sendo verdadeira a hipótese nula, tem distribuição assimptótica do Qui-

Carla Henriques e Manuel Reis Tratamento Estatístico de Dados

Se a hipótese nula for verdadeira, a diferença entre cada valor observado e o

De modo intuitivo, quanto maior for o valor observado de Q, menos plausível é

Trata-se portanto de um teste unilateral à direita.

Carla Henriques e Manuel Reis Tratamento Estatístico de Dados

Na aplicação deste teste deve-se ter particular atenção às frequências

- mais de 20% das classes com ei inferior a 5

devemos proceder à agregação de algumas classes contíguas, e iniciar

Carla Henriques e Manuel Reis Tratamento Estatístico de Dados

Retomemos o exemplo exposto atrás.

Exemplo: Denotando por X a diferença entre a data de chegada dos navios e a

H0: X ~ N(0.1, 7.22)

H1: X ~/ N(0.1, 7.22)

Neste caso a distribuição proposta em H0 é contínua e, deste modo, as classes

Carla Henriques e Manuel Reis Tratamento Estatístico de Dados

Para a determinação das classes é sugerida a regra de Mann e Wald:

Número de classes = m, com m tal que n/m>5.

Os limites dos intervalos são tais que as probabilidades decorrentes da

Assim, as frequências esperadas são todas iguais a n/m>5.

Para o exemplo escolheu-se m=4 classes (ei=30/4=7.5>5), donde

p0i = P(Ai\H0) = 1/4, para i=1,2,3,4.

Carla Henriques e Manuel Reis Tratamento Estatístico de Dados

Cálculo dos limites dos intervalos de classe:

a3: p03 = 0.25 ⇔ a3=4.96 (EXCEL: INV.NORM(0.75;0.1;7.2));

Da simetria da distribuição normal:

a2=0.1 e a1=0.1-(4.924-0.1)= -4.724 (EXCEL: INV.NORM(0.25;0.1;7.2))

Carla Henriques e Manuel Reis Tratamento Estatístico de Dados

-6.6 -2 5 2.4 -1.8 -0.3 15 -7.6 -0.6 2.6

Classes Frequências p0i Frequências

O valor observado da estatística de teste é

Carla Henriques e Manuel Reis Tratamento Estatístico de Dados

A estatística teste, sob o pressuposto de H0 ser verdadeira, tem