Sei sulla pagina 1di 5

DESEMPENHO DE TESTES DE NORMALIDADE VIA SIMULAÇÃO MONTE

CARLO

Cosme Teixeira da Silva 1 ; Eric Batista Ferreira 2

INTRODUÇÃO

A maior parte das estatísticas da história foi construída sob a hipótese de normalidade.

Por tal razão, é imprescindível a existência de um teste para testes a normalidade de um

conjunto de dados (THODE JR, 2002).

Dentre as características desejadas em um teste estão o poder e a taxa de erro tipo I.

Além disso, o tamanho amostral mínimo em que determinado teste tem um desempenho

satisfatório também é fundamental para que, com o menor esforço possível, a normalidade (ou

falta dela) seja detectada.

O presente trabalho tem o objetivo de estimar o poder, a taxa de erro tipo I e o

tamanho amostral mínimo dos testes Shapiro-Wilk, Anderson-Darling, Lillefors (Kolmogorov- Smirnov), Shapiro-Francia e Qui-quadrado de Pearson, via simulação Monte Carlo.

Teste Lilliefors (Kolmogorov-Smirnov)

O teste de Lilliefors (Kolmogorov-Smirnov) é um teste amplo de função distribuição empírica para a hipótese nula (composta) de normalidade. A estatística de teste é diferença máxima absoluta entre a função distribuição acumulada hipotética e empírica. Ele pode ser calculado como

(

+

D

+

=

max

i

= 1,

,

n

i

n

p

( )

i

,

,

n

p

i

( )

i 1 ⎞ ⎟ ⎠

n

p

()i

X

()i

X

S

D

=

max DD,

-

,

)

.

Aqui, Φ () é função distribuição acumulada da distribuição normal padrão, e X e S são a média e o

em que

D

=

max

i

= 1,

e

desvio padrão dos valores. O p-valor é calculado pela fórmula de Dallal-Wilkinson (1986), que só é confiável para p-valores inferiores a 0,1. Se o p-valor de Dallal-Wilkinson for maior que 0,1, então o

p-valor é calculado a partir da distribuição da estatística modificada

ZD

=

⎛ n ⎜ ⎝
n
⎜ ⎝

−+

0,01

0,85 ⎞ n ⎟ ⎠
0,85
n
⎟ ⎠

(STEPHENS, 1974), sendo a fórmula de p-valor real obtida por simulação e processo de aproximação.

Teste de Shapiro-Wilk

1 Engenheiro Agrícola, Universidade Federal de Lavras, email: cosme.teixeira@gmail.com.

2 Pós-doutorado, Departamento de Ciências Exatas/UFLA, email: ericbferreira@netscape.net.

Para valores amostrais ordenados, a estatística W de Shapiro-Wilk e seu respectivo p-

valor são calculados como descritos em Royston (1995). Os tamanhos amostrais devem estar entre 5 e 3000. Para n = 3 , o cálculo do p-valor é exato; para 4 n 11 e n 12 , são usadas aproximações.

Teste de Shapiro-Francia

O teste de Shapiro-Francia (THODE JR, 2002) é conhecido como um teste de boa

performance (ROYSTON, 1993). Os quantis ordenados esperados a partir da distribuição normal padrão são ligeiramente diferentes daqueles usados pelo gráfico normal quantil- quantil, e seu tamanho amostral deve ser maior que 10.

Teste de Anderson-Darlin

O teste de Anderson-Darlin é um teste amplo de função distribuição empírica para a

hipótese nula (composta) de normalidade. A estatística do teste é

em que

p

()i

X

()i

An

=− −

1

n

n

i = 1

(

2

i

X

S

.

Aqui,

Φ()

)

1 ln

( )(

p

(

i

)

+

ln 1

p

(

ni −+

1)

)

,

é função distribuição acumulada da distribuição

normal padrão, e X e S são a média e o desvio padrão dos valores. O p-valor é calculado

=+

A

1

0,75

n

+

2,25

⎠ ⎟ ⎞ , de acordo com a Tabela 4.9 que pode ser

pela estatística modificada

Z

 

2

n

(

C

E

) 2

i

E

i

i

,

encontrada em Stephens (1986).

Teste de Qui-quadrado

A estatística de teste de Pearson é

P =

em que

nula) na classe i . As classes são construídas de tal forma que sejam equiprováveis sob a

E i é o número esperado de observações (sob a hipótese

C i é o número observado e

hipótese nula de normalidade. O p-valor é calculado de uma distribuição qui-quadrado com

gruas de liberdade entre o número de classes menos 3 e o número de classes menos 1 (MOORE, 1986).

MATERIAL E MÉTODOS

Foi utilizada a simulação Monte Carlo para gerar amostras de tamanhos 10, 30, 50, 75,

100 e 500 observações oriundas de três distribuições de probabilidade, a saber, Normal (com parâmetros 0 e 1), Exponencial (com parâmetro 5) e Gama (com parâmetros 5 e 1/5). Em seguida, foram aplicados cinco testes de normalidade a essas amostras. Os testes avaliados foram: Shapiro-Wilk, Anderson-Darling, Lillefors (Kolmogorov-Smirnov), Shapiro-Francia e Qui-quadrado de Pearson. Cada teste foi repetido 10.000 vezes para cada tamanho amostral e

a proporção de vezes que H 0 foi aceita, computado. A taxa nominal adotada foi de 5%. As amostras vindas da distribuição Normal padrão foram utilizadas para se determinar

a taxa de erro Tipo I de cada teste. Já as amostras vindas das distribuições Exponencial e Gama foram utilizadas para se determinar o poder dos testes.

A geração das amostras e os testes foram feitos no software estatístico R 2.6.2 (R

DEVELOPMENT CORE TEAM, 2008), utilizando-se as funções: rgamma, rnorm, rexp (para a geração das amostras) e shapiro.test, lillie.test, ad.test, pearson.test e sf.test (para as análises). Dentre as funções de análise, todas pertencem ao pacote nortest, exceto a função shapiro.test, que faz parte do pacote statis.

RESULTADOS E DISCUSSÃO

A taxa de erro tipo I dos cinco testes avaliados pode ser observada na Tabela 1. Nela,

encontram-se as taxas de erro cometidas pelos testes para os tamanhos amostrais de 10 a 500. Pode-se observar que todos os testes apresentaram um comportamento próximo ao esperado, ou seja, taxas de erro tipo ao redor de 5%. Pequenas variações que ocorreram podem ser atribuídas ao erro de Monte Carlo. Apenas o teste de Qui-quadrado de Pearson, para o tamanho amostral igual a 10 elementos, apresentou a maior taxa de erro tipo I (6,42%).

A taxa de erro tipo I não parece decrescer com o aumento do tamanho amostral, mas

convergir para a taxa nominal. Para amostras normais, tamanhos amostrais a partir de 10 podem ser usados para qualquer teste, entretanto, para o teste Qui-quadrado, aconselham-se tamanhos amostrais maiores ou iguais a 30.

TABELA 1 Taxa de erro tipo I para os cinco testes avaliados ao longo dos tamanhos amostrais 10, 30, 50, 75 e 500.

Tamanho amostral

Teste

10

30

50

75

100

500

Shapiro Wilk Anderson-Darling Lilliefors Shapiro-Francia Qui-quadrado

0,0494

0,0501

0,0508

0,0515

0,0520

0,0515

0,0485

0,0513

0,0496

0,0501

0,0474

0,0488

0,0481

0,0487

0,0498

0,0508

0,0500

0,0495

0,0557

0,0506

0,0559

0,0546

0,0514

0,0525

0,0642

0,0495

0,0516

0,0524

0,0533

0,0484

TABELA 2 Poder dos testes avaliados ao longo dos tamanhos amostrais 10, 30, 50, 75, 100 e 500, ao testar dados vindos de uma distribuição Gama.

Tamanho Amostral

Teste

10

30

50

75

100

500

Shapiro Wilk Anderson- Darling Lilliefors Shapiro-Francia Qui-quadrado

0,1183

0,3764

0,5913

0,7894

0,9029

1,0000

0,1126

0,2984

0,4906

0,6743

0,8056

1,0000

0,0923

0,2043

0,3294

0,4787

0,5996

0,9998

0,1228

0,3464

0,5441

0,7507

0,8759

1,0000

0,1076

0,1396

0,2135

0,3213

0,3942

0,9955

TABELA 3 Poder dos testes avaliados ao longo dos tamanhos amostrais 10, 30, 50, 75, 100 e 500, ao testar dados vindos de uma distribuição Exponencial.

Teste

Tamanho Amostral

10

30

50

75

100

500

Shapiro Wilk

0,4411

0,9680

0,9995

1,0000

1,0000

1,0000

Anderson-Darling

0,4095

0,9284

0,9965

1,0000

1,0000

1,0000

Lilliefors

0,2966

0,7754

0,9581

0,9980

0,9998

1,0000

Shapiro-Francia

0,4283

0,9500

0,9992

1,0000

1,0000

1,0000

Qui-quadrado

0,3964

0,8490

0,9838

0,9990

0,9999

0,9999

Sob H 1 (Tabelas 2 e 3) pode-se observar as estimativas de poder dos teste avaliados

neste estudo. Quando os dados vêm de uma distribuição Gama(5,1/5) (Tabela 2) os testes de

Shapiro-Wilk e Shapiro-Francia apresentam o melhor desempenho. A partir do tamanho

amostral 100, esses testes apresentam praticamente 90% de probabilidade de rejeitar H 0 ,

quando esta hipótese é falsa.

Por outro lado, quando os dados vêm de uma distribuição Exponencial(5) (Tabela 3),

o tamanho amostral 30 já é suficiente para garantir poder acima de 90% para todos os testes,

exceto para os testes Lilliefors e Qui-quadrado de Pearson.

CONCLUSÕES

Apesar de todos os testes controlarem as taxas de erro tipo I para tamanhos amostrais iguais ou maiores que 30, os testes de Shapiro-Wilk e Shapiro-Francia apresentaram as

maiores estimativas de poder. Para esses testes, o tamanho amostral igual a 100 garante taxas

de erro tipo I iguais às nominais e altas taxa de poder, até mesmo para as situações mais

rígidas.

REFERÊNCIAS BIBLIOGRÁFICAS

DALLAL, G.E.; WILKINSON, L. An analytic approximation to the distribution of Lilliefors' test for normality. The American Statistician, 40, 294–296. 1986.

MOORE, D. S. Tests of the chi-squared type. In: D'Agostino, R.B. and Stephens, M.A., eds.: Goodness-of-Fit Techniques. Marcel Dekker, New York. 1986.

ROYSTON, P. Remark AS R94: A remark on Algorithm AS 181: The W test for normality. Applied Statistics, 44, 547–551. 1995.

R DEVELOPMENT CORE TEAM. R: A language and environment for statistical

computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0,

URL http://www.R-project.org. 2008.

ROYSTON, P. A pocket-calculator algorithm for the Shapiro-Francia test for non-normality:

an application to medicine. Statistics in Medicine, 12, 181–184. 1993.

STEPHENS, M.A. EDF statistics for goodness of fit and some comparisons. Journal of the American Statistical Association, 69, 730–737. 1974.

THODE JR., H.C. Testing for Normality. Marcel Dekker, New York. 2002.