Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
A preocupao com observaes outliers antiga e data das primeiras tentativas de analisar um conjunto de dados. Inicialmente pensava-se que a melhor forma de lidar com este tipo de observaes seria atravs da sua eliminao da anlise. As opinies no eram unnimes: uns defendiam a rejeio das observaes inconsistentes com as restantes, enquanto outros afirmavam que as observaes nunca deveriam ser rejeitadas simplesmente por parecerem inconsistentes com os restantes dados e que todas as observaes deviam contribuir com igual peso para o resultado final.
2
Antes de decidir o que dever ser feito s observaes outliers conveniente ter conhecimento das causas que levam ao seu aparecimento. Em muitos casos as razes da sua existncia determinam as formas como devem ser tratadas. Assim, as principais causas que levam ao aparecimento de outliers so: Erros de medio; Erros de execuo; Variabilidade inerente dos elementos da populao.
Deteco de fraudes. Comportamento de gastos de consumidores. Em anlises mdicas (resultados no esperados de tratamentos). Pesquisa farmacutica. Marketing. Etc.
Outliers: Estudo.
O estudo de outliers, independentemente da(s) sua(s) causa(s), pode ser realizado em vrias fases: A fase inicial a da identificao das observaes que so potencialmente aberrantes. A identificao de outliers consiste na deteco, com mtodos subjectivos, das observaes surpreendentes. A identificao feita, geralmente, por anlise grfica ou, no caso de um nmero de dados ser pequeno, por observao directa dos mesmos. So assim identificadas as observaes que tm fortes possibilidades de virem a ser designadas por outliers.
5
Na segunda fase, tem-se como objectivo a eliminao da subjectividade inerente fase anterior. Pretende-se saber se as observaes identificadas como outliers potenciais o so, efectivamente. So efectuados testes ou s observaes preocupantes. Devem ser escolhidos os testes mais adequados para a situao em estudo. As observaes suspeitas so testadas quanto sua discordncia. Se for aceite a hiptese de algumas observaes serem outliers, elas podem ser designadas como
discordantes. Uma observao diz-se discordante se puder considerar-se inconsistente com os restantes valores depois da aplicao de um critrio estatstico objectivo. Muitas vezes o termo discordante usado como sinnimo de outlier.
Na ltima fase necessrio decidir o que fazer com as observaes discordantes. A maneira mais simples de lidar com essas observaes elimin-las. Como j foi dito, esta abordagem, apesar de ser muito utilizada, no aconselhvel. Ela s se justifica no caso de os outliers serem devidos a erros cuja correco invivel. Caso contrrio, as observaes consideradas como outliers devem ser tratadas cuidadosamente pois contm informao relevante sobre caractersticas subjacentes aos dados e podero ser decisivas no conhecimento da populao qual pertence a amostra em estudo.
Grfico de Box Modelos de discordncia Teste de Dixon Teste de Grubbs Z-scores etc
Grfico de Box-Plot O grfico de Box construdo da seguinte forma: Calcula-se a mediana, o quartil inferior (Q1) e o quartil superior (Q3); Subtrai-se o quartil superior do quartil inferior = (L) Os valores que estiverem no intervalo de Q3+1,5L e Q3+3L e no intervalo Q1-1,5L e Q1-3L, sero considerados outliers podendo, portanto ser aceitos na populao com alguma suspeita; Os valores que forem maiores que Q3+3L e menores que Q1-3L devem ser considerados suspeitos de pertencer populao, devendo ser investigada a origem da disperso. Estes pontos so chamados de extremos.
Moroco, J. (2003), Anlise Estatstica de dados com utilizao do SPSS, Edies Slabo, Lisboa, pg. 36
10
Modelos de discordncia: Num modelo de discordncia considera-se que num dado conjunto de dados, se existirem observaes aberrantes elas tm distribuio diferente das restantes observaes ou distribuies idnticas mas com parmetros diferentes.
H0: a amostra foi retirada de uma populao com distribuio especfica que pode ou no ser conhecida e ser especificada completamente ou no, e onde no existem observaes anormais H1: todas as observaes ou apenas as anormais tm distribuio diferente da da hiptese nula.
11
A hiptese nula ser rejeitada a favor da hiptese alternativa se existirem observaes aberrantes.
Para decidir pela aceitao ou rejeio da hiptese nula, da no existncia de outliers necessrio utilizar testes de discordncia que tenham distribuio desconhecida ou valores crticos tabelados. Na utilizao de testes formais de outliers deve ter-se em conta que eles dividem-se em duas classes: aqueles em que as observaes discordantes da amostra so identificadas como sendo outliers, e aqueles que testam a presena de outliers mas no identificam
12
observaes particulares.
13
Teste de Dixon Distribuio normal; teste bilateral. Ordenar os valores de forma crescente de 1 a H. Supor a hiptese de que o menor valor, 1, ou o maior valor, H, so suspeitos como valores outliers.
14
Extremo superior
D= z ( H ) z ( H 1) z ( H ) z (1)
- n=3 a 7
z ( H ) z (1)
z ( 2 ) z (1)
- n=8 a 12
Q=
z ( H 1) z (1)
z ( 3) z (1)
D=
z ( H ) z ( H 1) z ( H ) z ( 2)
- n > 13
D=
z ( H 2 ) z (1)
D=
z ( H ) z ( H 2) z ( H ) z ( 3)
15
Se D > valor crtico, temos a presena de um outlier. n 3 4 5 6 7 8 9 10 11 12 13 14 Valor crtico de D para P=0,05 0,970 0,829 0,710 0,628 0,569 0,608 0,504 0,530 0,502 0,479 0,611 0,589
16
Teste de Grubbs Distribuio normal; Calcular desvio di de cada ponto em relao mdia
di = xi x
Calcular o desvio-padro s Calcular G=di/s
xi x G= s
Um valor considerado como outlier quando G maior do que o valor crtico correspondente na tabela.
17
n 3 4 5 6 7 8 9 10 11 12 14 16 18 20 50
Gcrit 95 % 1,154 1,481 1,715 1,887 2,020 2,127 2,215 2,290 2,355 2,412 2,507 2,586 2,652 2,708 3,128
18
Z-Scores
Calcular os z-scores, isto , os valores z-standardizados dos dados. Se o conjunto dos dados pequeno (inferior a 50), valores que tenham zscores inferiores a -2.5 ou superiores a 2.5 devem ser considerados outliers. Se o conjunto dos dados grande, valores que tenham z-socres inferiores a -3.3 ou superiores a 3.3 so tipicamente considerados outliers. Se o conjunto dos dados muito grande (1000 ou mais), tambm valores mais extremos do que +-3.3 podem ser considerados dados normais e no outliers.
19
Exemplo:
Olhemos para este conjunto de 10 observaes: Observao 1 2 3 4 5 6 7 8 9 10 X 111 92 90 107 98 150 118 110 117 94 Y 68 46 50 59 50 66 54 51 59 97
20
Utilizando a tcnica dos Z Scores a observao 5 da varivel X um outlier, o mesmo acontece para a observao 10 da varivel Y. Observao 1 2 3 4 5 6 7 8 9 10 z-score de X z-score de Y
0.129702456075883 0.5388159060803247 -0.9417526158553188 -0.9429278356405683 -1.05453736026913 -0.6735198826004059 -0.09586703275173845 -0.06735198826004059 -0.6033983826138867 -0.6735198826004059 2.329004972145192 0.4041119295602435 0.5244490615242204 -0.4041119295602435 0.0733100838689776 -0.6061678943403653 0.4680566893173151 -0.06735198826004059 -0.8289678714415081 2.492023565621502
21
22
Box Plot de Y
23
Para aplicar o Teste de Dixon varivel X necessrio ordenar os valores por ordem crescente: 90, 92, 94, 98, 107, 110, 111, 117, 118, 150. O ltimo valor suspeito com outlier. Como temos n=10 observaes, calculemos
Da tabela apresentada anteriormente para o teste de Dixon, para uma amostra de tamanho 10, o valor crtico de D igual a 0.530 (para p=0.05). Como o valor de D excede esse valor, a observao suspeita efectivamente um outlier.
24
Da tabela apresentada anteriormente para o teste de Grubbs, para uma amostra de tamanho 10, o valor crtico de G igual a 2.290 (para p=0.05). Como o valor de G, para a observao 97, excede esse valor, a observao um outlier. Yi 68 46 50 59 50 66 54 51 59 97 di 8 14 10 1 10 6 6 9 1 37 G 0,54 0,94 0,67 0,07 0,67 0,4 0,4 0,61 0,07 2,49
Exerccios:
1. Os valores seguintes referem-se s concentraes de nitrito numa amostra de gua de um rio: 0.403, 0.410, 0.401 e 0.380. A ltima observao suspeita: dever ser considerada um outlier? 2. Os dados que se seguem referem-se precipitao (em mm) cada num determinada cidade durante 5 meses: 53.5, 61.5, 62.3, 64.9, 40.6. Algum dos valores referidos anteriormente pode ser considerado um outlier? 3. Os valores seguintes referem-se produo de trigo: 12.0, 12.4, 13.0, 11.8, 14.0, 12.8, 14.0, 13.5, 12.6, 13.0, 12.6, 12.7. Algum dos valores referidos anteriormente pode ser considerado um outlier?
26
4. Considere os seguintes tempos de hemodilise (em meses) em 14 doentes transplantados: 51, 24, 55, 75, 24, 27, 22, 23, 48, 18, 96, 24, 26 e 35. Verifique se alguma destas observaes pode ser considerada um outlier.
27
Bibliografia
Figueira, M.M.C, Identificao de Outliers, MILLENIUM n12 Outubro de 1998. Morel P., Validao e Incerteza na Medio Analtica, Ministrio da Sade, ANVISA / GGLAS
http://www.anvisa.gov.br/reblas/cursos_gglas/validacao_incertezas_pierre_2.pdf
Miler, J.C. e Miler, J.N. (1988), Statistics for Analytical Chemistry second edition, John Wiley & Sons, New York, Chichester, Brisbane, Toronto.
28