Sei sulla pagina 1di 17

28/04/2009

Outliers

A existncia de observaes discordantes


com as restantes de relativamente fcil
determinao em amostras univariadas.
Por observao dos valores que constituem
a amostra ou pela anlise de alguns
grficos, fcil identificar as observaes
que se afastam da maioria

Outliers

Em dados multidimensionais, uma


observao considerada outlier se est
"muito" distante das restantes no espao p-
dimensional definido pelas variveis.

1
28/04/2009

Na utilizao de testes formais de outliers


dividem-se em duas classes:
aqueles em que as observaes discordantes da
amostra so identificadas como sendo outliers, e;
aqueles que testam a presena de outliers mas no
identificam observaes particulares como outliers.

aqueles que testam a presena de outliers mas


no identificam observaes particulares como
outliers.
estatstica de excesso de disperso (propagao),
estatsticas de amplitude/disperso,
estatstica de desvio/disperso,
estatsticas de "soma de quadrados",
estatsticas dos momentos de ordem superior e
estatsticas de localizao/extremos
4

2
28/04/2009

Outliers - 3 fases

Seleo de outlier
Verificao dos outlier
O que fazer com as observaes
discordantes ?

Tcnicas de Minerao de Excees


Classes de tcnicas: Caractersticas desejveis
Escalvel para alta
Semi-automtico: dimensionalidade
Visualizao
Interpretabilidade dos
Automtico resultados
Baseados em Computacionalmente
Clustering eficiente
Baseado em D importncia ao
Estatstica comportamento local
Baseado em dos dados
Desvio Ordenao dos outliers
Baseado em
Distncia
6

3
28/04/2009

Outliers

Mtodos baseados em Estatstica


Mtodos baseados em Distncia
Mtodos baseados em Agrupamento
Mtodos Baseados em Desvio

Outliers

4
28/04/2009

Outliers

Boxplot

Mnimo da amostra Mximo da amostra


mas no menos de mas no mais de
Q1-1.5(Q3-Q1) Q3+1.5(Q3-Q1)

10
10

5
28/04/2009

Boxplot
Pode ser encarada como a representao
grfica de algumas medidas de localizao:
mediana
Q1 Q3 outliers e extremos

11
11

Minerao de Outliers Baseada em


Estatstica
Assume distribuio ou modelo probabilstico para um
conjunto de dados
Ex: distribuio normal

Usa Teste de discordncia (TD) identifica os outliers


com respeito ao modelo escolhido
Se um objeto for significativamente maior ou menor
que o modelo escolhido ele uma exceo
O TD examina 2 hipteses:
Uma hiptese de trabalho (hiptese nula)
Uma hiptese alternativa

6
28/04/2009

modelo de discordncia
considerada a hiptese nula, segundo a qual a amostra foi
retirada de uma populao com distribuio especfica que pode
ou no ser conhecida e ser especificada completamente ou no, e
onde no existem observaes "anormais".
Em oposio, a hiptese alternativa considera que todas as
observaes ou apenas as "anormais" tm uma distribuio
diferente da hiptese nula.
A hiptese nula ser rejeitada em favor da hiptese alternativa se
existirem observaes aberrantes.

13

Minerao de Outliers Baseada em


Estatstica
Vantagens: Limitaes:
Pode ser avaliado o nvel de O modelo escolhido
significncia de uma exceo influencia a identificao dos
Usa mtodos estatstico Outliers
consolidados ao longo dos Testa aberrao ao longo de
tempos apenas uma nica dimenso
Dificuldade na escolha de
uma distribuio

7
28/04/2009

Outliers

Mtodos baseados em Estatstica


Mtodos baseados em Distncia
Mtodos baseados em Agrupamento
Mtodos Baseados em Desvio

Minerao de Outliers Baseada em


Distncia: Dk(p)
Busca Resolver limitaes do estatstico
Um outlier determinado baseado na distancia Dk(p)
Dk(p)= distncia de p ao seu k-esimo vizinho
Evita suposio sobre distribuio dos dados
Menor custo computacional
Pode, s vezes, convergir para os mtodos estatsticos
Desvantagem
No escalvel para mais que 5 dimenses

8
28/04/2009

Deteco de Outliers Baseada em


Distncias: Dk(p)
Para cada ponto p no conjunto de dados calcula Dk(p)
Para calcular cada Dk(p) percorre todos os dados
Mantm uma lista de k vizinhos mais prximo para cada ponto p
Os n pontos com maior valor de Dk(p) so os n outliers
Para melhorar a eficincia pode-se considerar blocos de pontos ao invs
de pontos individuais

Exemplo: IRIS

18

9
28/04/2009

Exemplo: IRIS

19

Exemplo: IRIS

20

10
28/04/2009

Exemplo: IRIS

21

Exemplo: IRIS

22

11
28/04/2009

Deteco de Outliers Baseada em


Distncias: Dk(p)
Algoritmo Baseado em parties
Detecta os n outliers mais fortes
k
Os outliers so ordenados pela distncia D (p)

Baseia se na distncia dos vizinhos mais prximos


O conjunto de dados divididos em parties por meio de
algoritmos de agrupamento
Poda parties que no so candidatas a conter outlier
Acelera a identificao pois diminui a quantidade de
pontos

Deteco de Outliers Baseada em


Distncias : Dk(p)
Algoritmo Baseado em parties (passos)
Gerar parties
Atravs de clustering
Calcular limites Dk para os pontos em cada partio
P.upper=max(Dk) e P.lower=min(Dk) dos pontos da partio P
Identificar parties candidatas a conter excees
P.upperminDkDist=min{Pi.lower:1 i l}
Pi.lower>Pj.lower>..>Pl.lower e o nmero de pontos seja pelo menos
n
Computar excees com os pontos nas parties candidatas
P.neighbors denota as parties vizinhas de P a uma distncia de
P.upper

12
28/04/2009

Deteco de Outliers Baseada em


Distncias : Dk(p)
Algoritmo Baseado em parties (passos)

O nmero total de pontos a ser examinado para calcular outlier


o das parties candidatas+os de suas vizinhas

Outliers

Mtodos Baseados em Estatstica


Mtodos baseados em Distncia
Mtodos Baseados em Agrupamento
Mtodos Baseados em Desvio

13
28/04/2009

Outliers - baseada em clustering

Dados que no se ajustam a nenhum grupo so


considerados excees

Inserir figura exemplo aqui

Minerao de exceo baseada em


agrupamento
Vantagens Limitaes
Reutiliza vasto O que se busca
leque de mtodos otimizar os
de agrupamentos agrupamentos, no
a deteco de
No requer excees
conhecimento O que exceo
prvio de para uma
distribuio configurao pode
no ser para outra

14
28/04/2009

Outliers

Mtodos Baseados em Estatstica


Mtodos baseados em Distncia
Mtodos Baseados em Agrupamento
Mtodos Baseados em Desvio
Mtodos Baseados em Densidade

Minerao de Outliers Baseada em


Desvio
No usa mtodos estatsticos nem medidas de
distncia
Define exceo como pontos cujo valor
desviam da maioria de uma, algumas ou
todas as dimenses
Excees so equivalentes a Desvios de
comportamento

15
28/04/2009

Outliers

Mtodos Baseados em Estatstica


Mtodos baseados em Distncia
Mtodos Baseados em Agrupamento
Mtodos Baseados em Desvio
Mtodos Baseados em Densidade

Minerao de Outliers Baseada em


Densidade de Distribuio
Baseada no Local Outlier Factor (LOF) que a mdia das
densidade do exemplo p e a densidade dos seus vizinhos mais
prximos.
LOF depende da densidade local da sua vizinhaa.
A vizinhaa definida pela distncia em relao aos MinPts-th que
so os vizinhos mais prximos, onde MinPts o nmero mnimo
de pontos considerados como vizinhos mais prximos.
Os passos do processo so:
Computam a densidade da vizinhaa local de cada ponto.
Computam LOF.
Escolhem exemplos p com maiores LOF como outliers.

16
28/04/2009

Minerao de Outliers Baseada em


Densidade de Distribuio
Na abordagem K-vizinhos p2 no
considerado como outlier, enquanto a para a
abordagem LOF, p1 e p2 so outliers.

Em uso tpico, pontos


com altos LOF so
considerados como
outliers.

33

Referncias
Data Mining: concepts and techniques, de Han, J. &
Kamber, M., Morgan Kaufmann , 2001
Efficient Algoritms for Mining Outliers from Data sets.
Sridhar Ramaswamy, Rajeev Ratogi e Kyuseok Shim.
2000
Outlier Detection for High Dimensional Data. Charu C.
Aggarwal e Philip S. Yu. 2001
Identification of Outliers, D. Hawkins, Chapman and Hall,
London, 1980.

17

Potrebbero piacerti anche