Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Deteco de Anomalias
AULA
DATA MINING
Motivao/Caso unidimensional
Mdia e mediana
Qual a mdia e a mediana da
seguinte srie de nmeros:
3
12
40
Mdia 15
Mediana 14
14
18
15
17
Outlier
Em uma srie de nmeros,
um nmero que muito
MAIOR ou MENOR que o
resto dos nmeros
chamado de Outlier.
Uma abordagem
simples para encontrar
outliers encontrar os 5
nmeros que
sumarizam a srie
12
40
14
18
15
17
12
14
15
17
18
40
14
15
17
18
40
15
17
18
40
12
12
14
Passo 4: Identificar a mediana entre o menor nmero e a mediana geral de toda a srie de
dados, e a mediana entre a mediana geral e o maior nmero na srie.
3
12
14
15
17
18
40
12
14
15
17
18
40
16
16
38
18
50
24
24
24
29
27
41
29
36
33
18
36
37
33
38
37
41
24
42
27
45
45
50
Menor
24
Mediana
Mediana
Mediana
Maior
33
39.5
50
19
11
21
13
10
11
13
10
14
20
15
14
18
15
19
18
20
21
Menor = 2
Mediana = 5.5
Mediana = 10.5
Mediana = 16.5
Maior = 21
12
14
15
17
18
1o
2o
3o
4o
Quartil
Quartil
Quartil
Quartil
40
12
14
15
17
18
40
12
14
15
17
18
17 - 9 = 8
40
12
14
15
17
18
40
IQR = 8
- 12
+ 12
12
14
15
17
18
40
IQR = 8
-3
39
OUTLIER
O que so outliers ?
Deteco de fraudes
Deteco de intruses
Sade pblica
Perturbaes em ecossistemas
Medicina
Enfoques estatsticos
Baseadas em distncia
Baseadas em densidade
Problema
Entrada
Saida
Algoritmo Simples
k = nmero de atributos do BD
N = nmero de tuplas do BD
Idia do algoritmo NL
Bloco A
Bloco A
Bloco B
Bloco C
Bloco D
Banco de Dados
Buffer
Para cada objeto t de A
- Cont := 0
- Para cada objeto s de A
se dist(t,s) d ento Cont:= Cont + 1
- se Cont M etiqueta-se t como no-outlier
Algoritmo NL
Bloco A
Bloco A
Bloco B
Bloco
BlocoDC
B
Bloco C
Bloco D
Banco de Dados
Buffer
Para cada objeto t de A no etiquetado
- Cont := 0
- Para cada objeto s de B
se dist(t,s) d ento Cont:= Cont + 1
- se Cont > M etiqueta-se t como no-outlier
Algoritmo NL
Bloco A
Bloco A
Bloco B
Bloco D
Bloco C
Bloco D
Banco de Dados
Buffer
Algoritmo NL
Bloco A
Bloco D
Bloco B
Bloco C
Bloco C
Bloco D
Banco de Dados
Buffer
Algoritmo NL
Bloco A
Bloco C
Bloco B
Bloco B
Bloco C
Bloco D
Banco de Dados
Buffer
Algoritmo NL
Bloco A
Bloco B
Bloco B
Bloco D
Bloco C
Bloco D
Banco de Dados
Buffer
Algoritmo NL - generalizao
Algoritmo FindAllOutsM
baseado em clulas
Hipteses simplificadoras
Generalizao
Estrutura de Clulas
Vizinhana de raio d
d
2 C2 = d2
C= d
2
L = tamanho da
clula =
d
22
Objeto (x,y)
Vizinhana L1(Cx,y)
L 2 = d/2
L
Logo : Toda d-vizinhana de um objeto em Cx,y contm a
clula inteira Cx,y
= 3L = 3 d
22
= 1,06 d > d
Logo, se q um objeto dentro da d-vizinhana de um objeto
p de Cx,y ento dist(q,p) d portanto q deve estar dentro de L2 U L1 U Cx,y
Logo a d-vizinhana de p est contida em L2 U L1 U Cx,y
De fato: Propriedade 1
De fato:
a d-vizinhana de p est contida em Cx,y U L1 U
L2
Portanto, a d-vizinhana de qualquer objeto de Cx,y
no contm mais do que M objetos.
Portanto, os objetos de Cx,y so todos outliers.
Algoritmo FindAllOutsM
baseado em clulas
Hipteses simplificadoras
Generalizao
Algoritmo FindAllOutsM
Seja m = nmero de clulas (calculado em
funo de d e do tamanho do BD )
1. Para cada q = 1, ..., m
Ct-q := 0
2.
Ct-p = Ct-w1
(pois toda d-vizinhana de p contm Cw U L1)
Caso k-dimensional
Caso k-dimensional
No caso k =2
L = tamanho da clula = d
22
Diagonal de um hipercubo k-dimensional de lado
L = Lk
Quanto deve valer L em funo de d para que as
propriedades 1 e 2 continuem valendo ?
L= d
2k
Caso k-dimensional
No caso bi-dimensional a espessura da vizinhana L2
2
Mostre que para que a propriedade 3 continue valendo
(distncia mnima entre um objeto de Cx,y e um
objeto fora de L2 deve ser > d)
suficiente que a espessura da vizinhana L2 deve
ser o primeiro inteiro maior ou igual a 2k - 1
Complexidade
O(ck + N)
N = Tamanho do BD
k = dimenso do BD
Complexidade
Referncias
Anlise comparativa de performance quando varia-se
N, p, d, k
Edwin M. Knorr, Raymond T. Ng: : Algorithms for
Mining Distance-Based Outliers in Large Datasets.
In Proc. 24th International Conference on Very
Large Databases, VLDB 1998, New York, USA.
D.Hawkins: Identification of Outliers. Chapman and
Hall, London, 1980.