Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
2
O que é formação de agrupamentos (clustering)?
Inerentemente é um problema
não definido claramente
O que é formação de agrupamentos (clustering)?
Com bico
Inerentemente é um problema
não definido claramente
Sem bico
O que é formação de agrupamentos (clustering)?
Inerentemente é um problema
não definido claramente
Água Terra
O que é formação de agrupamentos (clustering)?
Ave
Inerentemente é um problema
não definido claramente
Mamífero
O que é formação de agrupamentos (clustering)?
Distâncias entre
Distâncias intra- cluster são
cluster são maximizadas
minimizadas
Aplicações de clustering
– Agrupar documentos
1 Cabletron-Sys-DOWN,CISCO-DOWN,HP-DOWN,
DSC-Comm-DOWN,INTEL-DOWN,LSI-Logic-DOWN,
Micron-Tech-DOWN,Texas-Inst-Down,Tellabs-Inc-Down,
Technology1-DOWN
Natl-Semiconduct-DOWN,Oracl-DOWN,SGI-DOWN,
relacionados, agrupar Sun-DOWN
Apple-Comp-DOWN,Autodesk-DOWN,DEC-DOWN,
preço
4 Louisiana-Land-UP,Phillips-Petro-UP,Unocal-UP,
Schlumberger-UP
Oil-UP
Sumarização
– Reduzir o tamanho de
grandes conjuntos de
dados
Agrupando a
precipitação na
Austrália
A noção de cluster pode ser ambígua
kn/k!
E se o número de clusters é
desconhecido, precisamos somar todas
as partições possíveis para cada número
de clusters entre 2 e 5 (desconsiderando
um só cluster).
11
Dificuldades
Porque a efetividade dos algoritmos de Clustering é um
problema:
12
Dificuldades
2. Os algoritmos são muito sensíveis a estes valores de
parâmetros, freqüentemente produzindo partições
muito diferentes do conjunto de dados mesmo para
ajustes de parâmetros significativamente pouco
diferentes.
13
Medidas de Similaridade
As medidas de similaridade fornecem valores
numéricos que expressam a “distância” entre
dois objetos.
14
Medidas de Similaridade
Uma função de distância deve ser tal que:
d ( x, y ) ( x1 y1 ) 2 ( x2 y2 ) 2 ... ( x p y p ) 2
City block (Manhattan, taxicab, L1 norm,
Hamming)
– Um exemplo comum é a distância de Hamming, que é o número de bits
que é diferente entre dois vetores binários
d ( x, y ) x1 y1 x2 y2 ... x p y p
Métrica de Canberra
p
xi yi
d x , y
i 1 xi yi
coeficiente de CzeKanowski
p
2 min x i , yi
d x , y 1 i1
p
x
i1
i yi
17
Medidas de Similaridade
Não há uma medida de similaridade que sirva para
todos os tipos de variáveis que podem existir
numa base de dados.
Variáveis numéricas:
A medida que é normalmente usada para
computar as dissimilaridades de objetos
descritos por variáveis numéricas é a
Distancia Euclidiana
18
Medidas de Similaridade
0, se a1 = a2
d(x1,y1) =
1, se a1 a2
Medidas de Similaridade
Hierárquica
– Um conjunto de clusters aninhados organizados como uma árvore
Baseadas em densidade
– Encontra clusters baseado na densidade de regiões
Variáveis
Item x1 x2
A 5 3
B -1 1
C 1 -2
D -3 -2
k-means (Exemplo)
Passo 1
C1(1) = (5,3)
C2(1) = (-1,1)
k-means (Exemplo)
Passo 2:
Os clusters são:
C1 = {A}
C2 = {B,C,D}
C1(2)= (5,3)
C2(2)=
k-means (Exemplo)
Passo 4: novo cálculo dos clusters
Os clusters são:
C1 = {A}
C2 = {B,C,D}
Pois:
• A está mais perto de C12 do
que de C22
• B, C e D estão mais perto de
C22 do que de C12
2.5
2
Pontos originais
1.5
y
1
0.5
3 3
2.5 2.5
2 2
1.5 1.5
y
y
1 1
0.5 0.5
0 0
Iteration 6
1
2
3
4
5
3
2.5
1.5
y
0.5
2 2 2
y
1 1 1
0 0 0
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2
x x x
2 2 2
y
1 1 1
0 0 0
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2
x x x
Avaliando os clusters gerados
Iteration 5
1
2
3
4
3
2.5
1.5
y
0.5
Iteration 1 Iteration 2
3 3
2.5 2.5
2 2
1.5 1.5
y
y
1 1
0.5 0.5
0 0
2 2 2
y
1 1 1
0 0 0
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2
x x x
Exemplo com 10 clusters
Iteration 4
1
2
3
8
2
y
-2
-4
-6
0 5 10 15 20
x
Iniciando com dois centróides em um cluster para cada par de clusters
Exemplo com 10 clusters
Iteration 1 Iteration 2
8 8
6 6
4 4
2 2
y
y
0 0
-2 -2
-4 -4
-6 -6
0 5 10 15 20 0 5 10 15 20
x x
Iteration 3 Iteration 4
8 8
6 6
4 4
2 2
y
y
0 0
-2 -2
-4 -4
-6 -6
0 5 10 15 20 0 5 10 15 20
x x
2
y
-2
-4
-6
0 5 10 15 20
x
Iniciando com um par de clusters tendo 3 centróides iniciais e outro par com somente um.
Exemplo com 10 clusters
Iteration 1 Iteration 2
8 8
6 6
4 4
2 2
y
y
0 0
-2 -2
-4 -4
-6 -6
0 5 10 15 20 0 5 10 15 20
Iteration
x 3 Iteration
x 4
8 8
6 6
4 4
2 2
y
y
0 0
-2 -2
-4 -4
-6 -6
0 5 10 15 20 0 5 10 15 20
x x
Iniciando com um par de clusters tendo 3 centróides iniciais e outro par com somente um.
Pré e Pós-processamento
Pré-processamento
– Normalize os dados
– Elimine exceções (outliers)
Pós-processamento
– Elimine clusters pequenos que podem representar
outliers
– Divida clusters “fracos” i.e., clusters com SSE
relativamente alto
– Junte clusters que estão “perto” e que tenham SSE
relativamente baixo
Limitações do K-médias