Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
6 5
0.2
4
3 4
0.15 2
5
2
0.1
1
0.05
3 1
0
1 3 2 5 4 6
Pontos fortes do clustering hierárquico
– Divisivo:
Inicia com um cluster contendo todos os pontos
A cada passo divide um cluster até que cada cluster contenha
apenas um ponto (ou até que haja k clusters)
p1 p2 p3 p4 p5 ...
p1
Similaridade?
p2
p3
p4
p5
MIN
.
MAX
.
Média do grupo .
Matriz de proximidade
Distância entre centróides
Outros métodos dirigidos por uma
função objetivo
método de Ward
Como definir a similaridade entre clusters
p1 p2 p3 p4 p5 ...
p1
p2
p3
p4
p5
MIN
.
MAX
.
Média do grupo .
Matriz de proximidade
Distância entre centróides
Outros métodos dirigidos por uma
função objetivo
método de Ward
Como definir a similaridade entre clusters
p1 p2 p3 p4 p5 ...
p1
p2
p3
p4
p5
MIN
.
MAX
.
Média do grupo .
Matriz de proximidade
Distância entre centróides
Outros métodos dirigidos por uma
função objetivo
método de Ward
Como definir a similaridade entre clusters
p1 p2 p3 p4 p5 ...
p1
p2
p3
p4
p5
MIN
.
MAX
.
Média do grupo .
Matriz de proximidade
Distância entre centróides
Outros métodos dirigidos por uma
função objetivo
método de Ward
Como definir a similaridade entre clusters
p1 p2 p3 p4 p5 ...
p1
p2
p3
p4
p5
MIN
.
MAX
.
Média do grupo .
Matriz de proximidade
Distância entre centróides
Outros métodos dirigidos por uma
função objetivo
método de Ward
Algoritmo Geral de Agrupamento Hierárquico Aglomerativo
I1 I2 I3 I4 I5
I1 0.00
I2 0.10 0.00
I3 0.90 0.30 0.00
I4 0.35 0.40 0.60 0.00
I5 0.80 0.50 0.70 0.20 0.00 1 2 3 4 5
Clustering Hierárquico: MIN
5
1
3
5 0.2
2 1
2 3 6
0.15
0.1
4 0.05
4 0
3 6 2 5 4 1
13
Métodos hierárquicos aglomerativos
14
Exemplo: Single Link (MIN)
1. Método do vizinho mais próximo (Método da ligação simples-
Single Link)
Para o nosso exemplo suponha a seguinte matriz de distâncias:
A B C D E
B 0,67
C 1,41 0,74
E 0 ,79 0,67 1,09
DF
2 12
, 1,47 0 ,77 1,62
Passo 3: Agrupar A e B ao nível de 0,67, e recalcular:
E 1,09
DF
0,77 1,62
AB 0,74 0 ,67 1,47
Matriz resultante:
C DF
DF 0,77
0,74 1,47
ABE
18
Exemplo: Single Link
d ( DF , ABCE )
min{ d ( D , A ), d ( D , B ), d ( D ,C ), d ( D , E ), d ( F , A ), d ( F , B ), d ( F ,C ), d ( F , E )}
min{ 2 ,12;1,47;0 ,77;1,62;2 ,49;1,84;1,13;1,96 } 0 ,77
Matriz resultante:
DF
ABCE 0,77
19
Exemplo: Single Link
Resumindo-se, temos:
Nó Fusão Nível
1 DeF 0,37
2 AeB 0,67
3 AB e E 0,67
4 ABE e C 0,74
5 ABCE e DF 0,77
Dendograma:
1,0
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0,0
D F A B E C
20
Pontos fortes da MIN
I1 I2 I3 I4 I5
I1 0.00
I2 0.10 0.00
I3 0.90 0.30 0.00
I4 0.35 0.40 0.60 0.00
I5 0.80 0.50 0.70 0.20 0.00
1 2 3 4 5
Clustering hierárquico: MAX
4 1
2 5 0.4
0.35
5
2 0.3
0.25
3 6 0.2
3 0.15
1 0.1
4 0.05
0
3 6 4 1 2 5
d ( X ,Y ) maxd i , j : i X e j Y
Convém ressaltar que a fusão de dois grupos ainda é feita com os grupos mais
parecidos (menor distância).
Passo 1: inicialmente, cada caso forma um grupo, isto é, temos 6 grupos iniciais.
Passo 2: olhando-se a matriz de distâncias, abaixo, observa-se que as duas
observações mais próximas são D e F, corresponde a uma distância de 0,37, assim,
estas duas observações são agrupadas, formando o primeiro grupo. Necessita-se,
agora, das distâncias deste grupo aos demais. A partir da matriz de distâncias
iniciais tem-se: A B C D E
B 0 ,67 *
C
1,41 0 ,74
D 2 ,12 1,47 0 ,77
E
0 ,79 0 ,67 1,09 1,62
2 ,49 1,84 1,13 0 ,37 1,96 25
F
Exemplo: Complete Linkage
A B C E
B 0 ,67
C 1,41 0,74
E 0 ,79 0,67 1,09
DF
2 ,49 1,84 1,13 1,96
26
Exemplo: Complete Linkage
Temos:
C E DF
E 1,09
DF
1,13 1,96
AB 1,41 0,79 2 ,49
27
Exemplo: Complete Linkage
Matriz resultante:
C DF
DF 1,13
1,41 2 ,49
ABE
28
Exemplo: Complete Linkage
d (CDF , ABE )
max{d (C , A), d (C , B ), d (C , E ), d ( D, A), d ( D, B), d ( D, E ), d ( F , A), d ( F , B ), d ( F , E )}
max{1, 41;0, 74;1, 09; 2,12;1, 47;0, 77;1, 62; 2, 49;1,84;1,96} 2, 49
Matriz resultante:
CDF
ABE 2,49
29
Exemplo: Complete Linkage
Resumindo-se, temos:
Nó Fusão Nível
1 DeF 0,37
2 AeB 0,67
3 AB e E 0,79
4 DF e C 1,13
5 ABE e 2,49 Dendograma:
CDF
2,5
1,3
1,2
1,1
1,0
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0,0
D F C A B E
Ponto forte da MAX
p j Cluster j
distância(Clusteri , Clusterj )
|Clusteri ||Cluster j |
I1 I2 I3 I4 I5
I1 0.00
I2 0.10 0.00
I3 0.90 0.30 0.00
I4 0.35 0.40 0.60 0.00
I5 0.80 0.50 0.70 0.20 0.00
1 2 3 4 5
Clustering hierárquico: Média do grupo
5 4 1
2 0.25
5 0.2
2
0.15
3 6 0.1
1 0.05
4 0
3 3 6 4 1 2 5
A B C D E
B 0,67
C 1,41 0,74
D 2,12 1,47 0,77
0 ,79 0,67 1,09 1,62
E
F 2 ,49 1,84 1,13 0 ,37 1,96
A B C E
B 0,67
C 1,41 0 ,74
E 0 ,79 0 ,67 1,09
DF
2,30 1,66 0 ,95 1,79
E 1,09
DF
0,95 1,79
AB 1,08 0,73 1,98
37
Exemplo: Average Linkage
Matriz resultante:
C DF
DF 0,95
1,08 1,92
ABE
38
Exemplo: Average Linkage
Passo 5: Agrupar C com DF ao nível de 0,95, obtendo-se a partição (ABE,
CDF) e recalcular:
d ( CDF , ABE )
{ d ( C , A ) d ( C , B ) d ( C , E ) d ( D , A ) d ( D , B ) d ( D , E ) d ( F , A ) d ( F , B ) d ( F , E )} / 9
{ 1,41 0 ,74 1,09 2 ,12 1,47 1,62 2 ,49 1,84 1,96 } / 9 1,64
Matriz resultante:
CDF
ABE 1,64
Passo 6: O processo encerra reunindo num único grupo os conjuntos
ABE e CDF, que são similares a um nível de 1,64 .
39
Exemplo: Average Linkage
Resumindo-se, temos:
Nó Fusão Nível
1 DeF 0,37
2 AeB 0,67
3 AB e E 0,73
4 DF e C 0,95
5 ABE e 1,64
CDF
Observando o gráfico
Dendograma: 1,6
em forma de árvore
1,5 (dendograma), notamos
1,4
1,3 que o maior salto é
1,2 observado na última
1,1
1,0 etapa, sugerindo a
0,9
0,8
existência de dois
0,7 grupos homogêneos
0,6
0,5 (A,B,E) e (C,D,F).
0,4
0,3
0,2
0,1
0,0
D F C A B E
40
Clustering hierárquico: Média do grupo
Ponto forte
– Menos suscetível a ruído e outliers
Limitação
– Tendência de gerar clusters esféricos
Método de Ward (Ward’s method)
5
1 4 1
3
2 5
5 5
2 1 2
MIN MAX
2 3 6 3 6
3
1
4 4
4
5
1 5 4 1
2 2
5 Método de Ward
2 5
2
3 6 3 6
3
4 1 1
Média do grupo
4 4
3
Clustering Hierárquico: necessidades de tempo e espaço
45
45
O que são regiões densas ? Esparsas ?
Muitos ??
Vizinhança ??
Parâmetros de Ajuste
46
46
Parâmetros de Ajuste
Eps
MinPts = 13
47
DBSCAN (1996)
– Um noise point (ou outlier) é todo ponto que não é nem core
point nem border point.
48
DBSCAN (Ester 1996)
q
Eps
p minPts= 5
Eps= 1
Eps
Core point
Border point
noise
Observação
50
Exemplo
w q: core point
1 cm p: border point
w: outlier
p MinPts = 5
Eps = 1cm
q
51
Conexão por Densidade
p
q
O
04/02/2018
52
Parada do algoritmo
53
Parâmetros versus Tipos de clusters
54
Avaliação de desempenho: qualidade dos
clusters produzidos
55
Avaliação de desempenho: qualidade dos
clusteres produzidos
56
Vantagens e Desvantagens
Vantagens
Eficiente em tratar grandes bases de dados
Menos sensível a ruídos
Forma clusters de formato arbitrário
Usuário não precisa especificar a quantidade de
clusters
Desvantagens
Sensível aos parâmetros de entrada(Eps e MinPt)
Produz resultados não confiáveis se os clusteres têm
densidades muito diferentes.
57
DBSCAN: Core, Border and Noise Points
• Tolerante a ruído
• Pode tratar clusters de diferentes formas e tamanhos
Quando o DBSCAN não funciona bem
(MinPts=4, Eps=9.92).
Pontos originais
• Variação de densidades
• Dados com muitas dimensões
(MinPts=4, Eps=9.75)
OPTICS - Ordering Points to Identify the Clustering Structure
Utilizado para analisar a estrutura dos agrupamentos baseados em
densidade, através da variação do Eps para um mesmo número
mínimo de pontos (minPoints)
Eps
61
OPTICS - Ordering Points to Identify the Clustering Structure
DBSCAN Algorithm
Itens/Variáveis V1 V2
A 3 2
B 4 5
C 4 7
D 2 7
E 6 6
F 7 7
G 6 4
66
Passo 1: calcular a tabela de distâncias iniciais
A B C D
d(A,B) = |3-4| + |2-5| = 4
B 4 d(A,C) = |3-4| + |2-7| = 6
….
C 6 2
D 6 4 2
E 7 3 3 5
67