12 - Clustering (Parte 2)

Formação de agrupamentos:
conceitos básicos e algoritmos (parte 2)
Prof. Me. Ricardo Ávila

ricardo.avila@outlook.com.br
Clustering hierárquico
 Produz um conjunto de clusters aninhados,

organizados como uma árvore
 Pode ser visualizado como um dendrograma
– Um diagrama em forma de árvore que registra a
sequencia de uniões ou divisões
6 5
0.2
4
3 4
0.15 2
5
2
0.1
1
0.05
3 1
0
1 3 2 5 4 6
Pontos fortes do clustering hierárquico
 Não precisa assumir nenhum número particular

de clusters
– Qualquer número desejado de clusters pode ser
obtido “cortando” o dendograma no nível adequado
 Podem corresponder a taxonomias

– Exemplo em biologia: o reino animal
Clustering hierárquico
 Dois tipos principais

– Aglomerativo:
 Inicia com cada ponto como um cluster individual
 A cada passo une o par de pontos mais próximos até que reste
somente um cluster (ou k clusters)
– Divisivo:
 Inicia com um cluster contendo todos os pontos
 A cada passo divide um cluster até que cada cluster contenha
apenas um ponto (ou até que haja k clusters)
 Os algoritmos tradicionais usam uma matriz de

similaridade ou de proximidade (distância)
– Unem ou dividem um cluster de cada vez
Como definir a similaridade entre clusters
p1 p2 p3 p4 p5 ...
p1
Similaridade?
p2
p3
p4
p5
 MIN
.
 MAX
.
 Média do grupo .
Matriz de proximidade
 Distância entre centróides
 Outros métodos dirigidos por uma
função objetivo
 método de Ward
p1 p2 p3 p4 p5 ...
p1
p2
p3
p4
p5
 MIN
.
 MAX
.
função objetivo
 método de Ward
p1 p2 p3 p4 p5 ...
p1
p2
p3
p4
p5
 MIN
.
 MAX
.
função objetivo
 método de Ward
p1 p2 p3 p4 p5 ...
p1
p2
p3
p4
p5
 MIN
.
 MAX
.
função objetivo
 método de Ward
p1 p2 p3 p4 p5 ...
p1
  p2
p3
p4
p5
 MIN
.
 MAX
.
função objetivo
 método de Ward
Algoritmo Geral de Agrupamento Hierárquico Aglomerativo
Passo 1: Iniciar o agrupamento formado por grupos Unitários (cada

ponto é um cluster)
Passo 2: Encontre, no agrupamento corrente, o par de grupos de

dissimilaridade (distância) mínima (= similaridade máxima)
Passo 3: Construa um novo grupo pela fusão desse par de grupos

de dissimilaridade mínima
Passo 4: Atualize a matriz de dissimilaridades: suprima as linhas e

as colunas correspondentes aos grupos fusionados e adicione
uma linha e uma coluna correspondente as dissimilaridades
entre o novo grupo e os grupos antigos
Passo 5: Se todos os objetos estão agrupados, pare; senão vá

para o passo 2
10
Similaridade MIN ou Single Link
 A similaridade entre dois clusters é baseada nos

dois pontos mais similares (mais próximos) dos
dois clusters diferentes
– Determinada por um par de pontos, i.e., por um link
na matriz de distância.
I1 I2 I3 I4 I5
I1 0.00
I2 0.10 0.00
I3 0.90 0.30 0.00
I4 0.35 0.40 0.60 0.00
I5 0.80 0.50 0.70 0.20 0.00 1 2 3 4 5
Clustering Hierárquico: MIN
5
1
3
5 0.2
2 1
2 3 6
0.15
0.1
4 0.05
4 0
3 6 2 5 4 1
Clusters aninhados Dendrograma

Métodos hierárquicos aglomerativos
Para ilustrar os procedimentos de diversos algoritmos
vamos usar o seguinte exemplo.
Exemplo: pretende-se investigar, de forma exploratória, o histórico de
crescimento corpóreo das pessoas. O pesquisador gostaria de escolher
representantes “típicos” da população para tentar traçar diferentes
históricos. O objetivo operacional passou a ser o de agrupar os
indivíduos da população alvo segundo as variáveis peso e altura.
Os dados de seis pessoas foram:
Indivíduo Altura Peso Idade Instrução Cor Sexo

A 180 79 30 univ. Preta M
B 175 75 28 univ. Branca M
C 170 70 20 secund. Branca F
D 167 63 25 univ. Parda F
E 180 71 18 secund. Parda M
F 165 60 28 primário branca F
13
Métodos hierárquicos aglomerativos
Como temos duas variáveis com unidades diferentes,

usar-se-á a normalização dos dados, onde cada valor será
subtraído da média de todas as observações e dividido
pelo desvio padrão de todas as observações. A nova
tabela fica:
Indivíduo Altura Peso Zaltura Zpeso

A 180 79 1,10 1,31
B 175 75 0,33 0,75
C 170 70 -0,44 0,05
D 167 63 -0,90 -0,93
E 180 71 1,10 0,19
F 165 60 -1,21 -1,35
14
Exemplo: Single Link (MIN)
1. Método do vizinho mais próximo (Método da ligação simples-
Single Link)
Para o nosso exemplo suponha a seguinte matriz de distâncias:
A B C D E
B 0 ,67 *  Sempre é uma matriz

C   quadrada e simétrica
 1,41 0 ,74 
D  2 ,12 1,47 0 ,77 
E
 
 0 ,79 0 ,67 1,09 1,62  1,10  0,33  1,31  0,75
 2 ,49 1,84 1,13 0 ,37 1,96 
*
0,67 
F
 2
Indivíduo Altura Peso Zaltura Zpeso

A 180 79 1,10 1,31
B 175 75 0,33 0,75
C 170 70 -0,44 0,05
D 167 63 -0,90 -0,93
E 180 71 1,10 0,19
F 165 60 -1,21 -1,35 15
Exemplo: Single Link
 Passo 1: inicialmente, cada caso forma um grupo, isto é, temos 6 grupos
iniciais.
 Passo 2: olhando-se a matriz de distâncias, observa-se que as duas
observações mais próximas são D e F, corresponde a uma distância de 0,37,
assim, estas duas observações são agrupadas, formando o primeiro grupo.
Necessita-se, agora, das distâncias deste grupo aos demais. A partir da matriz
de distâncias iniciais têm-se:
d ( A, DF )  min{d ( A, D), d ( A, F )}  min{2,12 ; 2,49}  2,12

d ( B, DF )  min{d ( B, D), d ( B, F )}  min{1,47 ; 1,84}  1,47
d (C , DF )  min{d (C , D), d (C , F )}  min{0,77 ; 1,13}  0,77
d ( E , DF )  min{d ( E , D), d ( E , F )}  min{1,62 ; 1,96}  1,62
Com isso, temos a seguinte matriz de distâncias: 16

A B C E
B 0,67 
C  1,41 0,74 
 
E 0 ,79 0,67 1,09 
 
DF
 2 12
, 1,47 0 ,77 1,62 
 Passo 3: Agrupar A e B ao nível de 0,67, e recalcular:
d ( C , AB )  min{ d ( C , A ), d ( C , B )}  min{ 1,41;0 ,74 }  0 ,74

d ( E , AB )  min{ d ( E , A ), d ( E , B )}  min{ 0,79;0 ,67 }  0,67
d ( DF , AB )  min{ d ( D , A ), d ( D , B ), d ( F , A ), d ( F , B )} 
min{ 2 ,12;1,47;2 ,49;1,84 }  1,47
A matriz resultante será:
17
C E DF
E 1,09 
DF
0,77 1,62 
 
AB 0,74 0 ,67 1,47 
 Passo 4: Agrupar AB com E ao nível de 0,67, e recalcular:
d ( C , ABE )  min{ d ( C , A ), d ( C , B ), d ( C , E )}  min{ 1,41;0 ,74;1,09 }  0 ,74

d ( DF , ABE )  min{ d ( D , A ), d ( D , B ), d ( D , E ), d ( F , A ), d ( F , B ), d ( F , E )} 
min{ 2 ,12;1,47;1,62;2 ,49;1,84;1,96 }  1,47
Matriz resultante:
C DF
DF 0,77 
0,74 1,47
ABE  
18
 Passo 5: Agrupar C com ABE ao nível de 0,74, e recalcular:
d ( DF , ABCE ) 
min{ d ( D , A ), d ( D , B ), d ( D ,C ), d ( D , E ), d ( F , A ), d ( F , B ), d ( F ,C ), d ( F , E )} 
min{ 2 ,12;1,47;0 ,77;1,62;2 ,49;1,84;1,13;1,96 }  0 ,77
Matriz resultante:
DF
ABCE 0,77
 Passo 6: O último passo cria um único agrupamento contendo os

6 objetos, que serão similares a um nível de 0,77. Este nivel
corresponde a altura no dendograma
19
Resumindo-se, temos:
Nó Fusão Nível
1 DeF 0,37
2 AeB 0,67
3 AB e E 0,67
4 ABE e C 0,74
5 ABCE e DF 0,77
Dendograma:
1,0
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0,0
D F A B E C
20
Pontos fortes da MIN
Pontos originais Dois Clusters

Limitações da MIN
• Sensível a ruído e outliers

Similaridade MAX ou Complete Linkage
 A similaridade entre dois clusters é baseada nos pontos

menos similares (mais distantes) entre os dois clusters
(mas escolhe-se a menor distância máxima)
– Determinada por todos os pares de pontos dos dois clusters
I1 I2 I3 I4 I5
I1 0.00
I2 0.10 0.00
I3 0.90 0.30 0.00
I4 0.35 0.40 0.60 0.00
I5 0.80 0.50 0.70 0.20 0.00
1 2 3 4 5
Clustering hierárquico: MAX
4 1
2 5 0.4
0.35
5
2 0.3
0.25
3 6 0.2
3 0.15
1 0.1
4 0.05
0
3 6 4 1 2 5

2. Método do vizinho mais longe (Método da ligação completa – Complete Linkage)
Define-se a distância entre os grupos X e Y como:
d ( X ,Y )  maxd i , j  : i  X e j  Y 
Convém ressaltar que a fusão de dois grupos ainda é feita com os grupos mais
parecidos (menor distância).
 Passo 1: inicialmente, cada caso forma um grupo, isto é, temos 6 grupos iniciais.
 Passo 2: olhando-se a matriz de distâncias, abaixo, observa-se que as duas
observações mais próximas são D e F, corresponde a uma distância de 0,37, assim,
estas duas observações são agrupadas, formando o primeiro grupo. Necessita-se,
agora, das distâncias deste grupo aos demais. A partir da matriz de distâncias
iniciais tem-se: A B C D E
B 0 ,67 * 
C  
 1,41 0 ,74 
D  2 ,12 1,47 0 ,77 
E
 
 0 ,79 0 ,67 1,09 1,62 
 2 ,49 1,84 1,13 0 ,37 1,96  25
F

Exemplo: Complete Linkage
d ( A, DF )  max{d ( A, D ), d ( A, F )}  max{2,12;2,49}  2,49

d (B, DF )  max{d (B, D ), d (B, F )}  max{1,47;1,84}  1,84
d (C, DF )  max{d (C, D ), d (C, F )}  max{0,77;1,13}  1,13
d (E, DF )  max{d (E, D ), d (E, F )}  max{1,62;1,96}  1,96
A B C E
B 0 ,67 
C  1,41 0,74 
 
E 0 ,79 0,67 1,09 
 
DF
 2 ,49 1,84 1,13 1,96 
 Passo 3: Agrupar A e B ao nível de 0,67, e recalcular:
26
d ( C , AB )  max{ d ( C , A ), d ( C , B )}  max{ 1,41;0 ,74 }  1,41

d ( E , AB )  max{ d ( E , A ), d ( E , B )}  max{ 0,79;0 ,67 }  0 ,79
d ( DF , AB )  max{ d ( D , A ), d ( D , B ), d ( F , A ), d ( F , B )} 
max{ 2 ,12;1,47;2 ,49;1,84 }  2,49
Temos:
C E DF
E 1,09 
DF
1,13 1,96 
 
AB 1,41 0,79 2 ,49
27
d ( C , ABE )  max{ d ( C , A ), d ( C , B ), d ( C , E )}  max{ 1,41;0,74;1,09 }  1,41

d ( DF , ABE )  max{ d ( D , A ), d ( D , B ), d ( D , E ), d ( F , A ), d ( F , B ), d ( F , E )} 
max{ 2 ,12;1,47;1,62;2,49;1,84;1,96 }  2 ,49
Matriz resultante:
C DF
DF 1,13 
1,41 2 ,49
ABE  
28
 Passo 5: Agrupar C com DF ao nível de 1,13, e recalcular:
d (CDF , ABE ) 
max{d (C , A), d (C , B ), d (C , E ), d ( D, A), d ( D, B), d ( D, E ), d ( F , A), d ( F , B ), d ( F , E )} 
max{1, 41;0, 74;1, 09; 2,12;1, 47;0, 77;1, 62; 2, 49;1,84;1,96}  2, 49
Matriz resultante:
CDF
ABE 2,49
 Passo 6: O último passo cria um único agrupamento contendo

os 6 objetos, que serão similares a um nível de 2,49.
29
Nó Fusão Nível
1 DeF 0,37
2 AeB 0,67
3 AB e E 0,79
4 DF e C 1,13
5 ABE e 2,49 Dendograma:
CDF
2,5
1,3
1,2
1,1
1,0
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0,0
D F C A B E
Ponto forte da MAX
• Menos suscetível a ruído e outliers

Limitações da MAX
•Tendência a quebrar clusters grandes

Similaridade: Média do grupo
 A distância de dois clusters é dada pela média da distância

entre pares de pontos dos dois clusters.
 distância(p , p )
p i Clusteri
i j
p j Cluster j
distância(Clusteri , Clusterj ) 
|Clusteri ||Cluster j |
I1 I2 I3 I4 I5
I1 0.00
I2 0.10 0.00
I3 0.90 0.30 0.00
I4 0.35 0.40 0.60 0.00
I5 0.80 0.50 0.70 0.20 0.00
1 2 3 4 5
Clustering hierárquico: Média do grupo
5 4 1
2 0.25
5 0.2
2
0.15
3 6 0.1
1 0.05
4 0
3 3 6 4 1 2 5

Exemplo: Clustering hierárquico: Média do grupo
Dada a matriz de distâncias:
A B C D E
B 0,67 
C  1,41 0,74 
 
D  2,12 1,47 0,77 
 
0 ,79 0,67 1,09 1,62
E

F 2 ,49 1,84 1,13 0 ,37 1,96
 Passo 1: inicialmente, cada caso forma um grupo, isto é, temos 6 grupos

iniciais.
 Passo 2: olhando-se a matriz de distâncias, observa-se que as duas
observações mais próximas são D e F, corresponde a uma distância de
0,37, assim, esta duas observações são agrupadas, formando o primeiro
grupo. Necessita-se, agora, das distâncias deste grupo aos demais. A
partir da matriz de distâncias iniciais tem-se:
35
Exemplo: Average Linkage
d ( A, DF )  { d ( A, D )  d ( A, F )} / 2  { 2 ,12  2 ,49 } / 2  2 ,30

d ( B , DF )  { d ( B , D )  d ( B , F )} / 2  { 1,47  1,84 } / 2  1,66
d ( C , DF )  { d ( C , D )  d ( C , F )} / 2  { 0 ,77  1,13 } / 2  0,95
d ( E , DF )  { d ( E , D )  d ( E , F )} / 2  { 1,62  1,96 } / 2  1,79
A B C E
B 0,67 
C  1,41 0 ,74 
 
E 0 ,79 0 ,67 1,09 
 
DF
 2,30 1,66 0 ,95 1,79
Com a obtenção da matriz de distâncias conclui-se o passo 2, que

reuniu os pontos D e F, num nível igual à 0,37.
36
 Passo 3: Analisando a nova matriz de similaridade, nota-se que existem
dois pares com a mesma proximidade: A com B e B com E. Recomenda-se
selecionar aleatoriamente um dos pares e criar o novo grupo. Então, neste
caso, agrupa-se A com B.
d (C , AB)  {d (C , A)  d (C , B )} / 2  {1,41  0,74} / 2  1,08

d ( E , AB)  {d ( E , A)  d ( E , B )} / 2  {0,79  0,67} / 2  0,73
d ( DF , AB)  {d ( D, A)  d ( D, B )  d ( F , A)  d ( F , B)} / 4 
{2,12  1,47  2,49  1,84} / 4  1,98
Temos:
C E DF
E 1,09 
DF
0,95 1,79 
 
AB 1,08 0,73 1,98
37
d (C , ABE )  {d (C , A)  d (C , B)  d (C , E )} / 3  {1,41  0,74  1,09} / 3  1,08

d ( DF , ABE )  {d ( D, A)  d ( D, B)  d ( D, E )  d ( F , A)  d ( F , B )  d ( F , E )} / 6 
{2,12  1,47  1,62  2,49  1,84  1,96} / 6  1,92
Matriz resultante:
C DF
DF 0,95 
1,08 1,92
ABE  
38
 Passo 5: Agrupar C com DF ao nível de 0,95, obtendo-se a partição (ABE,
CDF) e recalcular:
d ( CDF , ABE ) 
{ d ( C , A )  d ( C , B )  d ( C , E )  d ( D , A )  d ( D , B )  d ( D , E )  d ( F , A )  d ( F , B )  d ( F , E )} / 9 
{ 1,41  0 ,74  1,09  2 ,12  1,47  1,62  2 ,49  1,84  1,96 } / 9  1,64
Matriz resultante:
CDF
ABE 1,64
 Passo 6: O processo encerra reunindo num único grupo os conjuntos
ABE e CDF, que são similares a um nível de 1,64 .
39
Nó Fusão Nível
1 DeF 0,37
2 AeB 0,67
3 AB e E 0,73
4 DF e C 0,95
5 ABE e 1,64
CDF
Observando o gráfico
Dendograma: 1,6
em forma de árvore
1,5 (dendograma), notamos
1,4
1,3 que o maior salto é
1,2 observado na última
1,1
1,0 etapa, sugerindo a
0,9
0,8
existência de dois
0,7 grupos homogêneos
0,6
0,5 (A,B,E) e (C,D,F).
0,4
0,3
0,2
0,1
0,0
D F C A B E
40
Clustering hierárquico: Média do grupo
 Compromisso entre MAX e MIN
 Ponto forte
– Menos suscetível a ruído e outliers
 Limitação
– Tendência de gerar clusters esféricos
Método de Ward (Ward’s method)
 A similaridade de dois clusters é baseada no

aumento do erro quadrado quando dois clusters
são unidos
– Similar a média do grupo se a distância entre os
pontos é a distância ao quadrado
 Menos suscetível a ruído e outliers
 Tendência de gerar clusters esféricos
 Clustering Hierárquico análogo ao K-means

– Pode ser usado para inicializar o K-means
Clustering Hierárquico: uma comparação
5
1 4 1
3
2 5
5 5
2 1 2
MIN MAX
2 3 6 3 6
3
1
4 4
4
5
1 5 4 1
2 2
5 Método de Ward
2 5
2
3 6 3 6
3
4 1 1
Média do grupo
4 4
3
Clustering Hierárquico: necessidades de tempo e espaço
 O(N2) para espaço usando matriz de

proximidade.
– N é o número de pontos.
 O(N3) para o tempo em muitos casos

– Tem N passos e em cada passo a matriz de tamanho
N2 tem que ser atualizada e percorrida
– A complexidade pode ser reduzida para O(N2 log(N) )
em algumas abordagens
Algoritmos Baseados em Densidade
 Definição: Clusters são regiões de alta

densidade de padrões separadas por regiões
com baixa densidade, no espaço de padrões.
 Algoritmos baseados em densidade são

projetados para encontrar clusters com base na
definição de centro
45
45
O que são regiões densas ? Esparsas ?
Definição baseada em centros:

– Uma região densa é uma região onde cada ponto
tem muitos pontos em sua vizinhança.
Muitos ??
Vizinhança ??
Parâmetros de Ajuste
46
46
Parâmetros de Ajuste
 Vizinhança: raio Eps

 Muitos.. : MinPts
 Assim, uma região densa é uma região em que
todos os pontos têm pelo menos MinPts pontos
num raio de Eps ao seu redor
Eps
MinPts = 13
47
DBSCAN (1996)
 DBSCAN é um algoritmo baseado em

densidade
– Densidade = número de pontos dentro de um raio
especificado (Eps)
– Um ponto é um core point se ele tem mais de um número

especificado de pontos (MinPts) dentro do círculo de raio
Eps
 Estes são pontos que pertencem a um cluster
– Um border point tem menos do que MinPts dentro do

círculo de raio Eps, mas ele está na vizinhança (definida por
Eps) de um core point
– Um noise point (ou outlier) é todo ponto que não é nem core
point nem border point.
48
DBSCAN (Ester 1996)
Core and border points

r
Eps
q
Eps
p minPts= 5
Eps= 1
Eps
Core point
Border point
noise
Observação
 A densidade de cada objeto depende dos

parâmetros Eps e MinPts
 Se Eps é muito grande, então é possivel que
todos os objetos tenham densidade grande (= m
= número de objetos da base).
 Se Eps é muito pequeno, então é possível que
todos os objetos tenham baixa densidade.
50
Exemplo
w q: core point
1 cm p: border point
w: outlier
p MinPts = 5
Eps = 1cm
q
51
Conexão por Densidade
Um ponto p é conectado por densidade a um

ponto q (com respeito aos parâmetros Eps,
MinPts) se existir um objeto O tal que p e q são
alcançáveis por densidade a partir de O.
Neste caso todos os pontos dentro do eps pertencem ao mesmo cluster
p
q
O
04/02/2018
52
Parada do algoritmo
 O algoritmo pára quando não há mais

possibilidade de se juntar clusters
53
Parâmetros versus Tipos de clusters
Eps MinPt Resultado

Alto Alto Poucos clusters, grandes e densos
Baixo Baixo Muitos clusters, pequenos e menos

densos
Alto Baixo Clusters grandes e menos densos
Baixo Alto Clusters pequenos e muito densos
54
Avaliação de desempenho: qualidade dos
clusters produzidos
Agrupamentos descobertos por CLARANS
55
Avaliação de desempenho: qualidade dos
clusteres produzidos
Agrupamentos descobertos por DBSCAN
56
Vantagens e Desvantagens
 Vantagens
 Eficiente em tratar grandes bases de dados
 Menos sensível a ruídos
 Forma clusters de formato arbitrário
 Usuário não precisa especificar a quantidade de
clusters
 Desvantagens
 Sensível aos parâmetros de entrada(Eps e MinPt)
 Produz resultados não confiáveis se os clusteres têm
densidades muito diferentes.
57
DBSCAN: Core, Border and Noise Points
Pontos originais Point types: core,

border and noise
Eps = 10, MinPts = 4

Quando o DBSCAN funciona bem
Pontos originais Clusters
• Tolerante a ruído
• Pode tratar clusters de diferentes formas e tamanhos
Quando o DBSCAN não funciona bem
(MinPts=4, Eps=9.92).
Pontos originais
• Variação de densidades
• Dados com muitas dimensões
(MinPts=4, Eps=9.75)
OPTICS - Ordering Points to Identify the Clustering Structure
Utilizado para analisar a estrutura dos agrupamentos baseados em
densidade, através da variação do Eps para um mesmo número
mínimo de pontos (minPoints)
Eps
61
OPTICS - Ordering Points to Identify the Clustering Structure
DBSCAN Algorithm
 Eliminate noise points

 Perform clustering on the remaining points
Referências
K-means
 MacQueen, J. B. (1967). "Some Methods for classification and
Analysis of Multivariate Observations". Proceedings of 5th Berkeley
Symposium on Mathematical Statistics and Probability. University of
California Press. pp. 281–297
PAM  L. Kaufman and P.J. Rousueeuw. (1990) Finding Groups in Data: an
Introduction to Cluster Analysis, John Wiley & Sons
CLARANS  Raymond T. Ng, Jiawei Han(1994) Efficient and Effective Clustering
Methods for Spatial Data Mining. Proceedings of the 20th VLDB
Conference, Santiago, Chile. pp 144-155
DBSCAN  M. Ester, H-P. Kriegel, J. Sander, X. Xu. A Density-Based Algorithm for
Discovering Clusters in Large Spatial Databases with Noise. Proc. KDD
1996.
OPTICS  Mihael Ankerst, Markus M. Breunig, Hans-Peter Kriegel, Jörg
Sander (1999). "OPTICS: Ordering Points To Identify the Clustering
Structure". ACM SIGMOD international conference on Management
of data. ACM Press. pp. 49–60
Hierárquicos  N. Jardine, R.Sibson. Mathematical Taxonomy.Wiley, New York,
1971.
Referências
K-means
 MacQueen, J. B. (1967). "Some Methods for classification and
Analysis of Multivariate Observations". Proceedings of 5th Berkeley
Symposium on Mathematical Statistics and Probability. University of
California Press. pp. 281–297
PAM  L. Kaufman and P.J. Rousueeuw. (1990) Finding Groups in Data: an
Introduction to Cluster Analysis, John Wiley & Sons
CLARANS  Raymond T. Ng, Jiawei Han(1994) Efficient and Effective Clustering
Methods for Spatial Data Mining. Proceedings of the 20th VLDB
Conference, Santiago, Chile. pp 144-155
DBSCAN  M. Ester, H-P. Kriegel, J. Sander, X. Xu. A Density-Based Algorithm for
Discovering Clusters in Large Spatial Databases with Noise. Proc. KDD
1996.
OPTICS  Mihael Ankerst, Markus M. Breunig, Hans-Peter Kriegel, Jörg
Sander (1999). "OPTICS: Ordering Points To Identify the Clustering
Structure". ACM SIGMOD international conference on Management
of data. ACM Press. pp. 49–60
Hierárquicos  N. Jardine, R.Sibson. Mathematical Taxonomy.Wiley, New York,
1971.
Exercícios
Para o quadro abaixo, aplique o algoritmo aglomerativo MIN (single
link) e apresente o dendograma final com o passo a passo.
Itens/Variáveis V1 V2
A 3 2
B 4 5
C 4 7
D 2 7
E 6 6
F 7 7
G 6 4
66
Passo 1: calcular a tabela de distâncias iniciais
A B C D
d(A,B) = |3-4| + |2-5| = 4
B 4 d(A,C) = |3-4| + |2-7| = 6
….
C 6 2
D 6 4 2
E 7 3 3 5
67

12 - Clustering (Parte 2)

Caricato da

Informazioni sul documento

Descrizione originale:

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

12 - Clustering (Parte 2)

Caricato da

Copyright:

Formati disponibili

Formação de agrupamentos:

conceitos básicos e algoritmos (parte 2)

Prof. Me. Ricardo Ávila

 Produz um conjunto de clusters aninhados,

 Não precisa assumir nenhum número particular

 Podem corresponder a taxonomias

 Dois tipos principais

 Os algoritmos tradicionais usam uma matriz de

Passo 1: Iniciar o agrupamento formado por grupos Unitários (cada

Passo 2: Encontre, no agrupamento corrente, o par de grupos de

Passo 3: Construa um novo grupo pela fusão desse par de grupos

Passo 4: Atualize a matriz de dissimilaridades: suprima as linhas e

Passo 5: Se todos os objetos estão agrupados, pare; senão vá

 A similaridade entre dois clusters é baseada nos

Clusters aninhados Dendrograma

Indivíduo Altura Peso Idade Instrução Cor Sexo

Como temos duas variáveis com unidades diferentes,

Indivíduo Altura Peso Zaltura Zpeso

B 0 ,67 *  Sempre é uma matriz

Indivíduo Altura Peso Zaltura Zpeso

d ( A, DF )  min{d ( A, D), d ( A, F )}  min{2,12 ; 2,49}  2,12

Com isso, temos a seguinte matriz de distâncias: 16

d ( C , AB )  min{ d ( C , A ), d ( C , B )}  min{ 1,41;0 ,74 }  0 ,74

 Passo 4: Agrupar AB com E ao nível de 0,67, e recalcular:

d ( C , ABE )  min{ d ( C , A ), d ( C , B ), d ( C , E )}  min{ 1,41;0 ,74;1,09 }  0 ,74

 Passo 5: Agrupar C com ABE ao nível de 0,74, e recalcular:

 Passo 6: O último passo cria um único agrupamento contendo os

Pontos originais Dois Clusters

Pontos originais Dois Clusters

• Sensível a ruído e outliers

 A similaridade entre dois clusters é baseada nos pontos

Clusters aninhados Dendrograma

Define-se a distância entre os grupos X e Y como:

d ( A, DF )  max{d ( A, D ), d ( A, F )}  max{2,12;2,49}  2,49

 Passo 3: Agrupar A e B ao nível de 0,67, e recalcular:

d ( C , AB )  max{ d ( C , A ), d ( C , B )}  max{ 1,41;0 ,74 }  1,41

 Passo 4: Agrupar AB com E ao nível de 0,79, e recalcular:

d ( C , ABE )  max{ d ( C , A ), d ( C , B ), d ( C , E )}  max{ 1,41;0,74;1,09 }  1,41

 Passo 5: Agrupar C com DF ao nível de 1,13, e recalcular:

 Passo 6: O último passo cria um único agrupamento contendo

Pontos originais Dois Clusters

• Menos suscetível a ruído e outliers

Pontos originais Dois Clusters

•Tendência a quebrar clusters grandes

 A distância de dois clusters é dada pela média da distância

Clusters aninhados Dendrograma

Dada a matriz de distâncias:

 Passo 1: inicialmente, cada caso forma um grupo, isto é, temos 6 grupos

d ( A, DF )  { d ( A, D )  d ( A, F )} / 2  { 2 ,12  2 ,49 } / 2  2 ,30

Com a obtenção da matriz de distâncias conclui-se o passo 2, que

d (C , AB)  {d (C , A)  d (C , B )} / 2  {1,41  0,74} / 2  1,08

 Passo 4: Agrupar AB com E ao nível de 0,73, e recalcular:

d (C , ABE )  {d (C , A)  d (C , B)  d (C , E )} / 3  {1,41  0,74  1,09} / 3  1,08

 Compromisso entre MAX e MIN

 A similaridade de dois clusters é baseada no

 Menos suscetível a ruído e outliers

 Tendência de gerar clusters esféricos

 Clustering Hierárquico análogo ao K-means

 O(N2) para espaço usando matriz de

 O(N3) para o tempo em muitos casos

 Definição: Clusters são regiões de alta

 Algoritmos baseados em densidade são

Definição baseada em centros: