Sei sulla pagina 1di 14

Clustering

Il clustering raggruppa insiemi di oggetti con cui ci dobbiamo prima o poi


relazionarci, per un qualche futuro utilizzo o semplicemente per trovare più
facilmente gli oggetti al momento del bisogno.

 Nel data mining e nel machine learning, il clustering è una delle tecniche più
importanti di raggruppamento di oggetti.

 Il Data Mining è il processo di esplorazione ed analisi di grandi quantità di dati al


fine di trovare modelli (o pattern) dai dati ed utilizzarli per un determinato scopo.

 Il Machine Learning ha l’obiettivo di creare algoritmi che permettono ai computer


di imparare in modo automatico da una certa esperienza.
Clustering
 Dato un insieme di oggetti di cardinalità elevata, ogni oggetto può essere
classificato sulla base del valore assunto da n grandezze e rappresentato da
un punto in uno spazio n-dimensionale.

 Un cluster è un sottoinsieme di oggetti «simili» ovvero caratterizzati da


volori vicini delle grandezze in gioco.
Clustering
 Dati due punti di coordinate e di coordinate , la distanza euclidea è una
misura della dissimilarità dei due oggetti.

Rappresentazione del problema mediante un grafo G(V,A):


  L’insieme dei nodi è costituito dai punti dello spazio euclideo rappresentativi
dei singoli oggetti oggetti .
  L’insieme degli archi è costituito da tutte le coppie di nodi .

  Ad ogni arco è associato un costo pari alla distanza euclidea tra i due nodi

Si vuole trovare la partizione di V in k classi (o cluster), con k prefissato, che


minimizzi la somma dei pesi degli archi incidenti in nodi appartenenti a una

stessa classe.
Clustering

Ad ogni cluster è possibile associare un centroide, ossia un punto dello spazio


euclideo posto al centro del cluster e rappresentativo di tutti gli elementi
appartenenti allo stesso cluster.

Il centroide può
essere reale ovvero
coincidere con uno
degli oggetti del
cluster

Oppure immaginario cioè


può essere un punto dello
spazio euclideo a cui non
corrisponde alcun
elemento del cluster
Clustering
Nel caso in cui si è interessati a centroidi che corrispondano ad elementi reali, il
problema di clustering può essere modellato come un problema di p-mediana in
cui:

i) Ciascuna mediana corrisponde ad un centroide


ii) Il cluster rappresentato da un centroide è costituito da tutti i
nodi afferenti al centroide

min d
i , jV
x
ij ij
Minimizza la somma delle distanze di
ogni nodo dal suo centroide

y
jV
j p Fissa il numero di centroidi (cluster)

x
jV
ij 1 i  V Ogni elemento deve afferire ad un centroide

0  xij  y j i, j  V Un elemento i può affeerire a j


solo se j è un centroide

y j   0,1 j  V
P-median problem
Algoritmo di Teitz e Bart
L’algoritmo di Teitz e Bart è un algoritmo migliorativo basato sul concetto di saving
dovuto alla sostituzione di un centro aperto con un altro.
Sia S l’insieme dei p centri aperti ed S’ l’insieme dei centri non aperti

 Al passo iniziale, l’algoritmo sceglie (anche a caso) p centri di servizio da aprire

 Alla generica iterazione, per ogni coppia i є S e j є S’ calcola il saving


sij  z ( S )  z ( S  {i}  { j})
 Effettua la sostituzione cui corrisponde il saving più alto; se tutti i saving sono
non positivi l’algoritmo si arresta.

Osservazione
Se un nodo j є S’ non genera alcun saving, anche nelle successive iterazioni non
potrà generare saving e quindi può non essere considerato
P-median problem
Algoritmo di Teitz e Bart, esempio

 𝑃=3

Inizializzazione:

𝑆={1,2,3
  }  𝑧 ( 𝑆 ) =𝑐 4,1 +𝑐 5,1 +𝑐 5,2=12

Iterazione 1, calcolo dei saving:


     
     
     
P-median problem
Algoritmo di Teitz e Bart, esempio

 𝑃=3

𝑆={2,3,4
  }  𝑧 ( 𝑆 ) =𝑐 1,4 +𝑐 5,4 + 𝑐6,2 =10

Iterazione 2, calcolo dei saving:


     
   
2  
     

I nodi 1 e 5 possono non essere considerati nelle successive iterazioni


P-median problem
Algoritmo di Teitz e Bart, esempio

 𝑃=3

𝑆={2,4,6
  }  𝑧 ( 𝑆 ) =𝑐 1,4 +𝑐 3,4 + 𝑐5,4 =9

Iterazione 3, calcolo dei saving:


 
 
 

Tutti i saving sono negativi e la procedura termina


Clustering
Algoritmo k-means

Ad ogni cluster è possibile associare un centroide, ossia un punto dello spazio


euclideo posto al centro del cluster e rappresentativo di tutti gli elementi
appartenenti allo stesso cluster.

 Il centroide o baricentro di un cluster è un punto dello spazio


euclideo a cui non corrisponde alcun elemento del cluster

 Ogni elemento (nodo) viene assegnato al cluster con il baricentro


più vicino
Clustering
Algoritmo k-means
 Seleziona k centroidi iniziali

 Assegna ogni elemento (nodo) al cluster con il centroide più vicino

Per ogni elemento x il centroide c a cui viene


assegnato è dato da:
  𝑐 = 𝑎𝑟𝑔 min 𝑑𝑖𝑠𝑡 (𝑐 𝑖 , 𝑥 )
𝑐𝑖 ∈𝐶

 Per ogni cluster aggiorna la posizione dei rispettivi centroidi

La posizione del nuovo centroide sarà la media della


posizione di tutti gli elementi (nodi) che sono stati assegnati
al nuovo cluster
  1
𝑐 𝑖= ∑ 𝑥𝑖
|𝐾 𝑖| 𝑥 ∈ 𝐾 𝑖

 Itera i passi precedenti fino ad arrivare a convergenza


Clustering
Algoritmo k-means, esempio:
Clustering
Algoritmo k-means, esempio:
Clustering
Algoritmo k-means, esempio:

Potrebbero piacerti anche