Inf Clustering

Clustering
Il clustering raggruppa insiemi di oggetti con cui ci dobbiamo prima o poi

relazionarci, per un qualche futuro utilizzo o semplicemente per trovare più
facilmente gli oggetti al momento del bisogno.
 Nel data mining e nel machine learning, il clustering è una delle tecniche più
importanti di raggruppamento di oggetti.
 Il Data Mining è il processo di esplorazione ed analisi di grandi quantità di dati al

fine di trovare modelli (o pattern) dai dati ed utilizzarli per un determinato scopo.
 Il Machine Learning ha l’obiettivo di creare algoritmi che permettono ai computer

di imparare in modo automatico da una certa esperienza.
Clustering
 Dato un insieme di oggetti di cardinalità elevata, ogni oggetto può essere
classificato sulla base del valore assunto da n grandezze e rappresentato da
un punto in uno spazio n-dimensionale.
 Un cluster è un sottoinsieme di oggetti «simili» ovvero caratterizzati da

volori vicini delle grandezze in gioco.
Clustering
Dati due punti di coordinate e di coordinate , la distanza euclidea è una
misura della dissimilarità dei due oggetti.
Rappresentazione del problema mediante un grafo G(V,A):

 L’insieme dei nodi è costituito dai punti dello spazio euclideo rappresentativi
dei singoli oggetti oggetti .
 L’insieme degli archi è costituito da tutte le coppie di nodi .
 Ad ogni arco è associato un costo pari alla distanza euclidea tra i due nodi
Si vuole trovare la partizione di V in k classi (o cluster), con k prefissato, che

minimizzi la somma dei pesi degli archi incidenti in nodi appartenenti a una
stessa classe.
Clustering
Ad ogni cluster è possibile associare un centroide, ossia un punto dello spazio

euclideo posto al centro del cluster e rappresentativo di tutti gli elementi
appartenenti allo stesso cluster.
Il centroide può
essere reale ovvero
coincidere con uno
degli oggetti del
cluster
Oppure immaginario cioè

può essere un punto dello
spazio euclideo a cui non
corrisponde alcun
elemento del cluster
Clustering
Nel caso in cui si è interessati a centroidi che corrispondano ad elementi reali, il
problema di clustering può essere modellato come un problema di p-mediana in
cui:
i) Ciascuna mediana corrisponde ad un centroide

ii) Il cluster rappresentato da un centroide è costituito da tutti i
nodi afferenti al centroide
min d
i , jV
x
ij ij
Minimizza la somma delle distanze di
ogni nodo dal suo centroide
y
jV
j p Fissa il numero di centroidi (cluster)
x
jV
ij 1 i  V Ogni elemento deve afferire ad un centroide
0  xij  y j i, j  V Un elemento i può affeerire a j

solo se j è un centroide
y j   0,1 j  V
P-median problem
Algoritmo di Teitz e Bart
L’algoritmo di Teitz e Bart è un algoritmo migliorativo basato sul concetto di saving
dovuto alla sostituzione di un centro aperto con un altro.
Sia S l’insieme dei p centri aperti ed S’ l’insieme dei centri non aperti
 Al passo iniziale, l’algoritmo sceglie (anche a caso) p centri di servizio da aprire
 Alla generica iterazione, per ogni coppia i є S e j є S’ calcola il saving

sij  z ( S )  z ( S  {i}  { j})
 Effettua la sostituzione cui corrisponde il saving più alto; se tutti i saving sono
non positivi l’algoritmo si arresta.
Osservazione
Se un nodo j є S’ non genera alcun saving, anche nelle successive iterazioni non
potrà generare saving e quindi può non essere considerato
P-median problem
Algoritmo di Teitz e Bart, esempio
𝑃=3
Inizializzazione:
𝑆={1,2,3
} 𝑧 ( 𝑆 ) =𝑐 4,1 +𝑐 5,1 +𝑐 5,2=12
Iterazione 1, calcolo dei saving:

P-median problem
𝑃=3
𝑆={2,3,4
} 𝑧 ( 𝑆 ) =𝑐 1,4 +𝑐 5,4 + 𝑐6,2 =10

2

I nodi 1 e 5 possono non essere considerati nelle successive iterazioni

P-median problem
𝑃=3
𝑆={2,4,6
} 𝑧 ( 𝑆 ) =𝑐 1,4 +𝑐 3,4 + 𝑐5,4 =9

Tutti i saving sono negativi e la procedura termina

Clustering
Algoritmo k-means
Ad ogni cluster è possibile associare un centroide, ossia un punto dello spazio

euclideo posto al centro del cluster e rappresentativo di tutti gli elementi
appartenenti allo stesso cluster.
 Il centroide o baricentro di un cluster è un punto dello spazio

euclideo a cui non corrisponde alcun elemento del cluster
 Ogni elemento (nodo) viene assegnato al cluster con il baricentro

più vicino
Clustering
Algoritmo k-means
 Seleziona k centroidi iniziali
 Assegna ogni elemento (nodo) al cluster con il centroide più vicino
Per ogni elemento x il centroide c a cui viene

assegnato è dato da:
𝑐 = 𝑎𝑟𝑔 min 𝑑𝑖𝑠𝑡 (𝑐 𝑖 , 𝑥 )
𝑐𝑖 ∈𝐶
 Per ogni cluster aggiorna la posizione dei rispettivi centroidi
La posizione del nuovo centroide sarà la media della

posizione di tutti gli elementi (nodi) che sono stati assegnati
al nuovo cluster
1
𝑐 𝑖= ∑ 𝑥𝑖
|𝐾 𝑖| 𝑥 ∈ 𝐾 𝑖
 Itera i passi precedenti fino ad arrivare a convergenza

Clustering
Algoritmo k-means, esempio:
Clustering
Clustering

Inf Clustering

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Inf Clustering

Caricato da

Copyright:

Formati disponibili

Clustering

Il clustering raggruppa insiemi di oggetti con cui ci dobbiamo prima o poi

 Il Data Mining è il processo di esplorazione ed analisi di grandi quantità di dati al

 Il Machine Learning ha l’obiettivo di creare algoritmi che permettono ai computer

 Un cluster è un sottoinsieme di oggetti «simili» ovvero caratterizzati da

Rappresentazione del problema mediante un grafo G(V,A):

Si vuole trovare la partizione di V in k classi (o cluster), con k prefissato, che

Ad ogni cluster è possibile associare un centroide, ossia un punto dello spazio

Oppure immaginario cioè

i) Ciascuna mediana corrisponde ad un centroide

0  xij  y j i, j  V Un elemento i può affeerire a j

 Al passo iniziale, l’algoritmo sceglie (anche a caso) p centri di servizio da aprire

 Alla generica iterazione, per ogni coppia i є S e j є S’ calcola il saving

Iterazione 1, calcolo dei saving:

Iterazione 2, calcolo dei saving:

I nodi 1 e 5 possono non essere considerati nelle successive iterazioni

Iterazione 3, calcolo dei saving:

Tutti i saving sono negativi e la procedura termina

Ad ogni cluster è possibile associare un centroide, ossia un punto dello spazio

 Il centroide o baricentro di un cluster è un punto dello spazio

 Ogni elemento (nodo) viene assegnato al cluster con il baricentro

 Assegna ogni elemento (nodo) al cluster con il centroide più vicino

Per ogni elemento x il centroide c a cui viene

 Per ogni cluster aggiorna la posizione dei rispettivi centroidi

La posizione del nuovo centroide sarà la media della

 Itera i passi precedenti fino ad arrivare a convergenza

Potrebbero piacerti anche