Stat Im113 05 PDF

Statistica per l’Impresa
a.a. 2016/2017
Tecniche di Analisi Multidimensionale

Analisi dei Gruppi
Roberta Pappadà
Trieste, 3 maggio 2017
Indice
X Analisi dei Gruppi: Introduzione
X Misure di distanza e indici di similarità

3. Metodi gerarchici
• Algoritmi agglomerativi
• Algoritmi divisivi
4. Metodi non gerarchici

• Metodo delle k-medie
5. Valutazione di un raggruppamento
6. Applicazione in ambito aziendale
1
Metodi gerarchici
Metodi gerarchici e non clustering
Partitional
Partitional clustering
Hierarchical
Punti originali Partitional Clustering Traditional Hierarchical Clustering

Punti originali Partitional Clustering
dati clustering non gerarchico clustering gerarchico
Data e Web Mining. - S. Orlando 33
Data e Web Mining. - S. Orlando 33
Metodi di Partizione (non gerarchici) Dato un valore k, trova

un partizionamento in k gruppi che soddisfa determinati criteri
Metodi Gerarchici I gruppi sono annidati, e organizzati all’interno
di albero gerarchico; non richiede il numero di gruppi come input
Introduzione 2
Metodi gerarchici: Introduzione
I metodi gerarchici organizzano i dati in sequenze di partizioni

nidificate:
• prendono come input la matrice delle dissimilarità = [di,j ];

• determinano una famiglia di partizioni Pn , Pn 1 , . . . , P1 in cui
il numero dei gruppi g varia da 1 a n, in modo che la
partizione in i + 1 gruppi sia ottenuta dalla partizione in i
gruppi facendo di uno degli elementi di quest’ultima due
elementi della prima;
• la strategia divisiva (top-down) parte dall’insieme delle unità
e procede suddividendolo via via; quella agglomerativa
(bottom-up) parte dalle singole unità e forma i gruppi per
fusioni successive.
Introduzione 3
Metodi gerarchici agglomerativi
A partire dalla matrice delle dissimilarità (distanze) i seguenti step

vengono eseguiti in modo iterativo.
Algoritmo
(0) si considerano i gruppi C1 , . . . , Cn , ciascuno contenente una

singola unità;
(1) si identificano i due clusters più ‘vicini’, cioè quelli per cui è
minimo il valore nella matrice di dissimilarità e si procede
all’unione dei due gruppi in un nuovo gruppo (quindi si
aggiorna la matrice delle distanze, che ora avrà n 1 righe ed
n 1 colonne);
(2) se il numero di gruppi ottenuto dalla fusione è uguale a 1,
stop. Altrimenti, ritorna a (1).
Algoritmi agglomerativi 4
Struttura di raggruppamento: il dendrogramma
Dendrogramma: le diverse famiglie di partizioni sono rappresentate

graficamente mediante una struttura ad albero, che evidenzia i
gruppi che si formano a ogni stadio della classificazione e fornisce
indicazioni riguardo al numero dei gruppi da considerare
• Le successive partizioni
individuate da un
dendrogramma sono
nidificate;
• le unità sono sull’asse
orizzontale, mentre l’altezza
del segmento che unisce due
unità corrisponde alla distanza
tra esse
Distanze tra gruppi (I)
Come calcoliamo la distanza tra i gruppi Cl , Cm , l 6= m ?

Siano Cl e Cm , due gruppi qualsiasi nella gerarchia e sia d(Cl , Cm )
la misura della distanza tra essi.
• Criterio del legame singolo (single linkage o nearest
neighbour): la distanza tra Cl e Cm è uguale alla distanza
minima tra tutte le coppie di unità appartenenti ai due gruppi
d(Cl , Cm ) = min {d(xi , xj ) : xi 2 Cl , xj 2 Cm } ,
• Criterio del legame completo (complete linkage o farthest

neighbour): la distanza tra Cl e Cm è misurata dalla distanza
tra le due unità più lontane
d(Cl , Cm ) = max {d(xi , xj ) : xi 2 Cl , xj 2 Cm }

Distanze tra gruppi (II)
• Criterio della distanza media: è basato sulla distanza media

tra due gruppi di numerosità nl e nm , e si colloca in posizione
intermedia tra il legame singolo e quello completo.
1 X X
d(Cl , Cm ) = d(xi , xj )
nl nm
xi 2Cl xj 2Cm
• Criterio della distanza tra le medie (metodo del centroide):

le dissimilarità tra gruppi sono calcolate come le distanze (di
un certo tipo) tra i rispettivi centroidi, ovvero tra i vettori
delle medie delle variabili calcolati per ciascun gruppo
d(Cl , Cm ) = d(x̄l , x̄m )
1 P
dove x̄l = [x̄1,l , . . . , x̄p,l ]T e x̄j,l = nl xi 2Cl xij .
Criterio del legame singolo
4
●
2 3
● ●
● 5
1
●
distanza tra gruppi = d(x2 , x3 ) := d2,3
Criterio del legame completo
4
●
2 3
● ●
● 5
1
●
distanza tra gruppi = d(x1 , x5 ) := d1,5
Criterio della distanza media
4
●
2 3
● ●
● 5
●
1
d1,3 + d1,4 + d1,5 + d2,3 + d2,4 + d2,5

distanza tra gruppi =
6
Criterio del centroide
4
●
2 3 x2
● ●
x1 ● 5
1
●
distanza tra gruppi = d(x̄l , x̄m )
x̄l = ((x11 + x21 )/2, (x12 + x22 )/2)

x̄m = ((x31 + x41 + x51 ))/3, ((x32 + x42 + x52 ))/3);
centroide(Cl [ Cm ) = (nl x̄l + nm x̄m )/(nl + nm )
Distanze tra gruppi: Esempio
Consideriamo l’algoritmo agglomerativo col metodo del legame

singolo. Matrice delle dissimilarità (n = 5):
1 2 3 4 5
1 0
2 9 0
3 3 7 0
4 6 5 9 0
5 11 10 2 8 0

1 2 3 4 5
1 0
2 9 0
3 3 7 0
4 6 5 9 0
5 11 10 2 8 0

1 2 3 4 5
1 0
2 9 0
3 3 7 0
4 6 5 9 0
5 11 10 2 8 0
Si raggruppano le unità 5 e 3 e si aggiorna la matrice delle

dissimilarità:
d(3,5),1 = min{d1,3 , d1,5 } = min{3, 11} = 3
d(3,5),2 = min{d2,3 , d2,5 } = min{7, 10} = 7
d(3,5),4 = min{d3,4 , d4,5 } = min{9, 8} = 8
Si ottiene la nuova matrice
(3,5) 1 2 4
(3,5) 0
1 3 0
2 7 9 0
4 8 6 5 0
(3,5) 1 2 4
(3,5) 0
1 3 0
2 7 9 0
4 8 6 5 0
(3,5) 1 2 4
(3,5) 0
1 3 0
2 7 9 0
4 8 6 5 0
Si fondono i gruppi (3, 5) e 1 in un unico gruppo (1, 3, 5).
d(1,3,5),2 = min{d1,2 , d(3,5),2 } = min{9, 7} = 7

d(1,3,5),4 = min{d1,4 , d(3,5),4 } = min{6, 8} = 6
La nuova matrice è
(1,3,5) 2 4
(1,3,5) 0
2 7 0
4 6 5 0
(1,3,5) 2 4
(1,3,5) 0
2 7 0
4 6 5 0
(1,3,5) 2 4
(1,3,5) 0
2 7 0
4 6 5 0
Si fondono i gruppi 2 e 4.
Infine, fondendo i gruppi (1, 3, 5) e (2, 4) si ottiene un gruppo che
contiene tutte le unità iniziali.
Dendrogram (legame singolo)
6
5
4
d
3
2
1
0
4
unità
6
5
4
d
3
2
1
0
4
unità
6
5
4
d
3
2
1
0
4
unità
Distanze tra gruppi: osservazioni (I)
• Una peculiarità del metodo del legame singolo è l’e↵etto

catena, che consente di cogliere gruppi di forma particolare,
ma rischia di legare osservazioni che non appartengono a uno
stesso gruppo.
• Il metodo del legame completo tende a individuare gruppi
molto compatti al loro interno ma di forma circolare, quindi si
rischia di perdere gruppi di forma irregolare.
dati singolo completo
●
●
● ●●● ●
●
●
● ●●●
● ●●●●●●●●
● ●
1.5
●
1.5
1.5
●●●● ●●
●●●●
● ●●●
● ●●● ●
●●●●●
● ●
●●
●●●● ●
●● ● ●
● ●●● ●●
●●●●●
● ●●
●●●●●
●●
● ●● ●●●● ●● ●
● ●
●●● ● ●
●●● ● ●
● ●
●●
● ●● ●
● ●● ● ●
●●●
● ●● ● ●
● ● ●●
●
●
●● ● ●
● ● ● ●●
●● ● ●●●
●●●● ●
● ●● ● ●●●●
● ● ●● ●●●
1.0
1.0
1.0
●●●●●●●●●● ●●
●●● ●●
●●
● ● ●
●
●● ●
●●● ●● ● ●● ●
● ●●●●● ●●●●●
●
●● ● ● ●
● ● ●●
●
●●● ●●
●
● ●●
●● ● ●● ● ● ●●●● ● ● ● ●
● ●●●● ● ●● ●
●● ●
● ●
● ● ●●
●
0.5
0.5
0.5
●●
●● ● ● ● ●
● ● ●●
●● ●● ● ●●● ●● ●
● ●
● ●● ●● ●
●●● ● ● ●
● ●● ●● ●● ●● ●
●● ●
●
● ● ●
● ● ● ●● ●● ● ●● ●●● ●
● ● ● ●
● ●●● ●●●● ● ●
● ●● ● ●●
● ● ● ● ●● ● ● ●● ● ● ● ●●● ●
●
● ●● ●●
● ● ● ● ●● ● ●
● ●● ● ● ● ●● ●
● ●●
● ● ●●
●
●●
● ● ● ● ●
●● ●●
●●
●
●● ● ● ● ●
●
●●
●●
●
●● ●●
● ●● ● ●●
●
0.0
0.0
0.0
●
●● ●●
● ●● ●●
● ●●
●
● ●●
● ●● ●● ● ●
● ●● ● ●
●●
● ●● ●
● ●●
●● ●
●● ●
● ●● ● ● ●
● ● ●● ● ● ● ●● ● ● ●● ●
● ●● ● ●● ●●● ●●
● ●
●●● ●●●
●● ● ●
● ●● ● ● ●● ●● ●● ●●
● ●
●●● ●● ●
●● ●● ● ● ●●
●
●●
●●● ● ● ● ●
●●
●●● ● ● ● ●
●●● ● ● ●● ●● ● ● ●● ●● ● ●●●
●
−0.5
●●
−0.5
●● ●
●
−0.5 ●
● ● ●
● ● ●●●
● ●● ● ●
●●● ●● ●●
● ●
●
●●●●
●
●
●●● ● ●
● ●●
●
●●●●
●
●●●●
● ●
●●●● ● ●●●●●
●●●
● ●●●
● ● ●
● ● ●●●
●● ● ●●
●●●
●●● ●●
● ●
●● ●● ●●● ●
●●● ●●● ●●● ●● ● ●●●
●● ● ●●●●●●● ●● ●●
●●●
● ●●
● ●●
●
● ● ●● ●●● ●● ●● ●● ● ● ●● ●● ● ● ●
●
●●● ●
● ● ●
● ● ●●● ● ●
●●● ● ● ● ●●
●● ●
● ●
●
Distanze tra gruppi: osservazioni (II)
• il metodo del legame medio può costituire in molte

circostanze un compromesso ragionevole tra i due criteri
precedenti, per ottenere gruppi con buona coesione interna e
separazione esterna;
• il metodo del centroide utilizza la matrice dei dati di partenza
poiché prima individua il ‘centro’ di ciascun gruppo (vettore
dei valori medi delle variabili per le unità incluse nel gruppo) e
poi misura la distanza (ad esempio, il quadrato della distanza
euclidea) tra essi
Scelta la regola per definire la distanza tra due gruppi, nei metodi
visti fin’ora il criterio agglomerativo è sempre lo stesso: si uniscono
i due gruppi che presentano minore distanza tra loro. Il metodo di
Ward o della minima devianza segue un approccio di↵erente.
Metodo di Ward (I)
Alla partizione in G gruppi {C1 , . . . , CG } si associa un indice di

dispersione che è la devianza nei gruppi
G
X G X
X
dev (Cg ) = d 2 (xi , x̄g )
g =1 g =1 xi 2Cg
dove x̄g è il centroide del gruppo (vettore delle medie) e d è la

distanza euclidea.
• Nel passare da k + 1 a k gruppi (aggregazione) la devianza

nei gruppi (variabilità all’interno dei gruppi) aumenta
• L’obiettivo dell’algoritmo di Ward è quello di minimizzare
l’incremento dell’errore che deriva dall’unione di due gruppi
Metodo di Ward (II)
• Il metodo di Ward può essere utilizzato solo per variabili

quantitative e non richiede la matrice delle distanze;
• minimizzare la devianza entro i gruppi equivale a massimizzare
la devianza tra gruppi (separazione esterna).
Si dimostra che ciò equivale a considerare come distanza tra due

gruppi Cl e Cm
nl nm 2
d(Cl , Cm ) = d (x̄l , x̄m ),
nl + nm
cioè il quadrato della distanza euclidea tra i centroidi moltiplicato

per una quantità che dipende dal numero di unità dei due gruppi, e
la distanza tra unità è
1
d(xi , xr ) = d 2 (xi , xr )
2
Metodi gerarchici divisivi
Un algoritmo divisivo opera nella direzione opposta di un metodo

agglomerativo:
• si parte con un singolo cluster che ingloba tutti i punti (n);

• al primo passo si dividono le n unità in 2 gruppi secondo un
certo criterio;
• ciascuno dei due gruppi è ulteriormente ripartito in 2 nuovi
gruppi, e il procedimento prosegue fino a quando si ottengono
n gruppi formati ciascuno da una unità (o ci si ferma sulla
base di una data regola di arresto)
La complessità computazionale dei metodi divisivi è in generale

molto superiore a quella dei metodi agglomerativi e per questo
motivo essi sono meno utilizzati nella pratica.
Algoritmi divisivi 20
Metodi divisivi: Esempio
Matrice delle dissimilarità (n = 5):

1. I punti nodali sono 4 e 5
(d4,5 = 0.82);
1 2 3 4 5
1 0 2. 1 e 3 sono assegnate al
2 0.26 0 nodo 5 (d1,5 < d1,4 ,
3 0.68 0.11 0 d3,5 < d3,4 );
4 0.45 0.39 0.52 l’unità 2 è assegnata al
5 0.44 0.68 0.19 0.82 0 nodo 4 (d2,4 < d2,5 )
! {4, 2} e {5, 1, 3};
3. {4, 2} si scinde in {4} e {2}; nel gruppo {5, 1, 3} si

individuano 1 e 3 come punti nodali e 5 viene assegnato a 3.
4. 5 e 3 si dividono. I gruppi sono {1}, {2}, {3}, {4}, {5}.
Osservazioni generali sui metodi gerarchici (I)
Conviene sempre provare più metodi e indici di distanza: se la

diversità dei risultati non è rilevante, è segno di una stabilità dei
risultati e si può pensare che esistano dei gruppi naturali.
Vantaggi
• Non occorre specificare il numero di gruppi come input;

• Il fatto di non produrre un solo raggruppamento permette di
studiare diverse strutture possibili per i dati, con un numero
diverso di gruppi;
• Può essere implementato direttamente sulla matrice delle
dissimilarità.
Osservazioni generali sui metodi gerarchici (II)
Svantaggi
• Non esistono dei criteri oggettivi per determinare il numero

dei gruppi;
• a volte criteri diversi forniscono delle descrizioni abbastanza
diverse dei dati;
• Fonti di errore e variabilità non sono formalmente considerate
! metodi sensibili agli outliers
• Non c’è possibilità di modificare l’assegnazione di una unità
che è stata classificata a un passo precedente.
Metodi non gerarchici
Metodo delle k-medie: Introduzione
Il metodo multivariato per individuare partizioni di unità statistiche

in un prefissato numero k di gruppi è riconducibile all’algoritmo
delle k-medie (k-means) applicabile a sole variabili quantitative:
• si richiede che il numero dei gruppi sia specificato a priori;
• è necessario valutare l’opportunità di standardizzare le
variabili;
• la distanza utilizzata è quella euclidea;
• con l’impiego della distanza euclidea il metodo delle k-medie
ha come obiettivo implicito la ricerca della partizione con G
clusters che minimizza la devianza nei gruppi:
0 1
XG
min @ dev (Cg )A
g =1
Metodo delle k-medie 24
Metodo delle k-medie: Algoritmo
Dalla matrice dei dati X si considerano i seguenti step:

Algoritmo
(0) si parte da una suddivisione arbitraria in k gruppi non vuoti;

(1) ogni unità viene assegnata al centroide (vettore delle medie)
ad essa più vicino;
(2) si ricalcolano i centroidi dei cluster trovati e si ripete (1) fino
a quando le unità vengono riassegnate allo stesso gruppo del
passo precedente (configurazione stabile).
All’iterazione t la distanza tra l’unità i-ma e il centroide del gruppo

l è data da v
u p
(t) (t)
uX (t)
di,l = d(xi , x̄l ) = t (xis x̄s,l )2
s=1
Metodo delle k-medie: Esempio
Consideriamo, a titolo di esempio, il campione (xi1 , xi2 ) riportato

nella tabella
i xi1 xi2
10
1 0.8 2.4
2 2.0 4.0 ●
8
3 7.8 6.0 ●
4 4.4 2.0
6
●
x2
5 6.0 1.0
6 9.1 8.2
4
● ●
7 0.6 1.0 ●
2
8 6.8 6.6
●
● ●
9 4.8 4.0
0
0 2 4 6 8 10
x1
• Le variabili sono tali per cui è legittimo utilizzare la distanza

euclidea tra osservazioni;
• k = 2;
Al primo passo attribuiamo dei gruppi in modo casuale

(0)
i xi1 xi2 gi
1 0.8 2.4 1
2 2.0 4.0 0
3 7.8 6.0 1
4 4.4 2.0 0
5 6.0 1.0 1
6 9.1 8.2 0
7 0.6 1.0 1
8 6.8 6.6 0
Metodo delle k-medie
9 4.8 4.0 1 27
C0 = {(2.0, 4.0), (4.4, 2.0), (9.1, 8.2), (6.8, 6.6)}

C1 = {(0.8, 2.4), (7.8, 6.0), (6.0, 1.0), (0.6, 1.0), (4.8, 4.0)}
10
8 0
0
6
1
x2
1
4
1
2
1 1
0
0 2 4 6 8 10
x1

Calcoliamo i centroidi, e quindi le distanze di ciascuna delle n

osservazioni da ciascuno dei centroidi.
Centroide gruppo “0”:
✓ ◆
2 + 4.4 + 9.1 + 6.8 4 + 2 + 8.2 + 6.6
c0 = , = (5.6, 5.2)
4 4
Centroide gruppo “1”:
✓ ◆
0.8 + 7.8 + 6 + 0.6 + 4.8 2.4 + 6 + 1 + 1 + 4
c1 = , = (4, 2.9)
5 5
Per la prima unità (0.8, 2.4) le distanze euclidee dai centroidi sono:
q
(1)
d1,0 = (0.8 5.6)2 + (2.4 5.2)2 ⇡ 5.54
q
(1)
d1,1 = (0.8 4)2 + (2.4 2.9)2 ⇡ 3.24
(0) (1) (1)

i xi1 xi2 gi di,0 di,1
1 0.8 2.4 1 5.54 3.24
2 2.0 4.0 0 3.77 2.29
3 7.8 6.0 1 2.36 4.90
4 4.4 2.0 0 3.41 0.97
5 6.0 1.0 1 4.22 2.75
6 9.1 8.2 0 4.63 7.36
7 0.6 1.0 1 6.51 3.90
8 6.8 6.6 0 1.86 4.64
9 4.8 4.0 1 1.37 1.43

10
10
0 0
8
8
0 0
6
6
1 1
● ●
x2
x2
1 1
4
4
0 0
● ●
1 1
2
2
0 0
1 1 1 1
0
0 2 4 6 8 10 0 0 2 4 6 8 10
x1 x1

Si riassegnano le osservazioni sulla base delle distanze:

(1) (1)
• Es.: (2.0, 4.0) è attribuita al gruppo 1 perché di,1 < di,0
• i nuovi centroidi sono c0 = (7.1, 6.2) e c1 = (2.8, 2.1)
(0) (1) (1) (1)
10
i xi1 xi2 gi di,0 di,1 gi
1 0.8 2.4 1 5.54 3.24 1 0
8
2 2.0 4.0 0 3.77 2.29 1
3 7.8 6.0 1 2.36 4.90 0 0
●
6
0
4 4.4 2.0 0 3.41 0.97 1
x2
5 6.0 1.0 1 4.22 2.75 1 0
4
1
6 9.1 8.2 0 4.63 7.36 0

1
7 0.6 1.0 1 6.51 3.90 1 2
●
1
8 6.8 6.6 0 1.86 4.64 0 1 1

0
9 4.8 4.0 1 1.37 1.43 0

0 2 4 6 8 10
x1
Il procedimento viene iterato dando luogo alle distanze d (2) , ai

gruppi in g (2) , ai centroidi c0 = (7.9, 6.9) e c1 = (3.1, 2.4).
(0) (1) (1) (1) (2) (2) (2)

i xi1 xi2 gi di,0 di,1 gi di,0 di,1 gi
1 0.8 2.4 1 5.54 3.24 1 7.39 1.99 1

2 2.0 4.0 0 3.77 2.29 1 5.59 2.06 1
3 7.8 6.0 1 2.36 4.90 0 0.70 6.38 0
4 4.4 2.0 0 3.41 0.97 1 5.02 1.64 1
5 6.0 1.0 1 4.22 2.75 1 5.33 3.42 1
6 9.1 8.2 0 4.63 7.36 0 2.80 8.81 0
7 0.6 1.0 1 6.51 3.90 1 8.36 2.41 1
8 6.8 6.6 0 1.86 4.64 0 0.51 6.06 0
9 4.8 4.0 1 1.37 1.43 0 3.15 2.86 1

10
0
8
●
6 0
0
x2
1
4
1 ●
2
1 1
0
0 2 4 6 8 10
x1

(0) (1) (1) (1) (2) (2) (2) (3) (3) (3)
i xi1 xi2 gi di,0 di,1 gi di,0 di,1 gi di,0 di,1 gi
1 0.8 2.4 1 5.54 3.24 1 7.39 1.99 1 8.42 2.31 1

2 2.0 4.0 0 3.77 2.29 1 5.59 2.06 1 6.59 1.94 1
3 7.8 6.0 1 2.36 4.90 0 0.70 6.38 0 0.94 5.91 0
4 4.4 2.0 0 3.41 0.97 1 5.02 1.64 1 6.05 1.36 1
5 6.0 1.0 1 4.22 2.75 1 5.33 3.42 1 6.23 3.22 1
6 9.1 8.2 0 4.63 7.36 0 2.80 8.81 0 1.74 8.33 0
7 0.6 1.0 1 6.51 3.90 1 8.36 2.41 1 9.41 2.87 1
8 6.8 6.6 0 1.86 4.64 0 0.51 6.06 0 1.15 5.59 0
9 4.8 4.0 1 1.37 1.43 0 3.15 2.86 1 4.21 2.39 1
Una ulteriore iterazione non porta a modifiche dei gruppi, perciò il

(2)
risultato è dato dai gruppi in gi .

Osservazioni sul metodo delle k-medie
Vantaggi:
• il metodo è utile per data set molto grandi;

• è più veloce e relativamente poco costoso in termini
computazionali;
• consente di ripetere l’analisi modificando il numero di gruppi e
i punti iniziali
Svantaggi:
• richiede il numero dei gruppi e la definizione dei punti iniziali;

• ha la tendenza a formare gruppi sferici e di uguale dimensione;
• il risultato è sensibile alla presenza di valori anomali

Bibliografia
Bracalente, B., Cossignani, M., Mulas, A. (2009) Statistica

aziendale. McGraw-Hill Education.
Zani, S., & Cerioli, A. (2007). Analisi dei dati e data mining
per le decisioni aziendali. Giu↵rè editore.

Stat Im113 05 PDF

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Stat Im113 05 PDF

Caricato da

Copyright:

Formati disponibili

Statistica per l’Impresa

Tecniche di Analisi Multidimensionale

X Analisi dei Gruppi: Introduzione

X Misure di distanza e indici di similarità

4. Metodi non gerarchici

6. Applicazione in ambito aziendale

Punti originali Partitional Clustering Traditional Hierarchical Clustering

Data e Web Mining. - S. Orlando 33

Metodi di Partizione (non gerarchici) Dato un valore k, trova

I metodi gerarchici organizzano i dati in sequenze di partizioni

• prendono come input la matrice delle dissimilarità = [di,j ];

A partire dalla matrice delle dissimilarità (distanze) i seguenti step

(0) si considerano i gruppi C1 , . . . , Cn , ciascuno contenente una

Dendrogramma: le diverse famiglie di partizioni sono rappresentate

Come calcoliamo la distanza tra i gruppi Cl , Cm , l 6= m ?

d(Cl , Cm ) = min {d(xi , xj ) : xi 2 Cl , xj 2 Cm } ,

• Criterio del legame completo (complete linkage o farthest

d(Cl , Cm ) = max {d(xi , xj ) : xi 2 Cl , xj 2 Cm }

• Criterio della distanza media: è basato sulla distanza media

• Criterio della distanza tra le medie (metodo del centroide):

d(Cl , Cm ) = d(x̄l , x̄m )

distanza tra gruppi = d(x2 , x3 ) := d2,3

distanza tra gruppi = d(x1 , x5 ) := d1,5

d1,3 + d1,4 + d1,5 + d2,3 + d2,4 + d2,5

distanza tra gruppi = d(x̄l , x̄m )

x̄l = ((x11 + x21 )/2, (x12 + x22 )/2)

Consideriamo l’algoritmo agglomerativo col metodo del legame

Consideriamo l’algoritmo agglomerativo col metodo del legame

Consideriamo l’algoritmo agglomerativo col metodo del legame

Si raggruppano le unità 5 e 3 e si aggiorna la matrice delle

Si ottiene la nuova matrice

Si ottiene la nuova matrice

Si ottiene la nuova matrice

Si fondono i gruppi (3, 5) e 1 in un unico gruppo (1, 3, 5).

d(1,3,5),2 = min{d1,2 , d(3,5),2 } = min{9, 7} = 7

Dendrogram (legame singolo)

Dendrogram (legame singolo)

Dendrogram (legame singolo)

• Una peculiarità del metodo del legame singolo è l’e↵etto

• il metodo del legame medio può costituire in molte

Alla partizione in G gruppi {C1 , . . . , CG } si associa un indice di

dove x̄g è il centroide del gruppo (vettore delle medie) e d è la

• Nel passare da k + 1 a k gruppi (aggregazione) la devianza

• Il metodo di Ward può essere utilizzato solo per variabili

Si dimostra che ciò equivale a considerare come distanza tra due

cioè il quadrato della distanza euclidea tra i centroidi moltiplicato

Un algoritmo divisivo opera nella direzione opposta di un metodo

• si parte con un singolo cluster che ingloba tutti i punti (n);

La complessità computazionale dei metodi divisivi è in generale

Matrice delle dissimilarità (n = 5):

3. {4, 2} si scinde in {4} e {2}; nel gruppo {5, 1, 3} si

Conviene sempre provare più metodi e indici di distanza: se la

• Non occorre specificare il numero di gruppi come input;

• Non esistono dei criteri oggettivi per determinare il numero

Il metodo multivariato per individuare partizioni di unità statistiche

Dalla matrice dei dati X si considerano i seguenti step:

(0) si parte da una suddivisione arbitraria in k gruppi non vuoti;

All’iterazione t la distanza tra l’unità i-ma e il centroide del gruppo

Consideriamo, a titolo di esempio, il campione (xi1 , xi2 ) riportato

• Le variabili sono tali per cui è legittimo utilizzare la distanza

Al primo passo attribuiamo dei gruppi in modo casuale

C0 = {(2.0, 4.0), (4.4, 2.0), (9.1, 8.2), (6.8, 6.6)}

Metodo delle k-medie 28