Sei sulla pagina 1di 56

Analisi dei gruppi

(Cluster analysis)

Azzalin & Scarpa § 6.1

Per approfondimenti:
Zani & Cerioli (2007)
“Analisi dei dati e data mining per le decisioni aziendali”, Giuffrè, Milano
1
Definizione

Sotto la dizione “cluster analysis” si raccoglie una molteplicità di metodi


statistici che si prefiggono l’obiettivo di individuare, in un insieme di n unità
statistiche osservate rispetto a p variabili, gruppi (= cluster) distinti di unità
in modo che unità dello stesso gruppo siano simili tra loro e diverse da
quelle degli altri gruppi.
Si immagina di non sapere a priori quanti gruppi esistano (e nemmeno se
essi esistono!)

 Non esiste il “teacher”

 Tutte le variabili, X1, X2, …, Xp, sono poste sullo stesso piano
(unsupervised learning)

2
Esempio

Segmentazione del mercato (“segmento” = cluster)

Esempio: Segmentazione del mercato automobilistico italiano.


Sulla base dell’osservazione di p variabili (cilindrata, prezzo, peso, velocità massima, etc), suddividere
l’insieme dei modelli di automobili in vendita in Italia in gruppi omogenei al loro interno e fra loro ben
separati  strategie di concorrenza*

Esempio: Segmentazione della clientela di un’azienda


Sulla base di informazioni sul comportamento di spesa, dati anagrafici, risposte a questionari …,
l’insieme dei clienti è suddiviso in gruppi internamente coesi e diversamente caratterizzati (rispetto alle p
variabili considerate)  azioni di marketing mirate

* NB: la concorrenza si esercita quasi esclusivamente all’interno del medesimo segmento.

3
Scelta delle variabili

L’analisi dovrebbe basarsi su tutti gli aspetti che si ritengono importanti


per gli obiettivi che ci si prefigge.
Ciò potrebbe indurre ad ampliare il più possibile le variabili rilevate.
Ma è noto che l’inclusione nell’analisi di variabili poco informative può
peggiorare i risultati dall’analisi stessa, poiché rende meno nitido il
raggruppamento delle osservazioni in clusters.

4
Distanza
Parte 1:
“Prossimità” tra 2
unità statistiche
(Dis)Similarità

Cluster Analysis

Metodi gerarchici
Parte 2:
Metodi
Metodi partitivi

5
Parte 1 – “Prossimità” tra 2 unità

6
Misure di “prossimità”

A fondamento dell’analisi ci è la nozione di “prossimità” tra 2 unità


statistiche (ovvero, tra le corrispondenti osservazioni p-dimensionali =
righe della matrice dei dati).
La misura da impiegare dipende dalla natura delle p variabili osservate:

 p variabili quantitative  distanze

 p variabili categoriche  indici di (dis)similarità

 variabili miste  indice di Gower

7
p variabili quantitative

8
Definizione di distanza
Prese due unità, osservate rispetto a p variabili quantitative, le rispettive righe
nella matrice dei dati rappresentano due punti in Rp. Si dice distanza tra due
punti x, y  Rp una funzione d(x,y) che soddisfa le seguenti proprietà:

 non negatività:
d(x,y)  0  x, y  Rp

 identità:
d(x,y) = 0  x=y

 simmetria:
d(x,y) = d(y,x)  x, y  Rp

 disuguaglianza triangolare:
d(x,y)  d(x,z) + d(z,y)  x, y, z  Rp

9
Matrice delle distanze

Prese due unità statistiche i e j (con i, j  {1,2,…, n}), indicati con xi e xj le


corrispondenti righe della matrice dei dati, si calcoli dij = d(xi, xj).
I valori delle distanze tra le varie coppie di unità vengono raccolte nella
cosiddetta matrice delle distanze:

0 d12 ... d1n 


d ... d 2 n 
 
D  d ij   12
 ...
0
... ... ... 
 
d1n d 2n ... 0  nn

- di dimensioni nn
- contenente valori non negativi fuori dalla diagonale principale, e valori
nulli sulla diagonale principale
- simmetrica

10
Alcuni tipi di distanza
Prese due unità statistiche i e j (con i, j  {1,2,…, n}), indicate con xi e xj
le corrispondenti righe della matrice dei dati, si definiscono:

 distanza euclidea tra le unità i e j :


p

2 d ij   ih jh
( x
h 1
 x ) 2

 distanza di Manhattan o “city-block” (città a blocchi) tra le unità i e j :


p

1 dij   xih  x jh
h 1

distanza di Minkowski tra le unità i e j :


p

x
k
k dij  k ih  x jh , k 1
h 1

NB: per p=1, nulla cambia al variare di k 11


Caveat
 La somma dei p valori |xih − xjh| (o di una loro potenza) ha significato
solo se tutte le p variabili sono espresse nella stessa unità di misura

 Anche qualora tutte le variabili siano espresse nella stessa unità di


misura, le distanze di Minkowski risentono maggiormente delle variabili
con ordine di grandezza e variabilità maggiori (e che, pertanto, tendono
a presentare differenze “più grandi” tra i valori osservati)

 Entrambi gli inconvenienti posso essere superati calcolando le distanze


dopo aver standardizzato ognuna delle p variabili.

 Nel caso di variabili espresse nella stessa unità di misura, la scelta di


standardizzare le variabili è però deleteria qualora si voglia tenere
conto della diversa “scala” (= entità) delle variabili

L’analista deve decidere se la standardizzazione sia appropriata per il


problema in esame.
12
Confronto tra distanza euclidea e distanza di Manhattan

Esempio (ZC, p.312)

Caso A:
x1 = (10,5)T , x2 = (12,7)T
1d12 = |10-12|+|5-7| = 2+2 = 4

Caso B:
x1 = (10,5)T , x2 = (11,8)T
1d12 = |10-11|+|5-8| = 1+3 = 4

13
Confronto tra distanza euclidea e distanza di Manhattan

Esempio (ZC, p.312)

Caso A:
x1 = (10,5)T , x2 = (12,7)T
1d12 = |10-12|+|5-7| = 2+2 = 4
2 2 1/2 = √8
2d12=[(10-12) +(5-7) ]

Caso B:
x1 = (10,5)T , x2 = (11,8)T
1d12 = |10-11|+|5-8| = 1+3 = 4
2 2 1/2 = √10
2d12=[(10-11) +(5-8) ]

14
Confronto tra distanza euclidea e distanza di Manhattan

In conclusione:
Rispetto alla distanza di Manhattan la distanza euclidea sovrappesa le
differenze “grandi” (poiché essa è funzione del quadrato delle
differenze).

Anche interpretando le distanze su scala meramente ordinale, la


valutazione della prossimità tra le coppie non rimane invariata se si
muta il tipo di distanza usato per misurarla (e questo vale, come
vedremo fra poco, anche estendendo il discorso oltre i due tipi di
distanza qui presi in considerazione).

L’analista deve quindi decidere quale tipo di distanza sia più


appropriata per il particolare problema in esame.

15
La distanza di Mahalanobis
Nella valutazione della distanza tra i punti xi e xj può aver senso tener conto
delle correlazioni fra le p variabili. Infatti, l’informazione portata da due
variabili fortemente correlate è fortemente sovrapposta.
Il modo per farlo è calcolare la: distanza di Mahalanobis (Mahalanobis, 1936)

M dij  ( xi  x j ) T S 1 ( xi  x j )
con S = matrice di covarianza campionaria corretta.
Si noti che Mdij = d(xi,xj,S)

Esempio: Si riprendano 10 aziende, con X1=Econ_Profit e X2=Utile, standardizzate


d<-dati_stand[,c(1,4)] Econ_Profit Utile
round(d,3) Barilla 0.27 -0.378
Eridania -1.382 -0.767
Ferrero 1.574 1.577
Galbani -0.394 -0.556
Kraft 0.176 -0.494
Lavazza 0.22 -0.252
Nestlè -0.779 -0.864
Parmalat -1.44 -0.606
Plasmon 1.086 1.98 16
Star 0.668 0.361
D2_2<-dist(d, method="euclidean")
D2_2<-as.matrix(as.dist(D2_2))

EUCLIDEA
Barilla Eridania Ferrero Galbani Kraft Lavazza Nestlè Parmalat Plasmon Star
Barilla
Eridania 1.697
Ferrero 2.35 3.772
Galbani 0.688 1.01 2.903
Kraft 0.149 1.581 2.499 0.574
Lavazza 0.136 1.683 2.276 0.686 0.246
Nestlè 1.156 0.611 3.39 0.492 1.024 1.171
Parmalat 1.726 0.171 3.722 1.047 1.62 1.698 0.71
Plasmon 2.495 3.692 0.632 2.937 2.636 2.394 3.401 3.615
Star 0.84 2.339 1.516 1.403 0.987 0.759 1.895 2.319 1.672

library(proxy)
pr_DB$get_entry(“Mahalanobis")
DM_2<-dist(d,method="Mahalanobis")

MAHALANOBIS Barilla Eridania Ferrero Galbani Kraft Lavazza Nestlè Parmalat Plasmon Star
Barilla
Eridania 2.4053
Ferrero 2.0357 2.9611
Galbani 0.9397 1.4663 2.164
Kraft 0.1156 2.3919 2.148 0.9273
Lavazza 0.3029 2.1605 1.853 0.7151 0.3683
Nestlè 1.2522 1.2234 2.511 0.3849 1.2144 1.0706
Parmalat 2.7253 0.3778 3.065 1.7938 2.7206 2.4658 1.583
Plasmon 3.1106 2.7681 1.518 2.7667 3.2007 2.8382 2.975 2.676
Star 0.8337 2.2871 1.229 1.064 0.9388 0.6234 1.447 2.524 2.307
17
plot(d,xlim=c(-2,2),ylim=c(-1,2))
text(d,labels=dati_orig[,1])

L’inversione nell’ordinamento delle due distanze d(Ferrero,Plasmon) e d(Ferrero, Star)


passando dalla distanza euclidea a quella di Mahalanobis dipende dal fatto che Ferrero
e Star sono approssimativamente allineati lungo la direzione principale della nube dei
punti, mentre Ferrero e Plasmon si dispongono all’incirca perpendicolarmente alla
medesima direzione.
Per l’interpretazione meno immediata, l’uso di Md è meno comune rispetto a quello
delle distanze nella slide 11. 18
p variabili categoriche

19
Definizione di indice di similarità
Prese due unità, osservate rispetto a p variabili qualitative, le rispettive righe
nella matrice dei dati possono essere confrontate controllando se gli elementi
corrispondenti sono uguali tra loro oppure no.
Si dice indice di similarità tra due unità i e j (con i, j  {1,2,…, n}) una funzione
s(i, j) che soddisfa le seguenti proprietà:

 non negatività:
s(i, j)  0  i, j  {1,2,…, n}

 normalizzazione:
s(i, i) = 1  i  {1,2,…, n}

 simmetria:
s(i, j) = s(j, i)  i, j  {1,2,…, n}

1-s(i,j) è detto “indice di dissimilarità”.



La similarità tra unità
nel caso di p variabili dicotomiche

Il confronto delle unità i e j rispetto a p variabili binarie (0 = “no”; 1 = “sì”)


può sintetizzarsi come segue:

j
i 1 0 TOT
1 a b a+b
0 c d c+d
TOT a+c b+d p
dove:
a  0 = numero di positive-matches
d  0 = numero di negative matches
b+d  0 = p-(a+d) = numero di mis-matches

21
Ancuni indici di similarità
nel caso di p variabili dicotomiche

 Indice di Russell-Rao:
a
R s (i , j ) 
= frazione di positive-matches
p
 Indice di Jaccard:
a
J s (i , j ) 
abc

 Simple matching coefficient:


ad
SM s (i, j ) 
= frazione di matches
p

22
Un indice di similarità
nel caso di p variabili politomiche

 Indice di Dice:
# positive matches
D s (i , j ) 
p

# variabili con modalità coicidenti



# variabili

23
p variabili X1,… Xh,…, Xp,
alcune categoriche e altre quantitative

24
Indice di Gower
p

 Indice di Gower: z ijh wijh


G s (i, j ) 
h 1
p

w
h 1
ijh

dove:
1 se è possibile confrontar e i e j rispetto a X h

wijh  0 se xih  NA o x jh  NA

0 se X h binario e xih  x jh  0

e zijh è diverso a seconda della natura di Xh :


1 se xih  x jh  1
Xh binaria : zijh  
0 altrimenti
1 se xih  x jh
Xh politomica : zijh  
0 altrimenti
xih  x jh
Xh quantitativa : zijh  1 
range( X h )
25
Parte 2 – Metodi

26
I (numerosi!) metodi si prefiggono di …

… ripartire l’insieme delle n unità statistiche in gruppi in modo tale che le


unità assegnate al medesimo gruppo siano tra loro simili e, al contempo, i
gruppi siano il più possibile distinti. In altre parole:
si cercano gruppi dotati di elevata coesione interna ed elevata
separazione esterna

27
METODI GERARCHICI (aggregativi, o bottom-up)
un metodo gerarchico di cluster analysis genera una successione di
partizioni dell’insieme delle n unità, a partire da quella in n cluster, dalla
quale si ricavano in successione quella in (n-1), (n-2), … cluster, fino a
quella in cui tutte le unità sono riunite in 1 cluster

Esempio : n = 5 START
d
4 2

1 3 2 4 5
28
METODI GERARCHICI (aggregativi, o bottom-up)
un metodo gerarchico di cluster analysis genera una successione di
partizioni dell’insieme delle n unità, a partire da quella in n cluster, dalla
quale si ricavano in successione quella in (n-1), (n-2), … cluster, fino a
quella in cui tutte le unità sono riunite in 1 cluster

Esempio : n = 5 passo 1
d
4 2

1 3 2 4 5
29
METODI GERARCHICI (aggregativi, o bottom-up)
un metodo gerarchico di cluster analysis genera una successione di
partizioni dell’insieme delle n unità, a partire da quella in n cluster, dalla
quale si ricavano in successione quella in (n-1), (n-2), … cluster, fino a
quella in cui tutte le unità sono riunite in 1 cluster

Esempio : n = 5 passo 2
d
4 2

1 3 2 4 5
30
METODI GERARCHICI (aggregativi, o bottom-up)
un metodo gerarchico di cluster analysis genera una successione di
partizioni dell’insieme delle n unità, a partire da quella in n cluster, dalla
quale si ricavano in successione quella in (n-1), (n-2), … cluster, fino a
quella in cui tutte le unità sono riunite in 1 cluster

Esempio : n = 5 passo 3
d
4 2

1 3 2 4 5
31
METODI GERARCHICI (aggregativi, o bottom-up)
un metodo gerarchico di cluster analysis genera una successione di
partizioni dell’insieme delle n unità, a partire da quella in n cluster, dalla
quale si ricavano in successione quella in (n-1), (n-2), … cluster, fino a
quella in cui tutte le unità sono riunite in 1 cluster

Esempio : n = 5 passo 4
d
4 2

1 3 2 4 5
32
METODI NON GERARCHICI (o partitivi):
un metodo non gerarchico di cluster analysis fornisce una sola partizione
dell’insieme delle n unità, in un numero prefissato K di cluster (K < n)

Il numero K di gruppi può essere individuato per tentativi, vale a dire


ripetendo l’analisi con diversi valori di K, valutando ogni volta la bontà
della partizione ottenuta e scegliendo poi quella più soddisfacente
33
Metodi gerarchici
(aggregativi)

34
Procedura di un metodo gerarchico

Start:
Partizione in n cluster: ogni cluster è composto da 1 diversa unità.
La matrice Dnxn contiene le distanze o le dissimilarità tra le n unità.

Do for i = 1 : (n-1)
- sulla base di D si individuano i cluster più vicini
- essi vengono riuniti a formare un nuovo cluster : # cluster = n - i
- si calcola la distanza del nuovo cluster da ognuno degli altri cluster,
secondo un certo criterio euristico . Aggiornamento di D  D(n-i) (n-i)
- i i+1
Endo

35
Definizione di distanza/dissimilarità tra due cluster

Siano A e B i due cluster, di numerosità nA e nB rispettivamente:

 Metodo del legame singolo :


d AB  min dij
iA, jB

 Metodo del legame completo :


d AB  max dij
iA, jB

 Metodo del legame medio :


1
d AB 
n A nB
 d
i A jB
ij

36
Legame singolo: esempio
(a+b+c) d
plot(hclust(dist(dati),method="single"))
(a+b+c) 0 0.61

d 0.61 0

(a+b) c d

(a+b) 0 0.57 1.13

c 0.57 0 0.61

d 1.13 0.61 0

a b c d
a 0 0.3 0.8 1.4
b 0.3 0 0.57 1.13
c 0.8 0.57 0 0.61
d 1.4 1.13 0.61 0

37
Legame completo: esempio
(a+b) (c+d)
plot(hclust(dist(dati),method=“complete"))
(a+b) 0 1.4

(c+d) 1.4 0

(a+b) c d

(a+b) 0 0.8 1.4

c 0.8 0 0.61

d 1.4 0.61 0

a b c d
a 0 0.3 0.8 1.4
b 0.3 0 0.57 1.13
c 0.8 0.57 0 0.61
d 1.4 1.13 0.61 0

38
Legame medio: esempio
(a+b) (c+d)
plot(hclust(dist(dati),method=“average"))
(a+b) 0 0.61

(c+d) 0.98 0

(a+b) c d

(a+b) 0 0.68 1.27

c 0.68 0 0.61

d 1.27 0.61 0

a b c d
a 0 0.3 0.8 1.4
b 0.3 0 0.57 1.13
c 0.8 0.57 0 0.61
d 1.4 1.13 0.61 0

39
Definizione di distanza/dissimilarità tra due cluster

 Metodo del centroide :


d AB  d ( x A , xB )
dove d è l’indice usato per calcolare le
distanze/dissimilarità in D

 Metodo di Ward :
d AB 
n A nB
 2 d ( x A , x B ) 2
n A  nB

dove 2d indica la distanza euclidea

40
Scelta = soggettività?

Gli esempi mostrano che, anche partendo dalla medesima matrice D,


(quindi ammettendo di aver già scelto se standardizzare o no i dati, quale
misura di prossimità impiegare, e a partire da quali variabili) si possono
ottenere classificazioni gerarchiche differenti a seconda dell’algoritmo
scelto per la formazione dei cluster.
E ancora, dove tagliare il dendrogramma? (scelta di K)

Pertanto, nelle applicazioni di cluster analysis è consigliabile utilizzare più


possibilità per ciascuna delle varie scelte che si propongono all’analista,
per poi confrontare fra loro i risultati. Se una partizione è abbastanza
stabile al variare delle opzioni scelte per ottenerla, allora essa può ritenersi
“valida”.

41
Nel marketing …

La cluster analysis gerarchica è idonea per la segmentazione di un insieme


di prodotti sulla base delle loro caratteristiche (= variabili).

Invece, i metodi non gerarchici (o partitivi) di cluster analysis è


appropriata per la segmentazione dell’insieme di consumatori e dei clienti,
ove il numero di unità può essere molto elevato.

42
Metodi non gerarchici
(o partitivi)

43
Obiettivo
Obiettivo:
dato un insieme di n unità e un criterio di ottimalità, si vuole determinare la
migliore partizione dell’insieme in un numero pre-specificato K di gruppi

Rispetto ai metodi gerarchici si hanno 2 vantaggi:


- si supera il vincolo che unità unite a un dato livello non possono più
essere separate ai livelli successivi
- si evita il dendrogramma, praticamente inutilizzabile per n elevato

Nel definire un criterio di ottimalità si ricordi che:


“… si cercano gruppi dotati di elevata coesione interna ed elevata
separazione esterna”

A questo proposito è facile osservare quanto segue


44
Coesione interna e separazione esterna
Data una partizione delle n unità in K gruppi, C1, C2, …,CK , la somma
delle nn dissimilarità tra le n unità :
n n

 d
i 1 j 1
ij  dissimilarità TOTALE

si scompone nei seguenti addendi :

- la somma delle dissimilarità fra unità dello stesso gruppo :


K  
 
  
k 1  iC k j C k
d ij   dissimilar ità ENTRO i gruppi

- la somma delle dissimilarità fra unità di gruppi diversi :


K 
 
  
k 1  iC k jC k
d ij   dissimilarità TRA i gruppi

45
Esempio
n=5, K=2

C1 = {1, 2, 4} C2 = {3, 5}

1 2 3 4 5

1 0 d12 d13 d14 d15

2 d21 0 d23 d24 d25

3 d31 d32 0 d34 d35

4 d41 d42 d43 0 d45

5 d51 d52 d53 d54 0

Si noti che la dissimilarità TOTALE è fissata (dato il problema e d), cioè non
varia né al variare della partizione né al variare di K
46
Criterio di ottimalità
Poiché la somma DissENTRO + DissTRA è fissata,

max DissTRA  min DissENTRO

cioè, la partizione delle n unità in K gruppi che massimizza la separazione


tra i K gruppi è anche quella che massimizza la coesione interna ai K gruppi.

Ma il numero di partizioni diverse di un insieme di n unità in K gruppi è:


1 K K k  K  n
 (1)  k
K ! k 1 k
La ricerca esaustiva della soluzione al problema di ottimo è imperseguibile.

I metodi partitivi propongono diverse strategie per scandagliare un


sottoinsieme ristretto di partizioni “promettenti” alla ricerca di quella ottima
 non è detto che la partizione che ne risulta sia quella ottima .
Di questa famiglia fa parte il metodo delle K-medie.
47
Il metodo delle K medie
Si sceglie come misura di dissimilarità la distanza euclidea quadratica:

 
p
dij  2 d ( xi , x j )   ( xih  x jh ) 2
2

h 1

Si dimostra che, per tale scelta, la partizione ottimale è quella in cui le unità
di ogni gruppo sono il più possibile vicine al loro centroide:
K
min Diss ENTRO  min  k 2 i k
n
k 1
[ d ( x , x
iCk
)] 2

dove nk è il numero di unità assegnate a Ck e x k è il loro centroide.

Vantaggi:
 si evita di ricalcolare matrici di dissimilarità  minor complessità di calcolo
 i centroidi sono strumento di “caratterizzazione” dei gruppi

48
Algoritmo delle K medie
Start :
scelta del valore di K
scelta (casuale) di K osservazioni da assumere come valori iniziali dei
centroidi { x1,..., xk , ..., x K }

1. Preso l’insieme dei centroidi correnti, si assegna ogni osservazione al


cluster dal cui centroide essa dista meno :
i  Ck * : k *  arg min
k 1,..., K
 2 d ( xi  x k ) 
2

2. Per la partizione ottenuta, si calcola il centroide di ogni cluster:


T
1 1 
xk    xi1 ,...,  xip 
 nk iCk nk iCk 
3. Se la soluzione corrente è “prossima” a quella precedente  STOP;
altrimenti vai al passo 1.
49
Alcune note

• Sia il passo 1 sia il passo 2 comportano un decremento della DISSENTRO


(passo 2: proprietà di minimo della media aritmetica vale anche in Rp
quando si usi la distanza euclidea quadratica). Ciò assicura che l’algoritmo
converge*.

• Questi non basta a garantire che la soluzione trovata sia quella ottima
globalmente. Potrebbe trattarsi di un ottimo locale  multistart a partire
da diverse inizializzazioni.

* La procedura iterativa si arresta quando non si osserva alcuna ulteriore diminuzione della funzione che si
vuole minimizzare.

50
Si può partire dalla cluster membership (anziché dall’inizializzazione dei centroidi)

51
Sono privilegiate strutture sferiche

52
Svantaggi del metodo delle K-medie

 l’uso di una distanza come misura di prossimità limita l’applicabilità del


metodo al caso in cui tutte le p variabili osservate sono tutte quantitative

 nella ricerca della partizione con massima coesione interna, l’uso della
distanza euclidea privilegia cluster di forma sferica

 Dato che la funzione da minimizzare coinvolge distanze euclidee


quadratiche il metodo è particolarmente sensibile alla presenza di
osservazioni outlying (ricordare l’accenno fatto nell’outlier detection).

Tutto si riconduce all’uso della distanza euclidea quadratica!

53
Dove entra in gioco la distanza euclidea quadratica?

• Fissati i centroidi, si minimizza DISSENTRO assegnando ogni unità al centroide


da cui dista meno

• Fissata l’assegnazione delle unità ai cluster, si minimizza DISSENTRO


aggiornando i centroidi

Quindi, la distanza euclidea quadratica entra in gioco solo ed esclusivamente


nell’uso dei centroidi (il centroide gode della proprietà di minimo della somma
dei quadrati delle distanze euclidee; vedi slide 51).

IDEA!
distanza euclidea quadratica  generica misura di dissimilarità d( )
centroidi   cluster un vettore “prototipo”, mk , tale che la somma delle
dissimilarità tra i membri del cluster e il “prototipo” stesso sia minima:
mk  arg min
h
 d (i, h)
iCk
aggravio
computazionale
54
K-medoids o Partitioning Around Medoids
(Kaufmann e Rousseeuw, 1990: Finding Groups in Data
function pam() nel package cluster di R)

Per garantire l’efficienza computazionale della strategia, si impone che i


prototipi siano scelti fra le osservazioni presenti nel dataset.
Essi sono detti “medoidi”. Avendoli indicati con {i1, i2, …, iK}, la procedura
iterativa si propone di minimizzare la funzione:
K n
DISS ENTRO    d iik
k 1 iCk

Vantaggi:
 Variabili di qualunque natura
 Robustezza rispetto agli outliers
 Applicabile anche a partire dalla sola matrice delle dissimilarità (non serve
la matrice dei dati!) *

* Si pensi alle indagini di mercato su prodotti commerciali, confrontati a coppie dai consumatori, i
55
quali valutano la dissimilarità fra i membri della coppia su una scala da 0 a 10.
Finally: small decisions with big consequences

In practice, we try several different choices for the decisions


underlying a cluster analysis and look for the most useful or
interpretable solutions. With these methods there is no single
answer - any solution that exposes some interesting aspects of
the data should be considered.

(James et al. “An Introduction to Statistical Learning”)

56

Potrebbero piacerti anche