Sei sulla pagina 1di 16

Appunti Analisi dei Cluster

Mattia Buzzoni
November 2022

1
1 Matrice dei dati
Supponendo di avere
n: unità statistiche
p: variabili (quantitative)

X11 X12 ... X1p !


X21 X22 ... X2p
X = .. .. ..
n×p . . .
Xn1 Xn2 ... Xnp

dove le righe rappresentano le unità statistiche prese in esame e le colonne le


variabili di interesse.
Una prima analisi della matrice dei dati può essere effettuata tramite criteri
soggettivi quali:

• Ricerca di Missing Data, se mancano dei dati all’interno della matrice,


possiamo scegliere se scartare le unità o le variabili in questione. E’ una
soluzione grezza e può causare una perdita di informazioni. Un altro modo
può essere quello di sostituire il dato mancante con un valore verosimile o
simile alla variabile di un’unità che ha valori simili;

• Controllo di ammissibilità, controllo che i valori delle variabili corri-


spondano ai valori che quelle variabili possono assumere;
• Outlier, verifico la presenza di valori anomali rispetto a quelli del resto
della popolazione e inoltre verifico quanto quel valore, qualora esistesse,
influenza l’analisi dei dati.

VETTORE DELLE MEDIE PER LA MATRICE DEI DATI


possiamo scrivere le variabili e i vettori colonna come:

Xj → j-esima variabile
⃗ j → j-esimo vettore colonna
X

la media dei valori di un vettore colonna si può scrivere come:


n
1 X
µj = Xij ∀ j = 1, . . . , p
n i=1

quindi in forma matricile:

2
1 T⃗
µ = X 1
p×1 n
il vettore delle medie è noto anche come baricentro del dataset, cioè indica
dove è posizionato il mio dataset.
MATRICE CENTRATA DEI DATI E’ utile riportare il baricentro del
dataset sull’origine, ovvero a media zero (centrato sull’origine)

X12 − µ1 X12 − µ2 ... X1p − µn !


X21 − µ1 X22 − µ2 ... X2p − µn
X̄ = .. .. ..
n×p . . .
Xn1 − µ1 Xn2 − µ2 ... Xnp − µn
In forma matriciale lo possiamo scrivere come

X̄ = X − ⃗1 µ⃗T
n×p n×p n×1 1×p

Possiamo quindi ora procedere con la standardizzazione, dividendo ciascuna


variabile per la varianza.
La varianza della popolazione è pari a
Pn
2 (Xij − µj )2
δj = i=1
n
in forma matriciale può essere scritta come
1 ¯T
δj2 = X X̄j
n j
quindi
Xj − µj
Zj = → con media zero e varianza unitaria
δj
e
X11 −µ1 X1p −µn
δ1 ... ... δn
X21 −µ1 X2p −µn !
δ1 ... ... δn
Z = .. ..
n×p
. ... .
Xn1 −µ1 Xnp −µn
δ1 ... ... δn

Ho effettuato un’operazione di traslazione sottraendo la media e un’operazione


di cambiamento di scala dividendo per la deviazione standard.
In forma matriciale la Z si può scrivere come
  1 
δ1 δ1
Dδ = 
 .. 
Dδ−1 = 
 .. 
.  . 
1
δi δn

3
quindi di conseguenza
Z = X̄ Dδ−1
n×p n×p

2 Matrice di Varianze e Covarianze


δ12
 
δ12 ... δ1p
 δ21 δ22 ... δ2p 
Σ = .
 
.. .. .. 
p×p  .. . . . 
δn1 δn2 ... δp2
Proprietà di Σ

• è simmetrica Σ = ΣT ;
• se n > p r(Σ) = r(X), se X è una matrice di rango pieno;
• r(Σ) = r(X) = p, quando le colonne sono linearmente indipendenti;
• Σ è semi-definita positiva ∀ ⃗a ∈ R
quindi

a⃗T Σ ⃗a =
XX
ai aj δij ≥ 0 ∀ ⃗a
i j
P P
se r(Σ) = p =⇒ i j ai aj δij > 0

possiamo scrivere la matrice di varianza e covarianza in forma matriciale in


questo modo
1 ¯T
Σ= X X̄
n

3 Matrice di correlazione
La correlazione tra la variabile j-esima e la variabile s-esima è pari a:
δj s
ρj s =
δj δs
La matrice di correlazione tra tutte le variabile quindi è
 
1 ρ12 . . . ρ1p
 ρ21 1 . . . ρ2p 
R = .
 
. .. .. 
p×p  .. .. . . 
ρn1 ρn2 . . . 1
in forma matriciale

4
R = Dδ−1 Σ Dδ−1
RELAZIONE TRA R E MATRICE STANDARDIZZATA Z

Z = X̄ Dδ−1

1 −1 ¯T 1
R = Dδ−1 Σ Dδ−1 = D X X̄ Dδ−1 = Z T Z
n δ n
1
dove n Z T Z → è la matrice di varianza e covarianza del dataset standardizzato

4 Variabilità del dataset


La variabilità del dataset è contenuta nella matrice di varianza e covarianza Σ
Possiamo usare alcune indici per analizzare tale variabilità:

• Indice di Inerzia totale, la varianza complessiva è la somma delle


varianze delle singole variabili
Pp 2
j=1 δj = tr(Σ)
questo indice non tiene conto della dipendenza tra le variabili, quindi va
bene quando ce ne è poca;
• Indice di Wilks (Varianza Generalizzata)
det(Σ)
per esempio se

δ12
 
δ12
Σ= det(Σ) = δ12 δ22 − δ12 2
δ21 δ22

quindi questo indice penalizza le varianze marginali attraverso la covarian-


za tra 1 e 2, cioè attraverso δ12 2
• fissate le marginali, il massimo si ottiene quando le variabili sono incor-
relate, quindi il massimo è pari al prodotto delle varianze marginali (la
diagonale di Σ)

det(Σ)
Qp 2 ∈ [0, 1]
j=1 δj

5
5 Analisi delle componenti principali
Richiami su diagonalizzazione delle matrici
Sia A una matrice simmetrica a valori reali, gli autovalori (eigenvalues) λ e
k×k
gli autovettori normalizzati con υ con || v || = 1 sono definiti dalla seguente
k×1 k×1
equazione
A υ =λ υ
k×k k×1 k×1

ci sono esattamente k coppie (λj , υ ), j = 1, . . . , k che soddisfano l’equazione.


k×1
Per convenienza ordineremo gli autovalori in ordine decrescente:

λ1 ≥ λ2 ≥ . . . λk
Alcune osservazioni importanti:
• A definita positiva ⇔ tutti gli autovalori di A sono positivi, i.e. λj >
k×k k×k
0, j = 1, . . . , k;

• A con rango r ≤ k. Allora A ha r autovalori non nulli, e i rimanenti


k×k k×k
k - r autovalori nulli;

• Autovettori normalizzati υj e υl associatiadautovaloriλj ̸= λl sono per-


k×1 k×1
pendicolari, i.e. υj′ υl = 0

Teorema:
Sia A una matrice simmetrica a valori reali. Allora A si può esprimere come
k×k k×k
Pk
A = V ∆ V T = j=1 λj υj υjT
k×k k×k k×k k×k k×1 1×k

con
• Λ = diag(λ1 , . . . , λk ) è una matrice diagonale dove il j-esimo elemento
k×k
della diagonale λj è il j-esimo autovalore associato ad A .
k×k
" #
• V = υ1 , . . . , υk , dove la j-esima colanna υj è il j-esimo autovettore
k×k k×1 k×1 k×1
normalizzato associato all’autovalore λj .
• V è una matrice ortogonale: V V T = V T V = V I
k×k k×k k×k k×k k×k k×k k×k

6
Possiamo ridurre il numero delle variabili all’interno del dataset
X1 , . . . , Xp −→ Y1 , . . . , Yk con k << p

Figura 1: I Dati di partenza sono plottati nel piano R3 , ed i tre segmenti


indicati sono i tre autovettori della matrice di covarianza

Figura 2: Si riporta il piano delle due componenti principali scelte

Lo scopo primario di questa tecnica è la riduzione di un numero più o meno


elevato di variabili (rappresentanti altrettante caratteristiche del fenomeno
analizzato). Ciò avviene tramite una trasformazione lineare delle variabili che
proietta quelle originarie in un nuovo sistema cartesiano nel quale le variabili
vengono ordinate in ordine decrescente di varianza: pertanto, la variabile con
maggiore varianza viene proiettata sul primo asse, la seconda sul secondo asse
e cosı̀ via.
Il modo per ricavare le componenti principali è quello di scegliere il più grande
autovalore di Σ, calcolare l’autovettore che massimizza la varianza, associato a
tale autovalore e moltiplicarlo per l’unità statistica presa in considerazione
in generale
⃗ =X
Y ⃗ ⃗Γ

7
h i
con Γ = γ1 , . . . , γp matrice le cui colonne sono gli autovettori associati al
dataset
Alcune proprietà di Y ⃗
 
λ1
• V ar(Y
⃗ ) = Λ ←−  .. 
 . 
λp
Pp
• tr(Σ) = j=1 σj2 = tr(Λ) = j=1 pλj
P

• La varianza cambia fortemente in base all’unità di misura, risolviamo il


problema utilizzando le variabili standardizzate. prendo in
considerazione al posto che Σ, R, matrice di correlazione.

Si è partiti da p variabili, con l’obiettivo di sintetizzarle in un numero inferiore


di variabili “artificiali”. A seconda del rango della matrice Σ, si potranno
trovare fino a p componenti principali.
Lo scopo è quello di analizzare un numero di dati inferiore a quello di
partenza, a tale scopo vengono elencati, di seguito, i criteri adoperati per
ridurre il numero delle componenti principali da p a k , con p ≥ k.
I criteri adoperati per la scelta del numero di componenti sono tre (Criteri
Euristici), e sono:

• prendere solo le componenti che rappresentano l’80-90% della varianza


complessiva, ovvero

λ1 , . . . , λ k
≈ 80/90%
λ1 , λ2 , . . . , λp

dove il numeratore rappresenta la varianza delle prime k componenti


principali, mentre il denominatore rappresenta la varianza di tutte le
componenti principali;
• Seguire la “Regola di Kaiser ”: ovvero prendere solo quelle componenti
che hanno un autovalore maggiore o uguale ad uno, oppure,
equivalentemente, le componenti che hanno varianza maggiore di quella
media (ottenuta come media delle λi );

• La scelta del numero di componenti (sufficienti a riprodurre con una


buona approssimazione i dati di partenza) può essere fatta attraverso il
grafico degli autovalori o “Screen Plot”. All’interno del grafico si sceglie
il numero di componenti corrispondente al punto di “gomito” della
spezzata.

8
6 Analisi dei Cluster
La cluster analysis consiste in un insieme di tecniche statistiche atte ad
individuare gruppi di unità tra loro simili rispetto ad un insieme di caratteri
presi in considerazione, e secondo uno specifico criterio. L’obiettivo che ci si
pone è sostanzialmente quello di riunire unità tra loro eterogenee in più
sottoinsiemi tendenzialmente omogenei e mutuamente esaustivi. Le unità
statistiche vengono, in altri termini, suddivise in un certo numero di gruppi a
seconda del loro livello di ”somiglianza” valutata a partire dai valori che una
serie di variabili prescelte assume in ciascuna unità.
Date n unita, alle quali corrispondono i vettori p-dimensionali Xi , molti
metodi di cluster analysis richiedono il calcolo della matrice delle distanze
(ovvero degli indici di similarità), che contiene le misure di
≪prossimità≫ tra tutte le coppie di unità. Il ricercatore deve quindi scegliere

nel caso di variabili quantitative la distanza o l’indice di distanza, e nei caso di


fenomeni qualitativi il tipo di indice di similarità.
Anche questa scelta condiziona i risultati della classificazione, poiche variando
il tipo di distanza non rimane immutato in generale 1’ordinamento delle coppie
di unita (da quelle tra lora più simili a quelle più diverse) e quindi possono
differire anche i gruppi di unita ≪omogenee≫. La scelta della distanza più
opportuna in un’applicazione concreta deve basarsi sulle caratteristiche delle
singole metriche.
Alcune tra le più note e usate distanze metriche sono:
qP 2
p
• la distanza euclidea (d2 ) = j=1 Xij − Xrj
Pp
• la distanza di Mahanattan (d1 ) = j=1 |Xij − Xrj |
• la distanza di Lagrange (d∞ ) = max |Xij − Xrj |
j=1,...,p

 1/t
Pp t
• la distanza di Minkowski = j=1 Xij − Xrj con
t≥1

• la distanza di Mahalanobis è una distanza che tiene conto anche delle


interdipendenze esistenti tra le p variabili utilizzate ridimensionando il
peso delle variabili portatrici di informazioni eccedenti, già fornite da
altre. Quando le variabili originarie sono correlate tra loro è improprio
utilizzare la distanza euclidea, mentre è pertinente l’uso della statistica
proposta da Mahalanobis data dalla forma quadratica
q
⃗i − X⃗r M X⃗T − X⃗rT
 
dM = X i

le distanze
d1 ≥ d2 ≥ . . . ≥ d∞
sono ordinate.

9
⃗ i, X
Definiamo ora la matrice delle distanze d(X ⃗r )

0 d12 ... d1n !


d21 0 ... d2n
D = .. .. .. ..
n×n . . . .
dn1 dn2 ... 0
I metodi di formazine dei gruppi vengono distinti in gerarchici e non
gerarchici.
I metodi gerarchi consentono di ottenere una famiglia di partizioni, con un
numero di gruppi da n a 1 (o da 1 a n), partendo da quella banale in cui tutte
le unita sono distinte per giungere a quella, pure banale, in cui tutti gli
elementi sono riuniti in un unico gruppo. I metodi Gerarchici possono essere
distinti ulteriormente in aggregativi (Botto-Up) o scissori (Top-Down).
I metodi non gerarchici forniscono un’unica partizione delle n unita in g
gruppi, con g fissato a priori.
A livello intuitivo, possiamo dire che una partizione e soddisfacente quando la
variabilità all’interno dei gruppi individuati è piccola (le unità di ogni gruppo
presentano modeste differenze tra loro) e inoltre i gruppi sono ben distinti
l’uno dall’altro.
Per individuare nella famiglia delle (n - 2) partizioni non banali ottenute con
un metodo gerarchico quella che presenta il numero ≪ottimo≫ di gruppi,
occorre tener conto che esiste un trade-off tra il numero dei gruppi e
1’omogeneità all’interno degli stessi: riducendo il numero di gruppi si ottiene
una classificazione più sintetica, e quindi generalmente più utile a fini
operativi, ma si deve pagare un prezzo in termini di maggiore variabilità nei
gruppi, poichè si aggregano unità maggiormente diverse tra loro.
La partizione con il numero ottimo di gruppi sarà dunque quella che meglio
riesce a contemperare queste opposte esigenze di sintesi delle unità in classi e
di coesione interna dei gruppi.
Nei metodi non gerarchici il numero ottimo di gruppi può essere individuate
per tentativi, ripetendo più volte la procedura con diversi valori di g,
valutando in ogni applicazione la bontà della partizione ottenuta e scegliendo
poi quella più soddisfacente.

METODI GERARCHICI

Gli algoritmi gerarchici proposti in letteratura (metodo del legame singolo,


metodo del legame completo, metodo del legame medio, metodo del centroide,
metodo di Ward, solo per ricordarne alcuni) si differenziano unicamente per il
criterio che regola la valutazione delle distanze tra i gruppi ai fini delle
aggregazioni in serie.

10
• metodo del legame singolo (single linkage in questo caso la distanza
tra gruppi è posta pari alla più piccola delle distanze istituibili a due a
due tra tutti gli elementi dei due gruppi.

d G1 , G2 = min d(ui , ur ) con ui ∈ G1 e ur ∈ G2

Figura 3: legame singolo

L’adozione di questo algoritmo per la composizione dei gruppi evidenzia


in maniera netta e decisamente più accentuata rispetto agli altri
algoritmi tutte le similitudini e somiglianze tra gli elementi: privilegia la
differenza tra i gruppi piuttosto che l’omogeneità degli elementi di ogni
gruppo.
• legame completo (complete linkage) secondo questo metodo si
considera la maggiore delle distanze istituibili a due a due tra tutti gli
elementi dei due gruppi

d G1 , G2 = max d(ui , ur ) ∀ i ∈ G1 , ∀ r ∈ G2

Figura 4: legame completo

Questo algoritmo di aggregazione evidenzia in maniera netta le differenze


tra elementi: privilegia l’omogeneità tra gli elementi del gruppo a scapito
della differenziazione netta tra gruppi.
• metodo del legame medio (average linkage) si tratta del valor medio
aritmetico di tutte le distanzee tra gli elementi
= n11n2
 P P
d G1 , G2 ui ∈G1 ur ∈G2 d(ui , ur ) ∀ ui ∈ G1 , ur ∈ G2

Figura 5: legame medio

11
• metodo del centroide vanno determinati i vettori contenenti i valori
medi delle p variabili in tutti i gruppi, e le distanze tra i gruppi vengono
assunte pari alla distanza tra i rispettivi centroidi. se X ⃗i e X
⃗r sono i
centroidi avremo
⃗ i, X
⃗r )

d G1 , G2 = d(X

Figura 6: legame del centroide

Le partizioni tra i gruppi possono essere rappresentate graficamente attraverso


un ”dendrogramma” nel quale sull’asse delle ordinate vengono riportate le
distanze, mentre su quello delle ascisse vengono riportate le singole unità.
Ogni ramo del diagramma corrisponde ad un grappolo, la linea di
congiunzione (orizzontale) di due o più rami individua il livello di distanza al
quale i grappoli si fondono.

Figura 7: dendrogramma

12
Metodo di Ward
Un buon cluster è quello tale che gli elementi all’interno del gruppo abbiano la
minor variabilità possibile e la variabilità tra i gruppi sia elevata.

Siano:
h = 1, . . . , k → numero dei gruppi
i = 1, . . . , nh → numero degli elementi dei gruppi
Sia X una variabile divisa in k gruppi e sia
Pk Pnh
X
µ = h=1Pk i=1 ij
h=1 nh
la media generale

Possiamo scrivere la Devianza come

Pk Pnh 2
DEVT OT = h=1 i=1 Xih − µ

2 Pnh
Pk Pnh Xih
DEVW IT H = h=1 i=1 Xih − µh con µh = i=1
nh

Pk Pnh 2 Pk 2
DEVBET = h=1 i=1 µh − µ = h=1 nh (µh − µ

In un cluster ideale vorremmo che DEVW IT H sia basso, ma DEVBET sia alto.

Xj j = 1, . . . , p
p
X p
X p
X
DTj = DWj + DBj quindi DT = DTj = DWj + DBj
j=1 j=1 j=1

Il metodo di Ward quindi suggerisce di riunire, ad ogni tappa del processo, i


due gruppi dalla cui fusione deriva il minimo incremento della devianza within.
nel passare da k+1 gruppi a k gruppi, DEVW IT H aumenta, ma la DEVBET
diminuisce

13
ALGORITMI GERARCHICI SCISSORI

Supponiamo di avere {a, b, c, . . . } n unità statistiche


Al secondo step vogliamo dividere il gruppo precedente per esempio come

{a} {b, c, . . . }

oppure

{b} {a, c, . . . }

abbiamo in totale 2n − 1 modi per dividere le n unità.

Indici di bontà dei clusters

• confronto l’omogeneità dentro il gruppo con la separazione tra i gruppi.


Se per esempio prendo la massima distanza nei gruppi e ne prendo il
massimo e la confronto con la minima distanza tra gruppi. Una
partizione è ben costruita se la distanza interna dei gruppi è più piccola
della distanza tra gruppi;
• Indice basato sulla devianza (R2 )
DBET
R2 = DT OT R2 ∈ [0, 1]

oppure

R2 = 1 − DDWTIT
OT
H
L’indice funziona male se le partizioni hanno numerosità

diverse, ma può essere normalizzatp rispetto al numero dei gruppi;


• Analisi del dendrogramma, un metodo per decidere che distanza fissare
può essere utilizzando i rapporti tra le rispettive distanze. dd12 ∈ [0, 1]

quando il rapporto è picolo, sto introducendo gruppi disomogenei, poichè


sto unendo gruppi molto distanti tra loro;
• Indice Silhoutte, valuto se le singole unità statistiche sono ben inserite
all’interno del gruppo

1
P
d(ui , Gh ) = nh uj ∈ Gh d(ui , uj )

se le distanze sono piccole, il gruppo è coeso, ovvero le unità sono vicine


fra loro.
Come misura di separazione esterna con i gruppi prendo quanto l’unità è
distante dal gruppo più vicino, ovvero

d0 = min d(ui , Gh )
h̸=l

14
è il grado di separazione dell’unità da tutti gli altri gruppi. quindi

S(ui ) = d0 − d(ui , Gl )

Più l’indice è alto più mi dice che l’unità è ben inserita allinterno del
gruppo.

15
METODI NON GERARCHICI
Questi metodi sono caratterizzati da un procedimento che mira a ripartire
direttamente le n unità in k grappoli, fornendo come prodotto finale una sola
partizione delle n unità.
Di solito si mira a trovare, fissato k, la divisione che minimizza la devianza
interna ai gruppi o massimizza la distanza tra i gruppi.
Computazionalmente è un lavoro molto pesante e al crescere di n diventa
quasi impossibile trovare degli algoritmi che ottimizzano.

Il metodo delle k-medie


Il metodo delle k-medie costituisce, seppure con alcune varianti, l’algoritmo di
classificazione non gerarchico di uso più comune.

1. Si scelgono k ”semi” iniziali, cioè k punti dello spazio p-dimensionale che


costituisce i centroidi dei clusters nelle partizioni iniziali.
I ”semi” possono essere individuati attraverso criteri differenti,
generalmente in modo tale che essi siano abbastanza distanti tra loro. Si
costituisce quindi la partizione iniziale, costituita da k gruppi, allocando
ciascuna unità al cluster il cui seme risulta più vicino;

2. Per ogni elemento si calcola la distanza dai centroidi dei k gruppi: se la


distanza minima non è ottenuta in corrispondenza del centroide del
gruppo di appartenenza, l’unità è riassegnata al cluster, corrispondente
al centroide più vicino;
3. Si ripete il passo 2 sino a quando non e raggiunta la convergenza
dell’algoritmo, cioè finchè non si verifica alcuna modificazione dei ”semi”,
e quindi dei gruppi, rispetto all’interazione precedente.

La metrica utilizzata nel calcolo di queste distanze e solitamente quella


euclidea, in quanto essa garantisce la convergenza della procedura iterativa.

16

Potrebbero piacerti anche