Appunti Introduzione All Inferenza

Appunti Analisi dei Cluster
Mattia Buzzoni
November 2022
1
1 Matrice dei dati
Supponendo di avere
n: unità statistiche
p: variabili (quantitative)
X11 X12 ... X1p !

X21 X22 ... X2p
X = .. .. ..
n×p . . .
Xn1 Xn2 ... Xnp
dove le righe rappresentano le unità statistiche prese in esame e le colonne le

variabili di interesse.
Una prima analisi della matrice dei dati può essere effettuata tramite criteri
soggettivi quali:
• Ricerca di Missing Data, se mancano dei dati all’interno della matrice,

possiamo scegliere se scartare le unità o le variabili in questione. E’ una
soluzione grezza e può causare una perdita di informazioni. Un altro modo
può essere quello di sostituire il dato mancante con un valore verosimile o
simile alla variabile di un’unità che ha valori simili;
• Controllo di ammissibilità, controllo che i valori delle variabili corri-

spondano ai valori che quelle variabili possono assumere;
• Outlier, verifico la presenza di valori anomali rispetto a quelli del resto
della popolazione e inoltre verifico quanto quel valore, qualora esistesse,
influenza l’analisi dei dati.
VETTORE DELLE MEDIE PER LA MATRICE DEI DATI

possiamo scrivere le variabili e i vettori colonna come:
Xj → j-esima variabile
⃗ j → j-esimo vettore colonna
X
la media dei valori di un vettore colonna si può scrivere come:

n
1 X
µj = Xij ∀ j = 1, . . . , p
n i=1
quindi in forma matricile:
2
1 T⃗
µ = X 1
p×1 n
il vettore delle medie è noto anche come baricentro del dataset, cioè indica
dove è posizionato il mio dataset.
MATRICE CENTRATA DEI DATI E’ utile riportare il baricentro del
dataset sull’origine, ovvero a media zero (centrato sull’origine)
X12 − µ1 X12 − µ2 ... X1p − µn !

X21 − µ1 X22 − µ2 ... X2p − µn
X̄ = .. .. ..
n×p . . .
Xn1 − µ1 Xn2 − µ2 ... Xnp − µn
In forma matriciale lo possiamo scrivere come
X̄ = X − ⃗1 µ⃗T
n×p n×p n×1 1×p
Possiamo quindi ora procedere con la standardizzazione, dividendo ciascuna

variabile per la varianza.
La varianza della popolazione è pari a
Pn
2 (Xij − µj )2
δj = i=1
n
in forma matriciale può essere scritta come
1 ¯T
δj2 = X X̄j
n j
quindi
Xj − µj
Zj = → con media zero e varianza unitaria
δj
e
X11 −µ1 X1p −µn
δ1 ... ... δn
X21 −µ1 X2p −µn !
δ1 ... ... δn
Z = .. ..
n×p
. ... .
Xn1 −µ1 Xnp −µn
δ1 ... ... δn
Ho effettuato un’operazione di traslazione sottraendo la media e un’operazione

di cambiamento di scala dividendo per la deviazione standard.
In forma matriciale la Z si può scrivere come
  1 
δ1 δ1
Dδ = 
 .. 
Dδ−1 = 
 .. 
.  . 
1
δi δn
3
quindi di conseguenza
Z = X̄ Dδ−1
n×p n×p
2 Matrice di Varianze e Covarianze

δ12
 
δ12 ... δ1p
 δ21 δ22 ... δ2p 
Σ = .
 
.. .. .. 
p×p  .. . . . 
δn1 δn2 ... δp2
Proprietà di Σ
• è simmetrica Σ = ΣT ;
• se n > p r(Σ) = r(X), se X è una matrice di rango pieno;
• r(Σ) = r(X) = p, quando le colonne sono linearmente indipendenti;
• Σ è semi-definita positiva ∀ ⃗a ∈ R
quindi
a⃗T Σ ⃗a =
XX
ai aj δij ≥ 0 ∀ ⃗a
i j
P P
se r(Σ) = p =⇒ i j ai aj δij > 0
possiamo scrivere la matrice di varianza e covarianza in forma matriciale in

questo modo
1 ¯T
Σ= X X̄
n
3 Matrice di correlazione
La correlazione tra la variabile j-esima e la variabile s-esima è pari a:
δj s
ρj s =
δj δs
La matrice di correlazione tra tutte le variabile quindi è
 
1 ρ12 . . . ρ1p
 ρ21 1 . . . ρ2p 
R = .
 
. .. .. 
p×p  .. .. . . 
ρn1 ρn2 . . . 1
in forma matriciale
4
R = Dδ−1 Σ Dδ−1
RELAZIONE TRA R E MATRICE STANDARDIZZATA Z
Z = X̄ Dδ−1
1 −1 ¯T 1
R = Dδ−1 Σ Dδ−1 = D X X̄ Dδ−1 = Z T Z
n δ n
1
dove n Z T Z → è la matrice di varianza e covarianza del dataset standardizzato
4 Variabilità del dataset

La variabilità del dataset è contenuta nella matrice di varianza e covarianza Σ
Possiamo usare alcune indici per analizzare tale variabilità:
• Indice di Inerzia totale, la varianza complessiva è la somma delle

varianze delle singole variabili
Pp 2
j=1 δj = tr(Σ)
questo indice non tiene conto della dipendenza tra le variabili, quindi va
bene quando ce ne è poca;
• Indice di Wilks (Varianza Generalizzata)
det(Σ)
per esempio se
δ12

δ12
Σ= det(Σ) = δ12 δ22 − δ12 2
δ21 δ22
quindi questo indice penalizza le varianze marginali attraverso la covarian-

za tra 1 e 2, cioè attraverso δ12 2
• fissate le marginali, il massimo si ottiene quando le variabili sono incor-
relate, quindi il massimo è pari al prodotto delle varianze marginali (la
diagonale di Σ)
det(Σ)
Qp 2 ∈ [0, 1]
j=1 δj
5
5 Analisi delle componenti principali
Richiami su diagonalizzazione delle matrici
Sia A una matrice simmetrica a valori reali, gli autovalori (eigenvalues) λ e
k×k
gli autovettori normalizzati con υ con || v || = 1 sono definiti dalla seguente
k×1 k×1
equazione
A υ =λ υ
k×k k×1 k×1
ci sono esattamente k coppie (λj , υ ), j = 1, . . . , k che soddisfano l’equazione.

k×1
Per convenienza ordineremo gli autovalori in ordine decrescente:
λ1 ≥ λ2 ≥ . . . λk
Alcune osservazioni importanti:
• A definita positiva ⇔ tutti gli autovalori di A sono positivi, i.e. λj >
k×k k×k
0, j = 1, . . . , k;
• A con rango r ≤ k. Allora A ha r autovalori non nulli, e i rimanenti

k×k k×k
k - r autovalori nulli;
• Autovettori normalizzati υj e υl associatiadautovaloriλj ̸= λl sono per-

k×1 k×1
pendicolari, i.e. υj′ υl = 0
Teorema:
Sia A una matrice simmetrica a valori reali. Allora A si può esprimere come
k×k k×k
Pk
A = V ∆ V T = j=1 λj υj υjT
k×k k×k k×k k×k k×1 1×k
con
• Λ = diag(λ1 , . . . , λk ) è una matrice diagonale dove il j-esimo elemento
k×k
della diagonale λj è il j-esimo autovalore associato ad A .
k×k
" #
• V = υ1 , . . . , υk , dove la j-esima colanna υj è il j-esimo autovettore
k×k k×1 k×1 k×1
normalizzato associato all’autovalore λj .
• V è una matrice ortogonale: V V T = V T V = V I
k×k k×k k×k k×k k×k k×k k×k
6
Possiamo ridurre il numero delle variabili all’interno del dataset
X1 , . . . , Xp −→ Y1 , . . . , Yk con k << p
Figura 1: I Dati di partenza sono plottati nel piano R3 , ed i tre segmenti

indicati sono i tre autovettori della matrice di covarianza
Figura 2: Si riporta il piano delle due componenti principali scelte
Lo scopo primario di questa tecnica è la riduzione di un numero più o meno

elevato di variabili (rappresentanti altrettante caratteristiche del fenomeno
analizzato). Ciò avviene tramite una trasformazione lineare delle variabili che
proietta quelle originarie in un nuovo sistema cartesiano nel quale le variabili
vengono ordinate in ordine decrescente di varianza: pertanto, la variabile con
maggiore varianza viene proiettata sul primo asse, la seconda sul secondo asse
e cosı̀ via.
Il modo per ricavare le componenti principali è quello di scegliere il più grande
autovalore di Σ, calcolare l’autovettore che massimizza la varianza, associato a
tale autovalore e moltiplicarlo per l’unità statistica presa in considerazione
in generale
⃗ =X
Y ⃗ ⃗Γ
7
h i
con Γ = γ1 , . . . , γp matrice le cui colonne sono gli autovettori associati al
dataset
Alcune proprietà di Y ⃗
 
λ1
• V ar(Y
⃗ ) = Λ ←−  .. 
 . 
λp
Pp
• tr(Σ) = j=1 σj2 = tr(Λ) = j=1 pλj
P
• La varianza cambia fortemente in base all’unità di misura, risolviamo il

problema utilizzando le variabili standardizzate. prendo in
considerazione al posto che Σ, R, matrice di correlazione.
Si è partiti da p variabili, con l’obiettivo di sintetizzarle in un numero inferiore

di variabili “artificiali”. A seconda del rango della matrice Σ, si potranno
trovare fino a p componenti principali.
Lo scopo è quello di analizzare un numero di dati inferiore a quello di
partenza, a tale scopo vengono elencati, di seguito, i criteri adoperati per
ridurre il numero delle componenti principali da p a k , con p ≥ k.
I criteri adoperati per la scelta del numero di componenti sono tre (Criteri
Euristici), e sono:
• prendere solo le componenti che rappresentano l’80-90% della varianza

complessiva, ovvero
λ1 , . . . , λ k
≈ 80/90%
λ1 , λ2 , . . . , λp
dove il numeratore rappresenta la varianza delle prime k componenti

principali, mentre il denominatore rappresenta la varianza di tutte le
componenti principali;
• Seguire la “Regola di Kaiser ”: ovvero prendere solo quelle componenti
che hanno un autovalore maggiore o uguale ad uno, oppure,
equivalentemente, le componenti che hanno varianza maggiore di quella
media (ottenuta come media delle λi );
• La scelta del numero di componenti (sufficienti a riprodurre con una

buona approssimazione i dati di partenza) può essere fatta attraverso il
grafico degli autovalori o “Screen Plot”. All’interno del grafico si sceglie
il numero di componenti corrispondente al punto di “gomito” della
spezzata.
8
6 Analisi dei Cluster
La cluster analysis consiste in un insieme di tecniche statistiche atte ad
individuare gruppi di unità tra loro simili rispetto ad un insieme di caratteri
presi in considerazione, e secondo uno specifico criterio. L’obiettivo che ci si
pone è sostanzialmente quello di riunire unità tra loro eterogenee in più
sottoinsiemi tendenzialmente omogenei e mutuamente esaustivi. Le unità
statistiche vengono, in altri termini, suddivise in un certo numero di gruppi a
seconda del loro livello di ”somiglianza” valutata a partire dai valori che una
serie di variabili prescelte assume in ciascuna unità.
Date n unita, alle quali corrispondono i vettori p-dimensionali Xi , molti
metodi di cluster analysis richiedono il calcolo della matrice delle distanze
(ovvero degli indici di similarità), che contiene le misure di
≪prossimità≫ tra tutte le coppie di unità. Il ricercatore deve quindi scegliere
nel caso di variabili quantitative la distanza o l’indice di distanza, e nei caso di

fenomeni qualitativi il tipo di indice di similarità.
Anche questa scelta condiziona i risultati della classificazione, poiche variando
il tipo di distanza non rimane immutato in generale 1’ordinamento delle coppie
di unita (da quelle tra lora più simili a quelle più diverse) e quindi possono
differire anche i gruppi di unita ≪omogenee≫. La scelta della distanza più
opportuna in un’applicazione concreta deve basarsi sulle caratteristiche delle
singole metriche.
Alcune tra le più note e usate distanze metriche sono:
qP 2
p
• la distanza euclidea (d2 ) = j=1 Xij − Xrj
Pp
• la distanza di Mahanattan (d1 ) = j=1 |Xij − Xrj |
• la distanza di Lagrange (d∞ ) = max |Xij − Xrj |
j=1,...,p
1/t
Pp t
• la distanza di Minkowski = j=1 Xij − Xrj con
t≥1
• la distanza di Mahalanobis è una distanza che tiene conto anche delle

interdipendenze esistenti tra le p variabili utilizzate ridimensionando il
peso delle variabili portatrici di informazioni eccedenti, già fornite da
altre. Quando le variabili originarie sono correlate tra loro è improprio
utilizzare la distanza euclidea, mentre è pertinente l’uso della statistica
proposta da Mahalanobis data dalla forma quadratica
q
⃗i − X⃗r M X⃗T − X⃗rT

dM = X i
le distanze
d1 ≥ d2 ≥ . . . ≥ d∞
sono ordinate.
9
⃗ i, X
Definiamo ora la matrice delle distanze d(X ⃗r )
0 d12 ... d1n !

d21 0 ... d2n
D = .. .. .. ..
n×n . . . .
dn1 dn2 ... 0
I metodi di formazine dei gruppi vengono distinti in gerarchici e non
gerarchici.
I metodi gerarchi consentono di ottenere una famiglia di partizioni, con un
numero di gruppi da n a 1 (o da 1 a n), partendo da quella banale in cui tutte
le unita sono distinte per giungere a quella, pure banale, in cui tutti gli
elementi sono riuniti in un unico gruppo. I metodi Gerarchici possono essere
distinti ulteriormente in aggregativi (Botto-Up) o scissori (Top-Down).
I metodi non gerarchici forniscono un’unica partizione delle n unita in g
gruppi, con g fissato a priori.
A livello intuitivo, possiamo dire che una partizione e soddisfacente quando la
variabilità all’interno dei gruppi individuati è piccola (le unità di ogni gruppo
presentano modeste differenze tra loro) e inoltre i gruppi sono ben distinti
l’uno dall’altro.
Per individuare nella famiglia delle (n - 2) partizioni non banali ottenute con
un metodo gerarchico quella che presenta il numero ≪ottimo≫ di gruppi,
occorre tener conto che esiste un trade-off tra il numero dei gruppi e
1’omogeneità all’interno degli stessi: riducendo il numero di gruppi si ottiene
una classificazione più sintetica, e quindi generalmente più utile a fini
operativi, ma si deve pagare un prezzo in termini di maggiore variabilità nei
gruppi, poichè si aggregano unità maggiormente diverse tra loro.
La partizione con il numero ottimo di gruppi sarà dunque quella che meglio
riesce a contemperare queste opposte esigenze di sintesi delle unità in classi e
di coesione interna dei gruppi.
Nei metodi non gerarchici il numero ottimo di gruppi può essere individuate
per tentativi, ripetendo più volte la procedura con diversi valori di g,
valutando in ogni applicazione la bontà della partizione ottenuta e scegliendo
poi quella più soddisfacente.
METODI GERARCHICI
Gli algoritmi gerarchici proposti in letteratura (metodo del legame singolo,

metodo del legame completo, metodo del legame medio, metodo del centroide,
metodo di Ward, solo per ricordarne alcuni) si differenziano unicamente per il
criterio che regola la valutazione delle distanze tra i gruppi ai fini delle
aggregazioni in serie.
10
• metodo del legame singolo (single linkage in questo caso la distanza
tra gruppi è posta pari alla più piccola delle distanze istituibili a due a
due tra tutti gli elementi dei due gruppi.

d G1 , G2 = min d(ui , ur ) con ui ∈ G1 e ur ∈ G2
Figura 3: legame singolo
L’adozione di questo algoritmo per la composizione dei gruppi evidenzia

in maniera netta e decisamente più accentuata rispetto agli altri
algoritmi tutte le similitudini e somiglianze tra gli elementi: privilegia la
differenza tra i gruppi piuttosto che l’omogeneità degli elementi di ogni
gruppo.
• legame completo (complete linkage) secondo questo metodo si
considera la maggiore delle distanze istituibili a due a due tra tutti gli
elementi dei due gruppi

d G1 , G2 = max d(ui , ur ) ∀ i ∈ G1 , ∀ r ∈ G2
Figura 4: legame completo
Questo algoritmo di aggregazione evidenzia in maniera netta le differenze

tra elementi: privilegia l’omogeneità tra gli elementi del gruppo a scapito
della differenziazione netta tra gruppi.
• metodo del legame medio (average linkage) si tratta del valor medio
aritmetico di tutte le distanzee tra gli elementi
= n11n2
P P
d G1 , G2 ui ∈G1 ur ∈G2 d(ui , ur ) ∀ ui ∈ G1 , ur ∈ G2
Figura 5: legame medio
11
• metodo del centroide vanno determinati i vettori contenenti i valori
medi delle p variabili in tutti i gruppi, e le distanze tra i gruppi vengono
assunte pari alla distanza tra i rispettivi centroidi. se X ⃗i e X
⃗r sono i
centroidi avremo
⃗ i, X
⃗r )

d G1 , G2 = d(X
Figura 6: legame del centroide
Le partizioni tra i gruppi possono essere rappresentate graficamente attraverso

un ”dendrogramma” nel quale sull’asse delle ordinate vengono riportate le
distanze, mentre su quello delle ascisse vengono riportate le singole unità.
Ogni ramo del diagramma corrisponde ad un grappolo, la linea di
congiunzione (orizzontale) di due o più rami individua il livello di distanza al
quale i grappoli si fondono.
Figura 7: dendrogramma
12
Metodo di Ward
Un buon cluster è quello tale che gli elementi all’interno del gruppo abbiano la
minor variabilità possibile e la variabilità tra i gruppi sia elevata.
Siano:
h = 1, . . . , k → numero dei gruppi
i = 1, . . . , nh → numero degli elementi dei gruppi
Sia X una variabile divisa in k gruppi e sia
Pk Pnh
X
µ = h=1Pk i=1 ij
h=1 nh
la media generale
Possiamo scrivere la Devianza come
Pk Pnh 2
DEVT OT = h=1 i=1 Xih − µ
2 Pnh
Pk Pnh Xih
DEVW IT H = h=1 i=1 Xih − µh con µh = i=1
nh
Pk Pnh 2 Pk 2
DEVBET = h=1 i=1 µh − µ = h=1 nh (µh − µ
In un cluster ideale vorremmo che DEVW IT H sia basso, ma DEVBET sia alto.
Xj j = 1, . . . , p
p
X p
X p
X
DTj = DWj + DBj quindi DT = DTj = DWj + DBj
j=1 j=1 j=1
Il metodo di Ward quindi suggerisce di riunire, ad ogni tappa del processo, i

due gruppi dalla cui fusione deriva il minimo incremento della devianza within.
nel passare da k+1 gruppi a k gruppi, DEVW IT H aumenta, ma la DEVBET
diminuisce
13
ALGORITMI GERARCHICI SCISSORI
Supponiamo di avere {a, b, c, . . . } n unità statistiche

Al secondo step vogliamo dividere il gruppo precedente per esempio come
{a} {b, c, . . . }
oppure
{b} {a, c, . . . }
abbiamo in totale 2n − 1 modi per dividere le n unità.
Indici di bontà dei clusters
• confronto l’omogeneità dentro il gruppo con la separazione tra i gruppi.

Se per esempio prendo la massima distanza nei gruppi e ne prendo il
massimo e la confronto con la minima distanza tra gruppi. Una
partizione è ben costruita se la distanza interna dei gruppi è più piccola
della distanza tra gruppi;
• Indice basato sulla devianza (R2 )
DBET
R2 = DT OT R2 ∈ [0, 1]
oppure
R2 = 1 − DDWTIT
OT
H
L’indice funziona male se le partizioni hanno numerosità
diverse, ma può essere normalizzatp rispetto al numero dei gruppi;

• Analisi del dendrogramma, un metodo per decidere che distanza fissare
può essere utilizzando i rapporti tra le rispettive distanze. dd12 ∈ [0, 1]
quando il rapporto è picolo, sto introducendo gruppi disomogenei, poichè

sto unendo gruppi molto distanti tra loro;
• Indice Silhoutte, valuto se le singole unità statistiche sono ben inserite
all’interno del gruppo
1
P
d(ui , Gh ) = nh uj ∈ Gh d(ui , uj )
se le distanze sono piccole, il gruppo è coeso, ovvero le unità sono vicine

fra loro.
Come misura di separazione esterna con i gruppi prendo quanto l’unità è
distante dal gruppo più vicino, ovvero
d0 = min d(ui , Gh )
h̸=l
14
è il grado di separazione dell’unità da tutti gli altri gruppi. quindi
S(ui ) = d0 − d(ui , Gl )
Più l’indice è alto più mi dice che l’unità è ben inserita allinterno del
gruppo.
15
METODI NON GERARCHICI
Questi metodi sono caratterizzati da un procedimento che mira a ripartire
direttamente le n unità in k grappoli, fornendo come prodotto finale una sola
partizione delle n unità.
Di solito si mira a trovare, fissato k, la divisione che minimizza la devianza
interna ai gruppi o massimizza la distanza tra i gruppi.
Computazionalmente è un lavoro molto pesante e al crescere di n diventa
quasi impossibile trovare degli algoritmi che ottimizzano.
Il metodo delle k-medie

Il metodo delle k-medie costituisce, seppure con alcune varianti, l’algoritmo di
classificazione non gerarchico di uso più comune.
1. Si scelgono k ”semi” iniziali, cioè k punti dello spazio p-dimensionale che

costituisce i centroidi dei clusters nelle partizioni iniziali.
I ”semi” possono essere individuati attraverso criteri differenti,
generalmente in modo tale che essi siano abbastanza distanti tra loro. Si
costituisce quindi la partizione iniziale, costituita da k gruppi, allocando
ciascuna unità al cluster il cui seme risulta più vicino;
2. Per ogni elemento si calcola la distanza dai centroidi dei k gruppi: se la

distanza minima non è ottenuta in corrispondenza del centroide del
gruppo di appartenenza, l’unità è riassegnata al cluster, corrispondente
al centroide più vicino;
3. Si ripete il passo 2 sino a quando non e raggiunta la convergenza
dell’algoritmo, cioè finchè non si verifica alcuna modificazione dei ”semi”,
e quindi dei gruppi, rispetto all’interazione precedente.
La metrica utilizzata nel calcolo di queste distanze e solitamente quella

euclidea, in quanto essa garantisce la convergenza della procedura iterativa.
16

Appunti Introduzione All Inferenza

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Appunti Introduzione All Inferenza

Caricato da

Copyright:

Formati disponibili

Appunti Analisi dei Cluster

X11 X12 ... X1p !

dove le righe rappresentano le unità statistiche prese in esame e le colonne le

• Ricerca di Missing Data, se mancano dei dati all’interno della matrice,

• Controllo di ammissibilità, controllo che i valori delle variabili corri-

VETTORE DELLE MEDIE PER LA MATRICE DEI DATI

la media dei valori di un vettore colonna si può scrivere come:

quindi in forma matricile:

X12 − µ1 X12 − µ2 ... X1p − µn !

Possiamo quindi ora procedere con la standardizzazione, dividendo ciascuna

Ho effettuato un’operazione di traslazione sottraendo la media e un’operazione

2 Matrice di Varianze e Covarianze

possiamo scrivere la matrice di varianza e covarianza in forma matriciale in

4 Variabilità del dataset

• Indice di Inerzia totale, la varianza complessiva è la somma delle

quindi questo indice penalizza le varianze marginali attraverso la covarian-

ci sono esattamente k coppie (λj , υ ), j = 1, . . . , k che soddisfano l’equazione.

• A con rango r ≤ k. Allora A ha r autovalori non nulli, e i rimanenti

• Autovettori normalizzati υj e υl associatiadautovaloriλj ̸= λl sono per-

Figura 1: I Dati di partenza sono plottati nel piano R3 , ed i tre segmenti

Figura 2: Si riporta il piano delle due componenti principali scelte

Lo scopo primario di questa tecnica è la riduzione di un numero più o meno

• La varianza cambia fortemente in base all’unità di misura, risolviamo il

Si è partiti da p variabili, con l’obiettivo di sintetizzarle in un numero inferiore

• prendere solo le componenti che rappresentano l’80-90% della varianza

dove il numeratore rappresenta la varianza delle prime k componenti

• La scelta del numero di componenti (sufficienti a riprodurre con una

nel caso di variabili quantitative la distanza o l’indice di distanza, e nei caso di

• la distanza di Mahalanobis è una distanza che tiene conto anche delle

0 d12 ... d1n !

Gli algoritmi gerarchici proposti in letteratura (metodo del legame singolo,

Figura 3: legame singolo

L’adozione di questo algoritmo per la composizione dei gruppi evidenzia

Figura 4: legame completo

Questo algoritmo di aggregazione evidenzia in maniera netta le differenze

Figura 5: legame medio

Figura 6: legame del centroide

Le partizioni tra i gruppi possono essere rappresentate graficamente attraverso

Possiamo scrivere la Devianza come

Il metodo di Ward quindi suggerisce di riunire, ad ogni tappa del processo, i

Supponiamo di avere {a, b, c, . . . } n unità statistiche

abbiamo in totale 2n − 1 modi per dividere le n unità.

Indici di bontà dei clusters

• confronto l’omogeneità dentro il gruppo con la separazione tra i gruppi.

diverse, ma può essere normalizzatp rispetto al numero dei gruppi;

quando il rapporto è picolo, sto introducendo gruppi disomogenei, poichè

se le distanze sono piccole, il gruppo è coeso, ovvero le unità sono vicine

Il metodo delle k-medie

1. Si scelgono k ”semi” iniziali, cioè k punti dello spazio p-dimensionale che

2. Per ogni elemento si calcola la distanza dai centroidi dei k gruppi: se la

La metrica utilizzata nel calcolo di queste distanze e solitamente quella

Potrebbero piacerti anche