Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Mattia Buzzoni
November 2022
1
1 Matrice dei dati
Supponendo di avere
n: unità statistiche
p: variabili (quantitative)
Xj → j-esima variabile
⃗ j → j-esimo vettore colonna
X
2
1 T⃗
µ = X 1
p×1 n
il vettore delle medie è noto anche come baricentro del dataset, cioè indica
dove è posizionato il mio dataset.
MATRICE CENTRATA DEI DATI E’ utile riportare il baricentro del
dataset sull’origine, ovvero a media zero (centrato sull’origine)
X̄ = X − ⃗1 µ⃗T
n×p n×p n×1 1×p
3
quindi di conseguenza
Z = X̄ Dδ−1
n×p n×p
• è simmetrica Σ = ΣT ;
• se n > p r(Σ) = r(X), se X è una matrice di rango pieno;
• r(Σ) = r(X) = p, quando le colonne sono linearmente indipendenti;
• Σ è semi-definita positiva ∀ ⃗a ∈ R
quindi
a⃗T Σ ⃗a =
XX
ai aj δij ≥ 0 ∀ ⃗a
i j
P P
se r(Σ) = p =⇒ i j ai aj δij > 0
3 Matrice di correlazione
La correlazione tra la variabile j-esima e la variabile s-esima è pari a:
δj s
ρj s =
δj δs
La matrice di correlazione tra tutte le variabile quindi è
1 ρ12 . . . ρ1p
ρ21 1 . . . ρ2p
R = .
. .. ..
p×p .. .. . .
ρn1 ρn2 . . . 1
in forma matriciale
4
R = Dδ−1 Σ Dδ−1
RELAZIONE TRA R E MATRICE STANDARDIZZATA Z
Z = X̄ Dδ−1
1 −1 ¯T 1
R = Dδ−1 Σ Dδ−1 = D X X̄ Dδ−1 = Z T Z
n δ n
1
dove n Z T Z → è la matrice di varianza e covarianza del dataset standardizzato
δ12
δ12
Σ= det(Σ) = δ12 δ22 − δ12 2
δ21 δ22
det(Σ)
Qp 2 ∈ [0, 1]
j=1 δj
5
5 Analisi delle componenti principali
Richiami su diagonalizzazione delle matrici
Sia A una matrice simmetrica a valori reali, gli autovalori (eigenvalues) λ e
k×k
gli autovettori normalizzati con υ con || v || = 1 sono definiti dalla seguente
k×1 k×1
equazione
A υ =λ υ
k×k k×1 k×1
λ1 ≥ λ2 ≥ . . . λk
Alcune osservazioni importanti:
• A definita positiva ⇔ tutti gli autovalori di A sono positivi, i.e. λj >
k×k k×k
0, j = 1, . . . , k;
Teorema:
Sia A una matrice simmetrica a valori reali. Allora A si può esprimere come
k×k k×k
Pk
A = V ∆ V T = j=1 λj υj υjT
k×k k×k k×k k×k k×1 1×k
con
• Λ = diag(λ1 , . . . , λk ) è una matrice diagonale dove il j-esimo elemento
k×k
della diagonale λj è il j-esimo autovalore associato ad A .
k×k
" #
• V = υ1 , . . . , υk , dove la j-esima colanna υj è il j-esimo autovettore
k×k k×1 k×1 k×1
normalizzato associato all’autovalore λj .
• V è una matrice ortogonale: V V T = V T V = V I
k×k k×k k×k k×k k×k k×k k×k
6
Possiamo ridurre il numero delle variabili all’interno del dataset
X1 , . . . , Xp −→ Y1 , . . . , Yk con k << p
7
h i
con Γ = γ1 , . . . , γp matrice le cui colonne sono gli autovettori associati al
dataset
Alcune proprietà di Y ⃗
λ1
• V ar(Y
⃗ ) = Λ ←− ..
.
λp
Pp
• tr(Σ) = j=1 σj2 = tr(Λ) = j=1 pλj
P
λ1 , . . . , λ k
≈ 80/90%
λ1 , λ2 , . . . , λp
8
6 Analisi dei Cluster
La cluster analysis consiste in un insieme di tecniche statistiche atte ad
individuare gruppi di unità tra loro simili rispetto ad un insieme di caratteri
presi in considerazione, e secondo uno specifico criterio. L’obiettivo che ci si
pone è sostanzialmente quello di riunire unità tra loro eterogenee in più
sottoinsiemi tendenzialmente omogenei e mutuamente esaustivi. Le unità
statistiche vengono, in altri termini, suddivise in un certo numero di gruppi a
seconda del loro livello di ”somiglianza” valutata a partire dai valori che una
serie di variabili prescelte assume in ciascuna unità.
Date n unita, alle quali corrispondono i vettori p-dimensionali Xi , molti
metodi di cluster analysis richiedono il calcolo della matrice delle distanze
(ovvero degli indici di similarità), che contiene le misure di
≪prossimità≫ tra tutte le coppie di unità. Il ricercatore deve quindi scegliere
1/t
Pp t
• la distanza di Minkowski = j=1 Xij − Xrj con
t≥1
le distanze
d1 ≥ d2 ≥ . . . ≥ d∞
sono ordinate.
9
⃗ i, X
Definiamo ora la matrice delle distanze d(X ⃗r )
METODI GERARCHICI
10
• metodo del legame singolo (single linkage in questo caso la distanza
tra gruppi è posta pari alla più piccola delle distanze istituibili a due a
due tra tutti gli elementi dei due gruppi.
d G1 , G2 = min d(ui , ur ) con ui ∈ G1 e ur ∈ G2
11
• metodo del centroide vanno determinati i vettori contenenti i valori
medi delle p variabili in tutti i gruppi, e le distanze tra i gruppi vengono
assunte pari alla distanza tra i rispettivi centroidi. se X ⃗i e X
⃗r sono i
centroidi avremo
⃗ i, X
⃗r )
d G1 , G2 = d(X
Figura 7: dendrogramma
12
Metodo di Ward
Un buon cluster è quello tale che gli elementi all’interno del gruppo abbiano la
minor variabilità possibile e la variabilità tra i gruppi sia elevata.
Siano:
h = 1, . . . , k → numero dei gruppi
i = 1, . . . , nh → numero degli elementi dei gruppi
Sia X una variabile divisa in k gruppi e sia
Pk Pnh
X
µ = h=1Pk i=1 ij
h=1 nh
la media generale
Pk Pnh 2
DEVT OT = h=1 i=1 Xih − µ
2 Pnh
Pk Pnh Xih
DEVW IT H = h=1 i=1 Xih − µh con µh = i=1
nh
Pk Pnh 2 Pk 2
DEVBET = h=1 i=1 µh − µ = h=1 nh (µh − µ
In un cluster ideale vorremmo che DEVW IT H sia basso, ma DEVBET sia alto.
Xj j = 1, . . . , p
p
X p
X p
X
DTj = DWj + DBj quindi DT = DTj = DWj + DBj
j=1 j=1 j=1
13
ALGORITMI GERARCHICI SCISSORI
{a} {b, c, . . . }
oppure
{b} {a, c, . . . }
oppure
R2 = 1 − DDWTIT
OT
H
L’indice funziona male se le partizioni hanno numerosità
1
P
d(ui , Gh ) = nh uj ∈ Gh d(ui , uj )
d0 = min d(ui , Gh )
h̸=l
14
è il grado di separazione dell’unità da tutti gli altri gruppi. quindi
S(ui ) = d0 − d(ui , Gl )
Più l’indice è alto più mi dice che l’unità è ben inserita allinterno del
gruppo.
15
METODI NON GERARCHICI
Questi metodi sono caratterizzati da un procedimento che mira a ripartire
direttamente le n unità in k grappoli, fornendo come prodotto finale una sola
partizione delle n unità.
Di solito si mira a trovare, fissato k, la divisione che minimizza la devianza
interna ai gruppi o massimizza la distanza tra i gruppi.
Computazionalmente è un lavoro molto pesante e al crescere di n diventa
quasi impossibile trovare degli algoritmi che ottimizzano.
16