Sei sulla pagina 1di 52

pag. 1 S.

Marsili-Libelli: Calibrazione di Modelli Dinamici


Principal Component Analysis
(PCA)
Come evidenziare linformazione
contenuta nei dati
pag. 2 S. Marsili-Libelli: Principal Component Analysis
Perche PCA?
E un semplice metodo non-parametrico per estrarre
informazione rilevante da un insieme di dati confuso
(ridondante + rumoroso).
Riesce a eliminare la ridondanza dellinformazione nei dati,
rappresentata dallautocorrelazione
Geometricamente
lobiettivo della PCA
presentare i dati nel
riferimento che
evidenza maggiormente
la loro struttura
(Cambio di riferimento)
pag. 3 S. Marsili-Libelli: Principal Component Analysis
Correlazione e ridondanza di informazione
Consideriamo una serie di dati bidimensionali, come in figura
Calcolando R per questi dati si ha
0 10 20 30 40 50
-4
-2
0
2
4
0 10 20 30 40 50
-2
-1
0
1
2
1
x
2
x

=
2
2 21
12
2
1


C
j , j i , i
j , i
j , i
C C
C
r :

= R
Matrice di covarianza
Matrice di correlazione

=
1.0000 0.2074 -
0.2074 - 1.0000
R
La correlazione fra x
1
e x
2
circa del 20%.
Ci significa che il 20% dellinformazione
di x
1
contenuta anche in x
2
Ridondanza
pag. 4 S. Marsili-Libelli: Principal Component Analysis
Standardizzazione dei dati
Generalmente si preferisce svolgere la PCA su dati
standardizzati
Media nulla
Varianza unitaria
I dati standardizzati si ottengono come
Ovviamente per i dati standardizzati la matrice di Covarianza
coincide con la matrice di correlazione
( )
( )

=
= =
1 x
0 x x E
2

x x
z

=
( ) ( )
( ) ( ) ( ) z z x
z x
C R R
C C
= =

pag. 5 S. Marsili-Libelli: Principal Component Analysis


Esempio di dati correlati
Consideriamo il sistema di due variabili dipendenti (a parte il
rumore )
( ) ( )
( ) ( ) ( )
( ) ( ) 0 k , k
k 2 . 0 2 . 1 k x 4 . 0 k x
k k x
2 1
2 1 2
1 1
=
+ + =
=

0 10 20 30 40 50 60 70 80 90 100
-4
-2
0
2
4
0 10 20 30 40 50 60 70 80 90 100
-4
-2
0
2
4
x z
1
x
2
x
pag. 6 S. Marsili-Libelli: Principal Component Analysis
Matrici di covarianza e correlazione

=
0.2050 0.4000
0.4000 0.9261
x
C
Dati originali (x)

=
1.0000 0.9180
0.9180 1.0000
x
R
Dati standardizzati (z)

=
1.0000 0.9180
0.9180 1.0000
z
R

=
1.0000 0.9180
0.9180 1.0000
z
C
Autovettori di R
x
,R
z

=
0.7071 0.7071
0.7071 0.7071 -
r
W
1.9180
0.0820
2
1
=
=

Autovalori di R
x
,R
z

=
0.4065 0.9137 -
0.9137 - 0.4065
C
W
1.1041
0.0270
2
1
=
=

Autovettori di C
x
Autovalori di C
x
pag. 7 S. Marsili-Libelli: Principal Component Analysis
Riassumendo: su quali dati lavoriamo.
Dataset
X
Dataset
X
Eliminazione del
valor medio
p ,..., 1 i
i i i
=
= X X x
Standardizzazione
i
i i
i
* x

X X
=
Calcolo della matrice
di correlazione
j , j i , i
j , i
j , i
C C
C
R

=
p ,..., 1 j , i =
Calcolo della matrice
di covarianza
x x C
T
1 n
1

=
p p
C
pag. 8 S. Marsili-Libelli: Principal Component Analysis
Nota sulla standardizzazione
La PCA viene normalmente eseguita sulla matrice di Covarianza
I dati sono depurati dalla media (PCA su dati a media nulla)
Se le componenti dei dati hanno ordini di grandezza molto diversi
si pu ricorrere alla standardizzazione
PCA su dati a media nulla e varianza unitaria
La matrice di Covarianza coincide con quella di Correlazione C =R
Le PCA eseguite su C o su R sono radicalmente diverse perchi
rispettivi autovalori e autovalori sono diversi e non ottenibili
mediante trasformazione ortonormale
Infatti la standardizzazione non una trasformazione ortogonale
Conclusione: Se le componenti di x sono molto diverse
conveniente la PCA su R, tenendo comunque presente che essa
sar diversa da quella ottenuta su C
pag. 9 S. Marsili-Libelli: Principal Component Analysis
Rappresentazione grafica della covarianza
Dato un insieme di dati
si calcola la matrice di covarianza
C
Si calcolano gli autovettori w e gli
autovalori
Fra di essi valgono le relazioni di
similitudine
2 n
X
1
x
2
x
X X x =
x x C
T
1 n
1

=
W C W L
W L W C
=
=
T
T [ ]

=
=
2
1
2 1
0
0
|

L
w w W
con
( )

2 , 0
x
x
sin
cos
96 . 1 0
0 96 . 1
w w
w w
x
x
2
1
2
1
22 21
12 11
2
1

Mediante autovalori ed autovettori si


pu scrivere lequazione parametrica
dellellisse che racchiude il 95% dei
dati.
Gli autovettori danno le direzioni
degli assi dellellisse e gli autovettori
la loro lunghezza
pag. 10 S. Marsili-Libelli: Principal Component Analysis
Direzioni principali in funzione della covarianza
1
x
2
x
1

M
a
s
s
i
m
a

v
a
r
i
a
n
z
a
M
i
n
i
m
a

v
a
r
i
a
n
z
a
{ }
{ } ) autovalori ( ianza var la massimizza che o riferiment v , v
originale o riferiment x , x
2 1
2 1
=
=
Guardando in questa direzione
si ha la massima risoluzione su v
1
Guardando in questa
direzione
si ha la massima
risoluzione su v
2
1
.
9
6

1
1
.
9
6

1
1
.
9
6

2
1
.
9
6

2
pag. 11 S. Marsili-Libelli: Principal Component Analysis
Probabilit congiunta e outliers
0
1
0
2
0
3
0
4
0
5
0
6
0
7
0
8
0
9
0
1
0
0
-
2
-
1 0 1 2
0 10 20 30 40 50
60 70 80 90 100
-2
-1
0
1
2
-2 -1 0 1 2
-2
-1
0
1
2
1
x
2
x
Lellisse di covarianza indica la regione di 95%
di confidenza della distribuzione congiunta
delle due variabili.
I campioni esterni sono outliers.
Perci permette di evitare le false accettazioni
di campioni che sarebbero entro la fascia di
confidenza se si considera ciascuna variabile
separatamente.
Si vede che il punto
rosso fuori solo
se si considera la
regione di
confidenza
bidimensionale
pag. 12 S. Marsili-Libelli: Principal Component Analysis
PCA = migliore visualizzazione
Il cambio di riferimento pu essere visto come un cambio di
punto di vista che massimizza linformazione visibile nei dati
1
x
2
x
1
z
2
z
pag. 13 S. Marsili-Libelli: Principal Component Analysis
Vantaggi della PCA
Le PCA forniscono una spiegazione alternativa della
variabilit osservata con il pregio di descrivere il
fenomeno oggetto di studio mediante dimensioni fra
loro non correlate e ordinate in termini della loro
importanza nella spiegazione
Questo permette (con maggiore o minore successo nei
vari casi) di :
interpretare il fenomeno attraverso il nuovo significato
assunto dalle componenti principali che non sono state
scartate
ridurre il numero di variabili da considerare, scartando le
ultime componenti principali, che contribuiscono poco alla
variabilitosservata
pag. 14 S. Marsili-Libelli: Principal Component Analysis
Covarianza fra i dati
-2 -1 0 1 2
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
x
1
x
2
0 ,
0.25 0.995x x
x
2 1
2 1 2
1 1
=

+ =
=

0 ,
0.95 0.15x x
x
2 1
2 1 2
1 1
=

+ =
=

-2 -1 0 1 2
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
x
1
x
2
Alta covarianza Bassa covarianza
pag. 15 S. Marsili-Libelli: Principal Component Analysis
Rappresentazione grafica della correlazione
Si pu ricavare la matrice di
correlazione normalizzando le
varianze o calcolando la matrice di
covarianza sui dati standardizzati
Si ha la matrice simmetrica che
nel caso 2x2 del tipo
Con autovettori e autovalori

sin
cos
0
0
w w
w w
x
x
2
1
22 21
12 11
2
1
Lequazione dellellisse di
correlazione, centrata nellorigine
j , j i , i
j , i
j , i
C C
C
R

=
-1 0 1
-1
0
1
( ) 1 , r
12

=
1 r
r 1
12
12
R
( )
12
r , 1
12 2
12 1
r 1
r 1
7071 . 0 7071 . 0
7071 . 0 7071 . 0
=
+ =

W
1

pag. 16 S. Marsili-Libelli: Principal Component Analysis


Rappresentazione grafica della correlazione
-1 -0.5 0 0.5 1
-1
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
1
x
1
x
2
12 2
12 1
r 1 3 . 1
r 1 7 . 0
0.7071 0.7071
0.7071 0.7071 -
0 . 1 3 . 0
3 . 0 0 . 1
+ = =
= =

W
R
-1 -0.5 0 0.5 1
-1
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
1
x
1
x
2
12 2
12 1
r 1 6 . 1
r 1 4 . 0
0.7071 0.7071
0.7071 0.7071 -
0 . 1 6 . 0
6 . 0 0 . 1
+ = =
= =

W
R
Uguali
autovettori
( ) 6 . 0 , 1
( ) 3 . 0 , 1
1

pag. 17 S. Marsili-Libelli: Principal Component Analysis


25 . 1 r 1
75 . 0 r 1
0.7071 0.7071
0.7071 0.7071 -
0 . 1 25 . 0
25 . 0 0 . 1
12 2
12 1
= + =
= =

W
R
5 . 1 r 1
5 . 0 r 1
0.7071 0.7071
0.7071 0.7071 -
0 . 1 5 . 0
5 . 0 0 . 1
12 2
12 1
= + =
= =

W
R
75 . 1 r 1
25 . 0 r 1
0.7071 0.7071
0.7071 0.7071 -
0 . 1 75 . 0
75 . 0 0 . 1
12 2
12 1
= + =
= =

W
R
Esempi di ellissi di correlazione
bassa media alta
Correlazione = Ridondanza di informazione
pag. 18 S. Marsili-Libelli: Principal Component Analysis
Obiettivi della PCA
Lobiettivo primario della PCA determinare la base di
riferimento pisignificativa per rappresentare i dati e filtrare il
rumore nella speranza che questa nuova base filtri il rumore e
riveli strutture prima invisibili
PCA una trasformazione lineare dei dati che:
1. Minimizza la ridondanza misurata dalla covarianza
2. Massimizza linformazione, misurata dalla varianza.
Le Principal Components (PC) sono nuove variabili che hanno
le seguenti propriet:
1. Ogni PC una combinazione lineare delle variabili originali
2. Le PC sono fra di loro ortogonali, ovvero sono mutuamente
incorrelate, sopprimendo linformazione ridondante
pag. 19 S. Marsili-Libelli: Principal Component Analysis
Idea base della PCA
Dataset: insieme di n misure ciascuna composta da p attributi
Lintuizione di PCA di trovare una combinazione lineare delle m
coordinate dei dati in modo da esprimerli in un nuovo riferimento
tale che:
Ogni variabile (attributo) sia indipendente da tutti gli altri
Linsieme degli attributi sia ordinato secondo la loro importanza relativa
p n
np 2 n 1 n
p 2 22 21
p 1 12 11
x .... x x
... ... ... ...
x .... x x
x ... x x

= x x
misure n
attributi p
pag. 20 S. Marsili-Libelli: Principal Component Analysis
Caratteristiche della PCA
PCA una trasformazione lineare ortonormale
dei dati X al fine di ottenere due risultati:
Feature Selection: classificare le caratteristiche
importanti dei dati X, secondo la loro importanza
PCA evidenzia il contenuto informativo mediante una
trasformazione lineare delle coordinate di riferimento dei dati
(attributi dei dati)
Dimension Reduction: quantificare la perdita di
informazione derivante dalleventuale riduzione della
dimensionalitdei dati X.
PCA quantifica la percentuale di informazione nelle varie
componente ordinate per importanza, in modo da conoscere la
perdita di informazione per ciascuna componente esclusa dalla
riduzione
pag. 21 S. Marsili-Libelli: Principal Component Analysis
Risultato fondamentale della PCA
Se lobiettivo primario leliminazione della ridondanza
Se la ridondanza espressa dalle correlazioni
Allora la PCA consiste nella diagonalizzazione
della matrice di covarianza
PCA consiste dunque in una trasformazione lineare dalle
variabili originali ad altre che esprimono la stessa informazione
ma sono fra loro incorrelate (Componenti Principali)
La trasformazione cercata la similitudine Wfra la matrice di
correlazione e la matrice diagonale degli autovalori, tale che
( )
W X Z
W C W L
=
= =
T 2
p
2
2
2
1
,..., , diag
T 1
: W W W =

pag. 22 S. Marsili-Libelli: Principal Component Analysis
PCA come ricerca delle direzioni privilegiate
21 2 11 1 1
w x w x z + =
1
x
2
x
22 2 12 1 2
w x w x z + =
Direzione di massima
varianza di x
Direzione di massima
varianza di x, escluso
x
1
PCA consiste dunque nella ricerca di direzioni privilegiate
che massimizzano la variazioni dei dati ed
eliminano le correlazioni
22 2 12 1 2
21 2 11 1 1
2
1
22 12
21 11
2
1
w x w x z
w x w x z
x
x
w w
w w
z
z
+ =
+ =

T T T
X W Z =

=
=
p
1 j
ji j i
w x z
pag. 23 S. Marsili-Libelli: Principal Component Analysis
PCA in sintesi
Dataset
X
Dataset
X
Matrice di covarianza
( ) ( ) X X X X C

=
T
1 n
1
Matrice degli
autovettori
ordinata
secondo
autovalori
decrescenti
p 2 1
pp 2 p 1 p
p 2 22 21
p 1 12 11
...
w ... w w
... ... ... ...
w ... w w
w ... w w
> > >

= W
W C W L
W L W C
=
=
T
T
La matrice Wformata dagli autovettori
ordinati per autovalori decrescenti
indicano le direzioni di massima
varianza. La similitudine fra C e L
data da W.
Nota che essendo ortonormale W
T
=W
-1
La matrice L (diagonale) degli riporta i
valori delle varianze nel nuovo
riferimento PCA
( )
2
p
2
2
2
1
,..., , diag = L
La trasformazione dei dati X nelle
componenti principali Z
T
W Z X W X Z = =
pag. 24 S. Marsili-Libelli: Principal Component Analysis
Un semplice esempio
Ogni pesce pu essere definito
dalle sue misure di
lunghezza ed larghezza
Riportando in grafico i dati
degli individui del branco
di pesci, si ottiene
Domanda1: Esiste una relazione
fra le due misure?
Domanda 2: Esiste un singolo
parametro per definire la taglia di ciascun pesce?
length
breadth
pag. 25 S. Marsili-Libelli: Principal Component Analysis
PCA sui dati dei pesci
Scegliamo dei nuovi assi centrati
nellinsieme dei dati
Poi ruotiamo gli assi per disporli
lungo la direzione principale dei
dati
Possiamo allora definire una nuova variabile: size = length + breadth
Ma dato che length e breadth non sono ugualmente importanti (vedi
grafico) esse dovranno essere pesate diversamente, perci
size =v
1
length + v
2
breadth
I pesi v
1
e v
2
sono gli autovettori della matrice di correlazione
Risultato: si ottenuta una riduzione della dimensione dei dati
pag. 26 S. Marsili-Libelli: Principal Component Analysis
Dato che length e breadth sono chiaramente molto correlate,
la matrice di correlazione molto allungata e dunque gli
autovalori sono molto diversi.
Supponiamo che essi valgano

1
=1.75 e
2
=0.25 nel
riferimento originale lellisse sar
Dopo la rotazione dovuta al cambio
di riferimento sardata dallorientamento
degli autovettori e dalla grandezza
degli autovalori
Se si ritiene solamente la variabile size
si conserva solamente 87.5% della
variabilitoriginale. Infatti
Cosa si perde nella riduzione
% 5 . 87
25 . 0 72 . 1
75 . 1
2 1
1
=
+
=
+

length
breadth
s
i
z
e
size
length
breadth
pag. 27 S. Marsili-Libelli: Principal Component Analysis
PCA in Matlab
Le funzioni PCA sono contenute nella StatisticsToolbox
Si pu effettuare la PCA partendo dai dati (X) o dalla matrice di
covarianza (C)
dai dati: [W,score,L] = princomp(X)
W la matrice degli autovettori, detta matrice dei Loadings
E ordinata per autovalori decrescenti
Scores sono le osservazioni Z trasformate delle X nel riferimento PCA
L sono gli autovalori, ordinati in ordine decrescente
dalla matrice di covarianza: [W,L,expl] = pcacov(C)
W la matrice degli autovettori
E ordinata per autovalori decrescenti
L sono gli autovalori, ordinati in ordine decrescente
expl un vettore che contiene la percentuale di varianza spiegata da
ciascuna componente principale (la somma fa 100)
pag. 28 S. Marsili-Libelli: Principal Component Analysis
Un esempio: Employee Satisfaction
Un sondaggio fra 9147 impiegati di una grande azienda ha
rilevato i seguenti parametri di soddisfazione
Lavoro (SJ )
Formazione (SJ T)
Condizioni di lavoro (SWC)
Assicurazione medica (SMC)
Assicurazione Dentistica (SDC)
Il sondaggio ha prodotto la seguente matrice di correlazione

=
000 . 1 620 . 0 227 . 0 238 . 0 162 . 0
620 . 0 000 . 1 301 . 0 252 . 0 197 . 0
227 . 0 301 . 0 000 . 1 445 . 0 511 . 0
238 . 0 252 . 0 445 . 0 000 . 1 451 . 0
162 . 0 197 . 0 511 . 0 451 . 0 000 . 1
R
pag. 29 S. Marsili-Libelli: Principal Component Analysis
Un esempio: Employee Satisfaction
Si ricava la matrice delle PCA ordinata per autovalori
decrescenti
La prima PC spiega il 47.3% della varianza totale
[ ] 373 . 0 484 . 0 573 . 0 202 . 1 370 . 2
670 . 0 191 . 0 032 . 0 586 . 0 412 . 0
714 . 0 060 . 0 095 . 0 531 . 0 443 . 0
185 . 0 658 . 0 454 . 0 308 . 0 479 . 0
034 . 0 114 . 0 832 . 0 290 . 0 457 . 0
074 . 0 716 . 0 301 . 0 443 . 0 442 . 0
=


=
L
W
473 . 0
5
370 . 2
373 . 0 484 . 0 573 . 0 202 . 1 370 . 2
370 . 2
5
1 i
i
1
= =
+ + + +
=

Verifica: la
somma dei
quadrati degli
elementi di
ciascuna
colonna
somma a 1
pag. 30 S. Marsili-Libelli: Principal Component Analysis
Varianza spiegata e scree plot
1 2 3 4 5
0
0.2
0.4
0.6
0.8
1
eigenvalues
P
e
r
c
.

V
a
r
i
a
n
c
e
perc. var. expl. cum.var.expl.
1 2 3 4 5
0
0.5
1
1.5
2
2.5
eigenvalues
i

scree plot =grafico degli autovalori ordinati in senso decrescente


pag. 31 S. Marsili-Libelli: Principal Component Analysis
Un esempio: Employee Satisfaction
La prima PC z
1
si ottiene come
essendo i pesi tutti positivi e dello stesso ordine, z
1
si pu
interpretare come un indice di soddisfazione generale
La seconda PC z
2

dato che le prime tre variabili sono associate positivamente a


fattori di soddisfazione del lavoro, mentre gli ultimi due sono
associati allassistenza medica e sono negativi, z
2
pu essere
vista come un contrasto fra la soddisfazione del lavoro e
linsoddisfazione dellassistenza medica.
SDC 412 . 0 SMC 443 . 0 SWC 479 . 0 SJT 457 . 0 SJ 442 . 0 z
1
+ + + + =
SDC 586 . 0 SMC 531 . 0 SWC 308 . 0 SJT 290 . 0 SJ 443 . 0 z
2
+ + =
pag. 32 S. Marsili-Libelli: Principal Component Analysis
Il Biplot come visualizzazione dei contributi
Per visualizzare in che misura ogni variabile originaria
contribuisce alle PC, si plottano le componenti dei loadings
delle prime 2 colonne della matrice W, corrispondenti alle
prime PC, le piimportanti
Si possono anche avere biplot
tridimensionali
La sintassi del comando
Matlab
bi pl ot ( coef s, . . . ,
' Scor es' , scor es,
' ObsLabel s' , obsl abs)
dove coef s sono le prime 2 o 3
colonne di W, Scor es sono i dati
trasformati (se presenti) e ObsLabel s
sono le etichette che identificano ciascuna variabile
SJ
SJ T
SWC
SMC
SDC
PC1
PC2
pag. 33 S. Marsili-Libelli: Principal Component Analysis
Analisi di un episodio di torbidit
Floc. [ppm]
200
400
600
800
FTUin
[NTU]
2
4
6
8
FTUout
[NTU]
15
20
T [C]
600
700 Q
p
[l/sec]
100
200
300
50
100
150
Q [m
3
/sec]
10
20
30
40
T
2
20
50 100 150 200 250 300 350 400 450 500 550
Time (h) Superamento della soglia di T
2
pag. 34 S. Marsili-Libelli: Principal Component Analysis
Biplot come zone di influenza delle PC
PC 1
PC 2
P
C
3
-1 -0.5 0 0.5 1
-1
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
1
PC1
Plant flow
FTUin
FTUout
Temp.
Floc dos
River flow
PC 3
FTU in
Floc dos
FTUout
River flow
-1 -0.5 0 0.5 1
-1
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
1
Temp.
PC1
P
C
2
Plant flow
1
1
Biplot indica quanto ciascuna
variabile contribuisca a ciascuna
PC. Si ottiene plottandoi loadings
(componenti degli autovettori) nel
piano di due PC si ha unidea di
Il Biplot picomune quello
PC1/PC2
In questo caso si nota che le
componenti FTUin e Floc dos
contribuiscono fortemente a PC1 e
quasi niente a PC2.
Al contrario Plant flow e Temp
sono molto rappresentate in PC2 e
PC3
pag. 35 S. Marsili-Libelli: Principal Component Analysis
PCA con Covarianza o Correlazione?
Covarianza
Riflette le reali proporzioni fra
variabili
E sensibile alle unitdi misura,
enfatizzando limportanza delle
variabili pigrandi
Correlazione
Indipendenti dalle unitdi misura
operando su dati standardizzati
I risultati di diverse analisi sono
comparabili
Le PCA ottenute nei due casi sono molto diverse e non facilmentericonducibili
luna allaltra perchi loro autovalori e autovettori non sono legati da una
semplice relazione
Esempio: Supponendo di effettuare una PCA su misure di lunghezza(x
1
) e peso (x
2
), a
seconda che x
1
sia espresso in cm (a) o in mm (b), mentre x
2
sempre espresso in
grammi, si ha nei due casi una PCA molto diversa. Nel secondo caso la dominanza di
x
1
totale

=
80 44
44 8000
80 44
44 80
b a
C C
2 1
) b (
1
2 1
) a (
1
x 055 . 0 x 998 . 0 z
x 707 . 0 x 707 . 0 z
+ =
+ =
pag. 36 S. Marsili-Libelli: Principal Component Analysis
Come ridurre lordine della PCA
Ci si basa sulla quantitdi varianza spiegata: si trattengono le
componenti che forniscono una varianza totale spiegata fra il
70% e il 90%
Ovviamente si arrotonda
allintero pivicino
Alternativamente
(o insieme) si taglia
allautovalore un po
inferiore ad 1
Nel caso di matrice di
correlazione si taglia
intorno a 0.7
Nel caso di matrice di
covarianza si taglia intorno a circa
0.7 della media degli autovalori
1 2 3 4 5
0
20
40
60
80
100
eigenvalues
P
e
r
c
.

V
a
r
i
a
n
c
e
1 2 3 4 5
0
0.5
1
1.5
2
2.5
eigenvalues


j
j
p
1
7 . 0
=



7 . 0
p
1
7 . 0
j
j min
pag. 37 S. Marsili-Libelli: Principal Component Analysis
Esempio di dati correlati
Dati di
qualit
dellacqua
del fiume
Arno
Centralina di
Rosano
5 -7
Settembre
2004
0
5
10
15
20
25
30
T

(

C
)
0
20
40
60
80
100
120
140
1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70
Tempo (h)
D
O

%
8
8.2
8.4
8.6
8.8
9
9.2
9.4
p
H
DO% pH T
Le tre variabili seguono tutte il ritmo circadiano, pilotato
dalla luce solare. La correlazione fra di esse evidente.
Lossigeno disciolto il pipronto, seguito dalla
temperatura a 2 h e dal pH a 3 h di ritardo.
Laumento del pH dovuto al consumo di CO
2
a seguito
della fotosintesi
pag. 38 S. Marsili-Libelli: Principal Component Analysis
Correlazioni e autovalori
0.83407
pH
DO%
0.65468
DO%
T
0.76773
pH
T
1 2 3
0
0.5
1
eigenvalues
P
e
r
c
.

V
a
r
i
a
n
c
e
1 2 3
0
1
2
3
eigenvalues
La forte correlazione fra le prime due cariabili, fa s che PC1 spieghi circa 83% della
variabilittotale. Analogamente il primo autovalore dominante rispetto agli altri due.
pag. 39 S. Marsili-Libelli: Principal Component Analysis
Meglio lanalisi di correlazione

=
1.8623 0.2374 17.3091
0.2374 0.0514 3.6624
17.3091 3.6624 375.3621
C

=
0.0650 - 0.9968 - 0.0462
0.9979 0.0646 - 0.0098
0.0067 - 0.0467 0.9989
PC
dati

=
1.0000 0.7677 0.6547
0.7677 1.0000 0.8341
0.6547 0.8341 1.0000
R

=
0.2886 - 0.7796 - 0.5558
0.7873 0.1371 0.6011
0.5448 - 0.6111 0.5743
PC
R
-1
-0.5
0
0.5
1 -1
-0.5
0
0.5
1 -1
-0.5
0
0.5
1
PC
2
DO%
T
pH
PC
1
P
C
3
-1
-0.5
0
0.5
1
-1
-0.5
0
0.5
1
-1
-0.5
0
0.5
1
DO%
PC
1
pH
T
PC
2
P
C
3
Lanalisi di
covarianza
tende ad
enfatizzare le
dipendenze
fra le variabili
ed a
mantenere
solo la prima.
Lanalisi di
correlazione
evidenzia il
legame delle
tre, pur
mantenendo il
carattere
dominante
di DO%
0.1414
0.3519
2.5067
3
2
1
=
=
=

0.0112
1.0662
376.1984
3
2
1
=
=
=

pag. 40 S. Marsili-Libelli: Principal Component Analysis


Biplot proiettato sulle tre PC (cov)
-1 -0.5 0 0.5 1
-1
-0.5
0
0.5
1
pH
T
PC
2
P
C
3
-1 -0.5 0 0.5 1
-1
-0.5
0
0.5
1
DO%
T
PC
1
P
C
3
-1 -0.5 0 0.5 1
-1
-0.5
0
0.5
1
DO%
pH
PC
1
P
C
2
pag. 41 S. Marsili-Libelli: Principal Component Analysis
Biplot proiettato sulle tre PC (corr)
-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1
-1
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
1
DO%
T
PC
1
P
C
3
-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1
-1
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
1
pH
T
PC
2
P
C
3
-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1
-1
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
1
DO%
pH
PC
1
P
C
2
pag. 42 S. Marsili-Libelli: Principal Component Analysis
Test di consistenza
Le componenti principali non avendo un significato immediato
devono essere spiegate con statistiche di sintesi:
Hotellings T
2
coglie la variazione delle componenti
allinterno del modello di riferimento
(spazio delle PC)
Statistica Q
misura la variazione non considerata
dal modello
(spazio ortogonale alle PC)
X W L W X Z L Z
T 1 T 1 T 2
T

= =
( ) X WW I X Q
T T
=
pag. 43 S. Marsili-Libelli: Principal Component Analysis
E unestensione multivariabiledella statistica Student t.
Data una matrice di misure X
np
e Wla loro matrice di
covarianza, la statistica Hotelling T
2
data da
Inoltre, volendola usare come limite di accettabilit(hypothesis
testing) si pu definire un valore limite di T
2
in funzione della
statistica F di cui T
2
rappresenta una realizzazione
Dove n il numero di misure e p le variabili di ciascuna misura,
mentre il limite di confidenza fissato (generalmente =0.05,
corrispondente ad una confidenza del 95%)
La statistica Hotelling T
2
X W X
1 T 2
T

=
( )

p , p n
2
lim
F
p n
1 n p
T

=
pag. 44 S. Marsili-Libelli: Principal Component Analysis
Andamento della statistica F
Esempio:
Il valore limite di T
2
al 95% per
un campione di n =18 misure
di p =8 variabili ciascuna
x = f i nv( 0. 95, 8, 18- 8)
x = 3. 0717
Ci significa che si pu
osservare per puro caso un
valore di F superiore a 4.3468
solamente nel 5% dei casi
In questo caso il T
2
lim
sarebbe
0
10
20
30
0
10
20
30
0
2
4
6
8
10
n-p
p
F
95 . 0 =
( )
41775 . 0 0717 . 3
8 18
1 18 8
T
2
lim
=

=
pag. 45 S. Marsili-Libelli: Principal Component Analysis
Applicazione del T
2
ai dati di qualit
Lindice Hotellings T
2
lo stesso sia per i dati originali che per quelli
standardizzati
Ovviamente lindice per ogni dato inferiore a T
2
lim
perchsono gli stessi
dati usati per determinare le PC
0 10 20 30 40 50 60 70
0
2
4
6
8
10
Misure
T
2
Dati standard. Dati tal quali
2
lim
T
pag. 46 S. Marsili-Libelli: Principal Component Analysis
Riduzione della dimensionalit
Se alcune PC non sono molto importanti (vedi scree plot) si
pu ridurre la dimensionalitdellanalisi trattenendo solamente
le prime a < p PC
La matrice di trasformazione la sotto matrice di Wche ritiene
i primi a autovettori
La trasformazione PCA ridotta diviene
ovvero i dati X vengono proiettati nelle prime a componenti di Z

=
pp pa 2 p 1 p
p 2 a 2 22 21
p 1 a 1 12 11
w ... w ... w w
... .. ... ... ...
w ... w ... w w
w ... w ... w w
W
a a p
a n
pa 2 p 1 p
a 2 22 21
a 1 12 11
a
w ... w w
... ... ... ...
w ... w w
w ... w w

= W
a n
a a

= W X Z
pag. 47 S. Marsili-Libelli: Principal Component Analysis
Decomposizione parziale
Misure
10 20 30 40 50 60 70
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
2.5
3
X
a
1 1
x x
a
2 2
x x
3
x
La PCA ridotta contiene solo le prime due componenti (vedi screeplot)
che comunque spiegano 83% della variabilittotale.
1 2 3
0
0.5
1
eigenvalues
P
e
r
c
.

V
a
r
i
a
n
c
e
1 2 3
0
1
2
3
eigenvalues
2 a =
pag. 48 S. Marsili-Libelli: Principal Component Analysis
Ricostruzione da PCA ridotta
La ricostruzione delle variabili originali dalla PCA ridotta
contiene ovviamente degli errori
Se la mappa inversa completa era
nel caso ridotto sar
La matrice E contiene gli errori di ricostruzione
Matlab: [r esi dual s, r econst r uct ed] =pcar es( X, a) ;
T
W Z X =
E W Z X W Z X + = =
T
a a
T
a a a
X Z
a
W
a
E
= +
n
p
a
a
p
p
n
modello ridotto residui
pag. 49 S. Marsili-Libelli: Principal Component Analysis
10 20 30 40 50 60 70
-1
0
1
D
O
%
s
t
a
n
d
.
Ricostruzione con a =3
10 20 30 40 50 60 70
-1
0
1
p
H

s
t
a
n
d
.
10 20 30 40 50 60 70
-1
0
1
2
T

s
t
a
n
d
.
Ricostruzione da PCA completa
T
W Z X =
pag. 50 S. Marsili-Libelli: Principal Component Analysis
Ricostruzione da PCA ridotta
10 20 30 40 50 60 70
-1
0
1
D
O
%
s
t
a
n
d
.
Ricostruzione con a =2
10 20 30 40 50 60 70
-1
0
1
p
H

s
t
a
n
d
.
10 20 30 40 50 60 70
-1
0
1
2
T

s
t
a
n
d
.
E W Z X + =
T
a a
pag. 51 S. Marsili-Libelli: Principal Component Analysis
10 20 30 40 50 60 70
-1
0
1
D
O
%

s
t
a
n
d
.
Ricostruzione con a = 1
10 20 30 40 50 60 70
-1
0
1
p
H

s
t
a
n
d
.
10 20 30 40 50 60 70
-1
0
1
2
T

s
t
a
n
d
.
Ricostruzione da PCA ridotta
E W Z X + =
T
a a
pag. 52 S. Marsili-Libelli: Principal Component Analysis
La statistica Q
Valuta limportanza delle PC escluse dallanalisi
Ha significato solo quando si esegue una riduzione (a < p)
Il valore limite della statistica Q per il quantile c

=1- dato da
( )
2
3
2 1
o
p
1 a i
3
3
p
1 a i
2
2
p
1 a i
i 1
h
1
2
1
o o 2
1
2 o
1 lim
3
2 1 h
1 h h
2 c h
1 Q
i
i
o


= =
= =


+ + =


+ =
+ = + =

Potrebbero piacerti anche