=
2
2 21
12
2
1
C
j , j i , i
j , i
j , i
C C
C
r :
= R
Matrice di covarianza
Matrice di correlazione
=
1.0000 0.2074 -
0.2074 - 1.0000
R
La correlazione fra x
1
e x
2
circa del 20%.
Ci significa che il 20% dellinformazione
di x
1
contenuta anche in x
2
Ridondanza
pag. 4 S. Marsili-Libelli: Principal Component Analysis
Standardizzazione dei dati
Generalmente si preferisce svolgere la PCA su dati
standardizzati
Media nulla
Varianza unitaria
I dati standardizzati si ottengono come
Ovviamente per i dati standardizzati la matrice di Covarianza
coincide con la matrice di correlazione
( )
( )
=
= =
1 x
0 x x E
2
x x
z
=
( ) ( )
( ) ( ) ( ) z z x
z x
C R R
C C
= =
0 10 20 30 40 50 60 70 80 90 100
-4
-2
0
2
4
0 10 20 30 40 50 60 70 80 90 100
-4
-2
0
2
4
x z
1
x
2
x
pag. 6 S. Marsili-Libelli: Principal Component Analysis
Matrici di covarianza e correlazione
=
0.2050 0.4000
0.4000 0.9261
x
C
Dati originali (x)
=
1.0000 0.9180
0.9180 1.0000
x
R
Dati standardizzati (z)
=
1.0000 0.9180
0.9180 1.0000
z
R
=
1.0000 0.9180
0.9180 1.0000
z
C
Autovettori di R
x
,R
z
=
0.7071 0.7071
0.7071 0.7071 -
r
W
1.9180
0.0820
2
1
=
=
Autovalori di R
x
,R
z
=
0.4065 0.9137 -
0.9137 - 0.4065
C
W
1.1041
0.0270
2
1
=
=
Autovettori di C
x
Autovalori di C
x
pag. 7 S. Marsili-Libelli: Principal Component Analysis
Riassumendo: su quali dati lavoriamo.
Dataset
X
Dataset
X
Eliminazione del
valor medio
p ,..., 1 i
i i i
=
= X X x
Standardizzazione
i
i i
i
* x
X X
=
Calcolo della matrice
di correlazione
j , j i , i
j , i
j , i
C C
C
R
=
p ,..., 1 j , i =
Calcolo della matrice
di covarianza
x x C
T
1 n
1
=
p p
C
pag. 8 S. Marsili-Libelli: Principal Component Analysis
Nota sulla standardizzazione
La PCA viene normalmente eseguita sulla matrice di Covarianza
I dati sono depurati dalla media (PCA su dati a media nulla)
Se le componenti dei dati hanno ordini di grandezza molto diversi
si pu ricorrere alla standardizzazione
PCA su dati a media nulla e varianza unitaria
La matrice di Covarianza coincide con quella di Correlazione C =R
Le PCA eseguite su C o su R sono radicalmente diverse perchi
rispettivi autovalori e autovalori sono diversi e non ottenibili
mediante trasformazione ortonormale
Infatti la standardizzazione non una trasformazione ortogonale
Conclusione: Se le componenti di x sono molto diverse
conveniente la PCA su R, tenendo comunque presente che essa
sar diversa da quella ottenuta su C
pag. 9 S. Marsili-Libelli: Principal Component Analysis
Rappresentazione grafica della covarianza
Dato un insieme di dati
si calcola la matrice di covarianza
C
Si calcolano gli autovettori w e gli
autovalori
Fra di essi valgono le relazioni di
similitudine
2 n
X
1
x
2
x
X X x =
x x C
T
1 n
1
=
W C W L
W L W C
=
=
T
T [ ]
=
=
2
1
2 1
0
0
|
L
w w W
con
( )
2 , 0
x
x
sin
cos
96 . 1 0
0 96 . 1
w w
w w
x
x
2
1
2
1
22 21
12 11
2
1
M
a
s
s
i
m
a
v
a
r
i
a
n
z
a
M
i
n
i
m
a
v
a
r
i
a
n
z
a
{ }
{ } ) autovalori ( ianza var la massimizza che o riferiment v , v
originale o riferiment x , x
2 1
2 1
=
=
Guardando in questa direzione
si ha la massima risoluzione su v
1
Guardando in questa
direzione
si ha la massima
risoluzione su v
2
1
.
9
6
1
1
.
9
6
1
1
.
9
6
2
1
.
9
6
2
pag. 11 S. Marsili-Libelli: Principal Component Analysis
Probabilit congiunta e outliers
0
1
0
2
0
3
0
4
0
5
0
6
0
7
0
8
0
9
0
1
0
0
-
2
-
1 0 1 2
0 10 20 30 40 50
60 70 80 90 100
-2
-1
0
1
2
-2 -1 0 1 2
-2
-1
0
1
2
1
x
2
x
Lellisse di covarianza indica la regione di 95%
di confidenza della distribuzione congiunta
delle due variabili.
I campioni esterni sono outliers.
Perci permette di evitare le false accettazioni
di campioni che sarebbero entro la fascia di
confidenza se si considera ciascuna variabile
separatamente.
Si vede che il punto
rosso fuori solo
se si considera la
regione di
confidenza
bidimensionale
pag. 12 S. Marsili-Libelli: Principal Component Analysis
PCA = migliore visualizzazione
Il cambio di riferimento pu essere visto come un cambio di
punto di vista che massimizza linformazione visibile nei dati
1
x
2
x
1
z
2
z
pag. 13 S. Marsili-Libelli: Principal Component Analysis
Vantaggi della PCA
Le PCA forniscono una spiegazione alternativa della
variabilit osservata con il pregio di descrivere il
fenomeno oggetto di studio mediante dimensioni fra
loro non correlate e ordinate in termini della loro
importanza nella spiegazione
Questo permette (con maggiore o minore successo nei
vari casi) di :
interpretare il fenomeno attraverso il nuovo significato
assunto dalle componenti principali che non sono state
scartate
ridurre il numero di variabili da considerare, scartando le
ultime componenti principali, che contribuiscono poco alla
variabilitosservata
pag. 14 S. Marsili-Libelli: Principal Component Analysis
Covarianza fra i dati
-2 -1 0 1 2
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
x
1
x
2
0 ,
0.25 0.995x x
x
2 1
2 1 2
1 1
=
+ =
=
0 ,
0.95 0.15x x
x
2 1
2 1 2
1 1
=
+ =
=
-2 -1 0 1 2
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
x
1
x
2
Alta covarianza Bassa covarianza
pag. 15 S. Marsili-Libelli: Principal Component Analysis
Rappresentazione grafica della correlazione
Si pu ricavare la matrice di
correlazione normalizzando le
varianze o calcolando la matrice di
covarianza sui dati standardizzati
Si ha la matrice simmetrica che
nel caso 2x2 del tipo
Con autovettori e autovalori
sin
cos
0
0
w w
w w
x
x
2
1
22 21
12 11
2
1
Lequazione dellellisse di
correlazione, centrata nellorigine
j , j i , i
j , i
j , i
C C
C
R
=
-1 0 1
-1
0
1
( ) 1 , r
12
=
1 r
r 1
12
12
R
( )
12
r , 1
12 2
12 1
r 1
r 1
7071 . 0 7071 . 0
7071 . 0 7071 . 0
=
+ =
W
1
W
R
-1 -0.5 0 0.5 1
-1
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
1
x
1
x
2
12 2
12 1
r 1 6 . 1
r 1 4 . 0
0.7071 0.7071
0.7071 0.7071 -
0 . 1 6 . 0
6 . 0 0 . 1
+ = =
= =
W
R
Uguali
autovettori
( ) 6 . 0 , 1
( ) 3 . 0 , 1
1
W
R
5 . 1 r 1
5 . 0 r 1
0.7071 0.7071
0.7071 0.7071 -
0 . 1 5 . 0
5 . 0 0 . 1
12 2
12 1
= + =
= =
W
R
75 . 1 r 1
25 . 0 r 1
0.7071 0.7071
0.7071 0.7071 -
0 . 1 75 . 0
75 . 0 0 . 1
12 2
12 1
= + =
= =
W
R
Esempi di ellissi di correlazione
bassa media alta
Correlazione = Ridondanza di informazione
pag. 18 S. Marsili-Libelli: Principal Component Analysis
Obiettivi della PCA
Lobiettivo primario della PCA determinare la base di
riferimento pisignificativa per rappresentare i dati e filtrare il
rumore nella speranza che questa nuova base filtri il rumore e
riveli strutture prima invisibili
PCA una trasformazione lineare dei dati che:
1. Minimizza la ridondanza misurata dalla covarianza
2. Massimizza linformazione, misurata dalla varianza.
Le Principal Components (PC) sono nuove variabili che hanno
le seguenti propriet:
1. Ogni PC una combinazione lineare delle variabili originali
2. Le PC sono fra di loro ortogonali, ovvero sono mutuamente
incorrelate, sopprimendo linformazione ridondante
pag. 19 S. Marsili-Libelli: Principal Component Analysis
Idea base della PCA
Dataset: insieme di n misure ciascuna composta da p attributi
Lintuizione di PCA di trovare una combinazione lineare delle m
coordinate dei dati in modo da esprimerli in un nuovo riferimento
tale che:
Ogni variabile (attributo) sia indipendente da tutti gli altri
Linsieme degli attributi sia ordinato secondo la loro importanza relativa
p n
np 2 n 1 n
p 2 22 21
p 1 12 11
x .... x x
... ... ... ...
x .... x x
x ... x x
= x x
misure n
attributi p
pag. 20 S. Marsili-Libelli: Principal Component Analysis
Caratteristiche della PCA
PCA una trasformazione lineare ortonormale
dei dati X al fine di ottenere due risultati:
Feature Selection: classificare le caratteristiche
importanti dei dati X, secondo la loro importanza
PCA evidenzia il contenuto informativo mediante una
trasformazione lineare delle coordinate di riferimento dei dati
(attributi dei dati)
Dimension Reduction: quantificare la perdita di
informazione derivante dalleventuale riduzione della
dimensionalitdei dati X.
PCA quantifica la percentuale di informazione nelle varie
componente ordinate per importanza, in modo da conoscere la
perdita di informazione per ciascuna componente esclusa dalla
riduzione
pag. 21 S. Marsili-Libelli: Principal Component Analysis
Risultato fondamentale della PCA
Se lobiettivo primario leliminazione della ridondanza
Se la ridondanza espressa dalle correlazioni
Allora la PCA consiste nella diagonalizzazione
della matrice di covarianza
PCA consiste dunque in una trasformazione lineare dalle
variabili originali ad altre che esprimono la stessa informazione
ma sono fra loro incorrelate (Componenti Principali)
La trasformazione cercata la similitudine Wfra la matrice di
correlazione e la matrice diagonale degli autovalori, tale che
( )
W X Z
W C W L
=
= =
T 2
p
2
2
2
1
,..., , diag
T 1
: W W W =
pag. 22 S. Marsili-Libelli: Principal Component Analysis
PCA come ricerca delle direzioni privilegiate
21 2 11 1 1
w x w x z + =
1
x
2
x
22 2 12 1 2
w x w x z + =
Direzione di massima
varianza di x
Direzione di massima
varianza di x, escluso
x
1
PCA consiste dunque nella ricerca di direzioni privilegiate
che massimizzano la variazioni dei dati ed
eliminano le correlazioni
22 2 12 1 2
21 2 11 1 1
2
1
22 12
21 11
2
1
w x w x z
w x w x z
x
x
w w
w w
z
z
+ =
+ =
T T T
X W Z =
=
=
p
1 j
ji j i
w x z
pag. 23 S. Marsili-Libelli: Principal Component Analysis
PCA in sintesi
Dataset
X
Dataset
X
Matrice di covarianza
( ) ( ) X X X X C
=
T
1 n
1
Matrice degli
autovettori
ordinata
secondo
autovalori
decrescenti
p 2 1
pp 2 p 1 p
p 2 22 21
p 1 12 11
...
w ... w w
... ... ... ...
w ... w w
w ... w w
> > >
= W
W C W L
W L W C
=
=
T
T
La matrice Wformata dagli autovettori
ordinati per autovalori decrescenti
indicano le direzioni di massima
varianza. La similitudine fra C e L
data da W.
Nota che essendo ortonormale W
T
=W
-1
La matrice L (diagonale) degli riporta i
valori delle varianze nel nuovo
riferimento PCA
( )
2
p
2
2
2
1
,..., , diag = L
La trasformazione dei dati X nelle
componenti principali Z
T
W Z X W X Z = =
pag. 24 S. Marsili-Libelli: Principal Component Analysis
Un semplice esempio
Ogni pesce pu essere definito
dalle sue misure di
lunghezza ed larghezza
Riportando in grafico i dati
degli individui del branco
di pesci, si ottiene
Domanda1: Esiste una relazione
fra le due misure?
Domanda 2: Esiste un singolo
parametro per definire la taglia di ciascun pesce?
length
breadth
pag. 25 S. Marsili-Libelli: Principal Component Analysis
PCA sui dati dei pesci
Scegliamo dei nuovi assi centrati
nellinsieme dei dati
Poi ruotiamo gli assi per disporli
lungo la direzione principale dei
dati
Possiamo allora definire una nuova variabile: size = length + breadth
Ma dato che length e breadth non sono ugualmente importanti (vedi
grafico) esse dovranno essere pesate diversamente, perci
size =v
1
length + v
2
breadth
I pesi v
1
e v
2
sono gli autovettori della matrice di correlazione
Risultato: si ottenuta una riduzione della dimensione dei dati
pag. 26 S. Marsili-Libelli: Principal Component Analysis
Dato che length e breadth sono chiaramente molto correlate,
la matrice di correlazione molto allungata e dunque gli
autovalori sono molto diversi.
Supponiamo che essi valgano
1
=1.75 e
2
=0.25 nel
riferimento originale lellisse sar
Dopo la rotazione dovuta al cambio
di riferimento sardata dallorientamento
degli autovettori e dalla grandezza
degli autovalori
Se si ritiene solamente la variabile size
si conserva solamente 87.5% della
variabilitoriginale. Infatti
Cosa si perde nella riduzione
% 5 . 87
25 . 0 72 . 1
75 . 1
2 1
1
=
+
=
+
length
breadth
s
i
z
e
size
length
breadth
pag. 27 S. Marsili-Libelli: Principal Component Analysis
PCA in Matlab
Le funzioni PCA sono contenute nella StatisticsToolbox
Si pu effettuare la PCA partendo dai dati (X) o dalla matrice di
covarianza (C)
dai dati: [W,score,L] = princomp(X)
W la matrice degli autovettori, detta matrice dei Loadings
E ordinata per autovalori decrescenti
Scores sono le osservazioni Z trasformate delle X nel riferimento PCA
L sono gli autovalori, ordinati in ordine decrescente
dalla matrice di covarianza: [W,L,expl] = pcacov(C)
W la matrice degli autovettori
E ordinata per autovalori decrescenti
L sono gli autovalori, ordinati in ordine decrescente
expl un vettore che contiene la percentuale di varianza spiegata da
ciascuna componente principale (la somma fa 100)
pag. 28 S. Marsili-Libelli: Principal Component Analysis
Un esempio: Employee Satisfaction
Un sondaggio fra 9147 impiegati di una grande azienda ha
rilevato i seguenti parametri di soddisfazione
Lavoro (SJ )
Formazione (SJ T)
Condizioni di lavoro (SWC)
Assicurazione medica (SMC)
Assicurazione Dentistica (SDC)
Il sondaggio ha prodotto la seguente matrice di correlazione
=
000 . 1 620 . 0 227 . 0 238 . 0 162 . 0
620 . 0 000 . 1 301 . 0 252 . 0 197 . 0
227 . 0 301 . 0 000 . 1 445 . 0 511 . 0
238 . 0 252 . 0 445 . 0 000 . 1 451 . 0
162 . 0 197 . 0 511 . 0 451 . 0 000 . 1
R
pag. 29 S. Marsili-Libelli: Principal Component Analysis
Un esempio: Employee Satisfaction
Si ricava la matrice delle PCA ordinata per autovalori
decrescenti
La prima PC spiega il 47.3% della varianza totale
[ ] 373 . 0 484 . 0 573 . 0 202 . 1 370 . 2
670 . 0 191 . 0 032 . 0 586 . 0 412 . 0
714 . 0 060 . 0 095 . 0 531 . 0 443 . 0
185 . 0 658 . 0 454 . 0 308 . 0 479 . 0
034 . 0 114 . 0 832 . 0 290 . 0 457 . 0
074 . 0 716 . 0 301 . 0 443 . 0 442 . 0
=
=
L
W
473 . 0
5
370 . 2
373 . 0 484 . 0 573 . 0 202 . 1 370 . 2
370 . 2
5
1 i
i
1
= =
+ + + +
=
Verifica: la
somma dei
quadrati degli
elementi di
ciascuna
colonna
somma a 1
pag. 30 S. Marsili-Libelli: Principal Component Analysis
Varianza spiegata e scree plot
1 2 3 4 5
0
0.2
0.4
0.6
0.8
1
eigenvalues
P
e
r
c
.
V
a
r
i
a
n
c
e
perc. var. expl. cum.var.expl.
1 2 3 4 5
0
0.5
1
1.5
2
2.5
eigenvalues
i
=
80 44
44 8000
80 44
44 80
b a
C C
2 1
) b (
1
2 1
) a (
1
x 055 . 0 x 998 . 0 z
x 707 . 0 x 707 . 0 z
+ =
+ =
pag. 36 S. Marsili-Libelli: Principal Component Analysis
Come ridurre lordine della PCA
Ci si basa sulla quantitdi varianza spiegata: si trattengono le
componenti che forniscono una varianza totale spiegata fra il
70% e il 90%
Ovviamente si arrotonda
allintero pivicino
Alternativamente
(o insieme) si taglia
allautovalore un po
inferiore ad 1
Nel caso di matrice di
correlazione si taglia
intorno a 0.7
Nel caso di matrice di
covarianza si taglia intorno a circa
0.7 della media degli autovalori
1 2 3 4 5
0
20
40
60
80
100
eigenvalues
P
e
r
c
.
V
a
r
i
a
n
c
e
1 2 3 4 5
0
0.5
1
1.5
2
2.5
eigenvalues
j
j
p
1
7 . 0
=
7 . 0
p
1
7 . 0
j
j min
pag. 37 S. Marsili-Libelli: Principal Component Analysis
Esempio di dati correlati
Dati di
qualit
dellacqua
del fiume
Arno
Centralina di
Rosano
5 -7
Settembre
2004
0
5
10
15
20
25
30
T
(
C
)
0
20
40
60
80
100
120
140
1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70
Tempo (h)
D
O
%
8
8.2
8.4
8.6
8.8
9
9.2
9.4
p
H
DO% pH T
Le tre variabili seguono tutte il ritmo circadiano, pilotato
dalla luce solare. La correlazione fra di esse evidente.
Lossigeno disciolto il pipronto, seguito dalla
temperatura a 2 h e dal pH a 3 h di ritardo.
Laumento del pH dovuto al consumo di CO
2
a seguito
della fotosintesi
pag. 38 S. Marsili-Libelli: Principal Component Analysis
Correlazioni e autovalori
0.83407
pH
DO%
0.65468
DO%
T
0.76773
pH
T
1 2 3
0
0.5
1
eigenvalues
P
e
r
c
.
V
a
r
i
a
n
c
e
1 2 3
0
1
2
3
eigenvalues
La forte correlazione fra le prime due cariabili, fa s che PC1 spieghi circa 83% della
variabilittotale. Analogamente il primo autovalore dominante rispetto agli altri due.
pag. 39 S. Marsili-Libelli: Principal Component Analysis
Meglio lanalisi di correlazione
=
1.8623 0.2374 17.3091
0.2374 0.0514 3.6624
17.3091 3.6624 375.3621
C
=
0.0650 - 0.9968 - 0.0462
0.9979 0.0646 - 0.0098
0.0067 - 0.0467 0.9989
PC
dati
=
1.0000 0.7677 0.6547
0.7677 1.0000 0.8341
0.6547 0.8341 1.0000
R
=
0.2886 - 0.7796 - 0.5558
0.7873 0.1371 0.6011
0.5448 - 0.6111 0.5743
PC
R
-1
-0.5
0
0.5
1 -1
-0.5
0
0.5
1 -1
-0.5
0
0.5
1
PC
2
DO%
T
pH
PC
1
P
C
3
-1
-0.5
0
0.5
1
-1
-0.5
0
0.5
1
-1
-0.5
0
0.5
1
DO%
PC
1
pH
T
PC
2
P
C
3
Lanalisi di
covarianza
tende ad
enfatizzare le
dipendenze
fra le variabili
ed a
mantenere
solo la prima.
Lanalisi di
correlazione
evidenzia il
legame delle
tre, pur
mantenendo il
carattere
dominante
di DO%
0.1414
0.3519
2.5067
3
2
1
=
=
=
0.0112
1.0662
376.1984
3
2
1
=
=
=
=
pag. 44 S. Marsili-Libelli: Principal Component Analysis
Andamento della statistica F
Esempio:
Il valore limite di T
2
al 95% per
un campione di n =18 misure
di p =8 variabili ciascuna
x = f i nv( 0. 95, 8, 18- 8)
x = 3. 0717
Ci significa che si pu
osservare per puro caso un
valore di F superiore a 4.3468
solamente nel 5% dei casi
In questo caso il T
2
lim
sarebbe
0
10
20
30
0
10
20
30
0
2
4
6
8
10
n-p
p
F
95 . 0 =
( )
41775 . 0 0717 . 3
8 18
1 18 8
T
2
lim
=
=
pag. 45 S. Marsili-Libelli: Principal Component Analysis
Applicazione del T
2
ai dati di qualit
Lindice Hotellings T
2
lo stesso sia per i dati originali che per quelli
standardizzati
Ovviamente lindice per ogni dato inferiore a T
2
lim
perchsono gli stessi
dati usati per determinare le PC
0 10 20 30 40 50 60 70
0
2
4
6
8
10
Misure
T
2
Dati standard. Dati tal quali
2
lim
T
pag. 46 S. Marsili-Libelli: Principal Component Analysis
Riduzione della dimensionalit
Se alcune PC non sono molto importanti (vedi scree plot) si
pu ridurre la dimensionalitdellanalisi trattenendo solamente
le prime a < p PC
La matrice di trasformazione la sotto matrice di Wche ritiene
i primi a autovettori
La trasformazione PCA ridotta diviene
ovvero i dati X vengono proiettati nelle prime a componenti di Z
=
pp pa 2 p 1 p
p 2 a 2 22 21
p 1 a 1 12 11
w ... w ... w w
... .. ... ... ...
w ... w ... w w
w ... w ... w w
W
a a p
a n
pa 2 p 1 p
a 2 22 21
a 1 12 11
a
w ... w w
... ... ... ...
w ... w w
w ... w w
= W
a n
a a
= W X Z
pag. 47 S. Marsili-Libelli: Principal Component Analysis
Decomposizione parziale
Misure
10 20 30 40 50 60 70
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
2.5
3
X
a
1 1
x x
a
2 2
x x
3
x
La PCA ridotta contiene solo le prime due componenti (vedi screeplot)
che comunque spiegano 83% della variabilittotale.
1 2 3
0
0.5
1
eigenvalues
P
e
r
c
.
V
a
r
i
a
n
c
e
1 2 3
0
1
2
3
eigenvalues
2 a =
pag. 48 S. Marsili-Libelli: Principal Component Analysis
Ricostruzione da PCA ridotta
La ricostruzione delle variabili originali dalla PCA ridotta
contiene ovviamente degli errori
Se la mappa inversa completa era
nel caso ridotto sar
La matrice E contiene gli errori di ricostruzione
Matlab: [r esi dual s, r econst r uct ed] =pcar es( X, a) ;
T
W Z X =
E W Z X W Z X + = =
T
a a
T
a a a
X Z
a
W
a
E
= +
n
p
a
a
p
p
n
modello ridotto residui
pag. 49 S. Marsili-Libelli: Principal Component Analysis
10 20 30 40 50 60 70
-1
0
1
D
O
%
s
t
a
n
d
.
Ricostruzione con a =3
10 20 30 40 50 60 70
-1
0
1
p
H
s
t
a
n
d
.
10 20 30 40 50 60 70
-1
0
1
2
T
s
t
a
n
d
.
Ricostruzione da PCA completa
T
W Z X =
pag. 50 S. Marsili-Libelli: Principal Component Analysis
Ricostruzione da PCA ridotta
10 20 30 40 50 60 70
-1
0
1
D
O
%
s
t
a
n
d
.
Ricostruzione con a =2
10 20 30 40 50 60 70
-1
0
1
p
H
s
t
a
n
d
.
10 20 30 40 50 60 70
-1
0
1
2
T
s
t
a
n
d
.
E W Z X + =
T
a a
pag. 51 S. Marsili-Libelli: Principal Component Analysis
10 20 30 40 50 60 70
-1
0
1
D
O
%
s
t
a
n
d
.
Ricostruzione con a = 1
10 20 30 40 50 60 70
-1
0
1
p
H
s
t
a
n
d
.
10 20 30 40 50 60 70
-1
0
1
2
T
s
t
a
n
d
.
Ricostruzione da PCA ridotta
E W Z X + =
T
a a
pag. 52 S. Marsili-Libelli: Principal Component Analysis
La statistica Q
Valuta limportanza delle PC escluse dallanalisi
Ha significato solo quando si esegue una riduzione (a < p)
Il valore limite della statistica Q per il quantile c
=1- dato da
( )
2
3
2 1
o
p
1 a i
3
3
p
1 a i
2
2
p
1 a i
i 1
h
1
2
1
o o 2
1
2 o
1 lim
3
2 1 h
1 h h
2 c h
1 Q
i
i
o
= =
= =
+ + =
+ =
+ = + =