Sei sulla pagina 1di 36

Analisi in componenti principali (ACP)

L’ACP è un particolare tipo di analisi fattoriale, caratterizzata da


alcuni elementi:
1 la matrice dei dati X è composta da p variabili tutte
quantitative rilevate su n individui;
2 la matrice dei dati X è formata dai dati centrati oppure dai
dati standardizzati;
3 la metrica è quella indotta dalla matrice identità, M = I;
4 la matrice diagonale dei pesi è D= I 1
n

Maria Felice Arezzo mariafelice.arezzo@uniroma1.it


L’ACP per passi

In modo schematico, l’ACP è sintetizzata attraverso un insieme di


passi effettuati dal computer e/o dal ricercatore:
1 Identificazione dei sottospazi ottimi su cui proiettare i punti;
2 Calcolo delle coordinate delle componenti principali;
3 Identificazione del numero di componenti da utilizzare;
% di varianza spiegata dalle CP;
Scree-plot;
Eigenvalue-one (solo per variabili standardizzate).
4 Interpretazione del significato delle componenti
correlazione tra CP e variabili originarie
5 Interpretazione dei risultati
contributo assoluto;
contributo relativo
cerchio delle correlazioni

Maria Felice Arezzo mariafelice.arezzo@uniroma1.it


Passo 1 e 2: identificazione e calcolo CP

Analisi nello spazio degli individui

Ipotizziamo che la metrica sia indotta da I . Sappiamo che la


matrice da cui estrarre gli autovettori e gli autovalori è
X 0DXM = n1 X 0X . Notiamo il seguente fatto interessante:
  
x11 − x .1 x21 − x .1 ··· xn1 − x .1 x11 − x .1 x12 − x .2 ··· x1p − x .p
1 1  x12 − x .2
X X
0 x22 − x .2 ··· xn2 − x .2 
 x21 − x .1 x22 − x .2 ··· x2p − x .p 

=  =
n n  ··· ··· ··· ···  ··· ··· ··· ··· 
x1p − x .p x2p − x .p ··· xnp − x .p xn1 − x .1 xn2 − x .2 ··· xnp − x .p

Maria Felice Arezzo mariafelice.arezzo@uniroma1.it


Passo 1 e 2: identificazione e calcolo CP

Analisi nello spazio degli individui

Ipotizziamo che la metrica sia indotta da I . Sappiamo che la


matrice da cui estrarre gli autovettori e gli autovalori è
X 0DXM = n1 X 0X . Notiamo il seguente fatto interessante:
  
x11 − x .1 x21 − x .1 ··· xn1 − x .1 x11 − x .1 x12 − x .2 ··· x1p − x .p
1 1  x12 − x .2
X X
0 x22 − x .2 ··· xn2 − x .2 
 x21 − x .1 x22 − x .2 ··· x2p − x .p 

=  =
n n  ··· ··· ··· ···  ··· ··· ··· ··· 
x1p − x .p x2p − x .p ··· xnp − x .p xn1 − x .1 xn2 − x .2 ··· xnp − x .p

 
Var (X1 ) Cov (X1 , X2 ) ··· Cov (X1 , Xp )

 Var (X2 ) ··· Cov (X2 , Xp )
 ··· ··· ··· 
Var (Xp )

Maria Felice Arezzo mariafelice.arezzo@uniroma1.it


Passo 1 e 2: identificazione e calcolo CP

Analisi nello spazio degli individui

Ipotizziamo che la metrica sia indotta da I . Sappiamo che la


matrice da cui estrarre gli autovettori e gli autovalori è
X 0DXM = n1 X 0X . Notiamo il seguente fatto interessante:
  
x11 − x .1 x21 − x .1 ··· xn1 − x .1 x11 − x .1 x12 − x .2 ··· x1p − x .p
1 1  x12 − x .2
X X
0 x22 − x .2 ··· xn2 − x .2 
 x21 − x .1 x22 − x .2 ··· x2p − x .p 

=  =
n n  ··· ··· ··· ···  ··· ··· ··· ··· 
x1p − x .p x2p − x .p ··· xnp − x .p xn1 − x .1 xn2 − x .2 ··· xnp − x .p

 
Var (X1 ) Cov (X1 , X2 ) ··· Cov (X1 , Xp )

 Var (X2 ) ··· Cov (X2 , Xp )
 ··· ··· ··· 
Var (Xp )

Quindi i sottospazi ottimali sono identificati dagli autovettori della


matrice di varianze e covarianze n1 X 0 X .

Maria Felice Arezzo mariafelice.arezzo@uniroma1.it


Passo 1 e 2: identificazione e calcolo CP

Se le variabili di riferimento hanno unità di misura, ordine di


grandezza e variabilità differente, si ricorre alla standardizzazione
dei dati in modo da ricondurre le variabili ad avere la stessa media
(cioé 0), la stessa varianza (cioé 1) e ad essere numeri puri.

In questo caso la matrice dei dati X è composta da valori


standardizzati.

E’ facile verificare che la matrice da fattorizzare è la matrice di


correlazione. In altre parole i sottospazi ottimali sono identificati
dagli autovettori della matrice di correlazione n1 X 0 X .

Maria Felice Arezzo mariafelice.arezzo@uniroma1.it


Passo 1 e 2: identificazione e calcolo CP

Se le variabili di riferimento hanno unità di misura, ordine di


grandezza e variabilità differente, si ricorre alla standardizzazione
dei dati in modo da ricondurre le variabili ad avere la stessa media
(cioé 0), la stessa varianza (cioé 1) e ad essere numeri puri.

In questo caso la matrice dei dati X è composta da valori


standardizzati.

E’ facile verificare che la matrice da fattorizzare è la matrice di


correlazione. In altre parole i sottospazi ottimali sono identificati
dagli autovettori della matrice di correlazione n1 X 0 X .

I risultati ottenuti effettuando la ACP sui dati centrati e sui dati


standardizzati, sono differenti e non c’è modo di passare dagli uni
agli altri.

Maria Felice Arezzo mariafelice.arezzo@uniroma1.it


Passo 1 e 2: identificazione e calcolo CP

La α-sima componente principale è data da:

Cα = XMuα = Xuα

Ciò significa che essa è una combinazione lineare delle p variabili


con coefficienti pari alle componenti del vettore caratteristico
(autovettore) α-simo.

Maria Felice Arezzo mariafelice.arezzo@uniroma1.it


Passo 3: numero di componenti principali da utilizzare

L’idea di base è scegliere un numero ridotto di componenti


principali in grado, però, di ricostruire una quantità sufficiente della
variabilità originaria.

Dobbiamo trovare una misura della variabilità riprodotta dalle CP.

Sappiamo che la traccia della matrice di varianze e covarianze


n X X dà la variabilità
1 0
complessiva del fenomeno:
tr [ n1 X 0 X ] = pk=1 Var (Xk ).
P

Sappiamo inoltre che la traccia è data dalla somma degli


autovalori: tr [ n1 X 0 X ] = pk=1 λk .
P

Maria Felice Arezzo mariafelice.arezzo@uniroma1.it


Passo 3: numero di componenti principali da utilizzare

La relazione seguente:
p p
X
1 0
X
X X
tr [ ]= Var (Xk ) = λk
n
k=1 k=1

implica che ciascun autovalore di n1 X 0 X fornisce la parte di


variabilità complessiva del fenomento ricostruita da quella data
componente principale.

Maria Felice Arezzo mariafelice.arezzo@uniroma1.it


Passo 3: numero di componenti principali da utilizzare

La relazione seguente:
p p
X
1 0
X
X X
tr [ ]= Var (Xk ) = λk
n
k=1 k=1

implica che ciascun autovalore di n1 X 0 X fornisce la parte di


variabilità complessiva del fenomento ricostruita da quella data
componente principale.

Possiamo, quindi, costruire un indicatore della quota dell’inerzia


complessiva spiegata dall’α-sima componente:
λα
τα = Pp
α=1 λα

Maria Felice Arezzo mariafelice.arezzo@uniroma1.it


Passo 3: numero di componenti principali da utilizzare

I criteri per scegliere il numero di componenti da trattenere sono:


1 fisso una % minima di varianza da riprodurre (es. 70%) e
trattengo le CP che mi fanno raggiungere l’obiettivo;
2 scelgo il numero di componenti sulla base del grafico degli
autovalori (scree-plot)
3 trattengo solo le componenti con autovalore maggiore di uno
(SOLO se si fattorizza la matrice di correlazione)

Maria Felice Arezzo mariafelice.arezzo@uniroma1.it


Passo 3: numero di componenti principali da utilizzare
Lo screeplot:

Il numero di componenti trattenute è quello in corrispondenza del


quale si realizza l’appiattimento del grafico (nel caso in figura ciò
avviene dopo la prima componente).
Maria Felice Arezzo mariafelice.arezzo@uniroma1.it
Passo 3: numero di componenti principali da utilizzare
Regola dell’autovalore maggiore di 1 (solo se X è standardizzata).
La ratio risiede nel fatto che, poiché le variabili nella matrice dei
dati hanno varianza unitaria, si trattengono le componenti che
spiegano una variabilità maggiore di quella delle variabili di
partenza.

Maria Felice Arezzo mariafelice.arezzo@uniroma1.it


Passo 3: numero di componenti principali da utilizzare
Regola dell’autovalore maggiore di 1 (solo se X è standardizzata).
La ratio risiede nel fatto che, poiché le variabili nella matrice dei
dati hanno varianza unitaria, si trattengono le componenti che
spiegano una variabilità maggiore di quella delle variabili di
partenza.

Nel caso in esame sono 4


le CP che soddisfano la
regola.

Maria Felice Arezzo mariafelice.arezzo@uniroma1.it


Passo 4: interpretazione del significato delle componenti

Per potere interpretare il significato di ciascuna componente


principale, è molto utile ricorrere al coefficiente di correlazione tra
quella data CP e ciascuna variabile. Esso è dato da:


λα uα,j
Corr (Cα , Xj ) =
s.j

Quanto maggiore in valore assoluto è il valore di Corr (Cα , Xj ) tanto


più la componente α-sima sarà influenzata dalla variabile j-sima.

Maria Felice Arezzo mariafelice.arezzo@uniroma1.it


Un esempio numerico
Supponiamo di avere raccolto le seguenti informazioni su un
collettivo di dieci studenti (calcolate la matrice X !).

Voto
Maturità Laurea
60 110
54 100
36 99
40 95
36 88
58 105
44 100
42 102
42 90
55 108

Maria Felice Arezzo mariafelice.arezzo@uniroma1.it


Un esempio numerico
La matrice di varianze e covarianze risulta essere:

Maturità Laurea
Maturità 75.21 46.61
Laurea 46.21

Per trovare i λ, dobbiamo risolvere l’equazione caratteristica, cioè


quella che risulta dall’uguagliare a zero il determinante della
matrice ( n1 X 0 X − λI ).

   
75.21 46.61 1 0
det −λ =
46.61 46.21 0 1

 
75.21 − λ 46.61
= det = λ2 − 121.42λ + 1302.962 = 0
46.61 46.21 − λ

Maria Felice Arezzo mariafelice.arezzo@uniroma1.it


Le due soluzioni sono λ1 = 109.5233 e λ2 = 11.8966. Notiamo che
abbiamo scelto come primo autovalore la soluzione più grande.
Notiamo anche che la somma degli autovalori corrisponde alla
varianza totale:

109.5233 + 11.89666 = 75.21 + 46.21

Per trovare il sottospazio ottimo, dobbiamo calcolare l’autovettore


associato all’autovalore massimo (λ1 = 109.5233). Dobbiamo cioé
risolvere il seguente sistema lineare omogeneo:

X X − λ1I u1 = 0 ovvero:
 
1 0
n
       
75.21 46.61 1 0 u 0
− 109.5233 · 11 =
46.61 46.21 0 1 u12 0

Maria Felice Arezzo mariafelice.arezzo@uniroma1.it


Il sistema è:
(
−34.3133u11 + 46.61u12 = 0
46.61u11 − 63.3133u12 = 0

è facile verificare che il sistema ammette infinite soluzioni date


dall’equazione u11 = 1.358u12 .

Maria Felice Arezzo mariafelice.arezzo@uniroma1.it


Il sistema è:
(
−34.3133u11 + 46.61u12 = 0
46.61u11 − 63.3133u12 = 0

è facile verificare che il sistema ammette infinite soluzioni date


dall’equazione u11 = 1.358u12 .

Per identificare le componenti dell’autovettore u1 dobbiamo usare


la condizione sulla norma e risolvere il sistema:

(
u11 = 1.358u12
2 + u2 = 1
u11 12

E’ facile verificare che:

u1
 
0.805

0.593

Maria Felice Arezzo mariafelice.arezzo@uniroma1.it


Per trovare il secondo autovettore (u2 ), associato al secondo
autovalore più alto (λ2 = 11.89666) dobbiamo risolvere il seguente
sistema:

X X − λ2I u2 = 0 ovvero:
 
1 0
n
       
75.21 46.61 1 0 u 0
− 11.89666 · 21 =
46.61 46.21 0 1 u22 0

Procedendo in modo analogo a quanto visto, troviamo che il


secondo autovettore è:

u2

0.593

−0.805

Maria Felice Arezzo mariafelice.arezzo@uniroma1.it


109.5233
La prima componente spiega il τ1 = 109.5233+11.89666 % = 90.20%
della variabilità complessiva del fenomeno.
Le due componenti sono definite dalle seguenti combinazioni
lineari:

C1 = Xu1
C2 = Xu2

ove X è la matrice dei dati centrati.

Maria Felice Arezzo mariafelice.arezzo@uniroma1.it


Quindi la prima componente principale C1 si trova in questo modo:

X C1
z }| { }| { z
13.3 10.3 16.8144
   
 7.3 0.3   6.0544 
   
−10.7 −0.7   −9.0286 
  u1
 −6.7 −4.7  z }|
 
 −8.1806 
   {
  
−10.7 −11.7 0.805 −15.5516
 · =
 
 11.3 5.3 
 0.593  12.2394 


 −2.7 0.3   −1.9956 
  

 −4.7 2.3   −2.4196 
  

 −4.7 −9.7   −9.5356 
8.3 8.3 11.6034

In modo analogo si calcola la seconda componente.

Maria Felice Arezzo mariafelice.arezzo@uniroma1.it


Le correlazioni tra le componenti e le variabili sono:


109.5233 · (0.805)
Corr (C1 , X1 ) = √ = 0.971
75.21

109.5233 · (0.593)
Corr (C1 , X2 ) = √ = 0.913
46.21

11.89666 · 0.593
Corr (C2 , X1 ) = √ = 0.301
75.21

11.89666 · (−0.805)
Corr (C2 , X2 ) = √ = −0.408
46.21

Maria Felice Arezzo mariafelice.arezzo@uniroma1.it


Passo 5: interpretazione dei risultati

Dopo avere interpretato gli assi, si valutano:


il contributo assoluto alla costruzione della dimensione
fattoriale apportanto da ciascun punto (individuo o variabile);
la qualità dell’informazione riprodotta dall’asse per quel dato
punto (individuo o variabile);
il posizionamento dei punti-individuo e dei punti-variabili negli
assi fattoriali.

Maria Felice Arezzo mariafelice.arezzo@uniroma1.it


Passo 5: contribuzione assoluta

Contributo assoluto o contributo (CTA o CTR): esprime il


contributo di ciascun elemento (punto-unità o punto-variabile) alla
spiegazione del fattore, ossia quanto l’elemento i-simo ha
contribuito alla costruzione della CP α-sima. Esso è dato da:

pi c 2 (i)
CTAα (i) = P α 2
i pi cα (i)

ove pi è il peso associato all’individuo i-simo e cα (i) è la


coordinata dell’i-simo individuo sull’α-sima CP.

Maria Felice Arezzo mariafelice.arezzo@uniroma1.it


Passo 5: contribuzione relativa

Contributo relativo (QLT o cos2 ): esprime il contributo del


fattore alla spiegazione di ciascun elemento (punto-unità o
punto-variabile), ossia quanto il fattore riesce a ben rappresentare
un singolo elemento. Esso è una misura della qualità della
rappresentazione dell’i-simo individuo sull’α-sima CP.
Esso è dato dal rapporto tra la norma riprodotta sull’asse fattoriale
α-simo e la norma originaria:

kxi,cpα k
QLTα (i) = = cos(θ)
kxi k

Maria Felice Arezzo mariafelice.arezzo@uniroma1.it


Passo 5: contribuzione relativa

Contributo relativo (QLT o cos2 ): esprime il contributo del


fattore alla spiegazione di ciascun elemento (punto-unità o
punto-variabile), ossia quanto il fattore riesce a ben rappresentare
un singolo elemento. Esso è una misura della qualità della
rappresentazione dell’i-simo individuo sull’α-sima CP.
Esso è dato dal rapporto tra la norma riprodotta sull’asse fattoriale
α-simo e la norma originaria:

kxi,cpα k
QLTα (i) = = cos(θ)
kxi k

Quanto più vicino ad 1 è il valore di cos2 quanto più la qualità


della riproduzione del punto sul fattore è alta.

Maria Felice Arezzo mariafelice.arezzo@uniroma1.it


Il posizionamento dei punti nello spazio delle CP

Una volta interpretato il significato delle CP trattenute nell’analisi,


il posizionamento dei punti individuo nello spazio identificato dalle
stesse, permette di capirne il diverso comportamento.
Illustriamo questa parte dell’analisi con un caso di studio.

Maria Felice Arezzo mariafelice.arezzo@uniroma1.it


Un caso di studio

Azienda ECON.PRO CASH LAVOR.VA ROE INDE.CAP FATTURATO


Barilla -25.4 7.39 59.54 4.2 0.83 2867
Eridania -141 4 68.99 4.2 0.83 1693
Ferrero 65.8 9.61 53.7 21.12 -0.02 3031
Galbani -71.9 8.4 56.32 2.66 -0.02 2136
Kraft -32 5.88 72.11 3.2 0.35 1563
Lavazza -28.9 4.96 39.08 5.29 -0.05 1117
Nestlè -96.8 2.72 81.25 0 1.69 3463
Parmalat -145.1 5.96 38.51 2.23 2.91 1664
Plasmon 31.7 27.76 31.35 24.6 1.35 858
Star 2.4 6.47 62.49 10.6 0 811

Le variabili (rilevate nel 2000) sono:


ECON.PRO: economic profit , differenziale tra rendimento del capitale investito ed il suo costo;
CASH: cash flow sul fatturato in %;
LAVOR.VA: costo del lavoro sul valore aggiunto, in%;
ROE: return on equity, utile netto sul patrimonio, in%;
INDE.CAP: indebitamento sul capitale proprio;
FATTURATO.

Maria Felice Arezzo mariafelice.arezzo@uniroma1.it


Il numero di componenti da tenere

Tabella: Gli autovalori della


matrice di correlazione
eigenvalue % of variance % Cum
comp 1 2.99912195 49.985366 49.9854
comp 2 1.49327594 24.887932 74.8733
comp 3 0.92012925 15.335488 90.2088
comp 4 0.34038833 5.673139 95.8819
comp 5 0.1497962 2.496603 98.3785
comp 6 0.09728832 1.621472 100

Teniamo le prime due componenti

Maria Felice Arezzo mariafelice.arezzo@uniroma1.it


Interpretazione del significato delle componenti

$Dim.1 $Dim.2
$Dim.1$quanti $Dim.2$quanti
correlation p.value correlation p.value
ROE 0.9167999 0.00018943 ECON.PRO 0.5639972 0.089474
CASH 0.8714908 0.00101887 LAVOR.VA 0.5251196 0.119089
ECON.PRO 0.7744736 0.0085335 FATTURATO 0.3651595 0.299474
INDE.CAP -0.2415429 0.5013877 ROE 0.1298762 0.72064
FATTURATO -0.4907096 0.14984656 CASH -0.2368423 0.510004
LAVOR.VA -0.7072166 0.0221739 INDE.CAP -0.8325436 0.002796

Dunque la prima componente si interpreta come ‘Redditività di


impresa’ e la seconda componente come ‘Indebitamento’.

Maria Felice Arezzo mariafelice.arezzo@uniroma1.it


Interpretazione dei risultati

Individuals
Dist Dim.1 ctr cos2 Dim.2 ctr cos2
Barilla 1.224 -0.578 1.112 0.223 0.488 1.593 0.159
Eridania 1.873 -1.487 7.375 0.63 -0.351 0.827 0.035
Ferrero 2.819 1.557 8.081 0.305 1.805 21.823 0.41
Galbani 1.192 -0.469 0.732 0.155 0.406 1.103 0.116
Kraft 1.399 -0.646 1.393 0.214 0.741 3.673 0.28
Lavazza 1.826 0.533 0.947 0.085 0.031 0.006 0
Nestlè 2.993 -2.589 22.343 0.748 0.245 0.4 0.007
Parmalat 3.117 -0.989 3.263 0.101 -2.872 55.25 0.849
Plasmon 4.302 3.996 53.249 0.863 -1.287 11.086 0.089
Star 1.778 0.672 1.505 0.143 0.796 4.239 0.2

Variables
Dim.1 ctr cos2 Dim.2 ctr cos2
ECON.PRO 0.774 20 0.6 0.564 21.302 0.318
CASH 0.871 25.324 0.759 -0.237 3.756 0.056
LAVOR.VA -0.707 16.677 0.5 0.525 18.466 0.276
ROE 0.917 28.026 0.841 0.13 1.13 0.017
INDE.CAP -0.242 1.945 0.058 -0.833 46.417 0.693
FATTURATO -0.491 8.029 0.241 0.365 8.929 0.133

Maria Felice Arezzo mariafelice.arezzo@uniroma1.it


Maria Felice Arezzo mariafelice.arezzo@uniroma1.it
in alto a destra c’è la Ferrero che risulta essere l’azienda più sana, poiché ha un indebitamento negativo,
quindi fa fronte agli impegni finanziari col capitale proprio, e una discreta redditività;
nel quadrante in basso a destra, si distingue la Plasmon che se pur indebitata ha un’altissima redditività;
Nestlè ed Eridaria, pur non essendo indebitate, devono migliorare la loro redditività;
in basso a sinistra, troviamo la Parmalat: questa mostra di avere la situazione peggiore. Ha un forte
indebitamento e una redditività negativa, quindi, tale impresa deve necessariamente ripensare al suo
sistema di business per evitare il rischio di insolvenza

Maria Felice Arezzo mariafelice.arezzo@uniroma1.it

Potrebbero piacerti anche