Sei sulla pagina 1di 11

PCA

Principal Component
Analysis

Laboratorio di Complementi di Statistica


a.a. 2008/2009

S. Ruffa
suela.ruffa@polito.it
Dati proteine.mtw
Il worksheet contiene il consumo di proteine in
25 paesi europei per 9 tipi di alimenti; per ogni
paese stato registrato il contenuto di proteine
assimilato dal consumo di carne rossa
(RMeat), carne bianca (WMeat), uova (Eggs),
latte (Milk), pesce (Fish), Cereali (Cereal), cibi
ricchi di amido (Starch), nocciole e olio di semi
(Nuts), frutta e verdura (FrVeg).
Calcolo delle componenti
principali
Variable PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 PC9

RMeat 0,303 -0,056 -0,298 -0,646 0,322 0,460 -0,150 -0,020 -0,246
WMeat 0,311 -0,237 0,624 0,037 -0,300 0,121 0,020 -0,028 -0,592
Eggs 0,427 -0,035 0,182 -0,313 0,079 -0,361 0,443 -0,491 0,333
Milk 0,378 -0,185 -0,386 0,003 -0,200 -0,618 -0,462 0,081 -0,178
Fish 0,136 0,647 -0,321 0,216 -0,290 0,137 0,106 -0,449 -0,313
Cereal -0,438 -0,233 0,096 0,006 0,238 -0,081 -0,405 -0,703 -0,152
Starch 0,297 0,353 0,243 0,337 0,736 -0,148 -0,153 0,115 -0,122
Nuts -0,420 0,143 -0,054 -0,330 0,151 -0,447 0,407 0,184 -0,518
FrVeg -0,110 0,536 0,408 -0,462 -0,234 -0,119 -0,450 0,092 0,203

Eigenvalue 4,0064 1,6350 1,1279 0,9547 0,4638 0,3251 0,2716 0,1163 0,0991
Proportion 0,445 0,182 0,125 0,106 0,052 0,036 0,030 0,013 0,011
Cumulative 0,445 0,627 0,752 0,858 0,910 0,946 0,976 0,989 1,000

Con 3 variabili spieghiamo


il 75,2% della variabilit totale
Calcolo delle componenti
principali
Le componenti principali possono essere
interpretate come nuove variabili, essendo
combinazioni lineari delle variabili di partenza.
Nellesempio:

C1 = 0.303 RMeat 0.311 WMeat 0.427 Eggs +


0.136 Milk + 0.438 Cereal +
0.297 Starch + 0.420 Nuts + 0.110 FrVeg
Loading Plot of RMeat; ...; FrVeg
0,7 Fish

0,6
FrVeg

0,5
Second Component

0,4 Starch

0,3

0,2 Nuts

0,1

0,0 RMeat
Eggs

-0,1
Milk
-0,2 Cereal WMeat

-0,4 -0,3 -0,2 -0,1 0,0 0,1 0,2 0,3 0,4 0,5
First Component
Biplot of RMeat; ...; FrVeg
5

3
Second Component

2
Fish
FrVeg
1 Starch
Nuts
RMeat Eggs
0 Cereal Milk
WMeat

-1

-2
-4 -3 -2 -1 0 1 2 3
First Component
Correlazione fra le variabili e le
componenti principali
La matrice che esprime la correlazione tra le
variabili e le componenti principali definita
come:
R = U 1/ 2

dove U la matrice degli autovettori e lambda


la matrice diagonale contenente la radice
quadrata degli autovalori
Scatterplot of score2 vs score1
5 Country
Albania
Austria
4
Belgium
Bulgaria
3 Czechoslov ak ia
Denmark
EGermany
2 Finland
score2

France
Greece
1 Hungary
Ireland
Italy
0 Netherlands
Noay
Poland
-1
Portugal
Romania
-2 Spain
Sweden
-4 -3 -2 -1 0 1 2 3 Switzerland
score1 UK
USSR
Dati scheda_prodotti.mtw
I dati sono relativi a rilevazioni effettuate su 95
prodotti di unazienda metalmeccanica.
Le variabili prese in considerazione sono:
PN: codice prodotto
Kg: peso del prodotto
COSTO MEDIO: costo medio annuo del
prodotto
COSTO KG: costo medio/peso
Somma Qt: quantit di pezzi prodotta in un
anno
Dati scheda_prodotti.mtw

z Fare unanalisi descrittiva dei dati (calcolo


delle principali statistiche, boxplot, matrix
plot)
z Fare unanalisi in componenti principali
z Fare unanalisi cluster utilizzando le
componenti principali ottenute al punto
precedente
Dati scheda_prodotti.mtw
z Ripulire i dati eliminando i prodotti la cui
quantit bassa [<2000 pezzi] (si parte
dallassunzione che questi abbiano
uninfluenza minore sui costi/guadagni
dellazienda)
z Effettuare la stessa analisi fatta in
precedenza sui nuovi dati
z Riportare tutti i risultati dellanalisi (grafici e
tabelle) in un file di testo e mandarlo a
francesco.vaccarino@polito.it e
suela.ruffa@polito.it.

Potrebbero piacerti anche