Sei sulla pagina 1di 22

Statistica per l’Impresa

a.a. 2016/2017

Tecniche di Analisi Multidimensionale


Laboratorio con Rcmdr

Roberta Pappadà
Trieste, 15 maggio 2017
Introduzione

Di seguito vengono presentati due esempi di applicazione delle pro-


cedure per l’analisi dei gruppi e delle componenti principali che uti-
lizzano i data set Indici e Auto10var, disponibili alla pagina web
del corso.
Le elaborazioni sono state e↵ettuate mediante il pacchetto Rcmdr
del software statistico R, di cui si riporta il risultato per le analisi
e↵ettuate.

1
ACP per valutare il posizionamento dell’impresa

Il data set Indici contiene i valori di quattro indici di bilancio


relativi alla redditività e alla situazione finanziaria per 14 imprese.
Precisamente, gli indici rilevati sono i seguenti:

• CR = current ratio
• ROA = return on assets
• ROD = return on debt
• ROE = return on equity

La prima riga del dataset contiene i valori degli indici per l’impre-
sa Alfa, di cui si intende valutare la posizione rispetto alle società
concorrenti sulla base dei dati a disposizione.

2
ACP per valutare il posizionamento dell’impresa

L’output seguente riporta la media, la deviazione standard e il


numero di osservazioni per ciascuna variabile:

mean sd n
CR 1.269 0.722 14
ROA 0.134 0.066 14
ROD 0.042 0.042 14
ROE 0.199 0.136 14

Si decide di condurre l’ACP partendo dalla matrice di correlazione


tra gli indici, dalla quale si evince che alcuni di essi presentano una
correlazione piuttosto elevata (ad esempio, ROE e ROA):
CR ROA ROD ROE
CR 1.000 0.085 -0.516 -0.146
ROA 0.085 1.000 0.062 0.687
ROD -0.516 0.062 1.000 -0.216
ROE -0.146 0.687 -0.216 1.000
3
ACP per valutare il posizionamento dell’impresa

La procedura di Rcmdr per l’ACP restituisce il seguente output:

Component loadings:
Comp.1 Comp.2 Comp.3 Comp.4
CR 0.1036369 0.7018916 -0.5766116 0.4051255
ROA 0.6699025 -0.1766218 -0.4755063 -0.5421523
ROD -0.2293820 -0.6722830 -0.5598446 0.4266069
ROE 0.6984797 -0.1555266 0.3577525 0.5999590

Component variances:
Comp.1 Comp.2 Comp.3 Comp.4
1.7079168 1.5051959 0.6591417 0.1277455

Importance of components:
Comp.1 Comp.2 Comp.3 Comp.4
Standard deviation 1.3068729 1.2268643 0.8118755 0.35741507
Proportion of Variance 0.4269792 0.3762990 0.1647854 0.03193638
Cumulative Proportion 0.4269792 0.8032782 0.9680636 1.00000000

4
ACP per valutare il posizionamento dell’impresa

• La prima tabella corrisponde alla la matrice (4 ⇥ 4) V, le cui


colonne sono gli autovettori (loadings) v1 , v2 , v3 , v4 ; gli
elementi di tali vettori sono i coefficienti della combinazione
lineare che definisce ciascuna componente principale in
funzione degli scostamenti standardizzati zij delle 4 variabili.
La prima e la seconda CP (Comp.1 e Comp.2) sono date da

yi1 = 0.104zi1 + 0.670zi2 0.229zi3 + 0.698zi4


yi2 = 0.702zi2 0.177zi2 0.672zi3 0.156zi4

Queste espressioni consentono il calcolo, per ciascuna i-esima


unità, dei punteggi (scores) per la prima e per la seconda CP.

5
ACP per valutare il posizionamento dell’impresa

• Le varianze delle componenti principali sono uguali agli auto-


valori delle CP, che sono determinate in ordine decrescente ri-
spetto alla varianza; si noti che, operando su variabili standar-
dizzate, la somma degli autovalori è pari a 4, cioè alla varianza
totale data dal numero delle variabili.
• Dalla terza tabella si desume che la varianza totale spiegata
dalla prima componente è pari al 42.7% della varianza totale,
mentre la quota spiegata dalla seconda componente è circa il
37.63%. Si può ritenere che le prime due componenti principali
riassumano in maniera soddisfacente il data set originario con 4
variabili, spiegando una percentuale cumulata di varianza pari
a circa l’80.33%. Alla stessa conclusione si perviene seguendo
la regola della varianza media, poiché le prime due CP hanno
varianza maggiore di 1. 6
ACP per valutare il posizionamento dell’impresa

Vengono poi calcolati i coefficienti di correlazione tra le CP estratte


e ognuna delle variabili, riportati nella seguente tabella:

CP 1 CP 2
CR 0.135 0.861
ROA 0.876 -0.217
ROD -0.300 -0.825
ROE 0.913 -0.191
Tabella 1: Correlazioni tra CP e variabili

• la quota di varianza della variabile current ratio spiegata dalla


prima e seconda CP è data da 0.1352 + 0.8612 = 0.76;
• la varianza della prima componente principale si ottiene come
2 2 2 2
1 = 0.135 + 0.876 + ( 0.300) + 0.913 ⇡ 1.71
7
ACP per valutare il posizionamento dell’impresa

Il segno positivo e il valore elevato della correlazione tra la prima CP


e ROA, ROE indica una forte relazione lineare tra la prima CP e i due
indici relativi alla redditività; la seconda componente risulta correlata
positivamente e in misura maggiore con CR e negativamente con
ROD, il secondo indice della situazione finanziaria; quindi, si ha che

• la prima componente principale è un indicatore di redditività,


coerentemente col fatto che i component loadings più alti e di
segno positivo sono quelli relativi a ROE e ROA;
• la seconda componete principale è, invece, un indicatore
concorde di buona struttura ed efficienza finanziaria.
Dalla Figura 1 si evince che l’impresa Alfa si trova nel quadrante
dei valori negativi di PC 1 e PC 2, più bassa redditività e peggiore
situazione finanziaria; in confronto alle altre imprese si trova in una
posizione di relativa debolezza. 8
ACP per valutare il posizionamento dell’impresa

3
● U6

2 ● U4 U7

1

● U8
U12 U13


● U11
PC2

U9
0

● U5
● U3
● Alfa ● U2
−1

●U14
−2

●U10
−3

−3 −2 −1 0 1 2 3

PC1

Figura 1: Grafico delle unità rispetto alle componenti principali. 9


Analisi dei gruppi sugli indici di bilancio

Può anche essere interessante eseguire un algoritmo di raggruppa-


mento sugli stessi dati per individuare gruppi di imprese caratte-
rizzate da una situazione simile sulla base degli indici di bilancio
considerati.

Si sceglie di standardizzare le variabili e di condurre l’analisi uti-


lizzando la distanza euclidea come misura della dissimilarità tra le
unità. La procedura di Rcmdr per l’analisi gerarchica consente poi
di scegliere tra diversi metodi per calcolare la distanza tra i gruppi.

Di seguito si riporta l’output della procedura con legame medio (a)


-non si ottengono risultati molto diversi con il legame completo,
quello singolo invece fornisce risultati poco soddisfacenti- e con il
metodo di Ward (b).
10
Analisi dei gruppi sugli indici di bilancio

Cluster Dendrogram Cluster Dendrogram


3.5

5
3.0
2.5

4
2.0

3
Height

Height
1.5

2
1.0

1
0.5

0
U10

U11

U12

U2

U3

U4

U8

U14

Alfa

U5

U9

U13

U6

U7

U9

U13

U6

U7

U4

U8

U14

Alfa

U5

U10

U11

U12

U2

U3
Observation Number in Data Set Indici Observation Number in Data Set Indici
Method=average; Distance=euclidian Method=ward; Distance=euclidian

(a) (b)

11
Analisi dei gruppi sugli indici di bilancio

Dai dendrogrammi ottenuti una ripartizione in 6 gruppi è cosı̀ costi-


tuita:
gruppo 1: Alfa, U14 e U5
gruppo 2: U2 , U3 , U11 , U12
gruppo 3: U4 , U8
gruppo 4: U6 , U7
gruppo 5: U9 , U13
gruppo 6: U10

Questa soluzione dell’algoritmo di raggruppamento trova conferma


nei risultati dell’ACP, dove l’unità Alfa si posizionava vicina a U14
e U5 e l’impresa U10 si presentava molto diversa dalle altre.

12
Modelli di Automobili

Il data set Auto10var contiene, per 53 modelli di automobili alimen-


tate a benzina, le caratteristiche riportate nella tabella riguardanti il
tipo di motore, le dimensioni del veicolo, e le prestazioni.

Unità di misura etichetta


1 cilindri cilindri
2 cilindrata cm3 cilindrata
3 Potenza kW potenza
4 Lunghezza mm lung
5 Larghezza mm larg
6 Altezza mm alt
7 Peso kg peso
8 Vel. max km/h vel
9 Accelerazione (0-100km/h) s acc
10 Consumi misto l/100km con misto
13
Modelli di Automobili

L’obbiettivo dell’analisi è di suddividere i modelli in gruppi omogenei


rispetto alle caratteristiche considerate.
Si ottengono media e deviazione standard del data set in uso:
mean sd n
acc 10.109434 3.520995 53
alt 1499.377358 158.540850 53
cilindrata 2383.132075 1415.350718 53
cilindri 5.037736 2.139035 53
con_misto 8.783019 3.856500 53
larg 1799.169811 127.192425 53
lung 4306.943396 484.431920 53
peso 1443.603774 397.139451 53
potenza 143.356604 113.676605 53
vel 202.950943 52.986180 53

Le grandezze considerate presentano diverse unità di misura, diversi


ordini di grandezza; è dunque opportuno far precedere l’analisi di
raggruppamento dalla standardizzazione delle osservazioni 14
Modelli di Automobili

È ragionevole utilizzare la distanza euclidea. Consideriamo dapprima


il risultato di un algoritmo gerarchico di raggruppamento, che può
servire a suggerire il numero di gruppi.

Il dendrogramma, ottenuto utilizzando il metodo di Ward è riportato


in Figura 2, dove sono anche evidenziate le partizioni in 3 e 5 gruppi
implicate dal dendrogramma.
La partizione in 3 gruppi evidenzia chiaramente un gruppo
numeroso che comprende auto da città, utilitarie e monovolume
(ad esempio, Lancia Y e Fiat Doblò); un gruppo relativamente
numeroso di auto sportive, SUV e fuoristrada (Alfa Romeo,
Hammer e Porsche Cayenne) e un terzo gruppo poco numeroso di
auto di lusso.

15
Height

0 5 10 15 20

Lamborghini_Murcielago_L8640
Ferrari_430_scuderia
AstonMartin_Vanquish_
Maserati_Sport_GTS
Jaguar_XK_4.2v8
Bentley_Continental_Flying
RollsRoyce_Phantom_
Fiat_500_1.4
Lancia_Y_1.2
Lancia_Y_1.4
Fiat_600_
Toyota_Aygo_1.0
Modelli di Automobili

Fiat_500_1.2
Fiat_500_1.3
Chevrolet_Matiz_
Toyota_Yaris_
VW_Fox_1.2
VW_Golf_GTI
Fiat_Bravo_1.6v150
Seat_Altea_2.0
VW_Golf_1.4

metodo di Ward implementato in R.


Volvo_C30_
BMW_Z3_1.9
VW_Newbeetle_1.6
Volvo_V50_
Ford_Focus_1.6
Fiat_Bravo_1.4
Seat_Altea_1.6
Opel_Meriva_1.6−16v
Fiat_Bravo_1.9
Fiat_Doblò_1.2
Cluster Dendrogram

Fiat_Doblò_1.9
Method=ward; Distance=euclidian
Mercedes_A_1.6
Fiat_Multipla_1.616v
Observation Number in Data Set Auto10var

Fiat_Multipla_NatPower
AlfaRomeo_Spider_2.4
Volvo_S60_2.4
AlfaRomeo_GT_2.0
AlfaRomeo_Brera_2.2
BMW_320i_
Audi_A6_
Hyunday_Sonica_2.4−16v
BMW_Z3_2.2
BMW_Z3_3.0
BMW_630i_
Mercedes_C_3.0
Figura 2: Dendrogramma per i modelli di automobili, ottenuto con il

AlfaRomeo_Brera_3.2
Hummer_H3_
Toyota_Corolla_1.8VVT
Toyota_Rav4_2.0vvti
LandRover_Freelander_3.2
Porsche_Cayenne_
16

Volvo_S60_3.2awd
Modelli di Automobili

Raffinando la partizione e considerando 5 gruppi si nota che i due


gruppi più eterogenei vengono spezzati dando luogo ad una separa-
zione più netta tra utilitarie e monovolume nel primo cluster, e nel
secondo cluster tra auto sportive da una parte, SUV e fuoristrada
dall’altra.

Possiamo, a questo punto, condurre una analisi non gerarchica dei


dati. In Rcmdr la funzione KMeans implementa l’algoritmo delle
k-medie, riportando la dimensione dei gruppi, il vettore con i
gruppi (non riportato), i centroidi finali, le devianze di gruppo, la
devianza totale nei gruppi e la devianza tra i gruppi.

17
Modelli di Automobili

# Cluster Sizes
26, 8, 3, 4, 12

# Cluster Centroids

cilindri cilindrata potenza lung larg alt


1 4.153846 1863.500 105.76923 4333.577 1795.962 1500.231
2 5.875000 3201.500 189.37500 4593.500 1889.500 1572.625
3 8.000000 4249.333 296.46667 4785.000 1903.333 1315.333
4 11.000000 6294.500 444.25000 5104.250 1971.000 1391.000
5 3.666667 1193.083 55.54167 3672.917 1662.583 1530.833

peso vel acc con_misto


1 1416.962 192.7846 10.330769 7.561538
2 1785.250 220.8750 8.100000 10.650000
3 1608.333 280.0000 5.133333 14.766667
4 2127.500 303.2500 4.825000 18.300000
5 1004.417 160.3333 13.975000 5.516667

18
Modelli di Automobili

# Within Cluster Sum of Squares


4910746.9 333936.6 2207126.1 1989323.9 1827079.4

# Total Within Sum of Squares


11268213

# Between Cluster Sum of Squares


116271488

Otteniamo l’indice di validità globale Q come

devianza tra i gruppi


Q=
devianza totale
Ricordando che Dev. totale= dev. nei gruppi + dev. tra i gruppi,
si ha
116271488
Q= ⇡ 0.91
11268213 + 116271488 19
Modelli di Automobili

Composizione dei 5 gruppi determinati dall’algoritmo delle k-medie.


1 Fiat Multipla 1.616v Fiat Multipla NatPower AlfaRomeo Spider 2.4
AlfaRomeo GT 2.0 Ford Focus 1.6 Seat Altea 1.6
Seat Altea 2.0 Fiat Doblò 1.9 AlfaRomeo Brera 2.2
BMW Z3 1.9 BMW Z3 2.2 BMW 320i
Fiat Bravo 1.4 Fiat Bravo 1.9 Fiat Bravo 1.6v150
Audi A6 VW Golf 1.4 VW Golf GTI
VW Newbeetle 1.6 Hyunday Sonica 2.4-16v Toyota Corolla 1.8VVT
Toyota Rav4 2.0vvti Opel Meriva 1.6-16v Volvo V50
Volvo S60 2.4 Volvo C30
2 Mercedes C 3.0 AlfaRomeo Brera 3.2 LandRover Freelander 3.2
BMW Z3 3.0 BMW 630i Porsche Cayenne
Volvo S60 3.2awd Hummer H3
3 Ferrari 430 scuderia Maserati Sport GTS Jaguar XK 4.2v8
4 Lamborghini Murc. L8640 Bentley Continental Flying AstonMartin Vanquish
RollsRoyce Phantom
5 Fiat 500 1.2 Fiat 500 1.3 Fiat 500 1.4
Fiat 600 Mercedes A 1.6 Chevrolet Matiz
Toyota Yaris Fiat Doblò 1.2 VW Fox 1.2
Lancia Y 1.2 Lancia Y 1.4 20
Toyota Aygo 1.0
Modelli di Automobili

(a) (b)
n = 53 5 clusters Cj
j : nj | avei∈Cj si

Lamborghini_Murcielago_L8640
4 Ferrari_430_scuderia
2

BMW_Z3_3.0 Fiat_600_ 5
AstonMartin_Vanquish_ ●
1 : 26 | 0.42
● Fiat_500_1.4
1 Fiat_500_1.3
Chevrolet_Matiz_
Jaguar_XK_4.2v8● Volvo_C30_
● Lancia_Y_1.2
BMW_630i_ ● ●
● ●

Component 2

3 ● ●
VW_Fox_1.2
0

Hyunday_Sonica_2.4−16v
● ●● ●
● ● ● Toyota_Yaris_
Bentley_Continental_Flying Seat_Altea_1.6 ● ●

● 2 : 8 | 0.42

● Toyota_Corolla_1.8VVT
● ●

Porsche_Cayenne_ 3 : 3 | 0.56
−2


RollsRoyce_Phantom_
4 : 4 | 0.48
Volvo_S60_3.2awd

5 : 12 | 0.50
Hummer_H3_
−4

−8 −6 −4 −2 0 2 4 0.0 0.2 0.4 0.6 0.8 1.0


Silhouette width si
Component 1
These two components explain 84.59 % of the point variability. Average silhouette width : 0.45

Figura 3: Raggruppamento in 5 gruppi dei modelli di automobile


secondo l’algoritmo delle k-medie. (a) Grafico dei gruppi sul piano delle
prime due componenti principali (clusplot) e (b) grafico della silhouette. 21