T Laboratori or CMDR

Statistica per l’Impresa
a.a. 2016/2017
Tecniche di Analisi Multidimensionale

Laboratorio con Rcmdr
Roberta Pappadà
Trieste, 15 maggio 2017
Introduzione
Di seguito vengono presentati due esempi di applicazione delle pro-

cedure per l’analisi dei gruppi e delle componenti principali che uti-
lizzano i data set Indici e Auto10var, disponibili alla pagina web
del corso.
Le elaborazioni sono state e↵ettuate mediante il pacchetto Rcmdr
del software statistico R, di cui si riporta il risultato per le analisi
e↵ettuate.
1
ACP per valutare il posizionamento dell’impresa
Il data set Indici contiene i valori di quattro indici di bilancio

relativi alla redditività e alla situazione finanziaria per 14 imprese.
Precisamente, gli indici rilevati sono i seguenti:
• CR = current ratio
• ROA = return on assets
• ROD = return on debt
• ROE = return on equity
La prima riga del dataset contiene i valori degli indici per l’impre-
sa Alfa, di cui si intende valutare la posizione rispetto alle società
concorrenti sulla base dei dati a disposizione.
2
L’output seguente riporta la media, la deviazione standard e il

numero di osservazioni per ciascuna variabile:
mean sd n
CR 1.269 0.722 14
ROA 0.134 0.066 14
ROD 0.042 0.042 14
ROE 0.199 0.136 14
Si decide di condurre l’ACP partendo dalla matrice di correlazione

tra gli indici, dalla quale si evince che alcuni di essi presentano una
correlazione piuttosto elevata (ad esempio, ROE e ROA):
CR ROA ROD ROE
CR 1.000 0.085 -0.516 -0.146
ROA 0.085 1.000 0.062 0.687
ROD -0.516 0.062 1.000 -0.216
ROE -0.146 0.687 -0.216 1.000
3
La procedura di Rcmdr per l’ACP restituisce il seguente output:
Component loadings:
Comp.1 Comp.2 Comp.3 Comp.4
CR 0.1036369 0.7018916 -0.5766116 0.4051255
ROA 0.6699025 -0.1766218 -0.4755063 -0.5421523
ROD -0.2293820 -0.6722830 -0.5598446 0.4266069
ROE 0.6984797 -0.1555266 0.3577525 0.5999590
Component variances:
1.7079168 1.5051959 0.6591417 0.1277455
Importance of components:
Standard deviation 1.3068729 1.2268643 0.8118755 0.35741507
Proportion of Variance 0.4269792 0.3762990 0.1647854 0.03193638
Cumulative Proportion 0.4269792 0.8032782 0.9680636 1.00000000
4
• La prima tabella corrisponde alla la matrice (4 ⇥ 4) V, le cui

colonne sono gli autovettori (loadings) v1 , v2 , v3 , v4 ; gli
elementi di tali vettori sono i coefficienti della combinazione
lineare che definisce ciascuna componente principale in
funzione degli scostamenti standardizzati zij delle 4 variabili.
La prima e la seconda CP (Comp.1 e Comp.2) sono date da
yi1 = 0.104zi1 + 0.670zi2 0.229zi3 + 0.698zi4

yi2 = 0.702zi2 0.177zi2 0.672zi3 0.156zi4
Queste espressioni consentono il calcolo, per ciascuna i-esima

unità, dei punteggi (scores) per la prima e per la seconda CP.
5
• Le varianze delle componenti principali sono uguali agli auto-

valori delle CP, che sono determinate in ordine decrescente ri-
spetto alla varianza; si noti che, operando su variabili standar-
dizzate, la somma degli autovalori è pari a 4, cioè alla varianza
totale data dal numero delle variabili.
• Dalla terza tabella si desume che la varianza totale spiegata
dalla prima componente è pari al 42.7% della varianza totale,
mentre la quota spiegata dalla seconda componente è circa il
37.63%. Si può ritenere che le prime due componenti principali
riassumano in maniera soddisfacente il data set originario con 4
variabili, spiegando una percentuale cumulata di varianza pari
a circa l’80.33%. Alla stessa conclusione si perviene seguendo
la regola della varianza media, poiché le prime due CP hanno
varianza maggiore di 1. 6
Vengono poi calcolati i coefficienti di correlazione tra le CP estratte

e ognuna delle variabili, riportati nella seguente tabella:
CP 1 CP 2
CR 0.135 0.861
ROA 0.876 -0.217
ROD -0.300 -0.825
ROE 0.913 -0.191
Tabella 1: Correlazioni tra CP e variabili
• la quota di varianza della variabile current ratio spiegata dalla

prima e seconda CP è data da 0.1352 + 0.8612 = 0.76;
• la varianza della prima componente principale si ottiene come
2 2 2 2
1 = 0.135 + 0.876 + ( 0.300) + 0.913 ⇡ 1.71
7
Il segno positivo e il valore elevato della correlazione tra la prima CP

e ROA, ROE indica una forte relazione lineare tra la prima CP e i due
indici relativi alla redditività; la seconda componente risulta correlata
positivamente e in misura maggiore con CR e negativamente con
ROD, il secondo indice della situazione finanziaria; quindi, si ha che
• la prima componente principale è un indicatore di redditività,

coerentemente col fatto che i component loadings più alti e di
segno positivo sono quelli relativi a ROE e ROA;
• la seconda componete principale è, invece, un indicatore
concorde di buona struttura ed efficienza finanziaria.
Dalla Figura 1 si evince che l’impresa Alfa si trova nel quadrante
dei valori negativi di PC 1 e PC 2, più bassa redditività e peggiore
situazione finanziaria; in confronto alle altre imprese si trova in una
posizione di relativa debolezza. 8
3
● U6
2 ● U4 U7
●
1
● U8
U12 U13
●
●
● U11
PC2
U9
0
● U5
● U3
● Alfa ● U2
−1
●U14
−2
●U10
−3
−3 −2 −1 0 1 2 3
PC1
Figura 1: Grafico delle unità rispetto alle componenti principali. 9

Analisi dei gruppi sugli indici di bilancio
Può anche essere interessante eseguire un algoritmo di raggruppa-

mento sugli stessi dati per individuare gruppi di imprese caratte-
rizzate da una situazione simile sulla base degli indici di bilancio
considerati.
Si sceglie di standardizzare le variabili e di condurre l’analisi uti-

lizzando la distanza euclidea come misura della dissimilarità tra le
unità. La procedura di Rcmdr per l’analisi gerarchica consente poi
di scegliere tra diversi metodi per calcolare la distanza tra i gruppi.
Di seguito si riporta l’output della procedura con legame medio (a)

-non si ottengono risultati molto diversi con il legame completo,
quello singolo invece fornisce risultati poco soddisfacenti- e con il
metodo di Ward (b).
10
Cluster Dendrogram Cluster Dendrogram

3.5
5
3.0
2.5
4
2.0
3
Height
Height
1.5
2
1.0
1
0.5
0
U10
U11
U12
U2
U3
U4
U8
U14
Alfa
U5
U9
U13
U6
U7
U9
U13
U6
U7
U4
U8
U14
Alfa
U5
U10
U11
U12
U2
U3
Observation Number in Data Set Indici Observation Number in Data Set Indici
Method=average; Distance=euclidian Method=ward; Distance=euclidian
(a) (b)
11
Dai dendrogrammi ottenuti una ripartizione in 6 gruppi è cosı̀ costi-

tuita:
gruppo 1: Alfa, U14 e U5
gruppo 2: U2 , U3 , U11 , U12
gruppo 3: U4 , U8
gruppo 4: U6 , U7
gruppo 5: U9 , U13
gruppo 6: U10
Questa soluzione dell’algoritmo di raggruppamento trova conferma

nei risultati dell’ACP, dove l’unità Alfa si posizionava vicina a U14
e U5 e l’impresa U10 si presentava molto diversa dalle altre.
12
Modelli di Automobili
Il data set Auto10var contiene, per 53 modelli di automobili alimen-

tate a benzina, le caratteristiche riportate nella tabella riguardanti il
tipo di motore, le dimensioni del veicolo, e le prestazioni.
Unità di misura etichetta

1 cilindri cilindri
2 cilindrata cm3 cilindrata
3 Potenza kW potenza
4 Lunghezza mm lung
5 Larghezza mm larg
6 Altezza mm alt
7 Peso kg peso
8 Vel. max km/h vel
9 Accelerazione (0-100km/h) s acc
10 Consumi misto l/100km con misto
13
L’obbiettivo dell’analisi è di suddividere i modelli in gruppi omogenei

rispetto alle caratteristiche considerate.
Si ottengono media e deviazione standard del data set in uso:
mean sd n
acc 10.109434 3.520995 53
alt 1499.377358 158.540850 53
cilindrata 2383.132075 1415.350718 53
cilindri 5.037736 2.139035 53
con_misto 8.783019 3.856500 53
larg 1799.169811 127.192425 53
lung 4306.943396 484.431920 53
peso 1443.603774 397.139451 53
potenza 143.356604 113.676605 53
vel 202.950943 52.986180 53
Le grandezze considerate presentano diverse unità di misura, diversi

ordini di grandezza; è dunque opportuno far precedere l’analisi di
raggruppamento dalla standardizzazione delle osservazioni 14
È ragionevole utilizzare la distanza euclidea. Consideriamo dapprima

il risultato di un algoritmo gerarchico di raggruppamento, che può
servire a suggerire il numero di gruppi.
Il dendrogramma, ottenuto utilizzando il metodo di Ward è riportato

in Figura 2, dove sono anche evidenziate le partizioni in 3 e 5 gruppi
implicate dal dendrogramma.
La partizione in 3 gruppi evidenzia chiaramente un gruppo
numeroso che comprende auto da città, utilitarie e monovolume
(ad esempio, Lancia Y e Fiat Doblò); un gruppo relativamente
numeroso di auto sportive, SUV e fuoristrada (Alfa Romeo,
Hammer e Porsche Cayenne) e un terzo gruppo poco numeroso di
auto di lusso.
15
Height
0 5 10 15 20
Lamborghini_Murcielago_L8640
Ferrari_430_scuderia
AstonMartin_Vanquish_
Maserati_Sport_GTS
Jaguar_XK_4.2v8
Bentley_Continental_Flying
RollsRoyce_Phantom_
Fiat_500_1.4
Lancia_Y_1.2
Lancia_Y_1.4
Fiat_600_
Toyota_Aygo_1.0
Fiat_500_1.2
Fiat_500_1.3
Chevrolet_Matiz_
Toyota_Yaris_
VW_Fox_1.2
VW_Golf_GTI
Fiat_Bravo_1.6v150
Seat_Altea_2.0
VW_Golf_1.4
metodo di Ward implementato in R.

Volvo_C30_
BMW_Z3_1.9
VW_Newbeetle_1.6
Volvo_V50_
Ford_Focus_1.6
Fiat_Bravo_1.4
Seat_Altea_1.6
Opel_Meriva_1.6−16v
Fiat_Bravo_1.9
Fiat_Doblò_1.2
Cluster Dendrogram
Fiat_Doblò_1.9
Method=ward; Distance=euclidian
Mercedes_A_1.6
Fiat_Multipla_1.616v
Observation Number in Data Set Auto10var
Fiat_Multipla_NatPower
AlfaRomeo_Spider_2.4
Volvo_S60_2.4
AlfaRomeo_GT_2.0
AlfaRomeo_Brera_2.2
BMW_320i_
Audi_A6_
Hyunday_Sonica_2.4−16v
BMW_Z3_2.2
BMW_Z3_3.0
BMW_630i_
Mercedes_C_3.0
Figura 2: Dendrogramma per i modelli di automobili, ottenuto con il
AlfaRomeo_Brera_3.2
Hummer_H3_
Toyota_Corolla_1.8VVT
Toyota_Rav4_2.0vvti
LandRover_Freelander_3.2
Porsche_Cayenne_
16
Volvo_S60_3.2awd
Raffinando la partizione e considerando 5 gruppi si nota che i due

gruppi più eterogenei vengono spezzati dando luogo ad una separa-
zione più netta tra utilitarie e monovolume nel primo cluster, e nel
secondo cluster tra auto sportive da una parte, SUV e fuoristrada
dall’altra.
Possiamo, a questo punto, condurre una analisi non gerarchica dei

dati. In Rcmdr la funzione KMeans implementa l’algoritmo delle
k-medie, riportando la dimensione dei gruppi, il vettore con i
gruppi (non riportato), i centroidi finali, le devianze di gruppo, la
devianza totale nei gruppi e la devianza tra i gruppi.
17
# Cluster Sizes
26, 8, 3, 4, 12
# Cluster Centroids
cilindri cilindrata potenza lung larg alt

1 4.153846 1863.500 105.76923 4333.577 1795.962 1500.231
2 5.875000 3201.500 189.37500 4593.500 1889.500 1572.625
3 8.000000 4249.333 296.46667 4785.000 1903.333 1315.333
4 11.000000 6294.500 444.25000 5104.250 1971.000 1391.000
5 3.666667 1193.083 55.54167 3672.917 1662.583 1530.833
peso vel acc con_misto

1 1416.962 192.7846 10.330769 7.561538
2 1785.250 220.8750 8.100000 10.650000
3 1608.333 280.0000 5.133333 14.766667
4 2127.500 303.2500 4.825000 18.300000
5 1004.417 160.3333 13.975000 5.516667
18
# Within Cluster Sum of Squares

4910746.9 333936.6 2207126.1 1989323.9 1827079.4
# Total Within Sum of Squares

11268213
# Between Cluster Sum of Squares

116271488
Otteniamo l’indice di validità globale Q come
devianza tra i gruppi

Q=
devianza totale
Ricordando che Dev. totale= dev. nei gruppi + dev. tra i gruppi,
si ha
116271488
Q= ⇡ 0.91
11268213 + 116271488 19
Composizione dei 5 gruppi determinati dall’algoritmo delle k-medie.

1 Fiat Multipla 1.616v Fiat Multipla NatPower AlfaRomeo Spider 2.4
AlfaRomeo GT 2.0 Ford Focus 1.6 Seat Altea 1.6
Seat Altea 2.0 Fiat Doblò 1.9 AlfaRomeo Brera 2.2
BMW Z3 1.9 BMW Z3 2.2 BMW 320i
Fiat Bravo 1.4 Fiat Bravo 1.9 Fiat Bravo 1.6v150
Audi A6 VW Golf 1.4 VW Golf GTI
VW Newbeetle 1.6 Hyunday Sonica 2.4-16v Toyota Corolla 1.8VVT
Toyota Rav4 2.0vvti Opel Meriva 1.6-16v Volvo V50
Volvo S60 2.4 Volvo C30
2 Mercedes C 3.0 AlfaRomeo Brera 3.2 LandRover Freelander 3.2
BMW Z3 3.0 BMW 630i Porsche Cayenne
Volvo S60 3.2awd Hummer H3
3 Ferrari 430 scuderia Maserati Sport GTS Jaguar XK 4.2v8
4 Lamborghini Murc. L8640 Bentley Continental Flying AstonMartin Vanquish
RollsRoyce Phantom
5 Fiat 500 1.2 Fiat 500 1.3 Fiat 500 1.4
Fiat 600 Mercedes A 1.6 Chevrolet Matiz
Toyota Yaris Fiat Doblò 1.2 VW Fox 1.2
Lancia Y 1.2 Lancia Y 1.4 20
Toyota Aygo 1.0
(a) (b)
n = 53 5 clusters Cj
j : nj | avei∈Cj si
Lamborghini_Murcielago_L8640
4 Ferrari_430_scuderia
2
BMW_Z3_3.0 Fiat_600_ 5
AstonMartin_Vanquish_ ●
1 : 26 | 0.42
● Fiat_500_1.4
1 Fiat_500_1.3
Chevrolet_Matiz_
Jaguar_XK_4.2v8● Volvo_C30_
● Lancia_Y_1.2
BMW_630i_ ● ●
● ●
●
Component 2
3 ● ●
VW_Fox_1.2
0
Hyunday_Sonica_2.4−16v
● ●● ●
● ● ● Toyota_Yaris_
Bentley_Continental_Flying Seat_Altea_1.6 ● ●
● 2 : 8 | 0.42
●
● Toyota_Corolla_1.8VVT
● ●
Porsche_Cayenne_ 3 : 3 | 0.56
−2
●
RollsRoyce_Phantom_
4 : 4 | 0.48
Volvo_S60_3.2awd
5 : 12 | 0.50
Hummer_H3_
−4
−8 −6 −4 −2 0 2 4 0.0 0.2 0.4 0.6 0.8 1.0

Silhouette width si
Component 1
These two components explain 84.59 % of the point variability. Average silhouette width : 0.45
Figura 3: Raggruppamento in 5 gruppi dei modelli di automobile

secondo l’algoritmo delle k-medie. (a) Grafico dei gruppi sul piano delle
prime due componenti principali (clusplot) e (b) grafico della silhouette. 21

T Laboratori or CMDR

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

T Laboratori or CMDR

Caricato da

Copyright:

Formati disponibili

Statistica per l’Impresa

Tecniche di Analisi Multidimensionale

Di seguito vengono presentati due esempi di applicazione delle pro-

Il data set Indici contiene i valori di quattro indici di bilancio

L’output seguente riporta la media, la deviazione standard e il

Si decide di condurre l’ACP partendo dalla matrice di correlazione

La procedura di Rcmdr per l’ACP restituisce il seguente output:

• La prima tabella corrisponde alla la matrice (4 ⇥ 4) V, le cui

yi1 = 0.104zi1 + 0.670zi2 0.229zi3 + 0.698zi4

Queste espressioni consentono il calcolo, per ciascuna i-esima

• Le varianze delle componenti principali sono uguali agli auto-

Vengono poi calcolati i coefficienti di correlazione tra le CP estratte

• la quota di varianza della variabile current ratio spiegata dalla

Il segno positivo e il valore elevato della correlazione tra la prima CP

• la prima componente principale è un indicatore di redditività,

Figura 1: Grafico delle unità rispetto alle componenti principali. 9

Può anche essere interessante eseguire un algoritmo di raggruppa-

Si sceglie di standardizzare le variabili e di condurre l’analisi uti-

Di seguito si riporta l’output della procedura con legame medio (a)

Cluster Dendrogram Cluster Dendrogram

Dai dendrogrammi ottenuti una ripartizione in 6 gruppi è cosı̀ costi-

Questa soluzione dell’algoritmo di raggruppamento trova conferma

Il data set Auto10var contiene, per 53 modelli di automobili alimen-

Unità di misura etichetta

L’obbiettivo dell’analisi è di suddividere i modelli in gruppi omogenei

Le grandezze considerate presentano diverse unità di misura, diversi

È ragionevole utilizzare la distanza euclidea. Consideriamo dapprima

Il dendrogramma, ottenuto utilizzando il metodo di Ward è riportato

metodo di Ward implementato in R.

Raffinando la partizione e considerando 5 gruppi si nota che i due

Possiamo, a questo punto, condurre una analisi non gerarchica dei

cilindri cilindrata potenza lung larg alt

peso vel acc con_misto

# Within Cluster Sum of Squares

# Total Within Sum of Squares

# Between Cluster Sum of Squares

Otteniamo l’indice di validità globale Q come

devianza tra i gruppi

Composizione dei 5 gruppi determinati dall’algoritmo delle k-medie.

−8 −6 −4 −2 0 2 4 0.0 0.2 0.4 0.6 0.8 1.0

Figura 3: Raggruppamento in 5 gruppi dei modelli di automobile

Potrebbero piacerti anche