Sei sulla pagina 1di 8

STATISTICA

AZIENDALE AVANZATA

MODULO A


Tutorato in Aula
A.A. 2017/18

Tutor: Daniele Toninelli
daniele.toninelli@unibg.it


Esercitazione n. 2

Martedì 13 Marzo 2018, ore 14,30‐16,00* (Gruppo MAFIB/IBFI)
Mercoledì 14 Marzo 2018, ore 9,00‐10,30* (Gruppo MAFIB/MLM + EADAP)

*N.B.: i tutorati avranno inizio esattamente all’orario indicato
(si raccomanda agli studenti la puntualità;
è indicato l’orario effettivo, al netto dei quarti d’ora accademici)

Menu del giorno



Starter

 Es. 1 – Coefficiente di Gower

Main course

 Es. 2 – Coefficienti di associazione e di Gower, algoritmo aggregativo gerarchico
(Tema d’esame / 29 Settembre 2011)

Side dish

 Es. 3 –Rappresentazione casi e centroidi

Dessert

 Es. 4 – Tema d’esame (6 Maggio 2011) – per la prossima volta…

Take away

 Es. 5 – Tema d’esame (6 Settembre 2011) – per casa…

Dressing

 Materiali addizionali ‐ 1 – Grafici (dati Esercizio 3)
 Materiali addizionali ‐ 2 – Formule utili (Coefficiente di Gower)

Statistica Aziendale Avanzata (Mod. A) – Tutorato in aula # 2


(Daniele Toninelli – A.A. 2017/18)
1
STARTERS


Esercizio 1 Coefficiente di Gower

Ancora la tabella dei dati riportata in Esercizio 2 del primo Tutorato… che esercizi monotoni (e
lunghi… non finiscono mai!). Cerca di combattere il senso di nausea che ti pervade, convinciti che la
strada più faticosa è la migliore per prepararsi all’esame ed usa la stessa tabella per esercitarti sul
coefficiente di Gower.
Nella tabella, sono riportate le stesse quattro unità familiari (che ormai dovresti conoscere come
fossero tuoi parenti) sulle quali erano state rilevate, tramite questionario, le variabili: “Età” media dei
componenti, “Reddito” mensile medio del capofamiglia, numero di “Componenti”, “Capoluogo” di
provincia di residenza, possesso di almeno un “Automezzo”.

Età Reddito Componenti Capoluogo Automezzi
Unità i 45,3 1.445 € 5 Napoli Sì
Unità j 27,0 1.341 € 1 Palermo No
Unità m 51,0 2.332 € 3 Lecce Sì
Unità l 37,2 1.815 € 2 Bèrghem Sì


Domande:
a) Su questa tabella ti sembra possibile calcolare il coefficiente di Gower? Se sì, quali vantaggi
comporta tale indicatore rispetto agli altri coefficienti di associazione visti a lezione? Se no,
quali misure alternative proporresti per valutare la somiglianza tra due unità familiari?
b) Sulla base del coefficiente di Gower, indica quali sono le due famiglie più simili, interpretando
il valore ottenuto per il loro confronto.
c) Costruisci la matrice delle distanze basata sui coefficienti di Gower calcolati al punto b)?
d) Dopo aver consultato un cartomante in merito al tuo futuro post‐laurea, scopri di essere
destinato a diventare un promotore finanziario: il tuo obiettivo sarà “piazzare” una serie di
fondi di investimento di tipo misto (obbligazionario ed azionario) destinati ai capofamiglia di
un gruppo di nuclei familiari. Se il tuo scopo è proporre due sole tipologie di prodotti finanziari
(per minimizzarne i costi di gestione), come agiresti per identificare al più due diversi gruppi?
Per quali famiglie “penseresti” tali prodotti?
e) Proponendo un opportuno sistema di ponderazione, calcola la versione ponderata del
coefficiente di Gower tra le due unità familiari più diverse e tra le due unità più simili (in base
ai risultati ottenuti al punto c)). Spiega qual è lo scopo del sistema di ponderazione che hai
proposto e descrivi cosa cambia nei risultati che si ottengono.

***

Statistica Aziendale Avanzata (Mod. A) – Tutorato in aula # 2


(Daniele Toninelli – A.A. 2017/18)
2
MAIN COURSE


Esercizio 2 Coefficienti di associazione e di Gower,
algoritmo aggregativo gerarchico / Tema d’Esame (29 Settembre 2011)

Ti stai documentando così tanto per scegliere la tua futura automobile, che ormai il mondo dei motori
per te non ha più segreti. Ti consulti con i tuoi zii, i quali ti consigliano di farti regalare una
Volkswagen: a loro sembra la più affidabile della marche, nonostante qualche “distorsione” nella
misurazione delle emissioni. Tu, prima di decidere se chiedere ai tuoi genitori una Golf o una Polo,
decidi di confrontare i due modelli che ha a disposizione il tuo concessionario di fiducia utilizzando i
dati che hai trovato sulle schede tecniche a disposizione dei clienti (riportati nella tabella seguente,
insieme ai dati della Fiesta, un altro modello che ti è sempre piaciuto).

MODELLO
Golf Polo Fiesta
Prezzo
(ricod.: 1 = “>15.000€”; 0 = ““≤ 15.000€”)
23.500 € n.d. 10.500 €
Consumi
(ricod.: 1 = “≥15 km/l”; 0 = “<15 km/l”)
13,9 km/litro 16,9 km/litro 16,1 km/litro
Velocità massima
(ricod.: 1 = “≥180 km/h”; 0 = “<180 km/h”)
220 km/h 152 km/h 163 km/h
Colore Non
(ricod.: 1 = “Metallizzato”; 0 = “Non met.”)
Metallizzato Metallizzato
metallizzato
Valutazione vecchia macchina
(ricod.: 1 = “> 2.000€”; 0 = “≤ 2.000€”)
1.700 € 1.000 € 1.800 €
Autoradio
(ricod.: 1 = “CD+MP3”; 0 = “Solo CD”)
CD + MP3 CD + MP3 CD + MP3
N. porte
(ricod.: 1 = “5 porte”; 0 = “3 porte”)
5 5 3

Domande:
a) Usando i valori delle variabili originarie (riportati in tabella), calcola il coefficiente di Gower
tra Golf e Polo. Come puoi interpretare il risultato ottenuto?
b) Costruisci la matrice delle distanze tra Polo, Fiesta, Golf e Corsa, basandoti sul coefficiente di
Gower calcolato al punto precedente, sapendo che: GGOLF,CORSA = 0,2873; GPOLO,CORSA = 0,4763;
GCORSA,FIESTA = 0,7104.
c) Utilizzando la matrice costruita al punto precedente, applica un algoritmo di aggregazione
gerarchica basato sul metodo di McQuitty (detto anche “metodo della media non ponderata”).
d) Rappresenta l’algoritmo gerarchico aggregativo mediante dendrogramma verticale e mediante
scree plot.
e) Come puoi interpretare i due grafici? Cosa ti suggeriscono, in merito al processo di
aggregazione? Le conclusioni che ottieni interpretando i due grafici sono coerenti?
f) Visto che, tra le auto considerate, la Golf ti pare la macchina più bella (con quello che costa…),
decidi che, tra Polo (la macchina suggerita dai tuoi zii) e Fiesta (un altro modello che ti piace
particolarmente), sceglierai il modello più simile alla Golf. Ricodificando le variabili come
indicato in tabella (prima colonna), calcola il coefficiente di Jaccard tra Golf e Fiesta. In base al
valore del coefficiente di Jaccard individuato, che auto scegli di farti regalare tra Polo e Fiesta?
Perché?
g) La conclusione a cui sei arrivato al punto precedente è coerente con quella che prenderesti
basandoti sul coefficiente di Gower? Decidi cosa fare confrontando i due metodi alternativi per
valutare la somiglianza tra i vari modelli di auto e scegliendo il criterio che ti sembra più
opportuno.
***
Statistica Aziendale Avanzata (Mod. A) – Tutorato in aula # 2
(Daniele Toninelli – A.A. 2017/18)
3
SIDE DISH


Esercizio 3 Rappresentazione casi e centroidi

Un questionario di customer satisfaction viene somministrato ad un gruppo rappresentativo (?) di 6
studenti che usufruiscono della mensa universitaria per valutarne la soddisfazione.
Il direttore della società che gestisce il servizio mensa decide di raggruppare il campione di sei
studenti/utenti utilizzando le due variabili seguenti: Z = “distanza dalla sede universitaria” (espressa
in minuti di automobile); Y = “età dello studente” (in anni compiuti).
I valori relativi ai sei studenti, rilevati tramite il questionario, sono riportati nella tabella seguente.

Studente Z Y
1 45’ 27
2 15’ 31
3 20’ 29
4 40’ 19
5 10’ 10
6 21’ 36

Domande:
a) Rappresenta, in un sistema di assi cartesiani di dimensioni opportune, i sei studenti.
b) Per promuovere con campagne pubblicitarie ad‐hoc i servizi della mensa, vuoi dividere il
campione in 3 gruppi. Osservando il grafico, come suddivideresti le 6 unità in tre gruppi?
c) Calcola, se possibile, il valore del centroide dei gruppi che hai suggerito al punto precedente e
rappresenta i centroidi ed i gruppi sul grafico costruito al punto a).
d) Calcola la distanza euclidea tra i centroidi dei tre gruppi (utilizzando i valori non
standardizzati) e costruisci la matrice delle distanze tra i tre gruppi basata su tale distanza. La
decisione di utilizzare valori non standardizzati ti sembra appropriata? Perché?
e) Il direttore del servizio mensa ti segnala che i gruppi che hai selezionato sono troppi: devi
ridurli a 2. Infatti non c’è budget sufficiente per gestire tre diverse campagne promozionali.
Osservando il grafico ottenuto al punto a), indica come procederesti basandoti sul metodo del
centroide. Motiva la tua decisione ed indica i gruppi finali ottenuti.

***

Statistica Aziendale Avanzata (Mod. A) – Tutorato in aula # 2


(Daniele Toninelli – A.A. 2017/18)
4
DESSERT


Esercizio 4 Tema d’Esame (6 Maggio 2011)

William & Kate sono in difficoltà: ad una settimana dal matrimonio non hanno ancora deciso dove
trascorrere il loro viaggio di nozze. Il problema è che la Regina ha donato ai novelli sposi un sacco di
titoli nobiliari, ma la mancetta settimanale per Will è rimasta la stessa. Per fortuna Carlo ha donato alla
coppia un voucher Ryanair!
Gli sposi, per andare sul risparmio, sono costretti a farsi ospitare in una delle residenze di alcuni ospiti
invitati al matrimonio. Kate, memore degli studi in Statistica Aziendale Avanzata, ai tempi
dell’Università, per decidere dove andare compila la seguente tabella, in cui si riportano alcune delle
variabili che caratterizzano le destinazioni proposte dagli ospiti agli sposi.

Appartamento Villa dei Chalet di Guy
Ufficio della Baita segreta
Regina di Carlo e
di Elton John Beckham Ritchie
(Parlamento di Camilla
(Giudecca, (Bervery Hills, (campagna
Ottawa, (Val di Scalve,
Venezia) California, US) Inglese)
Canada) Italy)
Distanza da Londra
(in ore di volo/auto)
3,5 15,0 2,1 8,5 3,8
Parchi/natura
(scala: min=1; max=10)
2 3 7 5 9
Attrazioni artistiche
(scala: min=1; max=10)
10 2 5 6 3
Shopping
(scala: min=1; max=10)
9 8 0 6 2
Casoncelli e polenta
(1=presente; 0=assente)
No No No No Oh, Yessss

Domande:
a) Con il budget a disposizione, Kate & Will devono restringere la scelta a solo due destinazioni.
Inoltre, per utilizzare il voucher regalato loro da Carlo, devono scegliere due mete tra quelle
raggiungibili con Ryanair. La scelta si riduce, quindi, alle seguenti destinazioni: l'appartamento
di Elton John (EJ), lo chalet di Guy Ritchie (GR), la baita di Carlo e Camilla (CC). Kate vorrebbe
evitare di scegliere due posti troppo simili, quindi, avendo buttato via gli appunti di Statistica
Aziendale Avanzata (ma perché???), ti chiede di aiutarla a calcolare la matrice delle distanze.
Calcola i coefficienti di Gower relativi alle tre destinazioni. Come sistema di ponderazione, usa
un peso pari a 0,5 per le variabili "Attrazioni artistiche" e "Shopping" e peso unitario per le
restanti variabili.
b) Costruisci la matrice delle distanze basata sui coefficienti di Gower calcolati al punto
precedente.
c) Quali sono le due destinazioni, tra le tre considerate, che Kate & Will dovrebbero visitare per
rendere la più varia possibile la propria vacanza? Perché?
d) Il principe Will vorrebbe utilizzare uno degli appartamenti di famiglia e ti chiede di calcolare la
distanza euclidea ponderata tra l’ufficio della Regina (R), a Ottawa, e la baita di Carlo e Camilla
(CC), in Val di Scalve. Gli fornisci il risultato (usando gli stessi pesi del punto a)).
e) Ti sembra necessario standardizzare le variabili, prima di procedere al calcolo richiesto al
punto precedente? Calcola la stessa distanza euclidea del punto precedente, ma utilizzando i
valori standardizzati delle variabili e confronta i due risultati.
f) Will cerca di confrontare i risultati ottenuti ai punti d) ed e) con gli indici di Gower calcolati al
punto a). Che gli dici?
g) Calcola un indice di Gower non ponderato tra l’appartamento di Elton e lo chalet di Guy,
assegnando peso 0 alle coassenze e confronta il risultato con ciò che hai ottenuto al punto a).

***
Statistica Aziendale Avanzata (Mod. A) – Tutorato in aula # 2
(Daniele Toninelli – A.A. 2017/18)
5
TAKE AWAY


Esercizio 5 Tema d’Esame (6 Settembre 2011)

Sei (eri) in spiaggia, hai finito di studiare Statistica Aziendale Avanzata e non sai più come trascorrere
il tempo. I tuoi vicini di ombrellone non ce la fanno più a sentirti ripetere quanto hai imparato sulle
meraviglie dei coefficienti di Gower, di associazione, e così via… e ti suggeriscono di comprare un libro
da leggere. Visto che non sai cosa scegliere, loro ti consigliano “La Spiaggia Infuocata” e “Il Socio”. A te
è piaciuto molto “Il Dio del Fiume”, quindi ti piacerebbe leggere un romanzo che sia molto simile a
quest’ultimo. Approfittando dell’aiuto dei tuoi vicini di ombrellone (che non vedono l’ora che la tua
vacanza finisca…) e dei loro smartphone (hai ancora un cellulare old style da 29€, oggetto in via di
estinzione) compili la seguente tabella con i dati riguardanti i tre romanzi.

ROMANZO
La Spiaggia
Il Dio del Fiume Il Socio
Infuocata
Autore
Wilbur Smith John Grisham Wilbur Smith
(ricod.: 1 = “W. Smith”; 0 = “Altro”)
Anno prima edizione
1993 1991 1985
(ricod.: 0 = “<1990”; 1 = “>=1990”)
Genere
Avventura Legal thriller Avventura
(ricod.: 1 = “Avventura”; 0 = “Altro”)
Ambientazione
Egitto Memphis Sudafrica
(ricod.: 1 = “USA/Europa”; 0 = “Africa”)
Edizione italiana
Longanesi Mondadori TEA
(ricod.: 1 = “Mondadori”; 0 = “Altri”)
Prezzo
15,68 € 7,00 € 6,86 €
(ricod.: 1 = “>10€”; 0 = “<=10€”)
N. pagine
600 448 437
(ricod.: 1 = “>300”; 0 = “<=300”)
Tempo di spedizione (massimo)
48h 24h 72h
(ricod.: 1 = “>48h”; 0 = “<=48h”)
Voto medio dei tuoi vicini
8,5 8,1 7,6
(ricod.: 1 = “>6”; 0 = “<=6”)
Fonte: www.ibis.it
Domande:
a) Utilizzando i valori originari delle variabili, riportati in tabella, calcola il coefficiente di Gower
tra “Il Dio del Fiume” e “Il Socio” assegnando peso 10 alle variabili “prezzo” e “voto medio”,
peso 6 al “tempo di spedizione” e peso 1 alle altre variabili.
b) Se il tuo scopo è leggere un libro che sia simile a “Il Dio del Fiume”, quale romanzo sceglieresti?
c) Costruisci la matrice delle distanze tra i tre romanzi basata sul coefficiente di Gower.
d) Partendo dalla matrice costruita al punto c), applica e rappresenta mediante dendrogramma e
scree plot un processo di aggregazione gerarchico basato sul metodo del legame completo.
e) Il tuo vicino di ombrellone sostiene che la formula di Gower è incomprensibile e ti consiglia di
usare la distanza euclidea non ponderata. Inoltre, per variare le tue letture, ti consiglia di
leggere un libro che sia il più possibile diverso da “Il Dio del Fiume”. Che romanzo sceglieresti
per seguire il consiglio del tuo vicino? Perché?
f) Secondo te è opportuno, per il calcolo della distanza euclidea del punto precedente, utilizzare
un sistema di ponderazione e/o trattare preliminarmente la variabili considerate? Perché?
g) Che risultati otterresti calcolando la stessa distanza del punto e) sui valori standardizzati?
h) Ricodificando le variabili come indicato in tabella, calcola il coefficiente semplice di
somiglianza tra i due romanzi di Wilbur Smith. Come interpreti il valore che hai trovato?
i) I risultati confermano le conclusioni del punto e) e g)?
***
Statistica Aziendale Avanzata (Mod. A) – Tutorato in aula # 2
(Daniele Toninelli – A.A. 2017/18)
6
DRESSING


Materiali addizionali ‐ 1 Grafici (dati Esercizio 3)

Distribuzione studenti
(distanza dalla sede / età studente)
40

35

30
Y (anni compiuti)

25

20

15

10

0
0 5 10 15 20 25 30 35 40 45 50
Z (minuti in auto)

Distribuzione studenti
Con gruppi (tratteggiati) e centroidi (cerchi)
40

35
C.1
30
Y (anni compiuti)

25
C.2
20

15

10 C.3

0
0 5 10 15 20 25 30 35 40 45 50
Z (minuti in auto)





Statistica Aziendale Avanzata (Mod. A) – Tutorato in aula # 2
(Daniele Toninelli – A.A. 2017/18)
7
Materiali addizionali ‐ 2 Formule utili

Coefficiente di Gower

Confronto tra l’unità i e l’unità j per p variabili (k = 1, 2, …, p)

o Indice di somiglianza (per ottenere un indice di dissomiglianza, basta calcolare il complemento a 1)
p

w s k ij ,k
Gij  k 1
p
(anche definito
G
sij ) in termini di distanza → G dij  1  Gij
w k 1
k

Dove:
→ sij ,k = 1 se si considera una variabile qualitativa nominale o ordinale e vi è
concomitanza di presenza (le unità i e j hanno la stessa modalità) *;
→ sij ,k = 0 se si considera una variabile qualitativa nominale o ordinale e le unità i e j
presentano modalità differenti;
xik  x jk
→ sij ,k  1  se si considera una variabile quantitativa (continua o discreta).
Rk
In questa ultima formula:
 xik e xjk sono i valori osservati, rispettivamente, sulle unità i e j per la
variabile k;
 Rk è il range della variabile k, calcolabile come segue:
Rk  max  x k   min  x k  ,
cioè come differenza tra massimo e minimo valore di una certa variabile k
osservati su tutte le unità del database (e non solo tra quelle oggetto del
confronto).

→ wk = peso per la variabile k (k = 1, 2, …, p);
 Il sistema di ponderazione permette di dare un peso differente alle variabili
considerate (tenendo conto, ad esempio, della differente importanza relativa
alla luce degli obiettivi della segmentazione)…
 … oppure permette di tenere conto del grado di correlazione tra una variabile k
e le altre (corrk). In quest’ultimo caso i pesi corrispondono a:
1
wk  …
corrk
 … oppure permette di escludere le coassenze, quando si usa la versione
alternativa dell’indice di Gower (*) ma non ha senso, per alcune variabili,
considerare le coassenze come indicatori di somiglianza tra due unità; oppure
non è possibile il confronto tra due unità (dato/i mancante/i); in tali casi:
wk  0 .

* Una versione alternativa del coefficiente di Gower considera anche le concomitanze di assenza come indice di
somiglianza tra due unità statistiche. In tal caso sij ,k = 1 anche nel caso vi sia coassenza (per una generica variabile
k). Se, tuttavia, per una certa variabile (o per un gruppo di variabili) NON ha senso considerare la coassenza come
misura di somiglianza, per tale variabile (supponiamo la variabile z) si usa un peso w z  0 (v. sistema di pesi).

Statistica Aziendale Avanzata (Mod. A) – Tutorato in aula # 2


(Daniele Toninelli – A.A. 2017/18)
8