Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
AZIENDALE AVANZATA
MODULO A
Tutorato in Aula
A.A. 2017/18
Tutor: Daniele Toninelli
daniele.toninelli@unibg.it
Esercitazione n. 2
Martedì 13 Marzo 2018, ore 14,30‐16,00* (Gruppo MAFIB/IBFI)
Mercoledì 14 Marzo 2018, ore 9,00‐10,30* (Gruppo MAFIB/MLM + EADAP)
*N.B.: i tutorati avranno inizio esattamente all’orario indicato
(si raccomanda agli studenti la puntualità;
è indicato l’orario effettivo, al netto dei quarti d’ora accademici)
Domande:
a) Con il budget a disposizione, Kate & Will devono restringere la scelta a solo due destinazioni.
Inoltre, per utilizzare il voucher regalato loro da Carlo, devono scegliere due mete tra quelle
raggiungibili con Ryanair. La scelta si riduce, quindi, alle seguenti destinazioni: l'appartamento
di Elton John (EJ), lo chalet di Guy Ritchie (GR), la baita di Carlo e Camilla (CC). Kate vorrebbe
evitare di scegliere due posti troppo simili, quindi, avendo buttato via gli appunti di Statistica
Aziendale Avanzata (ma perché???), ti chiede di aiutarla a calcolare la matrice delle distanze.
Calcola i coefficienti di Gower relativi alle tre destinazioni. Come sistema di ponderazione, usa
un peso pari a 0,5 per le variabili "Attrazioni artistiche" e "Shopping" e peso unitario per le
restanti variabili.
b) Costruisci la matrice delle distanze basata sui coefficienti di Gower calcolati al punto
precedente.
c) Quali sono le due destinazioni, tra le tre considerate, che Kate & Will dovrebbero visitare per
rendere la più varia possibile la propria vacanza? Perché?
d) Il principe Will vorrebbe utilizzare uno degli appartamenti di famiglia e ti chiede di calcolare la
distanza euclidea ponderata tra l’ufficio della Regina (R), a Ottawa, e la baita di Carlo e Camilla
(CC), in Val di Scalve. Gli fornisci il risultato (usando gli stessi pesi del punto a)).
e) Ti sembra necessario standardizzare le variabili, prima di procedere al calcolo richiesto al
punto precedente? Calcola la stessa distanza euclidea del punto precedente, ma utilizzando i
valori standardizzati delle variabili e confronta i due risultati.
f) Will cerca di confrontare i risultati ottenuti ai punti d) ed e) con gli indici di Gower calcolati al
punto a). Che gli dici?
g) Calcola un indice di Gower non ponderato tra l’appartamento di Elton e lo chalet di Guy,
assegnando peso 0 alle coassenze e confronta il risultato con ciò che hai ottenuto al punto a).
***
Statistica Aziendale Avanzata (Mod. A) – Tutorato in aula # 2
(Daniele Toninelli – A.A. 2017/18)
5
TAKE AWAY
Esercizio 5 Tema d’Esame (6 Settembre 2011)
Sei (eri) in spiaggia, hai finito di studiare Statistica Aziendale Avanzata e non sai più come trascorrere
il tempo. I tuoi vicini di ombrellone non ce la fanno più a sentirti ripetere quanto hai imparato sulle
meraviglie dei coefficienti di Gower, di associazione, e così via… e ti suggeriscono di comprare un libro
da leggere. Visto che non sai cosa scegliere, loro ti consigliano “La Spiaggia Infuocata” e “Il Socio”. A te
è piaciuto molto “Il Dio del Fiume”, quindi ti piacerebbe leggere un romanzo che sia molto simile a
quest’ultimo. Approfittando dell’aiuto dei tuoi vicini di ombrellone (che non vedono l’ora che la tua
vacanza finisca…) e dei loro smartphone (hai ancora un cellulare old style da 29€, oggetto in via di
estinzione) compili la seguente tabella con i dati riguardanti i tre romanzi.
ROMANZO
La Spiaggia
Il Dio del Fiume Il Socio
Infuocata
Autore
Wilbur Smith John Grisham Wilbur Smith
(ricod.: 1 = “W. Smith”; 0 = “Altro”)
Anno prima edizione
1993 1991 1985
(ricod.: 0 = “<1990”; 1 = “>=1990”)
Genere
Avventura Legal thriller Avventura
(ricod.: 1 = “Avventura”; 0 = “Altro”)
Ambientazione
Egitto Memphis Sudafrica
(ricod.: 1 = “USA/Europa”; 0 = “Africa”)
Edizione italiana
Longanesi Mondadori TEA
(ricod.: 1 = “Mondadori”; 0 = “Altri”)
Prezzo
15,68 € 7,00 € 6,86 €
(ricod.: 1 = “>10€”; 0 = “<=10€”)
N. pagine
600 448 437
(ricod.: 1 = “>300”; 0 = “<=300”)
Tempo di spedizione (massimo)
48h 24h 72h
(ricod.: 1 = “>48h”; 0 = “<=48h”)
Voto medio dei tuoi vicini
8,5 8,1 7,6
(ricod.: 1 = “>6”; 0 = “<=6”)
Fonte: www.ibis.it
Domande:
a) Utilizzando i valori originari delle variabili, riportati in tabella, calcola il coefficiente di Gower
tra “Il Dio del Fiume” e “Il Socio” assegnando peso 10 alle variabili “prezzo” e “voto medio”,
peso 6 al “tempo di spedizione” e peso 1 alle altre variabili.
b) Se il tuo scopo è leggere un libro che sia simile a “Il Dio del Fiume”, quale romanzo sceglieresti?
c) Costruisci la matrice delle distanze tra i tre romanzi basata sul coefficiente di Gower.
d) Partendo dalla matrice costruita al punto c), applica e rappresenta mediante dendrogramma e
scree plot un processo di aggregazione gerarchico basato sul metodo del legame completo.
e) Il tuo vicino di ombrellone sostiene che la formula di Gower è incomprensibile e ti consiglia di
usare la distanza euclidea non ponderata. Inoltre, per variare le tue letture, ti consiglia di
leggere un libro che sia il più possibile diverso da “Il Dio del Fiume”. Che romanzo sceglieresti
per seguire il consiglio del tuo vicino? Perché?
f) Secondo te è opportuno, per il calcolo della distanza euclidea del punto precedente, utilizzare
un sistema di ponderazione e/o trattare preliminarmente la variabili considerate? Perché?
g) Che risultati otterresti calcolando la stessa distanza del punto e) sui valori standardizzati?
h) Ricodificando le variabili come indicato in tabella, calcola il coefficiente semplice di
somiglianza tra i due romanzi di Wilbur Smith. Come interpreti il valore che hai trovato?
i) I risultati confermano le conclusioni del punto e) e g)?
***
Statistica Aziendale Avanzata (Mod. A) – Tutorato in aula # 2
(Daniele Toninelli – A.A. 2017/18)
6
DRESSING
Materiali addizionali ‐ 1 Grafici (dati Esercizio 3)
Distribuzione studenti
(distanza dalla sede / età studente)
40
35
30
Y (anni compiuti)
25
20
15
10
0
0 5 10 15 20 25 30 35 40 45 50
Z (minuti in auto)
Distribuzione studenti
Con gruppi (tratteggiati) e centroidi (cerchi)
40
35
C.1
30
Y (anni compiuti)
25
C.2
20
15
10 C.3
0
0 5 10 15 20 25 30 35 40 45 50
Z (minuti in auto)
Statistica Aziendale Avanzata (Mod. A) – Tutorato in aula # 2
(Daniele Toninelli – A.A. 2017/18)
7
Materiali addizionali ‐ 2 Formule utili
Coefficiente di Gower
Confronto tra l’unità i e l’unità j per p variabili (k = 1, 2, …, p)
o Indice di somiglianza (per ottenere un indice di dissomiglianza, basta calcolare il complemento a 1)
p
w s k ij ,k
Gij k 1
p
(anche definito
G
sij ) in termini di distanza → G dij 1 Gij
w k 1
k
Dove:
→ sij ,k = 1 se si considera una variabile qualitativa nominale o ordinale e vi è
concomitanza di presenza (le unità i e j hanno la stessa modalità) *;
→ sij ,k = 0 se si considera una variabile qualitativa nominale o ordinale e le unità i e j
presentano modalità differenti;
xik x jk
→ sij ,k 1 se si considera una variabile quantitativa (continua o discreta).
Rk
In questa ultima formula:
xik e xjk sono i valori osservati, rispettivamente, sulle unità i e j per la
variabile k;
Rk è il range della variabile k, calcolabile come segue:
Rk max x k min x k ,
cioè come differenza tra massimo e minimo valore di una certa variabile k
osservati su tutte le unità del database (e non solo tra quelle oggetto del
confronto).
→ wk = peso per la variabile k (k = 1, 2, …, p);
Il sistema di ponderazione permette di dare un peso differente alle variabili
considerate (tenendo conto, ad esempio, della differente importanza relativa
alla luce degli obiettivi della segmentazione)…
… oppure permette di tenere conto del grado di correlazione tra una variabile k
e le altre (corrk). In quest’ultimo caso i pesi corrispondono a:
1
wk …
corrk
… oppure permette di escludere le coassenze, quando si usa la versione
alternativa dell’indice di Gower (*) ma non ha senso, per alcune variabili,
considerare le coassenze come indicatori di somiglianza tra due unità; oppure
non è possibile il confronto tra due unità (dato/i mancante/i); in tali casi:
wk 0 .
* Una versione alternativa del coefficiente di Gower considera anche le concomitanze di assenza come indice di
somiglianza tra due unità statistiche. In tal caso sij ,k = 1 anche nel caso vi sia coassenza (per una generica variabile
k). Se, tuttavia, per una certa variabile (o per un gruppo di variabili) NON ha senso considerare la coassenza come
misura di somiglianza, per tale variabile (supponiamo la variabile z) si usa un peso w z 0 (v. sistema di pesi).