caterina.may@uniupo.it
a.a. 2021-2022
Si ringrazia vivamente Alberto Cardani per il contributo alla redazione della
presente dispensa.
2
"L’intelligenza puó essere guidata solo dal desiderio. La gioia
di apprendere è indispensabile agli studi come la respirazione ai
corridori."
Simon Weil
3
4
Indice
1 Concetti base 11
1.1 Introduzione: cos’è la statistica? . . . . . . . . . . . . . . . . . 11
1.2 Progettare un’indagine: piano di rilevazione . . . . . . . . . . 12
1.3 Terminologia: definizioni fondamentali . . . . . . . . . . . . . 12
1.3.1 Classificazione delle variabili . . . . . . . . . . . . . . . 14
1.3.2 Scale di misura . . . . . . . . . . . . . . . . . . . . . . 15
5
4 Misure di sintesi: indicatori di posizione 43
4.1 Introduzione: indicatori di una variabile . . . . . . . . . . . . 43
4.2 Valori medi . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.2.1 Valore centrale . . . . . . . . . . . . . . . . . . . . . . 44
4.2.2 Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.3 Mediana e quartili . . . . . . . . . . . . . . . . . . . . . . . . 45
4.3.1 Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.3.2 Quartili . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.3.3 Quesiti . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.3.4 Box-plot . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.4 Media aritmetica . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.4.1 Media aritmetica per variabili con dati in classi . . . . 53
4.4.2 Considerazioni pratiche sulla media . . . . . . . . . . . 54
4.4.3 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.5 Media geometrica . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.6 Approfondimenti . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.7 Homeworks . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
7 Studio dell’eterogeneità 89
7.1 Indice di eterogeneità di Gini . . . . . . . . . . . . . . . . . . 90
7.2 Indice di entropia di Shannon . . . . . . . . . . . . . . . . . . 92
7.3 Homeworks . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
6
8 Variabili doppie e distribuzioni congiunte 97
8.1 Variabili doppie . . . . . . . . . . . . . . . . . . . . . . . . . . 97
8.2 Distribuzioni congiunte . . . . . . . . . . . . . . . . . . . . . . 98
8.3 Grafici per variabili doppie . . . . . . . . . . . . . . . . . . . . 100
8.4 Studio dei profili . . . . . . . . . . . . . . . . . . . . . . . . . 102
8.5 Homeworks . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
Concetti base
11
2. Sintetizzare tali dati in forma chiara e comprensibile con dati riassun-
tivi;
12
per questo si dice anche variabile) da individuo a individuo 2 . Diamo alcune
definizioni fondamentali:
Esempio 1.4: Studio dei flussi turistici giornalieri in una data località, quali
sono le unità statistiche?
Le unità statistiche (ovvero cio su cui varia il fenomeno considerato) sono le
giornate, quindi la popolazione è formata dall’insieme dei giorni considerati.
2
quando il fenomeno considerato riguarda una sola variabile si parla di statistica
univariata; se si considerano due o piu variabili si parla di statistica bivariata o multivariata
13
Carattere: Luogo privilegiato di vacanza.
Modalità:
• Italia (regione), estero (stato);
• ...
14
1.3.2 Scale di misura
I caratteri e le loro modalità possono avere diverse scale di misura; conside-
riamo la seguente classificazione, dovuta a Stevens (1946)3 :
1. Scala nominale: le modalità sono attributi in cui non è presente una re-
lazione d’ordine naturale (Es: meta tusristica, corso di laurea, prvincia
di residenza, colore dei capelli, ecc.)
4. Scala per rapporti : le modalità sono numeri dove lo zero significa l’as-
senza di carattere (Es: età, reddito, patrimonio, durata di un soggiorno
turistico, statura, ecc.); per confrontare due valori ha senso ricorrere
anche al rapporto
3
Stevens, S.S. (1946). On the Theory of Scales of Measurement. Science, 103, 677-680
15
16
Capitolo 2
Variabili e distribuzioni di
frequenze
...
X = Provenienza;
Y = Altezza,
17
e raccogliamo le osservazioni nella seguente matrice dei dati:
# Individuo X Y
1 NO 168
2 AL 166
3 AL 182
... ... ...
... ... ...
... ... ...
N NO 172
La matrice dei dati può essere molto ampia e non è direttamente leggi-
bile o interpretabile. Per trarre delle informazioni utili la prima operazione
che si fa è quella di sintetizzarla nella tabella di distribuzione di frequenza,
come illustreremo nel prossimo paragrafo. In questa prima parte del corso ci
concentreremo sullo studio di una variabile alla volta (ovvero ci occuperemo
della “statistica univariata”).
18
A fine giornata ho 152 questionari compilati, i cui risultati sono elencati nel
seguente dataset (matrice dei dati grezzi):
Per poter usufruire delle informazioni contenute nella matrice dei effettuiamo
un operazione denominata spoglio dei dati, dalla quale otterremo la tabel-
la di distribuzione di frequenza, in grado di riassumere quanto fornito
dalla matrice dei dati.
19
3. sistemare i risultati in una tabella, chiamata tabella di distribuzione di
frequenza:
Nell’Esempio 2.2:
X ni fi
Insufficiente 3 2,0%
Quasi sufficiente 11 7,2%
Sufficiente 43 28,3%
Piu che sufficiente 54 35,5%
Buono 41 27,0%
Osserviamo che:
(i)
k
X
ni = n1 + n2 + ... + nk = N ;
i=1
20
dove Σ è il simbolo di sommatoria (notazione che utilizzeremo da ora
in avanti);
(ii)
k
X
fi = f1 + f2 + ... + fk = 100%(= 1).
i=1
21
3
X 3
X 3
X
•
xi −3 = (2.1−3)+(8−3)+(10.4−3) = xi − 3 = 11.5
i=1 i=1 i=1
| {z }
=3·3
3
X
• xi − 3 = 17.5
i=1
3
X
• |xi − 6.5| = |2.1 − 6.5| + |8 − 6.5| + |10.4 − 6.5| = . . .
i=1
Si ha che:
X Frequenze relative
-5 0.1
0 0.2
2 0.5
6 0.2
22
4
X
(e) Calcolare (xi − 10)2 fi
i=1
Risoluzione
(b) Otteniamo
f2 = 0.2.
(c) Otteniamo
f1 + f2 = 0.1 + 0.2 = 0.3.
(d) Si ha che
4
X
xi fi = (−5) · 0.1 + 0 · 0.2 + 2 · 0.5 + 6 · 0.2 = 2.1.
i=1
(e)
4
X
(xi − 10)2 fi = · · · = 75.3.
i=1
23
Numero delle camere Frequenze assolute ni Frequenze relative fi
0 a 25 18.332 55%
25 a 99 19.578 40,8%
100 a ... 1.406 4,2%
N 1
24
X Freq. Ass. Freq. Ass. Cumul. Freq. Rel Freq. Rel. Cumul.
x1 n1 N1 = n 1 f1 F1 = f 1
x2 n2 N2 = n 1 + n 2 f2 F2 = f 1 + f 2
x3 n3 N3 = n 1 + n 2 + n 3 f3 F3 = f 1 + f 2 + f 3
.. .. .. .. ..
. . . . .
xi ni Ni = h=1 nh fi Fi = h=1 fh
Pi Pi
.. .. .. .. ..
. . . . .
xk nk Nk = N fk Fk = 1
N 1
2.5 Homeworks
1. Si faccia un esempio (diverso da quelli già fatti a lezione) di una varia-
bile definita su un collettivo le cui unità statistiche sono:
(a) individui;
(b) oggetti;
(c) strutture ricettive;
(d) luoghi;
(e) momenti temporali.
25
2. In un certo hotel la camera doppia nel 2016 costava 100 Euro. Nel
2017 il prezzo è aumentato del 10% e l’hotel ha perso molti clienti.
Se il proprietario per il 2018 ridiminuisse il prezzo del 10% quanto
costerebbe la camera doppia?
3. Si ripeta l’esercizio 1 per la camera singola, il cui prezzo nel 2016 era
l’86% del prezzo della doppia.
100 97.4 97.4 100 93.5 105 91.5 93.5 97.4 100 91.5 97.4
26
6. Si consideri la seguente distribuzione di frequenza, che è stata appros-
simata alla seconda cifra decimale:
X Freq relative
-3 0.01
0 0.1
10 0.7
12 0.19
7. La matrice dei dati che segue raccoglie i dati provenienti dal carattere
Numero di stanze effettuate sugli alberghi di una piccola località.
P7 √
(c) i=1 xi + 3
xi − 3
(d)
P3
i=1
xi+1 + 3
(e)
P3 2
P7 4
i=1 xi − i=5 4xi
27
28
Capitolo 3
– Diagrammi a barre;
– Diagrammi "a torta" (o "a settori circolari");
– Diagrammi a colonna.
– Diagrammi a bastoni;
– Istogrammi;
– Boxplot.
29
3.2 Grafici per variabili qualitative
3.2.1 Diagramma a barre
È formato da rettangoli non contigui (uno per ogni modalità osservata) aven-
ti uguale base e altezza proporzionale alle frequenze assolute (ni ) oppure alle
frequenze relative (fi ) di ciascuna modalità.
Mezzi Viaggi in %
Auto 65%
Treno 12%
Aereo 15%
Altro 8%
A volte il diagramma a barre viene fatto ordinando le barre dalla più fre-
quente alla meno frequente; in questo caso si ottiene il diagramma di Pareto.
30
Si ha un rettangolo di lunghezza N (se si utilizzano le frequenze assolute) o
100% (se ci si riferisce alle frequenze relative) che viene suddiviso in rettan-
goli contigui, tanti quanti sono le modalità, ciascuno di lunghezza pari alla
corrispettiva frequenza assoluta ni (o alla frequenza relativa fi ).
Nell’Esempio 2.3:
Nell’Esempio 2.3:
31
3.3 Rappresentazioni per variabili quantitative
3.3.1 Diagramma a bastoni
Questo tipo di diagramma viene utilizzato per rappresentare la distribuzione
di frequenza di una variabile quantitativa discreta con un numero limitato di
realizzazioni (indicativamente al massimo 20).
Esempio 2.5: X = "Esame sostenuto dagli studenti nella sessione estiva del
I anno".
32
Esami sostenuti Frequenze relative
0 0.05
1 0.2
2 0.35
3 0.33
4 0.06
5 0.01
3.3.2 Istogramma
L’istogramma viene utilizzato per rappresentare una distribuzione di frequen-
za espressa in classi di valori.
Costruzione: sul piano cartesiano si rappresentano dei rettangoli contigui,
un rettangolo per ciascuna classe, con base coincidente con la classe stessa e
area pari alla frequenza (assoluta o relativa).
33
- Base del rettangolo i-simo = ai (ampiezza della classe i-ma)
(ovvero la differenza tra l’estremo superiore li della classe e l’estremo
inferiore li−1 );
fi ni
- Altezza del rettangolo i-simo = hi = oppure
ai ai
34
3.4 Esempi
Esempio 1 Rappresentare graficamente le seguenti distribuzioni di frequen-
ze.
(A) (B)
(C) (D)
Soluzione
35
(A) Sesso:
(C) Età:
36
Esempio 2 Rappresentare l’istogramma corrispondente alla seguente distri-
buzione di frequenze.
X Freq. Rel.
0 - 50 25%
50 - 75 25%
75 - 100 25%
100 - 150 25%
Soluzione
X Freq. Ass.
0 - 10 20
10 - 12 4
12 - 20 16
Soluzione
37
Esempio 4: Qual è l’errore nel grafico?
38
Il grafico corretto sarebbe il seguente:
3.5 Homeworks
1. Si consideri la seguente distribuzione di frequenze con dati in classi
della variabile X = “Profitti/Perdite (in migliaia di euro) delle imprese
turistiche operanti in una data regione”.
X Freq relative
(-5,0] 0.2
(0,2] 0.2
(2,10] 0.4
(10,20] 0.2
39
2. Si supponga che della variabile X si siano rilevati i seguenti dati ele-
mentari:
c d c b c b b a c c b b b d a
4 1 5 2 0 1 5 0 1 0 2 6 1 2
69.8 71.3 69.6 88.3 84.8 80.5 70.2 62.3 64.1 67.4 81.2 65.9 84.9 53.5 55.2
40
(c) Costruire la tabella delle distribuzioni di frequenze assolute e re-
lative raccogliendo i dati nelle seguenti classi:
41
42
Capitolo 4
– Indici di tendenza;
– Indici di omogeneità.
43
4.2 Valori medi
Cominciamo con una definizione generale, che comprende tutti gli indici di
posizione:
Definizione - Valore medio: Sia X una variabile quantitativa con modalità
distinte (ordinate)
x1 , x2 , ..., xk ;
si dice valore medio per X un qualsiasi numero m tale che
x1 ≤ m ≤ xk
ossia
xmin ≤ m ≤ xmax .
Ogni volta che abbiamo un "valore medio" abbiamo quindi un’indicazione
sintetica della "posizione" della variabile. A seconda del diverso principio di
sintesi che vogliamo adottare, otteniamo uno specifico valore medio: il valore
centrale, la moda, la mediana e i quartili, la media aritmetica e la media
geometrica.
X Freq. Rel.
2 0.1
5 0.25
6 0.5
8 0.1
15 0.05
44
da cui
2 + 15
MR = = 8.5
2
Alla luce dell’esempio osserviamo che il valore centrale
4.2.2 Moda
Principio: "prevalenza" all’interno della distribuzione.
Osserviamo che la moda può non essere unica (ad esempio vi può essere una
distribuzione “bimodale” etc.)
Secondo la loro definzione rigorosa, che daremo tra poco, mediana e quartili
possono non essere unici. Assumeremo qui che la mediana e i quartili appar-
tengano all’insieme dei valori di X osservati e daremo una regola di calcolo
per poter determinare mediana e quartili in modo univoco.
45
4.3.1 Mediana
I due gruppi sono formati: il primo da tutte le unità statistiche su cui sono
osservati valori non superiori a tale soglia; il secondo da tutte le rimanenti
unità statistiche.
Definizione: Si dice mediana (Me) di una variabile X quel valore tale per
cui almeno la metà (ovvero il 50%) delle unità statistiche soddisfa
X ≤ M e,
X ≥ Me
Esempio 4.2: Consideriamo il seguente data-set:
Una possibile regola di calcolo della mediana è quella, una volta riordinati i
dati in ordine crescente, di prendere il dato 0, 5 · N -simo (se 0, 5 · N è intero)
o il dato successivo (se 0, 5 · N non è intero);
46
ad esempio: se N = 16, allora 0.5 · N = 8 → prendo l’ottavo dato;
se N = 17, allora 0.5 · N = 8.5 → prendo il nono dato.
X ni fi Fi
1 3 0.2727 0.2727
3 4 0.3636 0.6363
8 3 0.2727 0.9090
10 1 0.0909 0.9999 (1)
N = 11 1
4.3.2 Quartili
Definizione:
- Si dice primo quartile quel valore Q1 tale che almeno 1/4 (ovvero il
25%) delle unità statistiche soddisfa
X ≤ Q1
- Si dice secondo quartile quel valore Q2 tale che almeno 2/4 (ovvero
il 50%) delle unità statistiche soddisfa
X ≤ Q2
47
e almeno il restante 2/4 (il 50%) delle unità statistiche soddisfa X ≥
Q2 (si noti che Q2 = M e).
- Si dice terzo quartile quel valore Q1 tale che almeno 3/4 (ovvero il
75%) delle unità statistiche soddisfa
X ≤ Q3
e almeno il restante 1/4 (il 25%) delle unità statistiche soddisfa X ≥ Q3 .
Come per la mediana vediamo come calcolare i quartili di una variabile X sia
a partire dal data-set che a partire dalla tabella di distribuzione di frequenza.
X = {8, 10, 1, 8, 1, 3, 1, 8, 3, 3, 3}
Xord = {1, 1, 1, 3, 3, 3, 3, 8, 8, 8, 10}
Sapendo che N = 11, applico la stessa regola utilizzata per calcolare la me-
diana: trovo il dato n-esimo.
X fi Fi
1 0.2727 0.2727
3 0.3636 0.6363
8 0.2727 0.9090
10 0.0909 0.9999 (1)
1 1
48
Q2 È il più piccolo valore di X in cui la frequenza cumulata è almeno il
50% → Q2 = 3;
4.3.3 Quesiti
1. La mediana delle vacanze degli studenti TUR è 15 giorni. Cosa signi-
fica?
2. Il terzo quartile del numero di addetti per impresa nel settore turistico
è 5. Cosa significa?
4. Il 25% dei turisti che hanno frequentato un certo locale nel settembre
2021 non ha più di 30 anni. Tradurre in termini di quartili.
4.3.4 Box-plot
Il Box-plot (o box and whiskers plot ) ("Diagramma a scatola e baffi") è
una rappresentazione grafica della distribuzione di frequenze di una variabile
quantitativa X basata sulle informazioni date dai quartili e dagli estremi dai
quartili.
Come si interpreta? La variabile X è compresa tra i due baffi; nella “scatola”
trovo il 50% dei dati.
Approfondimento*:
baffomax = 1.5(Q3 − Q1 ).
Tutti i dati che non rientrano nei baffi sono outliers e vengono indicati con
49
un asterisco.
X = {1, 2, 2, 3, 3, 4, 5, 15}
Abbiamo che
Q1 = 2Q2 = 3Q3 = 4
baffomax = 1.5(4 − 2) = 3
Graficamente:
50
4.4 Media aritmetica
Principio: “redistribuzione equa” di caratteri trasferibili, ossia di caratteri che
possono essere redistribuiti tra le unità statistiche.
51
importo? Considerando che ci sono N = 6 lavoratori, dividiamo l’importo
complessivo per il numero dei lavoratori e otteniamo
T 8.4
= = 1.4.
N 6
Tale numero è detto media aritmetica di X, si indica con X̄ e si ottiene
sommando gli N dati elementari e suddividendo per N. Notiamo che è un
valore medio nel senso della definzione data all’inizio, nel paragrafo 4.1.
k
X
T = xi · n i
i=1
52
soltanto a partire dalle frequenze relative, senza conoscere la numerosità N .
*Approfondimento 4.2
X = {1, 3, 1, 7, 8, 1, 3, 7, 3, 3}.
Calcoliamo la media a partire dalla matrice di dati sapendo che N = 10.
1+3+1+7+8+1+3+7+3+3
X̄ = = 3.7
10
Eseguiamo lo spoglio dei dati ai fini di mostrare che la media ha lo stesso
valore.
1
X̄ = (1 · 3 + 3 · 4 + 7 · 2 + 8 · 1) = 3.7
10
X̄ = (1 · 0.3 + 3 · 0.4 + 7 · 0.2 + 8 · 0.1) = 3.7
a+b
C= .
2
53
Esempio 4.9: Consideriamo la seguente distribuzione di frequenze, riferita
alla variabile X con dati in classi:
X Freq. Rel.
-10 a 0 0.3
0 a 20 0.5
20 a 50 0.2
Esempio 4.10: Consideriamo due data-set, molto simili tra loro a meno di
un dato e calcoliamone la media e la mediana.
X1 = {1, 2, 1, 1, 2, 2}
X2 = {1, 2, 1, 1, 2, 50}
X̄1 = 1.5
X̄2 = 9.5
M e1 = 1
M e2 = 1
54
In questo esempio si vede che 50 è un dato anomalo (outlier ) e che la media
aritmetica risente fortemente dei dati anomali, cosa che non accade per la
mediana. In terminologia statistica si dice che la mediana è robusta, mentre
la media aritmetica non lo è.
Approfondimento 4.3*
4.4.3 Esercizi
1. Calcolare la mediana nell’esempio 4.9 (dati in classi).
X̄ = 1.375 Me = 1
55
X Freq. rel.
1 0.1
2 0.2
3 0.4
4 0.2
5 0.1
Opzioni:
Media Mediana
A 2 4
B 3 3
C 3 4
D 6 3
Media e mediana coincidono perchè la distribuzione è simmetrica. In-
fatti:
56
4. Sia data la seguente distribuzione di frequenze:
X Freq. rel.
-6 0.2
-2 0.4
2 0.3
4 0.1
Quale delle seguenti è la risposta corretta? Spiegare l’errore nelle
risposte errate.
1
A. X̄ = (−6 − 2 + 2 + 4) = −0.5
4
× → Non tengo conto delle fi .
1
B. X̄ = (−6 · 0.2 − 2 · 0.4 + 2 · 0.3 + 4 · 0.1) = −0.25
4
× → Tengo conto delle fi ma peso anche per 1/4.
1
C. X̄ = (−6.2 − 2.4 + 2 − 3 + 4.1) = 1
10
X → 0.2 = 1/10 · 2 = ki=1 xi fi .
P
Principio: calcolare un valore medio per fenomeni che evolvono nel tempo
in modo moltiplicativo.
Definizione- Sia X una variabile con modalità positive; si dice media geo-
metrica (MG) di X la radice N -esima del prodotto degli n dati elementari
di X :
q
M G = N xn1 1 · xn2 2 · ... · xnk k .
X = {1, 3, 1, 7, 8, 1, 3, 7, 3, 3}
57
Calcoliamo la media geometrica.
√
10
MG = 1·3·1·7·8·1·3·7·3·3
1
= (1 · 3 · 1 · 7 · 8 · 1 · 3 · 7 · 3 · 3) 10
= 2.8195
mg ≤ X̄.
4.6 Approfondimenti
Approfondimento 4.2: questo perchè
1 Pk
X̄ = xi ni
N i=1
"spalmiamo" la sommatoria e moltiplichiamo per 1
N
1
= (x1 n1 + x2 n2 + ... + xk nk )
N
n1 n2 nn
= (x1 + x2 + ... + xn )
N N N
ni
poichè fi =
N
= x1 f1 + x2 f2 + ... + xk fk
X̄ = ki=1 xi fi
P
58
Approfondimento 4.3: Esiste in statistica una variante della classica me-
dia aritmetica detta "Media trimmata" (o "Trimmed mean") X̄trimmed . Si
tratta di una media che considera solo i dati non anomali (esclude gli outliers
dalla distribuzione di frequenze).
Un metodo per calcolarla consiste nel rappresentare il box-plot con la regola
di Tukey (si veda l’approfondimento 3.1) e non considerare i dati che si tro-
vano oltre la lunghezza dei baffi.
X = {1, 2, 2, 3, 3, 4, 5, 15}
1 + 2 + 2 + 3 + 3 + 4 + 5 + 15
X̄ = = 4.375
8
X = {1, 2, 2, 3, 3, 4, 5}
1+2+2+3+3+4+5
X̄trimmed = = 2.8571
7
4.7 Homeworks
1. Esercizio 1
Calcolare la mediana e il terzo quartile della variabile descritta in
Esercizio 5 in Homework 2.5.
2. Esercizio 2
59
3. Esercizio 3.
Si rappresenti il box-plot dell’Esercizio 4 in Homework 3.5 (indicare
chiaramente i valori utilizzati).
4. Esercizio 4.
Si consideri la seguente distribuzione di frequenza:
X Freq ass.
-7 3
-2 7
0 10
1 15
4 9
6 5
10 2
Determinare la mediana e i quartili.
5. Esercizio 5.
La mediana del voto di laurea triennale degli studenti TUR è 96. Cosa
significa?
6. Esercizio 6.
Il primo quartile del numero di visitatori giornalieri di una mostra a
Torino nel 2016 è 207. Cosa significa?
60
Capitolo 5
61
- gli intervalli di variazione, che misurano la distanza tra due indici di
posizione;
5.1.1 Range
Il Range, o Campo o di escursione, o Intervallo, misura la lunghezza dell’in-
tervallo che contiene il 100% dei dati.
È dato da
Range(X) = xmax − xmin
= xk − x1 .
Nell’esempio 5.1: Range(X) = 4, mentre Range(Y ) = 15.
62
Figura 5.1: Range e IQR di una distribuzione.
X = {1, 1, 1, 1, 10}
Y = {1, 2, 4, 6, 10}
63
X X − X̄
1,5 1.5 - 1.4 = 0.1
1.2 1.2 - 1.4 = -0.2
1.8 1.2 - 1.4 = -0.2
1.8 1.8 - 1.4 = 0.4
1.5 1.5 - 1.4 = 0.1
1.2 1.2 - 1.4 = -0.2
Osserviamo che non ha senso calcolare la media aritmetica di X − X̄, infatti,
essendo X̄ il baricentro della distribuzione, le differenze negative vanno a
compensare quelle positive e la media è zero:
1
(0.1 − 0.2 − 0.2 + 0.4 + 0.1 − 0.2) = 0.
6
Infatti i valori (X − X̄) non rappresentano delle distanze, poichè sono valori
sia positivi che negativi, mentre una “distanza” deve essere sempre un valore
maggiore o uguale a zero.
Una soluzione (ma non l’unica) che si può adottare è quella di considerare
gli "scarti quadratici" (X − X̄)2 e poi calcolarne la media aritmetica.
Nell’esempio 5.3:
1
[0.12 + (−0.2)2 + (−0.2)2 + 0.42 + 0.12 + (−0.2)2 ] = 0.05
6
Si tratta della varianza, secondo la definziione fornita nel prossimo para-
grafo.
64
X ni fi X − X̄ (X − X̄)2
1.2 3 3/6 -0.2 (-0.2)2
1.5 2 2/6 0.1 (0.1)2
1.8 1 1/6 0.4 (0.4)2
Esempio 5.4: Sia X il prezzo (in euro) del pernottamento praticato dagli al-
berghi a tre stelle in una località, si calcolino: la varianza, lo scarto quadratico
medio, il Range e l’IQR.
X ni fi
70 4 0.4
75 3 0.3
80 3 0.3
N=10 1
65
Dunque: X̄ = 70 · 0.4 + 75 · 0.3 + 80 · 0.3 = 74.5
Range(X) = 80 − 70 = 10 (euro)
Range(X) = Q3 − Q1 = 80 − 70 = 10 (euro)
X Freq. Rel.
-5 a 0 0.2
0a5 0.5
5 a 10 0.3
X Freq. Rel. Ci
-5 a 0 0.2 -2.5
0a5 0.5 2.5
5 a 10 0.3 7.5
V ar(X) = (−2.5 − 3)2 · 0.2 + (2.5 − 32 · 0.5 + (7.5 − 3)2 · 0.3 = 12.25(◦ C)2
√
S(X) = 12.25 = 3.5 (◦ C)
66
5.3 Misure di variabilità relative
In alcuni contesti può essere opportuno confrontare la varaibilità in relazione
all’ordine di grandezza delle variabili.
Nell’esempio 5.7:
S(X) 800
CV (X) = = = 0.32
X̄ 2500
S(Y ) 500
CV (X) = = = 0.33
Ȳ 1500
Possiamo quindi vedere che Y è relativamente più variabile di X.
67
Osservazione: gli indici di variabilità relativi sono "adimensionali", cioè
sono numeri senza unità di misura.
68
Quiz: associare gli indicatori ai grafici delle distribuzioni. Motivare.
5.4 Homeworks
1. Esercizio 1
Si consideri ancora la variabile descritta in Esercizio 5 di Homeworks
2.5. Calcolare:
2. Esercizio 2
3. Esercizio 3.
Si consideri la seguente distribuzione di frequenze con dati in classi
della variabile X = “Profitti/Perdite (in migliaia di euro) delle imprese
turistiche operanti in una data regione” (Esercizio 1 in Homeworks 3.5).
69
X Freq relative
(-5,0] 0.2
(0,2] 0.2
(2,10] 0.4
(10,20] 0.2
4. Esercizio 4.
Si consideri la seguente distribuzione di frequenza:
X Freq ass.
-7 3
-2 7
0 10
1 15
4 9
6 5
10 2
Calcolare:
(a) il range,
(b) la differenza interquartile,
(c) lo scarto quadratico medio.
5. Esercizio 5.
Il numero di viaggi al giorno venduti dalle agenzie di turismo di una
certa città sono:
70
(b) Calcolare la differenza interquartile.
(c) Calcolare la deviazione standard.
6. Esercizio 6.
Consideriamo il costo settimanale degli affitti nel mese di agosto in
due località balneari, una sul Tirreno e una sull’Adriatico. Le medie
dei costi degli affitti delle due località sono risultati, rispettivamente,
600 e 1000 euro, mentre gli scarti quadratici medi sono risultati 200 e
300. Confrontare la variabilità dei due prezzi con un opportuno indice
relativo.
71
72
Capitolo 6
73
X = {0, 50.000, 0, 0, 0}
In questo caso si parla di massima concentrazione.
74
6.1 Indice di concentrazione di Gini
Cominciamo da un esempio, proseguendo l’Esempio 6.1. I dati elementari
riordinati per ciascuno dei tre casi possono essere riportati nella seguente
tabella (matrice dei dati riordinati):
Definiamo ora il totali parziali fino alla h-esima unità statistica ordinata Th :
h
X
Th = x(i) ;
i=1
Da ora in avanti per comodità indichiamo gli ammontari cumulati nel caso
di equidistribuzione con The ; notiamo che:
The = h · X̄.
Per misurare l’intensità della concentrazione confronto i valori dei totali cu-
mulati Th icon i valori The ossia con quelli che si avrebbero in caso di equi-
distribuzione: quanto più sono vicina (c’e poca differenza per ogni h) tanto
75
più sono vicina al caso di equidistribuzione; tanto più sono lontana (la diffe-
renza totale per ogni h e piccola) quanto più sono vicina al caso di massima
concentrazione.
Nell’esempio 6.1:
h The Th The − Th
1 10.000 1.500 8.500
2 20.000 5.000 15.000
3 30.000 10.000 20.000
4 40.000 20.000 20.000
5 50.000 50.000 0
N
X −1
(The − Th ) = 8.500 + 15.000 + 20.000 + 20.000 = 63.500.
h=1
N
X −1 N
X −1
(The − Th ) = The = 100.000,
h=1 h=1
76
infatti i totali parziali Th fino ad N − 1 sarebbero nulli.
In generale:
N
X −1
(The − Th ) = 0;
h=1
N
X −1 N
X −1
(The − Th ) = The
h=1 h=1
N
X −1 N
X −1
(The − Th ) Th
h=1 h=1
(6.1) IC = N −1
=1− N −1
.
X X
The The
h=1 h=1
77
lori 0 e 1.1
63.500
Nell’esempio 6.1: IC = = 0, 635.
100.000
Osserviamo che:
78
h
(ii) ph = ,
N
hX̄ h
infatti: The = hX̄ e T = N X̄, da cui ph = = .
N X̄ N
N
X −1 N
X −1
(ph − qh ) qh
h=1 h=1
(6.2) IC = N −1
=1− N −1
.
X X
ph ph
h=1 h=1
h Xord The Th ph qh
1 15 29 15 29/232 = 0.125 15/232 = 0.06
2 17 58 32 0.25 0.1379
3 25 87 57 0.375 0.2457
4 25 116 82 0.5 0.3534
5 29 145 111 0.625 0.4785
6 31 174 142 0.75 0.6121
7 43 203 185 0.875 0.7974
8 47 232 232 1 1
79
N
X −1
Th
h=1 624
IC = 1 − N −1
=1− = 0.2315.
X 812
The
h=1
(ph , qh ), h = 1, .., N
Nell’esempio 6.1:
Caso 1 (equidistribuzione)
h ph qh
1 1/5 1/5
2 2/5 2/5
3 3/5 3/5
4 4/5 4/5
5 1 1
80
Figura 6.1: Curva di Lorenz, in rosso.
h ph qh
1 1/5 0
2 2/5 0
3 3/5 0
4 4/5 0
5 1 1
81
Figura 6.3: Curva di Lorenz nel Caso 2 (massima concentrazione)
82
Caso 3
h ph qh
1 1/5 0
2 2/5 0
3 3/5 0
4 4/5 0
5 1 1
L’area colorata in giallo in Figura 6.2, ovvero l’area compresa tra la curva
di Lorenz della variabile e la curva che avrei nel caso di equidistribuzione,
viene chiamata Area di concentrazione. Come per l’indice di concentrazione
di Gini, dal calcolo di quest’area è possibile ricavare un indicatore sintetico
di concentrazione.
Figura 6.5: La parte colorata rappresenta l’area sottesa alla curva di Lorentz
e i trapezi. In bianco l’area di concentrazione.
84
Nell’esempio 6.1: L’area sottesa alla curva di massima concentrazione
risulta essere 1/5 · 1/2 = 1/10, da cui
1 1
max AC = − = 0.4
2 10
In generale:
1 1
max AC = − ,
2 2N
infatti: si tratta sempre dell’area di un triangolo di base 1/N e altezza 1.
Diamo allora un valore normalizzato all’area di concentrazione:
Ac
A?C = IC = ,
max{Ac}
da cui
AC = IC · max AC
85
...Il metodo è più veloce rispetto al calcolo con le aree dei trapezi.
Ac = Ic · max AC
1 1
max AC = − = 0.4167
2 12
5
Ac = 0.7733 · = 0.3222
12
86
6.3 Indice di Herfindhal*
6.4 Homeworks
1. Da un’indagine compiuta su 10 località turistiche dell’Ossolano circa la
capacità di attrazione turistica misurata attraverso la variabile “Nume-
ro di turisti nel secondo semestre dell’anno”, emerge la seguente tabella
di dati individuali (in migliaia i turisti):
2 8 10 2 15 50 2 1 6 4
87
3. Si considerino i dati relativi ai posti letto in un dato comprensorio,
riportati qui sotto.
88
Capitolo 7
Studio dell’eterogeneità
Caso 1 Caso 2
Mezzo di trasporto Freq. Rel Mezzo di trasporto Freq. Rel
Auto 0.25 Auto 0
Aereo 0.25 Aereo 0
Treno 0.25 Treno 1
Pullman 0.25 Pullman 0
89
- nel caso 2, X è minimamente eterogenea ovvero massimamente omo-
genea.
f1 = f2 = ... = fk ,
fī = 1
Obiettivo: misurare il grado di eterogeneità in tutti gli altri casi, ossia nei
casi intermedi, utilizzando degli opportuni indici. Vedremo, in particolare,
l’indice di eterogeneità di Gini e l’indice di entropia di Shannon.
Osserviamo che:
se siamo nel caso di massima omogeneità
Eg = 1 − 1 = 0;
90
3
Nell’esempio 7.1: nel caso 2, ossia di massima eterogeneita, Eg = .
4
Osservazione: pèer valutare il grado di eterogeneità in un caso intermedio
dovremmo confrontarlo con il massimo valore di Eg , che dipende dal numero
di modalità k.
Eg Eg k
Eg∗ = = = Eg · .
max{Eg } k−1 k−1
k
Tale indice assume valori nell’intervallo [0, 1], infatti :
Eg∗ = 0.
Eg∗ = 1.
Mezzo di trasporto ni fi
Auto 43 46.24 %
Aereo 10 10.75 %
Treno 32 34.41 %
Pullman 8 8.60 %
93 1
91
Misurariamo il grado di eterogeneità dei mezzi di trasporto utilizzati dai tu-
risti:
k
X
Es = − fi log fi ,
i=i
dove con log(·) si intende il logaritmo naturale (in base e), anche indicabile
con ln(·).
92
quessto motivo nella formula lo si "corregge" rendentolo positivo moltiplican-
dolo per -1.
Es
Es∗ = = 84.72%.
log 4
Notiamo come tale valore sia abbastanza elevato, e il risultato è coerente con
quanto ottenuto dall’indice di eterogeneità di Gini.
93
7.3 Homeworks
1. In seguito ad un’analisi compiuta in un albergo di Stresa nel mese di
marzo 2019 sui propri clienti risulta che la distribuzione della variabile
“zona di provenienza” dei clienti è:
94
Statistica bivariata
96
Capitolo 8
Nella maggior pare delle situazioni su una popolazione vengono rilevate più
variabili.
Quanto fatto finora nel corso ci permette di analizzare una variabile alla
volta. Presentiamo ora dei metodi pe poter studiare simultaneamente due
variabili definite sulla stessa popolazione, tenedo conto della loro relazione.
97
2. variabili doppie quantitative, quando i due caratteri X e Y sono en-
trambi quantitativi;
Come si fa?
98
X↓Y → y1 y2 ... ym Totale riga
x1 n11 n12 ... n1m n1·
x2 n21 n22 ... n2m n2·
.. .. .. .. .. ..
. . . . . .
xk nk1 nk2 ... nkm nk·
Totale colonna n·1 n·2 ... n·m N
• Y = "Vacanza, lavoro"
# X Y
1 N L
2 C V
3 C L
4 N V
5 N L
6 S V
7 S L
8 C L
9 N V
10 C L
11 N L
12 S V
99
x1 = N, x2 = C, x3 = S; y1 = L, y2 = V .
100
X↓Y → TUR CLEA Tot. Rig.
F 5 1 6
M 1 3 4
Tot. Col. 6 4 10
Esempio 8.4:
X↓Y → 1 2 5 8
2 3 1 0 0
5 0 2 1 0
9 0 0 4 2
101
Figura 8.2: Scatterplot.
Esempio 8.3:
102
se le distribuzioni negli “strati” siano uguali o diverse.
Nell’esempio 8.3:
Attraverso il confronto dei profili riga posso stabilire se esista un legame tra
X e Y . Nell’esempio 8.3 si pu‘o affermare, dai profili osservati, che la scelta
del corso di laurea si differenzia in base sesso, e quindi in questo caso esiste
un legame tra le due variabili.
Nell’esempio 8.3:
X↓ Y→ TUR CLEA
F 5/6 = 0.833 1/4 = 0.25
M 1/6 = 0.167 3/4 = 0.75
1 1
Questa tabella è detta tabella dei profili-colonna. Il totale di ciascuna colon-
na deve corrispondere al 100%. Anche in questo modo posso confrontare i
profili colonna per sapere se esista o meno un legame tra X e Y .
Si può dimostrare, infine, che i profili colonna sono uguali tra loro e se e solo
se i profili riga sono uguali tra loro. Grazie a questo risultato matematico si
da la seguente definizione:
103
Esempio 8.5: Si consideri una popolazione di imprese su cui sono state
rilevate le variabili
X = "Area geografica"
Y = "Settore"
A partire dalla distribuzione congiunta di (X, Y ) stabilire se vi è dipendenza
o indipendenza.
104
Figura 8.3: Distribuzione del settore condizionata alle aree geografiche.
Soluzione
Frequenze congiunte assolute
105
↓Categoria Giudizio→ Scarso Sufficiente Buono Totale
A 2 2 0 4
B 0 2 1 3
C 1 1 1 3
Totale 3 5 2 10
profili riga
Anche da qui si può vedere la dipendenza, in quanto i profili non sono tra
loro uguali.
8.5 Homeworks
1. Da un’indagine compiuta sui turisti che hanno visitato una certa città in
un dato giorno, emergono i seguenti dati relativi alla Provenienza (nelle
106
modalità I = Turista italiano, S = Turista straniero) e alla Struttura
ricettiva scelta (nelle modalità A = Albergo, C = Complementare):
107
iii. Quanti sono gli alberghi che praticano un prezzo tra gli 80 e
i 120 euro?
iv. Quanto vale n22 e che cosa indica?
(b) Calcolare il prezzo medio praticato a seconda della dimensione
dell’albergo.
(c) Analizzando le medie calcolate al punto precedente, cosa possiamo
concludere?
108
(b) Quante e quali sono le modalità di X e di Y ?
(c) Cosa sono i numeri riportati, alla luce di quanto studiato nel
capitolo?
(d) Quali domande mi posso fare e quali risposte posso dare sulla base
di questa tabella?
109
110
Capitolo 9
In questo capitolo vogliamo studiare una particolare relazione che puo esistere
tra due variabili quantitative e fare, ove possibile, dei modelli di previsione.
X Y
160 55
168 61
172 59
180 65
Rappresentiamola graficamente:
111
La forma della "nuvola" di punti suggerisce l’esistenza di una relazione ap-
prossimativamente lineare tra X e Y, quindi possiamo scrivere:
Y = a + bX + Errore.
9.1 Covarianza
Obiettivo: misurare il segno e l’intensità della correlazione lineare tra X e Y .
112
1. Calcoliamo le medie delle due variabili: rispettivamente X̄ e Ȳ e rap-
presentiamole sullo scatterplot mediante delle rette (perpendicolari).
Nell’esempio 9.1:
X̄ = 170; Ȳ = 60,
X Y X − X̄ Y − Ȳ
160 55 -10 -5
168 61 -2 1
172 59 2 1
180 65 10 5
113
X Y X − X̄ Y − Ȳ (X − X̄)(Y − Ȳ )
160 55 -10 -5 50
168 61 -2 1 -2
172 59 2 1 -2
180 65 10 5 50
Nell’esempio 9.1:
50.2 − 2 + 50
= 24.
4
https://www.overleaf.com/project/5fa6dfbd1b5f35f867eef199 Tale quan-
tità si dice covarianza.
114
Cov(X, Y ) > 0 Cov(X, Y ) = 0
115
di correlazione lineare tra due variabili quantitative X e Y la quantità:
Cov(X, Y ) Cov(X, Y )
r=p p = ;
V ar(X) · V ar(Y ) SQ(X) · SQ(Y )
si ha −1 ≤ r ≤ 1.
Nei casi estremi, in cui tale coefficiente assume i valori -1 e +1, ci troveremo
nelle situazioni di una perfetta relazione lineare, rispettivamente, positiva
(crescente) o negativa (decrescente):
Figura 9.1: r = 1.
116
allora r = 0.
Ci possono tuttavia essere delle situazioni ingannevoli, ossia in cui r > 0 ma
la relazione tra X e Y non è di tipo lineare; per questo insieme al valore di
r è sempre indispensabile guardare anche lo scatterplot.
Nell’esempio 9.1:
Cov(X, Y ) = 24
V ar(X) = 52
V ar(Y ) = 13
24
r = √ √ = 0.923.
52 13
Abbiamo visto che r soddisfa
−1 ≤ r ≤ 1,
ossia può avere segno positivo o negativo. Nella pratica spesso come misura
della correlazione assoluta si considera il coefficiente di correlazione lineare
al quadrato r2 invece che r:
Cov(X, Y )2
r2 = .
V ar(X) · V ar(Y X)
Naturalmente:
0 ≤ r2 ≤ 1,
117
e quindi per sapere se si tratta di una relazione positiva o negativa devo
guardare lo scatterplot.
576
Nell’esempio 9.1: r2 = = 85.2%.
52 · 13
Osservazione: Il coefficiente di correlazione lineare risulta essere poco ro-
busto, cioè è influenzato da eventuali outliers. Anche per questo motivo,
insieme al coefficiente di correlazione lineare risulta fondamentale osservare
contemporaneamente anche lo scatterplot.
Figura 9.4: r2 = 0.
Y = a + bX + Err,
dove
118
Figura 9.5: r2 = 0.9.
La retta di equazione
y = a + bx.
viene chiamata retta di regressione" e i coefficienti a e b sono i parametri del
modello e hanno il seguente significato:
119
a = intercetta del modello (valore di y quando x = 0)
I valori dei parametri del modello sono ignoti a priori, quindi abbiamo il
seguente obiettivo: determinare i valori di a e b in modo che la retta di re-
gressione passi “il più vicino possibile” ai punti osservati.
dove
Erri = yi − (a + bxi )
120
La soluzione matematica è la seguente 1 :
Cov(X, Y )
b? =
V ar(X)
a? = Ȳ − b? X̄
121
troviamo che:
Cov(X, Y ) −1562.92
b? = = = -1.291
V ar(X) 1210.64
a? = 109.8 −(−1.291) · 101.4 = 240.71
La retta di regressione ha quindi equazione:
Y ? = a∗ + b ∗ X ? ,
122
Esempio 9.3: Consideriamo 5 reparti di un’azienda nei quali misuriamo le
variabili X = "Fattore lavoro" e Y = "Produzione".
Ci chiediamo se abbia senso stimare il modello
Reparto # X Y
1 2 14
2 3 7
3 5 23
4 7 25
5 9 32
X Y
Media 5.2 20.2
Varianza 6.65 76.56
Cov(X,Y) = 20.36
troviamo che:
Cov(X, Y ) 20.36
b? = = = 3.1037
V ar(X) 6.56
a? = 20.2 − 3.1037 · 5.2 = 4.0610
La retta di regressione ha quindi equazione:
y = 4.0610 + 3.1037x,
e il modello stimato è
123
Obiettivo: valutare la bontà di adattamento del modello Y = a+bX +Err
ai dati con un opportuno indice.
V ar(Err)
R2 = 1 − .
V ar(Y )
Si ha che:
124
R2 = 1 quando i punti stanno perfettamente sulla retta di regressione;
ovvero, se e solo se Erri = 0 per ogni i = 1, .., N . Siamo in presenza di
perfetto adattamento del modello.
Y = a + bX + err.
R2 = r 2 .
125
9.5 Homeworks
1. Il dataset che segue riporta la superficie (in migliaglia di m2 ) e il numero
di posti letto disponibili dei campeggi di una data località turistica:
126
2. Delle variabili quantitative X e Y sono note:
X Y
Media 15 -10
Deviazione standard 4 5
r2 0.36
127
4. Si consideri la matrice dei dati che segue, ove X ed Y sono due variabili
quantitative:
# X Y
1 1 3.1
2 1.5 2.8
3 3 4.5
4 3 4
5 3.8 5.2
6 4 5.5
7 4 5.6
8 4 4.8
9 4.5 5.2
128
(b) Calcolare il coefficiente di correlazione lineare tra prezzo e quan-
tità.
(c) Supponendo l’esistenza di un modello lineare che leghi le quantità
vendute al prezzo (curva di domanda) calcolare i parametri del
modello utilizzando il metodo dei minimi quadrati.
(d) Valutare, mediante l’apposito indice, la bontà di adattamento del
modello ai dati.
(e) Calcolare la quantità teorica sulla base del modello precedente,
qualora il prezzo fosse pari a 13.5.
129
Distribuzioni di quantità
Numeri indice
Serie storiche
Capitolo 10
Distribuzioni di quantità
131
Diagramma a barre
132
Ideogramma
Figura 10.3: Superficie media (in mq) di verde pubblico per ogni circoscrizione
della città di Torino (Fonte: Ufficio di Statistica del Comune di Torino).
Cartogramma
Figura 10.4: Numero di operatori del settore formaggi DOP per regione (anno
2009).
133
Diagramma a linee
Diagramma a radar
134
10.2 Rapporti statistici
Essenzialmente le grandezze ce si studiano possono essere di due tipi:
Osservazione:
1. Rapporti di composizione;
135
2. Rapporti di coesistenza;
Rapporti di composizione
Rapporti di coesistenza
Rapporti di densità
136
Esempio 10.3: Siano A = "numero abitanti" e B = "Superficie".
Rapporti di derivazione
Output
Ad esempio: R = Produttività =
Input
• Rapporti di incremento;
• Numeri indice.
137
• S(t1 ) = stock finale;
• Fe = flusso in entrata;
• Fu = flusso in uscita
Fe Fu
oppure .
S(t0 ) S(t1 )
(Fe + Fu )/2 Fe + Fu
= .
[s(t0 ) + s(t1 )]/2 s(t0 ) + s(t1 )
400
• Rapporto di ripetizione = =4
100
Il turnover è di 4 volte in un mese.
1
• Rapporto di ripetizione = · 30 = 7.599
4
La permanenza media nell’hotel è di circa 7.6 giorni.
138
10.4 Indicatori turistici
Introduciamo un particolare gruppo di rapporti statistici utili ai fini dello
studio del fenomeno TUR. Distinguiamo:
Numero viaggi
T Plordo = · 100.
popolazione media
Dove:
Osservazione: Nel numero di viaggi coloro che hanno fatto più di un viag-
gio vengono contati più volte.
Esempio 10.6:
139
Area TP TP
Nord 200 53
Centro 190 47
Sud 110 32
Italia 170 46
Osservazione:
• T Plordo : mi indica che, a livello nazionale, sono stati effettuati 170 viag-
gi ogni 100 italiani con rilevanti differenze tra ripartizioni territoriali:
al Nord 200, al sud 110.
Casi particolari :
Gli indicatori della propensione TUR possono essere calcolati anche in fun-
zione della durata del viaggio, tipo di alloggio, località di destinazione (o
altro).
140
Questi rappresentano dei rapporti di densità.
Introduciamo delle misure principali che stanno alla base della costruzione
di questi indicatori:
141
(1) Indicatori della pressione turistica:
Misura quanti turisti siano presenti (in media all’anno) ogni 100 resi-
denti.
Esempio 10.7:
Italia
pop.res. = 57 mln
presenze = 345 mln
345
TT = · 100 = 1.66
57 · 365
Toscana
3.5 mln
presenze = 38 mln
38
TT = · 100 = 2.97
3.5 · 365
• Indice di affollamento:
Presenze+Popolazione
· 100.
superficie
Indica il peso delle presenze tur a livello territoriale tenendo conto della
popolazione.
142
• Indice di sfruttamento territoriale:
arrivi+popolazione
.
superficie · 100
(2) Indici di utilizzazione:
presenze
IUlordo = · 100.
letti · 365
esprime quanta parte del totale dei letti disponibili sia stata utilizzata
durante l’anno.
presenze
IUnetto = · 100.
letti · giorni
Giorni = Numero di giornate in cui l’esercizio ricettivo è stato effetti-
vamente aperto.
Se IUnetto = 100 indica che l’utilizzo è completo.
Esempio 10.8:
Lombardia
18, 018
IUlordo = · 100 = 33.8
146 · 365
18, 018
IUnetto = · 100 = 42.1
146 · 293
143
144
Capitolo 11
Quando una grandezza viene misurata nel tempo si parla di serie storica o
serie temporale.
145
Esempio 11.1:
t 0 1 2 3 4 5
Gt 250 280 320 330 335 350
146
Obiettivo: studiare l’evoluzione di una serie storica nel tempo. In particolare,
definiamo alcuni indici che caratterizzano ltale evoluzione.
Definizione - Variazione assoluta: Si chiama variazione assoluta tra il
tempo 0 e il tempo T l’incremento o il decremento assoluto della serie:
0V AT = GT − G0 .
147
0V AT =0 V A5 = 350 − 250 = 100
100
0 ET =0 E5 v = = 20
5
1
0 OT =0 O5 = (|280 − 250| + |320 − 280| + |330 − 320| + |335 − 330| + |350 −
5
335|) = 20
Osserviamo che indice di oscillazione e variazione assoluta media coincidono
in questo esempio solo perchè la serie è crescente (si tratta quindi di un caso
particolare).
GT 350
−1= − 1 = 0.4
G0 250
148
La variazione nel periodo è stata del +40%.
Esempio 11.2:
Il PIL del turismo nel 2013 è 200.
Il PIL del turismo decresce del 5% dal 2013 al 2014. Di quanto dovrà au-
mentare il PIL nel 2015 per tornare al livello iniziale (del 2013)?
149
r
350
Nell’esempio 11.2: Il tasso medio composto è T
− 1 = 0.0696.
250
Vediamo infine alcune altre terminologie che si possono incontrare in questo
ambito.
Esempio 11.3:
150
t G 0 It t−1 It
0 250 1 -
1 280 1.12 1.12
2 260 1.04 0.93
3 240 0.96 0.92
151
Anno Bene A Bene B
2010 1 1
2011 1.07 1.04
2012 1.13 1.09
2013 1.2 1.11
2014 1.27 1.13
Il grafico dei numeri indice:
Esempio 11.5:
Anno Prezzo A 0 It : NI a base fissa t−1 It :
NI a base mobile
2010 15 1.00 -
2011 16 1.07 16/15 = 1.07/1.00
2012 17 1.13 17/16 = 1.13/1.07
2013 18 1.20 18/17 01.2/1.13
152
Da questo esempio si vede che:
0 It
t−1 It = ,
0 It−1
Ossia: dai numeri indice a base fissa posso ottenere quelli a base mobile.
Se moltiplicassimo tra loro i NI a base mobile otterremmo quelli a base fissa:
G1 G2 G3 Gt
0 I1 ·1 I2 ·2 I3 · ... ·t−1 It = · · · ··· · .
G0 G1 G2 Gt−1
Facendo le opportune semplificazioni otterremmo:
Gt
= . =0 It .
G0
(II) Se si calcola il rapporto tra due NI con la stessa base, si ottiene un NI
con una nuova base:
Gt
I
0 t G Gt
= 0 = =r It .
0 Ir Gr Gr
G0
Nell’esempio 11.5: Consideriamo gli arrivi in una località, con t = anno.
153
Figura 11.1: Trend non lineare con stagionalità.
Gt = Tt + St + Et ,
Gt = Tt · St · Et .
154
Figura 11.2: Trend lineare con stagionalità.
Gt = Tt + Et .
Tt = a + bt.
Riscriviamo il modello
Gt = a + bt + Et .
Siamo in grado di calcolare i coefficienti a e b a partire dai dati, utilizzando
il principio dei minimi quadrati.
Per scrivere questi modelli occorrono metodologie statistiche che esulano i contenuti di
questo corso.
155
Esempio 11.6:
Dal grafico si deduce che ha senso calcolare un trend lineare, ovvero conside-
rare il modello:
Gt = a + bt + Et .
Per calcolare i valori di a? e b? stimati da questi dati, come per la regressione,
poniamo X = t e Y = Gt .
Dobbiamo ora calcolare le medie, le varianze e la covarianza tra t e Gt .
Consideriamo t = 1, 2, ..., 5.
t Gt
Media 3 159.4
Varianza 2 613.44
Covarianza 34.4
Otteniamo i coefficienti:
Cov(t, Gt ) 34.4
b? = = = 17.2,
V ar(t) 2
a? = Gt − b? t̄ = 159.4 − 17.2 · 3 = 107.8,
Tt = 107.8 + 17.2 · t.
156
Rappresentiamo tale retta sul grafico.
11.5 Homeworks
1. La serie storica degli arrivi in una città d’arte nell’ultimo quadrimestre
del 2019 è contenuta nella seguente tabella:
157
(a) Calcolare la variazione assoluta della serie.
2. La tabella che segue riporta le serie storiche dei prezzi (in euro) di due
beni, denominati A e B.
(a) Calcolare la serie dei numeri indice dei prezzi dei due beni, en-
trambe con base 1999.
(c) Qual è stata la variazione dei prezzi tra il 2000 e il 2002 e quella
in media annua?
158
Trimestre Arrivi
I - 2014 158
II - 2014 165
III - 2014 210
IV - 2014 180
I - 2015 165
II - 2015 185
(b) Calcolare:
(d) Calcolare la serie dei numeri indice a base fissa ( base = III
trimestre 2014) e quella dei numeri indice a base mobile.
159
(b) Qual è il tasso medio composto mensile tra il tempo 0 e il tempo
3?
160
(a) Tracciare il grafico delle serie storiche. Quale delle due grandezze
in esame ha subito la variazione più consistente nel periodo 2008
- 2012?
(b) Calcolare le serie dei N.I. con base fissa 2008 e valutarne i trend
lineari. Commentare il significato dei coefficienti dei due trend
ottenuti.
7. La tabella che segue riporta i fatturati mensili di una data impresa nel
corso del secondo semestre 2012 (dati in migliaglia di Euro).
(b) Calcolare la serie dei numeri indice a base mobile e quella dei
numeri indice a base fissa (con base Luglio).
161