Sei sulla pagina 1di 161

Appunti del corso di

Statistica per i Sistemi Turistici


a cura di Caterina May e Aldo Goia

Università del Piemonte Orientale

caterina.may@uniupo.it

a.a. 2021-2022
Si ringrazia vivamente Alberto Cardani per il contributo alla redazione della
presente dispensa.

2
"L’intelligenza puó essere guidata solo dal desiderio. La gioia
di apprendere è indispensabile agli studi come la respirazione ai
corridori."

Simon Weil

3
4
Indice

1 Concetti base 11
1.1 Introduzione: cos’è la statistica? . . . . . . . . . . . . . . . . . 11
1.2 Progettare un’indagine: piano di rilevazione . . . . . . . . . . 12
1.3 Terminologia: definizioni fondamentali . . . . . . . . . . . . . 12
1.3.1 Classificazione delle variabili . . . . . . . . . . . . . . . 14
1.3.2 Scale di misura . . . . . . . . . . . . . . . . . . . . . . 15

2 Variabili e distribuzioni di frequenze 17


2.1 Rilevazione e matrice dei dati (dataset) . . . . . . . . . . . . . 17
2.2 Spoglio dei dati e distribuzioni di frequenze . . . . . . . . . . . 18
2.2.1 Esercizi sulle sommatorie . . . . . . . . . . . . . . . . . 21
2.3 Distribuzioni di frequenze in classi . . . . . . . . . . . . . . . . 23
2.4 Frequenze cumulate . . . . . . . . . . . . . . . . . . . . . . . . 24
2.5 Homeworks . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

3 Rappresentazioni grafiche delle distribuzioni di frequenze 29


3.1 Obiettivo e principali grafici . . . . . . . . . . . . . . . . . . . 29
3.2 Grafici per variabili qualitative . . . . . . . . . . . . . . . . . . 30
3.2.1 Diagramma a barre . . . . . . . . . . . . . . . . . . . . 30
3.2.2 Diagramma a colonna . . . . . . . . . . . . . . . . . . 30
3.2.3 Diagramma "a torta" ( o "a settori circolari") . . . . . 31
3.3 Rappresentazioni per variabili quantitative . . . . . . . . . . . 32
3.3.1 Diagramma a bastoni . . . . . . . . . . . . . . . . . . . 32
3.3.2 Istogramma . . . . . . . . . . . . . . . . . . . . . . . . 33
3.4 Esempi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.5 Homeworks . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.6 Distribuzioni di quantità: grafici . . . . . . . . . . . . . . . . . 41

5
4 Misure di sintesi: indicatori di posizione 43
4.1 Introduzione: indicatori di una variabile . . . . . . . . . . . . 43
4.2 Valori medi . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.2.1 Valore centrale . . . . . . . . . . . . . . . . . . . . . . 44
4.2.2 Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.3 Mediana e quartili . . . . . . . . . . . . . . . . . . . . . . . . 45
4.3.1 Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.3.2 Quartili . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.3.3 Quesiti . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.3.4 Box-plot . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.4 Media aritmetica . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.4.1 Media aritmetica per variabili con dati in classi . . . . 53
4.4.2 Considerazioni pratiche sulla media . . . . . . . . . . . 54
4.4.3 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.5 Media geometrica . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.6 Approfondimenti . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.7 Homeworks . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

5 Misure di sintesi: indicatori di dispersione 61


5.1 Intervalli di variazione . . . . . . . . . . . . . . . . . . . . . . 62
5.1.1 Range . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
5.1.2 Differenza interquartile . . . . . . . . . . . . . . . . . . 62
5.2 Scostamenti medi . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.2.1 Varianza e scarto quadratico medio . . . . . . . . . . . 64
5.3 Misure di variabilità relative . . . . . . . . . . . . . . . . . . . 67
5.4 Homeworks . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

6 Misure di sintesi: indicatori di concentrazione 73


6.1 Indice di concentrazione di Gini . . . . . . . . . . . . . . . . . 75
6.1.1 Indice di concentrazione di Gini dalle quote cumulate . 78
6.2 Curva di Lorenz . . . . . . . . . . . . . . . . . . . . . . . . . . 80
6.3 Indice di Herfindhal* . . . . . . . . . . . . . . . . . . . . . . . 87
6.4 Homeworks . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

7 Studio dell’eterogeneità 89
7.1 Indice di eterogeneità di Gini . . . . . . . . . . . . . . . . . . 90
7.2 Indice di entropia di Shannon . . . . . . . . . . . . . . . . . . 92
7.3 Homeworks . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

6
8 Variabili doppie e distribuzioni congiunte 97
8.1 Variabili doppie . . . . . . . . . . . . . . . . . . . . . . . . . . 97
8.2 Distribuzioni congiunte . . . . . . . . . . . . . . . . . . . . . . 98
8.3 Grafici per variabili doppie . . . . . . . . . . . . . . . . . . . . 100
8.4 Studio dei profili . . . . . . . . . . . . . . . . . . . . . . . . . 102
8.5 Homeworks . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

9 Correlazione lineare e modello di regressione lineare 111


9.1 Covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
9.2 Coefficiente di correlazione lineare . . . . . . . . . . . . . . . . 115
9.3 Regressione lineare . . . . . . . . . . . . . . . . . . . . . . . . 118
9.4 Bontà di adattamento del modello . . . . . . . . . . . . . . . . 123
9.5 Homeworks . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126

10 Distribuzioni di quantità 131


10.1 Rappresentazioni grafiche per le distribuzioni di quantità . . . 131
10.2 Rapporti statistici . . . . . . . . . . . . . . . . . . . . . . . . . 135
10.3 Rapporti di ripetizione e durata . . . . . . . . . . . . . . . . . 137
10.4 Indicatori turistici . . . . . . . . . . . . . . . . . . . . . . . . . 139

11 Serie storiche e numeri indice 145


11.1 Tassi di variazione . . . . . . . . . . . . . . . . . . . . . . . . 148
11.2 Numeri indice . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
11.3 Considerazioni finali sui numeri indice . . . . . . . . . . . . . 152
11.4 Introduzione all’analisi "tecnica" delle serie storiche e trend
lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
11.4.1 Determinazione del trend lineare (in assenza di stagio-
nalità) . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
11.5 Homeworks . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
8
Statistica univariata
10
Capitolo 1

Concetti base

1.1 Introduzione: cos’è la statistica?


Cos’è la statistica? La statistica è l’arte di imparare dai dati. Diamo una
definizione più formale:

Definizione - Statistica: è la disciplina che fornisce la metodologia per stu-


diare i fenomeni collettivi, cioè i fenomeni che si manifestano su numerose osservazioni.

Ad esempio, sono fenomeni collettivi:

- le mete turistiche dei Piemontesi nel 2020;

- in un dato hotel, il numero di clienti ogni anno (dal 2000 al 2020).

Le osservazioni di fenomeni collettivi possono essere di due tipi:

- in un dato momento (Analisi cross-section);

- nel tempo (Analisi di serie storiche o dati “panel”).

Gli obiettivi che la statistica si pone1 , sono:

1. Raccogliere le informazioni relative a ciascuna manifestazione del feno-


meno di interesse (“Micro-dati” o “dati elementari”);
1
in questo corso ci si limiterà allo studio della statistica descrittiva e non si affronteranno
gli obiettivi della statistica inferenziale

11
2. Sintetizzare tali dati in forma chiara e comprensibile con dati riassun-
tivi;

3. Utilizzare i risultati per conoscere i comportamenti, le relazioni, gli


andamenti e gli effetti dei fenomeni turistici d’interesse.

Osservazione: ci sono tanti modi per sintetizzare i micro-dati: è molto


importante comprendere bene questi “modi”, e questo sarà l’obiettivo della
prima parte del corso.

1.2 Progettare un’indagine: piano di rilevazio-


ne
Qualunque sia l’ambito dell’analisi statistica, lo studioso deve comprendere
il fenomeno e valutare quale siano gli obiettivi da perseguire; quale siano le
informazioni da rilevare; quali mezzi debba utilizzare ai fini dell’osservazione;
etc. Ciò si traduce nel progettare un’indagine (fare un piano di rilevazione),
in sostanza:

• Che cosa osservare? (qual è il carattere oggetto di studio?)

• Chi osservare? (qual è il collettivo oggetto di studio?)

• Dove e quando osservare? (luogo e tempo; può trattarsi di un’indagine


occasionale o periodica)

• Quali tecniche di rilevazione utilizzare? A tal proposito:

– La rilevazione può essere totale (censimento) o parziale (campio-


naria).
– Le tecniche di rilevazione possono essere, ad esempio: questionari
(a domande chiuse o aperte), intervista, web-data, ecc.

1.3 Terminologia: definizioni fondamentali


Alla base di tutte le indagini statistiche vi è una popolazione, o collettivo
statistico, su cui viene osservato un carattere che varia nella popolazione (e

12
per questo si dice anche variabile) da individuo a individuo 2 . Diamo alcune
definizioni fondamentali:

Definizione - Collettivo o Popolazione: è l’insieme delle unità statisti-


che (individui, oggetti, luoghi, entità, istanti temporali...) in cui si manifesta
il fenomeno oggetto di studio.

Definizione - Unità statistica: è ciascun elemento del collettivo (o po-


polazione).

Definizione - Carattere o Variabile: è una grandezza o un attributo che


si manifesta (si esprime) sulle unità statistiche del collettivo.

Definizione - Modalità: sono le diverse manifestazioni o espressioni della


variabile.

Oss: su uno stesso collettivo si possono manifestare diversi caratteri; ad uno


stesso carattere possono essere associate modalità differenti.

Esempio 1.2: Voglio studiare la domanda turistica, qual è il collettivo?


In questo caso il collettivo è composto dall’insieme dei turisti (in un dato
luogo, in un certo momento o periodo).

Esempio 1.3: Voglio studiare l’offerta turistica, qual è il collettivo?


Il collettivo è composto, ad esempio, dall’insieme dalle località di una certa
area geografica.

Esempio 1.4: Studio dei flussi turistici giornalieri in una data località, quali
sono le unità statistiche?
Le unità statistiche (ovvero cio su cui varia il fenomeno considerato) sono le
giornate, quindi la popolazione è formata dall’insieme dei giorni considerati.

Esempio 1.5: Dove vanno in vacanza gli Italiani?

Collettivo: {Italiani (maggiorenni)}.

2
quando il fenomeno considerato riguarda una sola variabile si parla di statistica
univariata; se si considerano due o piu variabili si parla di statistica bivariata o multivariata

13
Carattere: Luogo privilegiato di vacanza.

Modalità:
• Italia (regione), estero (stato);

• Tipo (Mare, montagna, città);

• ...

1.3.1 Classificazione delle variabili


La classificazione della variabili oggetto di studio è fondamentale all’inizio
di ogni indagine, poichè gli strumenti della statistica descrittiva cambiano a
seconda del tipo di variabile.

Innanzitutto una variabile (o carattere) può essere

(1) qualitativa (o categorica)

(2) quantitativa (o numerica)

Una variabile (o carattere) qualitativa può essere


- sconnessa (o nominale) se non esiste una relazione d’ordine naturale
tra le modalità
(Es. Città di residenza, mezzo di trasporto, meta turistica, ...);

- ordinale se esiste una effettiva relazione d’ordine naturale tra le mo-


dalità
(Es. livello di istruzione, giudizio di soddisfazione, ...);
Una variabile (o carattere) quantitativa può essere
- discreta se posso contare i valori che assume (le sue modalità sono in
corrispondenza con numeri interi, nell’insieme N)

- continua se cambia in modo infinitesimale (le sue modalità sono espri-


mibili mediante numeri reali, nell’insieme R)

- in classi se le modalità sono rappresentate da classi di misure (ovvero


intervalli)

14
1.3.2 Scale di misura
I caratteri e le loro modalità possono avere diverse scale di misura; conside-
riamo la seguente classificazione, dovuta a Stevens (1946)3 :

1. Scala nominale: le modalità sono attributi in cui non è presente una re-
lazione d’ordine naturale (Es: meta tusristica, corso di laurea, prvincia
di residenza, colore dei capelli, ecc.)

2. Scala ordinale: le modalità sono attributi in cui è presente una relazione


d’ordine naturale (Es: categoria di un albergo, grado di soddisfazione
di un cliente, livello di istruzione ecc.)

3. Scala per intervalli : Le modalità sono numeri di un sistema dotato


di origine arbitraria (lo zero) (Es: temperatura, voto di un esame,
ecc.).; per confrontare due valori ha senso ricorrere al confronto solo
per differenza

4. Scala per rapporti : le modalità sono numeri dove lo zero significa l’as-
senza di carattere (Es: età, reddito, patrimonio, durata di un soggiorno
turistico, statura, ecc.); per confrontare due valori ha senso ricorrere
anche al rapporto

3
Stevens, S.S. (1946). On the Theory of Scales of Measurement. Science, 103, 677-680

15
16
Capitolo 2

Variabili e distribuzioni di
frequenze

2.1 Rilevazione e matrice dei dati (dataset)


Una volta effettuata la rilevazione (ovvero: si associa ad ogni unità statistica
una ed una sola modalità per ciascun carattere in studio; l’operazione è
ripetuta per tutte le unità statistiche), i dati elementari (o dati grezzi o
micro-dati) raccolti vengono elencati nella matrice dei dati (o dataset).

Esempio 2.1: Supponiamo di aver effettuato un’indagine statistica per stu-


diare la provenienza e la statura di un gruppo di turisti alloggiati in un hotel
di Novara:

Sig. 1 : provenienza: Novara; altezza: 168;

Sig. 2 : provenienza: Alessandria; altezza: 166;

Sig. 3 : provenienza: Alessandria; altezza: 182;

...

Sig. N : provenienza: Novara, altezza: 172.

Definiamo le due variabili:

X = Provenienza;

Y = Altezza,

17
e raccogliamo le osservazioni nella seguente matrice dei dati:

# Individuo X Y
1 NO 168
2 AL 166
3 AL 182
... ... ...
... ... ...
... ... ...
N NO 172

La matrice dei dati può essere molto ampia e non è direttamente leggi-
bile o interpretabile. Per trarre delle informazioni utili la prima operazione
che si fa è quella di sintetizzarla nella tabella di distribuzione di frequenza,
come illustreremo nel prossimo paragrafo. In questa prima parte del corso ci
concentreremo sullo studio di una variabile alla volta (ovvero ci occuperemo
della “statistica univariata”).

2.2 Spoglio dei dati e distribuzioni di frequenze


Ci poniamo il seguente obiettivo: effettuare una prima sintesi dei dati grezzi
raccolti.

Esempio 2.2: Vogliamo studiare il grado di soddisfazione dei clienti di un


ristorante in un certo giorno.

Assegnamo a ciascun cliente un questionario:

18
A fine giornata ho 152 questionari compilati, i cui risultati sono elencati nel
seguente dataset (matrice dei dati grezzi):

Numero questionario Grado di soddisfazione


1 Buono
2 Più che sufficiente
.. ..
. .
152 Buono

In questa indagine abbiamo che:

- Popolazione = "Clienti del ristorante in quel giorno".

- La numerosità della popolazione è N = 152.

- Il carattere è X = "Grado disfazione dei clienti (Giudizio)": carattarere


qualitativo ordinale

- Le modalità distinte di questa variabile sono: {Insufficiente, Quasi


sufficiente, Sufficiente, Più che sufficiente, Buono}

Per poter usufruire delle informazioni contenute nella matrice dei effettuiamo
un operazione denominata spoglio dei dati, dalla quale otterremo la tabel-
la di distribuzione di frequenza, in grado di riassumere quanto fornito
dalla matrice dei dati.

Lo spoglio dei dati consiste in:

1. individuare le modalità distinte di X (riordinandole dalla più piccola


alla più grande, nel caso esista una relazione d’ordine), che indichiamo
con
x1 , x2 , · · · , xk ,
ove k è il numero di modalità distinte;

2. per ciascuna delle modalità xi contare il numero di unità statistiche che


hanno realizzato quella modalità (ovvero quanti dati sono uguali a xi );
tale numero è detto frequenza assoluta e si indica con ni ;

19
3. sistemare i risultati in una tabella, chiamata tabella di distribuzione di
frequenza:

Modalità distinte di X Frequenze assolute ni


x1 n1
x2 n2
.. ..
. .
xk nk

4. è possibile affiancare (o sostituire) le frequenze assolute con le frequenze


relative fi , cioè con le percentuali (o proporzioni) di unità statistiche
che realizzano la stessa modalità xi :
ni
fi =
N
(ove N denota la numerosità della popolazione):

Modalità distinte di X Frequenze assolute ni Frequenze relative fi


x1 n1 f1
x2 n2 f2
.. .. ..
. . .
xk nk fk

Nell’Esempio 2.2:
X ni fi
Insufficiente 3 2,0%
Quasi sufficiente 11 7,2%
Sufficiente 43 28,3%
Piu che sufficiente 54 35,5%
Buono 41 27,0%

Osserviamo che:

(i)
k
X
ni = n1 + n2 + ... + nk = N ;
i=1

20
dove Σ è il simbolo di sommatoria (notazione che utilizzeremo da ora
in avanti);

(ii)
k
X
fi = f1 + f2 + ... + fk = 100%(= 1).
i=1

Ci domandiamo inoltre: la tabella di distribuzione di frequenza assoluta


e quella di frequenza relativa ci danno le stesse informazioni? Ovvero: da
una delle due posso ottenere l’altra?
Passando dalle frequenze assolute a quelle relative perdo l’informazione
sulla numerosità N , quindi: dalla tabella di distribuzione di frequenza re-
lativa posso ottenere quella di frequenza assoluta solo se conosco anche la
numerosità N della popolazione.

2.2.1 Esercizi sulle sommatorie


1. Consideriamo la seguente successione di valori

{2.1 8 10.4 − 5.1 4.8 1.5}

Indichiamo con xi il termine i-esimo di tale successione (ad esempio:


x4 = −5.1). Calcolare:
4
X
• xi = 2.1 + 8 + 10.5 − 5.1 = 15.4
i=1
6
X
• xi = −5.1 + 4.8 + 1.5 = 1.2
i=4
5
X xi 8 10.4 5.1 4.8 1  18.1
• = + − + = 8 + 10.5 − 5.1 + 4.8 = =
i=2
2 2 2 2 2 2 2
9.05

Oss: Si noti che


k k
X xi 1X
= xi .
i=1
2 2 i=1

21
3
X 3
X 3
X


xi −3 = (2.1−3)+(8−3)+(10.4−3) = xi − 3 = 11.5
i=1 i=1 i=1
| {z }
=3·3
3
X
• xi − 3 = 17.5
i=1
3
X
• |xi − 6.5| = |2.1 − 6.5| + |8 − 6.5| + |10.4 − 6.5| = . . .
i=1

Ricordando che il modulo (o valore assoluto) di un numero è


(
x se x ≥ 0
|x| = .
−x se x < 0

Si ha che:

· · · = 4.4 + 1.5 + 3.9 = 9.8


3
X √ √ √ √
• xi = 2.1 + 8 + 10.4 = 7.5025
i=1
v
u 3
uX
• t xi = 4.5277
i=1

2. Consideriamo la seguente distribuzione di frequenze

X Frequenze relative
-5 0.1
0 0.2
2 0.5
6 0.2

Si calcolino le seguenti quantità:

(a) Sapendo che N = 300, calcolare n3


(b) Calcolare la proporzione di unità statistiche su cui X = 0
(c) Calcolare la proporzione di unità statistiche su cui X ≤ 0
4
X
(d) Calcolare x i fi
i=1

22
4
X
(e) Calcolare (xi − 10)2 fi
i=1

Risoluzione

(a) Ricordiamo che


ni
fi = ⇒ ni = fi · N.
N
Allora si ha che

n3 = f3 · N = 0.5 · 300 = 150.

(b) Otteniamo
f2 = 0.2.

(c) Otteniamo
f1 + f2 = 0.1 + 0.2 = 0.3.

(d) Si ha che
4
X
xi fi = (−5) · 0.1 + 0 · 0.2 + 2 · 0.5 + 6 · 0.2 = 2.1.
i=1

(e)
4
X
(xi − 10)2 fi = · · · = 75.3.
i=1

2.3 Distribuzioni di frequenze in classi


Infine, quando i dati di una variabile quantitativa sono tutti diversi (o quasi),
per sintetizzare i dati occorre dividerli in classi di valori (da un minimo ad
un massimo), cioè in intervalli.
In questo caso le frequenze assolute o relative vengono calcolate nelle classi.

Esempio 1.8: Rilevazione ISTAT sulla "capacità degli esercizi ricettivi in


Italia" (2014).

X = "Numero delle camere"

23
Numero delle camere Frequenze assolute ni Frequenze relative fi
0 a 25 18.332 55%
25 a 99 19.578 40,8%
100 a ... 1.406 4,2%
N 1

Altri modi per scrivere le classi:

• 0 - 25; 26 - 99; 100 e oltre.

• (0, 25]; (26, 99]; (100, ...].

2.4 Frequenze cumulate


Fin’ora abbiamo parlato di frequenze assolute ni e relative fi definendole
rispettivamente come il numero (per le frequenze assolute) o la porzione
(per le frequenze relative) di unità statistiche su cui si osserva una data
realizzazione.
Ci chiediamo ora quale sia quel numero di unità statistiche o quella por-
zione di popolazione tale per cui si osserva che il carattere non supera un
dato valore. Naturalmente, il carattere deve essere di tipo quantitativo o
qualitativo ordinale. Si tratta del concetto di frequenza cumulata.
Definizione - Frequenza assoluta cumulata: Si definisce frequenza as-
soluta cumulata Ni quel numero di unità statistiche su cui si è osservato un
valore inferiore o uguale alla realizzazione xi .

Definizione - Frequenza relativa cumulata: Si definisce frequenza asso-


luta cumulata Fi quella porzione di unità statistiche su cui si è osservato un
valore inferiore o uguale alla realizzazione xi .

Inseriamo queste definizioni nella seguente tabella:

24
X Freq. Ass. Freq. Ass. Cumul. Freq. Rel Freq. Rel. Cumul.
x1 n1 N1 = n 1 f1 F1 = f 1
x2 n2 N2 = n 1 + n 2 f2 F2 = f 1 + f 2
x3 n3 N3 = n 1 + n 2 + n 3 f3 F3 = f 1 + f 2 + f 3
.. .. .. .. ..
. . . . .
xi ni Ni = h=1 nh fi Fi = h=1 fh
Pi Pi
.. .. .. .. ..
. . . . .
xk nk Nk = N fk Fk = 1
N 1

Nell’esempio: X = "Esame sostenuto dagli studenti nella sessione estiva


del I anno".

Esami sostenuti Frequenze relative Frequ. Rel. Cumul


0 0.05 0.05
1 0.2 0.05 + 0.2 = 0.25
2 0.35 0.05 + 0.2 + 0.35 = 0.6
3 0.33 0.05 + 0.2 + 0.35 + 0.33 = 0.93
4 0.06 0.05 + 0.2 + 0.35 + 0.33 + 0.06 = 0.99
5 0.01 0.99 + 0.01 = 1

2.5 Homeworks
1. Si faccia un esempio (diverso da quelli già fatti a lezione) di una varia-
bile definita su un collettivo le cui unità statistiche sono:

(a) individui;
(b) oggetti;
(c) strutture ricettive;
(d) luoghi;
(e) momenti temporali.

Per ciascun esempio si specifichi quali sono le modalità asunte dalla


variabile e di che tipo di variabile si tratta, compresa la scala di misura.

25
2. In un certo hotel la camera doppia nel 2016 costava 100 Euro. Nel
2017 il prezzo è aumentato del 10% e l’hotel ha perso molti clienti.
Se il proprietario per il 2018 ridiminuisse il prezzo del 10% quanto
costerebbe la camera doppia?

3. Si ripeta l’esercizio 1 per la camera singola, il cui prezzo nel 2016 era
l’86% del prezzo della doppia.

4. Un’indagine compiuta in una località sciistica della Valle d’Aosta sulla


zona di provenienza dei turisti italiani che hanno acquistato uno skipass
nel gennaio 2018 ha dato i seguenti risultati:

Zona di provenienza Num. Turisti


Vale d’Aosta 250
Piemonte 1000
Lombardia 1044
Liguria 870
Resto d’Italia 720

(a) Qual è la popolazione e quali sono le unità statistiche?


(b) Qual è la variabile e di che tipo è?
(c) Qual è la scala di misura?
(d) Che cosa rappresentano i numeri sulla colonna di destra?
(e) Quanto è la numerosità della popolazione N ?
(f) Completare la tabella calcolando le frequenza relative in percen-
tuale.

5. Gli importi dei pagamenti effettuati tramite bancomat il 2 febbraio


presso un ristorante di Novara sono i seguenti (valori in Euro):

100 97.4 97.4 100 93.5 105 91.5 93.5 97.4 100 91.5 97.4

(a) Qual è la popolazione e qual è la variabile?


(b) Che tipo di variabile è?
(c) Qual è la scala di misura di questa variabile?
(d) Costruire la tabella di distribuzioni di frequenza.

26
6. Si consideri la seguente distribuzione di frequenza, che è stata appros-
simata alla seconda cifra decimale:
X Freq relative
-3 0.01
0 0.1
10 0.7
12 0.19

(a) Sapendo che N = 150, calcolare n1 e n3 .


(b) Calcolare 4i=1 xi fi .
P

(c) Calcolare 4i=1 x2i fi .


P

(d) Calcolare 1 − 4i=1 fi2 .


P

(e) Calcolare la proporzione di unità statistiche su cui X ≤ 10.


(f) Calcolare la proporzione di unità statistiche su cui X > 3.

7. La matrice dei dati che segue raccoglie i dati provenienti dal carattere
Numero di stanze effettuate sugli alberghi di una piccola località.

Numero di stanze 30 100 50 100 30 30 70 50 70 30

(a) Qual è la popolazione?


(b) Qual è la natura del carattere in studio?
(c) Effettuare lo spoglio dei dati costruendo la distribuzione di fre-
quenze assolute e relative.

8. Si consideri la seguente successione di valori:


{xi } = {5.1 − 2.7 0 3.5 4.5 8.7 − 1.5}
Calcolare:
qP
(a) 3 5
i=2 xi
3
qP
(b) 6
i=4 (xi − 5)
2

P7 √
(c) i=1 xi + 3
xi − 3
(d)
P3
i=1
xi+1 + 3
(e)
P3 2
P7 4
i=1 xi − i=5 4xi

27
28
Capitolo 3

Rappresentazioni grafiche delle


distribuzioni di frequenze

3.1 Obiettivo e principali grafici


L’obiettivo principale nel rappresentare graficamente una variabile è quello
di avere un’informazione visiva, quindi immediata e sintetica, della sua di-
stribuzione di frequenze.
A seconda del tipo di variabile si utilizzano grafici diversi; tra i piu importanti
grafici della statistica univariata vi sono:

Grafici per variabili qualitative:

– Diagrammi a barre;
– Diagrammi "a torta" (o "a settori circolari");
– Diagrammi a colonna.

Grafici per variabili quantitative:

– Diagrammi a bastoni;
– Istogrammi;
– Boxplot.

29
3.2 Grafici per variabili qualitative
3.2.1 Diagramma a barre
È formato da rettangoli non contigui (uno per ogni modalità osservata) aven-
ti uguale base e altezza proporzionale alle frequenze assolute (ni ) oppure alle
frequenze relative (fi ) di ciascuna modalità.

Esempio 2.3: X = "Mezzo di trasporto utilizzato nei viaggi".

Mezzi Viaggi in %
Auto 65%
Treno 12%
Aereo 15%
Altro 8%

Il corrispondente diagramma sarà:

A volte il diagramma a barre viene fatto ordinando le barre dalla più fre-
quente alla meno frequente; in questo caso si ottiene il diagramma di Pareto.

3.2.2 Diagramma a colonna


Questo tipo di grafico è utile per visualizzare come una variabile qualitativa
si ripartisce nel collettivo.

30
Si ha un rettangolo di lunghezza N (se si utilizzano le frequenze assolute) o
100% (se ci si riferisce alle frequenze relative) che viene suddiviso in rettan-
goli contigui, tanti quanti sono le modalità, ciascuno di lunghezza pari alla
corrispettiva frequenza assoluta ni (o alla frequenza relativa fi ).

Nell’Esempio 2.3:

3.2.3 Diagramma "a torta" ( o "a settori circolari")

La rappresentazione a torta ha l’aspetto di un "cerchio" (o ciambella) sud-


diviso in k settori circolari, ognuno di questi di ampiezza proporzionale alla
frequenza corrispondente.

Nell’Esempio 2.3:

31
3.3 Rappresentazioni per variabili quantitative
3.3.1 Diagramma a bastoni
Questo tipo di diagramma viene utilizzato per rappresentare la distribuzione
di frequenza di una variabile quantitativa discreta con un numero limitato di
realizzazioni (indicativamente al massimo 20).

Per costruirlo sul piano cartesiano occorre:

• Rappresentare sull’asse delle ascisse le k modalità distinte.

• Segnare sull’asse delle ordinate le corrispondenti frequenze (assolute o


relative).

Il risultato saranno dei "bastoni" (o colonnine) alti quanto la frequenza cor-


rispondente.

Esempio 2.5: X = "Esame sostenuto dagli studenti nella sessione estiva del
I anno".

32
Esami sostenuti Frequenze relative
0 0.05
1 0.2
2 0.35
3 0.33
4 0.06
5 0.01

Osservazione: quando le modalità distinte sono molte (diciamo, più di


20) è opportuno raccogliere i dati in classi; se i dati sono racolti in classi non si
può però utilizzare questo grafico, che considera le frequenze dei singoli valori.
Per dati in classi si deve utilizzare l’istogramma, introdotto nel prossimo
paragrafo.

3.3.2 Istogramma
L’istogramma viene utilizzato per rappresentare una distribuzione di frequen-
za espressa in classi di valori.
Costruzione: sul piano cartesiano si rappresentano dei rettangoli contigui,
un rettangolo per ciascuna classe, con base coincidente con la classe stessa e
area pari alla frequenza (assoluta o relativa).

Quanto vale l’altezza di ciascun rettangolo? Osserviamo che:

- Area del rettangolo i-simo = fi o ni (frequenza relativa o asoluta);

33
- Base del rettangolo i-simo = ai (ampiezza della classe i-ma)
(ovvero la differenza tra l’estremo superiore li della classe e l’estremo
inferiore li−1 );

fi ni
- Altezza del rettangolo i-simo = hi = oppure
ai ai

Definizione : hi viene chiamata densità di frequenza (relativa o asso-


luta) della classe i-sima.

Esempio 2.6: X = "Temperatura media a dicembre 2018 nei comuni di una


zona dell’Italia centrale".

Classi Frequenze assolute ni ampiezze ai Densità hi


-5 a 0 8 0 - (-5) = 5 8 / 5 = 1.6
0a5 20 5-0=5 20 / 5 = 4
5 a 15 20 15 - 5 = 10 20 / 10 = 2
15 a 20 10 20 - 15 = 5 10 / 5 = 2

34
3.4 Esempi
Esempio 1 Rappresentare graficamente le seguenti distribuzioni di frequen-
ze.

(A) (B)

Sesso Numerosità Voto di diploma Frequenze


M 75 60 - 80 0.20
F 85 80 - 90 0.60
160 90 - 100 0.20

(C) (D)

Età Frequenze Anno di iscrizione Frequenze


19 5% I 128
20 70% II 16
21 20% III 10
22 5% F.C. 6

Soluzione

35
(A) Sesso:

(B) Voto di diploma:

(C) Età:

(D) Anno di iscrizione:

36
Esempio 2 Rappresentare l’istogramma corrispondente alla seguente distri-
buzione di frequenze.

X Freq. Rel.
0 - 50 25%
50 - 75 25%
75 - 100 25%
100 - 150 25%

Soluzione

Esempio 3 Rappresentare l’istogramma corrispondente alla seguente distri-


buzione di frequenze.

X Freq. Ass.
0 - 10 20
10 - 12 4
12 - 20 16

Soluzione

37
Esempio 4: Qual è l’errore nel grafico?

Il grafico fornisce una rappresentazione distorta della realtà perchè con il


diagramma a torta non si tiene conto dell’ampiezza delle classi.

38
Il grafico corretto sarebbe il seguente:

3.5 Homeworks
1. Si consideri la seguente distribuzione di frequenze con dati in classi
della variabile X = “Profitti/Perdite (in migliaia di euro) delle imprese
turistiche operanti in una data regione”.

X Freq relative
(-5,0] 0.2
(0,2] 0.2
(2,10] 0.4
(10,20] 0.2

(a) Individuare la popolazione e la variabile in studio. Specificare la


natura della variabile.
(b) Scegliere il tipo di grafico più opportuno per rappresentare tale
distribuzione e poi realizzarlo (indicare chiaramente i valori sul
grafico!).
(c) Qual è la frequenza relativa di unità statistiche su cui:
i. X > 2;
ii. 0 < X < 10;
iii. i profitti/perdite sono compresi tra i -2 e i 4mila euro.
(d) Calcolare il valore centrale e la moda di X.

39
2. Si supponga che della variabile X si siano rilevati i seguenti dati ele-
mentari:

c d c b c b b a c c b b b d a

(a) Specificare il tipo di variabile e la scala di misura.


(b) Effettuare lo spoglio dei dati fornendo la distribuzione di frequenze
assolute e relative.
(c) Rappresentare graficamente tale distribuzione.
(d) Qual è la moda?

3. Si completi in modo opportuno la seguente tabella:

Classi Freq. ass. Freq. rel. Ampiezze classi Densità di frequenze


20 - 40 0.5
40 - 100 0.5
100 - 120 20
Totali 100% **** ****

4. Si supponga che la variabile X abbia assunto i seguenti dati elementari:

4 1 5 2 0 1 5 0 1 0 2 6 1 2

(a) Specificare il tipo di variabile.


(b) Effettuare lo spoglio dei dati.
(c) Rappresentare graficamente la distribuzione.
(d) Determinare valore centrale e moda.

5. La misurazione del peso di un gruppo di 15 coscritti ha fornito i seguenti


risultati (espressi in Kg):

69.8 71.3 69.6 88.3 84.8 80.5 70.2 62.3 64.1 67.4 81.2 65.9 84.9 53.5 55.2

(a) Qual è la variabile e quali sono le unità statistiche?


(b) Che tipo di variabile è? Qual è la scala di misura?

40
(c) Costruire la tabella delle distribuzioni di frequenze assolute e re-
lative raccogliendo i dati nelle seguenti classi:

(40; 60] (60; 70] (70; 80] (80; 100]

(d) Rappresentare graficamente la distribuzione.

6. Si rappresenti graficamente, in tre modi diversi, la distribuzione di


frequenza considerata nell’Esercizio 4 degli Homeworks 2.5.

7. Si rappresenti graficamente la distribuzione di frequenza di X data


nell’Esercizio 5 degli Homeworks 2.5.

8. Si rappresenti graficamente la distribuzione di frequenza della variabile


dell’Esercizio 6 degli Homeworks 2.5.

3.6 Distribuzioni di quantità: grafici

41
42
Capitolo 4

Misure di sintesi: indicatori di


posizione

4.1 Introduzione: indicatori di una variabile


Abbiamo visto che la distribuzione di una variabile X può essere sintetiz-
zata nella tabella di distribuzione di frequenza. Ci poniamo ora il seguente
obiettivo: sintetizzare ulteriormente la distribuzione di X attraverso dei va-
lori di sintesi detti indici (o indicatori ) che mostrino delle caratteristiche
salienti della distribuzione stessa.
A seconda del tipo di carattere distinguiamo le seguenti categorie di indici:

Per variabili quantitative si hanno:

– Indici di posizione (valori medi);


– Indici di dispersione;
– Indici di concentrazione.

Per variabili qualitative si hanno:

– Indici di tendenza;
– Indici di omogeneità.

In questo capitolo ci occuperemo degli indici di posizione per le variabili


quantitative.

43
4.2 Valori medi
Cominciamo con una definizione generale, che comprende tutti gli indici di
posizione:
Definizione - Valore medio: Sia X una variabile quantitativa con modalità
distinte (ordinate)
x1 , x2 , ..., xk ;
si dice valore medio per X un qualsiasi numero m tale che
x1 ≤ m ≤ xk
ossia
xmin ≤ m ≤ xmax .
Ogni volta che abbiamo un "valore medio" abbiamo quindi un’indicazione
sintetica della "posizione" della variabile. A seconda del diverso principio di
sintesi che vogliamo adottare, otteniamo uno specifico valore medio: il valore
centrale, la moda, la mediana e i quartili, la media aritmetica e la media
geometrica.

4.2.1 Valore centrale


Consideriamo gli estremi inferiore e superiore della distribuzione di una varia-
bile X, che indichiamo rispettivamente con xmin (coincidente con x1 poichè
le modalità distinte sono ordinate) e xmax (coincidente con xk ), e adottiamo
il seguente

Principio: "centralità" tra gli estremi della distribuzione.

Definizione: si dice valore centrale o mid-range il numero:


xmin + xmax
MR = .
2
Esempio 4.1:

X Freq. Rel.
2 0.1
5 0.25
6 0.5
8 0.1
15 0.05

44
da cui
2 + 15
MR = = 8.5
2
Alla luce dell’esempio osserviamo che il valore centrale

- è molto immediato da calcolare;

- non tiene conto delle frequenze.

4.2.2 Moda
Principio: "prevalenza" all’interno della distribuzione.

Definizione: si dice moda il valore che si presenta con la massima frequenza;


qualora la distribuzione di X sia data in classi, si parla di classe modale, ossia
la classe con la massima densità di frequenza.
Graficamente, si tratta del valore di X corrispondente al bastoncino "più
alto"; sull’istogramma, il rettangolo con altezza maggiore.

Nell’esempio 4.1: La moda è 6, in quanto è il valore con frequenza mag-


giore, cioè 50%.

Osserviamo che la moda può non essere unica (ad esempio vi può essere una
distribuzione “bimodale” etc.)

4.3 Mediana e quartili


Principio: trovare dei valori di soglia che suddividano il collettivo, ordina-
to secondo i valori della variabile, in gruppi disgiunti di pari (o circa pari)
numerosità. In particolare:

- due gruppi: mediana;

- quattro gruppi: quartili.

Secondo la loro definzione rigorosa, che daremo tra poco, mediana e quartili
possono non essere unici. Assumeremo qui che la mediana e i quartili appar-
tengano all’insieme dei valori di X osservati e daremo una regola di calcolo
per poter determinare mediana e quartili in modo univoco.

45
4.3.1 Mediana
I due gruppi sono formati: il primo da tutte le unità statistiche su cui sono
osservati valori non superiori a tale soglia; il secondo da tutte le rimanenti
unità statistiche.

Definizione: Si dice mediana (Me) di una variabile X quel valore tale per
cui almeno la metà (ovvero il 50%) delle unità statistiche soddisfa

X ≤ M e,

e almeno il 50% delle unità statistiche soddisfa

X ≥ Me
Esempio 4.2: Consideriamo il seguente data-set:

X = {−1, 0, 3, −1, 0}.

Riordiniamo il data-set per trovare la mediana:

Xord = {−1, −1, 0, 0, 3};

si può vedere che M e = 0.

Esempio 4.3: Consideriamo il seguente data-set:

X = {2, −3, 0, 4, 2, 1, 1, 1, 5, 6, −3, −3, 1, 1, 1, 1}


È un dataset di numerosita N = 16; dal dataset riordinato:

Xord = {−3, −3, −3, 0, 1, 1, 1, 1, 1, 1, 1, 2, 2, 4, 5, 6}

si può vedere che M e = 1.

Osservazione (regola di calcolo):

0.5 · N = ”#dato corrisponente alla mediana”

Una possibile regola di calcolo della mediana è quella, una volta riordinati i
dati in ordine crescente, di prendere il dato 0, 5 · N -simo (se 0, 5 · N è intero)
o il dato successivo (se 0, 5 · N non è intero);

46
ad esempio: se N = 16, allora 0.5 · N = 8 → prendo l’ottavo dato;
se N = 17, allora 0.5 · N = 8.5 → prendo il nono dato.

Tuttavia, questa regola di calcolo è applicabile solo se si hanno i singoli dati


(ossia i microdati). Vediamo ora come determinare la mediana a partire dalla
tabella di distribuzione di frequenze.

Esempio 4.4: Consideriamo la seguente distribuzione di frequenze:

X ni fi Fi
1 3 0.2727 0.2727
3 4 0.3636 0.6363
8 3 0.2727 0.9090
10 1 0.0909 0.9999 (1)
N = 11 1

Possiamo trovare la mediana guardando le frequenze assolute: M e = 3 es-


sendo 3 il sesto dato ordinato. Oppure attraverso il calcolo delle frequenze
cumulate Fi :

Osservazione (regola di calcolo): la mediana è il più piccolo valore di X


in cui la frequenza cumulata Fi è almeno il 50%.

4.3.2 Quartili
Definizione:

- Si dice primo quartile quel valore Q1 tale che almeno 1/4 (ovvero il
25%) delle unità statistiche soddisfa

X ≤ Q1

e almeno il restante 3/4 (il 75%) delle unità statistiche soddisfa X ≥


Q1

- Si dice secondo quartile quel valore Q2 tale che almeno 2/4 (ovvero
il 50%) delle unità statistiche soddisfa

X ≤ Q2

47
e almeno il restante 2/4 (il 50%) delle unità statistiche soddisfa X ≥
Q2 (si noti che Q2 = M e).

- Si dice terzo quartile quel valore Q1 tale che almeno 3/4 (ovvero il
75%) delle unità statistiche soddisfa

X ≤ Q3
e almeno il restante 1/4 (il 25%) delle unità statistiche soddisfa X ≥ Q3 .
Come per la mediana vediamo come calcolare i quartili di una variabile X sia
a partire dal data-set che a partire dalla tabella di distribuzione di frequenza.

Esempio 4.5: Consideriamo il seguente data-set:

X = {8, 10, 1, 8, 1, 3, 1, 8, 3, 3, 3}
Xord = {1, 1, 1, 3, 3, 3, 3, 8, 8, 8, 10}

Sapendo che N = 11, applico la stessa regola utilizzata per calcolare la me-
diana: trovo il dato n-esimo.

Q1 = 0.25 · N = 0.25 · 11 = 2.75 → prendo il terzo dato


→ Q1 = 1
Q2 = 0.5 · N = 0.5 · 11 = 5.5 → prendo il sesto dato
→ Q2 = 3
Q3 = 0.75 · N = 0.75 · 11 = 8.25 → prendo il nono dato
→ Q3 = 8

Esempio 4.6: Analizziamo l’esempio precedente, ma al posto del data-set


supponiamo di conoscere la distribuzione di frequenze.

X fi Fi
1 0.2727 0.2727
3 0.3636 0.6363
8 0.2727 0.9090
10 0.0909 0.9999 (1)
1 1

Q1 È il più piccolo valore di X in cui la frequenza cumulata è almeno il


25% → Q1 = 1;

48
Q2 È il più piccolo valore di X in cui la frequenza cumulata è almeno il
50% → Q2 = 3;

Q3 È il più piccolo valore di X in cui la frequenza cumulata è almeno il


75% → Q1 = 8.

4.3.3 Quesiti
1. La mediana delle vacanze degli studenti TUR è 15 giorni. Cosa signi-
fica?

2. Il terzo quartile del numero di addetti per impresa nel settore turistico
è 5. Cosa significa?

3. La mediana degli arrivi mensili a un museo di Novara nel 2019 è stata


512. Cosa significa?

4. Il 25% dei turisti che hanno frequentato un certo locale nel settembre
2021 non ha più di 30 anni. Tradurre in termini di quartili.

4.3.4 Box-plot
Il Box-plot (o box and whiskers plot ) ("Diagramma a scatola e baffi") è
una rappresentazione grafica della distribuzione di frequenze di una variabile
quantitativa X basata sulle informazioni date dai quartili e dagli estremi dai
quartili.
Come si interpreta? La variabile X è compresa tra i due baffi; nella “scatola”
trovo il 50% dei dati.

Approfondimento*:

Una metodologia più raffinata per rappresentare il box-plot è quella di Tukey.


Essa consiste nel rappresentare normalmente la scatola mediante i quartili,
ma i baffi hanno lunghezza massima pari a una volta e mezzo la lunghezza
della scatola, ossia

baffomax = 1.5(Q3 − Q1 ).

Tutti i dati che non rientrano nei baffi sono outliers e vengono indicati con

49
un asterisco.

Esempio 3.11: Consideriamo il seguente dataset:

X = {1, 2, 2, 3, 3, 4, 5, 15}

Abbiamo che

Q1 = 2Q2 = 3Q3 = 4
baffomax = 1.5(4 − 2) = 3

Graficamente:

50
4.4 Media aritmetica
Principio: “redistribuzione equa” di caratteri trasferibili, ossia di caratteri che
possono essere redistribuiti tra le unità statistiche.

Consideriamo un carattere X e supponiamo che esso sia trasferibile, ov-


vero sia misurabile in scala per rapporti e possa essere suddiviso e cedut da
un’unità ad all’altra. In questo caso la media aritmetica è quel valore che
il carattere assumerebbe se l’ammontare totale del carattere stesso venisse
redistribuito equamente tra tutte le unità statistiche.

Esempio 4.7: Sia X il reddito mensile (in migliaia di euro) di alcuni


lavoratori dipendenti di un’impresa del settore turistico.

X = {1.5, 1.2, 1.2, 1.8, 1.5, 1.2}.

Il reddito è un carattere trasferibile, in quanto tale può essere redistribui-


to (pensiamo banalmente a quando acquistiamo un bene, in cui di fatto
trasferiamo una parte del nostro reddito al venditore).
Consideriamo l’ammontare totale del carattere:

T = 1.5 + 1.2 + 1.2 + 1.8 + 1.5 + 1.2 = 8.4.

Ci chiediamo: qual e il reddito che spetterebbe a ciascun lavoratore se re-


distribuissimo il totale in modo da assegnare a ciascun lavoratore lo stesso

51
importo? Considerando che ci sono N = 6 lavoratori, dividiamo l’importo
complessivo per il numero dei lavoratori e otteniamo

T 8.4
= = 1.4.
N 6
Tale numero è detto media aritmetica di X, si indica con X̄ e si ottiene
sommando gli N dati elementari e suddividendo per N. Notiamo che è un
valore medio nel senso della definzione data all’inizio, nel paragrafo 4.1.

Osservazione: la media aritmetica può essere calcolata anche per caratteri


non trasferibili, sarà comunque un indicatore di posizione anche se non potrà
avere la stessa interpretazione.

Riprendendo l’esempio, notiamo che, riordinando i dati nella somma,

8.4 = 1.2 + 1.2 + 1.2 + 1.5 + 1.5 + 1.8


= 1.2 · 3 + 1.5 · 2 + 1.8 · 1
= x1 · n1 + x2 · n2 + x3 · n3

Più in generale, l’ammontare totale T di una variabile X si può scrivere


come

k
X
T = xi · n i
i=1

Osservazione: Quest’ultima scrittura sarebbe ancora valida anche qualo-


ra le modalità fossero tutte distinte, cioè k = N e ni = 1 per ogni i.

Possiamo quindi deinire la media aritmetica come:


k
1 X
X̄ = xi · n i ;
N i=1
ni
inoltre, sapendo che vale fi = , essa può essere calcolata anche come:
N
k
X
X̄ = xi · f i ;
i=1

dall’ultima scrittura notiamo che è possibile calcolare la media aritmetica

52
soltanto a partire dalle frequenze relative, senza conoscere la numerosità N .

*Approfondimento 4.2

Esempio 4.8: Consideriamo il seguente data-set.

X = {1, 3, 1, 7, 8, 1, 3, 7, 3, 3}.
Calcoliamo la media a partire dalla matrice di dati sapendo che N = 10.

1+3+1+7+8+1+3+7+3+3
X̄ = = 3.7
10
Eseguiamo lo spoglio dei dati ai fini di mostrare che la media ha lo stesso
valore.

X Freq. Ass. Freq. Rel.


1 3 0.3
3 4 0.4
7 2 0.2
8 1 0.1

Calcoliamo la media in due modi:

1
X̄ = (1 · 3 + 3 · 4 + 7 · 2 + 8 · 1) = 3.7
10
X̄ = (1 · 0.3 + 3 · 0.4 + 7 · 0.2 + 8 · 0.1) = 3.7

4.4.1 Media aritmetica per variabili con dati in classi


Sia X una variabile con dati in classi; per calcolare la media aritmetica, in
questo caso, assumiamo che tutte le unità statistiche in una classe abbiano
come valore il centro della classe (si tratta di un’approssimazione ragionevo-
le).
Ricordiamo che il centro C di un generico intervallo (a, b] è dato da

a+b
C= .
2
53
Esempio 4.9: Consideriamo la seguente distribuzione di frequenze, riferita
alla variabile X con dati in classi:

X Freq. Rel.
-10 a 0 0.3
0 a 20 0.5
20 a 50 0.2

Calcoliamo i centri di classe

X Centri Freq. Rel.


-10 a 0 (-10 + 0)/2 = -5 0.3
0 a 20 (0 + 20)/2 = 10 0.5
20 a 50 (20 + 50)/2 = 35 0.2

La media sarà quindi

X̄ = (−5 · 0.3 + 10 · 0.5 + 35 · 0.2) = 10.5


La media aritmetica cosi calcolata e un’approssimazione della vera media
aritmetica che otterrei se avessi tutti i dati.

4.4.2 Considerazioni pratiche sulla media


Confrontiamo in questo paragrafo due strumenti visti nel capitolo: la media
e la mediana.

Esempio 4.10: Consideriamo due data-set, molto simili tra loro a meno di
un dato e calcoliamone la media e la mediana.

X1 = {1, 2, 1, 1, 2, 2}
X2 = {1, 2, 1, 1, 2, 50}

X̄1 = 1.5
X̄2 = 9.5

M e1 = 1
M e2 = 1

54
In questo esempio si vede che 50 è un dato anomalo (outlier ) e che la media
aritmetica risente fortemente dei dati anomali, cosa che non accade per la
mediana. In terminologia statistica si dice che la mediana è robusta, mentre
la media aritmetica non lo è.

Di conseguenza, quando in un dataset vi sono degli outliers, e importante


chiedersi se possano essersi verificati per la natura della variabile oppure se
si tratti di errori di misurazione. Nel primo caso e meglio utilizzare la media-
na come indicatore di posizione. Nel secondo caso posso "ripulire" il data-set
dagli outliers e calcolare la media aritmetica.

Approfondimento 4.3*

4.4.3 Esercizi
1. Calcolare la mediana nell’esempio 4.9 (dati in classi).

2. Calcolare la media aritmetica e la mediana della seguente variabile e


commentare i risultati ottenuti.
X Freq. rel.
1 80%
2 10%
3 5%
4 2.5%
5 2.5%

Calcoliamo la media e la mediana:

X̄ = 1.375 Me = 1

Come possiamo notare X̄ > M e, X̄ è influenzata dalla "coda" destra


della distribuzione. Graficamente:

3. Senza effettuare calcoli, associare alla distribuzione di frequenza la


corrispondente media o mediana (motivare).

55
X Freq. rel.
1 0.1
2 0.2
3 0.4
4 0.2
5 0.1
Opzioni:
Media Mediana
A 2 4
B 3 3
C 3 4
D 6 3
Media e mediana coincidono perchè la distribuzione è simmetrica. In-
fatti:

56
4. Sia data la seguente distribuzione di frequenze:
X Freq. rel.
-6 0.2
-2 0.4
2 0.3
4 0.1
Quale delle seguenti è la risposta corretta? Spiegare l’errore nelle
risposte errate.
1
A. X̄ = (−6 − 2 + 2 + 4) = −0.5
4
× → Non tengo conto delle fi .
1
B. X̄ = (−6 · 0.2 − 2 · 0.4 + 2 · 0.3 + 4 · 0.1) = −0.25
4
× → Tengo conto delle fi ma peso anche per 1/4.
1
C. X̄ = (−6.2 − 2.4 + 2 − 3 + 4.1) = 1
10
X → 0.2 = 1/10 · 2 = ki=1 xi fi .
P

4.5 Media geometrica


La media geometrica è un indicatore di posizione per variabili quantitative
con valori positivi che risponde al seguente

Principio: calcolare un valore medio per fenomeni che evolvono nel tempo
in modo moltiplicativo.

Definizione- Sia X una variabile con modalità positive; si dice media geo-
metrica (MG) di X la radice N -esima del prodotto degli n dati elementari
di X :
q
M G = N xn1 1 · xn2 2 · ... · xnk k .

Esempio 4.11: Consideriamo il seguente data-set:

X = {1, 3, 1, 7, 8, 1, 3, 7, 3, 3}

57
Calcoliamo la media geometrica.

10
MG = 1·3·1·7·8·1·3·7·3·3
1
= (1 · 3 · 1 · 7 · 8 · 1 · 3 · 7 · 3 · 3) 10

Osserviamo come possiamo riscrivere quest’ultima, utilizzando le proprietà


delle potenze, come segue:

= 13 · 34 · 72 · 81
10

= 2.8195

Osservazione Si può dimostrare matematicamente che:

mg ≤ X̄.

Inoltre, la media geometrica si utilizza quando si ha a che fare con fenomeni


che si evolvono nel tempo in modo moltiplicativo.

4.6 Approfondimenti
Approfondimento 4.2: questo perchè
1 Pk
X̄ = xi ni
N i=1
"spalmiamo" la sommatoria e moltiplichiamo per 1
N

1
= (x1 n1 + x2 n2 + ... + xk nk )
N
n1 n2 nn
= (x1 + x2 + ... + xn )
N N N
ni
poichè fi =
N
= x1 f1 + x2 f2 + ... + xk fk

X̄ = ki=1 xi fi
P

58
Approfondimento 4.3: Esiste in statistica una variante della classica me-
dia aritmetica detta "Media trimmata" (o "Trimmed mean") X̄trimmed . Si
tratta di una media che considera solo i dati non anomali (esclude gli outliers
dalla distribuzione di frequenze).
Un metodo per calcolarla consiste nel rappresentare il box-plot con la regola
di Tukey (si veda l’approfondimento 3.1) e non considerare i dati che si tro-
vano oltre la lunghezza dei baffi.

Esempio: Consideriamo il seguente dataset:

X = {1, 2, 2, 3, 3, 4, 5, 15}

la media aritmetica sarebbe pari a

1 + 2 + 2 + 3 + 3 + 4 + 5 + 15
X̄ = = 4.375
8

dall’esempio visto nell’approfondimento 3.1 sappiamo che 15 è un dato ano-


malo. Riscriviamo il dataset escludendo quest’ultimo e calcoliamone la media
(trimmed):

X = {1, 2, 2, 3, 3, 4, 5}
1+2+2+3+3+4+5
X̄trimmed = = 2.8571
7

4.7 Homeworks
1. Esercizio 1
Calcolare la mediana e il terzo quartile della variabile descritta in
Esercizio 5 in Homework 2.5.

2. Esercizio 2

(a) Si calcolino i quartili della variabile dell’Esercizio 5 in Homework


3.5.
(b) Si costruisca il boxplot.

59
3. Esercizio 3.
Si rappresenti il box-plot dell’Esercizio 4 in Homework 3.5 (indicare
chiaramente i valori utilizzati).

4. Esercizio 4.
Si consideri la seguente distribuzione di frequenza:
X Freq ass.
-7 3
-2 7
0 10
1 15
4 9
6 5
10 2
Determinare la mediana e i quartili.

5. Esercizio 5.
La mediana del voto di laurea triennale degli studenti TUR è 96. Cosa
significa?

6. Esercizio 6.
Il primo quartile del numero di visitatori giornalieri di una mostra a
Torino nel 2016 è 207. Cosa significa?

60
Capitolo 5

Misure di sintesi: indicatori di


dispersione

Nel capitolo precedente ci siamo occupati di diversi indici di posizione, cia-


scuno basato su un diverso principio. Vediamo ora attraverso un esempio
che sintetizzare la distribuzione soltanto con un valore medio non basta per
cogliere un’altra fondamentale caratteristica della distribuzione stessa.

Esempio 5.1: Supponiamo di registrare le temperature medie giornaliere nei


primi 5 giorni di gennaio in due anni :
Gennaio 2020 → X = {5, 1, 2, 3, 1}
Gennaio 2021 → Y = {10, 3, −5, −4, 8}
Calcoliamo ora le medie aritmetiche delle due variabili statistiche.
X̄ = 2.4
Ȳ = 2.4
Si noti che nonostante le medie aritmetiche siano identiche, le distribu-
zioni di X ed Y sono molto diverse: infatti in Y i dati sono più distanti,
ossia Y è più “variabile” di X.

Definizione - Variabilità: Sia X una variabile quantitativa; chiamia-


mo variabilità l’attitudine della variabile X a disperdersi sull’insieme delle
modalità.

Possiamo misurare la variabilità di una variabile X attraverso degli indi-


catori.
Distinguiamo due categorie di indicatori:

61
- gli intervalli di variazione, che misurano la distanza tra due indici di
posizione;

- gli scostamenti medi, che misurano lo scostamento medio dei dati da


un “centro” predeterminato.

5.1 Intervalli di variazione


Obiettivo: misurare la distanza tra due indici di posizione come misura della
variabilità.
Vediamo, ad esempio, il Range e la differenza interquartile.

5.1.1 Range
Il Range, o Campo o di escursione, o Intervallo, misura la lunghezza dell’in-
tervallo che contiene il 100% dei dati.
È dato da
Range(X) = xmax − xmin
= xk − x1 .
Nell’esempio 5.1: Range(X) = 4, mentre Range(Y ) = 15.

5.1.2 Differenza interquartile


La differenza interquartile, o IQR dall’inglese InterQuartile Range è definita
come
IQR(X) = Q3 − Q1 .
e misura quindi un intervallo centrale della distribuzione (dal primo quar-
tile al terzo quartile) che contiene il 50% dei dati.

Nell’esempio 5.1: IQR(X) = 2 mentre IQR(Y ) = 12.

Notiamo che il range è molto immediato da calcolare ma non tiene conto


di tutti i dati. Questa caratteristica, che riguarda gli intervalli di variazione
in genere, fa sì che in alcune situazioni non riescano a cogliere l’effettiva
variabilità della distribuzione.

Esempio 5.2: Supponiamo di registrare le temperature medie giornaliere nei


primi 5 giorni di gennaio in due anni :

62
Figura 5.1: Range e IQR di una distribuzione.

X = {1, 1, 1, 1, 10}
Y = {1, 2, 4, 6, 10}

Notiamo che Range(X) = Range(Y ) = 9.

In questo esempio si ha che il range delle due variabili è il medesimo, tuttavia


Y è più variabile di X. Per rilevare tale caratteristica è necessario utilizzare
degli indici che tengano conto di tutti i dati, ovvero gli scostamenti medi
descritti nel prossimo paragrafo.

5.2 Scostamenti medi


Obiettivo: misurare la variabilità di una variabile quantitativa X tenendo
conto di tutti i dati, calcolando la distanza media di tutti i dati da un "centro"
della distribuzione.

Esempio 5.3: Sia X il reddito mensile (in migliaia di euro) di lavoratori


dipendenti nel settore turistico:

X = {1.5, 1.2, 1.2, 1.8, 1.5, 1.2}

Vogliamo misurare la distanza dei dati prendendo come “centro” la media


aritmetica X̄ = 1.4.

Calcoliamo le differenze tra i singoli dati elementari e X̄(la media aritmetica).

63
X X − X̄
1,5 1.5 - 1.4 = 0.1
1.2 1.2 - 1.4 = -0.2
1.8 1.2 - 1.4 = -0.2
1.8 1.8 - 1.4 = 0.4
1.5 1.5 - 1.4 = 0.1
1.2 1.2 - 1.4 = -0.2
Osserviamo che non ha senso calcolare la media aritmetica di X − X̄, infatti,
essendo X̄ il baricentro della distribuzione, le differenze negative vanno a
compensare quelle positive e la media è zero:
1
(0.1 − 0.2 − 0.2 + 0.4 + 0.1 − 0.2) = 0.
6
Infatti i valori (X − X̄) non rappresentano delle distanze, poichè sono valori
sia positivi che negativi, mentre una “distanza” deve essere sempre un valore
maggiore o uguale a zero.
Una soluzione (ma non l’unica) che si può adottare è quella di considerare
gli "scarti quadratici" (X − X̄)2 e poi calcolarne la media aritmetica.

Nell’esempio 5.3:
1
[0.12 + (−0.2)2 + (−0.2)2 + 0.42 + 0.12 + (−0.2)2 ] = 0.05
6
Si tratta della varianza, secondo la definziione fornita nel prossimo para-
grafo.

5.2.1 Varianza e scarto quadratico medio


Definizione - Varianza: si dice varianza di una variabile quantitativa X,
indicata con V ar(X), la media aritmetica degli scarti di ogni singolo dato da
X̄ presi al quadrato. Ovvero
k
1 X
V ar(X) = (xi − X̄)2 ni
N i=1
o, analogamente,
k
X
V ar(X) = (xi − X̄)2 fi
i=1
Esempio 5.3: Consideriamo la seguente distribuzione di frequenze:

64
X ni fi X − X̄ (X − X̄)2
1.2 3 3/6 -0.2 (-0.2)2
1.5 2 2/6 0.1 (0.1)2
1.8 1 1/6 0.4 (0.4)2

La varianza corrispondente sarà


1
Var(X) = [3 · (−0.2)2 + 2 · 0.12 + 1 · 0.42 + 0.12 ]
6
3 2 1
= · (−0.2)2 + · 0.12 + · 0.42 + 0.12
6 6 6
= 0.05(milaeuro)2

Osservazione: l’unità di misura della varianza è l’unità di misura della


variabile elevata al quadrato. Per riportare l’indicatore alla stessa unità di
misura di X se ne estrapola la radice quadrata, così facendo si ottiene lo
"scarto quadratico medio", detto anche "deviazione standard".

Definizione - Deviazione stadard: Si dice scarto quadratico medio o


deviazione standard di X , che indichiamo con S(X), la radice quadrata
della varianza della stessa variabile.)
p
S(X) = V ar(X)

Nell’esempio 5.3: S(X) = 0.05 = 0.2236 (mila euro)

Esempio 5.4: Sia X il prezzo (in euro) del pernottamento praticato dagli al-
berghi a tre stelle in una località, si calcolino: la varianza, lo scarto quadratico
medio, il Range e l’IQR.

X = {75, 70, 80, 75, 75, 80, 70, 70, 70}

Effettuiamo lo spoglio dei dati.

X ni fi
70 4 0.4
75 3 0.3
80 3 0.3
N=10 1

65
Dunque: X̄ = 70 · 0.4 + 75 · 0.3 + 80 · 0.3 = 74.5

V ar(X) = (70−74.5)2 ·0.4+(75−74.5)2 ·0.3+(80−74.5)2 ·0.3 = 17.5(euro)2



S(X) = 17.5 = 4.15 (euro)

Range(X) = 80 − 70 = 10 (euro)

Range(X) = Q3 − Q1 = 80 − 70 = 10 (euro)

In questo esempio particolare IQR(X) = Range(X)

Esempio 5.5: Consideriamo le temperature medie giornaliere in una certa


località turistica a febbraio del 2020 sintetizzate dalla seguente distribuzione
di frequenze:

X Freq. Rel.
-5 a 0 0.2
0a5 0.5
5 a 10 0.3

Si calcoli la media e lo scarto quadratico medio.

Avendo i dati in classi prendiamo i centri delle classi:

X Freq. Rel. Ci
-5 a 0 0.2 -2.5
0a5 0.5 2.5
5 a 10 0.3 7.5

X̄ = (−2.5) · 0.2 + 2.5 · 0.5 + 7.5 · 0.3 = 3 (◦ C)

V ar(X) = (−2.5 − 3)2 · 0.2 + (2.5 − 32 · 0.5 + (7.5 − 3)2 · 0.3 = 12.25(◦ C)2

S(X) = 12.25 = 3.5 (◦ C)

66
5.3 Misure di variabilità relative
In alcuni contesti può essere opportuno confrontare la varaibilità in relazione
all’ordine di grandezza delle variabili.

Esempio 5.7: Siano X lo stipendio mensile di un operatore turistico a Pa-


lermo e Y lo stipendio mensile di un operatore turistico a Nizza. Supponiamo
che dall’analisi dei dati sia stato stato ottenuto:
Media aritmetica SQM
X 2500 800
Y 1500 500

Si noti che in termini assoluti X è più variabile di Y , ma ci chiediamo se la


variabilita dello stipendio a Palermo non “pesi” di più, dal momento che lo
stipendio medio è più basso. Ci poniamo dunque il seguente

Obiettivo: determinare degli indici di variabilità relativi, per poter con-


frontare la variabilità di X e di Y in relazione al loro ordine di grandezza.

Essi si ottengono come rapporto tra un indice di variabilità ed un valore medio,


cioè un indice di posizione, e ha senso definirli solo per variabili positive. Tra
gli indici di variabilità relativa troviamo ad esempio:
Range

M edia aritmetica
IQR

M ediana
SQM
• , denominato Coefficiente di variazione (CV ).
M edia aritmetica

Nell’esempio 5.7:

S(X) 800
CV (X) = = = 0.32
X̄ 2500
S(Y ) 500
CV (X) = = = 0.33
Ȳ 1500
Possiamo quindi vedere che Y è relativamente più variabile di X.

67
Osservazione: gli indici di variabilità relativi sono "adimensionali", cioè
sono numeri senza unità di misura.

68
Quiz: associare gli indicatori ai grafici delle distribuzioni. Motivare.

5.4 Homeworks
1. Esercizio 1
Si consideri ancora la variabile descritta in Esercizio 5 di Homeworks
2.5. Calcolare:

(a) il valore centrale, la media aritmetica e la media geometrica;


(b) il range e la differenza interquartile;
(c) la varianza e lo scarto quadratico medio.

2. Esercizio 2

(a) Si calcoli la differenza interquartile della variabile considerata nel-


l’Esercizio 5 in Homeworks 3.5.
(b) Si calcoli la deviazione standard.

3. Esercizio 3.
Si consideri la seguente distribuzione di frequenze con dati in classi
della variabile X = “Profitti/Perdite (in migliaia di euro) delle imprese
turistiche operanti in una data regione” (Esercizio 1 in Homeworks 3.5).

69
X Freq relative
(-5,0] 0.2
(0,2] 0.2
(2,10] 0.4
(10,20] 0.2

(a) Calcolare la media aritmetica di X.


(b) Calcolare il Range.
(c) Calcolare il valore centrale.
(d) Calcolare due opportuni indici di dispersione di X che abbiano la
stessa unità di misura della variabile (migliaia di euro).

4. Esercizio 4.
Si consideri la seguente distribuzione di frequenza:

X Freq ass.
-7 3
-2 7
0 10
1 15
4 9
6 5
10 2

Calcolare:

(a) il range,
(b) la differenza interquartile,
(c) lo scarto quadratico medio.

5. Esercizio 5.
Il numero di viaggi al giorno venduti dalle agenzie di turismo di una
certa città sono:

4 4.5 6.5 6 8 4.5 6.5 8

(a) Detrminare i quartili della variabile.

70
(b) Calcolare la differenza interquartile.
(c) Calcolare la deviazione standard.

6. Esercizio 6.
Consideriamo il costo settimanale degli affitti nel mese di agosto in
due località balneari, una sul Tirreno e una sull’Adriatico. Le medie
dei costi degli affitti delle due località sono risultati, rispettivamente,
600 e 1000 euro, mentre gli scarti quadratici medi sono risultati 200 e
300. Confrontare la variabilità dei due prezzi con un opportuno indice
relativo.

71
72
Capitolo 6

Misure di sintesi: indicatori di


concentrazione

Inquesto capitolo vogliamo studiare il livello di “concentrazione” di un carat-


tere quantitativo trasferibile.
Ricordiamo che i caratteri trasferibili sono quei caratteri misurati in scala
per rapporti in cui ha senso immaginare che, almeno idealmente, l’ammonta-
re complessivo del carattere possa essere redistribuito tra le unità statistiche
della popolazione (ad esempio: il reddito, la superficie coltivabile, il numero
di turisti nelle località, il fatturato, ...).

Obiettivo: misurare attraverso un indice il livello di concentrazione del


carattere sulla popolazione.

Esempio 6.1: Una popolazione di 5 ladri ha portato via un bottino di 50.000


euro in una rapina. Si ha il seguente problema: la spartizione del bottino.
Sia X la parte di bottino di ciascun ladro. Consideriamo tre possibili casi:

1. la redistribuzione avviene in modo equo: tutti ricevono lo stesso am-


montare e quindi

X = {10.000, 10.000, 10.000, 10.000, 10.000}.

In questo caso si parla di equidistribuzione.

2. La redistribuzione avviene in modo massimamente iniquo: l’intero am-


montare finisce nelle mani di un solo ladro, da cui

73
X = {0, 50.000, 0, 0, 0}
In questo caso si parla di massima concentrazione.

3. La redistribuzione avviene in un modo che non è nè equo nè inequo, ad


esempio

X = {10.000, 5.000, 30.000, 1.500, 3.500}


Ci poniamo la seguente domanda: il terzo caso si avvicina più al caso 1 o al
caso 2? Ossia: È possibile misurare con un indice il grado di concentrazione
di una variabile?

Sia X un carattere trasferibile con dati elementari


X = {x1 , x2 , ..., xN }
e sia Xord la stessa variabile ma con i dati elementari ordinati in ordine
crescente:
Xord = {x(1) , x(2) , ..., x(N ) }
ossia in modo tale che
x(1) ≤ x(2) ≤ ... ≤ x(N )
Se X̄ è la sua media aritmetica, dalla definizione di media aritmetica
k
1 X T
X̄ = xi n i = ;
N i=1 N
T viene detto totale, ovvero l’ammontare totale del carattere, che si può
scrivere anche come:
T = N · X̄
Allora diciamo che:
• c’è equidistribuzione quando
x(1) = x(2) = ... = x(N ) = X̄;

• c’è massima concentrazione quando


x(1) = x(2) = ... = x(N −1) = 0 e X(N ) = T.

Per misurare il grado di concentrazione nei casi intermedi si utilizza


l’indice di concentrazione di Gini illustrato nel prossimo paragrafo.

74
6.1 Indice di concentrazione di Gini
Cominciamo da un esempio, proseguendo l’Esempio 6.1. I dati elementari
riordinati per ciascuno dei tre casi possono essere riportati nella seguente
tabella (matrice dei dati riordinati):

Xord Caso 1 Caso 2 Caso 3


x(1) 10,000 0 1,500
x(2) 10,000 0 3,500
x(3) 10,000 0 5,000
x(4) 10,000 0 10,000
x(5) 10,000 50.000 30,000

Definiamo ora il totali parziali fino alla h-esima unità statistica ordinata Th :
h
X
Th = x(i) ;
i=1

i Th , per h = 1, ..., N − 1, sono dei totali parziali, mentre TN = T .

Costruiamo quindi la tabella degli totali parziale nei tre casi:

h Th Caso 1 Caso 2 Caso 3


1 T1 10,000 0 1,500
2 T2 20,000 0 5,000
3 T3 30,000 0 10,000
4 T4 40,000 0 20,000
5 T5 = T 50,000 50,000 50,000

Da ora in avanti per comodità indichiamo gli ammontari cumulati nel caso
di equidistribuzione con The ; notiamo che:

The = h · X̄.

Osservazione: si ha che The ≥ Th per ogni h.

Per misurare l’intensità della concentrazione confronto i valori dei totali cu-
mulati Th icon i valori The ossia con quelli che si avrebbero in caso di equi-
distribuzione: quanto più sono vicina (c’e poca differenza per ogni h) tanto

75
più sono vicina al caso di equidistribuzione; tanto più sono lontana (la diffe-
renza totale per ogni h e piccola) quanto più sono vicina al caso di massima
concentrazione.

Vado dunque a calcolare:


N
X −1 N
X −1 N
X −1
The − Th = (The − Th )
h=1 h=1 h=1

Notiamo che, poichè = TN , dato che sono pari entrambi a T , il con-


TNe
fronto sul termine N -simo non serve.

Nell’esempio 6.1:
h The Th The − Th
1 10.000 1.500 8.500
2 20.000 5.000 15.000
3 30.000 10.000 20.000
4 40.000 20.000 20.000
5 50.000 50.000 0
N
X −1
(The − Th ) = 8.500 + 15.000 + 20.000 + 20.000 = 63.500.
h=1

Ci domandiamo: il valore trovato, ossia 63.500, è alto o è basso? Ci


indica forte o debole concentrazione? Per poter rispondere osserviamo che
N
X
(The − Th ) = 0
h=1

nel caso di equidistribuzione, mentre nel caso di massima concentrazione si


avrebbe

N
X −1 N
X −1
(The − Th ) = The = 100.000,
h=1 h=1

76
infatti i totali parziali Th fino ad N − 1 sarebbero nulli.

In generale:

• quando c’e equidistribuzione si ha:

N
X −1
(The − Th ) = 0;
h=1

• quando c’è massima concentrazione si ha:

N
X −1 N
X −1
(The − Th ) = The
h=1 h=1

Ogni situazione si troverà tra questi due estremi.

Notiamo che il massimo valore della concentrazione determinato dipende


dalla specifica variabile considerata. Per dare un indice assoluto, che non
dipenda dal caso specifico, si adotta una "normalizzazione" della misura mi-
sura trovata, ossia si divide per il massimo valore che la misura può assumere.
Questo porta alla definizione di indice di concenrazione di Gini.

Definizione - Indice di concentrazione di Gini: definiamo “Indice di


concentrazione di Gini” la quantità:

N
X −1 N
X −1
(The − Th ) Th
h=1 h=1
(6.1) IC = N −1
=1− N −1
.
X X
The The
h=1 h=1

Notiamo che nel caso di equidistribuzione si ha IC = 0, mentre nel caso di


massima concentrazione si ha IC = 1; tutti casi intermedi staranno tra i va-

77
lori 0 e 1.1
63.500
Nell’esempio 6.1: IC = = 0, 635.
100.000

6.1.1 Indice di concentrazione di Gini dalle quote cu-


mulate
A volte l’indice di concentrazione di Gini viene calcolato a partire dalle quote
cumulate (percentuali): esse si ottengono dividendo i totali parziali Th e The
per l’ammontare complessivo T .

Definizione - Quote cumulate: per ogni h definiamo:

• le quote effettive cumulate qh :


Th
qh =
T

• le quote cumulate nel caso di equidistribuzione ph :


The
ph = .
T

Osserviamo che:

(i) qh e ph variano tra 0 e 1;


1
Nell’equazione (6.1) la seconda uguaglianza si ottiene da:
N
X −1 N
X −1 N
X −1 N
X −1 N
X −1 N
X −1
(The − Th ) The − Th The Th Th
h=1 h=1 h=1 h=1 h=1 h=1
IC = N −1
= N −1
= N −1
− N −1
=1− N −1
X X X X X
The The The The The
h=1 h=1 h=1 h=1 h=1

78
h
(ii) ph = ,
N

hX̄ h
infatti: The = hX̄ e T = N X̄, da cui ph = = .
N X̄ N

Dividendo nell’equazione (6.1) il numeratore e il denominatore per il


totale T otteniamo dunque la seguente proprietà:
l’Indice di concentrazione di Gini può essere calcolato a partire dalle quote
ph e qh come segue:

N
X −1 N
X −1
(ph − qh ) qh
h=1 h=1
(6.2) IC = N −1
=1− N −1
.
X X
ph ph
h=1 h=1

Esempio 6.2: I seguenti dati rappresentano il numero di polizze RCA sti-


pulate nel novembre 2020 da 8 agenti di una compagnia:

X = {25, 43, 31, 15, 29, 47, 25, 17}

Valutare il livello di concentrazione del carattere calcolando l’indice di con-


centrazione di Gini.

Xord = {15, 17, 25, 25, 29, 31, 43, 47}


T 232
X̄ = = = 29.
N 8

h Xord The Th ph qh
1 15 29 15 29/232 = 0.125 15/232 = 0.06
2 17 58 32 0.25 0.1379
3 25 87 57 0.375 0.2457
4 25 116 82 0.5 0.3534
5 29 145 111 0.625 0.4785
6 31 174 142 0.75 0.6121
7 43 203 185 0.875 0.7974
8 47 232 232 1 1

79
N
X −1
Th
h=1 624
IC = 1 − N −1
=1− = 0.2315.
X 812
The
h=1

La concentrazione è piuttosto bassa. Analogamente IC poteva essere ottenu-


to come
N
X −1
qh
h=1 2.6897
IC = 1 − N −1
=1− = 0.2315.
X 3.5
ph
h=1

Domanda: quale significato ha la concentrazione in questo specifico esempio?

6.2 Curva di Lorenz


La curva di Lorenz è un diagramma utilizzato nella statistica economica per
rappresentare la concentrazione di una variabile. Tale diagramma si ottiene
rappresentando sul piano cartesiano i punti di coordinate

(ph , qh ), h = 1, .., N

aggiungendo il punto di coordinate (p0 , q0 ) con p0 = 0, q0 = 0, e collegan-


do tali punti con una spezzata. La spezzata che collega i punti di coor-
dinate (ph , qh ), per h = 0, ..., N , viene detta curva di Lorenz o curva di
concentrazione.

Nell’esempio 6.1:
Caso 1 (equidistribuzione)

h ph qh
1 1/5 1/5
2 2/5 2/5
3 3/5 3/5
4 4/5 4/5
5 1 1

80
Figura 6.1: Curva di Lorenz, in rosso.

Figura 6.2: Curva di Lorenz nel Caso 1 (equidistribuzione)

Caso 2 (massima concentrazione)

h ph qh
1 1/5 0
2 2/5 0
3 3/5 0
4 4/5 0
5 1 1

81
Figura 6.3: Curva di Lorenz nel Caso 2 (massima concentrazione)

82
Caso 3

h ph qh
1 1/5 0
2 2/5 0
3 3/5 0
4 4/5 0
5 1 1

Figura 6.4: Curva di Lorenz nel Caso 3

L’area colorata in giallo in Figura 6.2, ovvero l’area compresa tra la curva
di Lorenz della variabile e la curva che avrei nel caso di equidistribuzione,
viene chiamata Area di concentrazione. Come per l’indice di concentrazione
di Gini, dal calcolo di quest’area è possibile ricavare un indicatore sintetico
di concentrazione.

Definizione - Area di concentrazione: Si definisce area di concentra-


zione (AC ) l’area compresa tra la curva di Lorenz e la bisettrice del prmo
quadrante, ossia la curva di concentrazione nel caso di equidistribuzione; la
sua misura è pari alla differenza tra l’area totale Atot sottesa alla curva nel
caso equidistribuito e l’area sottesa alla curva di Lorentz Ainf :
1
AC = Atot − Ainf = − Ainf .
2
83
Osserviamo che Ainf può essere calcolata come somma delle aree di tra-
pezi, come si può vedere in Figura 6.5.

Figura 6.5: La parte colorata rappresenta l’area sottesa alla curva di Lorentz
e i trapezi. In bianco l’area di concentrazione.

Nell’esempio 6.1: con il metodo dei trapezi l’area di concentrazione risulta


essere AC = 0.254.

Ci domandiamo: questo valore indica un grado di concentrazione elevato


o basso?
Per rispondere osserviamo che il minimo valore di AC sarebbe 0 (caso di
equidistribuzione); quanto sarebbe il massimo valore di AC (caso di massima
concentrazione)?

84
Nell’esempio 6.1: L’area sottesa alla curva di massima concentrazione
risulta essere 1/5 · 1/2 = 1/10, da cui

1 1
max AC = − = 0.4
2 10
In generale:
1 1
max AC = − ,
2 2N
infatti: si tratta sempre dell’area di un triangolo di base 1/N e altezza 1.
Diamo allora un valore normalizzato all’area di concentrazione:

Definizione - Area di concentrazione normalizzata: Si definisce area


di concentrazione normalizzata (A?C ) il rapporto tra l’area di concentrazione
ed il suo massimo:
AC AC
A?C = = .
max AC 1 1

2 2N
?
Notiamo che AC assume sempre valori compresi tra 0 e 1.

Nell’esempio 6.1: L’area di concentrazione normalizzata è pari a:


0.254
A?C = = 0.635
0.4
Osserviamo che il valore ottenuto coincide con l’idice di concentrazione di
Gini!
In generale: è possibile dimostrare matematicamente che vale sempre la se-
guente proprietà: l’area di concentrazione normalizzata è pari all’indice di
concentrazione di Gini:
A?C = IC .

Conseguenza pratica: se ho una variabile X e calcolo IC e max AC posso


ottenere quanto vale AC :

Ac
A?C = IC = ,
max{Ac}
da cui

AC = IC · max AC

85
...Il metodo è più veloce rispetto al calcolo con le aree dei trapezi.

Esempio 6.3: Studiamo un mercato in cui si vuole conoscere se esista o


meno un’azienda leader.
Impresa Vendite (mg euro) Quote di mercato
a 3.000 0.1667
b 500 0.0278
c 200 0.0111
d 12.500 0.6944
e 1.200 0.0667
f 600 0.0333
18.000 1
Sia X il volume di vendite. Calcoliamo l’indice di concentrazione di Gini e
rappresentiamo la curva di Lorentz calcolando l’area di concentrazione.

Costruiamo la tabella che ci permette di calcolare l’indice di concentrazione


di Gini e di rappresentare la curva di Lorentz.
h Xord The Th ph qh
1 200 3.000 200 1/6 0.01
2 500 6.000 700 2/6 0.03
3 600 9.000 1.300 3/6 0.07
4 1.200 12.000 2.500 4/6 0.135
5 3.000 15.000 5.500 5/6 0.306
6 12.500 18.000 18.000 1 1
N = 6; T = 18.000
18.000
X̄ = = 3.000
6
10.200
Ic = 1 − = 0.7733, da cui si deduce che la concentrazione è modera-
45.000
tamente elevata.

Ac = Ic · max AC
1 1
max AC = − = 0.4167
2 12
5
Ac = 0.7733 · = 0.3222
12
86
6.3 Indice di Herfindhal*

6.4 Homeworks
1. Da un’indagine compiuta su 10 località turistiche dell’Ossolano circa la
capacità di attrazione turistica misurata attraverso la variabile “Nume-
ro di turisti nel secondo semestre dell’anno”, emerge la seguente tabella
di dati individuali (in migliaia i turisti):

2, 1 15, 8 10, 3 3, 1 1, 9 4, 9 7, 1 4, 0 18, 4 2, 3

(a) Calcolare l’indice di concentrazione di Gini.


(b) Rappresentare la curva di Lorenz.
(c) Calcolare l’area di concentrazione.

2. Le quote di capitale (in %) posseduti dai soci di una S.p.A. sono


riportate nella tabella che segue:

2 8 10 2 15 50 2 1 6 4

Verificare se il controllo della società è concentrato nelle mani di pochi:

(a) Calcolare l’indice di concentrazione di Gini;


(b) rappresentare la curva di Lorenz;
(c) calcolare l’area di concentrazione.

87
3. Si considerino i dati relativi ai posti letto in un dato comprensorio,
riportati qui sotto.

Comune Posti letto


A 80
B 300
C 220
D 120

(a) Calcolare l’indice di concentrazione di Gini.


(b) Rappresentare la curva di Lorenz, indicando i valori sul grafico.
(c) Calcolare l’area di concentrazione che si avrebbe nel caso di mas-
sima concentrazione.
(d) Calcolare l’area di concentrazione nel caso descritto.

88
Capitolo 7

Studio dell’eterogeneità

Negli ultimi capitoli abbiamo studiato indicatori sintetici di variabili quan-


titative. Vogliamo ora studiare come sintetizzare le caratteristiche di una
variabile qualitativa.
Per una variabile qualitativa X possiamo innanzitutto individuare come
valore di sintesi la moda, ossia il valore con frequenza piu elevata (potrebbe
non essere unica). Inoltre, solo per il caso di variabili qualitative ordinali, si
puo estendere la definizione di mediana e quartili. Infatti, una volta ordinati
i dati, la mediana può essere definita come la modalità al di sotto della quale
stanno il 50% dei dati e al di sopra della quale stanno il restante 50%.
L’analogo della variabilità per le variabili qualitative è il concetto di ete-
rogeneità.

Esempio 7.1: Sia X il mezzo di trasporto utilizzato da una popolazione di


turisti. Consideriamo la distribuzione di frequenze di X in due casi diversi.

Caso 1 Caso 2
Mezzo di trasporto Freq. Rel Mezzo di trasporto Freq. Rel
Auto 0.25 Auto 0
Aereo 0.25 Aereo 0
Treno 0.25 Treno 1
Pullman 0.25 Pullman 0

Questi due casi rappresentano due estremi:

- nel caso 1, X è massimamente eterogenea;

89
- nel caso 2, X è minimamente eterogenea ovvero massimamente omo-
genea.

Definizione : data una variabile qualitativa X con k modalita:

- si ha massima eterogeneità quando

f1 = f2 = ... = fk ,

ovvero, per ogni i = 1, . . . , k


1
fi = ;
k

- Si ha massima omogeneità quando esite un ī tale che

fī = 1

e per tutte le altre frequenze fi con i 6= ī vale fi = 0.

Obiettivo: misurare il grado di eterogeneità in tutti gli altri casi, ossia nei
casi intermedi, utilizzando degli opportuni indici. Vedremo, in particolare,
l’indice di eterogeneità di Gini e l’indice di entropia di Shannon.

7.1 Indice di eterogeneità di Gini


Definizione - Indice di eterogeneita (di Gini): data una variabile
qualitativa X si definisce indice di eterogeneità di Gini Eg :
k
X
Eg = 1 − fi2 .
i=1

Osserviamo che:
se siamo nel caso di massima omogeneità

Eg = 1 − 1 = 0;

se siamo nel caso di massima eterogeneità


k  2  2
X 1 1 1 k−1
Eg = 1 − =1−k = = .
i=1
k k k k

90
3
Nell’esempio 7.1: nel caso 2, ossia di massima eterogeneita, Eg = .
4
Osservazione: pèer valutare il grado di eterogeneità in un caso intermedio
dovremmo confrontarlo con il massimo valore di Eg , che dipende dal numero
di modalità k.

Per ottenere un indice di eterogeneità che non dipenda da k e mi consenta


quindi di confrontare l’eterogeneità di variabili con un numero di modalità
diverse, è utile normalizzare l’indice, ossia dividere Eg per il suo massimo,
ottenendo l’indice di eterogeneità di Gini normalizzato, che assume sempre
valori tra 0 e 1.
Definizione - Indice di eterogeneita Gini normalizzato: si definisce
Indice di eterogeneità di Gini normalizzato (Eg∗ ) il valore:

Eg Eg k
Eg∗ = = = Eg · .
max{Eg } k−1 k−1
k
Tale indice assume valori nell’intervallo [0, 1], infatti :

- nel caso di massima omogeneità

Eg∗ = 0.

- nel caso di massima eterogeneità

Eg∗ = 1.

Esempio 7.2: Consideriamo un caso intermedio per l’esempio 7.1, ossia la


seguente distribuzione di frequenze per X:

Mezzo di trasporto ni fi
Auto 43 46.24 %
Aereo 10 10.75 %
Treno 32 34.41 %
Pullman 8 8.60 %
93 1

91
Misurariamo il grado di eterogeneità dei mezzi di trasporto utilizzati dai tu-
risti:

Eg = 1 − (0.46262 + 0.10752 + 0.34412 + 0.08602 ) = 0.6487.


4
Eg∗ = 0.6487 · = 86.69%.
3
L’eterogeneità è pittosto elevata.

7.2 Indice di entropia di Shannon


Un altro indice per misurare l’intensità dell’eterogenità è fornito dalla se-
guente definizione.

Definizione - Indice di entropia di Shannon: per una variabile X


qualitativa, si definisce Indice di entropia di Shannon (Es ) la quantità:

k
X
Es = − fi log fi ,
i=i

dove con log(·) si intende il logaritmo naturale (in base e), anche indicabile
con ln(·).

Figura 7.1: grafico del logaritmo naturale di x.

Osservazione: siccome fi assume valori sull’intervallo (0, 1] e siccome per


questi valori il logaritmo assume valori negativi, la quantità fi log fi < 0. Per

92
quessto motivo nella formula lo si "corregge" rendentolo positivo moltiplican-
dolo per -1.

Quanto vale Es nei casi estremi?

- Nel caso di massima omogeneità si ha:

Es = (−1) log 1 = (−1) · 0 = 0.

- Nel caso di massima eterogeneità si ha:


k    
X 1 1
Es = − log
i=i
k k
   
1 1
= −k log
k k
 
1
= − log
k
= −(− log k)
= log k.

Quindi anche Es dipende dal numero k di modalità della variabile. Di nuovo,


per poter fare confronti dobbiamo definire un indice normalizzato, dividendo
per il massimo valore.

Definizione - Indice di entropia di Shannon normalizzato: si definisce


Indice di entropia di Shannon normalizzato (Es∗ )la quantità:
Es Es
Es∗ = = .
max{Es } log k

Nell’esempio 7.2: Es = (0.4264 · log 0.4264 + 0.1075 · log 0.1075 + 0.3441 ·


log 0.3441 + 0.0860 · log 0.0860) = 1.1745.

Per capire se sia un valore elevato oppure no, calcolo anche

Es
Es∗ = = 84.72%.
log 4
Notiamo come tale valore sia abbastanza elevato, e il risultato è coerente con
quanto ottenuto dall’indice di eterogeneità di Gini.

93
7.3 Homeworks
1. In seguito ad un’analisi compiuta in un albergo di Stresa nel mese di
marzo 2019 sui propri clienti risulta che la distribuzione della variabile
“zona di provenienza” dei clienti è:

Zona di provenienza num. clienti


VCO 45
Resto del Piemonte 12
Resto d’Italia 8
Svizzera 31
Francia 5

(i) Descrivere il collettivo statistico ed il carattere in studio. Indicare


quale sia una rappresentazione grafica idonea per la distribuzione
di frequenza riportata in tabella.
(ii) Analizzare l’eterogeneità del carattere osservato utilizzando gli
appositi indicatori.

94
Statistica bivariata
96
Capitolo 8

Variabili doppie e distribuzioni


congiunte

Nella maggior pare delle situazioni su una popolazione vengono rilevate più
variabili.

Esempio 8.1: Consideriamo la seguente matrice dei dati raccolti su un


collettivo di lavoratori di due aziende.
Lavoratore Azienda Posizione Eta Luogo vacanze Stipendio
1 Alfa Dirigente 33 Montagna 3000
2 Beta Impiegato 41 Mare 1500
.. .. .. .. .. ..
. . . . . .
N Beta Impiegato 56 Mare 1600

Quanto fatto finora nel corso ci permette di analizzare una variabile alla
volta. Presentiamo ora dei metodi pe poter studiare simultaneamente due
variabili definite sulla stessa popolazione, tenedo conto della loro relazione.

8.1 Variabili doppie


In questo capitolo ci occupiamo dello studio simultaneo di due variabili X e
Y definite sulla stessa popolazione, ossia di una variabile doppia (X, Y ).
Le variabili doppie si si classificano in:

1. variabili doppie qualitative, quando i due caratteri X e Y sono entrambi


qualitativi;

97
2. variabili doppie quantitative, quando i due caratteri X e Y sono en-
trambi quantitativi;

3. Variabili doppie miste, quando si ha un carattere quantitativo e uno


qualitativo.

Obiettivo: si vuole individuare l’esistenza di possibili legami tra le varia-


bili (Studio della dipendenza), e inoltre, ove possibile, introdurre dei modelli
esplicativi tra le variabili.

8.2 Distribuzioni congiunte


Consideriamo un data-set di una variabile doppia (X, Y ), ossia la matrice
dei dati:
individuo X Y
1 x1 y1
2 x2 y2
3 x3 y3
.. .. ..
. . .
N xN yN

Obiettivo: vogliamo ottenere la tabella di distribuzione congiunta di X e


Y ovvero una prima sintesi dei dati che conservi il legame tra X e Y . (Se
facessi le singole tabelle di ditribuzione dei frequenza per ciascuna variabile
perderei l’informazione sul legame!)

Come si fa?

1. Individuiamo le modalità distinte di X e Y (se possibile ordinate):


x1 , x2 , . . . , xk , e y1 , y2 , . . . , ym .

2. Contiamo su quanti individui ‘e stata osservata la medesima coppia di


modalità (xi , yj ), dove i = 1, ..., k e j = 1, ..., m. Tale numero si dice
frequenza congiunta assoluta ed è indicato con nij .

3. Dopo aver ripetuti l’operazione di conteggio per tutte le coppie di mo-


dalità sistemo i risultati in una tabella a doppia entrata detta tabella
di contingenza:

98
X↓Y → y1 y2 ... ym Totale riga
x1 n11 n12 ... n1m n1·
x2 n21 n22 ... n2m n2·
.. .. .. .. .. ..
. . . . . .
xk nk1 nk2 ... nkm nk·
Totale colonna n·1 n·2 ... n·m N

4. Oltre alle frequenze congiunte assolute, si possono calcolare le frequenze


congiunte relative;
nij
fij = ,
N
e sistemarle in una tabella di contingenza.

Osservazione: i totali riga della tabella di contingenza restituiscono la


distribuzione marginale di X, mentre i totali colonna della tabella di contin-
genza restituiscono la distribuzione marginale di Y.

Esempio 8.2: Studio dei viaggi per destinazione principale e tipologia.

• X = "Nord, centro, sud";

• Y = "Vacanza, lavoro"

# X Y
1 N L
2 C V
3 C L
4 N V
5 N L
6 S V
7 S L
8 C L
9 N V
10 C L
11 N L
12 S V

In questo caso k = 3 ed m = 2, in particolare:

99
x1 = N, x2 = C, x3 = S; y1 = L, y2 = V .

Ad esempio: n12 è il numero degli individui su cui è stato osservata la coppia


(N,V), quindi
n12 = 2
La tabella di contingenza con le frequenze assolute risulta:

X↓Y → L V Tot. Rig.


N 3 2 5
C 3 1 4
S 1 2 3
Tot. Col. 7 5 12

La tabella di contingenza delle frequenze congiunte:

X↓Y → L V Tot. Rig.


N 0.25 0.1667 0.4167
C 0.25 0.0833 0.3333
S 0.0833 0.1667 0.25
Tot. Col. 0.5833 0.4167 1

8.3 Grafici per variabili doppie


Come per le rappresentazioni di grafici delle singole variabili, anche per una
variabile doppia il tipo di grafico cambia a seconda del tipo di variabile.

- Per le variabili doppie qualitative si può utilizzare un


diagramma a barre 3D; tale grafico si compone di barre distinte in
presenza delle modalità e di altezza pari alla corrispondente frequenza
nij (o fij ).

Esempio 8.3: Consideriamo una popolazione di studenti che presen-


tano le variabili:

X = "Sesso (F, M)"


Y = "Corso di laurea (TUR, CLEA)"

100
X↓Y → TUR CLEA Tot. Rig.
F 5 1 6
M 1 3 4
Tot. Col. 6 4 10

La conseguente rappresentazione grafica sarà quella in figura 8.1.

Figura 8.1: Diagramma a barre 3D.

- Per le variabili quantitative invece si può utilizzare un


Diagramma a dispersione (o "Scatterplot").
Per ottenerlo, si rappresentano sul piano cartesiano in ascissa le mo-
dalità della prima variabile e in ordinata quelle della seconda. I punti
(xi ,yj ) saranno rappresentati sul grafico mediante un "pallino" di gran-
dezza proporzionale alla frequenza nij (o fij ).

Esempio 8.4:

X↓Y → 1 2 5 8
2 3 1 0 0
5 0 2 1 0
9 0 0 4 2

Lo scatter-plot e rappresentato in figura 8.2.

101
Figura 8.2: Scatterplot.

8.4 Studio dei profili


Vogliamo capire se esista un legame tra X e Y. Consideriamo il seguente
esempio

Esempio 8.3:

X↓Y → TUR CLEA Tot. Rig.


F 5 1 6
M 1 3 4
Tot. Col. 6 4 10

Ci chiediamo: la scelta del corso di laurea (ossia la distribuzione della varia-


bile Y ) si differenzia a seconda del sesso, ossia a seconda delle mpodalita di
X (maschio e femmina)?

Osservazione: I due gruppi determinati da X (F e M) sono di numerosità


diverse, quindi per rispondere non posso confrontare le frequenze assolute.

Per rispondere si studia allora la distribuzione di Y in ciascuno dei gruppi


determinati da X, ossia si stratifica la popolazione sulla base di X e si studia
la distribuzione di Y in ciascuno strato (ossia i profili riga. Poi si va a vedere

102
se le distribuzioni negli “strati” siano uguali o diverse.

Nell’esempio 8.3:

X↓Y → TUR CLEA Totale


F 5/6 = 0.833 1/6 = 0.167 1
M 1/4 = 0.25 3/4 = 0.75 1

Questa tabella è detta tabella dei profili-riga. Osserviamo che il totale di


ciascuna riga ‘e pari al 100% (e non ha senso fare il totale per colonna).

Attraverso il confronto dei profili riga posso stabilire se esista un legame tra
X e Y . Nell’esempio 8.3 si pu‘o affermare, dai profili osservati, che la scelta
del corso di laurea si differenzia in base sesso, e quindi in questo caso esiste
un legame tra le due variabili.

Analogamente si potranno invertire i ruoli di X e di Y ottenendo i profili


colonna. Ossia si può procedere a stratificare la popolazione nei gruppi de-
terminati da Y e studiare la distribuzione di X in ciascun gruppo.

Nell’esempio 8.3:
X↓ Y→ TUR CLEA
F 5/6 = 0.833 1/4 = 0.25
M 1/6 = 0.167 3/4 = 0.75
1 1
Questa tabella è detta tabella dei profili-colonna. Il totale di ciascuna colon-
na deve corrispondere al 100%. Anche in questo modo posso confrontare i
profili colonna per sapere se esista o meno un legame tra X e Y .

Si può dimostrare, infine, che i profili colonna sono uguali tra loro e se e solo
se i profili riga sono uguali tra loro. Grazie a questo risultato matematico si
da la seguente definizione:

Definizione: le variabili X e Y sono indipendenti se i profili riga (o i


profili colonna) sono uguali; viceversa, sono dipendenti se i profili riga (o
colonna) sono diversi.

103
Esempio 8.5: Si consideri una popolazione di imprese su cui sono state
rilevate le variabili
X = "Area geografica"
Y = "Settore"
A partire dalla distribuzione congiunta di (X, Y ) stabilire se vi è dipendenza
o indipendenza.

Area↓ Settore→ Primario Secondario Terziario Tot. riga


Nord 150 1400 2700 4250
Centro 210 1500 2500 4210
Sud e isole 750 850 1200 2800
Tot. col. 1110 3750 6400 11260

Per stabilire se c’è dipendenza tra settore e area geografica posso:

- Analizzare le distribuzioni di frequenza della variabile Y = "settore" nei


gruppi (strati) generati dalla variabile X = "area geografica" (confronto
tra i profili riga).

- Analizzare le distribuzioni di frequenza della variabile X = area "geo-


grafica" nei gruppi (strati) generati dalla variabile Y = "settore" (con-
fronto tra i profili colonna).

Scegliamo ad esempio di analizzare i profili riga:

Area↓ Settore→ Primario Secondario Terziario


Nord 0.0353 0.3294 0.6353 100%
Centro 0.0499 0.3563 0.5938 100%
Sud e isole 0.2679 0.3036 0.4286 100%

Deduciamo dai profili riga che le variabili X e Y sono dipendenti.

Rappresentiamo graficamente i profili riga (detti anche distribuzioni stratifi-


cate o distribuzioni condizionate).
Questo tipo di rappresentazione grafica si compone di diagrammi a colonne
affiancati, una colonna per ciascuno strato.
La dipendenza in questo caso è moderata.

104
Figura 8.3: Distribuzione del settore condizionata alle aree geografiche.

Esercizio: Al fine di valutare la soddisfazione dei clienti nei propri servizi,


un ufficio del Comune di Novara effettua un’indagine conoscitiva. La tabella
dei dati individuati rilevati è la seguente:

Cliente Categoria di servizio Giudizio


1 A Scarso
2 C Suff.
3 C Buono
4 B Buono
5 A Scarso
6 A Suff.
7 C Scarso
8 B Suff.
9 A Suff.
10 B Suff.

1. Effettuare lo spoglio dei dati: produrre le distrubuzioni congiunte delle


frequenze assolte e relative della variabile dippia “Categoria di servizio,
Giudizio sul servizio”.

2. Dopo aver cacolato i profili (riga e colonna) e fornita un’opportuna rap-


presentazione grafica, discutere in merito alla dipendenza tra le variabili
considerate.

Soluzione
Frequenze congiunte assolute

105
↓Categoria Giudizio→ Scarso Sufficiente Buono Totale
A 2 2 0 4
B 0 2 1 3
C 1 1 1 3
Totale 3 5 2 10

Frequenze congiunte relative

↓Categoria Giudizio→ Scarso Sufficiente Buono Totale


A 0.2 0.2 0 0.4
B 0 0.2 0.1 0.3
C 0.1 0.1 0.1 0.3
Totale 0.3 0.5 0.2 1

profili riga

Scarso Sufficiente Buono Totale


A 0.5 0.5 0 1
B 0 0.6667 0.3333 1
C 0.3333 0.3333 0.3333 1

C’è dipendenza tra la categoria e il giudizio.


profili colonna

Scarso Sufficiente Buono


A 0.6667 0.4 0
B 0 0.4 0.5
C 0.3333 0.2 0.5
Totale 1 1 1

Anche da qui si può vedere la dipendenza, in quanto i profili non sono tra
loro uguali.

8.5 Homeworks
1. Da un’indagine compiuta sui turisti che hanno visitato una certa città in
un dato giorno, emergono i seguenti dati relativi alla Provenienza (nelle

106
modalità I = Turista italiano, S = Turista straniero) e alla Struttura
ricettiva scelta (nelle modalità A = Albergo, C = Complementare):

Turista Provenienza Struttura ricettiva


1 I C
2 S A
3 I C
4 I A
5 S C
6 I C
7 S A
8 I A
9 I C
10 I C
11 S C
12 S A

(a) Effettuare lo spoglio e scrivere la tabella di contingenza.


(b) Rappresentare graficamente la distribuzione congiunta di frequen-
ze.
(c) Calcolare i profili-riga e i profili-colonna e quindi rappresentarli
graficamente.
(d) Le variabili considerate possono essere considerate dipendenti?
Commentare.

2. La tabella di contingenza che segue riporta la distribuzione degli alber-


ghi di una nota località turistica secondo il numero dei posti letto e il
prezzo in euro di una camera doppia con bagno.

Posti letto ↓ Prezzo → 40 a 80 80 a 120 120 a 200


10 a 30 21 19 2
30 a 80 6 18 2
80 a 170 2 7 1

(a) Rispondere alle seguenti domande:


i. Quanti sono gli alberghi considerati?
ii. Quanti quelli di grandi dimensioni (ossia, con più di 80 stan-
ze)?

107
iii. Quanti sono gli alberghi che praticano un prezzo tra gli 80 e
i 120 euro?
iv. Quanto vale n22 e che cosa indica?
(b) Calcolare il prezzo medio praticato a seconda della dimensione
dell’albergo.
(c) Analizzando le medie calcolate al punto precedente, cosa possiamo
concludere?

3. Si consideri la tabella di Federtrasporto riportata in figura.

Figura 8.4: Tabella Federtrasporto

(a) A quale variabile doppia (X, Y ) si riferisce?

108
(b) Quante e quali sono le modalità di X e di Y ?
(c) Cosa sono i numeri riportati, alla luce di quanto studiato nel
capitolo?
(d) Quali domande mi posso fare e quali risposte posso dare sulla base
di questa tabella?

109
110
Capitolo 9

Correlazione lineare e modello di


regressione lineare

In questo capitolo vogliamo studiare una particolare relazione che puo esistere
tra due variabili quantitative e fare, ove possibile, dei modelli di previsione.

Esempio 9.1: Consideriamo la variabile doppia quantitativa (X, Y ):

X = "Statura (in cm)"

Y = "Peso (in Kg)"

Supponiamo, per semplicità, che sia stata rilevata su 4 individui:

X Y
160 55
168 61
172 59
180 65

Rappresentiamola graficamente:

111
La forma della "nuvola" di punti suggerisce l’esistenza di una relazione ap-
prossimativamente lineare tra X e Y, quindi possiamo scrivere:

Y = a + bX + Errore.

Possiamo dire che c’è correlazione lineare tra X e Y .

9.1 Covarianza
Obiettivo: misurare il segno e l’intensità della correlazione lineare tra X e Y .

112
1. Calcoliamo le medie delle due variabili: rispettivamente X̄ e Ȳ e rap-
presentiamole sullo scatterplot mediante delle rette (perpendicolari).

Nell’esempio 9.1:
X̄ = 170; Ȳ = 60,

2. Calcoliamo tutti gli scostamenti (le distanze) di X e di Y dalle rispettive


medie. Ovvero
X − X̄ e Y − Ȳ .
Nell’esempio 9.1:

X Y X − X̄ Y − Ȳ
160 55 -10 -5
168 61 -2 1
172 59 2 1
180 65 10 5

Graficamente, possiamo notare che dal congiungimento di ogni dato


(xi , yi ) con la propria media (X̄, Ȳ ) si ottengono dei "rettangoli" di
diverse dimensioni. Possiamo calcolarne l’area grazie al prodotto tra
gli scostamenti appena trovati.
(X − X̄)(Y − Ȳ ).
Nell’esempio 9.1:

113
X Y X − X̄ Y − Ȳ (X − X̄)(Y − Ȳ )
160 55 -10 -5 50
168 61 -2 1 -2
172 59 2 1 -2
180 65 10 5 50

3. Calcoliamo la media aritmetica di questi prodotti.

Nell’esempio 9.1:
50.2 − 2 + 50
= 24.
4
https://www.overleaf.com/project/5fa6dfbd1b5f35f867eef199 Tale quan-
tità si dice covarianza.

Definizione - Covarianza: Si dice covarianza tra due variabili quantitative


X e Y la media dei prodotti degli scostamenti dei dati osservati dalle rispettive
medie:
N
1 X
Cov(X, Y ) = (xi − X̄)(yi − Ȳ ).
N i=1
La covarianza fornisce un’indicazione sull’esistenza e l’intensità della corre-
lazione lineare.
Vediamo alcuni esempi di covarianza mediante alcuni scatterplot.

114
Cov(X, Y ) > 0 Cov(X, Y ) = 0

Cov(X, Y ) < 0 Cov(X, Y ) = 0

La covarianza dipende dall’unità di misura delle variabili X e Y : una


volta calcolata posso guardare se è maggiore, uguale o minore di zero, ma
per a dire se indichi un grado di correlazione lineare più o meno elevato dorei
tenere connto della "scala". È allora utile introdurre un indicatore della
correlazione che sia “normalizzato”: il coefficiente di correlazione lineare.

9.2 Coefficiente di correlazione lineare


Finora abbiamo parlato di correlazione lineare in generale; al fine di misurare
l’intensità della correlazione lineare tra X e Y con un indice, si introduce il
coefficiente di correlazione lineare.

Definizione - Coefficiente di correlazione lineare: Si dice coefficiente

115
di correlazione lineare tra due variabili quantitative X e Y la quantità:
Cov(X, Y ) Cov(X, Y )
r=p p = ;
V ar(X) · V ar(Y ) SQ(X) · SQ(Y )
si ha −1 ≤ r ≤ 1.
Nei casi estremi, in cui tale coefficiente assume i valori -1 e +1, ci troveremo
nelle situazioni di una perfetta relazione lineare, rispettivamente, positiva
(crescente) o negativa (decrescente):

Figura 9.1: r = 1.

Figura 9.2: r = −1.

Quanto più r si avvicina a +1 o a -1 tanto più è forte la correlazione tra X


e Y ; quando siamo in assenza di correlazione lineare (incorrelazione lineare)

116
allora r = 0.
Ci possono tuttavia essere delle situazioni ingannevoli, ossia in cui r > 0 ma
la relazione tra X e Y non è di tipo lineare; per questo insieme al valore di
r è sempre indispensabile guardare anche lo scatterplot.

Figura 9.3: r > 0, ma la realzione tra X e Y è curva.

Nell’esempio 9.1:
Cov(X, Y ) = 24
V ar(X) = 52
V ar(Y ) = 13
24
r = √ √ = 0.923.
52 13
Abbiamo visto che r soddisfa

−1 ≤ r ≤ 1,
ossia può avere segno positivo o negativo. Nella pratica spesso come misura
della correlazione assoluta si considera il coefficiente di correlazione lineare
al quadrato r2 invece che r:
Cov(X, Y )2
r2 = .
V ar(X) · V ar(Y X)
Naturalmente:
0 ≤ r2 ≤ 1,

117
e quindi per sapere se si tratta di una relazione positiva o negativa devo
guardare lo scatterplot.
576
Nell’esempio 9.1: r2 = = 85.2%.
52 · 13
Osservazione: Il coefficiente di correlazione lineare risulta essere poco ro-
busto, cioè è influenzato da eventuali outliers. Anche per questo motivo,
insieme al coefficiente di correlazione lineare risulta fondamentale osservare
contemporaneamente anche lo scatterplot.

Figura 9.4: r2 = 0.

9.3 Regressione lineare


Obiettivo: data una variabile doppia (X, Y ) quantitativa si vuole individuare
un modello, se possibile e dove ha senso, che descriva al meglio il legame tra
X e Y in modo da poter fare delle previsioni per Y a partire dai valori di X.

Si parte dallo scatterplot; se lo scatterplot suggerisce l’esistenza di un


legame approssimativamente lineare tra X e Y , allora possiamo utilizzare il
modello di regressione lineare:

Y = a + bX + Err,

dove

118
Figura 9.5: r2 = 0.9.

Figura 9.6: Approssimazione lineare della distribuzione

Y = Variabile spiegata o Variabile risposta.

X = Variabile esplicativa o Predittore o Regressore.

La retta di equazione

y = a + bx.
viene chiamata retta di regressione" e i coefficienti a e b sono i parametri del
modello e hanno il seguente significato:

119
a = intercetta del modello (valore di y quando x = 0)

b = coefficiente angolare del modello (pendenza della retta)

I valori dei parametri del modello sono ignoti a priori, quindi abbiamo il
seguente obiettivo: determinare i valori di a e b in modo che la retta di re-
gressione passi “il più vicino possibile” ai punti osservati.

In che senso il piu vicino possibile? Si utilizza il seguente criterio di ottimalità:

Principio dei minimi quadrati: i valori da assegnare ai parametri sulla


base dei dati osservati sono quelli che minimizzano la somma degli errori al
quadrato:
N
X
(9.1) SSE = Err2i ,
i=1

dove
Erri = yi − (a + bxi )

Figura 9.7: Y = a + bX + Err.

SSE sono le iniziali di "Sum of Squares of Errors"; questo criterio in


statistica viene chiamato anche "Ordinary Least Squares" (OLS).

120
La soluzione matematica è la seguente 1 :

Cov(X, Y )
b? =
V ar(X)

a? = Ȳ − b? X̄

Esempio 9.2: Consideriamo le variabili X = "precipitazioni (in mm/m2 )


e Y = "Numero di arrivi" rilevate in alcune località balneari durante i mesi
estivi di un dato anno.
Precipitazioni 51 77 100 137 142
Arrivi 189 135 90 70 65
Rappresentiamo lo scatterplot.

Voglio stimare un modello di regressione lineare, quindi devo determinare i


valori a e b.
Devo calcolare medie aritmetiche e varianze di X e Y e la covarianza.
X Y
Media 101.4 109.8
Varianza 1210.64 2178.16
Cov(X,Y) = - 1562.92
1
può essere ottenuta uguagliando a zero le dervate rispetto ad a e rispetto a b della
quantità (9.1): si ottiene un sistema di due equazioni in due incognite, che ammette una
sola soluzione; provare a farlo come esercizio facoltativo.

121
troviamo che:

Cov(X, Y ) −1562.92
b? = = = -1.291
V ar(X) 1210.64
a? = 109.8 −(−1.291) · 101.4 = 240.71
La retta di regressione ha quindi equazione:

Y = 240.71 − 1.291X + Err


Arrivi = 240.71 - 1.291·Precipitazioni + Err

Possiamo utilizzare questo modello per fare previsioni di Y a partire da X.


Se volessimo prevedere gli arrivi quando X = 120

Y ∗ = 240.71 − 1.291 · 420 = 85.79.

Osservazione: La mia previsione non sarà esatta perchè il modello contiene


una parte di errore, che non è prevedibile.
La previsione è il valore di Y sulla retta per un valore di X dato (che possiamo
indicare con X ∗ . Per questo motivo la retta di regressione viene detta anche
retta di previsione, inoltre

Y ? = a∗ + b ∗ X ? ,

viene anche chiamata equazione di previsione.

122
Esempio 9.3: Consideriamo 5 reparti di un’azienda nei quali misuriamo le
variabili X = "Fattore lavoro" e Y = "Produzione".
Ci chiediamo se abbia senso stimare il modello

Produzione = a + b · Fattore lavoro + Err

La matrice dei dati è la seguente

Reparto # X Y
1 2 14
2 3 7
3 5 23
4 7 25
5 9 32

X Y
Media 5.2 20.2
Varianza 6.65 76.56
Cov(X,Y) = 20.36

troviamo che:

Cov(X, Y ) 20.36
b? = = = 3.1037
V ar(X) 6.56
a? = 20.2 − 3.1037 · 5.2 = 4.0610
La retta di regressione ha quindi equazione:

y = 4.0610 + 3.1037x,

e il modello stimato è

Produzione = 4.0610 + 3.1037Fattore lavoro + Err

9.4 Bontà di adattamento del modello


Una volta stimato un modello di regressione lineare ci chiediamo quanto sia-
no accirate le prevsioni basate su tale modello. In altre parole: l’errore del
modello è grande o piccolo?

123
Obiettivo: valutare la bontà di adattamento del modello Y = a+bX +Err
ai dati con un opportuno indice.

Consideriamo ad esempio i seguenti due casi:

In entrambi i casi il modello è lo stesso; tuttavia, nel primo caso si adatta


meglio ai dati, la percentuale di errore è più bassa.

Possiamo misurare la bontà di adattamento con il coefficiente di determina-


zione:

Definizione - Coefficiente di determinazione: è l’indice

V ar(Err)
R2 = 1 − .
V ar(Y )

Si ha che:

124
R2 = 1 quando i punti stanno perfettamente sulla retta di regressione;
ovvero, se e solo se Erri = 0 per ogni i = 1, .., N . Siamo in presenza di
perfetto adattamento del modello.

R2 = 0 quando V ar(Err) = V ar(Y ), cioè l’errore è massimo e il


modello non spiega nulla della variabilità di Y

0 ≤ R2 ≤ 1: quanto più sono vicino a 1 tanto più è migliore l’adatta-


mento del modello.

Si può dire che R2 esprime la percentuale di variabilità di Y "spiegata" dal


modello di regressione.
Il calcolo di questo indice partendo dalla definizione presupporrebbe il calcolo
di tutti gli errori.

Osservazione: Il modello di regressione lineare

Y = a + bX + err.

viene anche detto modello di regressione lineare "semplice", in quanto vi è


una sola variabile esplicativa X. Anche se non abbiamo lo spazio di appro-
fondirlo qui, si sappia che i modelli di regressione lineare possono essere più
complessi, cioè costruiti con più variabili esplicative; si parla allora di regres-
sione lineare "multipla".
Per il caso di regressione lineare semplice vale la seguente proprietà, che si
può dimostrare matematicamente:

R2 = r 2 .

Quindi, per il calcolo del coefficiente di determinazione, non si rende necessa-


rio il calcolo di tutti gli errori ma posso calcolare il coefficiente di correlazione
lineare!

Nell’esempio 9.2: R2 = r2 = 0.8254

Significa che il modello spiega l’82.54% della variabilità di Y, la restante


parte (17.46%) rappresenta l’errore. In definitiva, il modello ha un buon
adattamento ai dati.

125
9.5 Homeworks
1. Il dataset che segue riporta la superficie (in migliaglia di m2 ) e il numero
di posti letto disponibili dei campeggi di una data località turistica:

Campeggio Superficie Posti letto


1 32 900
2 9 300
3 32 1300
4 28 660
5 23 920
6 13 520
7 12 400
8 25 988
9 10 400
10 10 350

(a) Indicando con X = Superficie e Y = Posti letto, disegnare lo


scatter-plot (o diagramma a dispersione).

(b) Quali informazioni è possibile trarre dalla lettura del grafico a


dispersione?

(c) Calcolare la covarianza tra le due variabili in studio ed il coeffi-


ciente di correlazione lineare. Commentare.

(d) Calcolare, utililizzando il metodo dei minimi quadrati, i parametri


ottimali del modello di regressione lineare
Y = a + bX + Err

(e) Commentare i risultati ottenuti al punto precedente.

(f) Calcolare il coefficiente di determinazione R2 e commentare.

(g) Un operatore turistico intende acquistare nella località considerata


due aree di 15 e 9 mila metri quadri da attrezzature a campeggio.
Sapendo che la sua impresa necessita di almeno 800 nuovi posti
letto, come dovrà comportarsi?

126
2. Delle variabili quantitative X e Y sono note:

X Y
Media 15 -10
Deviazione standard 4 5
r2 0.36

(a) Calcolare, utililizzando il metodo dei minimi quadrati, i parametri


ottimali del modello di regressione lineare
Y = a + bX + Err
(b) Tracciare il grafico della retta di regressione.
(c) Effettuare una previsione per X = 5.
(d) Valutare la bontà di adattamento del modello ai dati.

3. La tabella che segue riporta i dati individuali relativi alla rilevazione


congiunta dei caretteri "Sesso" e "Nazionalità" condotta sui 10 turisti
presenti in un albergo di Verbania il 30/03 di quest’anno.

Turista Sesso Nazionalità


1 M ITA
2 F SV
3 M ITA
4 F SV
5 M ITA
6 M SV
7 F FR
8 F ITA
9 M FR
10 M SV

(a) Effettuare lo spoglio dei dati: produrre le distribuzioni congiunte


delle frequenze assolute e relative della variabile doppia "Sesso,
Nazionalità".
(b) Calcolare i profili-riga e colonna e fornire idonee rappresentazioni
grafiche.
(c) Dire se le variabili sono indipendenti.

127
4. Si consideri la matrice dei dati che segue, ove X ed Y sono due variabili
quantitative:

# X Y
1 1 3.1
2 1.5 2.8
3 3 4.5
4 3 4
5 3.8 5.2
6 4 5.5
7 4 5.6
8 4 4.8
9 4.5 5.2

(a) Fornire una rappresentazione grafica che consenta di cogliere l’e-


sistenza di eventuali legami tra le variabili in esame.
(b) Calcolare la Covarianza e il Coefficiente di correlazione lineare tra
X ed Y.
(c) Commentare.

5. La tabella che segue riporta i dati individuali relativi alla rilevazione


congiunta del “Prezzo Unitario” e delle “Quantità Vendute” di un dato
prodotto in 10 punti vendita, omogenei per bacino d’utenza (rilevazione
compiuta il 31/10 di quest’anno).

Punto vendita Prezzo Quantità


1 15 16
2 12.5 18
3 13 19
4 11.5 22
5 12.5 25
6 15 15
7 13 23
8 14.5 14
9 15 19
10 12.5 22

(a) Rappresentare il diagramma a dispersione (scatterplot).

128
(b) Calcolare il coefficiente di correlazione lineare tra prezzo e quan-
tità.
(c) Supponendo l’esistenza di un modello lineare che leghi le quantità
vendute al prezzo (curva di domanda) calcolare i parametri del
modello utilizzando il metodo dei minimi quadrati.
(d) Valutare, mediante l’apposito indice, la bontà di adattamento del
modello ai dati.
(e) Calcolare la quantità teorica sulla base del modello precedente,
qualora il prezzo fosse pari a 13.5.

129
Distribuzioni di quantità
Numeri indice
Serie storiche
Capitolo 10

Distribuzioni di quantità

Consideriamo un carattere quantitativo che viene aggregato sulla base delle


modalità di un’altra variabile (qualitativa o quantitativa).
Possono esservi diversi criteri di aggregazione:

- Modalità sconnesse (ad esempio se considerassimo gli arrivi per cate-


gorie di strutture ricettive);

- Criterio territoriale (ad esempio i posti letto nei comuni italiani);

- Criterio temporale: si concretizza nell’analisi di serie temporali o serie


storiche (ad esempio gli arrivi in un hotel in ogni anno dal 2000 al
2018).

10.1 Rappresentazioni grafiche per le distribu-


zioni di quantità
Esemplifichiamo ora alcuni grafici che forniscono una rappresentazione utile
delle distribuzioni di quantità.

131
Diagramma a barre

Figura 10.1: Densità demografica per ogni circoscrizione (al 31 dicembre


2000). Numero popolazione / Kmq (fonte: Elaborazione dati Ufficio di
statistica del Comune di Torino).

Figura 10.2: Presenze per mese nella STL di Dolomiti-Cortina - paese di


provenienza: Mondo.

132
Ideogramma

Figura 10.3: Superficie media (in mq) di verde pubblico per ogni circoscrizione
della città di Torino (Fonte: Ufficio di Statistica del Comune di Torino).

Cartogramma

Figura 10.4: Numero di operatori del settore formaggi DOP per regione (anno
2009).

133
Diagramma a linee

Figura 10.5: Evoluzione permanenza media dal 1975 al 2000.

Figura 10.6: Presenza sul territorio di strutture ricettive quali i B&B.

Diagramma a radar

134
10.2 Rapporti statistici
Essenzialmente le grandezze ce si studiano possono essere di due tipi:

• In Stock : si osservano in un certo istante t:

S(t) = ammontare rilevato in un dato istante

Ad esempio: la popolazione residente al 31/12; il numero di occupati


nel settore TUR nel febbraio 2019; numero di esercizi ricettivi al 30
marzo.

• A flusso: si osservano le variazioni in un intervallo di tempo che va da


t0 a t1
F (t0 , t1 ) = S(t1 ) − S(t0 ).
Ad esempio: il consumo di carburante orario; il rendimento in un dato
periodo; gli arrivi nel corso di un giorno del mese di gennaio.

Sussiste, però, un problema: spesso le grandezze non sono direttamente con-


frontabili; pensiamo ad esempio al confronto tra il numero di abitanti in due
località con diversa estensione della superficie su cui si trovano.

A tale scopo, si utilizzano i rapporti statistici :


A
R= ;
B
si ha un rapporto statistico quando almeno una delle grandezze si riferisce
ad un fenomeno collettivo.

Osservazione:

• A e B possono essere flussi e/o stock;

• Tra A e B ci deve essere un nesso logico;

A seconda della relazione che intercorre tra A e B ci sono diversi tipi di


rapporti statistici:

1. Rapporti di composizione;

135
2. Rapporti di coesistenza;

3. Rapporti di densità e derivazione.

Rapporti di composizione

Esempio 10.1: Siano A = "Numero di pernottamenti per vacanza" e B =


"Totale dei pernottamenti".
A
R= .
B
R è un rapporto di composizione perchè A è una parte di B .

Città Pernottamenti per vacanza Pernottamenti per altri motivi Totale R


A 200 1200 1400 14.3%
B 800 1200 2000 40%
C 200 2800 3000 6.7%

In questo esempio R è il "tasso di turismo proprio" (si noti inoltre che A e


B sono in Stock).

Rapporti di coesistenza

Esempio 10.2: Siano A = "numero di presenze di italiani" e B = "Numero


di presenze di stranieri".

R = A/B rapporto di coesistenza italiani/stranieri

Categorie Italiani Stranieri R


Alberghi * 270 308 88.7%
Alberghi ** 200 108 185%

Consideriamo ora l’indice in questo caso R.


A
R= .
B
Notiamo che A + B rappresenza il totale; A e B sono grandezze in Stock.

Rapporti di densità

136
Esempio 10.3: Siano A = "numero abitanti" e B = "Superficie".

R = A/B densità abitativa. È un indicatore di affollamento.

Si noti che A e B sono in Stock e riferiti a caratteri diversi.

Rapporti di derivazione

Esempio 10.4: Siano A = "numero posti letto" e B = "Numero di strutture


ricettive".

R = A/B densità dei posti letto.

In quest’ultimo esempio abbiamo una nuova tipologia di rapporti: i rapporti


di derivazione; in questi A viene prdotto o deriva logicamente da B.

Output
Ad esempio: R = Produttività =
Input

Riassumendo, abbiamo osservato quattro tipologie di rapporti statistici per


grandezze in stock: Composizione; coesistenza; densità; derivazione.

Se volessimo considerare i rapporti statistici relativi a grandezze di flusso,


avremmo:

• Rapporti di ripetizione e durata;

• Rapporti di incremento;

• Numeri indice.

10.3 Rapporti di ripetizione e durata


Consideriamo una popolazione rinnovabile (ovvero una popolazione in cui le
unità possono cambiare nel tempo).
Prendiamo un intervallo temporale (t0 ,t1 ) e poniamo:

• S(t0 ) = stock iniziale;

137
• S(t1 ) = stock finale;

• Fe = flusso in entrata;

• Fu = flusso in uscita

Facciamo alcune considerazioni:

1. Quando Fe = Fs allora si parla di rapporto di ripetizione

Fe Fu
oppure .
S(t0 ) S(t1 )

In quanto normalmente se vale Fe = Fs allora vale anche S(t0 ) = S(t1 ).

2. Quando Fe 6= Fs allora si utilizza il rapporto di ripetizione medio

(Fe + Fu )/2 Fe + Fu
= .
[s(t0 ) + s(t1 )]/2 s(t0 ) + s(t1 )

Quest’ultimo indica il numero di volte in cui si è riscontrato il rinnova-


mento completo della popolazione (turnover ) nell’intervallo di tempo
considerato.

3. Si dice, infine, rapporto di durata il reciproco del rapporto di ripetizione


( spesso moltiplicato per (t1 − t0 )). Questo indica il tempo necessario
al rinnovamento completo della popolazione.

Esempio 10.5: Consideriamo un hotel con Numero di posti letto = 100 =


S(t0 ) (in questo caso S(t0 ) = S(t1 )); arrivi in un mese = 400 = Fe

400
• Rapporto di ripetizione = =4
100
Il turnover è di 4 volte in un mese.
1
• Rapporto di ripetizione = · 30 = 7.599
4
La permanenza media nell’hotel è di circa 7.6 giorni.

138
10.4 Indicatori turistici
Introduciamo un particolare gruppo di rapporti statistici utili ai fini dello
studio del fenomeno TUR. Distinguiamo:

1. Indicatori della propensione turistica: misurano quanto una collettività


si dedichi al turismo;

2. Indicatori dell’offerta turistica: misurano la capacità ricettiva di una


località;

3. Indicatori didei flussi turistici : misurano la domanda turistica di una


località.

(1) Indicatori della propensione turistica

Tasso lordo di propensione turistica:

Numero viaggi
T Plordo = · 100.
popolazione media
Dove:

• Numero viaggi = numero di viaggi di durata maggiore di un giorno


effettuati dai residenti di una certa regione.

• Popolazione media = media della numerosità della popolazione tra il 1


gennaio e il 31 dicembre dell’anno in esame.

Osservazione: Nel numero di viaggi coloro che hanno fatto più di un viag-
gio vengono contati più volte.

Tasso netto di propensione turistica:


Numero persone che hanno viaggiato
T Plordo = · 100.
popolazione media
dove:

• Numero persone che hanno viaggiato = coloro che hanno effettuato


unviaggio di durata maggiore di un giorno.

Esempio 10.6:

139
Area TP TP
Nord 200 53
Centro 190 47
Sud 110 32
Italia 170 46

Osservazione:

• T Plordo : mi indica che, a livello nazionale, sono stati effettuati 170 viag-
gi ogni 100 italiani con rilevanti differenze tra ripartizioni territoriali:
al Nord 200, al sud 110.

• T Pnetto mi indica che hanno effettuato almeno un viaggio 46 italiani su


100 (53 su 100 al Nord, 32 su 100 al Sud).

Casi particolari :

Gli indicatori della propensione TUR possono essere calcolati anche in fun-
zione della durata del viaggio, tipo di alloggio, località di destinazione (o
altro).

Tasso di propensione alle vacanze brevi :


numero viaggi 1-3 notti
· 100.
popolazione media
Tasso di propensione alle vacanze in luoghi lontani :
numero viaggi in luoghi lontani
· 100.
popolazione media
Tasso di propensione alle vacanze in luoghi vicini. ecc.

(2) Indicatori dell’offerta turistica

Tasso di funzione ricettiva semplice:


posti letto
T Rsempl = · 100.
popolazione
Oppure
posti letto
T Rsempl = · 100.
superficie

140
Questi rappresentano dei rapporti di densità.

Tasso di funzione ricettiva composto:


posti letto
T Rcomp = · 10, 000.
popolazione· superficie
Sia T Rsempl che T Rcomp possono essere calcolati per tipologia di esercizio (al-
berghiera, extra-alberghiera, complementare).

È possibile costruire indicatori analoghi considerando altri servizi turistici


(bar, ristoranti, ecc.).

Disponibilità media di letti o camere:


numero di letti in alberghi
Dletti = · 100.
numero esercizi ricettivi

numero di camere in alberghi


Dletti = · 100.
numero esercizi ricettivi

(3) Indicatori dei flussi turistici

Introduciamo delle misure principali che stanno alla base della costruzione
di questi indicatori:

• Arrivi = Numero di ingressi nel luogo considerato (ad esempio: numero


di clienti che si registrano in un albergo).

• Numero di notti trascorse dai soggetti nel luogo considerato.


presenze
• Permanenza media =
arrivi
Gli indicatori dei flussi turistici si distinguono in:

1. Indicatori della pressione turistica: Valutano l’impatto della presenza


turistica in un certo territorio.

2. Indici di utilizzazione: Si valuta quanto in una certa località sono stati


utilizzati i servizi e le strutture a scopo turistico.

141
(1) Indicatori della pressione turistica:

• Tasso di funzione turistica:


presenze
TT = · 100.
popolazione · 365

Misura quanti turisti siano presenti (in media all’anno) ogni 100 resi-
denti.
Esempio 10.7:

Italia

pop.res. = 57 mln
presenze = 345 mln

345
TT = · 100 = 1.66
57 · 365

Toscana

3.5 mln
presenze = 38 mln

38
TT = · 100 = 2.97
3.5 · 365
• Indice di affollamento:

Presenze+Popolazione
· 100.
superficie

Indica il peso delle presenze tur a livello territoriale tenendo conto della
popolazione.

• Indice di densità turistica territoriale:


arrivi
.
superficie

142
• Indice di sfruttamento territoriale:
arrivi+popolazione
.
superficie · 100
(2) Indici di utilizzazione:

Misurano quanto sono stati effettivamente utilizzati i servizi e le strutture


turistiche di un territorio.
Sono utili per valutare il dimensionamento delle strutture e dei servizi in
relazione ai flussi turistici che si sono realizzati in un certo periodo (tali indici
vengono pubblicati dall’ISTAT insieme ai dati sui flussi). Distinguiamo:
• Indice di utilizzazione lordo:

presenze
IUlordo = · 100.
letti · 365
esprime quanta parte del totale dei letti disponibili sia stata utilizzata
durante l’anno.

• Indice di utilizzazione netto:

presenze
IUnetto = · 100.
letti · giorni
Giorni = Numero di giornate in cui l’esercizio ricettivo è stato effetti-
vamente aperto.
Se IUnetto = 100 indica che l’utilizzo è completo.
Esempio 10.8:

Lombardia

letti =146 mila


presenze = 18,018 mila
numero medio di giorni di apertura = 293

18, 018
IUlordo = · 100 = 33.8
146 · 365
18, 018
IUnetto = · 100 = 42.1
146 · 293

143
144
Capitolo 11

Serie storiche e numeri indice

Quando una grandezza viene misurata nel tempo si parla di serie storica o
serie temporale.

Definizione - serie storica : una serie storica (o serie temporale) è una


variabile che viene misurata nel tempo (giorni mesi anni, ...). Si ha quindi
la seguente matrice dei dati:

Tempo (t) Grandezza (Gt )


0 G0
1 G1
2 G2
3 G3
... ...
7 G7
... ...
T GT

Osserviamo che il tempo t è stato indicizzato da 0 a T . Questo è utile


per l’analisi delle serie storiche che svolgeremo ora.

Le serie storiche possono essere rappresentate mediante un digramma a


linee, ovvero una spezzata che collega tutti i punti di coordinate (t, Gt ),
t = 0, ..., T . Attraverso questo grafico viene evidenziato l’andamento della
serie nel tempo.

145
Esempio 11.1:

t 0 1 2 3 4 5
Gt 250 280 320 330 335 350

146
Obiettivo: studiare l’evoluzione di una serie storica nel tempo. In particolare,
definiamo alcuni indici che caratterizzano ltale evoluzione.
Definizione - Variazione assoluta: Si chiama variazione assoluta tra il
tempo 0 e il tempo T l’incremento o il decremento assoluto della serie:

0V AT = GT − G0 .

Definizione - Variazione assoluta media: Si chiama variazione assoluta


media tra il tempo 0 e il tempo T la quantità:
GT − G0 0 V AT
0 ET = = .
T T
Definizione - Indice di oscillazione: Si chiama indice di oscillazione tra
il tempo 0 e il tempo T la quantità:
T
X
|Gt − Gt−1 |
t=1
0 OT = .
T

L’indice di oscillazione misura la variabilità effettiva della serie.


Nell’esempio 11.1:

147
0V AT =0 V A5 = 350 − 250 = 100
100
0 ET =0 E5 v = = 20
5
1
0 OT =0 O5 = (|280 − 250| + |320 − 280| + |330 − 320| + |335 − 330| + |350 −
5
335|) = 20
Osserviamo che indice di oscillazione e variazione assoluta media coincidono
in questo esempio solo perchè la serie è crescente (si tratta quindi di un caso
particolare).

11.1 Tassi di variazione


Ci interessiamo ora alle variazioni relative della serie.

Definizione - Tasso di variazione: Definiamo tasso (o saggio) di va-


riazione tra 0 e T la variazione assoluta rapportata al valore iniziale della
grandezza:
GT − G0 GT
0 T VT = = − 1.
G0 G0
Nell’esempio 11.1:

GT 350
−1= − 1 = 0.4
G0 250

148
La variazione nel periodo è stata del +40%.

Esempio 11.2:
Il PIL del turismo nel 2013 è 200.
Il PIL del turismo decresce del 5% dal 2013 al 2014. Di quanto dovrà au-
mentare il PIL nel 2015 per tornare al livello iniziale (del 2013)?

200 · (1 − 0.05) = 190


(dove 0.05 è il tasso tra il 2013 e il 2014).

200(1+ tasso di variazione dal 2014 al 2015 ) = 200, da cui:


200
tasso dal 2014 al 2015 = − 1 = 0.0526
190
Definizione - Tasso (di variazione) medio semplice tra 0 e T : Il tasso
medio semplice si definisce come segue:
tasso di variazione tra 0 e T
.
T
Nell’esempio 11.2:
0.4
Tasso medio semplice = = 0.08
5
Quindi, il tasso di variazione medio annuo è +8%.

Osservazione: Il tasso semplice medio non è la media aritmetica dei tassi


di variazione tra t − 1 e t, per t = 1, ..., T ! Provare per esercizio.

Definizione - Tasso medio composto: Il tasso medio composto si definisce


come segue: v
uT
uY Gt
T
t −1
t=1
Gt−1
s r
G1 G2 GT GT
= T
· · ... · −1= T − 1.
G0 G1 GT −1 G0

Osserviamo che la quantità sotto radice è la media geometriche delle varia-


Gt
zioni relative .
Gt−1

149
r
350
Nell’esempio 11.2: Il tasso medio composto è T
− 1 = 0.0696.
250
Vediamo infine alcune altre terminologie che si possono incontrare in questo
ambito.

Variazione tendenziale: si intende la variazione (percentuale) rispetto


allo stesso periodo dell’anno precendente.
Ad esempio: se Gt è una grandezza misurata in mesi,
Gaprile 2019
.
Gaprile 2018

Variazione congiunturale: si intende la variazione (percentuale) rispetto


al periodo di rilevazione precedente.
Ad esempio:
Gaprile 2019
.
Gmarzo 2019

11.2 Numeri indice


Data una serie temporale, vogliamo studiare l’evoluzione tra un istante ("tem-
po base") e un istante successivo ("tempo corrente") a prescindere dalla scala
della grandezza oggetto di studio, in modo tale da poter effettuare confronti
tra serie temporali differenti.
Distinguiamo:

- Numeri indice a base fissa:


Gt
0 It = , t = 0, ..., T,
G0
dove il tempo base è 0.

- Numeri indice a base mobile:


Gt
t−1 It = , t = 1, ..., T,
Gt−1
dove il tempo base è t − 1.

Esempio 11.3:

150
t G 0 It t−1 It
0 250 1 -
1 280 1.12 1.12
2 260 1.04 0.93
3 240 0.96 0.92

Esempio 11.4: Consideriamo i prezzi medi annui di 2 beni, A e B.

Anno Bene A Bene B


2010 15 45
2011 16 47
2012 17 49
2013 18 50
2014 19 51

Il corrispondente grafico sarà:

Dall’osservazione dei numeri indice si ved un maggiore incremento del bene


A rispetto al bene B infatti:

151
Anno Bene A Bene B
2010 1 1
2011 1.07 1.04
2012 1.13 1.09
2013 1.2 1.11
2014 1.27 1.13
Il grafico dei numeri indice:

11.3 Considerazioni finali sui numeri indice


(I) Dalla serie dei numeri indice a base fissa si può passare a quella a base
mobile e viceversa. Inoltre, dalla serie dei numeri indice si può anche rico-
struire la serie originaria dei dati, purchè si conosca G0 o un altro valore Gt .

Esempio 11.5:
Anno Prezzo A 0 It : NI a base fissa t−1 It :
NI a base mobile
2010 15 1.00 -
2011 16 1.07 16/15 = 1.07/1.00
2012 17 1.13 17/16 = 1.13/1.07
2013 18 1.20 18/17 01.2/1.13

152
Da questo esempio si vede che:

0 It
t−1 It = ,
0 It−1

Ossia: dai numeri indice a base fissa posso ottenere quelli a base mobile.
Se moltiplicassimo tra loro i NI a base mobile otterremmo quelli a base fissa:
G1 G2 G3 Gt
0 I1 ·1 I2 ·2 I3 · ... ·t−1 It = · · · ··· · .
G0 G1 G2 Gt−1
Facendo le opportune semplificazioni otterremmo:
Gt
= . =0 It .
G0
(II) Se si calcola il rapporto tra due NI con la stessa base, si ottiene un NI
con una nuova base:
Gt
I
0 t G Gt
= 0 = =r It .
0 Ir Gr Gr
G0
Nell’esempio 11.5: Consideriamo gli arrivi in una località, con t = anno.

2010 I2013 G2013 /G2010 G2013 18


= = = = 1.1215 =2011 I2013 .
2010 I2011 G2011 /G2010 G2011 16

11.4 Introduzione all’analisi "tecnica" delle se-


rie storiche e trend lineare
Quando si osserva una serie storica, spesso si può riscontrare un andamento
di fondo; tale andamento prende il nome di "trend" della serie storica. Tale
trend può essere lineare o non lineare.
Oltre all’andamento di fondo possono esserci delle "stagionalità", ovvero dei
comportamenti ciclici che si ripetono nel tempo.

Il nostro obiettivo è studiare le regolarità (in particolare il trend) di una serie


storica. Si procede a passi successivi:

1. Si suddivide la serie in segmenti omogenei;

153
Figura 11.1: Trend non lineare con stagionalità.

2. Si eliminano eventuali dati anomali;

3. Si scrive un modello che evidenzi la scomposizione della serie:

Gt = Tt + St + Et ,

dove Tt = trend, St = Stagionalità, ESt = errore.


Tale modello si dice additivo.1
1
Esistono anche altri modelli, ad esempio modelli moltiplicativi del tipo:

Gt = Tt · St · Et .

154
Figura 11.2: Trend lineare con stagionalità.

Occupiamoci ora di un caso particolare.

11.4.1 Determinazione del trend lineare (in assenza di


stagionalità)
Introduciamo il modello, sotto l’ipotesi che St = 0:

Gt = Tt + Et .

Concentriamoci sul caso che Tt sia lineare, ovvero

Tt = a + bt.

Riscriviamo il modello
Gt = a + bt + Et .
Siamo in grado di calcolare i coefficienti a e b a partire dai dati, utilizzando
il principio dei minimi quadrati.

Attenzione: si noti che occorre indicizzare il tempo; a seconda di come


si indicizza arbitrariamente il tempo, che è una scelta arbitraria, cambiano i
valori dei coefficienti ottenuti con il metodo di minimi quadrati.
Per comodità, qui indicizzeremo il tempo a partire da t = 1.

Per scrivere questi modelli occorrono metodologie statistiche che esulano i contenuti di
questo corso.

155
Esempio 11.6:

t Gen Feb Mar Apr MAg


Gt 120 150 160 172 195

Rappresentiamo graficamente la serie storica.

Dal grafico si deduce che ha senso calcolare un trend lineare, ovvero conside-
rare il modello:
Gt = a + bt + Et .
Per calcolare i valori di a? e b? stimati da questi dati, come per la regressione,
poniamo X = t e Y = Gt .
Dobbiamo ora calcolare le medie, le varianze e la covarianza tra t e Gt .
Consideriamo t = 1, 2, ..., 5.

t Gt
Media 3 159.4
Varianza 2 613.44
Covarianza 34.4

Otteniamo i coefficienti:

Cov(t, Gt ) 34.4
b? = = = 17.2,
V ar(t) 2
a? = Gt − b? t̄ = 159.4 − 17.2 · 3 = 107.8,

Tt = 107.8 + 17.2 · t.

156
Rappresentiamo tale retta sul grafico.

Ci chiediamo se tale trend si adatti bene alla serie storica. Calcoliamo il


coefficiente di determinazione:
Cov(t, Gt )2 34.42
R2 = r2 = = = 0.965
V ar(t) · V ar(Gt ) 2 · 613.44
Il trend descrive il 96.5% della variabilità di Gt .

Se volessimo prevedere quanto valga Gt in giugno, avremmo che

Ggiugno = 107.8 + 17.2 · 6 = 211(= T6 ).

Mi aspetto infine che tale previsione sia abbastanza precisa, in quanto R2 =


96.5%.

11.5 Homeworks
1. La serie storica degli arrivi in una città d’arte nell’ultimo quadrimestre
del 2019 è contenuta nella seguente tabella:

Mese Arrivi (migliaglia)


Settembre 160
Ottobre 150
Novembre 140
Dicembre 200

157
(a) Calcolare la variazione assoluta della serie.

(b) Calcolare la variazione assoluta media della serie.

(c) Calcolare l’indice di oscillazione della serie.

(d) Calcolare il tasso di variazione tra 0 e T.

(e) Calcolare il tasso medio semplice.

(f) Calcolare il tasso medio composto.

2. La tabella che segue riporta le serie storiche dei prezzi (in euro) di due
beni, denominati A e B.

Anni Prezzi bene A Quantità bene A Prezzi bene B Quantità bene B


1999 10.00 120 50.00 220
2000 10.11 121 50.10 225
2001 10.35 120 50.40 221
2002 10.87 125 50.75 230
2003 11.02 122 51.00 221

(a) Calcolare la serie dei numeri indice dei prezzi dei due beni, en-
trambe con base 1999.

(b) Rappresentare graficamente il fenomeno di modo che possa essere


individuato il bene che ha subito l’aumento dei prezzi più rilevante
nell’intero periodo.

(c) Qual è stata la variazione dei prezzi tra il 2000 e il 2002 e quella
in media annua?

(d) Qual è stato l’incremento dei prezzi tra il 2002 e il 2003?

3. Si consideri la serie storica trimestrale degli arrivi (in migliaglia di


turisti) in una data località:

158
Trimestre Arrivi
I - 2014 158
II - 2014 165
III - 2014 210
IV - 2014 180
I - 2015 165
II - 2015 185

(a) Tracciare il grafico della serie storica.

(b) Calcolare:

i. il tasso di variazione del IV trimestre del 2014 sul I trimestre


2014;
ii. i tassi di variazione medi trimestrali semplice e composto
per il 2014;
iii. la variazione tendenziale del I semestre 2015 rispetto al 2014;
iv. il tasso di variazione tendenziale del I semestre 2015 rispetto
al 2014.

(c) Calcolare l’indice di oscillazione tra il I trimestre 2014 e il II


trimestre 2015.

(d) Calcolare la serie dei numeri indice a base fissa ( base = III
trimestre 2014) e quella dei numeri indice a base mobile.

4. Si consideri la seguente serie mensile di N.I. a base fissa (con base t =


0):
t o It
0 1.00
1 0.98
2 0.95
3 0.97
4 0.93

(a) Qual è il tasso di variazione tra il tempo 1 e il tempo 3?

159
(b) Qual è il tasso medio composto mensile tra il tempo 0 e il tempo
3?

(c) Calcolare la serie di N.I. con base fissa t = 3.

(d) Calcolare la serie dei N.I a base mobile e i corrispondenti tassi di


variazione.

(e) Sapendo che la grandezza in esame gt ammonta a 500 al tempo


3 (g3 = 500), calcolare la serie storica originaria (t, gt ).

5. Gli arrivi registrati mensilmente in una città d’arte sono i seguenti:

Mese Arrivi (migliaglia)


Febbraio 252
Marzo 270
Aprile 274
Maggio N.d.
Giugno 284
Luglio 285
Agosto 294

(a) Tracciare il grafico della serie storica.

(b) Calcolare i coefficienti del trend lineare (Tt = a + bt) e valutare


la bontà di adattamento del modello ai dati (si numeri il tempo
t a partire da t = 1).

(c) Indicare il valore del trend per il mese di maggio dell’anno in


esame.
Effettuare quindi una previsione per il mese di settembre.

6. Le serie storiche annue degli arrivi (in migliaglia) di turisti italiani e


stranieri in una data località sono riportate nella tabella che segue:

Anno Arrivi italiani Arrivi stranieri


2008 60 118
2009 65 130
2010 62 135
2011 68 145
2012 70 158

160
(a) Tracciare il grafico delle serie storiche. Quale delle due grandezze
in esame ha subito la variazione più consistente nel periodo 2008
- 2012?

(b) Calcolare le serie dei N.I. con base fissa 2008 e valutarne i trend
lineari. Commentare il significato dei coefficienti dei due trend
ottenuti.

(c) Calcolare la serie storica dei tassi di coesistenza tra italiani e


stranieri: dopo averne tracciato il grafico commentare la dinamica
illustrata.

7. La tabella che segue riporta i fatturati mensili di una data impresa nel
corso del secondo semestre 2012 (dati in migliaglia di Euro).

Mese Luglio Agosto Settembre Ottobre Novembre Dicembre


Fatturato 1650 1570 1670 1700 1690 1750

(a) Rappresentare graficamente la serie storica.

(b) Calcolare la serie dei numeri indice a base mobile e quella dei
numeri indice a base fissa (con base Luglio).

(c) Supponendo un trend di tipo lineare, calcolare utilizzando il me-


todo dei minimi quadrati i parametri del modello interpolante.

(d) Fornire un indicatore della bontà di adattamento del modello ai


dati.

(e) Supponendo che tale trend si mantenga invariato per il successivo


mese di Gennaio 2013, effettuare una previsione del fatturato
relativo al mese di Gennaio 2013.

161

Potrebbero piacerti anche