Sei sulla pagina 1di 444

E PRIMI ELEMENTI DI CALCOLO DELLE PROBABILITÀ

GIUSEPPE BOARI – GABRIELE CANTALUPPI

NOTE DI STATISTICA DESCRITTIVA


NOTE DI STATISTICA DESCRITTIVA EDUCatt - Ente per il Diritto allo Studio Universitario dell’Università Cattolica
Largo Gemelli 1, 20123 Milano - tel. 02.7234.22.35 - fax 02.80.53.215
e-mail: editoriale.dsu@educatt.it (produzione); librario.dsu@educatt.it (distribuzione)
web: www.educatt.it/libri

E PRIMI ELEMENTI
DI CALCOLO DELLE PROBABILITÀ

GABRIELE CANTALUPPI
GIUSEPPE BOARI

Euro 22,00
2021
Indice
Prefazione iii .1

1 Introduzione 1
2 Caratteri e scale di misura 7
3 Caratteri e loro rappresentazione grafica 25
4 Classificazione congiunta di due caratteri 53
5 Indici di posizione (1) 57
6 Indici di posizione (2) 95
7 Variabilità (1) 109
8 Variabilità (2) 121
9 Variabilità (3) 139
10 Variabilità (4) 145
11 Indici di forma 157
12 Rapporti statistici 173
13 Analisi statistica bivariata 197
14 Connessione (1) 207
15 Connessione (2) 219
16 Studio della dipendenza se la variabile dipendente è di tipo quantitativo 233
17 Studio della dipendenza se entrambe le variabili sono di tipo quantitativo (1) 245
18 Studio della dipendenza se entrambe le variabili sono di tipo quantitativo (2) 257
19 Modelli polinomiali 269
20 Modelli riconducibili al modello retta 291
21 Esempio stima modelli in presenza di tabella a doppia entrata 301
22 Esempio stima modelli in presenza di coppie di dati 311
23 Regressione lineare multipla 321
24 Calcolo delle probabilità (1) 347
25 Calcolo delle probabilità (2) 363
26 Calcolo delle probabilità (3) 377
27 Calcolo delle probabilità (4) 395
28 Richiami di matematica 417
29 Indice analitico 433
30 Riferimenti bibliografici 437

i
Prefazione
La presente dispensa raccoglie, in versione cartacea, il materiale riguardante il corso di
STATISTICA. Trae origine dalle lezioni del Prof. Angelo ZANELLA, per lunghi anni
titolare dell’insegnamento presso la Facoltà di Economia dell’Università Cattolica del
Sacro Cuore, e presenta approfondimenti di carattere applicativo utili nell’ambito delle
scienze economiche, della gestione aziendale, della gestione dei beni culturali e dello
spettacolo e delle scienze del turismo.
Gli argomenti trattati riguardano essenzialmente la statistica descrittiva, lo studio della
connessione e della dipendenza, ed elementi introduttivi di calcolo delle probabilità.
Della dispensa esiste anche una versione elettronica (e-book), disponibile sul sito
http://www.educatt.com/libri/materiali, destinata alla preparazione del-
la prova scritta, e collegata (mediante link) con il materiale riguardante la soluzione di
svariati temi d’esame (dei quali è disponibile anche una versione cartacea). Il testo ’Temi
e soluzioni per l’esame di statistica’ fornisce infatti differenti livelli di supporto: il sem-
plice richiamo dell’argomento trattato, il collegamento automatico alle pagine di teoria,
ai risultati degli esercizi e alla soluzione guidata e dettagliata degli stessi.

iii
Sezione 1
Introduzione
1.1

Indice
1 Che cosa è la Statistica 1

2 Caratterizzazione dell’approccio deduttivo e dell’approccio induttivo 2

3 La variabilità accidentale 2

4 Il modello statistico 4

5 Caratterizzazione della componente di errore 4

6 Le branche della statistica 5 1.2

1 Che cosa è la Statistica


• Diramazione delle Matematiche
• Ausilio alle discipline sperimentali
– Fisica
– Chimica
– Biologia
– Medicina
– Economia

Categorie di discipline scientifiche


• DEDUTTIVE
– matematica
– geometria
• INDUTTIVE
– discipline che fanno ricorso alle indagini sperimentali empiriche
1.3

1
2 Caratterizzazione dell’approccio deduttivo e dell’ap-
proccio induttivo
Approccio deduttivo
1. Assunzione preliminare di certi enti e di alcune loro proprietà
assiomi
2. Acquisizione di altri contenuti per via deduttiva dagli assiomi
teoremi
1.4

Approccio induttivo (sperimentale)

osservazioni / nuovi fatti

IPOTESI

conferma sperimentale
NO
SI

TEORIA (formulazione/aggiornamento)

(il ciclo si riattiva quando si presentano fatti nuovi)


1.5

3 La variabilità accidentale
La statistica si interessa in particolare della variabilità accidentale.
Variabilità accidentale
Esistono fenomeni caratterizzati da molteplici manifestazioni , vale a dire fenomeni che
danno luogo a risultati non prevedibili con certezza.
Le differenti manifestazioni di un fenomeno possono verificarsi a seguito di meccanismi
di:
• ripetitività virtuale,
• ripetitività attuale.
1.6

Fenomeni caratterizzati da ripetitività virtuale


Possono idealmente essere ripetuti nelle stesse condizioni sperimentali.
Esempio 1 (Lancio di una moneta (T ;C)).

∼ 50%T ∼ 50%C

cause di variabilità:
non si ripete l’esperimento nelle stesse condizioni.
1.7

2
Riduzione delle fonti di variabilità
1. faccia della moneta posta in alto (T )

T ∼ 55%T ∼ 45%C

2. faccia della moneta posta in alto (T ) e supporto di lancio

T ∼ 80%T ∼ 20%C

3. faccia della moneta posta in alto (T ) e supporto di lancio e piano di atterraggio

T ∼ 99%T ∼ 1%C

1.8
Fenomeni caratterizzati da ripetitività attuale
Si sono già manifestati: i risultati che si osservano sono caratterizzati da una certa varia-
bilità (molteplicità).
Esempio 2 (Indagine sul reddito degli abitanti di una certa città a una certa data).
classi di reddito frequenza
0 ⊣ 20 10%
20 ⊣ 30 60%
superiore a 30 30%
la variabilità dipende dalle differenti caratteristiche dei soggetti esaminati. 1.9

Si può ridurre la variabilità, considerando altri fattori, che consentono di individua-


re insiemi più omogenei di unità statistiche
1. soggetti con età 40 ⊣ 50
classi di reddito frequenza
0 ⊣ 20 2%
20 ⊣ 30 33%
superiore a 30 65%
2. soggetti con età 40 ⊣ 50 e professione impiegato
classi di reddito frequenza
0 ⊣ 20 2%
20 ⊣ 30 13%
superiore a 30 85%
3. soggetti con età 40 ⊣ 50 e professione impiegato e titolo di studio laurea
classi di reddito frequenza
0 ⊣ 20 0%
20 ⊣ 30 5%
superiore a 30 95%
1.10

3
4 Il modello statistico
MODELLO ≡ MECCANISMO GENERATORE DELLE OSSERVAZIONI
• descrive i possibili risultati (osservazioni)
• nell’ipotesi di ripetere più volte l’esperimento
1.11
Esempio 3. Relazione fra il peso (Y ) e la sola altezza (X) di n individui adulti
Introduzione
modello:
yi = a + bxi + ei , i = 1, . . . , n

Y = f (X) + E = legge + errore accidentale

100
90
80

70
60

50
40
150 160 170 180 190 200
1.12

5 Caratterizzazione della componente di errore


Accidentalità
• non prevedibile con certezza
• non presenta sistematicità

COMPITO DELLA STATISTICA

- identificazione dei modelli


caratteristica minimale: - verifica della loro validità
compensazione tra errori positivi e negativi (somma nulla).
1.13

Compito della statistica


• Identificazione del modello che meglio riproduce i dati,
• verifica della validità del modello

4
FONTI DI INDETERMINATEZZA
• Imperfetta specificazione del modello:
– forma delle relazioni presenti nel modello
(si sono, ad esempio, considerate solo relazioni di tipo lineare);
– variabili esplicative non incluse nel modello.
• Imprecisione degli strumenti di misura.

COME AFFRONTARE LA VARIABILITÀ


• Punto di vista deterministico
cerca di eliminare la variabilità individuandone le fonti.
• Approccio statistico
separa la componente strutturale da quella aleatoria (segnale/rumore)
f (X) da E
la legge dall’ errore accidentale.
1.14
Osservazione
A volte l’aleatorietà è parte essenziale dell’esperimento
(es. giochi d’azzardo).

Considerazione conclusiva
Si accetta l’indeterminatezza quando:
• l’eccessiva analiticità diventa troppo onerosa,
• la parte strutturale f (x) non è sovrastata dall’errore (rumore).

Compito della statistica


Prevedere al meglio il valore della generica realizzazione del fenomeno oggetto di studio
1.15

6 Le branche della statistica


Statistica descrittiva
Sintesi delle osservazioni campionarie o dei dati censuari.

Statistica probabilistica
Studio del meccanismo generatore delle realizzazioni campionarie

(modello → campione).

Statistica inferenziale
Dal campione al suo meccanismo generatore

(campione → modello).
1.16

5
Esempio 4 (Problema probabilistico). Si consideri una popolazione composta da 1000
consumatori, 200 dei quali sono nostri clienti.

200 800

C C̄
Calcolare la probabilità che contattando un campione rappresentativo di 50 consumatori:
• 5 di questi siano nostri clienti;
• 10 di questi siano nostri clienti;
• 20 di questi siano nostri clienti.

Osservazione
La nostra quota di mercato è del 20% e 10 corrisponde al 20% di 50.
1.17
Esempio 5 (Problema inferenziale). Solitamente la quota di mercato è incognita.

p? (1 − p)?

C C̄
Estratto un campione rappresentativo di 50 soggetti abbiamo che 10 di questi sono nostri
clienti e 40 sono della concorrenza.
A partire da questa informazione e con riferimento alla conoscenza del meccanismo di
’selezione’ del campione, si cerca una ’stima’ della nostra quota di mercato.

Osservazione
È impossibile fornire una risposta certa.
Mediante gli strumenti della statistica inferenziale verrà, ad esempio, indicato un inter-
vallo ( p̂ − ε, p̂ + ε) di valori plausibili con associato un predefinito livello di probabilità.
1.18

6
Sezione 2
Caratteri e scale di misura
2.1

Indice
1 Le fasi di una ricerca 7

2 La rilevazione dei dati 8


2.1 Oggetto della rilevazione (censimento/campione) . . . . . . . . . . . . . 8

3 Lo spoglio dei dati 15

4 Terminologia essenziale 15

5 Tipi di caratteri e scale di misura 16

6 I caratteri qualitativi 16

7 I caratteri quantitativi 19
7.1 Variazione assoluta, misura relativa e variazione relativa . . . . . . . . . 20

8 Scale per caratteri quantitativi 21

9 Alcune considerazioni sulle scale di misura 23 2.2

1 Le fasi di una ricerca


1. Identificazione del problema
2. Astrazione
• individuazione variabili osservabili (proxy)
3. Rilevazione
• sperimentazione, questionari, . . .
4. Spoglio dei dati
(a) organizzazione dati
(b) classificazione
5. Elaborazione dei dati
(a) sintesi
(b) interpretazione
(c) inferenza

7
Osservazione
Una prima statistica consiste nel costruire le tabelle riassuntive.
2.3

2 La rilevazione dei dati


Può essere effettuata tramite:
• sperimentazione
tipicamente nell’ambito dei processi industriali e nel controllo della qualità
• questionari
anche in questo caso spesso si effettuano delle ’sperimentazioni’, come avviene ad esempio
per la valutazione del gradimento di nuove caratteristiche di un prodotto/servizio
• basi dati aziendali
interrogazioni dei data base aziendali con procedure SQL
• basi dati istituzionali
Istat, Eurostat, Banca d’Italia, Uffici comunali dati statistici
• Internet, social networks, tweet
tipicamente analisi testuali

Osservazione
Il questionario ha anche finalità di comunicazione.
2.4

2.1 Oggetto della rilevazione (censimento/campione)


Definizione 1 (Rilevazione censuaria). Si rilevano dati su tutti i soggetti che costituiscono
la popolazione di riferimento.
Definizione 2 (Rilevazione campionaria). Si contatta solo un sottoinsieme (campione)
della popolazione oggetto di studio.

Osservazione
Per garantire che il campione sia rappresentativo della popolazione, si utilizzano proce-
dure di selezione di natura casuale.
2.5

8
2.6

9
2.7

10
http://www.istat.it/it/prodotti/banche-dati

2.8

http://dati.istat.it

11
2.9

2.10

2.11

12
http://ec.europa.eu/eurostat/data/database

2.12
http://www.bancaditalia.it/statistiche/

2.13

13
http://dati.comune.milano.it/

2.14

Una volta raccolti, i dati confluiscono nella cosiddetta matrice dei dati
Esempio 3 (Matrice dati votazioni studenti).
1 2 3 4 5 ... k
id (matr) cognome nome età voto stat . . . voto laurea
1 1234321 Astolfi Antonio 23 28 ... 105
2 4321234 Bianchi Mario 22 31 ... 110L
.. .. .. .. .. .. ..
. . . . . . .
n 7654567 Zito Mario 22 28 ... 108
Esempio 4 (Matrice dati imprese).
1 2 3 4 5
id (ragione soc.) settore dimensione n. dipendenti fatturato
1 abc industria grande 123 2 050 234
2 ayz terziario piccola 5 520 342
.. .. .. .. .. ..
. . . . . .
n zyz industria media 60 520 420
2.15

• In ogni riga della matrice dei dati figurano tutte le informazioni riferite a un singolo
soggetto.
• In ogni colonna della matrice dei dati figurano le manifestazioni di una singola
variabile per tutti i soggetti.
2.16

14
3 Lo spoglio dei dati
Esempio 5. Rilevazione tipologia ultima vacanza effettuata da un campione di n = 36
soggetti

tipo conteggio n◦
mare —
|||| —
|||| —
|||| |||| 19
montagna —
|||| —
|||| | 11
città d’arte |||| 4
agriturismo || 2
n = 36

v j = singoli valori ( j = 1, 2, . . . , n)
(le osservazioni di base) 2.17

Formalizzazione
Indicando con xi (i = 1, 2, . . . , k) le modalità distinte e con ni le rispettive frequenze
abbiamo

X = tipologia ultima vacanza


xi = tipo ni = frequenza
x1 = mare n1 = 19
x2 = montagna n2 = 11
x3 = città d’arte n3 = 4
x4 = agriturismo n4 = 2
n = 36
e, in estrema sintesi,
X = {(xi , ni ), i = 1, 2, . . . , k}
2.18

4 Terminologia essenziale
Unità statistiche o sperimentali
Supporto fisico/materiale su cui si estrinseca il fenomeno
• numero finito (popolazione)
• infinità numerabile (universo)

Caratteri
Proprietà dell’unità sperimentale
• qualitativi
• quantitativi

Modalità del carattere


• attributi o categorie (caratteri qualitativi)
• misure (caratteri quantitativi)
2.19

15
5 Tipi di caratteri e scale di misura
Qualitativi / Categorici
tipo scala
sconnessi scala nominale / per attributi
ordinati scala ordinale
(non ha senso confrontare distanze tra categorie)

Quantitativi / Metrici
(sono misure espresse da numeri interi o reali)
tipo
discreti
continui

scale
scala per intervalli
scala per rapporti
2.20

6 I caratteri qualitativi
Esempi di caratteri qualitativi sconnessi (scala nominale)
• comune di residenza
• tipo di industria
• tipo di fabbricazione
..
.
Non è possibile stabilire un ordine tra le categorie di un carattere qualitativo sconnesso.

Esempi di caratteri qualitativi ordinati (scala ordinale)


• titolo di studio
• grado di vendibilità
• tipo di abitazione
• risultato di un esame (A,B,C, . . . )
..
.
2.21

Esempio 6. Esprimi la tua opinione riguardo al prolungamento degli orari di apertura


delle sale studio

molto indifferente decisamente


d'accordo contrario

(punteggi espressi su scale convenzionali)


(tipicamente la scala di Likert)
2.22

16
Indagine sulla soddisfazione dei clienti (’customer satisfaction’)
Esempio 7. Grado di soddisfazione relativo al servizio di bookshop di un museo

Insoddisfatto poco indifferente soddisfatto molto


soddisfatto soddisfatto

2.23

Esempio 8. Grado di soddisfazione relativo al servizio di bookshop di un museo

1 2 3 4 5

con 1 = Insoddisfatto, ..., 5 = Molto soddisfatto

2.24

Esempio 9. Grado di soddisfazione relativo al servizio di bookshop di un museo

Insoddisfatto Molto
soddisfatto
2.25
Nei precedenti esempi il carattere grado di soddisfazione è espresso su scale ordinali. La
funzione di trasferimento, mediante la quale il generico soggetto ricodifica il suo status
mentale, che ha natura continua, in un punteggio convenzionale non è detto sia di tipo
lineare, come viene mostrato nei seguenti grafici.
Le categorie del carattere qualitativo anche se espresse attraverso dei valori numerici
rimangono dei codici ordinati.
Funzione di trasferimento tra status mentale e punteggio dichiarato

giudizio espresso

M.sodd. •
5 {
4 {
3 {
2 {
1
Ins.
{ •
insodd. molto sodd.

status mentale

La trasformazione ideale è quella lineare (proporzionalità) 2.26

17
Funzione di trasferimento tra status mentale e punteggio dichiarato

giudizio espresso

M.sodd. •
5 {
4 {
3 {
2 {
1
Ins.
{ •
insodd. molto sodd.

status mentale

Nella realtà difficilmente la trasformazione sarà lineare. 2.27

Osservazione
Non ha senso confrontare distanze tra categorie
(anche se codificate con valori numerici)

giudizio espresso

M.sodd. •
5 {
4 {
3 {
2 {
1
Ins.
{ •
insodd. a b c d molto sodd.

status mentale

infatti
ab ̸= cd mentre (2 − 1) = (5 − 4).
2.28

18
Osservazione
Due soggetti potrebbero perfino avere funzioni di trasferimento diverse ed esprimere
punteggi differenti in corrispondenza dello stesso livello di percezione della soddisfazione
giudizio espresso

M.sodd. •
5 { soggetto A
4 {
3 {
2 {
1
Ins.
{ •
soggetto B

insodd. molto sodd.

status mentale

Quale tra i due soggetti (A o B) è più severo nelle sue valutazioni? 2.29

7 I caratteri quantitativi
Le modalità di un carattere quantitativo sono delle misure, vale a dire dei numeri reali che
descrivono una proprietà oggettiva dell’unità statistica.
Tipologia
• continui
l’insieme delle possibili modalità è un intervallo (esempi: altezza, peso, reddito,
durata di una visita a un museo);
• discreti
l’insieme delle possibili modalità è un insieme finito o numerabile (esempi: numero
dei componenti di una famiglia, punteggio finale campionato di calcio).

Proprietà dei caratteri quantitativi


• ordinamento dei numeri reali
• definibile una distanza d tra le modalità
2.30

Definizione 10 (Distanza). Dati due numeri reali x1 e x2 , una funzione d(x1 , x2 ) si defini-
sce distanza tra x1 e x2 se gode delle seguenti proprietà:
1. d(x1 , x2 ) = d(x2 , x1 ) = |x2 − x1 | = |x1 − x2 | ≥ 0 (simmetria e non negatività)
2. d(x1 , x2 ) = 0 ↔ x1 = x2
3. |x1 − x2 | ≤ |x1 − x3 | + |x2 − x3 | (diseguaglianza triangolare)
x3

x1 x2

Osservazione
Hanno senso le differenze (e le somme) e, quindi, per i caratteri quantitativi, è possibile
effettuare operazioni aritmetiche (ad esempio calcolare delle medie).
2.31

19
7.1 Variazione assoluta, misura relativa e variazione relativa
Si considerino due misurazioni x1 e x2 di una grandezza X.
Esempi:
• presenze alle esposizioni delle opere di Mirò e di Schiele
• valore del titolo Sotheby’s al 30.01.2013 e al 28.02.2013
Si ipotizzi che
x1 = 15 x2 = 20
Definizione 11 (Variazione assoluta tra x1 e x2 ).
 >0 se x2 > x1

∆ = x2 − x1 = =0 se x2 = x1
<0 se x2 < x1

∆ = x2 − x1 = 20 − 15 = 5
2.32

Definizione 12 (Misura relativa di x2 rispetto a x1 ).


> 1 se x2 > x1

x2 
= = 1 se x2 = x1
x1 
< 1 se x2 < x1
x2 20
= = 1.3333
x1 15
Se x1 e x2 sono due misurazioni di X in due istanti temporali, ad esempio t1 e t2 , la misura
relativa viene denominata montante unitario.
In ambito finanziario il montante unitario è il capitale che si riceve alla fine del periodo di
investimento a fronte di un investimento unitario. 2.33

Definizione 13 (Variazione relativa tra x1 e x2 ).


 > 0 se x2 > x1

x2 − x1 x2
= −1 = = 0 se x2 = x1
x1 x1
< 0 se x2 < x1

x2 − x1 20 − 15 5 x2 20
= = = −1 = − 1 = 0.3333.
x1 15 15 x1 15
La variazione relativa può essere espressa in termini percentuali
x2 − x1
     
x2
100 % = 100 −1 %
Rappresentazioni grafiche x1 x1
e con riferimento all’esempio abbiamo:
Cosa suggeriscono le seguenti rappresentazioni grafiche?
(100 · 0.3333) % = 33.33%.
2.34

Esercizio 14 (Ideogrammi).
In seguito Cosa suggerisce
alle nuove assunzioni la seguente
il numero rappresentazione grafica?
di meccanici
In seguito a nuove assunzioni il numero di meccanici


è raddoppiato
è triplicato
è quadruplicato

20
→ oppure →
è raddoppiato
è triplicato
è quadruplicato
Cosa suggeriscono le seguenti rappresentazioni grafiche?
Cosa suggeriscono
Rappresentazioni le seguenti rappresentazioni grafiche?
grafiche

Cosa alle
In seguito suggeriscono le seguenti
nuove assunzioni rappresentazioni
il numero grafiche?
di meccanici
In seguito alle nuove assunzioni il numero di meccanici

In seguito alle nuove assunzioni il numero di meccanici



→è raddoppiato
èè triplicato
raddoppiato
→ è triplicato
è quadruplicato
2.35

è quadruplicato
Esercizio 15.raddoppiato
Cosa suggerisce la seguente rappresentazione grafica?
aè nuove
In seguito triplicato
assunzioni il numero di meccanici
è quadruplicato
→ oppure →
→ analogo a →
è raddoppiato
èè triplicato
raddoppiato

èè quadruplicato
triplicato oppure →

è quadruplicato
raddoppiato
è triplicato 2.36

Esercizio è quadruplicato
16.
Di quanto è cresciuto
Cosa il numero
suggerisce di abitazioni
la seguente considerate
rappresentazione grafica?
Di quanto
Di quanto
nell’ultima èricerca
cresciuto
è cresciuto il di il numero
numero
mercato di abitazioni
di abitazioni
rispetto considerate
considerate
alle nell’ultima
precedenti indagini?ricerca di mercato
nell’ultima
rispetto ricercaindagini?
alle precedenti di mercato rispetto alle precedenti indagini?
Di quanto è cresciuto il numero di abitazioni considerate
nell’ultima ricerca di mercato rispetto alle precedenti indagini?
→ oppure →

del 100% del 150% del 300%
del 100% del 150% del 300% 2.37


Esercizio 17. Cosa suggerisce la seguente rappresentazione grafica?
Di quanto del 100% del 150% del 300%
→ è cresciuto il numero di abitazioni
oppure considerate
→ nell’ultima ricerca di mercato
rispetto alle
→ precedenti indagini? oppure →
del 100% del 150% del 200%
del 100% del 150% del 200%
→ analogo a →
del 100% del 150% del 200%
Letture di approfondimento
Huff D. (1954) How to Lie with Statistics, Norton & Company.
Spirer F.H., Spirer L., Jaffe A.J. (1998) Misused Statistics, 2nd ed., Marcel Dekker. 2.38
2.39
2.40
8 Scale per caratteri quantitativi
Definizione 18 (Scala per intervalli). È caratterizzata dalle seguenti due proprietà
• zero convenzionale
• unità di misura convenzionale
Esempi: temperature, date di calendario, anno di nascita, . . .
(sono confrontabili le differenze semplici, non quelle percentuali) 2.41

Esempio 19. Una temperatura di 30◦ non si riferisce a uno stato termico ’doppio’ rispetto
a una temperatura di 15◦
invece
la differenza tra 30◦ e 34◦ è doppia che tra 20◦ e 22◦
Si considerino le misurazioni in gradi Fahrenheit (F = 32 + 1.8C)
◦C ◦F

0 32.0
15 59.0
20 68.0
22 71.6
30 86.0
34 93.2

21
34 − 30 = 4 = 2(22 − 20) = 2 · 2
93.2 − 86 = 7.2 = 2(71.6 − 68) = 2 · 3.6
30/15 = 2 ̸= 86/59 = 1.4576
non ha quindi senso calcolare ’misure relative’ e nemmeno ’variazioni relative’. 2.42
Esempio 20. Se la temperatura in gradi Celsius passa da 20 a 24 si ha un aumento del
20%
◦C ◦F

20 68.0
24 75.2
In corrispondenza F(20) = 68 e F(24) = 75.2 e si registra un aumento del 10.59%. 2.43

Definizione 21 (Scala per rapporti). È caratterizzata dalle seguenti tre proprietà


• zero oggettivo (naturale)
• unità di misura convenzionale
• modalità positive
Esempi: peso, lunghezza, velocità, età
(ha senso trattare le variazioni percentuali). 2.44

Esempio 22. Una variazione di velocità da 60 a 90 km/h corrisponde all’incremento


percentuale tra le stesse velocità misurate, ad esempio, in m/s
Ricordando che 1km/h = 1000m/3600s = 0.2778m/s
km/ora m/sec
60 16.6667
90 25.0000
e la variazione relativa in termini percentuali risulta
90 − 60 25 − 16.6667
   
100 · % = 50% = 100 · %.
60 16.6667
2.45
Osservazione
I numeri indici, cfr. Sezione 12, sono delle misure relative e possono essere definiti solo
per caratteri misurati su scale per rapporti.

Osservazione
Le variazioni assolute, calcolate su un carattere definito su scala per intervalli, sono
definite su scala per rapporti.
2.46
Esempio 23. L’anno 2000 non rappresenta un istante temporale ’doppio’ rispetto all’anno
1000,
mentre un’età di 30 anni è superiore del 50% di quella di 20 anni
(età = differenza tra anno corrente e anno di nascita)
L’età ha uno zero oggettivo (età alla nascita).
Esempio 24. La differenza tra 30◦ e 34◦ è doppia che tra 20◦ e 22◦

0 convenzionale 20 22 30 34
32 68 71.6 86 93.2

oggettivo 0 2 oggettivo 0 4
oggettivo 0 3.6 oggettivo 0 7.2

si crea uno zero oggettivo. 2.47

22
9 Alcune considerazioni sulle scale di misura
L’impostazione seguita nella presentazione delle scale di misura fa riferimento a Stevens
SS 1946 On the Theory of Scales of Measurement. Science 103, 677-680.
Problema
(Lord FM 1953 On the statistical treatment of football numbers. American Psychologist,
8, 750-775)
A ciascun componente di 2 squadre universitarie (matricole, 2◦ anno) di football ameri-
cano viene assegnato in maniera casuale il numero di maglia.
Ricevuti i numeri i componenti della squadra del 1◦ anno lamentano che i numeri loro
assegnati sono troppo bassi.
Quesiti
• Come possiamo classificare il carattere ’numeri assegnati’?
• È possibile considerare il carattere ’numeri assegnati’ come un carattere di tipo
quantitativo e utilizzare le conseguenti misure di sintesi per risolvere il problema?
2.48

Risposte
• Si tratta di un carattere qualitativo sconnesso.
• I sostenitori dell’approccio cosiddetto ’operazionalista’ affermando
«Since the numbers don’t remember where they came from ...»
applicherebbero ’senza farsi troppi scrupoli’ la media aritmetica per confrontare i
due gruppi di numeri.
In base alla classificazione proposta da Stevens tale prassi non può essere ammessa.
Una possibile soluzione può essere individuata adottando un’approccio cosiddetto
pragmatico.
2.49

Approccio pragmatico
(Hand DJ 2004 Measurement theory and practice. The world through quantification,
Wiley).
Occorre definire in maniera molto accurata il contesto e le finalità dell’applicazione che
stiamo conducendo.
• nel caso in oggetto non esiste relazione alcuna tra i numeri assegnati e il sistema
empirico basato sul livello di abilità dei giocatori.
• l’applicazione dei metodi statistici propri dei caratteri quantitativi può avere senso
solo se si considerano i due gruppi di numeri solo ’come numeri’, tenendo presente
che non descrivono l’abilità dei giocatori.
2.50

Quesiti
• La famosa batteria di test relativi al Quoziente Intellettivo che porta all’indicatore
QI misura l’ ’intelligenza’ di un individuo?
• Su quale scala è espressa?
2.51

Risposte
• La batteria dei test misura, in realtà, il concetto sotteso all’insieme di quesiti pro-
posti.
La batteria di test e, in generale, ogni questionario rappresentano uno strumento di
misurazione.

23
• In base all’approccio pragmatico possiamo dire che:
«The precise property being measured is defined simultaneously with the procedure
for measuring it, under the assumption of explicitly defining the meaning of the
concept one is measuring»
(Hand DJ in Kenett Salini (eds.) 2012 Modern Analysis of Customer Satisfaction
Surveys, Wiley)
e che
«In a sense this makes the scale type the choice of the researcher»
(Hand DJ 2004 Measurement theory and practice. The world through quantifica-
tion, Wiley, p. 63.)
2.52

Osservazione
Questi ragionamenti possono, in alcune situazioni, giustificare il trattamento delle scale
presenti, ad esempio, nelle indagini di customer satisfaction che sarebbero da trattare
come propriamente ordinali, ma che correntemente vengono utilizzate come se fossero di
tipo metrico.
(Essenzialità delle fasi di astrazione e di ricerca della definizione dei concetti che saranno
oggetto di analisi.)
Esercizio 25. Qual è la scala di misura della variabile ’quantità di cibo ingerito’?

La risposta sembra ovvia: si tratta di un carattere quantitativo continuo misurato su scala


per rapporti.

E se questa variabile fosse considerata una misura del ’livello di fame/sazietà di un indi-
viduo’?
2.53

24
Sezione 3
Caratteri e loro rappresentazione
grafica
3.1

Indice
1 Organizzazione dei dati elementari 25
1.1 Carattere qualitativo sconnesso . . . . . . . . . . . . . . . . . . . . . . . 26
1.2 Carattere qualitativo ordinato . . . . . . . . . . . . . . . . . . . . . . . . 30
1.3 Carattere quantitativo non raggruppato in classi . . . . . . . . . . . . . . 33
1.4 Carattere quantitativo raggruppato in classi . . . . . . . . . . . . . . . . 35
1.5 Il grafico di Pareto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
1.6 Riepilogo rappresentazioni grafiche . . . . . . . . . . . . . . . . . . . . 46
1.7 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

2 Rappresentazione grafica delle serie storiche 49 3.2

1 Organizzazione dei dati elementari


Si costruiscono dei prospetti riassuntivi a partire dall’elenco delle osservazioni.
matrice dati imprese
ragione soc. settore dimensione n. dipendenti fatturato
1 abc industria grande 123 2 050 234
2 ayz terziario piccola 5 520 342
.. .. .. .. .. ..
. . . . . .
n = 528 zyz industria media 60 520 420
v1 , v2 , . . . , vn (generica colonna estratta dalla matrice dei dati)
Se il numero di categorie/valori distinti è limitato risulta agevole raccoglierli in una
tabella. 3.3

Esempio 1. n◦ imprese per settore

xi ni
agricoltura 76
industria 195
terziario 257
528

tra le n = 528 unità sperimentali esistono n2 = 195 unità con modalità x2 = industria.
3.4

25
Esempio 2. n◦ stanze per abitazione

xi ni
1 184
2 451
3 312
4 197
5 84
6 26
1254

tra le n = 1254 unità sperimentali esistono n3 = 312 unità con modalità x3 = 3.


3.5

1.1 Carattere qualitativo sconnesso

Riclassificazione delle osservazioni di un carattere qualitativo sconnesso


Si è rilevato il carattere X = ’tipologia dell’ultimo spettacolo di evasione a cui hai par-
tecipato’, ottenendo, per 8 soggetti, le seguenti osservazioni ( f = film, t = teatro, c =
concerto)
soggetto 1 2 3 4 5 6 7 8
evento f f c c f t f c
i valori possono essere riclassificati nella seguente tabella
xi ni fi
f 4 0.500
t 1 0.125
c 3 0.375
8 1.000
• xi : modalità,
• ni : frequenze assolute; numero di unità statistiche con modalità xi ,
• fi = nni : frequenze relative; quota di unità statistiche con modalità xi .
3.6

Definizione 3 (Mutabile statistica). L’insieme delle coppie

{(xi , ni ), i = 1, . . . , k}

è detto mutabile statistica.

Perdita d’informazione
xi ni fi
f 4 0.500
t 1 0.125
c 3 0.375
8 1.000
Rispetto ai dati iniziali si è persa l’informazione su quale soggetto abbia partecipato a una
determinata manifestazione.
3.7

26
Rappresentazione grafica (grafico a bastoncini oppure a canne d’organo/rettangoli)

ni oppure fi

xi ni fi
f 4 0.500
t 1 0.125
c 3 0.375
8 1.000

f t c

xi

(modalità convenzionalmente equispaziate)


3.8

Il grafico di Pareto
In presenza di un carattere qualitativo sconnesso l’ordine dato nella rappresentazione
grafica alle categorie è arbitrario.
Nel grafico di Pareto le categorie vengono ordinate in funzione decrescente delle rispettive
frequenze. Si veda la Sezione 1.5 per il completamento del grafico di Pareto.

ni oppure fi

xi ni fi
f 4 0.500
t 1 0.125
c 3 0.375
8 1.000

f c t

xi

3.9

27
Le word cloud
Nell’ambito delle analisi testuali trovano applicazione le cosiddette word cloud che rap-
presentano graficamente i termini che figurano con maggior frequenza in un documento.
Ai fini della costruzione di una word cloud il documento viene preliminarmente tratta-
to, eliminando, in particolare, le cosiddette stop words (articoli, preposizioni semplici e
articolate, verbi ausiliari, etc.).
La word cloud riporta i termini che figurano con frequenza più elevata nel testo; la di-
mensione grafica dei termini viene determinata in funzione della loro frequenza nel testo,
mentre la disposizione dei termini sul grafico è casuale.
3.10
La seguente word cloud è stata costruita a partire dalla descrizione (circa 3 pagine) di un
Corso di Studio presente nella Guida dello Studente. Di quale Corso di Studio si tratta?

metodologie
umanistica
particolare

formativo
culturali
necessarie
analisi
gestione storia
aziende spettacolo
beni
operanti

fornire economia
gestionali arte settore
base

discipline imprese
teatro
temi
percorso

competenze
La word cloud è stata costruita utilizzando la funzione wordcloud disponibile nel
package wordcloud del software statistico R. 3.11

Frequenze assolute o relative? (1)


numero capi composizione
USA CH USA CH
bovini 127976000 2005000 0.67 0.46
suini 49602000 2006000 0.26 0.46
ovini 13346000 377000 0.07 0.09
190924000 4388000 1.00 1.00
ni
0.0e+00 2.0e+07 4.0e+07 6.0e+07 8.0e+07 1.0e+08 1.2e+08 1.4e+08

bovini suini ovini

xi
confronto in termini di dimensione 3.12

28
Frequenze assolute o relative? (2)
numero capi composizione
USA CH USA CH
bovini 127976000 2005000 0.67 0.46
suini 49602000 2006000 0.26 0.46
ovini 13346000 377000 0.07 0.09
190924000 4388000 1.00 1.00
1.0
0.8
0.6
0.4
0.2
0.0
fi

bovini suini ovini

xi
confronto in termini di composizione
3.13
È anche possibile costruire un grafico a torta (settori proporzionali alle frequenze)
xi ni fi settore
f 4 0.500 180◦
t 1 0.125 45◦
c 3 0.375 135◦
8 1.000 360◦

film

teatro

concerto

3.14

29
1.2 Carattere qualitativo ordinato

Riclassificazione delle osservazioni di un carattere qualitativo ordinato


Si è rilevato il carattere X = ’votazione’ ottenuta da 8 soggetti, ottenendo le seguenti
osservazioni (d = discreto, b = buono, o = ottimo)

soggetto 1 2 3 4 5 6 7 8
votazione d d o o d b d o

i valori possono essere riclassificati nella seguente tabella


(perdendo l’informazione sul voto conseguito da ciascun soggetto)

xi ni fi Ni Fi
d 4 0.500 4 0.500
b 1 0.125 5 0.625
o 3 0.375 8 1.000
8 1.000

• xi : modalità,
• ni : frequenze assolute; numero di unità statistiche con modalità xi ,
• fi = nni : frequenze relative; quota di unità statistiche con modalità xi .
3.15

xi ni fi Ni Fi
d 4 0.500 4 = 4 0.500 = 0.5 = 4/8
b 1 0.125 5 = 4 + 1 0.625 = 0.5 + 0.125 = 5/8
o 3 0.375 8 = 4 + 1 + 3 1.000 = 0.5 + 0.125 + 0.375 = 8/8
8 1.000
• xi : modalità,
• ni : frequenze assolute; numero di unità statistiche con modalità xi ,
• fi = nni : frequenze relative; quota di unità statistiche con modalità xi ,
• Ni : frequenze assolute cumulate; numero di unità statistiche con modalità fino a xi ,
• Fi = Nni = ∑ij=1 f j = n1 ∑ij=1 n j : frequenze relative cumulate; quota di unità statisti-
che con modalità fino a xi .
3.16

30
Rappresentazione grafica (grafico a bastoncini oppure a canne d’organo/rettangoli)

ni oppure fi

xi ni fi
d 4 0.500
b 1 0.125
o 3 0.375
8 1.000

d b o

xi

3.17
Per rappresentare graficamente le frequenze cumulate ci si avvale della funzione di ripar-
tizione F(x)
Funzione di ripartizione
• F(x) quota di unità statistiche con modalità fino a x.
La definizione di funzione di ripartizione ha carattere generale (può essere applicata a tutti
i caratteri ordinati e, in particolare, anche ai caratteri quantitativi).
Si osserva come x possa corrispondere anche a valori non osservati o inesistenti.
Nell’esempio in esame: una votazione insufficiente o compresa tra buono e ottimo o anche
superiore a ottimo.
3.18

31
Grafico Funzione di Ripartizione
F(x) quota di unità statistiche con modalità fino a x

F(x)

1.0
0.8
xi ni fi Ni Fi

0.6
d 4 0.500 4 0.500
b 1 0.125 5 0.625
3 0.375 8 1.000

0.4
o
8 1.000
0.2
0.0

d b o

3.19
Grafico frequenze cumulate
È possibile rappresentare graficamente anche le frequenze cumulate assolute mediante la
funzione N(x)
• N(x) numero di unità statistiche con modalità fino a x

N(x)
8
6

xi ni fi Ni
d 4 0.500 4
4

b 1 0.125 5
o 3 0.375 8
8 1.000
2
0

d b o

3.20

32
1.3 Carattere quantitativo non raggruppato in classi

Riclassificazione delle osservazioni di un carattere quantitativo non raggruppato in


classi
Valgono le stesse considerazioni fatte per i caratteri qualitativi ordinati.
Occorre solo tenere presente, nel costruire le rappresentazioni grafiche, che le modalità
del carattere sono delle misure e quindi potrebbero essere non equispaziate.
3.21

Si è rilevata la variabile X = ’votazione’ riportata da 8 soggetti, considerata metrica


secondo l’approccio pragmatico, ottenendo le seguenti osservazioni

soggetto 1 2 3 4 5 6 7 8
votazione 24 24 30 30 24 28 24 30

i valori possono essere riclassificati nella seguente tabella


xi ni fi Ni Fi
24 4 0.500 4 0.500
28 1 0.125 5 0.625
30 3 0.375 8 1.000
8 1.000
3.22

• xi : modalità,
• ni : frequenze assolute; numero di unità statistiche con modalità xi ,
• fi = nni : frequenze relative; quota di unità statistiche con modalità xi ,
• Ni = ∑ij=1 n j : frequenze assolute cumulate; numero di unità statistiche con modalità
minore o eguale a xi ,
• Fi = Nni = ∑ij=1 f j : frequenze relative cumulate; quota di unità statistiche con mo-
dalità minore o eguale a xi .
3.23

Definizione 4 (Serie statistica). L’insieme delle coppie

{(xi , ni ), i = 1, . . . , k}

è detto serie statistica.


3.24

33
Rappresentazione grafica (grafico a bastoncini)

ni oppure fi

xi ni fi
24 4 0.500
28 1 0.125
30 3 0.375
8 1.000

20 22 24 26 28 30 32

3.25
Grafico Funzione di Ripartizione
Per rappresentare graficamente le frequenze cumulate ci si avvale della funzione di ripar-
tizione F(x)
• F(x) quota di unità statistiche con modalità minore o eguale a x

F(x)
1.0
0.8
0.6

xi ni fi Ni Fi
24 4 0.500 4 0.500
28 1 0.125 5 0.625
30 3 0.375 8 1.000
0.4

8 1.000
0.2
0.0

20 22 24 26 28 30 32

3.26

34
Grafico Frequenze cumulate
È possibile rappresentare graficamente anche le frequenze cumulate assolute mediante la
funzione N(x)
• N(x) numero di unità statistiche con modalità fino a x

N(x)

xi ni fi Ni 8
6
24 4 0.500 4
4

28 1 0.125 5
30 3 0.375 8
8 1.000
2
0

20 22 24 26 28 30 32

3.27

1.4 Carattere quantitativo raggruppato in classi


Nel caso di variabile continua si hanno troppi valori distinti!!
È opportuno raggruppare i dati in classi.
In genere le classi sono chiuse a destra (da . . . escluso, a . . . incluso] 3.28
Esempio 5. Si è rilevata l’altezza di 10 individui ottenendo le seguenti misurazioni:
soggetto 1 2 3 4 5 6 7 8 9 10
altezza 175 168 165 172 180 185 178 172 174 183
↑ ↑
min max

I valori assunti dalle unità statistiche possono essere rappresentati come punti sulla retta
reale

165 168 172 174 175 178 180 183 185

3.29

35
Si consideri un intervallo (h0 , hk ] inclusivo di tutti i valori,

165 168 172 174 175 178 180 183 185

( ]
h0 hk

(ma anche di possibili valori che potrebbero essere rilevati su altre unità statistiche)
quindi
h0 < min teorico e hk ≥ max teorico
3.30

si definisca una partizione dell’intervallo in k sottoinsiemi (denominati classi)

classe 1 classe 2 ... classe k


( ]( ] ( ]
h0 h1 h2 h k−1 hk

Le k classi
(h0 , h1 ], (h1 , h2 ], . . . , (hk−1 , hk ]
costituiscono una partizione dell’intervallo (h0 , hk ]; infatti:
1. sono intervalli (insiemi) disgiunti,
2. la loro unione coincide con (h0 , hk ].
3.31
Nel caso in esame si ipotizzi di utilizzare k = 3 classi.
soggetto 1 2 3 4 5 6 7 8 9 10
altezza 175 168 165 172 180 185 178 172 174 183
↑ ↑
min max

È, quindi, possibile assegnare ciascuno dei valori osservati a una e una sola delle classi

( ]( ]( ]
165 168 172 174 175 178 180 183 185

162 170 180 190

Si osserva il carattere esaustivo della classificazione operata.


3.32

36
Una volta definiti gli estremi delle classi, i seguenti valori
soggetto 1 2 3 4 5 6 7 8 9 10
altezza 175 168 165 172 180 185 178 172 174 183

possono essere riclassificati in una tabella

i classe hi−1 ⊣ hi ni
1 h0 = 162 ⊣ h1 = 170 2
2 h1 = 170 ⊣ h2 = 180 6
3 h2 = 180 ⊣ h3 = 190 2
10

• hi−1 : estremo inferiore della classe i-esima,


• hi : estremo superiore della classe i-esima,
• ni : frequenze assolute; numero di unità statistiche con valore tra hi−1 e hi .
3.33

Definizione 6 (Seriazione statistica). L’insieme degli elementi

{((hi−1 , hi ), ni ), i = 1, . . . , k}

è detto seriazione statistica.

Osservazione
Nella determinazione delle classi (hi−1 ⊣ hi ) occorre evitare le seguenti situazioni:
• poche classi con frequenze troppo elevate,
• molte classi con frequenze troppo basse (≤ 15).
3.34

Il fenomeno può essere analizzato non solo in termini assoluti, ma anche in termini relativi

hi−1 ⊣ hi ni fi
162 ⊣ 170 2 0.2
170 ⊣ 180 6 0.6
180 ⊣ 190 2 0.2
10 1
ni
• fi = n: frequenze relative; quota di unità statistiche con valore tra hi−1 e hi
3.35

e si possono anche costruire le frequenze cumulate

hi−1 ⊣ hi ni fi Ni Fi
162 ⊣ 170 2 0.2 2 0.2
170 ⊣ 180 6 0.6 8 0.8
180 ⊣ 190 2 0.2 10 1
10 1

• hi−1 , hi : estremi inferiore e superiore della classe i-esima,


• ni : frequenze assolute; numero di unità statistiche con valore tra hi−1 e hi ,
• fi = nni : frequenze relative; quota di unità statistiche con valore tra hi−1 e hi ,
• Ni : frequenze assolute cumulate; numero di unità statistiche con modalità ≤ hi ,
• Fi : frequenze relative cumulate; quota di unità statistiche con modalità ≤ hi .
3.36

37
Perdita d’informazione
soggetto 1 2 3 4 5 6 7 8 9 10
altezza 175 168 165 172 180 185 178 172 174 183

hi−1 ⊣ hi ni
162 ⊣ 170 2
170 ⊣ 180 6
180 ⊣ 190 2
10
Rispetto ai dati iniziali non si è solo persa l’informazione su quale soggetto abbia una de-
terminata altezza, ma non si hanno più nemmeno i valori delle singole altezze all’interno
di ciascuna classe.
3.37

Ipotesi di equidistribuzione delle unità statistiche all’interno di ciascuna classe


hi−1 ⊣ hi ni
162 ⊣ 170 2
170 ⊣ 180 6
180 ⊣ 190 2
10

( ]( ]( ]
162 170 180 190

È come se si suddividesse ciascuna classe hi−1 ⊣ hi in ni sottoclassi e si posizionassero i


dati in corrispondenza degli estremi superiori di queste sottoclassi.
3.38

Definizione 7 (Densità di frequenza (assoluta)). Rapporto tra il numero, ni , di unità


statistiche nella classe i e l’ampiezza della classe ai = hi − hi−1
ni
di = .
ai
Essa rappresenta il numero (medio) di unità statistiche che cadono in un generico inter-
vallo di ampiezza unitaria all’interno della classe.

Graficamente, nell’ipotesi che ni ≫ 1, abbiamo

( ]
hi−1 hi
intervallo unitario
3.39
La densità di frequenza può, naturalmente, essere espressa anche in termini relativi.
Definizione 8 (Densità di frequenza (relativa)). Quota (media) di unità statistiche che
vengono a cadere in un generico intervallo di ampiezza unitaria all’interno della classe
fi
di =
ai
rapporto tra quota di unità statistiche nella classe e ampiezza della classe ai = hi − hi−1 .
3.40

38
Rappresentazione grafica (istogramma)
Sull’asse delle ordinate si riportano le densità di frequenza (assolute o relative)

hi−1 ⊣ hi ni fi ai di (assolute) di (relative)


162 ⊣ 170 2 0.2 8 0.25 0.025
170 ⊣ 180 6 0.6 10 0.60 0.060
180 ⊣ 190 2 0.2 10 0.20 0.020
10 1.0

ni ai oppure fi ai

150 160 170 180 190 200

3.41

Interpretazione istogramma
L’area di ciascun rettangolo nell’istogramma coincide con la frequenza assoluta (relativa)
della classe

ni
ai ai · naii = ni fi
ai ai · afii = fi

ai ai
3.42

39
Funzione di ripartizione F(x)
Quota di unità statistiche con modalità minore o eguale a x
hi−1 ⊣ hi ni fi Ni Fi
162 ⊣ 170 2 0.2 2 0.2
170 ⊣ 180 6 0.6 8 0.8
180 ⊣ 190 2 0.2 10 1
10 1
F(x)

1.0
0.8
0.6
0.4
0.2
0.0

150 160 170 180 190 200

sulla base delle informazioni disponibili possiamo solo quantificare il valore di F(x) solo
per x = hi , i = 1, . . . , k, x < h0 e x > hk .
3.43

40
Ipotizzando però l’equidistribuzione delle unità statistiche all’interno di ciascuna clas-
se possiamo individuare la posizione delle singole ni osservazioni di ciascuna classe
ottenendo (cfr. rappresentazione per caratteri discreti)
hi−1 ⊣ hi ni fi Ni Fi
162 ⊣ 170 2 0.2 2 0.2
170 ⊣ 180 6 0.6 8 0.8
180 ⊣ 190 2 0.2 10 1
10 1

F(x)
1.0
0.8
0.6
0.4
0.2
0.0

150 160 170 180 190 200

3.44

41
Quando il numero di unità statistiche risulta sufficientemente elevato in ciascuna classe,
ni ≫ 1, otteniamo

F(x)

1.0
0.8
0.6
0.4
0.2
0.0

150 160 170 180 190 200

3.45
In tal caso la funzione a gradini può essere approssimata con una spezzata

F(x)
1.0
0.8
0.6
0.4
0.2
0.0

150 160 170 180 190 200

Questa rappresentazione viene comunque utilizzata anche nel caso di ni qualsiasi, facendo
l’ipotesi che ni ≫ 1. 3.46

42
È possibile rappresentare graficamente anche le frequenze cumulate assolute mediante la
funzione N(x)
• N(x) numero di unità statistiche con modalità fino a x
hi−1 ⊣ hi ni fi Ni
162 ⊣ 170 2 0.2 2
170 ⊣ 180 6 0.6 8
180 ⊣ 190 2 0.2 10
10 1

N(x)
10
8
6
4
2
0

150 160 170 180 190 200

3.47

43
1.5 Il grafico di Pareto
Nella Sezione 1.1 si è introdotta una possibile descrizione del grafico di Pareto, ricordando
come nello stesso le categorie vengano ordinate in funzione decrescente delle rispettive
frequenze.
Il grafico di Pareto viene solitamente completato riportando sullo stesso anche una rap-
presentazione delle frequenze cumulate relative, ottenute in accordo all’ordinamento delle
categorie tipico del grafico in oggetto.
3.48
Con riferimento all’esempio del carattere X = ’tipologia dell’ultimo spettacolo di evasio-
ne a cui hai partecipato’, utilizzato per introdurre il grafico di Pareto abbiamo la seguente
rappresentazione.

Tipologia di Spettacolo (Grafico di Pareto)


100%

80%

xi ni Ni Fi
60%
f 4 4 0.500
4
c 3 7 0.875
t 1 8 1.000 40%
3
8

20%
1

0%

film concerto teatro

Ai fini della determinazione delle frequenze cumulate anche le categorie nella tabella sono
state ordinate in funzione decrescente della loro frequenza.
3.49
Il grafico di Pareto consente di individuare il ’gruppo’ di categorie ’più frequenti’ con
riferimento al carattere oggetto di studio.
Applicazioni in ambito aziendale possono essere, ad esempio, riferite alla determina-
zione dell’insieme delle tipologie di difettosità più frequenti nell’ambito di un processo
produttivo o dell’insieme di prodotti che contribuiscono maggiormente al fatturato. 3.50
Si osserva come il grafico di Pareto evidenzi le categorie più ’frequenti’ che potrebbero
non coincidere con le più ’importanti’.
Gli interventi di strategia aziendale dovranno tenere conto anche di altre variabili oltre
alla frequenza di difettosità o all’ammontare di fatturato per prodotto; ad esempio, i costi
di intervento o il livello di gravità dei difetti nell’ambito del controllo di un processo indu-
striale (un difetto anche se poco frequente potrebbe però bloccare il processo produttivo)
oppure il potenziale di sviluppo o l’importanza strategica di alcuni prodotti nell’ambito di
una definizione delle strategie di Marketing.
Si veda al riguardo Montgomery D.C. 2000 Controllo statistico della qualità, Mc-Graw-
Hill.
Si osserva che la rappresentazione secondo un grafico di Pareto può essere estesa anche
ad altre tipologie di caratteri oltre ai qualitativi sconnessi. 3.51

44
Si considera la costruzione del grafico di Pareto riferito all’analisi testuale della descri-
zione (circa 3 pagine) di un Corso di Studio presente nella Guida dello Studente, di cui si
è ottenuta la seguente word cloud nella Sezione 1.1.

metodologie
umanistica
particolare

formativo
culturali
necessarie
analisi
gestione storia
aziende spettacolo
operanti
beni
fornire economia
gestionali arte settore

base
discipline imprese
teatro
temi
percorso

competenze 3.52
Il grafico di Pareto deve in questo caso necessariamente essere costruito, omettendo i
termini che hanno una frequenza bassa.
La precedente word cloud è stata costruita a partire da un insieme di 346 termini. Ai fini
della costruzione del grafico di Pareto si considerano solo i termini che figurano almeno
5 volte nel documento. 3.53

Descrizione di un Corso di Studio (grafico di Pareto)


100%

80%

60%

40%

23
20%
16
12 10 10 10 8 7 5 5 5 5 5 5
0%
i

ia

ni

re

re

te
lo

ne

se

ivo

so

ia
l
ra

nz

es
om

be

co

or
ar
ni

tto

ba

or
io

at
ltu

te

pr

st
r

ta

st

rc
se
fo

m
on
cu

pe

im
et

ge

pe
r
ec

fo
sp
m
co

3.54
Si osserva come riordinando in maniera opportuna gli 8 termini più frequenti, che rap-
presentano quasi l’80% dei termini nell’insieme considerato, si ottenga una descrizione
sintetica delle finalità principali del Corso di Studio.
L’elevata frequenza dell’attributo ’culturali’ è legata sia al suo utilizzo congiunto con
’beni’ (’beni culturali’) sia al suo utilizzo come qualificatore di altri elementi presenti
nella descrizione del Corso di Studio.
Analisi testuali più raffinate prevedono anche la cosiddetta lemmatizzazione dei termini,
ovvero la trasformazione dei termini in lemmi. Si rinvia, al riguardo, alle metodologie di
’Text mining’ e di ’Linguistica computazionale’.
I grafici di Pareto sopra riportati sono stati ottenuti utilizzando la funzione paretochart
disponibile nel package qicharts2 del software statistico R. 3.55

45
1.6 Riepilogo rappresentazioni grafiche
Frequenze semplici ni , fi
Tipologia carattere
qualitativo qualitativo quantitativo quantitativo
sconnesso ordinato no classi con classi
ni ai oppure fi ai

xi x
3.56

Frequenze cumulate Ni , Fi
Tipologia carattere
qualitativo qualitativo quantitativo quantitativo
sconnesso ordinato
F(x)
no classi F(x)
con classi

non definita

x x
3.57
Osservazione
Per ogni variabile presente nella matrice dei dati
matrice dati imprese
ragione soc. settore dimensione n. dipendenti fatturato
1 abc industria grande 123 2 050 234
2 ayz terziario piccola 5 520 342
.. .. .. .. .. ..
. . . . . .
n zyz industria media 60 520 420
siamo in grado di effettuare sintesi univariate (tabelle e grafici).
Nel seguito considereremo ulteriori analisi (indici di posizione e variabilità).
3.58

46
Osservazione
Si osserva come la locuzione variabile statistica venga comunemente utilizzata per indi-
care sia l’insieme delle coppie {(xi , ni ), i = 1, . . . , k} nel caso di una mutabile statistica o
di una serie statistica, sia l’insieme degli elementi {((hi−1 , hi ), ni ), i = 1, . . . , k} nel caso
di una seriazione statistica.
3.59

1.7 Esercizi
Eventuali riferimenti in parentesi riportano numero del tema d’esame, data e numero di
esercizio della corrispondente prova di Statistica I (Università Cattolica del Sacro Cuore,
Milano, Facoltà di Economia, Interfacoltà di Economia-Lettere).
Esercizio 9. Nella seguente figura sono riportate le Funzioni di Ripartizione relative alle
seriazioni statistiche:
• X: distribuzione dei redditi nella località A;
• Y : distribuzione dei redditi nella località B.
1

A
0.8

0.7

0.2

0 10 20 30 40 50 60

In quale località si ha presenza di redditi più elevati?


A ≺ B: i redditi in B sono superiori a quelli in A
A ≻ B: i redditi in A sono superiori a quelli in B
3.60

Definizione 10 (Dominanza Statistica). Siano FX (·) e FY (·) le funzioni di ripartizione di


due variabili statistiche X e Y .
• X si dice statisticamente inferiore a Y (indicato con la notazione X ≤ Y ) se vale:

FX (w) ≥ FY (w), ∀w ∈ ℜ.

• X si dice statisticamente superiore a Y (indicato con la notazione X ≥ Y ) se vale:

FX (w) ≤ FY (w), ∀w ∈ ℜ.
3.61

47
Esercizio 11 (T 162, 24.06.1998, A). Una delegazione provinciale della F.I.C. (Federa-
zione Italiana Cronometristi) dispone dei dati inerenti 15 servizi di cronometraggio esple-
tati dai suoi 8 componenti (A, B, . . . , H) durante l’anno. Si riportano il tipo di sport (S,
nelle categorie n = nuoto, s = sci, c = ciclismo), la stagione del servizio (T , a = autunno,
i = inverno, p = primavera, e = estate), la durata del servizio (D, in minuti) e l’entità del
rimborso complessivamente percepito per il servizio (R, in e).

serv 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
cron B B H G F A E E B C D D B C G
S n n c c n s s n s n s s c c n
T a a a a i i i i i p p p p p p
D 120 120 360 60 180 360 360 120 360 180 480 420 300 420 180
R 20 20 45 60 30 50 70 30 60 45 60 70 40 60 30

1. Si rappresenti graficamente la mutabile S.


2. Si rappresentino graficamente le frequenze assolute e la funzione di ripartizione
della variabile D.
3. Si raggruppino i valori di R in tre classi chiuse a destra di ampiezza 25, consi-
derando come estremo inferiore della prima classe il valore 10, e se ne dia una
rappresentazione grafica.
3.62

Esercizio 12 (T 258-3, 15.07.2010, 1). Con riferimento a 80 soggetti si riportano le di-


stribuzioni del tempo in minuti, Y , dedicato alla visita di una mostra, distinte rispetto al
livello di conoscenza artistica (’visitatori esperti’ e ’visitatori occasionali’):

’visitatori esperti’ ’visitatori occasionali’


hi−1 ⊣ hi fi hi−1 ⊣ hi fi
5 ⊣ 10 0.40 5 ⊣ 10 0.76
10 ⊣ 20 0.40 10 ⊣ 20 0.08
20 ⊣ 25 0.20 20 ⊣ 25 0.16
1.00 1.00

1. Si rappresentino graficamente le distribuzioni delle frequenze relative per le due


tipologie di visitatori. ✍
2. Si riporti l’ordinamento delle classi della distribuzione di frequenza dei visitatori
esperti in funzione crescente del livello di concentrazione di unità statistiche.
3.63

Esercizio 13 (T 180, 14.09.2000, 1). Lo spessore X delle lamine prodotte da una mac-
china è compreso tra 15.2 e 16.5 mm.
Si individuino le ampiezze delle 4 classi (Ii ) in cui è ripartito l’intervallo (15.1; 16.5] in
modo tale che:
I1 I2 I3 I4
fi 0.05 0.09 0.72 0.14
di 0.25 0.45 2.40 0.20
1. Si costruisca l’istogramma della variabile X.
2. Supponendo che dalla produzione vengano scartate le lamine con spessore minore
di 15.3 mm o superiore di 16 mm, si calcoli, sulla base del grafico prima costruito,
la percentuale di lamine eliminate.
3.64

48
2 Rappresentazione grafica delle serie storiche
Le serie storiche
Una serie storica {Xt } è una sequenza di valori

x0 , x1 , . . . , xT

registrati:
• in corrispondenza degli istanti temporali t = 0, 1, 2, . . . , T
• al termine degli intervalli (t − 1,t], t = 0, 1, 2, . . . , T .
Si pensi, ad esempio, alla quotazione giornaliera di un titolo di borsa oppure alla realiz-
zazione mensile o trimestrale del fatturato di un’azienda.

Serie storiche di stock e di flusso


• La serie storica si definisce di stock se i riferimenti temporali sono istanti temporali
(’capitale sociale’, ’quotazione di chiusura di un titolo’).
• La serie storica si definisce di flusso se i riferimenti temporali sono degli intervalli
temporali
(’risultato economico di esercizio’, ’volume degli scambi’).
3.65

3.66
A partire dai valori osservati è possibile definire:
• la sequenza delle variazioni assolute rispetto a un particolare istante temporale, ad
esempio t = 0:
x0 − x0 = 0, x1 − x0 , . . . , xT − x0
• la sequenza delle misure relative rispetto a un particolare istante temporale, ad
esempio t = 0:
x0 x1 xT
= 1, , . . . ,
x0 x0 x0
• la sequenza delle variazioni relative rispetto a un particolare istante temporale, ad
esempio t = 0:
x0 − x0 x1 − x0 x1 xT − x0 xT
= 0, = − 1, . . . , = −1
x0 x0 x0 x0 x0

49
che possono anche essere espresse come variazioni relative percentuali (se molti-
plicate per 100):
   
x1 − x0 xT − x0 x1 − x0 xT − x0
0, ,..., = 100 0, ,..., %
x0 x0 x0 x0
   
x1 xT x1 xT
0, − 1, . . . , − 1 = 100 0, − 1, . . . , − 1 %
x0 x0 x0 x0
3.67
Esempio 14. Serie storica {Xt } delle valutazioni contabili del patrimonio dell’azienda Y
risultanti dai bilanci degli esercizi 2003, . . . , 2007 (dati in milioni di e); le sequenze delle
xt
variazioni assolute xt − xt−1 , delle misure relative xt−1 e delle variazioni relative semplici
xt −xt−1 xt −xt−1
e percentuali, xt−1 e 100 xt−1 %, definite rispetto agli istanti temporali t − 1:
xt xt −xt−1
t Anno xt xt − xt−1 xt−1 xt−1 %
0 2003 518
1 2004 550 32 1.0618 0.0618 6.18
2 2005 540 −10 0.9818 −0.0182 −1.82
3 2006 580 40 1.0741 0.0741 7.41
4 2007 608 28 1.0483 0.0483 4.83
3.68
Si riportano le possibili rappresentazioni grafiche delle serie storiche oggetto di analisi.
650
600
550
500
450

2002 2003 2004 2005 2006 2007 2008

Serie storica xt che descrive l’andamento del patrimonio dell’azienda Y tra il 2003 e il
2007 (dati in milioni di e) (stock) 3.69

50
50
40
30
20
10
0

2002 2003 2004 2005 2006 2007 2008


−10
−20

Serie storica xt − xt−1 che descrive le variazioni del patrimonio dell’azienda Y tra il 2003
e il 2007 (dati in milioni di e) (flusso) 3.70
650
550
450

2002 2003 2004 2005 2006 2007 2008


40
20
0

2002 2003 2004 2005 2006 2007 2008


−20
1.10
1.00
0.90

2002 2003 2004 2005 2006 2007 2008

xt
Serie storiche xt , xt −xt−1 e xt−1 che descrivono rispettivamente il patrimonio dell’azienda
Y , le sue variazioni assolute e i valori relativi, di anno in anno, tra il 2003 e il 2007. 3.71

51
40
20
0
2002 2003 2004 2005 2006 2007 2008

−20
0.08
0.04
−0.04 0.00

2002 2003 2004 2005 2006 2007 2008


0 2 4 6 8

2002 2003 2004 2005 2006 2007 2008


−4

Serie storiche che descrivono le variazioni assolute xt − xt−1 , le variazioni relative sempli-
x −x x −x
ci e percentuali, t xt−1t−1 e 100 t xt−1t−1 %, subite di anno in anno dal patrimonio dell’azienda
Y tra il 2003 e il 2007. 3.72

Esercizio 15. Si ricostruiscano le rappresentazioni grafiche precedenti con riferimento


alla seguente serie storica:
xt xt −xt−1 xt −xt−1
t Anno xt xt − xt−1 xt−1 xt−1 100 xt−1 %
0 2000 100
1 2001 50
2 2002 100
3 2003 150
4 2004 100
3.73

52
Sezione 4
La classificazione congiunta di
due caratteri
4.1

Indice
1 La classificazione congiunta di due caratteri 53

2 Le distribuzioni marginali 54

3 Le distribuzioni condizionate 55

4 Formalizzazione simbolica v.s. doppia 55 4.2

1 La classificazione congiunta di due caratteri


Esempio 1. Con riferimento ai dati, inerenti 15 servizi di cronometraggio complessiva-
mente espletati da 8 componenti della F.I.C. (Federazione Italiana Cronometristi), cfr.
Esercizio nella sezione precedente,

servizio 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
D 120 120 360 60 180 360 360 120 360 180 480 420 300 420 180
R 20 20 45 60 30 50 70 30 60 45 60 70 40 60 30

si vuole studiare il comportamento congiunto delle variabili D ed R.


A tal fine si raggruppano i valori di D nelle tre classi (50, 180], (180, 360], (360, 480] e i
valori di R nelle tre classi (10, 35], (35, 60], (60, 85].

D\R 10 ⊣ 35 35 ⊣ 60 60 ⊣ 85
50 ⊣ 180
180 ⊣ 360
360 ⊣ 480

4.3
Ciascuna unità statistica può essere assegnata a una e una sola delle celle nella tabella;
occorre conteggiare quante unità statistiche corrispondono a ciascuna combinazione delle
classi di D = durata del servizio e R = entità del rimborso
D\R 10 ⊣ 35 35 ⊣ 60 60 ⊣ 85 ni•
50 ⊣ 180 5 2 0 7
180 ⊣ 360 0 4 1 5
360 ⊣ 480 0 2 1 3
n• j 5 8 2 15

53
Il valore 4 nella seconda riga, seconda colonna (parte interna della tabella) indica che tra
le 15 unità statistiche ve ne sono 4 che hanno prestato una durata del servizio tra 180 e
360 minuti ricevendo un rimborso compreso tra 35 e 60 e.
Esso viene indicato con n22 , dove il primo indice sta a indicare la classe della variabile
D (indice di riga) mentre il secondo indice indica la classe della variabile R (indice di
colonna). 4.4
Abbiamo quindi
D\R 10 ⊣ 35 35 ⊣ 60 60 ⊣ 85 ni•
50 ⊣ 180 n11 = 5 n12 = 2 n13 = 0 n1• = 7
180 ⊣ 360 n21 = 0 n22 = 4 n23 = 1 n2• = 5
360 ⊣ 480 n31 = 0 n32 = 2 n33 = 1 n3• = 3
n• j n•1 = 5 n•2 = 8 n•3 = 2 n = 15
• ni j frequenze congiunte; numero di unità statistiche con modalità (appartenenti alla
classe) corrispondente alla i-esima riga e j-esima colonna.
• ni• frequenze marginali di D; numero di unità statistiche con i-esima modalità (ap-
partenenti alla i-esima classe) di D; (somma delle frequenze congiunte nella i-esima
riga;
• n• j frequenze marginali di R; numero di unità statistiche con j-esima modalità
(appartenenti alla j-esima classe) di R; (somma delle frequenze congiunte nella
j-esima colonna. 4.5

2 Le distribuzioni marginali
Si osserva come nella tabella
D\R 10 ⊣ 35 35 ⊣ 60 60 ⊣ 85 ni•
50 ⊣ 180 n11 = 5 n12 = 2 n13 = 0 n1• = 7
180 ⊣ 360 n21 = 0 n22 = 4 n23 = 1 n2• = 5
360 ⊣ 480 n31 = 0 n32 = 2 n33 = 1 n3• = 3
n• j n•1 = 5 n•2 = 8 n•3 = 2 n = 15
figurino anche le frequenze assolute delle due variabili D e R considerate separatamente
D ni• R n• j
50 ⊣ 180 7 10 ⊣ 35 5
180 ⊣ 360 5 35 ⊣ 60 8
360 ⊣ 480 3 60 ⊣ 85 2
15 15
La frequenza n1• = 7, attinente alla classe 50 ⊣ 180 è stata ottenuta sommando n11 = 5,
n12 = 2 e n13 = 0.
Il simbolo • sostituisce l’indice rispetto al quale si è effettuata la somma:
3
7 = n1• = n11 + n12 + n13 = ∑ n1 j .
j=1

Le distribuzioni delle due variabili D e R, considerate separatamente, sono dette distribu-


zioni marginali. 4.6

Osservazione
Non è immediato stabilire, con la semplice lettura della tabella, se la durata del servizio
(D) induce un aumento dell’importo percepito (R); necessitano, a tale proposito, ulteriori
strumenti statistici che verranno presentati nell’ambito dell’analisi statistica bivariata.
4.7

54
3 Le distribuzioni condizionate
È possibile anche studiare la distribuzione di uno dei due caratteri in corrispondenza di un
sottoinsieme di unità statistiche che assumono una determinata categoria o un determinato
valore o appartengono a una certa classe dell’altro carattere.
In questo modo si ottengono le cosiddette distribuzioni condizionate. 4.8

Esempio 2. La distribuzione dell’importo percepito R condizionata al fatto che la durata


del servizio D sia compresa nell’intervallo (50, 180] è riferita a n1• = 7 unità statistiche
(cfr. la prima riga della tabella a doppia entrata) e risulta

r j |d1 n1 j
10 ⊣ 35 5
35 ⊣ 60 2
60 ⊣ 85 0
7

Il simbolo |d1 indica il condizionamento alla prima categoria/modalità/classe di D.


4.9
Esempio 3. La distribuzione della durata del servizio D condizionata al fatto che l’importo
percepito R sia compreso nell’intervallo (35, 60] è riferita a n•2 = 8 unità statistiche (cfr.
la seconda colonna della tabella a doppia entrata) e risulta

di |r2 ni2
50 ⊣ 180 2
180 ⊣ 360 4
360 ⊣ 480 2
8

Il simbolo |r2 indica il condizionamento alla seconda categoria/modalità/classe di R.


4.10

4 Formalizzazione simbolica v.s. doppia


Le coppie di dati elementari {vr , wr } (r = 1, 2, . . . , n) sono riassunte in h modalità/classi
xi e k modalità/classi y j

X \Y y1 ... yj ... yk ni•


x1 n11 ... n1 j ... n1k n1•
.. .. .. .. ..
. . . . .
xi ni1 ... ni j ... nik ni•
.. .. .. .. ..
. . . . .
xh nh1 ... nh j ... nhk nh•
n• j n•1 ... n• j ... n•k n
xi , y j = eventuali valori centrali
ni• = totali di riga = ∑kj=1 ni j
n• j = totali di colonna = ∑hi=1 ni j
h k h k
∑ ∑ ni j = ∑ ni• = ∑ n• j = n.
i=1 j=1 i=1 j=1
4.11

55
Definizione 4 (Variabile/Mutabile statistica doppia). L’insieme (X,Y ) delle terne

{xi , y j , ni j , i = 1, 2 . . . , h; j = 1, 2, . . . , k},

dove gli elementi xi , y j possono essere categorie, valori singoli, classi o valori centrali
delle classi, è detto mutabile/variabile statistica doppia.
Dalla mutabile/serie/seriazione doppia è possibile ricavare due distribuzioni marginali
univariate e 2 famiglie di distribuzioni condizionate (univariate) composte rispettivamente
da h e k elementi. 4.12

56
Sezione 5
Indici di posizione (1)
5.1

Indice
1 Indici sintetici o statistiche 57

2 Indici di posizione 58
2.1 Proprietà degli indici di posizione . . . . . . . . . . . . . . . . . . . . . 59

3 La moda 60

4 I percentili (quantili) 62

5 Box & Whiskers plot 75

6 Le medie potenziate 83
6.1 La media aritmetica (r = 1) . . . . . . . . . . . . . . . . . . . . . . . . . 83
6.2 La media armonica (r = −1) . . . . . . . . . . . . . . . . . . . . . . . . 84
6.3 La media quadratica (r = 2) . . . . . . . . . . . . . . . . . . . . . . . . 85
6.4 Il Teorema fondamentale sulle medie potenziate . . . . . . . . . . . . . . 86
6.5 La media geometrica (r = 0) . . . . . . . . . . . . . . . . . . . . . . . . 87

7 Esercizi 88

8 La media aritmetica è sempre media in senso stretto 90

9 L’operatore media aritmetica 92

10 Interpretazione fisica della media aritmetica 92

11 Media aritmetica di una trasformazione lineare 93

12 I momenti 94 5.2

1 Indici sintetici o statistiche


Date le n osservazioni campionarie

v1 , v2 , . . . , vn ,

eventualmente raccolte in una serie statistica

X = {(xi , ni ), i = 1, . . . , k},

57
un indice sintetico è una funzione

I = α(v1 , v2 , . . . , vn ) = α(X)

che, a partire dalla variabile statistica X, restituisce una sintesi di uno dei molteplici aspetti
che caratterizzano la X oggetto di studio (ad esempio: posizione, variabilità, ...). 5.3

2 Indici di posizione
Un indice sintetico di posizione è un valore che può ritenersi rappresentativo di tutte le
osservazioni.
Tale valore può anche essere utilizzato per effettuare confronti tra diverse distribuzioni.
?
sono migliori gli studenti maschi o le femmine
?
si mangiano più polli pro-capite in Italia o in Danimarca
?
Per rispondere a tali quesiti si confrontano statistiche che rappresentano i livelli/valori
tipici. 5.4
Una famosa poesia di Trilussa evidenzia i limiti interpretativi, associati all’utilizzo di un
solo indice sintetico.
LA STATISTICA
di Trilussa

Sai ched’è la statistica? È na’ cosa


che serve pe fà un conto in generale
de la gente che nasce, che sta male,
che more, che va in carcere e che spósa.

Ma pè me la statistica curiosa
è dove c’entra la percentuale,
pè via che, lì, la media è sempre eguale
puro co’ la persona bisognosa.

Me spiego: da li conti che se fanno


seconno le statistiche d’adesso
risurta che te tocca un pollo all’anno:

e, se nun entra nelle spese tue,


t’entra ne la statistica lo stesso
perch’è c’è un antro che ne magna due.
Nel seguito si vedrà come sia possibile porre rimedio alla incongruenza interpretativa
evidenziata, mediante l’utilizzo di più indici sintetici, sia di posizione che di misura della
variabilità. 5.5

58
2.1 Proprietà degli indici di posizione
A seconda della scala di misurazione un indice di posizione dovrà soddisfare le seguenti
caratteristiche:
• per tutti i tipi di dati: modalità/valore più simile a tutti (o alla maggioranza)
1. internalità (condizione di Cauchy)

α(X) = uno dei valori assunti dal fenomeno

• se la scala è almeno ordinale: valore centrale della distribuzione


1. internalità (condizione di Cauchy)

xmin ≤ α(X) ≤ xmax

2. monotonicità
X ≤ Y → α(X) ≤ α(Y )
• se i dati sono metrici: valore più vicino a tutti
3. moltiplicatività
α(cX) = cα(X)
con c costante arbitraria. 5.6
È possibile definire i seguenti indici di posizione, in accordo alla scala di misurazione del
carattere oggetto di studio
• da nominale in su
→ moda (o norma)
• da ordinale in su
→ mediana (o percentili)
• da scala per intervalli (dati metrici)
→ medie 5.7

Osservazioni
• la proprietà di Cauchy è irrinunciabile
• se sono soddisfatte 1) 2) e 3) la media si dice in senso stretto
• se cade la proprietà di monotonicità la media si dice in senso lato

Alcuni indici tipici


• moda
• percentili (quantili) x p di ordine p (0 ≤ p ≤ 1)
• mediana
• medie potenziate
– aritmetica
– armonica
– geometrica
– quadratica
..
.

(la moda è definibile anche per caratteri qualitativi sconnessi) 5.8

59
3 La moda
Definizione 1 (Moda per caratteri qualitativi e caratteri quantitativi con valori non rag-
gruppati in classi).
Moda(X) = {x j : n j = max ni } = {x j : f j = max fi }
(modalità/valore di massima frequenza)

ni oppure fi

5
xi ni
2 2
4 5
7 3
8 2
12
0

0 2 4 6 8 10

Moda(X)=4 xi

5.9

Definizione 2 (Moda per caratteri quantitativi con valori raggruppati in classi).


   
nj ni fj fi
Moda(X) = x j : = max = xj : = max
aj ai aj ai
(valore centrale classe di massima densità di frequenza)

ni ai oppure fi ai
10

xi ni di
2⊣4 6 3
fi ai

4⊣5 4 4
oppure

5 ⊣ 7 10 5
ni ai

7⊣8 8 8
8⊣9 2 2
30
0

0 2 4 6 8 10

Moda(X)=7.5
5.10
(se Moda(X) esiste, cioè unimodale . . . )
Esempio 3. Si consideri la distribuzione degli spettacoli organizzati dalle associazioni
culturali di una regione
tipo spettacolo n. eventi
teatrale 82
concerto musica classica 125
concerto rock 160
concerto big band 158
totale 525

60
La distribuzione è quasi bimodale!
La nozione di media espressa dalla moda può avere, a volte, un carattere molto incerto. 5.11

Osservazione
Cadendo la monotonicità la moda è media solo in senso lato.
Esempio 4. Distribuzione delle auto di servizio di 15 aziende
X: osservazioni al tempo t,
Y : osservazioni al tempo t + 1
ni xiyi ni
5 1 1 5
7 2 2 4
2 3 3 2
1 4 4 4
15 15
(3 aziende con due auto hanno raddoppiato il parco macchine)

tempo t: 1 1 1 1 1 2 2 2 2 2 2 2 3 3 4
tempo t + 1: 1 1 1 1 1 2 2 2 2 3 3 4 4 4 4
= = = = = = = = = > > > > > =
Moda(X) = 2 Moda(Y ) = 1
anche se1 y( j) ≥ x( j) ( j = 1, . . . , 15) abbiamo Moda(Y ) < Moda(X)!! 5.12

Esempio 5 (Carattere qualitativo sconnesso). Si considerano le distribuzioni percentuali


del colore dei capelli di alcune scolaresche
colore S1 S2 S3
nero 0.10 0.30 0.70
castano 0.25 0.30 0.20
biondo 0.60 0.30 0.05
altro 0.05 0.10 0.05
1 1 1
La moda è una delle modalità !!!
Ha senso solo la moda (modalità comune al maggior numero di unità statistiche)
Non è possibile calcolare mediana o media !
Osservazione
S2 è plurimodale
5.13

Esercizio 6. Con riferimento a 80 soggetti si riportano le distribuzioni del tempo in minu-


ti, Y , dedicato alla visita di una mostra, distinte rispetto al livello di conoscenza artistica
(’visitatori esperti’ e ’visitatori occasionali’):
’visitatori esperti’ ’visitatori occasionali’
hi−1 ⊣ hi fi hi−1 ⊣ hi fi
5 ⊣ 10 0.40 5 ⊣ 10 0.76
10 ⊣ 20 0.40 10 ⊣ 20 0.08
20 ⊣ 25 0.20 20 ⊣ 25 0.16
1.00 1.00
1. Si rappresentino graficamente le funzioni di ripartizione.
2. In base ai grafici precedenti si individui la moda delle due distribuzioni.
5.14
1 Si indica con il simbolo x( j) il valore di X che occupa la posizione j-esima nella serie dei dati ordinati.

61
4 I percentili (quantili)
La presentazione segue i seguenti punti
• Cosa sono i percentili e come vengono utilizzati (definizione preliminare)
Si pensi ad esempio al problema della determinazione dei valori di reddito che definiscono
gli scaglioni di imposizione fiscale.
Un criterio è quello di considerare le quote di unità statistiche che risultano collocate in
ciascuna classe di reddito.
• Limiti della definizione preliminare
• Definizione formale ed esempi applicativi
• Procedura grafica semplificata
• Metodi di calcolo presenti nei software applicativi
• Esempi di calcolo della mediana 5.15

Cosa sono i percentili e come vengono utilizzati (definizione preli-


minare)
Si consideri una serie di n valori distinti riferiti a una variabile misurata su scala almeno
ordinale
(ad esempio l’altezza in cm di n = 150 individui)

agt

zik

tjy

iwm

rqv

scl
codice individuo

heo

tka

qrh

gvm

koy

xhq

qsy

ueb

gyn

kpu

altezza
5.16

62
In primo luogo occorre ordinare le osservazioni.

numero d'ordine individui per altezza (1,2,...,n)

altezza
5.17
Si cerca il valore x p che divide la distribuzione dei dati ordinati in due parti tali che:
• una quota p dei soggetti ha valore inferiore o uguale a x p
• una quota 1 − p dei soggetti ha valore superiore o uguale a x p
5.18

63
F(x)

1−p

p
p

altezza xp altezza xp
5.19

Alcuni percentili notevoli


• x0.25 = Q1 = 1◦ quartile
• x0.50 = Q2 = 2◦ quartile = mediana
• x0.75 = Q3 = 3◦ quartile
5.20
Esempio 7. Se il percentile di ordine 0.30 della distribuzione delle altezze dei soggetti di
una collettività è pari a x0.30 = 130 cm, ciò significa che:
• il 30% dei soggetti ha un’altezza minore o uguale a 130 cm
• il 70% dei soggetti ha un’altezza non inferiore a 130 cm.

Limiti della definizione preliminare

Osservazione
Il percentile è individuabile, in maniera univoca, solo in situazioni particolari
(ad esempio, n ≫ 100 e variabile statistica continua che si manifesta con un elevato
numero di valori distinti).
5.21

64
Esempio 8. Si vuole determinare x0.5 , percentile di ordine 0.5 dell’altezza delle seguenti
n = 12 unità statistiche
x xxx xxxxxx
xx

Una volta ordinate dalla più piccola alla più grande

xx xxxx xxxxxx
si assegni la posizione (rango) all’interno dei dati ordinati

x x x x x x xxx xxx
(1)(2)(3)(4)(5)(6)(7)(8)(9)(10)(11)(12)

Nessuna delle altezze assunte dai soggetti divide la distribuzione esattamente in 2 parti.
5.22

x x x x x x xxx xxx
(1)(2)(3)(4)(5)(6)(7)(8)(9)(10)(11)(12)

Ogni valore strettamente compreso tra l’altezza x(6) della sesta unità statistica e x(7) ,
altezza della settima unità statistica, divide la distribuzione esattamente in 2 parti:
• la quota di soggetti con altezza non superiore a quel valore è esattamente pari al
50% (6/12).
• la quota di soggetti con altezza non inferiore a quel valore è esattamente pari al
50% (6/12).
5.23

Esempio 9. Si vuole determinare x0.5 , percentile di ordine 0.5, per le seguenti n = 12


unità statistiche
x xxx xxxxxxx
x

le si ordina e si assegna la posizione all’interno dei dati ordinati

x x x x x xxxx xxx
(1)(2)(3)(4)(5)(6)(7)(8)(9)(10)(11)(12)

Anche in questo caso nessuna delle altezze assunte dai soggetti divide la distribuzione
esattamente in 2 parti
5.24

x x x x x xxxx xxx
(1)(2)(3)(4)(5)(6)(7)(8)(9)(10)(11)(12)

Le altezze della sesta e settima (e ottava) unità statistica coincidono, diciamo sono uguali
a c:
• la quota di soggetti con altezza non superiore a c è superiore al 50% (8/12).
• la quota di soggetti con altezza non inferiore a c è superiore al 50% (7/12).
5.25
Esempio 10. Si vuole determinare x0.5 , percentile di ordine 0.5, per le seguenti n = 5
unità statistiche
xxxxx

65
le si ordina e si assegna la posizione all’interno dei dati ordinati

x x xx x
(1)(2)(3)(4)(5)

Anche in questo caso nessuna delle altezze assunte dai soggetti divide la distribuzione
esattamente in 2 parti
5.26

x x xx x
(1)(2)(3)(4)(5)

Si consideri l’altezza della terza unità statistica x(3) :


• la quota di soggetti con altezza non superiore a x(3) è superiore al 50% (3/5).
• la quota di soggetti con altezza non inferiore a x(3) è superiore al 50% (3/5).
Occorre, quindi, una definizione più generale di percentile. 5.27

Definizione formale ed esempi applicativi


x p è un valore x:
• non superato da almeno una frazione p delle unità statistiche
e contemporaneamente
• superato da almeno una frazione 1 − p delle unità statistiche

x x x x x x xxx xxx
(1)(2)(3)(4)(5)(6)(7)(8)(9)(10)(11)(12)

x x x x x xxxx xxx
(1)(2)(3)(4)(5)(6)(7)(8)(9)(10)(11)(12)
5.28
Le precedenti proposizioni possono essere formalizzate facendo contemporaneamente
riferimento:
• alla funzione di ripartizione F(x), quota di unità statistiche con modalità minore o
uguale a x:

x p è un valore x non superato da almeno


⇔ {x : [F(x) ≥ p]}
una frazione p delle unità statistiche

• alla cosiddetta funzione di ripartizione retrocumulata R(x), quota di unità statistiche


con modalità maggiore o uguale a x:

x p è un valore x superato da almeno


⇔ {x : [R(x) ≥ (1 − p)]}
una frazione 1− p delle unità statistiche

Definizione 11 (Funzione di ripartizione retrocumulata R(x)). Si definisce funzione di


ripartizione retrocumulata, detta anche funzione di sopravvivenza, la funzione che a ogni
x fa corrispondere la quota di unità statistiche con modalità non inferiore a x.
5.29

66
Definizione 12 (Percentile - definizione formale).

x p = {x : [F(x) ≥ p] ∩ [R(x) ≥ (1 − p)]}


( " # " #)
= x: ∑ fi ≥ p ∩ ∑ fi ≥ (1 − p)
xi ≤x xi ≥x

In particolare assumiamo che:


• se p = 0 → x0 = xmin = x(1)
• se p = 1 → x1 = xmax = x(n)
5.30

Relazione tra F(x) e R(x)


Seriazioni statistiche
Se il carattere è quantitativo continuo (classi)

R(x) = 1 − F(x).

F(x) e R(x) danno la ’stessa’ informazione con riferimento alla determinazione del per-
centile:
x p = F −1 (p) = R−1 (1 − p).

Mutabili/serie statistiche
In presenza di un carattere qualitativo ordinato e di un carattere quantitativo non rilevato
con classi vale:
Ri = 1 − Fi + fi .
5.31

Calcolo Fi e Ri

xi ni fi Fi Ri
2 4 0.20
4 6 0.30
5 4 0.20
7 1 0.05
8 5 0.25
20 1
5.32
Per trovare x p dobbiamo cercare l’insieme dei valori che soddisfa le due condizioni 5.33
 5.34
F(x) ≥ p
5.35
R(x) ≥ 1 − p
5.36
5.37
5.38
xi ni fi Fi Ri
5.39
2 4 0.20 0.20 1.00
4 6 0.30 0.50 0.80 5.40

5 4 0.20 0.70 0.50 5.41


7 1 0.05 0.75 0.30 5.42
8 5 0.25 1.00 0.25 5.43
20 1

67
• p = 0.25
x0.25 = 4
F(4) = 0.5 ≥ 0.25 e R(4) = 0.8 ≥ 0.75
5.44

• p = 0.50
x0.5 = 4 ma anche x0.5 = 5

F(4) = 0.5 ≥ 0.5 e R(4) = 0.8 ≥ 0.5


F(5) = 0.7 ≥ 0.5 e R(5) = 0.5 ≥ 0.5
4 ≤ x0.5 ≤5

Si può utilizzare il valore centrale

4+5 x(10) + x(11)


x0.5 = = 4.5 = .
2 2
5.45

• p = 0.75
x0.75 = 7 ma anche x0.75 = 8

F(7) = 0.75 ≥ 0.75 e R(7) = 0.3 ≥ 0.25


F(8) = 1 ≥ 0.75 e R(8) = 0.25 ≥ 0.25
7 ≤ x0.75 ≤8

Si può utilizzare il valore centrale


7+8
x0.75 = = 7.5.
2
5.46

68
Procedura grafica semplificata
Per determinare x p possiamo però anche fare riferimento alla sola funzione di ripartizione.
Se il carattere è qualitativo ordinato oppure siamo in presenza un carattere quantitativo
con valori non raggruppati in classi abbiamo

1.0
0.8
0.75
0.6

xi ni Ni Fi
2 4 4 0.20
4 6 10 0.50 0.5
5 4 14 0.70
0.4

7 1 15 0.75
8 5 20 1.00
20
0.25
0.2
0.0

0 2 4 5 7 8 10
x0.25

• p = 0.25 x0.25 = F −1 (0.25) = 4

x0.5 = F −1 (0.5) =?? x0.75 = F −1 (0.75) =??


5.47

• p = 0.5
x(10) = 4 ≤ x0.5 < 5 = x(11)
si ricorda che x(10) = 4 e x(11) = 5 soddisfano la definizione formale di mediana.
Si può utilizzare il valore centrale
4+5
x0.5 = = 4.5.
2
5.48

• p = 0.75
x(15) = 7 ≤ x0.75 < 8 = x(16)
si ricorda che x(15) = 7 e x(16) = 8 soddisfano la definizione formale di terzo quar-
tile.
Si può utilizzare il valore centrale
7+8
x0.75 = = 7.5.
2
5.49

69
In presenza di classi, se ni ≫ 1, abbiamo

1.0
0.9
xi ni fi Fi
2⊣4 200 0.2 0.2

0.6
4⊣5 100 0.1 0.3

F(x)
5⊣7 300 0.3 0.6
7⊣8 300 0.3 0.9
8⊣9 100 0.1 1

0.3
p
1000 1

0.2
0.0

2 4 xp 5 7 8 9

x0.25 = 4.5
5.50
1.0
0.9

xi fi Fi
2⊣4 0.2 0.2
0.6

4⊣5 0.1 0.3


F(x)

5⊣7 0.3 0.6


7⊣8 0.3 0.9
8⊣9 0.1 1
0.3

1
0.2
0.0

2 4 5 7 8 9
x0.3

x0.3 = 5
x0.5 =??
5.51

70
Per determinare il valore della mediana, percentile di ordine 0.5, identifichiamo in primo
luogo la classe di appartenenza, 5 ⊣ 7 (corrispondente alla prima Fi ≥ 0.5)

1.0
0.9
xi fi Fi
2⊣4 0.2 0.2

0.6
4⊣5 0.1 0.3

F(x)
0.5
5⊣7 0.3 0.6
7⊣8 0.3 0.9
8⊣9 0.1 1
0.3
1 0.2
0.0

2 4 5 x0.5 7 8 9

Osserviamo come il punto 0.5 sull’asse delle ordinate sia a 23 del segmento che unisce i
0.5−0.3 0.2
punti 0.3 e 0.6; infatti 0.6−0.3 = 0.3 = 23 .
Anche x0.5 sull’asse delle ascisse sarà in posizione 23 sul segmento che unisce i punti 5 e
7, vale a dire
2
x0.5 = 5 + · (7 − 5) = 6.3333.
3
5.52
Segue la formula teorica per determinare il valore di x p :

p − Fi−1 p − Fi−1
x p = hi−1 + ai = hi−1 + ai
Fi − Fi−1 fi
dove:
• hi−1 : estremo inferiore della classe (i) di appartenenza del percentile di ordine p,
• ai : ampiezza della classe i,
• Fi−1 e Fi : valori della funzione di ripartizione in hi−1 e hi ,
• fi = Fi−1 − Fi : frequenza relativa della classe i.
5.53

71
Metodi di calcolo presenti nei software applicativi
Come si è visto, in molte situazioni, la determinazione del percentile avviene in maniera
’convenzionale’.
Con riferimento alla serie statistica
xi ni fi Fi Ri
2 4 0.20 0.20 1.00
4 6 0.30 0.50 0.80
5 4 0.20 0.70 0.50
7 1 0.05 0.75 0.30
8 5 0.25 1.00 0.25
20 1
per la mediana, x0.5 , e per il terzo quartile, x0.75 , si sono scelti 4.5 e 7.5, valori intermedi
tra 4 e 5 e tra 7 e 8.
Si osserva come qualsiasi altro valore negli intervalli [4, 5] e [7, 8] avrebbe potuto essere
utilizzato per x0.5 e per x0.75 . 5.54
Se il numero delle unità statistiche è ridotto, i valori che soddisfano la definizione formale
di percentile potrebbero anche essere molto dissimili tra loro.
Esistono in letteratura diverse formule per il calcolo dei percentili, si veda Hyndman,
R. J., Fan, Y. (1996) Sample quantiles in statistical packages, American Statistician, 50,
361-365.
Si riporta una delle definizioni, comunemente utilizzata nei pacchetti statistici di uso
corrente. 5.55

Definizione 13 (Calcolo ’preciso’ x p ).


x p = (1 − γ) · x( j) + γ · x( j+1)
dove x( j) è l’elemento che occupa la posizione j all’interno dei dati ordinati con
j = [np + (1 − p)]
[·] parte intera dell’argomento, e
γ = np + (1 − p) − j.
5.56
Esempio 14. Per calcolare il percentile di ordine 0.95 in corrispondenza dei redditi di
n = 315 soggetti, si determinano innanzitutto la posizione ( j) e ( j + 1) dei due soggetti i
cui valori x( j) e x( j+1) soddisfano la definizione formale di percentile di ordine p:
j = [np + (1 − p)] = [315 · 0.95 + 0.05] = [299.3] = 299
La funzione [·] considera solo la parte intera (scartando le cifre decimali) dell’argomento.
Il valore del percentile risulta una combinazione lineare dei valori x(299) e x(300) con pesi
(1 − γ) = 0.7 e γ = 0.3.
Si osserva come γ = 0.3 coincida con la parte decimale scartata per ottenere il risultato
nella formula precedente.
In presenza di x(299) = 60350 e x(300) = 61280 si ottiene x0.95 = 0.7·60350+0.3·61280 =60629.
5.57
In particolare, se p = 0.5, si ottiene
 n
2 se n è pari
j= n+1
2 se n è dispari
e  1
2 se n è pari
γ=
0 se n è dispari
5.58

72
Esempi di calcolo della mediana
Segue la definizione di mediana, che distingue le situazioni di numerosità pari e dispari:
Definizione 15 (Mediana).
(  
1
2 x( n ) + x( n +1) se n è pari
x0.5 = 2 2
x( n+1 ) se n è dispari
2

Con riferimento all’esempio di n = 20 unità statistiche, la mediana risulta la semisomma


degli elementi di posizione 10 e 11 nella serie dei dati ordinati
x(10) + x(11) 4+5
= = 4.5.
2 2
Nel caso il carattere sia qualitativo ordinato o quantitativo non rilevato in classi, per la
mediana si ottiene lo stesso risultato che si avrebbe con il metodo grafico della funzione
di ripartizione. 5.59
In presenza di una seriazione statistica, se ni non è elevato, abbiamo: (per n pari)

30

27

xi ni Ni
2⊣4 6 6 18
4⊣5 3 9 16
N(x)

15
5⊣7 9 18
7⊣8 9 27
8⊣9 3 30 9

30 6

x(n 2) x(n 2+1)


0
2 4 5 7 8 9

x( n ) + x( n +1) 1

6
 
7

2 2
x0.5 = = 5+ ·2 + 5+ ·2 = 6.4444
2 2 9 9
n n

2 − Ni−1 2 + 1 − Ni−1
x( n ) = hi−1 + ai x( n +1) = hi−1 + ai
2 Ni − Ni−1 2 Ni − Ni−1
5.60
Si ottiene
n+1

2 − Ni−1
x0.5 = hi−1 + ai
Ni − Ni−1
Anche in presenza di una seriazione statistica con n dispari abbiamo la stessa formula
n+1

2 − Ni−1
x0.5 = x( n+1 ) = hi−1 + ai
2 Ni − Ni−1
5.61

73
Riepilogo

x p = {x : [F(x) ≥ p] ∩ [R(x) ≥ (1 − p)]}


• È possibile calcolare i percentili solo in presenza di dati ordinati.
• Se i dati non sono raccolti in classi si può utilizzare la funzione di ripartizione F(x)
nel modo seguente:
– x p corrisponde al primo valore xi per cui Fi ≥ p
xi +xi+1
– nel caso in cui risulti Fi = p allora, in genere(∗) , x p = 2 F(x)

1.0
0.8
0.75
xi ni Ni Fi
2 4 4 0.20

0.6
4 6 10 0.50 0.5
5 4 14 0.70 0.4

7 1 15 0.75
8 5 20 1.00 0.25
0.2

20
0.0

0 2 4 5 7 8 10
x0.25

x0.25 = 4 x0.50 = 4.5 x0.75 = 7.5


(∗) xi +xi+2
Se Fi = p e ni+1 = 0, si dovrà porre x p = 2 5.62
• In presenza di seriazioni statistiche (dati raccolti in classi) il percentile viene deter-
minato mediante lettura inversa della funzione di ripartizione
1.0
0.9
0.6
F(x)

0.3

p
0.2
0.0

2 4 xp 5 7 8 9

• È possibile anche un calcolo più preciso, attraverso i valori di N(x).

30

27

18

16
N(x)

15

x(n 2) x(n 2+1)


0
2 4 5 7 8 9

74
5.63

Esempio 16. Il seguente prospetto riporta i tempi di risposta (in secondi) a un quiz da
parte di 29 concorrenti. Si calcoli il tempo mediano

xi ni
1 5
3 8
4 8
5 6
9 2
29

Essendo n = 29 dispari, la mediana è il valore che occupa la posizione n+1 2 = 15 nella


serie dei dati ordinati; corrisponde, quindi, al tempo del 15o soggetto classificato

xi ni Ni ordine classifica
1 5 5 dal 1o al 5o
3 8 13 dal 6o al 13o
4 8 21 dal 14o al 21o
5 6 27 dal 22o al 27o
9 2 29 dal 28o al 29o
29

abbiamo
x0.5 = x(15) = 4.
5.64

Esercizio 17. Si fornisca una rappresentazione grafica e si riassumano opportunamente


gli esiti riportati nel seguente prospetto
vi ni
scarso 18
sufficiente 14
discreto 12
buono 6
5.65

5 Box & Whiskers plot


Si considerino le seguenti osservazioni di un carattere quantitativo

20, 11, 11, 10, 15, 14, 30, 8, 12, 12, 7

Gli n = 11 valori sono dei punti sulla retta reale

7 8 10 11 12 14 15 20 30

Nel grafico si sono evidenziati i valori 11 e 12 con dei punti più grandi in quanto figurano
2 volte. 5.66
Si procede al calcolo dei percentili di ordine 0.25, 0.5 e 0.75, primo quartile, mediana e
terzo quartile della distribuzione.

75
xi ni Ni Fi
7 1 1 0.09
8 1 2 0.18
10 1 3 0.27
11 2 5 0.45
12 2 7 0.64
14 1 8 0.73
15 1 9 0.82
20 1 10 0.91
30 1 11 1.00
11
1.0
0.8

0.75
0.6

0.5
0.4

0.25
0.2
0.0

0 7 10 12 14 20 30
x0.25 x0.5 x0.75

Otteniamo:
x0.25 = 10, x0.5 = 12, x0.75 = 15
5.67
Riportiamo, con tre segmenti, sul grafico in cui figurano le osservazioni i tre quartili.

7 8 10 11 12 14 15 20 30

76
Possiamo ora rappresentare ’in un altro modo’ i punti che figurano tra il primo e il terzo
quartile.
Sappiamo che:
• tra x0.25 e x0.5 figura una quota di osservazioni approssimativamente pari al 25%;
• tra x0.5 e x0.75 figura una quota di osservazioni approssimativamente pari al 25%;
• tra x0.25 e x0.75 figura una quota di osservazioni approssimativamente pari al 50%.

7 8 10 12 15 20 30

Nel grafico precedente abbiamo unito i 3 quartili costruendo una scatola (Box), che con-
tiene i valori centrali della distribuzione 5.68
I valori molto distanti dalla scatola sono qualificabili come valori anomali.
Si definiscono, generalmente, anomali quei valori che hanno una distanza dalla scatola
superiore a 1.5 · (x0.75 − x0.25 )
Identifichiamo, allora, sul grafico due limiti (Whiskers) al di fuori dei quali figurano i
valori anomali:
• baffo inferiore = max{xmin , x0.25 − 1.5(x0.75 − x0.25 )}
• baffo superiore = min{xmax , x0.75 + 1.5(x0.75 − x0.25 )}

7 8 20 30

5.69
Concludiamo la costruzione del grafico lasciando solo il Box & Whiskers Plot e gli
eventuali dati anomali.

7 10 12 15 22.5 30

In alcuni software applicativi la costruzione del grafico pone i baffi in corrispondenza di


dati esistenti: nel caso in esame il baffo superiore viene posto a 20, ottenendo così una
rappresentazione sintetica dei dati effettivamente osservati.

7 10 12 15 20 30

Il Box & Whiskers plot può essere ottenuto mediante il software statistico R con le
seguenti istruzioni:
• x <- c(12,7,11,10,15,14,30,20,11,8,12)
per assegnare i dati all’oggetto x
• boxplot(x)
per produrre il grafico
5.70

77
Riepilogo Box & Whiskers plot 1

1.0
0.8
Quantitativo no classi 0.75

xi ni Ni Fi

0.6
7 1 1 0.09
8 1 2 0.18
10 1 3 0.27 0.5
11 2 5 0.45

0.4
12 2 7 0.64
14 1 8 0.73
15 1 9 0.82
20 1 10 0.91 0.25
0.2

30 1 11 1.00
11
0.0

0 7 10 12 14 20 30
x0.25 x0.5 x0.75

7 10 12 15 22.5 30
1.0
0.8

0.75

Quantitativo con classi


0.6

hi−1 ⊣ hi ni Ni Fi 0.5
10 ⊣ 22 60 60 0.30
22 ⊣ 31
0.4

90 150 0.75
31 ⊣ 51 50 200 1.00
200
0.25
0.2
0.0

0 10 20 30 40 50
x0.25 x0.5 x0.75

xi

10 20 26 31 47.5 51

78
5.71
5.72
Riepilogo Box & Whiskers plot 2

35

outliers
34

75%
33

x0.75
32

25%

50%
x0.5
31

75%
25%

x0.25
30

5.73
Il Box & Whiskers plot è, quindi, una rappresentazione grafica costituita da:
• box (scatola)
– x0.25 = Q1
– x0.50 = Q2
– x0.75 = Q3
• whiskers (baffi)
– baffo inferiore = max{xmin , Q1 − 1.5(Q3 − Q1)}
– baffo superiore = min{xmax , Q3 + 1.5(Q3 − Q1)}
x0.75 − x0.25 = Q3 − Q1 è chiamata differenza interquartile. 5.74
Può essere utilizzato:
• per avere una idea sintetica della distribuzione
• per effettuare dei confronti
• per l’individuazione di dati anomali (oltre i baffi)
5.75

79
Esempio 18 (Altezza della navata e lunghezza totale delle cattedrali inglesi). Faraway JJ
2002 Practical Regression and Anova using R, July 2002,
http://stat.ethz.ch/CRAN/doc/contrib/Faraway-PRA.pdf
• x altezza della navata (m) y lunghezza totale (m)
Alcune cattedrali sono in stile romanico, altre in stile gotico.
I dati relativi alle cattedrali con entrambi gli stili sono stati duplicati.
Si confrontano i due stili mediante grafici Box & Whiskers plot, rimandando il lettore alla
Sezione 11.3 per un’analisi dettagliata dell’esempio.
style x y
Durham r 22.86 153.01
Canterbury r 24.38 159.11
Gloucester r 20.73 129.54
Hereford r 19.51 104.85
Norwich r 25.30 124.05
Peterborough r 24.38 137.46
St.Albans r 21.34 167.94
Winchester r 23.16 161.54
Ely r 22.56 166.73
York g 30.48 158.19
Bath g 22.86 68.58
Bristol g 15.85 91.44
Chichester g 18.90 127.41
Exeter g 20.73 124.66
GloucesterG g 26.21 129.54
Lichfield g 17.37 112.78
Lincoln g 24.99 154.23
NorwichG g 21.95 124.05
Ripon g 26.82 89.92
Southwark g 16.76 83.21
Wells g 20.42 126.49
St.Asaph g 13.72 55.47
WinchesterG g 31.39 161.54
Old.St.Paul g 31.39 186.23
Salisbury g 25.60 144.17
5.76
Distribuzione 'altezza della navata' Distribuzione 'lunghezza totale'
30

160
25

120
20

80
15

60

g r g r
5.77

80
Si osserva come il solo esame di un grafico cosiddetto ’a dispersione’ risulti essere meno
informativo. L’analisi congiunta, opportuna nel caso in esame essendo i dati riferiti alle
stesse unità statistiche, evidenzia la presenza di cattedrali in stile gotico molto piccole (St.
Asaph) e molto grandi (Old St. Paul, Winchester e York).

WinchesterG Old.St.Paul

York
30

Ripon
GloucesterG
Salisbury
Norwich
25

Lincoln
altezza della navata

Peterborough Canterbury

Winchester
Bath Durham
Ely
NorwichG
St.Albans
Exeter
Gloucester
Wells
20

Hereford
Chichester

Lichfield
Southwark

Bristol
15

St.Asaph

60 80 100 120 140 160 180

lunghezza totale
5.78

Esercizio 19. Si confrontino mediante grafici Box & Whiskers plot le seguenti serie di
osservazioni
Serie X : 12, 7, 11, 10, 15, 14, 30, 20, 11, 8, 12
Serie Y : 7, 17, 10, 9, 9, 11, 8, 6, 12, 7, 10, 7, 13, 9, 8
5.79

Esercizio 20. Si costruisca il Box & Whiskers plot per la seguente serie statistica
xi ni
18 4
23 40
26 36
29 70
32 50
200
5.80
Esercizio 21. Si costruisca il Box & Whiskers plot per la seguente seriazione statistica
basandosi sulla funzione di ripartizione
hi−1 ⊣ hi fi
15 ⊣ 25 0.22
25 ⊣ 29 0.18
29 ⊣ 31 0.35
31 ⊣ 35 0.25
1
5.81

81
Esercizio 22. Quale tra i due istogrammi corrisponde al Box & Whiskers plot?

0.05

50
0.04
0.03
0.02
40

0.01
0.00
0 10 20 30 40 50
30

0.05
20

0.04
0.03
10

0.02
0.01
0.00
0 10 20 30 40 50

5.82

Esercizio 23. Quale tra i due istogrammi corrisponde al Box & Whiskers plot?

0.05
50

0.04
0.03
0.02
40

0.01
0.00
0 10 20 30 40 50
30

0.05
20

0.04
0.03
10

0.02
0.01
0.00
0 10 20 30 40 50

5.83

82
6 Le medie potenziate
Definizione 24. Data una variabile statistica X con modalità xi > 0 (eventualmente valori
centrali) si definisce media potenziata di ordine r
!1
r
1 k r
µ (r) = ∑ xi ni =
n i=1
!1 !1
k r k r
r ni
= ∑ in =
x ∑ xir fi
i=1 i=1

con fi = nni ed r = ±1, ±2, ±3, . . ..


Nel caso di frequenze unitarie (o valori singoli v j , j = 1, . . . , n)
!1
n r
1
µ (r) = ∑ vrj
n j=1
5.84

6.1 La media aritmetica (r = 1)


Definizione 25.
1 k k
µ (1) = µ = M(X) = ∑ xi ni = ∑ xi fi .
n i=1 i=1

Osservazione
È inessenziale la positività delle xi .
Esempio 26. M(X) è il valore centrale di una successione aritmetica con un numero
dispari di termini, ad esempio
1, 2, 3, 4, 5
si osservi che in questo caso ciascuna modalità figura una sola volta, ovvero k = n = 5 e
n1 = n2 = . . . = nk = 1, quindi:

1 k 1
µ = M(X) = ∑ xi ni = 5 (1 + 2 + 3 + 4 + 5) = 3.
n i=1
5.85

83
Esempio 27. Avendo riclassificato i dati 2, 2.5, 1, 2.5, 2, 10, 2.5, 2, 2, 1 nella serie statistica

xi ni
1 2
2 4
(1)
2.5 3
10 1
10

si può procedere al calcolo della media aritmetica


xi ni xi ni
1 2 2
2 4 8
2.5 3 7.5
10 1 10
10 27.5

1 k 1
µ = M(X) = ∑ xi ni = 10 27.5 = 2.75.
n i=1
5.86
Osservazione
Nel caso di una seriazione statistica i valori xi sono i valori centrali delle classi
hi−1 ⊣ hi ni xi ni
0.25 ⊣ 1.75 2 1 2
1.75 ⊣ 2.25 4 2 4
→ M(X) = 2.75
2.25 ⊣ 2.75 3 2.5 3
2.75 ⊣ 17.25 1 10 1
10 10
5.87

Esercizio 28. Si supponga che il valore di ciascuna unità statistica aumenti di 1 unità;
si ricalcoli il valore della media aritmetica; si ripeta l’esercizio nel caso in cui i valori
raddoppino.
5.88

Osservazione
La media potenziata di ordine r può essere riscritta nel seguente modo
" #1
r
1 k r 1
µ (r) = ∑ xi ni = [M (X r )] r
n i=1

Radice r-esima della media aritmetica dei valori di X elevati a r. 5.89

6.2 La media armonica (r = −1)


Definizione 29.
−1 1 1
µ (−1) = M X −1

= 1
= 1
M X n ∑ki=1 x1i ni

Osservazioni
La presenza di valori xi = 0 toglie significato all’espressione;
Inoltre, valori xi positivi e negativi potrebbero rendere il denominatore nullo.
5.90

84
Esempio 30. µ (−1) è il valore centrale di una successione armonica con un numero dispari
di termini, ad esempio
1 1 1 1
1, , , ,
2 3 4 5
anche in questo caso siamo in presenza di valori singoli e, quindi, ciascuna modalità figura
una sola volta: k = n = 5 e n1 = n2 = . . . = nk = 1
1 1 1
µ (−1) = 1
= 1
=
n ∑ki=1 x1i ni 5 (1 + 2 + 3 + 4 + 5)
3
5.91
Esempio 31. Avendo riclassificato i dati 2, 2.5, 1, 2.5, 2, 10, 2.5, 2, 2, 1 in serie statistica è
possibile procedere al calcolo della media armonica
ni
xi ni xi
1 2 2
2 4 2
2.5 3 1.2
10 1 0.1
10 5.3
1 1 1
µ (−1) = 1
= 1
= = 1.8868
n ∑ki=1 x1i ni 10 5.3
0.53
5.92

6.3 La media quadratica (r = 2)


Definizione 32. v
u k
1
q u1
µ (2) = M X 2 2 = M (X 2 ) = t ∑ xi2 ni
 
n i=1

Osservazione
Si osserva come la non negatività delle xi risulti essere essenziale, anche se da un punto
di vista matematico potrebbe sembrare non esserlo.
In presenza di dati negativi non verrebbe, infatti, soddisfatta la condizione di moltiplicati-
vità delle medie in senso stretto, come può essere verificato confrontando i valori assunti
da µ (2) in corrispondenza delle variabili statistiche X = {−1, 0, 1, 2} e Y = {1, 0, −1, −2},
per le quali vale la relazione Y = −X, ma µ (2) (X) = µ (2) (Y ) = 1.2247.
5.93
Esempio 33. Con riferimento alla precedente serie statistica abbiamo
xi ni xi2 ni
1 2 2
2 4 16
2.5 3 18.75
10 1 100
10 136.75
v
u k r
u1 1
(2) 2
µ = t
∑ xi ni = 10 136.75 = 3.698
n i=1

Osservazione
Vale l’ordinamento:
xmin < µ (−1) = 1.8868 < µ (1) = 2.75 < µ (2) = 3.698 < xmax
5.94

85
6.4 Il Teorema fondamentale sulle medie potenziate
Teorema 34. La funzione
!1
k r

µ (r) = ∑ xir fi (r = ±1, ±2, . . .)


i=1

con xi positivi (ordinati) e distinti


1. è monotona in senso stretto;
2. ha come asintoti
lim µ (r) = x1 lim µ (r) = xk .
r→−∞ r→+∞

3. Ogni µ (r) è una media in senso stretto


4. La media geometrica (r = 0) è definita come
s !1
k k n k
lim µ (r)
= n
∏ xini = ∏ xini = ∏ xifi = µ (0) .
r→0 i=1 i=1 i=1
5.95

Esempio 35. Si riporta l’andamento della funzione µ (r) con riferimento alla seguente
serie statistica
5

µ(r)
xmax
4

xi ni
3

1 7 µ(2)
(1)
2 3 µ
3 3 µ(0)
4 7
2

(−1)
µ
20
1

xmin
0

−20 −10 0 10 20

5.96

86
Definizione 36. Si definisce variabile statistica degenere una variabile statistica caratte-
rizzata da valori tutti eguali fra loro: xi = c, ∀i (una sola modalità).
Per tale variabile statistica, in base alla proprietà di Cauchy,

µ (r) = c

per qualsiasi valore dell’ordine r.

Osservazione
Per r = 0 la media non è definita (forma indeterminata 1∞ );
µ (0) è ottenuta con un’operazione di limite

µ (0) = lim µ (r)


r→0

5.97

6.5 La media geometrica (r = 0)


Definizione 37.
k
µ (0) = ∏ xifi
i=1

Osservazione
La presenza di valori xi negativi potrebbe togliere significato all’espressione.
5.98
Esempio 38. Con riferimento alla precedente serie statistica abbiamo

xi ni fi xifi
1 2 0.2 1
2 4 0.4 1.3195
2.5 3 0.3 1.3164
10 1 0.1 1.2589
10 1 prodotto
k
µ (0) = ∏ xifi = 2.1867
i=1
5.99
Esempio 39. Si calcolano media armonica, geometrica, aritmetica e quadratica della
seguente variabile statistica
classi xi ni
7.5 ⊣ 9.5 8.5 40
9.5 ⊣ 11.5 10.5 25
11.5 ⊣ 15.5 13.5 120
15.5 ⊣ 21.5 18.5 145
330

µ(−1) µ(0) µ(1) µ(2)


13.8577 14.3826 14.8636 15.2894

media media media media


armonica geometrica aritmetica quadratica

5.100

87
Riepilogo

Tipologia carattere
qualitativo qualitativo quantitativo
Indice sconnesso ordinato
moda ✓ ✓ ✓
percentili ✓ ✓
media aritmetica ✓
media geometrica ✓
media armonica ✓
media quadratica ✓
medie potenziate ✓
minimo ✓ ✓
massimo ✓ ✓

Si osserva il carattere generale di applicazione dei percentili: attraverso il grafico Box &
Whiskers plot abbiamo un’efficace descrizione di caratteri di tipo quantitativo.
Nel seguito:
• considereremo alcune proprietà della media aritmetica
• descriveremo alcuni criteri che ci possono supportare nella scelta della media più
adeguata per riassumere un carattere quantitativo.
5.101

7 Esercizi
Esercizio 40. Con riferimento alla variabile statistica
xi ni
1 2
2 4−θ
3 2
4 θ
5 2
10
1. indicare quali valori può assumere il parametro θ
2. si calcolino poi al variare di θ i valori della media armonica, geometrica, aritmetica
e quadratica, della moda e della mediana
3. si commentino i risultati ottenuti con riferimento al Teorema sulle medie potenziate.
5.102

Esercizio 41. Si riportano i redditi di 5 soggetti (valori in migliaia di e)

soggetto 1 2 3 4 5
reddito 15 22 25 28 35

1. Si calcoli la media aritmetica dei redditi.


2. Si calcoli la media aritmetica dei redditi nell’ipotesi che ciascun reddito raddoppi.
3. Si calcoli la media aritmetica dei redditi nell’ipotesi che ciascun reddito aumenti di
5000e.
5.103

88
Esercizio 42 (T 221, 08.09.2005, 1). Nel prospetto seguente sono riportate, con riferi-
mento ai redditi di n soggetti (variabile X), le classi di rilevazione e le rispettive densità
di frequenza.
hi−1 ⊣ hi di
10 ⊣ 15 4
15 ⊣ 20 4
20 ⊣ 39 3
1. Si ricostruiscano le distribuzioni delle frequenze assolute e cumulate della variabile
X e si dia una opportuna rappresentazione grafica di X e della sua funzione di
ripartizione F(x).
2. Si calcoli la media e si identifichino su un grafico i quartili di X.
5.104

Esercizio 43. Si dia una rappresentazione grafica e si calcoli il valore della media armo-
nica della seriazione statistica
hi−1 ⊣ hi ni
1⊣3 1
3⊣6 9
6 ⊣ 10 10
10 ⊣ 20 20
5.105

Esercizio 44 (T 224, 02.02.2006, 2). Determinare i valori di x1 ed n1 in modo che nella


seguente tabella risulti µ (−∞) = 10 e µ (1) = 20
xi ni
x1 n1
30 30
5.106

Esercizio 45. Indicare se le seguenti medie potenziate

µ (0) = 6.3, µ = 4.3, µ (2) = 4.3

sono compatibili con la seguente serie statistica


(della quale sono note solo alcune informazioni)
xi ni
2.5 20
4 22
.. ..
. .
16 10
5.107

Esercizio 46. Indicare se le seguenti medie potenziate

µ (−1) = 5, µ = 14, µ (2) = 13

sono compatibili con la seguente serie statistica


(della quale sono note solo alcune informazioni)
xi ni
11 2
12 2
14 2
.. ..
. .

89
5.108

Esercizio 47 (T 165, 30.09.1998, 3). Sia X una variabile statistica simmetrica rispetto al
valore 85:
xi ni
10 10
x2 n2
2x2 − 10 n3
x4 10
1. Supponendo n = 100, si ricavi la distribuzione delle frequenze cumulate e se ne dia
rappresentazione grafica.
5.109

Esercizio 48 (P 001, 10.03.1995, 2). Dire, motivando la risposta, se µ (39) , ovvero la


media potenziata di ordine 39, può assumere il valore 39, con riferimento alla seguente
v.s. X
xi 4 12 20 28 36
ni 39 39 39 39 39
Calcolare la media geometrica di X e indicare l’intervallo di valori reali entro il quale può
presentarsi la media armonica.
5.110

Esercizio 49. Si calcoli la media aritmetica della seguente variabile statistica X


xi fi
2 0.2
4 0.5
5 0.3
5.111

Esercizio 50. Dimostrare che con riferimento alla media geometrica di una variabile
statistica X vale
k
µ (0) = ∏ xifi = eM[ln(X)] .
i=1
5.112

8 La media aritmetica è sempre media in senso stretto


La definizione di media aritmetica si estende anche a v.s. generiche (xi sia positivi che
negativi) mantenendo le proprietà di media in senso stretto
1. (Cauchy)
Posto
x(1) = min xi = x1
i
x(n) = max xi = xk
i

abbiamo
x1 ≤ xi ≤ xk
moltiplicando tutti i termini della diseguaglianza per la costante non negativa fi il
verso della diseguaglianza non cambia

x1 fi ≤ xi fi ≤ xk fi

90
la diseguaglianza vale per tutti i valori di X, possiamo quindi sommare rispetto
all’indice i e il verso della diseguaglianza non cambia
k k k
∑ x1 fi ≤ ∑ xi fi ≤ ∑ xk fi
i=1 i=1 i=1

x1 e xk sono delle costanti, non dipendono dall’indice i e possono essere portate


fuori dalle sommatorie
k k k
x1 ∑ fi ≤ ∑ xi fi ≤ xk ∑ fi
i=1 i=1 i=1

la somma delle frequenze relative fi vale 1, quindi


k
x1 ≤ ∑ xi fi ≤ xk
i=1

vale a dire
x1 ≤ µ ≤ xk .
5.113

2. (moltiplicatività)
Si ricorda che
Y = cX ↔ yi = cxi .
La media di Y risulta
k
M(Y ) = ∑ yi fi ,
i=1
sostituendo cxi a yi abbiamo
k
M(Y ) = ∑ cxi fi .
i=1

c è una costante moltiplicativa che può essere portata fuori dalla sommatoria, quindi
k
M(Y ) = c ∑ xi fi = cM(X)
i=1

ricordando che ∑ki=1 xi fi = M(X).


3. (monotonicità)
Si ricorda che

Y ≥X ↔ yi ≥ xi , i.e. yi = xi + δi (δi ≥ 0).

La media di Y risulta
k
M(Y ) = ∑ yi fi ,
i=1
sostituendo xi + δi a yi abbiamo
k
M(Y ) = ∑ (xi + δi ) fi .
i=1

Possiamo sviluppare il prodotto (xi + δi ) fi


k
M(Y ) = ∑ (xi fi + δi fi )
i=1

91
e scomporre la sommatoria nella somma di due sommatorie
k k k
M(Y ) = ∑ xi fi + ∑ δi fi ≥ ∑ xi fi = M(X).
i=1 i=1 i=1

La diseguaglianza finale vale in quanto ∑ki=1 δi fi ≥ 0 in base alla proprietà di Cau-


chy applicata alla variabile statistica {(δi , ni ), i = 1, 2, . . . , k}.
5.114

9 L’operatore media aritmetica


Definizione 51 (Operatore media aritmetica). Si definisce operatore media aritmetica,
indicato con M(X), la funzione che assegna a ogni variabile statistica X la sua media
aritmetica
1 k k
µ = ∑ xi ni = ∑ xi fi = M(X).
n i=1 i=1
5.115
Nella letteratura anglosassone l’operatore media aritmetica

M(X)

viene indicato con


E(X)
(expected value). 5.116

10 Interpretazione fisica della media aritmetica


’centro di gravità’ o ’punto di equilibrio’ delle frequenze
f2

f3

f1 f4

x1 x2 x3 x4
µ

xi − µ = braccio fi = peso o forza


Si ricorda che il ’centro di massa’ di un corpo esteso, costituito da k oggetti posti lun-
go una linea in posizione x1 , x2 , . . . , xk , ciascuno dei quali è caratterizzato da una massa
f1 , f2 , . . . , fk , è dato da ∑ki=1 xi fi che corrisponde alla media aritmetica degli xi . Il centro di
massa (µ) è anche interpretabile come centro di gravità o punto di equilibrio delle masse

92
fi . Si considerano, infatti, le fi come pesi, o forze, agenti sui punti xi , secondo un braccio
pari a xi − µ. Ora, dal momento che
k k k k k
∑ (xi − µ) fi = ∑ (xi fi − µ fi ) = ∑ xi fi − ∑ µ fi = µ − µ ∑ fi = µ − µ = 0
i=1 i=1 i=1 i=1 i=1

µ costituisce il punto di equilibrio del sistema di frequenze fi . 5.117

11 Media aritmetica di una trasformazione lineare


Teorema 52. Se
Y = aX + b
con a, b ∈ ℜ, e, quindi, yi = axi + b, allora

M(Y ) = aM(X) + b.

Dimostrazione.
k k k
M(Y ) = ∑ yi fi = ∑ (axi + b) fi = ∑ (axi fi + b fi )
i=1 i=1 i=1
k k k k
= ∑ axi fi + ∑ b fi = a ∑ xi fi + b ∑ fi
i=1 i=1 i=1 i=1
= aM(X) + b.
5.118

Osservazione
Il teorema precedente afferma che l’operatore media aritmetica M(X) è un operatore
lineare
M(aX + b) = aM(X) + b.

Osservazione
In particolare

M(b) = M(costante) = b
dal momento che X = b è una variabile statistica degenere.

M(aX) = a M(X)
in quanto la media aritmetica è media in senso stretto.
5.119

Definizione 53 (Variabile scarto da un generico valore c).

Y = X − c.

Proprietà
M(Y ) = M(X − c) = M(X) − M(c) = M(X) − c.

Definizione 54 (Variabile scarto dalla media). Si ponga nella definizione precedente c =


µ
Y = X − µX , µX = M(X).

93
Proprietà
M(Y ) = M(X − µX ) = M(X) − M(X) = 0.
5.120
Segue che anche la somma degli scarti dalla media è nulla
k k
∑ (xi − µX )ni = ∑ (xi ni − µX ni ) =
i=1 i=1
k k
= ∑ xi ni − ∑ µX ni =
i=1 i=1
k k
1
= n· ∑ xi ni − µX ∑ ni = nM(X) − nM(X) = 0.
n i=1 i=1
5.121

12 I momenti
Definizione 55 (Momenti di ordine s ≥ 1 da un generico valore c).
k
M [(X − c)s ] = ∑ (xi − c)s fi .
i=1

Definizione 56 (Momenti di ordine s ≥ 1 dalla media, detti anche Momenti centrali).


k
M [(X − µX )s ] = ∑ (xi − µX )s fi .
i=1

Utilizzeremo, nel seguito:


h i
• M (X − µX )2 misura della variabilità di una distribuzione,
h i
• M (X − µX )3 misura di asimmetria di una distribuzione,
h i
• M (X − µX )4 misura di curtosi di una distribuzione.
5.122

Definizione 57 (Momenti di ordine s ≥ 1 dall’origine, c = 0).


k
M (X s ) = ∑ xis fi .
i=1

Abbiamo, in particolare, già visto che

µ (r) = [M (X r )]1/r .
5.123

94
Sezione 6
Indici di posizione (2)
6.1

Indice
1 Il problema della scelta della media 95

2 Media obiettivo secondo Chisini 96

3 Alcuni esempi di applicazione del criterio di scelta della media secondo Chi-
sini 96

4 Scelta della media per minimizzazione del danno 100

5 Proprietà associativa della media aritmetica 104

6 Esercizi 106

7 Riassunto delle proprietà di alcuni indici di posizione 107 6.2

1 Il problema della scelta della media


Si ricorda che lo studio di un fenomeno comporta, in genere, le seguenti fasi preliminari:
1. individuazione del carattere indicatore (proxy)
2. ricerca di opportuni indici sintetici

α(X) = α(x1 , . . . , xk ; n1 , . . . , nk ) = α(v1 , v2 , . . . , vn )


• funzione dei dati
• ma . . . quale forma funzionale ??

Criteri
• media obiettivo
• minimizzazione danno

Chisini (1929)
La ricerca della media ha lo scopo di semplificare una data questione, sostituendo a due
o più quantità date una quantità sola, atta a sintetizzarle senza variare la visione del
fenomeno in esame. 6.3

95
2 Media obiettivo secondo Chisini
Definizione 1 (Media Obiettivo secondo Chisini). Si consideri una v.s. X sulla quale è
definita una particolare funzione φ (·) dei dati che fornisce un valore globale λ
φ (X) = φ (x1 , . . . , xk ; n1 , . . . , nk ) = λ
la media α deve soddisfare anch’essa il vincolo globale
φ (α) = φ (α, . . . , α; n1 , . . . , nk ) = λ
la media obiettivo o secondo Chisini è la soluzione dell’equazione
φ (x1 , . . . , xk ; n1 , . . . , nk ) = φ (α, . . . , α; n1 , . . . , nk )
(non è garantito che α = α(X) sia una media in senso stretto)
6.4

3 Alcuni esempi di applicazione del criterio di scelta


della media secondo Chisini
Esempio 2. La quantità totale di 26 gettoni è stata ripartita tra 10 soggetti nel modo
seguente:
7 soggetti possiedono 2 gettoni
2 soggetti possiedono 3 gettoni
1 soggetto possiede 6 gettoni

Problema Determinare la quantità media da assegnare a ciascun soggetto in modo da


realizzare una ripartizione egalitaria del totale
xi ni xi ni
2 7 14
3 2 6
6 1 6
10 26
6.5
Soluzione Si può considerare come valore globale il totale assegnato λ = T ; quindi
k
φ (x1 , . . . , xk ; n1 , . . . , nk ) = ∑ xi ni = T
i=1
k
φ (α, . . . , α; n1 , . . . , nk ) = ∑ αni = T
i=1

k k
∑ xi ni = ∑ αni
i=1 i=1
k k
∑ αni = ∑ xi ni
i=1 i=1
k k
α ∑ ni = ∑ xi ni
i=1 i=1
k
αn = ∑ xi ni
i=1

96
da cui
1 k
α= ∑ xi ni
n i=1
la media α corrisponde alla media aritmetica delle xi . 6.6

Proprietà
La media aritmetica è la quantità che sostituita alle modalità di una variabile statistica ne
lascia invariato il totale.
(criterio adatto alla maggior parte dei fenomeni naturali) 6.7

Esempio 3. Un investitore deposita al tempo 0 un capitale C0 presso un istituto di cre-


dito; la durata dell’investimento è pari a 5 anni; i tassi di interesse, definiti in regime di
capitalizzazione composta, concordati nei diversi periodi sono:
1◦ periodo 3% i1 = 0.03 u1 = 1.03
2◦ periodo 5% i2 = 0.05 u2 = 1.05
3◦ periodo 3% i3 = 0.03 u3 = 1.03
4◦ periodo 5% i4 = 0.05 u4 = 1.05
5◦ periodo 2% i5 = 0.02 u5 = 1.02
dove u j è il montante unitario riferito al periodo j.

Problema Determinare il tasso di interesse medio corrisposto dall’istituto di credito nei


5 anni. 6.8
Soluzione Si deve trovare il tasso di interesse medio ī = αI (i1 , . . . , i5 ), o equivalentemente
il montante unitario medio
ū = αU (u1 , . . . , u5 ),
che consente, partendo dalla somma iniziale C0 , di riprodurre il capitale finale C5 .
Ricordiamo che per j = 1, 2, . . . , 5 abbiamo C j = C j−1 + I j , dove I j = C j−1 · i j è la somma
corrisposta a titolo d’interesse alla fine del periodo j-esimo.
Alla fine dei periodi:
C1 = C0 + I1 = C0 · u1
C2 = C1 + I2 = C1 · u2 = C0 · u1 · u2
..
.
C5 = C0 · u1 · u2 · u3 · u4 · u5 = C0 ∏5j=1 u j 6.9

C0 · u1 · u2 · u3 · u4 · u5 = C5
In base al criterio di scelta secondo Chisini dobbiamo individuare il montante unitario
medio ū tale che
C0 · ū · ū · ū · ū · ū = C0 ū5 = C5
ovvero
u1 · u2 · u3 · u4 · u5 = ū · ū · ū · ū · ū = ū5
da cui v !1
u 5 5 5 5 1
u
5
ū = t ∏ uj = ∏ uj = ∏ u j5
j=1 j=1 j=1

che corrisponde alla media geometrica dei montanti unitari, riferiti ai tassi di interesse i j .
Nel caso in esame
ū = 1.0359

97
da cui
ī = ū − 1 = 1.0359 − 1 = 0.0359 = 3.59%.
6.10

Proprietà
La media geometrica è la quantità che sostituita alle modalità di una variabile statistica ne
lascia invariato il prodotto.
6.11
Esempio 4 (Portafoglio titoli). Un risparmiatore acquista un portafoglio composto da
2000e in BTP, 5000e in azioni e 3000e in obbligazioni e, tempo dopo, dismette il ca-
pitale investito, ottenendo i seguenti rendimenti: BTP: 3.8%, azioni: −1%, obbligazioni
3.5%
Btp Azioni Obbligazioni
Ci = quantità 2000 5000 3000
xi = rendimenti 3.8% -1% 3.5%

Problema Determinare il tasso di rendimento medio, α(x1 , x2 , x3 ), espresso in funzione


dei rendimenti parziali xi , considerando come ’quantità invariante’ equivalentemente:
1. il montante complessivo (M)
2. il guadagno complessivo (G)
6.12
Soluzione Si indichino con Mi i montanti e con Gi i guadagni, i = 1, 2, 3 dei tre investi-
menti.
1.
3 3 3 3 3 3 3
M = ∑ Mi = ∑ Ci (1+xi ) = ∑ Ci (1+α) ovvero ∑ Ci + ∑ Ci xi = ∑ Ci + ∑ Ci α
i=1 i=1 i=1 i=1 i=1 i=1 i=1

2.
3 3 3
G = ∑ Gi = ∑ Ci xi = ∑ Ci α
i=1 i=1 i=1

da cui, risolvendo rispetto ad α, si ottiene:

∑3i=1 Ci xi 131
α= 3
= = 0.0131 = 1.31%.
∑i=1 Ci 10000

La media trovata α corrisponde alla media aritmetica dei tassi di interesse xi ponderati
rispetto ai capitali investiti Ci . 6.13

Esempio 5. Un automobilista percorre 100km e rileva le seguenti velocità:


sulla prima tratta di 50km mantiene una velocità costante di 80km/h
sulla seconda tratta di 40km una velocità costante di 120km/h
sulla terza tratta di 10km una velocità costante di 40km/h

Problema determinare la velocità media di percorrenza dei 100km

vi si
40 10
80 50
120 40
100

98
6.14
Soluzione si può considerare come carattere invariante il tempo totale T impiegato per
compiere l’intero tragitto.
E’ possibile determinare il tempo di percorrenza della singola tratta in funzione della
relazione, V = TS , intercorrente tra velocità, spazio e tempo:

S
T= ;
V
con riferimento alla singola tratta risulta:
si
ti =
vi
Ne consegue un tempo totale di percorrenza pari a:
s1 s2 s3
T = t1 + t2 + t3 = + +
v1 v2 v3
Se si indica con α la velocità media è possibile riscrivere la relazione che ’garantisce’ il
rispetto del tempo totale di percorrenza
s1 s2 s3
T= + + .
α α α
6.15
L’equazione conseguente, che consente di trovare l’espressione per α, è la seguente:
s1 s2 s3 s1 s2 s3
+ + = + +
v1 v2 v3 α α α
s1 s2 s3 s1 s2 s3
+ + = + +
α α α v1 v2 v3
1 s1 s2 s3
(s1 + s2 + s3 ) = + +
α v1 v2 v3
 
1 1 s1 s2 s3
= + +
α s1 + s2 + s3 v1 v2 v3
 −1   −1
1 1 s1 s2 s3
= + +
α s1 + s2 + s3 v1 v2 v3
1
α=  
1
s1 +s2 +s3
s1
v1 + vs22 + vs33
6.16
La media trovata corrisponde alla media armonica delle velocità utilizzando ’come fre-
quenze’ le lunghezze si delle diverse tratte

vi si ti = vsii
40 10 0.2500
80 50 0.6250
120 40 0.3333
100 1.2083

1 1
α= 1
= 1
= 82.761
100 1.2083 100 1.2083
6.17

99
4 Scelta della media per minimizzazione del danno
Definizione 6. Data la variabile statistica X si cerca l’indice di posizione

α = α(x1 , . . . , xk ; n1 , . . . , nk ) = α(X)

tale da minimizzare la sua distanza complessiva dai dati (perdita di informazione) misu-
rata attraverso gli scarti
ei = xi − α
come
1 k
D= ∑ d(ei )ni
n i=1
dove d(·) è un’opportuna funzione di distanza che quantifica il danno (perdita di informa-
zione) ei = xi − α in corrispondenza della generica unità statistica
6.18

Teorema 7 (Funzione di perdita valore assoluto).



e se e ≥ 0
d(e) = |e| =
−e se e < 0
3.0
2.5
2.0
|e|
1.5
1.0
0.5
0.0

−3 −2 −1 0 1 2 3

1 k
D= ∑ |xi − α|ni
n i=1
D = min ↔ α = x0.5 (mediana)
In questo caso il danno è proporzionale rispetto all’errore. 6.19
Si riportano due dimostrazioni del risultato.
Dimostrazione. Con riferimento ai dati v j ordinati, ovvero v( j) , D = 1n ∑nj=1 |v j − α|.
Consideriamo v(1) e v(n)

v(1) v(n)
α
 
ogni punto interno al segmento v(1) , v(n) è a distanza minima dagli estremi
(si pensi ai punti esterni)

v(1) v(n)

100
 
lo stesso può dirsi per v(2) , v(n−1)
. . . e così via
Pertanto:
• se n è dispari → α = v( n+1 )
2
• se n è pari → v( n ) ≤ α ≤ v( n +1)
2 2
(va bene ogni punto del segmento)

In particolare:
v( n ) + v( n +1)
2 2
x0.5 =
2

6.20
Dimostrazione. Si considerino 9 punti distinti su una retta
6.21

a b c d e f gh i

Dobbiamo cercare il punto che minimizza la media o, equivalentemente, la somma delle


distanze da tutti i 9 punti

Consideriamo un punto α compreso tra a e b


La somma delle distanze è data dalla somma dei 9 segmenti in figura
α
a b c d e f gh i

Se consideriamo un punto α compreso tra b e c la somma delle distanze si riduce:


a e b sono più lontani dal nuovo punto, ma questo è più vicino agli altri 7 punti
α
a b c d e f gh i

Possiamo ulteriormente ridurre la somma delle distanze spostando α verso destra


α
a b c d e f gh i

101
La somma delle distanze risulta minima se α coincide con e.
Infatti spostandosi ancora a destra la distanza si ridurrebbe per f , g, h, i, ma aumenterebbe
per a, b, c, d ed e
α
a b c d e f gh i

e rappresenta il punto mediano.


6.22
6.23
Teorema 8 (Funzione di distanza quadratica).
6.24
2 6.25
d(e) = e
6.26
8
6
e2

4
2
0

−3 −2 −1 0 1 2 3

1 k
D= ∑ (xi − α)2 ni
n i=1
D = min ↔ α = µ (media aritmetica)

In questo caso il danno è più che proporzionale rispetto all’errore. 6.27


Si riportano due dimostrazioni del risultato
Dimostrazione. Riscriviamo la funzione da minimizzare utilizzando l’operatore media
aritmetica
1 k
D = ∑ (xi − α)2 ni = M (X − α)2 .
 
n i=1
Sommando e togliendo µ si ottiene

D = M (X − µ + µ − α)2 .
 

Si sviluppa ora il quadrato del binomio con termini (X − µ) e (µ − α)


n o
D = M [(X − µ) + (µ − α)]2
= M (X − µ)2 + (µ − α)2 + 2(X − µ)(µ − α) .
 

Tenendo conto che l’operatore media aritmetica è lineare otteniamo

D = M (X − µ)2 + M (µ − α)2 + 2M[(X − µ)(µ − α)].


   

102
L’espressione (µ − α) è una costante; quindi M (µ − α)2 = (µ − α)2 nel secondo
 

addendo e nel terzo addendo (µ − α) può essere portata fuori dall’operatore media

D = M (X − µ)2 + (µ − α)2 + (µ − α)2M[(X − µ)].


 

Tenendo conto che la variabile scarto dalla media (X − µ) è caratterizzata da media nulla,
M[(X − µ)] = 0, il terzo addendo risulta nullo, quindi

D = M (X − µ)2 + (µ − α)2 .
 

L’espressione risulta minima se

α = µ = µ (1) = M(X).
6.28

Dimostrazione. Riscriviamo, anche per questa dimostrazione, la funzione da minimizzare


utilizzando l’operatore media aritmetica

1 k
(xi − α)2 ni = M (X − α)2 .
 
D= ∑
n i=1

Poniamo uguale a 0 la derivata della funzione obiettivo

d M (X − α)2
 
= 0.

Dal momento che la media è un operatore lineare possiamo scambiare l’ordine dell’ope-
ratore derivata e dell’operatore media

d (X − α)2
 
M = 0.

Ricordando la formula della derivata di una funzione composta otteniamo

M [2(X − α)(−1)] = 0.

I termini 2 e (−1) sono costanti moltiplicative e possono essere portati fuori dall’operatore
media
−2M(X − α) = 0.
Ricordando che la media è un operatore lineare otteniamo

M(X) − M(α) = 0

α è una costante, quindi M(α) = α

M(X) − α = 0

In conclusione:
α = µ = µ (1) = M(X).
6.29
Per verificare che effettivamente si tratta di un punto di minimo possiamo controllare il
segno della derivata seconda della funzione da minimizzare in corrispondenza del punto
estremante α = µ

d 2 M (X − α)2
   2
d (X − α)2
  
d [−2(X − α)]
= M = M = M(+2) = +2.
dα 2 dα 2 dα
La funzione è convessa e il punto estremante è di minimo. 6.30

103
5 Proprietà associativa della media aritmetica
Consente di esprimere la media generale come media delle medie parziali.
Si considerino i dati elementari
v1 , v2 , . . . , vn
riuniti in h gruppi

1 2 ... h

n1 n2 ... nh

µ1 µ2 ... µh

Il singolo valore viene ora indicato con xi j : j-esima osservazione ( j = 1, 2, . . . , ni ) nel


gruppo i (i = 1, 2, . . . , h).
Osservazioni
Gli h gruppi definiscono una partizione delle n unità statistiche.
Il raggruppamento in tabelle è uno dei possibili.
6.31

Definizione 9 (Proprietà associativa della media aritmetica). Sia data una popolazione
suddivisa in h gruppi e sia
1 ni
µi = ∑ xi j
ni j=1
la media del gruppo i-esimo.
La media generale (calcolata su tutte le unità statistiche)

1 h ni
µ= ∑ ∑ xi j
n i=1 j=1

può essere riespressa come


ni
1 h ni
µ= ∑ ni ∑ xi j =
n i=1 j=1
!
ni
1 h 1 1 h
= ∑ ni ∑ xi j = ∑ µi ni
n i=1 ni j=1 n i=1
6.32
vale a dire
1 h h
µ= ∑ µi ni = ∑ µi fi .
n i=1 i=1
6.33

104
Esempio 10. Si consideri la seguente popolazione di 10 unità statistiche raggruppate in 3
gruppi
1 2 3
4 5 4 6 6
6 7 6 8 8

Si calcolano in primo luogo le medie per i tre gruppi



1
µ1 = (4 + 5 + 6 + 7) = 5.5
4

1
µ2 = (4 + 6 + 6 + 8) = 6
4

1
µ3 = (6 + 8) = 7
2 6.34
È possibile ricostruire la variabile statistica medie di gruppo
i µi ni
1 5.5 4
2 6 4
3 7 2
10
le cui modalità sono le medie di gruppo, con associate come frequenze le rispettive
numerosità di gruppo.
La media di tale variabile statistica risulta
µi ni µi ni
5.5 4 22
6 4 24
7 2 14
10 60

1 3 1
µ= ∑ µi ni = 60 = 6
n i=1 10
e coincide con la media generale calcolata su tutte le unità statistiche. 6.35
Infatti:
1
µ = (4 + 5 + 6 + 7 + 4 + 6 + 6 + 8 + 6 + 8) = 6
10
ovvero

xi ni xi ni xi ni
4 2 4 2 8
5 1 5 1 5
6 4 6 4 24
7 1 7 1 7
8 2 8 2 16
10 10 60
1 5 1
µ =6 µ= ∑ xi ni = 10 60 = 6
distribuzione n i=1
simmetrica
6.36

105
Esempio 11. Siano
µ1 il voto medio delle n1 femmine
µ2 il voto medio degli n2 maschi
µ1 n1 + µ2 n2
µ= = voto medio della classe
n1 + n2
Esempio 12. Dai dati di produzione media giornaliera alla media mensile o trimestrale
(NB solo se le medie parziali sono aritmetiche!!)
6.37

Osservazione
Si consideri la formula della media aritmetica

1 h
µ= ∑ µi ni .
n i=1

Indicato con
ti = µi ni
il totale parziale; allora
1 h T
µ= ∑ ti = n
n i=1
dove T è il totale generale, che associa quindi i totali parziali
6.38

6 Esercizi
Esercizio 13. Definita una partizione degli abitanti di una regione in due gruppi, indicati
nel seguito con 1 e 2, si sono costruiti i seguenti prospetti relativi alla distribuzione dei
redditi in ciascun gruppo.
Gruppo 1 Gruppo 2
Ri ni Ri ni fi
10 ⊣ 15 1800 10 ⊣ 15 0.15
15 ⊣ 30 1500 15 ⊣ 30 0.25
30 ⊣ 50 2700 30 ⊣ 50 0.60
1. Sapendo che il reddito medio di tutti gli abitanti della regione è 30, si determini, per
il gruppo 2, il numero ni di soggetti appartenenti a ciascuna delle classi di reddito.
6.39

Esercizio 14 (T 216, 04.02.2005, 1). Con riferimento al numero dei componenti del-
le 50.000 famiglie di una certa regione si sono calcolati i seguenti indici di posizione:
m.geometrica = 2.7; m.quadratica = 3.8.
1. Definire un intervallo di valori che contenga il numero di abitanti della regione.
6.40

106
7 Riassunto delle proprietà di alcuni indici di posizione
(se non specificato, per media si intende quella aritmetica)
mediana
• media in senso stretto
• operatore lineare
• minimizza la somma degli scarti assoluti

media
• media in senso stretto
• operatore lineare
• annulla la somma degli scarti relativi
• minimizza la somma degli scarti quadratici
• lascia invariato il totale
6.41

media geometrica
• media in senso stretto
• lascia
 invariato
 il prodotto
• ln µ (0) = M [ln(X)]
6.42
Osservazione
La mediana è un indicatore robusto in quanto risente meno, rispetto alla media, dei valori
anomali

X 0 1 2 3 4

Y 0 1 2 3 9

x0.5 = 2 = y0.5 ma M(X) = 2 < M(Y ) = 3

Osservazione
Si ribadisce il carattere generale di applicazione dei percentili: sono indicatori robusti e
attraverso il grafico Box & Whiskers plot abbiamo una descrizione quasi completa dei
caratteri di tipo quantitativo.
6.43

107
Sezione 7
Variabilità (1)
7.1

Indice
1 Indici di variabilità 109

2 La variabilità per i caratteri qualitativi 110

3 Le situazioni estreme 111


3.1 La situazione di assenza di eterogeneità . . . . . . . . . . . . . . . . . . 111
3.2 La situazione di massima eterogeneità . . . . . . . . . . . . . . . . . . . 111

4 L’indice di eterogeneità di Gini 112

5 Gli indici normalizzati 113

6 L’indice di Frosini normalizzato 116

7 Utilizzo congiunto della Moda e dell’indice di eterogeneità 118

8 Esercizi 119

9 Libero Mercato, Monopolio e Oligopolio 119 7.2

1 Indici di variabilità
• indice sintetico di posizione è utile per alcuni confronti
• appare tuttavia insufficiente
• sintesi troppo spinta fa perdere informazioni
→ POSIZIONE + VARIABILITÀ
• interessano anche indicatori della molteplicità e della diversità dei valori di un
carattere
v1 , v2 , . . . , vn
?
è più costante l’impegno degli studenti maschi o quello delle femmine
?
c’è più sperequazione economica in Piemonte o in Lombardia
?
7.3

109
è più variabile (disperso) X oppure Y ?

X 4 7 10 15 18 20

Y 0 234 78

7.4

Esempio 1. Si considerino le votazioni riportate da due studenti in 25 esami

xi ni
18 12 yi ni
24 1 24 25
30 12 25
25

• Come vengono qualificati i due studenti utilizzando solo una misura di posizione
(media, mediana)?
• Possiamo ritenere che l’impegno dedicato alla preparazione degli esami sia lo stesso
per i due studenti?

Definizione 2 (La variabilità). Si definisce variabilità l’attitudine di un fenomeno a ma-


nifestarsi con molteplici valori.
7.5

2 La variabilità per i caratteri qualitativi


Con riferimento ai caratteri qualitativi si parla di mutabilità o eterogeneità
Esempio 3. Si considera il colore dei capelli di alcune scolaresche

(distribuzioni %)
colore S1 S2 S3
nero 0.10 0.30 0.70
castano 0.25 0.30 0.20
biondo 0.60 0.30 0.05
altro 0.05 0.10 0.05
1 1 1
• in quale scolaresca c’è minore variabilità?
• in quale scolaresca c’è maggiore variabilità?
7.6

110
3 Le situazioni estreme
3.1 La situazione di assenza di eterogeneità

Assenza di eterogeneità
• quando tutti hanno lo stesso colore dei capelli

colore fi colore fi colore fi colore fi


nero 1 nero 0 nero 0 nero 0
castano 0 castano 1 castano 0 castano 0
biondo 0 biondo 0 biondo 1 biondo 0
altro 0 altro 0 altro 0 altro 1
1 1 1 1

• minima eterogeneità:
∃ fi = 1, f j = 0 se j ̸= i
• mutabile statistica degenere
7.7

3.2 La situazione di massima eterogeneità

Massima eterogeneità
• nel caso avessimo solo 4 soggetti
– se 1 nero, 1 castano, 1 biondo, 1 con altro colore
• e se i soggetti fossero 8?
– se 2 neri, 2 castani, 2 biondi, 2 con altro colore

colore ni fi
nero 2 0.25
castano 2 0.25
biondo 2 0.25
altro 2 0.25
8 1

• massima eterogeneità:
1
f1 = . . . = fk =
k
• equidistribuzione delle frequenze
7.8

111
Situazioni estreme
Ritornando all’esempio delle scolaresche
colore S1 S2 S3 S4 S5
nero 0.10 0.30 0.70 0 0.25
castano 0.25 0.30 0.20 1 0.25
biondo 0.60 0.30 0.05 0 0.25
altro 0.05 0.10 0.05 0 0.25
1 1 1 1 1
• minima variabilità:
∃ fi = 1, f j = 0 se j ̸= i
tutti i valori sono uguali (ad esempio S4)
• massima variabilità:
1
f1 = . . . = fk =
k
equidistribuzione delle frequenze (S5)
7.9

4 L’indice di eterogeneità di Gini


Definizione 4 (Indice di eterogeneità di Gini).
k
G = 1 − ∑ fi2
i=1

Osservazione
L’indice di Gini viene usato anche per lo studio della concentrazione industriale o di
mercato
7.10

Calcolo dell’indice di Gini


Consideriamo la prima scolaresca S1

xi fi fi2
x1 0.1 0.01
x2 0.25 0.0625
x3 0.6 0.36
x4 0.05 0.0025
1 0.435

k
G = 1 − ∑ fi2 = 1 − 0.435 = 0.565.
i=1

In base al valore ottenuto possiamo ritenere che sussiste un livello elevato o basso di
eterogeneità?
7.11

112
5 Gli indici normalizzati
Gli indici normalizzati
In genere, quando si costruisce uno strumento per misurare il livello I assunto da un
determinato fenomeno (temperatura, peso, variabilità, tasso di umidità), è opportuno
individuare le due situazioni estreme, corrispondenti a
• Imin : minima presenza o assenza del fenomeno oggetto di studio
• Imax : massima presenza teorica del fenomeno oggetto di studio
la situazione osservata, caso reale, si posiziona in una situazione intermedia, quindi

Imin ≤ I ≤ Imax

Imin I Imax

7.12
Risulta più comodo costruire un indice che varia tra estremi prestabiliti
Un indice normalizzato, IN , varia tra 0 e 1

Imin I Imax

0 IN 1

• IN = 0 quando I = Imin
• IN = 1 quando I = Imax
7.13
Imin ≤ I ≤ Imax

Imin I Imax

0 IN 1

0 ≤ IN ≤ 1
7.14

113
Imin ≤ I ≤ Imax

Imin I Imax

0 IN 1

I − Imin
0 ≤ IN = ≤1
Imax − Imin
7.15

Definizione 5 (Indice normalizzato).


I − Imin
IN =
Imax − Imin

IN = 0 ↔ I = Imin

IN = 1 ↔ I = Imax

Interpretazione
IN
molto basso basso medio medio alto altissimo
alto

0 0.3 0.5 0.65 0.8 0.9 1

7.16

Osservazione
Gli indici normalizzati consentono anche di effettuare dei confronti tra situazioni diverse.

Osservazione
Si fa presente che la scala di interpretazione riportata ha carattere puramente indicativo.
Infatti, una valutazione basata sul valore di un indice normalizzato può avere implicazioni
diverse a seconda della disciplina che tratta il problema oggetto di analisi (Economia,
Marketing, Sociologia, Psicologia, Medicina) e dell’importanza del problema.
7.17

114
k
G = 1 − ∑ fi2
i=1

assenza mutabilità caso reale massima mutabilità


Gmin G Gmax

xi fi fi2 xi fi fi2 xi fi fi2


x1 0 0 x1 0.1 0.01 x1 0.25 0.0625
x2 0 0 x2 0.25 0.0625 x2 0.25 0.0625
x3 1 1 x3 0.6 0.36 x3 0.25 0.0625
x4 0 0 x4 0.05 0.0025 x4 0.25 0.0625
1 1 1 0.435 1 0.25

Gmin = 1 − 1 G = 1 − 0.435 Gmax = 1 − 0.25


Gmin = 0 G = 0.565 Gmax = 0.75

G − Gmin 0.565 − 0
GN = = = 0.7533
Gmax − Gmin 0.75 − 0
7.18
7.19
L’indice di Gini nella situazione di massima eterogeneità
xi fi fi2 7.20

x1 f1 = k k12
1 7.21

x2 f2 = 1k k12
.. .. ..
. . .
xk fk = 1k 1
k2
1 k k12
k k
1 1 1
Gmax = 1 − ∑ fi2 = 1 − ∑ 2
= 1−k 2 = 1−
i=1 i=1 k k k

G − Gmin G−0 G
GN = = =
Gmax − Gmin 1 − k − 0 1 − 1k
1
7.22

115
6 L’indice di Frosini normalizzato
L’indice di Gini Normalizzato, GN , assume valori elevati anche in situazioni che non
possono ritenersi prossime a quella di massima eterogeneità, risultando così poco discri-
minante in situazioni ’vicine’ alla situazione di massima eterogeneità.
Si consideri, a titolo esemplificativo la seguente generica mutabile statistica

xi fi
x1 f1 = 1 − γ
x2 f2 = γ/3
x3 f3 = γ/3
x4 f4 = γ/3
1

al variare di γ nell’intervallo [0, 0.75]. In corrispondenza degli estremi di tale intervallo si


hanno, infatti, le situazioni di massima eterogeneità e di assenza di eterogeneità. 7.23
Nel seguente prospetto sono riportate 7 distribuzioni esemplificative. L’indice GN assume
correttamente valore basso nelle situazioni a e b nelle quali le frequenze sono fortemente
concentrate in una sola categoria, ma assume valore medio/alto nelle situazioni c e d,
nelle quali le frequenze sono ancora concentrate nella sola categoria x1 .
a b c d e f g
x1 1.0000 0.8750 0.7500 0.6250 0.5000 0.3750 0.2500
x2 0.0000 0.0417 0.0833 0.1250 0.1667 0.2083 0.2500
x3 0.0000 0.0417 0.0833 0.1250 0.1667 0.2083 0.2500
x4 0.0000 0.0417 0.0833 0.1250 0.1667 0.2083 0.2500
GN 0.0000 0.3056 0.5556 0.7500 0.8889 0.9722 1.0000
7.24

Si rappresenta graficamente l’andamento di GN al variare di γ.


1.0

GN
0.5
0.0

a b c d e f g
assenza di massima
eterogeneita' eterogeneita'

7.25

116
Una possibile soluzione è rappresentata dall’indice di Frosini normalizzato1
v !
u k
u k
2 1 p
FN = 1 − t
∑ fi − = 1 − 1 − GN .
k − 1 i=1 k
7.26
Il seguente prospetto riporta anche il valore di FN per le 7 distribuzioni sopra considerate.
L’indice FN è caratterizzato da una struttura più lineare.
a b c d e f g
x1 1.0000 0.8750 0.7500 0.6250 0.5000 0.3750 0.2500
x2 0.0000 0.0417 0.0833 0.1250 0.1667 0.2083 0.2500
x3 0.0000 0.0417 0.0833 0.1250 0.1667 0.2083 0.2500
x4 0.0000 0.0417 0.0833 0.1250 0.1667 0.2083 0.2500
GN 0.0000 0.3056 0.5556 0.7500 0.8889 0.9722 1.0000
FN 0.0000 0.1667 0.3333 0.5000 0.6667 0.8333 1.0000
7.27
Si completa la rappresentazione grafica con l’andamento di FN .
1.0

GN

FN
0.5
0.0

a b c d e f g
assenza di massima
eterogeneita' eterogeneita'

7.28
1 La relazione tra FN e GN vale in quanto:
v !
u k
2− 1
u k
FN = 1 − t ∑ i k =
f
k − 1 i=1
s
∑ki=1 fi2 − 1k
= 1− k−1
=
k
s
∑ki=1 fi2 − 1k
= 1− =
1 − 1k
s
∑ki=1 fi2 − 1 + 1 − 1k
= 1− =
1 − 1k
s
1 − 1k − 1 − ∑ki=1 fi2

= 1− =
1 − 1k
s
1 − ∑ki=1 fi2
= 1− 1− =
1 − 1k
p
= 1− 1 − GN .

117
Si osserva come gli indici di eterogeneità proposti soddisfano le seguenti proprietà:
• non negatività;
• sono nulli nella situazione di assenza di eterogeneità;
• soddisfano la proprietà di coerenza: considerate due generiche frequenze fi e f j
per le quali 0 < fi ≤ f j , se fi viene diminuita della quantità δ > 0, e corrispon-
dentemente f j è aumentata della stessa quantità δ , gli indici di eterogeneità devono
diminuire, o al più restare costanti (cfr. Frosini 2009 Metodi Statistici: teoria e
applicazioni economiche e sociali. Carocci). 7.29

7 Utilizzo congiunto della Moda e dell’indice di etero-


geneità
Utilizzo congiunto della Moda e dell’indice di eterogeneità
Possiamo confrontare le 5 scolaresche in base alla Moda e alla mutabilità del colore dei
capelli
colore S1 S2 S3 S4 S5
nero 0.10 0.30 0.70 0 0.25
castano 0.25 0.30 0.20 1 0.25
biondo 0.60 0.30 0.05 0 0.25
altro 0.05 0.10 0.05 0 0.25
1 1 1 1 1

Moda biondo ∄ nero castano ∄


G 0.565 0.72 0.465 0 0.75
GN 0.7533 0.96 0.62 0 1
FN 0.5033 0.8 0.3836 0 1
• la moda è rappresentativa della distribuzione quando la mutabilità non è elevata
• L’indice di Frosini Normalizzato fornisce un’informazione più realistica sul livello
di eterogeneità per le scolaresche S3 ed S1.
7.30
Esempio 6.
xi ni fi fi2
x1 25 0.125 0.015625
x2 35 0.175 0.030625
x3 100 0.5 0.25
x4 40 0.2 0.04
200 1 0.33625

k
G = 1 − ∑ fi2 = 1 − 0.33625 = 0.66375
i=1
Gmin = 0
1
Gmax = 1 − = 0.75
4
G − Gmin 0.66375 − 0
GN = = = 0.885
Gmax − Gmin 0.75 − 0
p √
FN = 1 − 1 − GN = 1 − 1 − 0.885 = 0.6609
• possiamo ritenere che sussiste un livello medio/alto di eterogeneità 7.31

118
8 Esercizi
Esercizio 7. [T 162, 24.06.1998, A] Una delegazione provinciale della F.I.C. (Federazio-
ne Italiana Cronometristi) dispone dei dati inerenti 15 servizi di cronometraggio espletati
dai suoi 8 componenti (A, B, . . . , H) durante l’anno.
Si riportano il tipo di sport (S, nelle categorie n = nuoto, s = sci, c = ciclismo), la stagione
del servizio (T , a = autunno, i = inverno, p = primavera, e = estate), la durata del servizio
(D, in minuti) e l’entità del rimborso complessivamente percepito per il servizio (R, in e).

serv 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
cron B B H G F A E E B C D D B C G
S n n c c n s s n s n s s c c n
T a a a a i i i i i p p p p p p
D 120 120 360 60 180 360 360 120 360 180 480 420 300 420 180
R 20 20 45 60 30 50 70 30 60 45 60 70 40 60 30

1. Si confronti il grado di mutabilità di S e di T .


7.32

Esercizio 8 (T 224, 02.02.2006, 3). Con riferimento alla seguente v.s. X:

xi ni
a1 30
a2 ?
a3 ?

1. determinare n2 , n3 ed n in modo che Eterogeneità(X) = max teorico;


2. posto poi n = 120 ed n2 = n3 valutare il grado di eterogeneità presente nei dati.
7.33

9 Libero Mercato, Monopolio e Oligopolio


Libero Mercato, Monopolio e Oligopolio
Sia X una variabile statistica le cui categorie x1 , x2 , . . . , xk sono le denominazioni sociali
delle k imprese operanti su un mercato, mentre f1 , f2 , . . . , fk rappresentano le quote di
mercato delle k imprese
• in una situazione di perfetta concorrenza si potrebbe ipotizzare che le imprese
abbiano tutte la stessa quota di mercato
– equidistribuzione delle frequenze ↔ mutabilità massima
• in una situazione di Monopolio il mercato è concentrato in una sola delle imprese
– mutabile statistica degenere ↔ assenza di mutabilità
• in una situazione di Oligopolio il mercato è concentrato in poche imprese.
Che valore assumerà l’indice di eterogeneità?
– possiamo aspettarci un valore elevato dell’indice di Frosini normalizzato; in
una situazione di oligopolio esistono, infatti, accordi (cartelli) tra le imprese,
che comunicano tra loro e possono definire quote di mercato omogenee.
7.34

119
Sezione 8
Variabilità (2)
8.1

Indice
1 La variabilità per caratteri quantitativi 121

2 Una classe di indici di variabilità globale 125


2.1 La differenza semplice media (r = 1) . . . . . . . . . . . . . . . . . . . 126
2.2 La differenza quadratica media (r = 2) . . . . . . . . . . . . . . . . . . . 127

3 Una classe di indici di dispersione 127


3.1 Lo scostamento medio assoluto dalla mediana (r = 1, c = x0.5 ) . . . . . . 128
3.2 Lo scarto quadratico medio (r = 2, c = µ) . . . . . . . . . . . . . . . . . 129

4 Proprietà di minimo di D1 (x0.5 ) e di D2 (µ) 130

5 La varianza 131

6 Varianza di una trasformazione lineare 132

7 Gli indici relativi 133

8 Esercizi 135

9 Indicazioni operative sull’utilizzo delle misure di posizione e di variabilità 138 8.2

1 La variabilità per caratteri quantitativi


Si ricorda che con riferimento ai caratteri quantitativi è possibile definire una distanza d
tra le modalità xi , x j assunte da due generiche unità statistiche, tale che:
1. d(xi , x j ) = |x j − xi | = |xi − x j | ≥ 0
2. d(xi , x j ) = 0 ↔ xi = x j
3. |xi − x j | ≤ |xi − xk | + |x j − xk |

121
ni

xi ni
x1 n1
x2 n2
x3 n3
x4 n4
x5 n5
n

x1 x2 x3 x4 x5

xi

8.3
Al fine di definire la variabilità di un carattare quantitativo si utilizzano degli indicatori
elementari che possono essere di variabilità globale o di dispersione da un centro.
Tipologie di indicatori elementari
• indicatori elementari di variabilità globale
• indicatori elementari di dispersione rispetto a un centro di riferimento c
x2 x4 x2 x4

x1 x5 x1 x5

x3 x3
ogni unità statistica ogni unità statistica
viene confrontata viene confrontata con
con tutte le altre un valore c di riferimento
8.4

122
Definizione 1 (Indicatori elementari di variabilità globale).
x2 x4

x1 x5

x3
• |xi − x j |, i = 1, . . . , k, j = 1, . . . , k
8.5
Indicatori elementari di variabilità globale
• |xi − x j |, i = 1, . . . , k, j = 1, . . . , k
• quante coppie è possibile formare con elementi di due gruppi, il primo costituito da
ni oggetti e il secondo da n j oggetti?
• ad esempio se n1 = 3 ed n2 = 4
• gruppo 1 (a, a, a) e gruppo 2 (b, b, b, b)
b b b b
a (a, b) (a, b) (a, b) (a, b)
a (a, b) (a, b) (a, b) (a, b)
a (a, b) (a, b) (a, b) (a, b)

(n1 = 3) · (n2 = 4) = 12 coppie


• di indicatori elementari |xi − x j | calcolati con le modalità xi e x j ne esistono, quindi,
ni · n j
• il numero totale degli indicatori elementari di variabilità globale è n2 , avendo con-
siderato anche il confronto di ogni unità statistica con se stessa
8.6
Esempio 2.
1 1 3 3 3 5 5
1
xi ni
1
1 2
3
3 3
3 |xi − x j |
5 2
3
7
5
5

123
8.7

Definizione 3 (Indicatori elementari di dispersione rispetto a un centro c).


x2 x4

x1 x5

x3
• |xi − c|, i = 1, . . . , k
8.8

Indicatori elementari di dispersione rispetto a un centro c


• |xi − c|, i = 1, . . . , k
• di indicatori elementari di dispersione del tipo |xi − c|, calcolati con la modalità xi ,
ne esistono ni
• il numero totale degli indicatori elementari di dispersione rispetto a un centro c è n
8.9
Esempio 4.
1 1 3 3 3 5 5
1
xi ni
1
1 2
3
3 3
3 |xi − x j |
5 2
3
7
5
5
(49 indicatori)

xi ni
1 2
1 1 3 3 3 5 5
3 3
|xi − c|
5 2
7

(7 indicatori)
8.10

124
Interpretazione degli indicatori elementari
indicatori elementari tutti nulli

assenza di variabilità

dati tutti eguali (v.s. degenere)

Misure di variabilità
In corrispondenza delle due tipologie di indicatori elementari è possibile definire delle
misure di
• variabilità globale V (X)
• dispersione da un centro D(X)
Tali misure sono funzione degli indicatori elementari
• sono definite come medie potenziate degli indicatori elementari
8.11

Caratteristiche di base degli indici di variabilità


• V (X) ≥ 0, D(X) ≥ 0 (non negatività)
• V (X) = 0, D(X) = 0 se e solo se xi = c
• monotonicità rispetto agli indicatori elementari |xi − x j | oppure |xi − c|
8.12

2 Una classe di indici di variabilità globale


Definizione 5 (Differenza media con ripetizione). Si definisce differenza media con ripe-
tizione di ordine r la media potenziata di ordine r (r = 1, 2, . . .) degli indicatori elementari
di variabilità globale |xi − x j |, i = 1, . . . , k, j = 1, . . . , k
" #1/r
1 k k
∆r = 2 ∑ ∑ |xi − x j |r ni n j (r = 1, 2, . . .)
n i=1 j=1

Sono dette ’con ripetizione’ perchè vengono conteggiate anche le differenze |xi − xi | = 0.
8.13

Proprietà
Essendo ∆r una media in senso stretto sono rispettate le caratteristiche degli indici di
variabilità
• condizione di Cauchy

min |xi − x j | = 0 ≤ ∆r ≤ max |xi − x j |

quindi:
– ∆r ≥ 0 (non negatività)
– ∆r = 0 se e solo se xi = c
• condizione di monotonicità

∆r è funzione monotona crescente rispetto a |xi − x j |

125
• proprietà moltiplicativa
Se Y = bX allora ∆r (Y ) = ∆r (bX) = b∆r (X).
Inoltre
• limite superiore medie potenziate

lim ∆r = max |xi − x j | = xk − x1 = R


r→+∞

dove R = Range o campo di variazione


• invarianza per traslazione
se Y = X + b allora ∆r (Y ) = ∆r (X + b) = ∆r (X).
8.14

Invarianza per traslazione 8.15

Si consideri Y = X + 1, ad esempio:

ni

xi ni yi ni
2 3 3 3
4 4 5 4
7 3 8 3
10 10

2 3 4 5 7 8

le distanze interne tra le modalità sono le stesse per X e Y


8.16

2.1 La differenza semplice media (r = 1)


Definizione 6.
1 k k
∆1 = ∑ ∑ |xi − x j |ni n j
n2 i=1 j=1

Osservazione
La versione ’normalizzata’ della differenza semplice media viene utilizzata in Economia
Politica e in Scienze delle Finanze come indicatore di concentrazione della ricchezza.
8.17

126
2.2 La differenza quadratica media (r = 2)
Definizione 7. " #1/2
1 k k
∆2 = 2 ∑ ∑ (xi − x j )2 ni n j
n i=1 j=1

Osservazione
È collegata a σ , il più importante indice di dispersione;
si ha, infatti √ √
∆2 = 2 · (scarto quadratico medio) = 2 · σ
8.18

3 Una classe di indici di dispersione


Definizione 8 (Le differenze medie di ordine r). Si considera la media potenziata di
ordine r (r = 1, 2, . . .) degli indicatori elementari di dispersione dal centro di riferimento
c, |xi − c|, i = 1, . . . , k
" #1/r
1 k
Dr (c) = ∑ |xi − c|r ni = (M [|X − c|r ])1/r (r = 1, 2, . . .)
n i=1

solitamente come centro c si può considerare:


• un percentile (x p )
• la mediana (x0.5 )
• la media aritmetica (µ)
8.19

Proprietà
Essendo Dr (c) una media in senso stretto sono rispettate le caratteristiche degli indici di
variabilità
• condizione di Cauchy

(min |xi − c| ≥ 0) ≤ Dr (c) ≤ max |xi − c|

quindi:
– Dr (c) ≥ 0 (non negatività)
– Dr (c) = 0 se e solo se xi = c
• condizione di monotonicità
Dr (c) è funzione monotona crescente rispetto a |xi − c|.
• proprietà moltiplicativa
se Y = bX allora Dr (bc)Y = Dr (bc)bX = bDr (c)X
Inoltre
• invarianza per traslazione
se Y = X + b allora Dr (c + b)Y = Dr (c + b)(X+b) = Dr (c)X
8.20
8.21

127
Invarianza per traslazione
Si consideri Y = X + 1, ad esempio:

ni

xi ni yi ni
2 3 3 3
4 4 5 4
7 3 8 3
10 10

µX = 4.3 µY = 5.3

2 3 4 5 7 8

le distanze tra le modalità e la media sono le stesse per X e Y


8.22

3.1 Lo scostamento medio assoluto dalla mediana (r = 1, c = x0.5 )


Definizione 9.
1 k
D1 (x0.5 ) = ∑ |xi − x0.5 |ni
n i=1
ovvero
D1 (x0.5 ) = M [|X − x0.5 |]
8.23
Esempio 10. Calcoliamo D1 (x0.5 ) per la serie statistica

xi ni
2 3
4 4
7 3
10

In primo luogo si deve determinare il valore della mediana

xi ni Ni
2 3 3 x(5) + x(6)
x0.5 = =4
4 4 7 2
7 3 10

128
Si calcolano poi gli scostamenti assoluti dalla mediana e li si moltiplica per le frequenze

xi ni |xi − x0.5 | |xi − x0.5 |ni


2 3 2 6
4 4 0 0
7 3 3 9
10 15
1
D1 (x0.5 ) = 15 = 1.5
10
8.24

3.2 Lo scarto quadratico medio (r = 2, c = µ)


Definizione 11. " #1/2
1 k
D2 (µ) = ∑ (xi − µ)2 ni
n i=1

ovvero r h i
D2 (µ) = M (X − µ)2 = σ

Osservazione
È collegato alla differenza quadratica media

∆2 = 2·σ

per r = 2 l’indice di variabilità globale è direttamente proporzionale all’indice di disper-


sione riferito alla media.
8.25
Esempio 12. Con riferimento alla serie statistica
xi ni xi ni
2 3 6
4 4 16
7 3 21
10 43
la media aritmetica risulta
1
µ = M(X) = 43 = 4.3
10
Si calcolano gli scostamenti al quadrato da µ e li si moltiplica per le frequenze

xi ni (xi − µ)2 (xi − µ)2 ni


2 3 5.29 15.87
4 4 0.09 0.36
7 3 7.29 21.87
10 38.10
Dividendo il totale ottenuto per la numerosità delle unità statistiche si ottiene il quadrato
dello scarto quadratico medio

 1 k 1
σ 2 = M (X − µ)2 = ∑ (xi − µ)2 ni = 38.10 = 3.81

n i=1 10
q √
σ = D2 (µ) = M [(X − µ)2 ] = 3.81 = 1.9519
8.26

129
4 Proprietà di minimo di D1 (x0.5 ) e di D2 (µ)
Uso combinato delle misure di posizione e di variabilità
x0.5 e D1 (x0.5 )

µ e σ = D2 (µ)
Si ricorda che, in base al criterio di scelta della media per minimizzazione del danno:

1 k
D= ∑ |xi − α|ni = min ↔ α = x0.5
n i=1

1 k
D= ∑ (xi − α)2 ni = min ↔ α = µ
n i=1
valgono, quindi, le seguenti proprietà di minimo

D1 (x0.5 ) = M [|X − x0.5 |] ≤ M [|X − α|] , ∀α ∈ ℜ

σ 2 = M (X − µ)2 ≤ M (X − α)2 , ∀α ∈ ℜ
   

8.27

130
5 La varianza
Definizione 13 (Varianza).

1 k k
[D2 (µ)]2 = ∑ (xi − µ)2 ni = ∑ (xi − µ)2 fi = σ 2 = Var(X) = σX2
n i=1 i=1

σ 2 = Var(X) = M (X − µ)2
 

Formula operativa
σ 2 = Var(X) = M X 2 − µ 2


8.28

Dimostrazione. Sviluppando il quadrato che figura nella definizione


h i
M (X − µ)2 = M X 2 − 2µX + µ 2


e ricordando che M(·) è un operatore lineare e che µ è una costante, abbiamo

M X 2 − 2µM(X) + µ 2 = M X 2 − 2µ 2 + µ 2 = M X 2 − µ 2 .
  

8.29
Esempio 14. Per calcolare la varianza della serie statistica
xi ni xi ni
2 3 6
1
4 4 16 µ = M(X) = 43 = 4.3
10
7 3 21
10 43

una volta ottenuta la media, è sufficiente calcolare il momento secondo M(X 2 )

xi ni xi ni xi2 ni
2 3 6 12
1 k 2 1
4 4 16 64 M(X 2 ) = ∑ xi ni = 10 223 = 22.3
n i=1
7 3 21 147
10 43 223

e applicare la formula operativa

Var(X) = σ 2 = M[(X − µ)2 ] =


= M(X 2 ) − µ 2 =
= momento secondo − media2 =
= 22.3 − 4.32
= 22.3 − 18.49 = 3.81.
8.30

131
6 Varianza di una trasformazione lineare
Teorema 15. Se
Y = aX + b
allora
M(Y ) = aM(X) + b (operatore lineare)

Var(Y ) = a2Var(X) (non è un operatore lineare)


Dimostrazione. Si applichi la definizione di varianza alla variabile statistica Y e si espri-
mano Y e µY = M(Y ) in funzione di X e µX = M(X):
n o
Var(Y ) = M[(Y − µY )2 ] = M [aX + b − (aµx + b)]2 =
n o
= M [aX + b − aµx − b]2 =
n o
= M [aX − aµx ]2 =
n o
= M [a(X − µx )]2 =
= M a2 (X − µx )2 =
 

= a2 M (X − µx )2 = a2Var(X).
 

8.31
Esempio 16. Si calcolino media e varianza della seguente serie statistica
xi ni
2 10
3 12
4 22
5 6

xini xi ni xi2 ni
2 10 20 40 1
µ = M(X) = 50 174 = 3.48
3 12 36 108

4 22 88 352 1
M(X 2 ) = 50 650 = 13
5 6 30 150
50 174 650
• Var(X) = M(X 2 ) − µ 2 = 13 − 3.482 = 13 − 12.1104 = 0.8896.
Sapendo che Y = 12 X + 4 si calcolino M(Y ) e Var(Y )
• M(Y ) = 21 M(X) + 4 = 12 3.48 + 4 = 5.74
2
• Var(Y ) = 21 Var(X) = 41 0.8896 = 0.2224.
8.32

132
7 Gli indici relativi
Indici relativi
In generale:
• gli indici, I, dipendono dall’unità di misura e dall’ordine di grandezza del fenomeno
• non è possibile effettuare confronti

Definizione 17 (Indice relativo).


I
IR = = numero puro
opportuno indice
l’indice a denominatore ha la stessa unità di misura e lo stesso ordine di grandezza di I.
Definizione 18 (Coefficiente di variazione).
σ
CV =
µ

È un indice relativo: numero puro. Può essere definito solo per variabili statistiche
misurate su scala per rapporti che assumono valori positivi. 8.33

Esempio 19. Si consideri il peso di 4 soggetti misurato alla nascita, variabile X, e all’età
di 30 anni, variabile Y .
1 2 3 4
xi 3 2.5 3.2 5
yi 73 57 69 85
Quale tra le due variabili presenta maggiore variabilità?
Confrontando le medie aritmetiche
1
M(X) = (3 + 2.5 + 3.2 + 5) = 3.425
4
1
M(Y ) = (73 + 57 + 69 + 85) = 71
4
come ragionevolmente ci si può aspettare, il livello medio di Y è superiore a quello di X. 8.34
Calcoliamo ora le varianze e i coefficienti di variazione
1
M(X 2 ) = (32 + 2.52 + 3.22 + 52 ) = 12.6225
4
1
M(Y ) = (732 + 572 + 692 + 852 ) = 5141
2
4
Var(X) = M(X 2 ) − µX2 = 0.8919
Var(Y ) = M(Y 2 ) − µY2 = 100

σX 0.8919 0.9444
CV (X) = = = = 0.2757
µX 3.425 3.425

σY 100 10
CV (Y ) = = = = 0.1408
µY 71 71
Dal confronto dei coefficienti di variazione si evince che il livello di variabilità di X (peso
da bambini) è superiore a quello di Y (peso da adulti). 8.35

Esempio 20. Volendo confrontare peso e altezza di n individui possiamo calcolare i


seguenti indicatori

133
unità di misura
indicatore peso altezza
media aritmetica µ kg cm
varianza σ2 kg2 cm2
scarto quadratico medio σ kg cm
σ kg cm
coefficiente di variazione CV = µ kg = 1 cm = 1

Il confronto degli indici di posizione per variabili con differenti unità di misure non ha
senso.
Il coefficiente di variazione, che non dipende dall’unità di misura, rende possibile il
confronto in termini di variabilità. 8.36

Esempio 21. Volendo sintetizzare i redditi di una famiglia e il prodotto interno lordo
nazionale negli ultimi 10 anni possiamo calcolare i seguenti indicatori
ordine di grandezza in e
indicatore famiglia nazione
media aritmetica µ 103 109
varianza σ2 106 1018
scarto quadratico medio σ 103 109
σ 103 109
coefficiente di variazione CV = µ 103
=1 109
=1
Non ha alcun senso confrontare il reddito medio della famiglia con il PIL medio.
Il coefficiente di variazione, che non dipende dall’ordine di grandezza, rende possibile il
confronto in termini di variabilità. 8.37

Teorema 22 (CV di una trasformazione lineare). Siano X > 0 e


Y = aX + b
con a > 0 e b tale che anche Y > 0. Allora:
• se b < 0 vale CV (Y ) > CV (X),
• se b = 0 vale CV (Y ) = CV (X),
(b = 0 corrisponde a una sola trasformazione di scala)
• se b > 0 vale CV (Y ) < CV (X).
Dimostrazione. Se Y = aX + b abbiamo
µY = aµX + b
Var(Y ) = a2Var(X)
σY = aσX
Quindi:
σY aσX
CV (Y ) = = .
µY aµX + b
8.38
Analogamente al coefficiente di variazione (CV ) è possibile definire un indice relativo,
che denominiamo coefficiente di scostamento (CS), a partire dall’indice di dispersione di
ordine 1, D1 (x0.5 ), scostamento medio assoluto dalla mediana.
Definizione 23 (Coefficiente di scostamento).
D1 (x0.5 )
CS =
x0.5
È un indice relativo: numero puro. Può essere definito solo per variabili statistiche
misurate su scala per rapporti che assumono valori positivi. 8.39

134
8 Esercizi
Esercizio 24 (T 224, 02.02.2006, 2). Determinare i valori di x1 ed n1 in modo che nella
seguente tabella:
xi ni
x1 n1
30 30
1. M(X 2 ) = 500, Var(X) = 100 e X risulti simmetrica.
8.40

Esercizio 25 (T 180, 14.09.2000, 1). Lo spessore X delle lamine prodotte da una mac-
china è compreso tra 15.2 e 16.5 mm.
Si individuino le ampiezze delle 4 classi (Ii ) in cui è ripartito l’intervallo (15.1; 16.5] in
modo tale che:
I1 I2 I3 I4
fi 0.05 0.09 0.72 0.14
di 0.25 0.45 2.40 0.20
1. Si costruisca l’istogramma della variabile X.
2. Si identifichi il valore della mediana e si calcolino il CV e il CS di X, utilizzando ai
fini del calcolo di D1 (x0.5 ) i valori centrali delle classi.
3. Supponendo che dalla produzione vengano scartate le lamine con spessore minore
di 15.3 mm o superiore di 16 mm, si calcoli, sulla base del grafico prima costruito,
la percentuale di lamine eliminate.
8.41

Esercizio 26 (T 248, 29.01.2009, 1). Il seguente prospetto riporta i valori rilevati in corri-
spondenza a 8 unità statistiche con riferimento a un carattere qualitativo X e a un carattere
quantitativo Y :
X a b b c a a c c
Y 30 20 24 50 40 50 40 30
1. Si ricostruisca la mutabile statistica X e se ne dia una rappresentazione grafica.
2. Si riassumano con opportuni indici di posizione e di variabilità le distribuzioni X e
Y , commentando opportunamente i risultati ottenuti.
3. Si indichi l’intervallo dei possibili valori che può assumere la media armonica di Y .
4. Si definiscano le relazioni esistenti rispettivamente tra le medie e le varianze di Y e
di W = 100 − 2Y e si calcolino quindi media e varianza di W . ✍
8.42

Esercizio 27 (P 001, 10.03.1995, 1). Data la variabile statistica X con distribuzione di


frequenze
xj 1 2 4 7
n j 8 10 6 40
calcolare M(X) e Var(X). Calcolare inoltre la media aritmetica e la varianza delle v.s.
Y = 6 + X, Z = 7X, W = X 3.
8.43

Esercizio 28 (P 001, 10.03.1995, 4). Date le v.s. X e Y caratterizzate dalle seriazioni


xi ni yi ni
10 ⊣ 15 21 100 ⊣ 110 30
15 ⊣ 25 38 110 ⊣ 150 18
25 ⊣ 50 51 150 ⊣ 200 21
50 ⊣ 75 20 200 ⊣ 250 21
fornire un’adeguata rappresentazione grafica delle due distribuzioni e confrontarne media
e variabilità. 8.44

135
Soluzione 29 (Esercizio 27). Procediamo, in primo luogo, al calcolo della media aritme-
tica di X, M(X) = 1n ∑ki=1 xi ni , e della varianza di X
xi ni xi ni xi2 ni
1 8 8 8
2 10 20 40
4 6 24 96
7 40 280 1960
64 332 2104
Otteniamo
1
M(X) = 332 = 5.1875
64
e, utilizzando la formula operativa della varianza:
h i
Var(X) = M (X − µ)2 =

= M(X 2 ) − [M(X)]2 =
1
= 2104 − 5.18752 =
64
= 32.875 − 26.9102 = 5.9648.

Per ricavare la media aritmetica e la varianza delle variabili statistiche Y = 6 + X e


Z = 7X, ricordiamo che l’operatore media aritmetica è un operatore lineare e, quindi,
M(aX + b) = aM(X) + b,
mentre per l’operatore varianza vale
Var(aX + b) = a2Var(X).
Abbiamo, quindi:
M(Y ) = M(6 + X) = 6 + M(X) = 6 + 5.1875 = 11.1875
M(Z) = M(7X) = 7M(X) = 7 · 5.1875 = 36.3125
Var(Y ) = Var(6 + X) = Var(X) = 5.9648
Var(Z) = Var(7X) = 72Var(X) = 49 · 5.9648 = 292.2752.

Per ottenere media e varianza di W = X 3 occorre costruire la variabile statistica W ,


trasformando le modalità xi di X in xi3 , e procedere con i calcoli
(si osserva come W non sia una trasformazione lineare di X)
wi = xi3 ni wi ni w2i ni
1 8 8 8
8 10 80 640
64 6 384 24576
343 40 13720 4705960
64 14192 4731184
Abbiamo:
1
M(W ) = M(X 3 ) = 14192 = 221.75,
64
Var(W ) = M(W 2 ) − [M(W )]2 =
1
= 4731184 − 221.752 =
64
= 73924.75 − 49173.0625 = 24751.6875.

136
8.45
8.46
Soluzione 30 (Esercizio 28). Siamo in presenza di un carattere quantitativo con valori
8.47
raggruppati in classi. Occorre, quindi, procedere al calcolo delle densità di frequenza
per costruire gli istogrammi delle due distribuzioni.

xi ni di yi ni di
10 ⊣ 15 21 4.20 100 ⊣ 110 30 3.00
15 ⊣ 25 38 3.80 110 ⊣ 150 18 0.45
25 ⊣ 50 51 2.04 150 ⊣ 200 21 0.42
50 ⊣ 75 20 0.80 200 ⊣ 250 21 0.42

4.2 3

3.8

2.04

0.8
0.45
0.42

10 15 25 50 75 100 150 200 250

Per procedere al confronto di media e variabilità, procediamo al calcolo della media


aritmetica e del coefficiente di variazione di X e di Y , considerando le serie statistiche
ottenute sostituendo alle classi i corrispondenti valori centrali.

xi ni xi ni xi2 ni 1
M(X) = 130 4185 = 32.1923,
12.5 21 262.5 3281.25
Var(X) = M(X 2 ) − [M(X)]2 =
20 38 760 15200.00 1
= 130 168325 − 32.19232 =
37.5 51 1912.5 71718.75
= 1294.8077 − 1036.3447 = 258.4630.
62.5 20 1250 78125.00
CV (X) = σµXX = 16.0768
32.1923 = 0.4994.
130 4185 168325.00

yi ni yi ni y2i ni 1
M(Y ) = 90 13890 = 154.3333,
105 30 3150 330750
Var(Y ) = M(Y 2 ) − [M(Y )]2 =
130 18 2340 304200 1
= 90 2341200 − 154.33332 =
175 21 3675 643125
= 26013.3333 − 23818.7778 = 2194.5556.
225 21 4725 1063125 46.8461
CV (Y ) = σµYY = 154.3333 = 0.3035.
90 13890 2341200
Possiamo, quindi, concludere che:
• il livello medio di Y è superiore a quello di X

µX = 32.1923, µY = 154.3333;

• la variabile X presenta un livello di variabilità superiore a Y

CV (X) = 0.4994, CV (Y ) = 0.3035.


8.48
8.49

137
9 Indicazioni operative sull’utilizzo delle misure di posi-
zione e di variabilità
Nelle ultime Sezioni sono stati presentati diversi indici sintetici di posizione e variabilità
che consentono di riassumere una distribuzione.
La scelta di quali indicatori sia più opportuno utilizzare è legata, in primo luogo, alla
tipologia dei caratteri oggetto di studio.
In presenza di un carattere qualitativo sconnesso si può utilizzare come indice sinte-
tico di posizione solo la moda. Se il carattere è ordinato è possibile avvalersi anche dei
percentili. In entrambe le situazioni la misura di variabilità propria è l’indice di Frosini
normalizzato. 8.50
In presenza di dati metrici disponiamo di una scelta più ampia di indici di posizione
e di variabilità. Si ricorda innanzitutto il carattere generale di applicazione dei percen-
tili che godono dell’importante proprietà di essere indicatori robusti. x0.25 , x0.50 e x0.75
rappresentano gli elementi base per la costruzione del grafico Box & Whiskers plot, che
consente di effettuare una descrizione quasi completa dei caratteri di tipo quantitativo con
anche l’individuazione dell’eventuale presenza di valori anomali. Dal Box & Whiskers
plot è, inoltre, possibile desumere due misure di variabilità: la differenza interquartile
x0.75 − x0.25 e il range xmax − xmin .
Si rimanda alla Sezione 11.3 per un esempio di confronto tra distribuzioni basato sull’a-
nalisi dei grafici Box & Whiskers plot. 8.51
Tra le misure di variabilità globale ricordiamo come la versione normalizzata di ∆1
sia stata proposta da Gini quale misura di concentrazione dei redditi √ e della ricchezza.
Per la misura di variabilità globale di ordine 2 vale, invece, ∆2 = 2σ . In base a tale
proprietà lo scarto quadratico medio σ , misura di dispersione di ordine 2 rispetto alla
media aritmetica, risulta essere proporzionale a ∆2 . Lo scarto quadratico medio può,
quindi, essere, implicitamente, considerato anche funzione degli indicatori elementari di
variabilità globale.
Dal criterio di scelta della media per minimizzazione del danno seguono indicazioni
per l’utilizzo congiunto degli indici di posizione e variabilità (media aritmetica µ e scarto
quadratico medio σ ) oppure (mediana x0.50 e scostamento medio assoluto dalla mediana
M [|X − x0.5 |]).
Nella Sezione 10.3 si mostrerà come sia possibile una ricostruzione approssimata del-
la distribuzione a partire dai soli indicatori media aritmetica e scarto quadratico medio
(diseguaglianza di Tchebychev). 8.52
Infine, per effettuare confronti in termini di variabilità tra distribuzioni, misurate su
scala per rapporti, che assumono valori positivi e sono caratterizzate da differenti unità
di misura o da differenti ordini di grandezza è possibile utilizzare una delle seguenti due
misure relative (numeri puri):
• coefficiente di variazione
σ
CV = ;
µ
• coefficiente di scostamento
M [|X − x0.5 |]
CS = .
x0.5
La prima misura è la più nota; la seconda ha il pregio di essere funzione di un indice di
posizione robusto. Per una presentazione di ulteriori indicatori robusti di variabilità si
rimanda a Rousseeuw PJ, Croux C 1993 Alternatives to the Median Absolute Deviation.
Journal of the American Statistical Association, 88, 1273-1283. 8.53

138
Sezione 9
Variabilità (3)
9.1

Indice
1 Ulteriori considerazioni su media e varianza di una trasformazione lineare 139
1.1 X . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
1.2 X ∗ = X − µX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
X∗
1.3 Z = X−µ 1 µX
σX = σX X − σX = σX (variabile statistica standardizzata) . . . .
X
142
1.4 U = σXX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
1.5 W = 2X . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144 9.2

1 Ulteriori considerazioni su media e varianza di una


trasformazione lineare
Considerazioni
Se
Y = aX + b
allora
M(Y ) = aM(X) + b operatore lineare
Var(Y ) = a2Var(X) non è un operatore lineare
9.3
Si considerano, a titolo di esempio, le seguenti trasformazioni lineari di una seriazione
statistica X
1.
X ∗ = X − µX
2.
X − µX
Z=
σX
3.
X
U=
σX
4.
W = 2X
9.4

139
1.1 X

valori centrali X ni fi ai di xi ni xi2 ni


3 2⊣4 4 0.2 2 0.1 12 36
6 4⊣8 8 0.4 4 0.1 48 288
9 8 ⊣ 10 8 0.4 2 0.2 72 648
20 1 132 972

M(X) = 6.6 = µ
Var(X) = 48.6 − 6.62 = 5.04
sqm(X) = σX = 2.245
0.5
0.4
0.3
0.2
0.1
0.0

−5 0 5 10 15 20

9.5

140
1.2 X ∗ = X − µX

valori centrali X∗ ni fi ai di xi∗ ni xi∗ 2 ni


-3.6 −4.6 ⊣ −2.6 4 0.2 2 0.1 -14.4 51.84
-0.6 −2.6 ⊣ 1.4 8 0.4 4 0.1 -4.8 2.88
2.4 1.4 ⊣ 3.4 8 0.4 2 0.2 19.2 46.08
20 1 0 100.8

M(X ∗ ) = 0 = µ
Var(X ∗ ) = 5.04 − 02 = 5.04
sqm(X ∗ ) = σX ∗ = 2.245
o più semplicemente
M(X ∗ ) = M(X) − M(X) = 0
Var(X ∗ ) = 12 ·Var(X) = Var(X)
0.5
0.4
0.3
0.2
0.1
0.0

−5 0 5 10 15 20

9.6

141

1.3 Z = X−µX 1 µX X
σX = σX X − σX = σX (variabile statistica standardizzata)

valori centrali Z ni fi ai di zi ni z2i ni


-1.6036 −2.049 ⊣ −1.1581 4 0.2 0.8909 0.2245 -6.4143 10.2857
-0.2673 −1.1581 ⊣ 0.6236 8 0.4 1.7817 0.2245 -2.1381 0.5714
1.069 0.6236 ⊣ 1.5145 8 0.4 0.8909 0.449 8.5524 9.1429
20 1 0 20

M(Z) = 0 = µ
Var(Z) = 1 − 02 = 1
sqm(Z) = σZ = 1
o più semplicemente
M(Z) = M(X)/σ − µ/σ = µ/σ − µ/σ = 0
Var(Z) = Var(X)/σ 2 = σ 2 /σ 2 = 1
0.5
0.4
0.3
0.2
0.1
0.0

−5 0 5 10 15 20

9.7

142
X
1.4 U = σX

valori centrali U ni fi ai di ui ni u2i ni


1.3363 0.8909 ⊣ 1.7817 4 0.2 0.8909 0.2245 5.3452 7.1429
2.6726 1.7817 ⊣ 3.5635 8 0.4 1.7817 0.2245 21.3809 57.1429
4.0089 3.5635 ⊣ 4.4544 8 0.4 0.8909 0.449 32.0713 128.5714
20 1 58.7975 192.8571

M(U) = 2.9399 = µ
Var(U) = 9.6429 − 2.93992 = 1
sqm(U) = σU = 1
o più semplicemente
M(U) = M(X)/σ
Var(U) = Var(X)/σ 2 = σ 2 /σ 2 = 1
0.5
0.4
0.3
0.2
0.1
0.0

−5 0 5 10 15 20

9.8

143
1.5 W = 2X

valori centrali W ni fi ai di wi ni w2i ni


6 4⊣8 4 0.2 4 0.05 24 144
12 8 ⊣ 16 8 0.4 8 0.05 96 1152
18 16 ⊣ 20 8 0.4 4 0.1 144 2592
20 1 264 3888

M(W ) = 13.2 = µ
Var(W ) = 194.4 − 13.22 = 20.16
sqm(W ) = σW = 4.49
o più semplicemente
M(W ) = 2 · M(X)
Var(W ) = 22Var(X) = 4 ·Var(X)
0.5
0.4
0.3
0.2
0.1
0.0

−5 0 5 10 15 20

9.9

Definizione 1 (Variabile statistica standardizzata). Data una variabile statistica X con


media µX e varianza σX2 si definisce variabile statistica standardizzata la seguente variabile
statistica
X − µX
Z=
σX
Applicando le proprietà dell’operatore media e della varianza si dimostra che

M(Z) = 0 e Var(Z) = 1

La variabile statistica standardizzata


• non ha unità di misura
• non ha ordine di grandezza
• risulta invariante rispetto a eventuali trasformazioni lineari operate su X
Se Y = aX + b abbiamo, infatti:
Y − µY aX + b − (aµX + b) aX − aµX a(X − µX ) X − µX
= = = = .
σY aσX aσX aσX σX
9.10

144
Sezione 10
Variabilità (4)
10.1

Indice
1 La varianza di un miscuglio (h gruppi) 145
2
1.1 σBetween . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
2
1.2 σWithin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
1.3 Applicazioni del risultato di scomposizione della varianza . . . . . . . . . 149
1.4 Il Rapporto di Correlazione . . . . . . . . . . . . . . . . . . . . . . . . . 150

2 Esercizi 153

3 La diseguaglianza di Tchebychev 154 10.2

1 La varianza di un miscuglio (h gruppi)


Si considerino i dati elementari
v1 , v2 , . . . , vn
riuniti in h gruppi
1 2 ... h

n1 n2 ... nh

µ1 µ2 ... µh
σ12 σ22 ... σh2
(il raggruppamento in tabelle è uno dei possibili).
Il singolo valore viene ora indicato con xi j :
j-esima osservazione ( j = 1, 2, . . . , ni ) nel gruppo i (i = 1, 2, . . . , h) 10.3

• media gruppo i-esimo


ni
1
µi = ∑ xi j
ni j=1
• varianza gruppo i-esimo
ni
1
σi2 = ∑ (xi j − µi )2
ni j=1
10.4
In base alla proprietà associativa della media aritmetica

1 k
µ= ∑ µi ni
n i=1
la media generale è la media delle medie di gruppo.

145
Teorema 1 (Scomposizione della varianza). La varianza di tutte le unità statistiche è pari
alla somma di varianza between e varianza within

σ 2 = σB2 + σW2
10.5

1.1 2
σBetween
Idea riguardo alla diversità dei gruppi:
quanto sono diversi i gruppi tra di loro
• quanto sono diverse le medie di gruppo µi
• varianza delle medie di gruppo µi
2
Definizione 2 (σBetween ).
1 h
σB2 = ∑ (µi − µ)2 ni
n i=1
10.6

1.2 2
σWithin
Idea riguardo alla variabilità all’interno dei gruppi:
quanto sono variabili i gruppi al loro interno
• media delle varianze dei gruppi σi2
2
Definizione 3 (σWithin ).
1 h 2
σW2 = ∑ σi ni
n i=1
10.7

Dimostrazione.

1 h ni 1 h ni
σ2 = ∑ ∑ (xi j − µ)2 = ∑ ∑ (xi j − µi + µi − µ)2 =
n i=1 j=1 n i=1 j=1

1 h ni
= ∑ ∑ [(xi j − µi ) + (µi − µ)]2 =
n i=1 j=1

1 h ni 
(xi j − µi )2 + (µi − µ)2 + 2(xi j − µi )(µi − µ) =

= ∑ ∑
n i=1 j=1

1 h ni 1 h ni 1 h ni
= ∑ ∑ (xi j − µi )2 + ∑ ∑ (µi − µ)2 + ∑ ∑ 2(xi j − µi )(µi − µ) =
n i=1 j=1 n i=1 j=1 n i=1 j=1
ni
1 h 1 1 h ni 1 h ni
= ∑ ni
n i=1 ni ∑ (xi j − µi )2 +
∑∑
n i=1
(µ i − µ) 2
+ ∑ ∑ 2(xi j − µi )(µi − µ) =
n i=1
j=1 j=1 j=1
( ) ( )
h h ni h ni
1 1 2
= ∑ ni σi2 + ∑ (µi − µ)2 ∑ 1 + ∑ (µi − µ) ∑ (xi j − µi ) =
n i=1 n i=1 j=1 n i=1 j=1
ni 0
h h h
1 1 2
= ∑ ni σi2 + ∑ (µi − µ)2 ni + ∑ (µi − µ) · 0 =
n i=1 n i=1 n i=1
1 h 2 1 h
= ∑ i
n i=1
σ ni + ∑ (µi − µ)2 ni = σWithin
n i=1
2 2
+ σBetween
10.8

146
Esempio 4. Si consideri la seguente popolazione di unità statistiche raggruppate in 3
gruppi
1 2 3
4 5 4 6 6
6 7 6 8 8
Abbiamo
1
µ1 = (4 + 5 + 6 + 7) = 5.5
4
1
µ2 = (4 + 6 + 6 + 8) = 6
4
1
µ3 = (6 + 8) = 7
2
e con riferimento alla proprietà associativa della media aritmetica:

1 3 1
µ= ∑ µi ni = 10 60 = 6
n i=1
10.9
A partire dalla variabile statistica medie di gruppo

i µi ni
1 5.5 4
2 6 4
3 7 2
10

le cui modalità sono le medie di gruppo, con frequenze le numerosità di gruppo, possiamo
calcolare media e varianza
µi ni µi ni µi2 ni
5.5 4 22 121
6 4 24 144
7 2 14 98
10 60 363

1 h 1 3 1
µ= ∑ modalità · frequenze = ∑ µi ni = 60 = 6
n i=1 n i=1 10
1 3 1 3 1
σB2 = ∑ (µi − µ)2 ni = ∑ µi2 ni − µ 2 = 363 − 62 = 36.3 − 36 = 0.3
n i=1 n i=1 10

la varianza delle medie di gruppo è la varianza Between. 10.10


Calcoliamo ora le varianze nei tre gruppi:

1 1
σ12 = (42 + 52 + 62 + 72 ) − 5.52 = 126 − 30.25 = 31.5 − 30.25 = 1.25
4 4

1 1
σ22 = (42 + 62 + 62 + 82 ) − 62 = 152 − 36 = 38 − 36 = 2
4 4

1 1
σ32 = (62 + 82 ) − 72 = 100 − 49 = 50 − 49 = 1.
2 2

147
10.11
È possibile ricostruire la variabile statistica varianze di gruppo

i σi2 ni
1 1.25 4
2 2 4
3 1 2
10

le cui modalità sono le varianze di gruppo, con associate come frequenze le rispettive
numerosità di gruppo.
La media di tale variabile statistica risulta
σi2 ni σi2 ni
1.25 4 5
2 4 8
1 2 2
10 15

1 h 1 3 1
σW2 = ∑ modalità · frequenze = ∑ σi2 ni = 15 = 1.5.
n i=1 n i=1 10
10.12
La varianza generale calcolata su tutte le unità statistiche può essere ottenuta come

σ 2 = σB2 + σW2 = 0.3 + 1.5 = 1.8

Si può, infatti, verificare che


1 2
σ2 = (4 + 52 + 62 + 72 + 42 + 62 + 62 + 82 + 62 + 82 ) − 62
10
1
= 378 − 36 = 37.8 − 36 = 1.8
10
ovvero

xi ni xi2 ni
4 2 32
5 1 25
6 4 144
7 1 49
8 2 128
10 378
1
σ 2 = M(X 2 ) − µ 2 = 378 − 62 = 37.8 − 36 = 1.8
10
10.13

148
1.3 Applicazioni del risultato di scomposizione della varianza
Il risultato di scomposizione della varianza

σ 2 = σBetween
2 2
+ σWithin

trova largo impiego nelle analisi di Marketing per rispondere, ad esempio, al seguente
quesito:
è opportuno effettuare una segmentazione delle unità statistiche in funzione della variabile
di raggruppamento utilizzata nello scomporre la varianza?
Esempi
• Studio del livello di spesa in funzione della fascia di età oppure della regione
geografica.
• Definizione della strategia di comunicazione aziendale: pianificare un’unica cam-
pagna o adottare comunicazioni diverse in funzione, ad esempio, dell’età o della
zona di appartenenza?
10.14
Il risultato di scomposizione della varianza consente, infatti, di verificare se il comporta-
mento delle unità statistiche può essere ritenuto sostanzialmente diverso tra i gruppi.
• La varianza Between, varianza delle medie di gruppo, misura quanto sono tra loro
diverse le medie di gruppo µi
e, quindi, quanto diverso è il comportamento tra i soggetti appartenenti a diversi
gruppi.
• La varianza Within, media delle varianze di gruppo, fornisce una sintesi del livello
di variabilità presente in ciascun gruppo: una sintesi di quanto le medie di gruppo
sono rappresentative dei valori all’interno di ciascun gruppo.
10.15

Quando ha senso effettuare una segmentazione delle unità statistiche?


Devono essere verificate entrambe le seguenti condizioni:
1. la varianza Between deve assumere valore grande

σ 2 ≥ σB2 ≫ 0

2. la varianza Within deve essere piccola

σ 2 ≫ σW2 ≥ 0

• medie di gruppo tra loro diverse


• medie di gruppo rappresentative dei rispettivi gruppi
(omogeneità dei valori all’interno di ciascun gruppo)
10.16

149
1.4 Il Rapporto di Correlazione
Un indice sintetico che consente di stabilire se è opportuno effettuare una segmentazione
delle unità statistiche è il Rapporto di Correlazione
(normalizzazione della varianza Between)
Definizione 5 (Rapporto di correlazione).

σB2
η2 =
σ2

Proprietà
• η 2 = 0 ↔ σB2 = 0
medie di gruppo tutte uguali
• η 2 = 1 ↔ (σB2 = σ 2 e σW2 = 0)
medie di gruppo diverse e fortemente rappresentative delle distribuzioni di gruppo,
che risultano degeneri in quanto le varianze di gruppo sono tutte pari a 0
10.17
Con riferimento all’esempio precedente abbiamo ottenuto

σB2 = 0.3 σW2 = 1.5 σ 2 = 1.8

quindi
0.3
η2 = = 0.1667
1.8
il rapporto di correlazione assume un valore molto basso;
non ha, quindi, senso effettuare una segmentazione delle unità statistiche in funzione della
variabile di raggruppamento che è stata presa in considerazione. 10.18
Un’analisi grafica preliminare è sempre utile al fine di esaminare la possibilità di effet-
tuare una segmentazione. Possiamo rappresentare i valori assunti dalle unità statistiche
appartenenti ai 3 gruppi
1 2 3
4 5 4 6 6
6 7 6 8 8
10
9
8
7
6
5
4
3
2
1
0

Gruppo 1 Gruppo 2 Gruppo 3

10.19
Possiamo aggiungere al grafico precedente le medie di gruppo

150
10
9
8
7
6
5
4
3
2
1
0

Gruppo 1 Gruppo 2 Gruppo 3

10.20
Dall’analisi del grafico si evince un’elevata dispersione dei valori di alcuni gruppi dalle
rispettive medie
10
9
8
7
6
5
4
3
2
1
0

Gruppo 1 Gruppo 2 Gruppo 3

→ possibile sintomo che le medie non sono rappresentative 10.21

151
Un’efficace analisi grafica può anche essere condotta, in presenza di una numerosità
adeguata di unità statistiche, confrontando i Box & Whiskers Plot delle distribuzioni di
gruppo.
I dati considerati negli esempi che seguono, sono riferiti a 1472 osservazioni dall’indagine
sul comportamento delle famiglie condotta dall’Unione Europea (anno 1994, Belgio).
(Verbeek M, 2008, A Guide to Modern Econometrics John Wiley) 10.22

Esempio 6 (Distribuzione dello stipendio rispetto al genere).

40
30
20
10

0 1

0 = femmine, 1 = maschi
10.23

Esempio 7 (Distribuzione dello stipendio rispetto al titolo di studio).


40
30
20
10

1 2 3 4 5

1 = livello di studio minimo . . . 5 = livello di studio massimo 10.24

152
Esempio 8 (Distribuzione dello stipendio rispetto al genere & titolo di studio).

40
30
20
10

01 02 03 04 05 11 12 13 14 15

0 1 = femmine con livello di studio minimo ... 0 5 = femmine con livello di studio massimo
1 1 = maschi con livello di studio minimo ... 1 5 = maschi con livello di studio massimo
10.25

2 Esercizi
Esercizio 9 (T 206, 25.09.2003, 1). La qualità dei prodotti di un’azienda produttrice
di materiali edili, strutturata su due differenti linee produttive (Li ; i = 1, 2), è misurata
attraverso la resistenza a pressione (Y ) rilevata sui provini prodotti dalle due linee.
Nel seguente prospetto sono riportati, per ciascuna delle due linee, la media e il coeffi-
ciente di variazione di Y , calcolati su un certo numero di provini:
linea n◦ provini µi CVi
L1 50 32 0.065
L2 100 29 0.073
1. Calcolare media e varianza di Y sul totale dei 150 provini.
2. Valutare, tramite un opportuno indice, se possiamo ritenere diversi i livelli medi di
resistenza dei prodotti nelle due linee.
10.26

Esercizio 10 (T 258-3, 15.07.2010, 1). Con riferimento a 80 soggetti si riportano le di-


stribuzioni del tempo in minuti, Y , dedicato alla visita di una mostra, distinte rispetto al
livello di conoscenza artistica (’visitatori esperti’ e ’visitatori occasionali’):
’visitatori esperti’ ’visitatori occasionali’
hi−1 ⊣ hi fi hi−1 ⊣ hi fi
5 ⊣ 10 0.40 5 ⊣ 10 0.76
10 ⊣ 20 0.40 10 ⊣ 20 0.08
20 ⊣ 25 0.20 20 ⊣ 25 0.16
1.00 1.00
1. Si rappresentino graficamente le distribuzioni delle frequenze relative per le due
tipologie di visitatori e le si confronti mediante opportuni indici di posizione e di
variabilità;
2. sapendo che la media di Y , riferita a tutte le 80 unità statistiche, è pari a 11.625 e
che il numero di soggetti esperti è pari a 30 si calcoli, applicando il risultato della
scomposizione della varianza, il valore della varianza della variabile Y riferita a
tutte le 80 unità statistiche. ✍ 10.27

153
3 La diseguaglianza di Tchebychev
Definizione 11 (Diseguaglianza di Tchebychev). Sia X una variabile statistica con media
µ = M(X) e varianza σ 2 = Var(X).
Assegnato un qualsiasi valore t > 1 si consideri l’intervallo dei valori di X, centrato
rispetto alla media µ e di raggio tσ

(µ − tσ , µ + tσ ).

La frequenza relativa, riferita alle unità statistiche che assumono valore al di fuori di tale
intervallo, è al più eguale a t12
1
∑ fi ≤ t 2 .
i:|x −µ|≥tσ
i
10.28
Di conseguenza la frequenza relativa, riferita alle unità statistiche che assumono valore
all’interno dell’intervallo, sarà almeno pari a 1 − t12

1
∑ fi ≥ 1 − .
i:|xi −µ|≤tσ
t2

Valori tipici
t t12 1 − t12
2 0.25 0.75
3 0.1111 0.8889
4 0.0625 0.9375
5 0.04 0.96
10.29
Osservazione
È possibile rappresentare il raggio dell’intervallo utilizzato nella diseguaglianza di Tche-
bychev anche in funzione del coefficiente di variazione. Vale infatti:
µ σ
tσ = tσ = t · · µ = (t ·CV ) · µ.
µ µ

Osservazione
Il coefficiente di variazione esprime l’entità dello scarto quadratico medio rispetto alla
media. Se, ad esempio
σ
CV = = 0.03,
µ
vale
σ = 0.03µ = 3% di µ.
10.30

Osservazione
La diseguaglianza di Tchebychev consente di ottenere un intervallo di valori plausibili

µ ± tσ

per una generica variabile statistica X a partire dai soli valori di media e varianza della
stessa. Lo scostamento assoluto rispetto alla media può anche essere rappresentato in
termini di variazione percentuale rispetto alla media:

µ ± t · 100CV · µ%.
10.31

154
Esempio 12.

µ − tσ µ µ + tσ

• l’area in GRIGIO è al più pari a t12


• l’area in BIANCO è almeno pari a 1 − t12
10.32
Esempio 13.
0.25
0.20
0.15
0.10
0.05
0.00

10 15 20 25

µX = 16.6986 σX = 2.9653 t = 2
• l’area in GRIGIO è al più pari a 212 = 0.25 = 25%
• l’area in BIANCO è almeno pari a 1 − 212 = 0.75 = 75%
• avendo posto t = 2 segue che almeno il 75% delle osservazioni assume valore
nell’intervallo

(µ − 2σ , µ + 2σ ) = 16.6986 ± 2 · 2.9653 = 16.6986 ± 5.9306 = (10.768, 22.6292)

• tenendo conto che il coefficiente di variazione risulta


σ 2.9653
CV = = = 0.1776
µ 16.6986
segue che almeno il 75% delle osservazioni assume valore nell’intervallo

µ ± (2 · 100CV )µ% = 16.6986 ± 2 · 17.76% · 16.6986 =


= 16.6986 ± 35.52% · 16.6986.
10.33

155
Esempio 14.
0.015
0.010
0.005
0.000

350 400 450

µX = 375.8302 σX = 23.3231 t = 2.5


• l’area in GRIGIO è al più pari a 2.51 2 = 0.16 = 16%
• l’area in BIANCO è almeno pari a 1 − 2.51 2 = 0.84 = 84%
• almeno l’84% delle osservazioni assume valore nell’intervallo
(µ − 2.5σ , µ + 2.5σ ) = 375.8302 ± 2.5 · 23.3231 = 375.8302 ± 58.30775
23.3231
• tenendo conto che il coefficiente di variazione risulta CV = σµ = 375.8302 = 0.0621
segue che almeno l’84% delle osservazioni assume valore nell’intervallo
µ ± (2.5 · 100CV )µ% = 375.8302 ± 2.5 · 6.21% · 375.8302 =
= 375.8302 ± 15.525% · 375.8302.
10.34
Esempio 15.

77.0 77.5 78.0 78.5

µX = 78.0939 σX = 0.3815 t = 2.5


1
• l’area in GRIGIO è al più pari a = 0.16 = 16%
2.52
• l’area in BIANCO è almeno pari a 1 − 2.51 2 = 0.84 = 84%
• almeno l’84% delle osservazioni assume valore nell’intervallo
(µ − 2.5σ , µ + 2.5σ ) = 78.0939 ± 2.5 · 0.3815 = 78.0939 ± 0.95375
0.3815
• tenendo conto che il coefficiente di variazione risulta CV = σµ = 78.0939 = 0.0049
segue che almeno l’84% delle osservazioni assume valore nell’intervallo
µ ± (2.5 · 100CV )µ% = 78.0939 ± 2.5 · 0.49% · 78.0939 =
= 78.0939 ± 1.225% · 78.0939.
10.35

156
Sezione 11
Indici di forma
11.1

Indice
1 Asimmetria 157
1.1 Simmetria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
1.2 Asimmetria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
1.3 Due particolari situazioni di asimmetria . . . . . . . . . . . . . . . . . . 162
1.4 Caratterizzazione indici di posizione (1) . . . . . . . . . . . . . . . . . . 163
1.5 Caratterizzazione indici di posizione (2) . . . . . . . . . . . . . . . . . . 163

2 Misure di asimmetria 164

3 Considerazioni conclusive sui Box & Whiskers plot 167

4 Curtosi 168
4.1 Tipologie curtosi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169

5 Esercizi 170 11.2

1 Asimmetria
1.1 Simmetria
Definizione 1 (funzione (continua) simmetrica). Una funzione f (x) si definisce simme-
trica rispetto a un centro c se ∀k > 0 vale:

f (c − k) = f (c + k)

c c−k c c+k

11.3

157
Esempio 2. Anche la seguente funzione (continua a intervalli) è simmetrica rispetto al
centro c

c−k c c+k
11.4

Esempio 3. Anche la seguente funzione (di variabile discreta, ovvero definita su un


insieme di valori discreti) è simmetrica rispetto al centro c

c−k c c+k
11.5

Definizione 4 (Variabile statistica simmetrica). Una variabile statistica X si definisce


simmetrica rispetto al centro c se:
• per ogni xi = c − k
• esiste un valore corrispondente x j = c + k (simmetrico)
tale che
f (xi ) = f (x j )

X simmetrica → M(X) = c
Si ricorda che la media aritmetica è il baricentro (punto di equilibrio delle frequenze) di
ogni distribuzione;

158
in presenza di una variabile statistica X con distribuzione simmetrica rispetto a c vale
M(X) = c = baricentro
11.6

X simmetrica → x0.5 = c
Osservando il grafico di una variabile statistica simmetrica

c
c

si evince che (almeno) metà delle unità statistiche hanno valore non superiore a c e (al-
meno) metà delle unità statistiche hanno valore non inferiore a c; il punto c può, quindi,
essere interpretato come la mediana della distribuzione.
11.7

X simmetrica → Moda = c
Se la moda esiste, coincide con il centro di simmetria

c c

11.8

X simmetrica → M (X − µ)2r+1 = 0, r = 0, 1, 2, . . .
 

Esplicitando l’espressione del momento centrale di ordine dispari rispetto alla media
aritmetica abbiamo
k
M (X − µ)2r+1 = ∑ (xi − µ)2r+1 fi = 0, r = 0, 1, 2, . . .
 
i=1

c
c

Scarti di eguale entità ma con segno opposto sono ponderati con le medesime frequenze,
quindi si compensano.
Si ricordi per r = 0 l’interpretazione della media aritmetica come baricentro di una distri-
buzione di frequenze, M(X − µ) = 0.
11.9

159
xp x0.5 x1−p

X simmetrica → x0.5 − x p = x1−p − x0.5 , ovvero x0.5 = 12 (x p + x1−p ) con 0 ≤ p < 0.5
La frequenza delle unità statistiche con modalità minori o eguali a x p coincide con quella
delle unità statistiche con modalità maggiori o eguali a x1−p .
11.10

Riepilogo

simmetria → M(X) = x0.5 = c

?
M(X) = x0.5 → simmetria
Il fatto che la media aritmetica coincida con la mediana è solo un sintomo del fatto
che la distribuzione possa essere simmetrica.
Si considerino, a titolo di esempio, le seguenti due distribuzioni

xi ni yi ni
1 8 7 5
10 3 15 4
18 9 25 2
20 35 5
45 4
20

Entrambe le distribuzioni non sono simmetriche, ma vale x0.5 = µX = 10 e y0.5 =


µY = 25.

M (X − µ)2r+1 = 0,
 
simmetria → r = 0, 1, 2, . . .

M (X − µ)2r+1 = 0,
 
r = 0, 1, 2, . . . → simmetria
Se tutti i momenti centrali rispetto alla media sono nulli allora la distribuzione è
simmetrica.
– Il momento centrale di ordine 1 rispetto alla media, M(X − µ), è sempre nullo,
a prescindere dalla forma della distribuzione.
– Se verifico che il momento centrale di ordine 3 rispetto alla media, M (X − µ)3 ,
 

è nullo, ho solo un sintomo del fatto che la distribuzione possa essere simme-
trica.

1
simmetria → x0.5 − x p = x1−p − x0.5 ovvero x0.5 = (x p + x1−p ), 0 ≤ p < 0.5
2
11.11
11.12

160
1.2 Asimmetria
Esempio 5. Una funzione non simmetrica si definisce asimmetrica.

11.13

11.14

161
1.3 Due particolari situazioni di asimmetria
Definizione 6 (Asimmetria positiva). Una distribuzione unimodale si definisce asimme-
trica positiva quando 12 (x p + x1−p ) > x0.5 per ogni 0 ≤ p < 0.5.
Una distribuzione asimmetrica positiva è, quindi, caratterizzata da una coda destra più
pesante (lunga) della sinistra (fat/heavy right tail). È anche detta obliqua verso destra.

xp x0.5 x1−p

11.15

Definizione 7 (Asimmetria negativa). Una distribuzione unimodale si definisce asimme-


trica negativa quando 12 (x p + x1−p ) < x0.5 per ogni 0 ≤ p < 0.5.
Una distribuzione asimmetrica negativa è, quindi, caratterizzata da una coda sinistra più
pesante (lunga) della destra (fat/heavy left tail). È anche detta obliqua verso sinistra.

xp x0.5 x1−p

11.16

162
1.4 Caratterizzazione indici di posizione (1)
Nel caso di una distribuzione asimmetrica positiva vale il seguente ordinamento:

Moda < x0.5 < µ

Moda x0.5 µ

11.17

1.5 Caratterizzazione indici di posizione (2)


Nel caso di una distribuzione asimmetrica negativa vale il seguente ordinamento:

µ < x0.5 < Moda

µ x0.5 Moda

11.18

163
2 Misure di asimmetria
Definizione 8 (Indice di asimmetria di Gini - Confronto Normalizzato tra media e media-
na).
µ − x0.5 µ − x0.5
=
D1 (x0.5 ) M[|X − x0.5 |]
µ−x0.5
• distribuzione asimmetrica positiva → 0< M[|X−x0.5 |] ≤ +1
µ−x0.5
• distribuzione asimmetrica negativa → −1 ≤ M[|X−x <0
0.5 |]
µ−x0.5
• distribuzione simmetrica → M[|X−x0.5 |] =0
(cfr. Frosini 1990 Lezioni di Statistica. Parte prima, Vita e Pensiero, Milano) 11.19

Definizione 9 (Indice di Fisher (skewness)).


"  #
M (X − µ)3 X −µ 3
 
γ1 = =M
σ3 σ

È un indice frequentemente utilizzato in ambito finanziario. Si tratta di un indice relativo.


Osservazione
Dalla seconda formulazione dell’indice si evince che γ1 è il momento terzo della variabile
standardizzata. Quindi se Y = a + bX, abbiamo:
γ1 (Y ) = γ1 (a + bX) = γ1 (X).
11.20

Osservazione
L’indice di Fisher è solo sintomo di simmetria/asimmetria !!
• se γ1 > 0 → tendenza alla asimmetria positiva
• se γ1 = 0 → tendenza alla simmetria
• se γ1 < 0 → tendenza alla asimmetria negativa
È stato mostrato in letteratura, come l’indice γ1 possa assumere valore nullo anche in
presenza di asimmetria positiva o negativa.
Gli indici considerati sono solo sintomo di simmetria/asimmetria !!
Un valore positivo dell’indice di Gini indica, ad esempio, che la distribuzione è sicu-
ramente asimmetrica e che non sarà caratterizzata da asimmetria negativa secondo la
Definizione 7 riportata sopra.

Osservazione
L’indice di Fisher può, inoltre, non rispettare la definizione di ordinamento tra distribu-
zioni asimmetriche descritta in Frosini 1990 Lezioni di Statistica. Parte prima, Vita e
Pensiero, Milano.
11.21

Definizione 10 (Ordinamento tra distribuzioni asimmetriche). Date due distribuzioni X e


Y entrambe asimmetriche positive (negative), allora Y presenta asimmetria superiore a X
se y p − y0.5 ≥ x p − x0.5 (ovvero y p − y0.5 ≤ x p − x0.5 ) per ogni 0 < p < 1.
11.22
µ−x0.5
Esempio 11. Si calcolino le misure di asimmetria M[|X−x0.5 |] e γ1 con riferimento alla
seguente variabile statistica
xi ni Ni
1 1 1
2 2 3
3 4 7
4 3 10
10

164
La mediana risulta:
x(5) + x(6)
x0.5 = = 3.
2
11.23
Calcolo dello scostamento assoluto dalla mediana
xi ni |xi − x0.5 | |xi − x0.5 |ni
1 1 2 2
2 2 1 2
3 4 0 0
4 3 1 3
10 7

1 h 1
D1 (x0.5 ) = ∑ |xi − x0.5 |ni = 10 7 = 0.7.
n i=1
11.24
Calcolo di media e varianza
xi ni xi ni xi2 ni
1 1 1 1
2 2 4 8
3 4 12 36
4 3 12 48
10 29 93
M(X) = µ = 2.9
M(X 2 ) = 9.3
Var(X) = σ 2 = M(X 2 ) − µ 2 = 9.3 − 2.92 = 9.3 − 8.41 = 0.89
σ = 0.9434.
Otteniamo, quindi
µ − x0.5 2.9 − 3
= = −0.1429.
M[|X − x0.5 |] 0.7
Sintomo di distribuzione caratterizzata da asimmetria negativa. 11.25
Calcolo di
 1 k
M (X − µ)3 = ∑ (xi − µ)3 ni

n i=1

xi ni (xi − µ) (xi − µ)3 (xi − µ)3 ni


1 1 −1.9 −6.859 −6.859
2 2 −0.9 −0.729 −1.458
3 4 0.1 0.001 0.004
4 3 1.1 1.331 3.993
10 −4.320
1
M (X − µ)3 = (−4.32) = −0.432
 
10
M (X − µ)3
 
−0.432 0.432
γ1 = 3
= 3
=− = −0.5145
σ 0.9434 0.8396
indizio di asimmetria negativa. 11.26
Si può controllare come sia debolmente verificata la condizione sui percentili per una
distribuzione caratterizzata da asimmetria negativa; si confronta in figura l’andamento di
1
2 (x p + x1−p ) rispetto a x0.5 .

165
5
4
x0.5

3
2
1
0

0.0 0.1 0.2 p 0.3 0.4 0.5


11.27

Esempio 12 (Contro-esempio).
classi xi ni
0 ⊣ 10 5 14
10 ⊣ 20 15 9
20 ⊣ 30 25 12
30 ⊣ 40 35 8
• µ=  18.2558
• M (X − µ)3 = 193.4221
• x0.5 = 18.8889, M [|X − x0.5 |] = 10.0388
• σ = 11.1482
• γ1 = 0.1396
µ−x0.5
• M[|X−x = −0.0631.
0.5 |] 11.28
Gli indici considerati danno informazioni discordanti. Si può controllare come, nel pre-
sente caso, non sia verificata la condizione sui percentili per la definizione di asimmetria
negativa o positiva; si confronta in figura l’andamento di 12 (x p + x1−p ) rispetto a x0.5 .
La distribuzione può solo essere qualificata come asimmetrica.
30
25
20

x0.5
15
10

0.0 0.1 0.2 p 0.3 0.4 0.5


11.29

166
3 Considerazioni conclusive sui Box & Whiskers plot
Si ricorda che possono essere utilizzati per avere una idea sintetica della distribuzione
e per effettuare dei confronti. A tal fine occorrerà, quindi, tenere conto delle seguenti
caratteristiche, riassunte nel Box & Whisker plot:
• livello medio della distribuzione, descritto da
x0.25 , x0.5 e x0.75 ;
• presenza di valori anomali, che sono posizionati oltre i baffi;
• variabilità della distribuzione, descritta da
x0.75 − x0.25 e xmax − xmin ;
• eventuale asimmetria della distribuzione, confrontando
x0.75 − x0.5 e x0.5 − x0.25 .
11.30
Riprendiamo l’Esempio su ’altezza della navata’ e lunghezza totale delle cattedrali inglesi.
Distribuzione 'altezza della navata' Distribuzione 'lunghezza totale'
30

160
25

120
20

80
15

60

g r g r

Altezza della navata. Il valore della mediana per le cattedrali con stile gotico è simile a
quello delle cattedrali con stile romanico (circa 23 metri). La distribuzione dell’altezza
delle cattedrali con stile romanico è caratterizzata da una minore variabilità, la differenza
interquartile risulta circa pari a 3 metri, mentre per quelle in stile gotico è di circa 8 metri.
Entrambe le distribuzioni non sembrano presentare sintomi di asimmetria.
Lunghezza totale. Le cattedrali con stile romanico hanno generalmente una dimensione
superiore a quelle in stile gotico: almeno il 75% di queste ultime ha una lunghezza infe-
riore a 153 metri, valore mediano della lunghezza delle cattedrali in stile romanico. La
lunghezza delle cattedrali con stile gotico è caratterizzata da una maggiore variabilità, la
differenza interquartile risulta circa pari a 60 metri, mentre per quelle in stile romanico
il valore è di circa 30 metri. La distribuzioni per le cattedrali in stile romanico sembra
presentare una asimmetria negativa; in effetti, anche per la lunghezza delle cattedrali in
stile gotico abbiamo x0.75 − x0.5 < x0.5 − x0.25 , ma solo per quelle in stile romanico vale
xmax − x0.5 < x0.5 − xmin .
Sono, quindi, confermate le peculiarità dei due stili architettonici. Le cattedrali in stile
gotico hanno, generalmente, un aspetto più slanciato rispetto a quelle in stile romani-
co. L’elevato livello di variabilità, rilevato per gli edifici in stile gotico, che caratterizza
entrambe le caratteristiche considerate, può essere giustificato dalla presenza, in misu-
ra pressoché uniforme, di cattedrali di piccola, media e grande dimensione. Non sono
presenti dati anomali. 11.31

167
Esercizio 13. Si commentino i seguenti Box & Whiskers plot

Distribuzione rapporto altezza/'lunghezza totale' della navata

Bath

0.30
Ripon

0.25
0.20
0.15

g r

che descrivono la distribuzione del rapporto, W , tra l’altezza, Y , e la lunghezza totale,


X, delle navate delle cattedrali inglesi in funzione del loro stile architettonico (gotico o
romanico)
yi altezza della navata della i-esima cattedrale
wi = = , i = 1, 2, . . . , 25.
xi lunghezza totale della navata della i-esima cattedrale
11.32

4 Curtosi
Il concetto trova particolare utilizzo in finanza, ad esempio con riferimento alle serie dei
prezzi relativi dei titoli o delle valute.
Si confronta la forma della distribuzione con quella del modello Normale, che verrà
presentato nella sezione sul calcolo delle Probabilità.
0.4
0.3
0.2
0.1
0.0

−4 −2 0 2 4

distribuzione normale 11.33

168
4.1 Tipologie curtosi
Definizione 14. Distribuzione leptocurtica Una distribuzione si definisce leptocurtica
quando presenta, rispetto alla Normale, una frequenza superiore nei valori sulle code e
nei valori intorno alla media (fat/heavy tails).

0.3
0.2

distribuzione Normale
0.1
0.0

−5 0 5

11.34

Definizione 15. Distribuzione platicurtica Una distribuzione si definisce platicurtica quan-


do presenta, rispetto alla Normale, una frequenza superiore nei valori intermedi tra la
media e le code.
0.30
0.25

distribuzione Normale
0.20
0.15
0.10
0.05
0.00

−5 0 5

11.35

169
Definizione 16 (Indici di curtosi (kurtosis)).
"  #
M (X − µ)4 X −µ 4
 
γ2 = =M
σ4 σ
"  #
M (X − µ)4 X −µ 4
 
β2 = −3 = M −3
σ4 σ

• se la distribuzione è leptocurtica ↔ γ2 > 3


• se la distribuzione è platicurtica ↔ γ2 < 3
• se la distribuzione è mesocurtica ↔ γ2 = 3
• se la distribuzione è leptocurtica ↔ β2 > 0
• se la distribuzione è platicurtica ↔ β2 < 0
• se la distribuzione è mesocurtica ↔ β2 = 0
11.36

Osservazione
La seconda formulazione degli indici fa riferimento al momento quarto della variabile
standardizzata.
Quindi, se Y = a + bX, abbiamo

γ2 (Y ) = γ2 (X) e β2 (Y ) = β2 (X).

Osservazione
Una distribuzione si definisce mesocurtica se ha lo stesso indice di curtosi della Normale
γ2 = 3 ovvero β2 = 0.
11.37

5 Esercizi
Esercizio 17 (T 206, 25.09.2003, 3). Data la seguente distribuzione di frequenze relative
della variabile statistica X:
xi 10 35 50 A B
fi 0.1 f2 0.3 f4 f5
1. Si determinino i valori di A, B, f2 , f4 e f5 in modo che X risulti simmetrica rispetto
alla mediana pari a 50.
seguenti momenti centrali: µ̄ 5 = M (X − µ)5 , µ̄ 7 = M (X − µ)7
   
2. Calcolare il valore dei
e µ̄ 9 = M (X − µ)9 .


3. Si calcolino la varianza e l’indice di asimmetria delle variabili statistiche:

Y = X −2 e W = 3X.
11.38

Esercizio 18. Sia γ1 (X) l’indice di asimmetria di una variabile statistica X


Si ricavi l’espressione dell’indice di asimmetria della variabile statistica

Y = a+b·X

in funzione di γ1 (X).
11.39

170
Esercizio 19 (T 231, 11.01.2007, 3). Si vuole studiare il numero di prodotti venduti in
funzione del loro prezzo Y e del modo X in cui sono stati pubblicizzati (c1 = a mezzo stam-
pa o c2 = a mezzo televisione). Nella seguente tabella vengono riportate le distribuzioni
di frequenze relative condizionate riguardanti le v.s. Y |X = ci (i = 1, 2):
Y |X = ci 0 ⊣ 10 10 ⊣ 20 20 ⊣ 30
c1 0.5 0 0.5 1
c2 0.1 0.8 0.1 1
1. Sapendo che le frequenze marginali assolute di X sono pari a 150 e 250, si rico-
struisca la distribuzione delle frequenze congiunte.
2. Calcolare la moda ed un opportuno indice di mutabilità normalizzato per la v.s. X.
3. Dopo aver rappresentato graficamente la distribuzione di frequenza della v.s. Y , se
ne calcoli la mediana, la media, la varianza e l’indice di asimmetria.
4. Sia W = 2 + 3Y ; utilizzando le opportune proprietà si calcolino M(W ), Var(W ) e
l’indice di asimmetria di W .
11.40

Esercizio 20 (T 250, 04.06.2009, 1). È data la seguente seriazione X:

i hi−1 ⊣ hi ni
1 10 ⊣ 16 10
2 16 ⊣ 30 20
3 30 ⊣ h3 10

1. Si calcoli il valore da attribuire ad h3 , sapendo che la densità di frequenza (assoluta)


della terza classe risulta pari a 1.31579 e si dia una rappresentazione grafica della
distribuzione X.
2. Si calcolino media aritmetica, varianza e coefficiente di variazione di X.
3. Si indichi, almeno approssimativamente, il valore assunto dalla media potenziata di
X di ordine −1000.
4. Si indichi, senza effettuare calcoli e giustificando la risposta, se la distribuzione di
X è simmetrica.
5. Si calcoli il valore da attribuire ad h3 nell’ipotesi che M(X) = 23. ✍
11.41

171
Sezione 12
Rapporti statistici
12.1

Indice
1 Introduzione 173

2 Rapporti Statistici 175

3 Rapporti di composizione 175

4 Rapporti di densità 176

5 Indici di penetrazione relativi 176

6 Indici inter-popolazione 177

7 Indici inter-temporali 178


7.1 Numeri indici a base fissa e a base mobile . . . . . . . . . . . . . . . . . 178
7.2 Cambiamento di base (NIBF) . . . . . . . . . . . . . . . . . . . . . . . . 180
7.3 Trasformazione NIBF in NIBM . . . . . . . . . . . . . . . . . . . . . . 180
7.4 Variazione relativa media . . . . . . . . . . . . . . . . . . . . . . . . . . 181
7.5 Passaggio da NIBM a NIBF . . . . . . . . . . . . . . . . . . . . . . . . 182
7.6 Indicazioni utili per l’analisi delle serie finanziarie . . . . . . . . . . . . . 183
7.7 Numeri Indici composti . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
7.8 Numeri Indici dei prezzi . . . . . . . . . . . . . . . . . . . . . . . . . . 184
7.9 Numeri Indici di borsa . . . . . . . . . . . . . . . . . . . . . . . . . . . 186

8 Rapporti di durata e ripetizione 187

9 Rapporti statistici tipici delle scienze del turismo 188


9.1 Propensione turistica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
9.2 Offerta turistica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
9.3 Flussi turistici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188

10 Esercizi 189 12.2

1 Introduzione
Nelle scienze economiche e sociali vengono trattate misure di:
• conteggio (N)
• quantità (Q)
• prezzo/valore unitario

173
• valore globale
dove:
• valore globale = N· prezzo unitario
• valore globale = Q· prezzo unitario
In molte circostanze è più opportuno ricorrere a misure relative (ad esempio ’pro-capite’).
Si ricorda come le misure relative possano essere definite solo per caratteri misurati su
scala per rapporti.
Consideriamo, quindi, le manifestazioni di una generica grandezza G, definita su scala
per rapporti, riferita alla popolazione P al tempo t:
G(P,t)
12.3

Definizione 1 (Cross section). Le manifestazioni di


G(P,t) = G(P)
per un t prefissato, al variare di P costituiscono una cross section. Si osservano più
popolazioni nel medesimo riferimento temporale t.
Esempio 2. Il Prodotto Interno Lordo delle nazioni dell’area Euro nel 2013. 12.4

Definizione 3 (Serie storica). Le manifestazioni di


G(P,t) = G(t) = xt
per P prefissato, al variare di t costituiscono una serie storica.

Riferimento temporale
• istante t → serie storica di stock
x0 , x1 , x2 , . . . , xT
(esempio: prezzo, popolazione residente, . . .)
• intervallo (t − 1,t] → serie storica di flusso
x1 , x2 , . . . , xT
(esempio: produzione, vendite, nascite, . . .)
12.5

Rapporti tra due grandezze


(per i confronti)

abitanti Nt
R1 = =
chilometri quadrati km2

Qt
R2 = consumo per abitante =
Nt

Qt
R3 = produzione per ettaro =
ha

Vt
R4 = fatturato per addetto =
Nt

Rt
R5 = ROI, Return On Investment =
It
..
. 12.6

174
Osservazione
Nei precedenti rapporti R2 , R3 , R4 e R5 :
• a numeratore figura una grandezza di flusso,
• mentre a denominatore figura una grandezza di stock;
Occorre prestare particolare attenzione a tali situazioni e domandarsi, in particolare, a
quale istante temporale è attribuita la grandezza a denominatore ed, eventualmente, come
renderla il più possibile rappresentativa di tutto l’intervallo temporale a cui è riferito il
numeratore.
Ad esempio, una vendita di titoli con elevata rischiosità potrebbe avere una forte influenza
sulla valutazione ROI. 12.7

2 Rapporti Statistici
Si presentano nel seguito i seguenti rapporti statistici
• rapporti di composizione
• rapporti di densità (assoluti)
• indici di penetrazione relativi (rapporti di rapporti)
• indici inter-popolazione
• indici inter-temporali
• rapporti di durata (giacenza media di magazzino)
• rapporti di ripetizione (rotazione stock)
• alcuni rapporti statistici tipici delle scienze del turismo
12.8

3 Rapporti di composizione
Definizione 4. Data una popolazione P, i sottoinsiemi P1 , P2 , . . . , Ph , Pi ⊂ P, i = 1, 2, . . . , h,
costituiscono una partizione di P se:
1. hi=1 Pi = P
S

2. Pi ∩ Pj = ∅

12.9

PARTE
quoziente =
TUTTO

175
Definizione 5. Data una popolazione P, una partizione di P e una grandezza G misurata
1. sugli elementi di P
2. in uno stesso istante/intervallo temporale t
si definisce rapporto di composizione il rapporto

G(Pi ,t)
Ri =
G(P,t)

quindi
h
∑ Ri = 1 (oppure 100)
i=1

Le frequenze relative fi sono un esempio di rapporti di composizione. 12.10

4 Rapporti di densità
Definizione 6. Data una popolazione P, e due grandezze G, H, con H misura di ’dimen-
sione’ di P si definisce rapporto di densità il rapporto

G(P,t)
.
H(P,t)
12.11
Esempio 7. Ricettività alberghiera Italia (1998)
Alberghi Camere N. medio N. medio
Esercizi N. % N. % camere letti
⋆⋆⋆⋆⋆ 90 0.3% 8390 0.9% 93 177
⋆ ⋆ ⋆⋆ 2450 7.2% 175753 18.3% 72 135
⋆⋆⋆ 12401 36.7% 450908 46.9% 36 74
⋆⋆ 10094 29.9% 210893 21.9% 21 39
⋆ 8767 25.9% 115001 12.0% 13 24
Tutti 33802 100.0% 960945 100.0% 28 55
↑ ↑ ↑ ↑
rapporti di composizione rapporti di densità

Fonte: Federalberghi, Primo rapporto sul sistema alberghiero in Italia, 1998

Osservazione
Il numero medio di camere è un rapporto di densità:

G(P,t)
H(P,t)

• G(P,t): numero totale di camere della popolazione P (o del sottoinsieme Pi )


• H(P,t): numero totale di alberghi della popolazione P (o del sottoinsieme Pi )
12.12

5 Indici di penetrazione relativi


Gli indici di penetrazione relativi vengono calcolati come rapporti fra
• quote di mercato
• % di composizione
• consumi pro-capite

176
e sono utilizzati per effettuare confronti. Sono grandezze relative a partire dalle quali è
possibile derivare gli scostamenti percentuali da una specifica situazione di riferimento.
L’esempio successivo riguarda il confronto tra le propensioni al consumo di una bevanda
in diverse zone di vendita 12.13
Esempio 8. Consumi giornalieri di birra popolazione 15-65 anni
(a) (b) (c) (d) (e) (f)
popol · 1000 litri · 1000 cc indice
zona n % n % pro-capite penetrazione
NO 10261 26.4 279.1 28.5 27.2 1.08
NE 7259 18.7 204.7 20.9 28.2 1.12
Centro 7412 19.1 240.1 24.5 32.4 1.28
SI 13916 35.8 256.1 26.1 18.4 0.73
Italia 38848 100.0 980.0 100.0 25.2 1.00
↑ ↑ ↑
rapporti
rapporti di composizione
di densità
Fonte: Indagini campionarie INRAN

Osservazioni
• (e)Italia e ( f )Italia sono medie ponderate
(c) (c)
(c) (d) (c)Italia (a) (e)
• (e) = (a) (f) = (b) = (a) = (c)Italia = (e)Italia
(a)Italia (a)Italia
• nel Centro Italia si registra un consumo pro-capite superiore del 28% rispetto alla
media nazionale (heavy consumers);
• nel Sud Italia e Isole si registra, invece, un consumo pro-capite inferiore del 27%
rispetto alla media nazionale (light consumers).
12.14

6 Indici inter-popolazione
Definizione 9. Data una grandezza G espressa su scala per rapporti
• riferita a due popolazioni P ed S
• rilevata nello stesso (istante/periodo) t
si definisce indice interpopolazione relativo alla popolazione S con riferimento a P
G(S;t)
P IS =
G(P;t)
(poco usati: non utili per i confronti!!) 12.15

Esempio 10.
consumo di vino in Francia
consumo di vino in Italia
(nell’anno t)
Se, ad esempio, nell’anno 2003 fosse risultato
consumo di vino in Francia V (F, 2003)
= = 1.05
consumo di vino in Italia V (I, 2003)
si sarebbe concluso che per ogni litro di vino consumato in Italia si erano consumati 1.05
litri di vino in Francia 12.16

Esempio 11.
consumo di vino pro/capite in Francia
consumo di vino pro/capite in Italia
(più informativo) 12.17

177
7 Indici inter-temporali
Definizione 12. Con riferimento a una serie storica, relativa a una grandezza G espressa
su scala per rapporti, e riferita a un’unica popolazione P, si definisce numero indice al
tempo t (istante o periodo) con riferimento a t0
G(P;t) xt
t0 It = =
G(P;t0 ) xt0

(t0 è detto base).

Tipologie
• base fissa (t0 )
montante unitario (grandezza relativa) rispetto a t0
• base mobile (t0 = t − 1)
montante unitario (grandezza relativa) rispetto a t − 1
12.18

7.1 Numeri indici a base fissa e a base mobile


Definizione 13 (Numeri indici a base fissa).
G(P;t) xt
= = t0 It , (t = 0, 1, . . . , T )
G(P;t0 ) xt0

dove t0 è un prefissato istante o periodo di riferimento (si utilizza anche la notazione It,t0 ).
Definizione 14 (Numeri indici a base mobile).
G(P;t) xt
= = t−1 It , (t = 1, 2, . . . , T )
G(P;t − 1) xt−1
dove t − 1 è l’istante o periodo precedente a t (si utilizza anche la notazione It,t−1 ).
12.19

Osservazione
Si possono ottenere le variazioni relative rispetto alla base nel modo seguente:
• base fissa
xt − xt0 xt
= − 1, (t = 0, 1, . . . , T )
xt0 xt0
• base mobile
xt − xt−1 xt
= − 1, (t = 1, 2, . . . , T )
xt−1 xt−1
(eventualmente esprimibili anche come percentuale)
12.20
Esempio 15. Ricettività alberghiera mondiale
n.camere · 1000 (base 1994 = 100) base mobile
anno Europa America NIBF NIBF NIBM NIBM
Europa America Europa America
1994 5492 4494 100.00 100.00 − −
1995 5653 4540 102.93 101.02 102.93 101.02
1996 5942 4598 108.19 102.31 105.11 101.28
1997 6030 4670 109.80 103.92 101.48 101.57
1998 6130 4700 111.62 104.58 101.66 100.64
Fonte: OMT; Horwath International, Arthur Andersen; 1998, stime

178
Osservazione
base = periodo di stabilità con riferimento alla dinamica della quantità G
12.21

Costruzione dei numeri indici per l’Europa con base fissa riferita all’anno 1994 (t0 =
1994)
G(t)
t0 =1994 It =
G(1994)
ad esempio:
G(1997) 6030
t0 =1994 I1997 = = = 1.0980
G(1994) 5492
ovvero
x1997 : x1994 = 1994 I1997 :1
Il numero indice per l’anno 1997 riferito all’anno base 1994 risulta pari a 1.0980: la
grandezza relativa è 1.0980.
Quindi tra il 1994 e il 1997 si è osservato un incremento complessivo pari al 9.80% =
(1.0980 − 1) · 100%
anno = t xt t0 =1994 It interpretazione
5492
1994 5492 5492 = 1
5653
1995 5653 t0 =1994 I1995 = 5492 = 1.0293 dal 1994 al 1995 + 2.93%
5942
1996 5942 t0 =1994 I1996 = 5492 = 1.0819 dal 1994 al 1996 + 8.19%
6030
1997 6030 t0 =1994 I1997 = 5492 = 1.0980 dal 1994 al 1997 + 9.80%
6130
1998 6130 I
t0 =1994 1998 = 5492 = 1.1162 dal 1994 al 1998 + 11.62%

12.22
su scala centesimale
numeri indici con base 1994 = 100
numeri indici numeri indici
con base 1994 = 1 con base 1994 = 100
anno = t xt t0 =1994 It t0 =1994 It · 100
5492
1994 5492 5492 = 1 100
5653
1995 5653 t0 =1994 I1995 = 5492 = 1.0293 102.93
5942
1996 5942 t0 =1994 I1996 = 5492 = 1.0819 108.19
6030
1997 6030 t0 =1994 I1997 = 5492 = 1.0980 109.80
6130
1998 6130 t0 =1994 I1998 = 5492 = 1.1162 111.62

12.23

Costruzione dei numeri indici a base mobile (t0 = t − 1) per l’Europa


G(t)
t0 =t−1 It =
G(t − 1)
ad esempio, da:
G(1997) 6030
1996 I1997 = = = 1.0148
G(1996) 5942
si può concludere che tra il 1996 e il 1997 si è registrato un incremento pari a 1.48%.
anno = t xt t−1 It · 100
t−1 It interpretazione
1994 5492 − −
5653
1995 5653 1994 I1995 = 5492 = 1.0293 102.93 dal 1994 al 1995 + 2.93%
5942
1996 5942 1995 I1996 = 5653 = 1.0511 105.11 dal 1995 al 1996 + 5.11%
6030
1997 6030 1996 I1997 = 5942 = 1.0148 101.48 dal 1996 al 1997 + 1.48%
6130
1998 6130 1997 I1998 = 6030 = 1.0166 101.66 dal 1997 al 1998 + 1.66%

12.24

179
7.2 Cambiamento di base (NIBF)
Cambio di base da t0 a t1
• avendo i dati originari, posso ricalcolare

G(t)
t1 It =
G(t1 )

• partendo, invece, dagli indici con base fissa t0 abbiamo

G(t)
G(t) G(t)/G(t0 ) G(t0 ) t It
t1 It = = = = 0
G(t1 ) G(t1 )/G(t0 ) G(t1 ) t0 It1
G(t0 )
12.25
Cambiamento di base per i numeri indici Europa con base fissa riferita all’anno 1994
(t0 = 1994), nuova base 1995 (t1 = 1995)
anno = t xt t0 =1994 It t1 =1995 It
5492 1
1994 5492 1 I
t1 =1995 1994 = 5653 = 1.0293 = 0.9715
5653 1.0293
1995 5653 1.0293 t1 =1995 I1995 = 5653 = 1.0293 = 1
1996 5942 1.0819 t1 =1995 I1996 = 5942 1.0819
5653 = 1.0293 = 1.0511
6030 1.0980
1997 6030 1.0980 t1 =1995 I1997 = 5653 = 1.0293 = 1.0667
6130 1.1162
1998 6130 1.1162 t1 =1995 I1998 = 5653 = 1.0293 = 1.0844
12.26

7.3 Trasformazione NIBF in NIBM


È possibile ottenere la serie dei numeri indici a base mobile anche disponendo solo dei
numeri indici con base fissa t0 ; infatti, a partire dai dati originari abbiamo:

G(t)
G(t) G(t)/G(t0 ) G(t0 ) t It
t−1 It = = = = 0
G(t − 1) G(t − 1)/G(t0 ) G(t − 1) t0 It−1
G(t0 )

se disponiamo della serie dei numeri indici a base fissa t0


(rapporto di NIBF contigui)
G(t) I
t0 t
anno = t xt t0 =1994 It G(t−1) = t−1 It t−1 It = t0 It−1
1994 5492 1 − −
5653 t0 I1995 1.0293
1995 5653 1.0293 1994 I1995 = 5492 = 1.0293 t0 I1994
= 1 = 1.0293
5942 t0 I1996 1.0819
1996 5942 1.0819 1995 I1996 = 5653 = 1.0511 t0 I1995
= 1.0293 = 1.0511
6030 t0 I1997 1.0980
1997 6030 1.0980 1996 I1997 = 5942 = 1.0148 t0 I1996
= 1.0819 = 1.0149
6130 t0 I1998 1.1162
1998 6130 1.1162 1997 I1998 = 6030 = 1.0166 t0 I1997
= 1.0980 = 1.0166
12.27

180
7.4 Variazione relativa media
Si consideri, ad esempio, 1994 I1998 , numero indice al tempo 1998 con base 1994 (gran-
dezza relativa al tempo 1998 rispetto alla base 1994). 1994 I1998 può essere espresso in
funzione dei numeri indici a base mobile t−1 It , t = 1995, . . . , 1998 (grandezze relative al
tempo t rispetto a t − 1)

1994 I1998 = 1994 I1995 · 1995 I1996 · 1996 I1997 · 1997 I1998
G(1998) G(1995) G(1996) G(1997) G(1998)
= · · ·
G(1994) G(1994) G(1995) G(1996) G(1997)

Si desidera ottenere la media α dei numeri indici a base mobile (grandezza relativa media
riferita a una unità temporale)
In base al criterio di scelta della media secondo Chisini abbiamo

1994 I1998 = 1994 I1995 · 1995 I1996 · 1996 I1997 · 1997 I1998 = α · α · α · α = α4

Risolvendo rispetto ad α si ottiene


p
α = 4 1994 I1995 · 1995 I1996 · 1996 I1997 · 1997 I1998 .

La grandezza relativa media risulta la media geometrica dei numeri indici a base mobile. 12.28

Osservazione
s
4 G(1995) G(1996) G(1997) G(1998)
α= · · ·
G(1994) G(1995) G(1996) G(1997)
s
4 G(1998) p
= = 4 1994 I1998
G(1994)

Esempio 16. Con riferimento all’esempio dei numeri indici per l’Europa si ottiene


r
4 6130 4
p4
1994 I1998 = = 1.1162 = 1.11620.25 = 1.0279
5492
si può, quindi, concludere che tra il 1994 e il 1998 si è registrato un incremento medio
annuale (variazione relativa media) del numero delle camere pari al 2.79%.
12.29

Definizione 17 (Grandezza relativa media e variazione relativa media). Si consideri la


serie storica delle k + 1 osservazioni xt , . . . , xt+k e i corrispondenti numeri indici a base
mobile t It+1 , . . . , t+k−1 It+k ; si definisce grandezza relativa media la media geometrica dei
k numeri indici a base mobile
s
k p p
α = k ∏ t+i−1 It+i = k t It+1 · . . . · t+k−1 It+k = k t It+k
i=1

corrispondente alla radice di ordine k del numero indice a base fissa t It+k .
La variazione relativa media risulta:
α −1
e, in termini percentuali,
100 · (α − 1)
12.30

181
7.5 Passaggio da NIBM a NIBF
Si ricordi che
G(t) t It
= 0 = t−1 It (NIBM)
G(t − 1) t0 It−1
da cui
t0 It = t0 It−1 · t−1 It
ma
t0 It−1 = t0 It−2 · t−2 It−1
quindi
t0 It = t0 It−2 · t−2 It−1 · t−1 It
e, continuando ricorsivamente fino a t0 It0 = 1, si ottiene . . . 12.31

• per t > t0
prodotto
t0 It = t0 It0 +1 · t0 +1 It0 +2 · · I · I · I
NIBM fino a t−3 t−2 t−2 t−1 t−1 t
vale a dire
t
(NIBF) t0 It = ∏ j−1 I j (NIBM)
j=t0 +1
• per t = t0
t0 It0 =1
• per t < t0 , dalla formula per la trasformazione da NIBF in NIBM
t0 It
t−1 It = ovvero da t0 It = t0 It−1 · t−1 It
t0 It−1

ricavo
t0 It
t0 It−1 =
t−1 It
per cui, noto t0 It , ottengo, a ritroso, gli indici a base fissa da quelli a base mobile
12.32
Costruzione NIBF (t0 = 1994) e (t0 = 1996) per l’Europa a partire dai NIBM

anno = t t−1 It 1994 It


1994 − 1
1995 1994 I1995 = 1.0293 = 1.0293
1994 I1995
1996 1995 I1996 = 1.0511 1994 I1996 = 1994 I1995 · 1995 I1996 = 1.0293 · 1.0511 = 1.0819
1997 1996 I1997 = 1.0148 1994 I1997 = 1994 I1996 · 1996 I1997 = 1.0818 · 1.0148 = 1.0979
1998 1997 I1998 = 1.0166 1994 I1998 = 1994 I1997 · 1997 I1998 = 1.0979 · 1.0166 = 1.1161

anno = t t−1 It 1996 It


1996 I1995 0.9514
1994 − 1996 I1994= 1994 I1995
= 1.0293 = 0.9243
1996 I1996 1
1995 1994 1995 = 1.0293
I I
1996 1995 =
1995 I1996
= 1.0511 = 0.9514
1996 1995 I1996 = 1.0511 1
1997 1996 I1997 = 1.0148 = 1.0148
1996 I1997
1998 1997 I1998 = 1.0166 1996 I1998 = 1996 I1997 · 1997 I1998 = 1.0148 · 1.0166 = 1.0316

Osservazione
Le precedenti trasformazioni valgono solo per indici rapporto (grandezze relative).
Nel caso i numeri indici siano espressi in scala centesimale occorre adattare oppor-
tunamente le formule precedenti, oppure, più semplicemente, passare ai numeri indici
rapporto.
12.33

182
7.6 Indicazioni utili per l’analisi delle serie finanziarie
Sia pt , t = 0, 1, 2, . . . , T , la serie storica delle quotazioni di un titolo azionario o dei tassi
di cambio tra due valute.
Si ricorda come dalla serie dei numeri indici a base mobile
pt
t−1 It = ,
pt−1
prezzi relativi o montanti unitari, sia possibile ricavare i rendimenti (variazioni relative)
come  
pt
−1 .
pt−1
Come si è visto, tra numeri indici a base mobile consecutivi sussiste una relazione di tipo
moltiplicativo
pT p1 p2 pT
= · ·...· ;
p0 p0 p1 pT −1
di conseguenza, al fine di ottenere il prezzo relativo medio si considera, in base al criterio
di scelta della media secondo Chisini, la media geometrica dei prezzi relativi. 12.34
Ricordiamo come, insieme al livello medio, sia importante considerare anche un indica-
tore di variabilità.
Definizione 18 (Volatilità finanziaria). Si definisce volatilità finanziaria la variabilità dei
prezzi relativi (o, equivalentemente, dei rendimenti).
Per misurare la volatilità dei prezzi relativi non è opportuno utilizzare la varianza, perché
indice di dispersione rispetto alla media aritmetica. 12.35
Si osserva a tale proposito che, per una generica variabile statistica X > 0, vale la se-
guente relazione tra la media geometrica µ (0) (X) e la media aritmetica della trasformata
logaritmica M [ln(X)]
µ (0) (X) = exp {M [ln(X)]}
ovvero  
ln µ (0) (X) = M [ln(X)] .

È allora possibile utilizzare la varianzadi ln(X), Var [ln(X)], come misura indiretta della
pt
volatilità dei prezzi relativi X = pt−1 .
Per questo motivo si è soliti considerare, in ambito finanziario, la trasformata logaritmica
della serie dei prezzi relativi
 
pt
ln ( t−1 It ) = ln = ln(pt ) − ln(pt−1 ).
pt−1
12.36

Osservazione
Da    
pt
µ (0) = exp M ln
pt−1
si ottiene il tasso di rendimento medio come
     
  pt
100 · µ (0) − 1 % = 100 · exp M ln − 1 %.
pt−1
12.37

183
7.7 Numeri Indici composti
I numeri indici che sono stati considerati finora sono detti numeri indici semplici in quanto
sono riferiti a un’unica serie storica.
Spesso si ha a che fare con più serie storiche
(ad esempio le serie storiche dei prezzi di un paniere di prodotti o di un portafoglio di
azioni).
A partire da ciascuna serie storica è possibile ottenere una serie di numeri indici semplici.
Un numero indice composto è una sintesi di numeri indici semplici.
Esempio 19. A partire dalle variazioni dei prezzi di più prodotti si desidera ottenere una
misura della variazione del livello generale dei prezzi.
Si osserva come la variazione nel livello generale dei prezzi venga, talvolta, utilizzata
come misura dell’inflazione, che però rappresenta la perdita del potere di acquisto.
12.38

7.8 Numeri Indici dei prezzi


• media ponderata dei prezzi relativi degli h prodotti scelti come rappresentativi dei
consumi di una collettività
i pt
i p0
• come coefficienti di ponderazione si possono utilizzare i valori delle merci scam-
biate:
– nel periodo 0 (base): i v0 = i p0 · i q0
– nel periodo t (corrente): i vt = i pt · i qt
Si può, quindi, considerare una serie statistica avente una delle seguenti strutture

xi ni xi ni
.. .. .. ..
. . . .
i pt i pt
i p0
v
i 0 = i p0 · i q0 i p0
v
i t = i pt · i qt
.. .. .. ..
. . . .
v0 vt
12.39

pane latte burro


0 pane p0 latte p0 burro p0
t pane pt latte pt burro pt
prezzi pane pt latte pt burro pt
relativi pane p0 latte p0 burro p0

valori (0) pane p0 · pane q0 latte p0 · latte q0 burro p0 · burro q0


valori (t) pane pt · pane qt latte pt · latte qt burro pt · burro qt
Si vuole calcolare una media delle modalità prezzi relativi
i pt
xi =
i p0

utilizzando quali coefficienti di ponderazione (frequenze) i valori riferiti all’anno base


oppure all’anno corrente

ni = i v0 = i p0 · i q0 oppure ni = i vt = i pt · i qt

12.40

184
Definizione 20. Si definisce indice dei prezzi di Laspeyres (1864), la media aritmetica
dei ’prezzi relativi’ riferiti ai singoli prodotti
i pt
xi =
i p0

calcolata utilizzando come frequenze (pesi) i valori scambiati al tempo 0 (base)


ni = i v0 = i p0 · i q0

p L 1 h 1 h
i pt ∑hi=1 i pt i q0
0 It = ∑ xi ni = h ∑ i p0 i q0 = h
n i=1 ∑i=1 i p0 i q0 i=1 i p0 ∑i=1 i p0 i q0
Si osserva come il valore del paniere dei beni venga aggiornato solo in occasione di un
eventuale cambiamento di base. 12.41

Definizione 21. Si definisce indice dei prezzi di Paasche (1874), la media armonica dei
’prezzi relativi’ riferiti ai singoli prodotti
i pt
xi =
i p0

calcolata utilizzando come frequenze (pesi) i valori scambiati al tempo t (corrente)


ni = i vt = i pt · i qt
( )−1 ( )−1
p P 1 h −1 1 h
i p0
0 It = ∑ xi ni = ∑ i pt i qt
n i=1 ∑hi=1 i pt i qt i=1 i pt

∑hi=1 i pt i qt
=
∑hi=1 i p0 i qt
Si osserva come il valore del paniere dei beni debba essere aggiornato a ogni periodo di
rilevazione 12.42
Si osserva come, con riferimento ai prodotti usualmente consumati, sussista un legame
negativo tra le variazioni dei prezzi e le variazioni delle quantità (la funzione di domanda
dei prodotti è convessa).
In tali situazioni l’indice dei prezzi di Laspeyres sovrastima la reale variazione dei prezzi,
mentre l’indice di Paasche la sottostima.
Fisher ha proposto la seguente misura ’ideale’ ottenuta come media geometrica dei pre-
cedenti indici.
Definizione 22. Indice dei prezzi di Fisher (1921)
q
p F p L p P
I
0 t = 0 It · 0 It

Osservazione
La procedura per il cambiamento di base si complica nel caso di numeri indici composti.
Ad esempio, sul sito dell’Istat sono pubblicati opportuni coefficienti di conversione.
12.43
Esempio 23. Si considerino i dati riferiti a 4 prodotti
i 1 2 3 4
p0 10 15 8 14
pt 12 20 9 18
q0 1000 2000 1500 500
qt 800 2100 1200 900
Si calcolino gli indici sintetici dei prezzi di Laspeyres, Paasche e Fisher

185
12.44

Indice dei prezzi di Laspeyres


xi = ii pp0t ni = i p0 · i q0 xi ni
12
10 = 1.2 10 · 1000 = 10000 12000
20
15 = 1.3333 15 · 2000 = 30000 40000
9
8 = 1.125 8 · 1500 = 12000 13500
18
14 = 1.2857 14 · 500 = 7000 9000
59000 74500
p L 1
0 It = M(X) = 74500 = 1.2627
59000
la variazione relativa nel livello generale dei prezzi, secondo l’Indice di Laspeyres, è del
+26.27%.
Si osserva come tale valore sia compreso tra la minima e massima variazione registrata
nel prezzo dei singoli prodotti [12.50%, 33.33%].
12.45

Indice dei prezzi di Paasche


xi = ii pp0t ni = i pt · i qt ni
xi
12
10 = 1.2 12 · 800 = 9600 8000
20
15 = 1.3333 20 · 2100 = 42000 31500
9
8 = 1.125 9 · 1200 = 10800 9600
18
14 = 1.2857 18 · 900 = 16200 12600
78600 61700
p P −1 1 1 78600
= M X −1

0 It = 1
= 1
= = 1.2739
n ∑ki=1 x1i ni 78600 61700
61700

Indice dei prezzi di Fisher q


p L p P

IFisher = 0 It · 0 It = 1.6086 = 1.2682

Osservazione
La presente situazione non si riferisce a prodotti di abituale consumo, infatti 0p ItL assume
valore inferiore a 0p ItP .
12.46

7.9 Numeri Indici di borsa


Si considera un paniere di azioni e si calcola l’evoluzione dei prezzi al termine di ogni
minuto di contrattazione.

La struttura dell’indice Mibtel è simile a quella dell’indice di Laspeyres


p
∑hi=1 i pi 0 ti c i p0 i c i q0 ∑hi=1 i pt i q0
0 It = =
∑hi=1 i p0 i c i q0 ∑hi=1 i p0 i c i q0
dove i c è un fattore correttivo delle quotazioni che tiene conto delle operazioni sul capitale
sociale

(ad esempio aumenti di capitale sociale con eventuali opzioni di sottoscrizione da effet-
tuare nell’intervallo temporale (0,t)) 12.47

186
8 Rapporti di durata e ripetizione
Sono riferiti a una grandezza caratterizzata da flussi in entrata e in uscita nel corso del tem-
po. Per una trattazione più esaustiva si rimanda a Santamaria (2006) Statistica descrittiva.
Applicazioni economiche e aziendali, Vita e Pensiero.
Esempio 24. Tipiche grandezze aziendali per le quali vengono tipicamente calcolati i
rapporti in oggetto sono:
• le giacenze di magazzino: scorte finali = scorte iniziali + acquisti − vendite,
• i flussi di cassa: consistenza finale = consistenza iniziale + entrate − uscite,
• i conti correnti: saldo finale = saldo iniziale + depositi − prelevamenti,
• il turnover del personale: organico finale = organico iniziale + assunzioni/reintegri
− pensionamenti/dimissioni/licenziamenti.
12.48
Sia ora [0, T ] un intervallo temporale, caratterizzato da una relativa stabilità (stazionarie-
tà) delle grandezze oggetto di indagine, e si indichino con G0 e GT l’ammontare delle
consistenze (stock) agli istanti temporali 0 e T e con et , ut le entrate e le uscite (flussi)
registrate negli intervalli (t − 1,t] con t = 1, . . . , T .
Definizione 25. I rapporti di durata sono definiti come
1
2 (G0 + GT )
d= 1 T
.
2 ∑t=1 (et + ut )
12.49
Osservazione
La grandezza a numeratore fornisce una stima della consistenza media per il periodo [0, T ]
e il denominatore una stima della movimentazione media nello stesso periodo. Tenendo
τ
presente che Gτ = G0 + ∑t=1 (et − ut ) con τ = 1, . . . , T , è possibile calcolare la seguente
stima più precisa della media delle consistenze

1 T
G0 + ∑ (T − t + 1) · (et − ut ).
T + 1 t=1

Un valore d del rapporto indica che il periodo di permanenza medio della generica unità
entrata (prodotto acquistato, unità depositata) risulta pari a dT .
Ad esempio, con riferimento a una grandezza con rilevazione giornaliera per la quale
T = 30 (1 mese) se d = 0.5 allora la permanenza (durata) media risulta di 15 giorni
(15 = 0.5 · 30). 12.50

Osservazione
Si osserva come in presenza di un sistema di contabilità analitica molto dettagliata sia
possibile ottenere stime molto più precise della durata (permanenza) media.
Definizione 26. Si definisce rapporto di ripetizione (rep) il reciproco del rapporto di
durata d
1
rep = .
d
Tale rapporto indica il numero medio di volte che la grandezza si è rinnovata nell’inter-
vallo [0, T ]. 12.51

187
9 Rapporti statistici tipici delle scienze del turismo
Con riferimento a un assegnato intervallo temporale si considerano degli indicatori idonei
a misurare i seguenti aspetti:
• propensione turistica
• offerta turistica
• flussi turistici
Per una trattazione più dettagliata si veda Pasetti (2002) Statistica del Turismo, Carocci. 12.52

9.1 Propensione turistica


Una misura della propensione della popolazione di una certa area a svolgere viaggi è il
n. complessivo viaggi effettuati dai residenti
tasso lordo di propensione turistica = · 100
popolazione residente (media)

È possibile determinare la quota della popolazione di una certa area che ha effettuato
almeno un viaggio nell’intervallo temporale oggetto di analisi.
n. persone che hanno effettuato almeno un viaggio
tasso netto di propensione turistica = ·100
popolazione residente (media)
Le misure precedenti possono anche essere specificate in funzione:
• della durata del viaggio,
• della destinazione,
• del tipo di alloggio.
12.53

9.2 Offerta turistica


Una misura della dimensione ricettiva (in termini di posti letto) relativa a una certa area
geografica è il
n. posti letto disponibili
tasso semplice di funzione ricettiva = · 100
popolazione residente (media)
che può anche essere specificato in funzione della tipologia degli esercizi commerciali
• esercizi alberghieri,
• esercizi complementari.
La seguente misura tiene conto anche della dimensione della superficie dell’area geogra-
fica considerata
n. posti letto disponibili
tasso composto di funzione ricettiva = · 100.
(popolazione residente (media)) · superficie
12.54

9.3 Flussi turistici


Si premettono le definizioni di arrivo turistico e di presenze turistiche.
Definizione 27. Si definisce arrivo turistico l’ingresso del soggetto nel territorio o luogo
considerato, indipendentemente dalla durata del soggiorno.

188
Definizione 28. Si definiscono presenze turistiche il numero complessivo di notti trascor-
se (bed nights).
12.55
È possibile determinare la permanenza media, vale a dire il numero medio di notti tra-
scorse come segue
presenze turistiche
permanenza media =
arrivi turistici
In base al criterio di scelta della media secondo Chisini, la permanenza media coincide,
quindi, con la media aritmetica della variabile statistica numero di notti trascorse, rilevata
in corrispondenza delle unità statistiche arrivate in una certa località. 12.56
Una misura del livello di produttività turistica di una certa regione è il
presenze turistiche
tasso di funzione turistica = · 100
(popolazione (media)) · 365
I seguenti rapporti statistici danno una misura del livello di utilizzazione di una struttura
ricettiva:
presenze turistiche
indice di utilizzazione lorda = · 100
(n. letti) · 365
presenze turistiche
indice di utilizzazione netta = · 100
(n. letti) · g
dove g sono i giorni di apertura della struttura ricettiva.
Consideriamo, infine, il tasso di turismo proprio che corrisponde alla quota di pernot-
tamenti con motivazione vacanza rispetto al totale dei pernottamenti registrati in una
località
n. pernottamenti per vacanze
tasso di turismo proprio = · 100.
n. pernottamenti totali
12.57

10 Esercizi
Esercizio 29 (T 239, 10.01.2008, 2). Sapendo che per un aggregato macroeconomico il
numero indice riferito al tempo 2006 con base 2005 è pari a 2005 I2006 = 0.95 e che tra
il 2006 e il 2007 l’aggregato ha subito una variazione percentuale del +5% si determini
2005 I2007 , numero indice riferito all’istante temporale 2007 con base 2005. ✍
12.58

Esercizio 30 (T 241, 14.02.2008, 2). Sapendo che il valore di un aggregato macroeco-


nomico nel 2006 è 80, che il numero indice riferito al tempo 2006 con base 2005 è pari
a 2005 I2006 = 1.2 e che tra il 2006 e il 2007 l’aggregato ha subito una variazione assoluta
di −20 si determini 2005 I2007 , numero indice riferito all’istante temporale 2007 con base
2005. ✍
12.59

Esercizio 31 (T 249, 12.02.2009, 2). Si riporta l’evoluzione temporale dei prezzi e delle
quantità scambiate di 2 prodotti a e b, tra il 2000 e il 2002.

a b
a pt a qt b pt b qt
2000 330 10 80 10
2001 345 q
a 2001 80 q
b 2001
2002 390 10 85 10

1. Si calcoli l’indice dei prezzi di Laspeyres al tempo 2002 con base 2000.

189
p F , al tempo 2001 con base
2. Supponendo che l’indice dei prezzi di Fisher, 2000 I2001
2000, sia risultato pari a 1.033, valore inferiore a quello dell’indice di Laspeyres, si
indichi l’intervallo dei possibili valori dell’indice di Paasche. ✍
12.60

Esercizio 32 (T 252, 02.07.2009, 4). Con riferimento alla seguente serie storica si co-
struisca la serie dei numeri indici a base mobile e si calcoli 2 I4 interpretando il valore
ottenuto.
t 1 2 3 4 5

Xt 2.3 2.7 2.3 1.8 2.4
12.61

Esercizio 33 (T 255, 14.01.2010, 2). Sapendo che per un aggregato macroeconomi-


co il numero indice riferito al tempo 2003 con base 2000 è pari a 2000 I2003 = 1.49 e
che il numero indice riferito al tempo 2003 con base 2002 è pari a 2002 I2003 = 1.21 si
determinino:
1. la variazione relativa subita dall’aggregato tra il 2000 e il 2002;
2. il tasso medio annuo di variazione tra il 2000 e il 2003. ✍
12.62

Esercizio 34 (T 257, 11.02.2010, 2). Il consumo pro-capite di gelato in Italia ha presen-


tato, negli ultimi 5 anni, le seguenti variazioni % annuali

2004 2005 2006 2007 2008


+1.2% +8% +8% +2% −8%

1. Scelto come base il 2003 (= 100) ricostruire la serie dei numeri indici a base fissa.
2. Sapendo che nel 2003 si è manifestato un consumo pro-capite di 33kg, indicare il
consumo del 2008.
3. Indicare l’aumento % complessivo registratosi tra il 2006 e il 2008. ✍
12.63

Esercizio 35 (T 265_1, 22.09.2011, 2). Il prospetto seguente riporta la serie dei numeri
indice a base mobile per una determinata grandezza macroeconomica X:

t 2002 2003 2004 2005 2006 2007


t−1 It − 0.8545 0.7173 0.7585 0.9441 0.6775

1. Sapendo che il valore della grandezza X nel 2002 era 77 si ricostruiscano i valori
della serie storica.
2. Si calcoli il tasso medio di variazione della serie tra il 2003 e il 2006.
3. Si indichi il valore mediano delle variazioni relative subite dalla grandezza X negli
anni considerati. ✍
12.64

Esercizio 36 (T 264_2, 23.06.2011, 2). È data la serie storica dei numeri indici con base
mobile (su scala centesimale) del prezzo di un kg di pane:

anno 2006 2007 2008 2009 2010


t−1 It − 106 104 102 101

1. Si ricostruisca la serie storica dei prezzi sapendo che nel 2006 il pane costava 0.75
euro.
2. Si ricostruisca la serie storica dei numeri indici a base fissa (2006 = 100).
3. Si determini il tasso medio di variazione del prezzo del pane tra il 2006 e il 2010.

12.65

190
Esercizio 37 (T 264_3, 07.07.2011, 2). Si consideri la serie storica dei prezzi del prodotto
A nel periodo 2001–2005.

anno 2001 2002 2003 2004 2005


pA 20 25 20 30 40

1. Si ricostruisca la serie dei numeri indici a base fissa (2003=100).


2. Si calcolino, interpretandone il significato, i seguenti numeri indici: 2002 I2001 e
2003 I2005 . ✍
12.66

Esercizio 38 (T 258-1, 03.06.2010, 2). Sapendo che per un aggregato macroeconomi-


co il numero indice riferito al tempo 2003 con base 2000 è pari a 2000 I2003 = 1.49 e
che il numero indice riferito al tempo 2005 con base 2003 è pari a 2003 I2005 = 1.22 si
determinino:
1. il numero indice riferito al tempo 2005 con base 2000;
2. il tasso medio di variazione subito dall’aggregato tra il 2000 e il 2005. ✍
12.67

Esercizio 39 (T 258-3, 15.07.2010, 2). Con riferimento alla seguente serie dei prezzi
di un prodotto tra il 1998 il 2002 si costruiscano le serie dei numeri indici a base fissa
(2000 = 100) e a base mobile e sulla base di quest’ultima si calcoli il tasso medio di
variazione del prezzo di tale prodotto tra il 1999 e il 2001.

t 1998 1999 2000 2001 2002



pt 130 135 140 145 150
12.68

Esercizio 40 (T 262, 03.02.2011, 2). Con riferimento ai prezzi di un prodotto nel perio-
do 2004–2008 sono disponibili alcuni elementi della serie dei numeri indici a base fissa
2004 = 100 e della serie dei numeri indici a base fissa 2006 = 100.
Anni NIBF(2004 = 100) NIBF(2006 = 100) NIBM
2004 100
2005 102.5
2006 106 100
2007 109.18 103
2008 109

1. Si ricostruiscano le due serie complete dei NIBF dei prezzi e si costruisca la serie
dei NI a base mobile.
2. Si calcoli il tasso d’incremento medio dei prezzi tra il 2004 e il 2007. ✍
12.69

Esercizio 41 (T 263, 17.02.2011, 2). Si consideri la serie dei numeri indici a base mobile
dei prezzi del prodotto A nel periodo 2004–2007.

anno 2004 2005 2006 2007


NIBMA − 105 105 105

1. Si ricostruisca la serie dei numeri indici a base fissa (2004 = 100).


2. Si costruisca la serie dei numeri indici a base mobile per i prezzi del prodotto B,
sapendo che nel periodo considerato i prezzi di B sono costantemente risultati il
doppio dei prezzi di A. ✍
12.70

191
Esercizio 42 (T 264_1, 09.06.2011, 3). Il seguente prospetto riporta i prezzi e le quantità
scambiate per i prodotti A e B negli anni 1990, 2000 e 2010.

anno A pt A qt B pt B qt
1990 100 111 200 101
2000 150 142 92
2010 260 123 600 83

1. Si indichi quale valore deve assumere il prezzo del prodotto B nel 2000 affin-
ché l’indice dei prezzi di Laspeyres al tempo 2000 con base 1990 risulti pari a
p L
1990 I2000 = 1.5.
2. Si calcoli l’indice dei prezzi di Paasche al tempo 2010 con base 1990, commentando
il risultato ottenuto. ✍
12.71

Esercizio 43 (T 265, 08.09.2011, 2). Il prospetto seguente riporta la produzione di energia


elettrica in TWh per le fonti energetiche rinnovabili nel periodo 2002–2007:

t 2002 2003 2004 2005 2006 2007


rinnovabili 49.0 48.0 55.7 49.9 52.2 49.4

1. Si ricostruisca la serie dei numeri indici a base mobile.


2. Si calcoli il tasso medio di crescita nel periodo considerato. ✍
12.72

Esercizio 44 (T 266, 12.01.2012, 3). Si riporta l’evoluzione temporale del prezzo di un


prodotto tra il 2001 e il 2005.

t 2001 2002 2003 2004 2005


pt 330 342 390 405 420

1. Si costruisca la serie dei numeri indici a base mobile per i prezzi del prodotto.
2. Si interpreti il valore assunto dal numero indice 2002 I2003
3. Si calcoli il tasso medio di variazione dei prezzi tra il 2002 e il 2005. ✍
12.73

Esercizio 45 (T 267, 26.01.2012, 3). Con riferimento alla seguente serie storica Wt

anno 2008 2009 2010 2011


Wt 800 850 900 1000

1. Si costruisca la serie dei numeri indici a base fissa, con base 2008 = 100.
2. Si interpreti l’ultimo valore della serie sopra calcolata.
3. Si costruisca la serie dei numeri indici a base mobile.
4. Si calcoli quale dovrebbe essere il valore W2012 in modo che il tasso medio di
crescita nel periodo 2008–2012 risulti pari al 6%. ✍
12.74

Esercizio 46 (T 268, 09.02.2012, 2). Si consideri la seguente serie dei numeri indice a
base fissa riguardante l’andamento della serie Zt .

anno 2008 2009 2010 2011


NIBF 1 1.1 0.9 1.2

1. Si costruisca la serie dei numeri indici a base mobile.


2. Si interpreti l’ultimo valore della serie sopra calcolata.
3. Si calcoli il valore Z2011 sapendo che Z2009 = 47. ✍
12.75

192
Esercizio 47 (T 269_1, 07.06.2012, 2). Si consideri la seguente serie dei numeri indice a
base fissa (2008) riguardante l’andamento della serie Zt .

anno 2008 2009 2010 2011


NIBF(2008) 1 1.1 0.9 1.2

1. Si costruisca la serie dei numeri indici con base fissa 2010.


2. Si interpreti il primo valore della serie sopra calcolata.
3. Si calcoli il tasso medio di variazione tra il 2008 e il 2011.
4. Si calcoli il valore Z2007 sapendo che Z2008 = 47. ✍
12.76

Esercizio 48 (T 269_2, 28.06.2012, 2). Si consideri la serie storica delle quotazioni di un


generico titolo Qt .
anno 1 2 3 4 5
Qt 114 86 101 113 86
1. Si costruisca la serie dei numeri indici con base mobile.
2. Si calcoli e interpreti il valore del numero indice al tempo 5 con base 1.
3. Si calcoli il tasso medio di variazione per l’intero periodo considerato. ✍
12.77

Esercizio 49 (T 269_3, 12.07.2012, 2). Il prospetto seguente riporta la serie dei numeri
indice a base mobile, NIBM, per una determinata grandezza macroeconomica X (serie
storica di flusso)

t 2002 2003 2004 2005 2006 2007


t−1 It − 0.8545 0.7173 0.7585 0.9441 0.6775

1. Sapendo che il valore della grandezza X nel 2007 era 22.90 si ricostruiscano i valori
della serie storica.
2. Si rappresenti graficamente la serie storica X.
3. Si calcoli il tasso medio di variazione della serie tra il 2003 e il 2006.
4. Si indichi la peggiore variazione relativa subita dalla grandezza X negli anni consi-
derati. ✍
12.78

Esercizio 50 (T 270, 06.09.2012, 1). Si consideri la variabile Xt = numerosità della


popolazione italiana, in milioni di unità, misurata tra il 1861 e il 2001.

Anno 1861 1881 1901 1921 1941 1961 1981 2001


Xt 22 28 33 39 43 51 56 58

1. Si costruisca la serie dei numeri indici con base mobile.


2. Si interpreti il valore dell’ultimo degli indici sopra calcolati.
3. Si calcoli il tasso di crescita medio della popolazione italiana tra il 1901 e il 2001.

12.79

Esercizio 51 (T 270-1, 20.09.2012, 1). Si consideri la variabile Xt = numerosità della


popolazione italiana, in milioni di unità, misurata tra il 1861 e il 2001.

Anno 1861 1881 1901 1921 1941 1961 1981 2001


Xt 22 28 33 39 43 51 56 58

1. Si costruisca la serie dei numeri indici con base fissa 1861.


2. Si interpreti il valore del numero indice al tempo 1881 con base 1861.

193
3. Si calcoli il tasso di crescita medio annuo della popolazione italiana tra il 1861 e il
1881. ✍
12.80

Esercizio 52 (T 271, 10.01.2013, 2). Si consideri la seguente serie storica delle vendite
di un’azienda tra il 2006 e il 2010.
t 2006 2007 2008 2009 2010
xt 205 290 315 340 225
1. Si costruisca la corrispondente serie dei numeri indici a base mobile.
2. Si calcoli il tasso medio di variazione tra il 2008 e il 2010, commentando il risultato
ottenuto. ✍
12.81

Esercizio 53 (T 272, 24.01.2013, 2). Della serie storica Xt delle vendite di un’azienda tra
il 2006 e il 2010 abbiamo le seguenti informazioni:
t NIBM NIBF
2006 100
2007 113
2008 116
2009 106
2010 131
1. Si riempiano le caselle vuote della tabella e sapendo che x2010 =650 si calcoli x2006 .
2. Si calcoli il tasso medio di variazione tra il 2007 e il 2010, commentando il risultato
ottenuto. ✍
12.82

Esercizio 54 (T 273, 07.02.2013, 2). Dati i seguenti NIBM delle vendite di un’azienda
tra il 2001 e il 2005:
t 2001 2002 2003 2004 2005
NIBM 0.94 1.12 1.06 1.11
1. Si calcolino i numeri indice a base fissa (base 2001).
2. Si calcoli il tasso medio di variazione tra il 2001 e il 2005 esprimendolo in valore
percentuale.
3. Per ottenere un tasso medio di variazione tra il 2001 e il 2006 del 7% che valore
dovrebbe avere 2001 I2006 ? ✍
12.83

Esercizio 55 (T 274-1, 06.06.2013, 2). Dati i seguenti NIBF (base 2001) delle vendite di
un’azienda tra il 2001 e il 2005:
t 2001 2002 2003 2004 2005
NIBF 1.00 0.94 1.12 1.06 1.11
1. Si calcolino i numeri indice a base mobile.
2. Si calcoli il tasso medio di variazione tra il 2003 e il 2005 esprimendolo in valore
percentuale.
3. Sapendo che tra il 2005 e il 2006 vi è stato un calo delle vendite del 10% si
determinino 2005 I2006 e il valore delle vendite nel 2006. ✍
12.84

Esercizio 56 (T 274, 27.06.2013, 2). Si consideri la serie NIBF (base 2006) relativa alla
spesa delle Amministrazioni Pubbliche rilevata tra il 2005 e il 2009:
t 2005 2006 2007 2008 2009
NIBF 0.9705 1.0000 1.0164 0.7607 1.0951

194
1. Si calcolino i numeri indice a base mobile.
2. Si calcoli il tasso medio di variazione tra il 2006 e il 2009 esprimendolo in valore
percentuale.
3. Si calcoli il Numero Indice del 2006 con base l’anno 2009 interpretando il valore
ottenuto. ✍
12.85

Esercizio 57 (T 274-2, 11.07.2013, 2). Si consideri la serie NIBM relativa alla spesa delle
Amministrazioni Pubbliche rilevata tra il 2005 e il 2009:
t 2005 2006 2007 2008 2009
NIBM 1.0304 1.0164 0.7484 1.4397

1. Sapendo che x2009 = 334 si calcoli il valore di x2005 . ✍


12.86

Esercizio 58 (T 275, 05.09.2013, 2). Si consideri la seguente serie storica degli indici a
base mobile relativa ai costi di un’azienda tra il 2008 e il 2012:
t 2008 2009 2010 2011 2012
NIBM 1.20 0.55 0.85 1.05

1. Si costruisca la serie dei numeri indici a base fissa con base 2008.
2. Si calcoli l’indice a base fissa: 2010 I2012 e si commenti il risultato.
3. Si calcoli il tasso medio di variazione tra il 2010 e il 2012 e lo si confronti con
l’indice calcolato al precedente punto. ✍
12.87

Esercizio 59 (T 275-1, 16.09.2013, 2). Si consideri la seguente serie storica dei costi di
un’azienda tra il 2008 e il 2012:
t 2008 2009 2010 2011 2012
xt 200 240 110 170 210

1. Si costruisca la serie dei numeri indici a base mobile.


2. Si calcoli l’indice a base fissa: 2012 I2010 e si commenti il risultato.
3. Si calcoli il tasso medio di variazione tra il 2009 e il 2012 commentando il risultato
ottenuto.
4. Sapendo che 2012 I2013 = 1 si calcolino i costi del 2013. ✍
12.88

Esercizio 60 (T 276, 16.01.2014, 2). Con riferimento alla seguente serie di Numeri Indice
a Base Mobile:
t 2008 2009 2010 2011 2012
NIBM 0.92 0.95 1.05 1.08
1. Si ricostruisca la serie storica dei dati xt sapendo che x2010 = 90.
2. Si calcoli il tasso medio di variazione nel periodo 2008-2012 interpretando il risul-
tato ottenuto.
3. Si calcoli il numero indice al tempo 2012 con base 2010 e si commenti il risultato.

12.89

Esercizio 61 (T 277, 30.01.2014, 2). Il prospetto seguente riporta i prezzi medi annui di
2 beni di uso quotidiano nel periodo 2002 − 2006:

t 2002 2003 2004 2005 2006


bene A 99.4 117.3 129.8 149.3 158.1
bene B 77.0 65.8 47.2 35.8 33.8

195
1. Costruire la serie dei numeri indici a base fissa con base 2003 per il bene A.
2. Calcolare il tasso medio di variazione per il prezzo del bene B tra il 2002 e il 2005,
interpretando il risultato.
3. Note le quantità A q2003 = 1500 e B q2003 = 8500, calcolare l’indice di Laspeyres dei
prezzi al 2006 con base 2003. ✍
12.90

Esercizio 62 (T 278, 13.02.2014, 2). Della seguente serie storica sono note solo alcune
informazioni.
t 1 2 3 4 5
xt 200 x2 180 x4 160
1. Si ricostruisca la serie storica sapendo che tra il tempo 1 e il tempo 2 vi è stato un
incremento di 21 e che tra t = 3 e t = 4 vi è stata una diminuzione del 5%.
2. Si costruiscano le serie dei numeri indici a base fissa, con base t = 1, e a base
mobile.
3. Si calcoli il tasso medio di variazione di xt tra l’istante temporale 1 e l’istante 3,
interpretando il risultato. ✍
12.91

Esercizio 63 (T 288, 11.02.2016, 2). La seguente tabella riporta la serie dei NIBF di un
titolo azionario quotato sul mercato finanziario:
t 2011 2012 2013 2014 2015
NIBF 0.95 1.05 1 0.95 0.9
1. Si identifichi l’anno base e si interpreti il significato del numero indice a base fissa
riferito al tempo 2015.
2. Calcolare, mostrandone il procedimento, la serie dei NIBM.
3. Sapendo che il prezzo nel 2015 era 100, calcolare il prezzo del titolo nel 2011.
4. Calcolare il tasso medio di variazione annuo nell’intervallo 2012-2015, commen-
tandone il risultato. ✍
12.92

Esercizio 64 (T 289-1, 09.06.2016, 2). Si consideri il seguente prospetto:


t xt NIBF(2010 = 1) NIBM
2008 4
2009 100
2010 1 0.5
2011 100
2012 2
1. Si completi il prospetto con i dati mancanti.
2. Si calcoli e si commenti il numero indice 2008 I2010 . ✍
12.93

Esercizio 65 (T 290, 08.09.2016, 2). A partire dalla serie storica delle vendite, in n. pezzi,
Y (i), i = 1, 2, . . . , 5, di un certo prodotto in 5 successivi anni, si è costruita la seguente
tabella, dove ∆i = Y (i) −Y (i − 1), mentre 1 Ii sono i numeri indici con base i = 1:
i 1 2 3 4 5
∆i - 697 696 211 600
1 Ii 1 1.043 1.086 1.099 1.136
1. Fornire il significato di 1 I2 , numero indice riferito al tempo 2 con base 1.
2. Calcolare, mostrandone il procedimento, la serie dei NIBM.
3. Calcolare il valore di Y (1).
4. Calcolare il tasso medio di variazione annuo tra il secondo (i = 2) e il quinto anno
(i = 5), interpretando il risultato. ✍
12.94

196
Sezione 13
Analisi statistica bivariata
13.1

Indice
1 Introduzione 197
1.1 Problemi asimmetrici e problemi simmetrici . . . . . . . . . . . . . . . . 197

2 Studio di un caso 198


2.1 Distribuzioni marginali . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
2.2 Distribuzioni condizionate Y |X . . . . . . . . . . . . . . . . . . . . . . . 199
2.3 Distribuzioni condizionate X|Y . . . . . . . . . . . . . . . . . . . . . . . 199

3 Formalizzazione simbolica v.s. doppia 199

4 Indipendenza stocastica 201


4.1 Distribuzioni condizionate . . . . . . . . . . . . . . . . . . . . . . . . . 201
4.2 Definizione di indipendenza stocastica . . . . . . . . . . . . . . . . . . . 202
4.3 Quadro riassuntivo indipendenza stocastica . . . . . . . . . . . . . . . . 202

5 Dipendenza funzionale 203

6 Studio della dipendenza 205 13.2

1 Introduzione
Si considera lo studio congiunto di due caratteri per accertare la presenza di relazioni di
dipendenza tra di essi.
• ripartizione quote mercato prima e dopo campagna pubblicitaria
• studio customer satisfaction: analisi questionari per area geografica
• impresa con diverse dipendenze con produzione simile: analisi di produttività
Nell’ambito della statistica inferenziale si studiano dei metodi che consentono l’attribu-
zione di una interpretazione probabilistica al valore degli indicatori (cfr. χ 2 ) che attengo-
no a una data situazione. 13.3

1.1 Problemi asimmetrici e problemi simmetrici


Definizione 1 (Problema asimmetrico). Un problema ha carattere asimmetrico quando
solo una variabile può essere considerata "dipendente" dall’altra

Y dipende da X oppure X dipende da Y.

Si osserva come vale solo una delle due precedenti proposizioni.

197
Definizione 2 (Problema simmetrico). Un problema ha carattere simmetrico quando il
rapporto di dipendenza è bi-direzionale

X ↔ Y.

In questo caso le due variabili si dicono concomitanti.


13.4

2 Studio di un caso
Con riferimento alle variabili X = ’provenienza del cliente’ e Y = ’secondo piatto’ si rileva
la distribuzione congiunta dei 250 secondi serviti la scorsa domenica in un ristorante di
una località turistica
X \Y y1 y2 y3 y4 y5 ni•
Europa 30 20 15 15 20 100
America 5 40 10 15 30 100
Asia 5 10 20 10 5 50
n• j 40 70 45 40 55 250

y1 = carne arrosto
y2 = carne alla griglia
y3 = pesce crudo
y4 = pesce alla griglia
y5 = selvaggina 13.5
È anche possibile ottenere la variabile statistica doppia con le frequenze congiunte relative
ni j
fi j =
n
X \Y y1 y2 y3 y4 y5 fi•
Europa 0.12 0.08 0.06 0.06 0.08 0.40
America 0.02 0.16 0.04 0.06 0.12 0.40
Asia 0.02 0.04 0.08 0.04 0.02 0.20
f• j 0.16 0.28 0.18 0.16 0.22 1
13.6

2.1 Distribuzioni marginali


X \Y y1 y2 y3 y4 y5 ni•
Europa 30 20 15 15 20 100
America 5 40 10 15 30 100
Asia 5 10 20 10 5 50
n• j 40 70 45 40 55 250

Y n• j f• j
X ni• fi• y1 40 0.16
Europa 100 0.40 y2 70 0.28
America 100 0.40 y3 45 0.18
Asia 50 0.20 y4 40 0.16
n 250 1 y5 55 0.22
n 250 1
13.7

198
2.2 Distribuzioni condizionate Y |X
X \Y y1 y2 y3 y4 y5 ni•
Europa 30 20 15 15 20 100
America 5 40 10 15 30 100
Asia 5 10 20 10 5 50
n• j 40 70 45 40 55 250

n1 j n2 j
Y |X=x1 n1 j f .cond.r. = n1• Y |X=x2 n2 j f .cond.r. = n2•
y1 30 0.30 y1 5 0.05
y2 20 0.20 y2 40 0.40
y3 15 0.15 y3 10 0.10
y4 15 0.15 y4 15 0.15
y5 20 0.20 y5 30 0.30
n1• 100 1 n2• 100 1
n3 j
Y |X=x3 n3 j f .cond.r. = n3•
y1 5 0.10
y2 10 0.20
y3 20 0.40
y4 10 0.20
y5 5 0.10
n3• 50 1
13.8

2.3 Distribuzioni condizionate X|Y


X \Y y1 y2 y3 y4 y5 ni•
Europa 30 20 15 15 20 100
America 5 40 10 15 30 100
Asia 5 10 20 10 5 50
n• j 40 70 45 40 55 250

ni1 ni2
X|Y =y1 ni1 f .cond.r. = n•1 X|Y =y2 ni2 f .cond.r. = n•2
Europa 30 0.75 Europa 20 0.29
America 5 0.125 America 40 0.57
Asia 5 0.125 Asia 10 0.14
n•1 40 1 n•2 70 1
ni3 ni4
X|Y =y3 ni3 f .cond.r. = n•3 X|Y =y4 ni4 f .cond.r. = n•4
Europa 15 0.33 Europa 15 0.375
America 10 0.22 America 15 0.375
Asia 20 0.44 Asia 10 0.25
n•3 45 1 n•4 40 1
ni5
X|Y =y5 ni5 f .cond.r. = n•5
Europa 20 0.364
America 30 0.545
Asia 5 0.09
n•5 55 1
13.9

3 Formalizzazione simbolica v.s. doppia


X\Y y1 ... yj . . . yk ni•
x1 n11 . . . n1 j . . . n1k n1•
.. .. .. .. ..
. . . . .
xi ni1 ... ni j ... nik ni•
.. .. .. .. ..
. . . . .
xh nh1 . . . nh j . . . nhk nh•
n• j n•1 . . . n• j . . . n•k n

199
da questa derivano:
• 2 variabili statistiche marginali
• 2 famiglie di variabili statistiche condizionate
X Y X|y j Y |xi
x1 n1• y1 n•1 x1 n1 j y1 ni1
.. .. .. .. .. .. .. ..
. . . . . . . .
xi ni• yj n• j xi ni j yj ni j
.. .. .. .. .. .. .. ..
. . . . . . . .
xh nh• yk n•k xh nh j yk nik
n n n• j ni•
13.10
in corrispondenza
v.s. doppia relativa
ni j
fi j =
n
v.s. marginali relative

X Y
xi fi• yj f• j
n1• n•1
x1 n = f1• y1 n = f•1
.. .. .. ..
. . . .
ni• n• j
xi n = fi• yj n = f• j
.. .. .. ..
. . . .
nh• n•k
xh n = fh• yk n = f•k
1 1
13.11
v.s. condizionate relative
X|y j Y |xi
xi f .cond.rel. y j f .cond.rel.
n1 j f1 j ni1 fi1
x1 n• j = f• j y1 ni• = fi•
.. .. .. ..
. . . .
ni j fi j ni j fi j
xi n• j = f• j yj ni• = fi•
.. .. .. ..
. . . .
nh j fh j nik fik
xh n• j = f• j
yk ni• = fi•
1 1

( j = 1, 2, . . . , k) (i = 1, 2, . . . , h)
13.12

200
4 Indipendenza stocastica
Si consideri un campione di 100 famiglie, estratte tra quelle che hanno figli adulti, per le
quali sono state rilevate le variabili:

X = professione paterna Y = scolarità dei figli


X\Y elementari diploma laurea ni•
operaio 3 2 5 10
impiegato 9 6 15 30
dirigente 18 12 30 60
n• j 30 20 50 100
distribuzioni marginali
X ni• fi• Y n• j f• j
O 10 0.1 E 30 0.3
I 30 0.3 D 20 0.2
D 60 0.6 L 50 0.5
100 1 100 1
13.13

4.1 Distribuzioni condizionate


X\Y elementari diploma laurea ni• fi•
operaio 3 2 5 10 0.1
impiegato 9 6 15 30 0.3
dirigente 18 12 30 60 0.6
n• j 30 20 50 100
f• j 0.3 0.2 0.5

Y |x1 n1 j f .cond.r. Y |x2 n2 j f .cond.r. Y |x3 n3 j f .cond.r.


E 3 0.3 E 9 0.3 E 18 0.3
D 2 0.2 D 6 0.2 D 12 0.2
L 5 0.5 L 15 0.5 L 30 0.5
n1• 10 1 n2• 30 1 n3• 60 1

X|y1 ni1 f .cond.r. X|y2 ni2 f .cond.r. X|y3 ni3 f .cond.r.


O 3 0.1 O 2 0.1 O 5 0.1
I 9 0.3 I 6 0.3 I 15 0.3
D 18 0.6 D 12 0.6 D 30 0.6
n•1 30 1 n•2 20 1 n•3 50 1
Le distribuzioni condizionate relative non dipendono dalla condizione.
Le distribuzioni condizionate assolute (righe/colonne) sono proporzionali.
I caratteri si dicono statisticamente (stocasticamente) indipendenti 13.14
Con riferimento al precedente esempio le distribuzioni delle frequenze condizionate rela-
tive sono fra loro identiche.
Quindi, sulla base dei dati disponibili, anche se questo problema è asimmetrico, possiamo
affermare che:
• non sussiste dipendenza della professione paterna dal livello di scolarità dei figli
• non sussiste dipendenza del livello di scolarità dei figli rispetto alla professione
paterna
13.15

201
4.2 Definizione di indipendenza stocastica
Definizione 3 (Indipendenza stocastica). Data la v.s. (m.s.) doppia (X,Y ) le componenti
X e Y sono stocasticamente (statisticamente) indipendenti se:
1. tutte le condizionate X|y j ( j = 1, 2, . . . , k) hanno la stessa distribuzione percentuale
2. tutte le condizionate Y |xi (i = 1, 2, . . . , h) hanno la stessa distribuzione percentuale
3. sono somiglianti alle rispettive marginali
ni j ni•
= = fi• , ∀i ( j = 1, . . . , k)
n• j n
ni j n• j
= = f• j , ∀ j (i = 1, . . . , h)
ni• n
13.16

4.3 Quadro riassuntivo indipendenza stocastica


somigliante a somigliante a
X|y j ∼ X, ∀ j Y |xi ∼ Y, ∀i
ni j ni• ni j n• j
= ←→ ■ ←→ =
n• j n ni• n

ni• · n• j
ni j = , ∀i, j
n
(condizione di fattorizzazione)
13.17

Esempio 4. (colore dei capelli)|(zona geografica)


colore Z1 Z2 Z3
nero 0.10 0.30 0.70
castano 0.25 0.30 0.20
biondo 0.60 0.30 0.05
altro 0.05 0.10 0.05
1 1 1
condizionate relative diverse → non indipendenza
Osservazione
Qui le marginali non possono essere ricostruite, perché?
13.18
In definitiva i caratteri X e Y sono indipendenti se
ni• · n• j
ni j = = n̂i j , ∀i, j
n
Si osservi come
ni j ni• n• j
= = fi• · f• j
n n n
quindi, condizione di indipendenza è anche
ni• n• j
fi j = = fi• · f• j = fˆi j , ∀i, j
n n
Definizione 5 (Notazione frequenze teoriche indipendenza stocastica).
ni j = frequenze osservate
n̂i j = frequenze teoriche nella situazione
di indipendenza stocastica

202
13.19

Osservazione
L’indipendenza stocastica è una condizione simmetrica

(X indip Y ↔ Y indip X)

Osservazione
Nella situazione di indipendenza stocastica, le frequenze congiunte n̂i j non assumono
necessariamente valori interi.
13.20
Nel seguito si considereranno solo tabelle ammissibili
Definizione 6 (Tabelle ammissibili).

X\Y yj
ni• > 0, ∀i
xi ni j ni•
n• j > 0, ∀ j
n• j n

Non figurano righe/colonne con elementi tutti nulli (nessun totale di riga/colonna è nullo).

Osservazione
La presenza di frequenze congiunte ni j nulle implica la non-indipendenza.
13.21

5 Dipendenza funzionale
A ogni modalità della variabile esplicativa corrisponde una sola modalità della variabile
dipendente
Definizione 7 (Dipendenza funzionale di Y da X). Sussiste dipendenza funzionale di Y
da X, y = g(x), se le distribuzioni condizionate Y |xi sono degeneri
1. k ≤ h
2. a ogni xi corrisponde un solo y j
Esempio 8.
X\Y y1 y2 y3
Europa x1 n11 0 0
America x2 0 n22 0
Asia x3 n31 0 0
A f rica x4 0 0 n43
13.22

Definizione 9 (Dipendenza funzionale di X da Y ). Sussiste dipendenza funzionale di X


da Y , x = f (y), se le distribuzioni condizionate X|y j sono degeneri
1. h ≤ k
2. a ogni y j corrisponde un solo xi
Esempio 10.
X\Y y1 y2 y3 y4
Europa x1 n11 0 0 0
America x2 0 n22 0 n24
Asia x3 0 0 n33 0

203
13.23

Definizione 11 (Dipendenza funzionale biettiva). Sussiste dipendenza funzionale biettiva


se
1. le distribuzioni Y |xi sono degeneri
2. le distribuzioni X|y j sono degeneri
In tale situazione la tabella è quadrata e si ha una frequenza non nulla per riga/colonna.
Esempio 12.
X\Y y1 y2 y3
Europa x1 0 n12 0
America x2 n21 0 0
Asia x3 0 0 n33
13.24
Esempio 13 (Tabelle relative a situazioni di dipendenza funzionale).

X \Y y1 y2 y3 y4 y5 ni•
Europa 30 70 0 0 0 100
America 0 0 0 45 55 100
Asia 0 0 50 0 0 50
n• j 30 70 50 45 55 250

• sussiste dipendenza funzionale di X da Y


• ma non sussiste dipendenza funzionale di Y da X

X \Y y1 y2 y3 ni•
Europa 30 0 0 30
America 0 70 0 70
Asia 0 0 50 50
n• j 30 70 50 150
• sussiste dipendenza funzionale di Y da X
e contemporaneamente
• sussiste dipendenza funzionale di X da Y
13.25

Esercizio 14. Determinare le frequenze congiunte ni j in modo da realizzare la situazione


di dipendenza funzionale di Y da X

X \Y y1 y2 ni•
x1 n11 n12 10
x2 n21 n22 5
x3 n31 n32 15
n• j 10 20 30

Soluzione
X \Y y1 y2 ni•
x1 10 0 10
x2 0 5 5
x3 0 15 15
n• j 10 20 30
a ogni modalità di X deve corrispondere una e una sola modalità della Y
13.26

204
Controllo delle distribuzioni condizionate
n1 j n2 j
Y |X=x1 n1 j f .cond.r. = n1• Y |X=x2 n2 j f .cond.r. = n2•
y1 10 1 y1 0 0
y2 0 0 y2 5 1
n1• 10 1 n2• 5 1
n3 j
Y |X=x3 n3 j f .cond.r. = n3•
y1 0 0
y2 15 1
n3• 15 1
tutte le distribuzioni condizionate Y |xi sono degeneri:
sussiste una relazione di dipendenza funzionale di Y (variabile dipendente) rispetto a X
(variabile esplicativa)
13.27

6 Studio della dipendenza


attraverso:
• connessione
principalmente per caratteri qualitativi
• modelli di regressione
(se la variabile dipendente è quantitativa)
per descrivere al meglio un carattere in funzione dell’altro
considereremo pertanto:
• indici di connessione
distanza dall’indipendenza stocastica
• indici di dipendenza
accostamento dei modelli teorici ai dati
13.28

Esercizio 15 (T 182, 18.01.2001, 1). In una località turistica invernale L1 sono presenti
30 alberghi.
Nel prospetto di sinistra si riporta la distribuzione congiunta del livello di soddisfacimen-
to, S, rispetto alla categoria alberghiera, A, espresso da un campione di 200 turisti.
Nel prospetto di destra si riportano, in corrispondenza di ciascuna categoria alberghiera,
con riferimento al medesimo campione di 200 turisti, le distribuzioni delle frequenze, ri-
levate nel 1999, della permanenza media in giorni, G, del soggiorno, condizionate rispetto
alla categoria alberghiera, A.
G|A ⋆⋆ ⋆ ⋆ ⋆ ⋆ ⋆ ⋆⋆
A \ S non sodd. indi f f . sodd.
1.5 0.50 0.70 0.60
⋆⋆ 18 6 36
3.0 0.30 0.15 0.25
⋆⋆⋆ 12 43 45
7.5 0.20 0.15 0.15
⋆ ⋆ ⋆⋆ 8 12 20
1.00 1.00 1.00
1. Si rappresentino graficamente le distribuzioni A|G = 3.0 e A|G = 7.5 e si dica, senza
effettuare calcoli e motivando la risposta, se sussiste indipendenza stocastica fra A
e G.
2. Si confrontino con opportuni indici di posizione e di variabilità le distribuzioni
G|A = ⋆⋆ e G|A = ⋆ ⋆ ⋆.
13.29

205
Sezione 14
Connessione (1)
14.1

Indice
1 La connessione e le sue misure 207

2 Indici di connessione 208

3 Distanze elementari: le contingenze 208

4 Indice χ 2 di Pearson 209


4.1 L’indice χ 2 come funzione delle contingenze relative . . . . . . . . . . . 210
4.2 Formula operativa dell’indice χ 2 . . . . . . . . . . . . . . . . . . . . . . 210
4.3 Normalizzazione dell’indice χ 2 . . . . . . . . . . . . . . . . . . . . . . . 210

5 Calcolo indice χ 2 212


5.1 Calcolo indice χ 2 con le contingenze assolute . . . . . . . . . . . . . . . 212
5.2 Calcolo indice χ 2 con la formula operativa . . . . . . . . . . . . . . . . . 212
5.3 Normalizzazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212

6 Interpretazione dei rapporti di contingenza 215


6.1 Relazione tra distribuzione marginale e distribuzioni condizionate . . . . 216

7 Esercizi 217 14.2

1 La connessione e le sue misure


Definizione 1 (Connessione). Si ha connessione tra due caratteri X e Y se X e Y non sono
stocasticamente indipendenti
connessione = non indipendenza stocastica
ovvero la mutabile (variabile) statistica doppia (X,Y ) è caratterizzata da distribuzioni
condizionate non somiglianti
perché
distribuzioni condizionate somiglianti = indipendenza
Y |x1 ∼ Y |x2 ∼ . . . ∼ Y |xh ∼ Y
X|y1 ∼ X|y2 ∼ . . . ∼ X|yk ∼ X

14.3

207
2 Indici di connessione
Misura della variabilità fra le distribuzioni condizionate
ma anche
Distanza dalla situazione di indipendenza stocastica

Si confrontano

ni j ni• n̂i j ni•

n• j n n• j n
tabella osservata tabella teorica

Osservazione
La tabella teorica di indipendenza è unica!!
Le due tabelle hanno in comune le distribuzioni marginali che consentono di determinare
in maniera univoca le frequenze congiunte nella situazione di indipendenza stocastica
ni• n• j
n̂i j =
n
14.4

3 Distanze elementari: le contingenze


Definizione 2 (Contingenze assolute).

ci j = ni j − n̂i j

proprietà
h k h k
∑ ci j = 0, ∑ ci j = 0, ∑ ∑ ci j = 0
i=1 j=1 i=1 j=1

Definizione 3 (Rapporti di contingenza).


ni j
n̂i j

Definizione 4 (Contingenze relative).


ni j − n̂i j ni j
= −1
n̂i j n̂i j

Se sussiste indipendenza stocastica


ni j
ci j = ni j − n̂i j = 0 e = 1, ∀i, j
n̂i j

per cui le contingenze relative sono nulle. 14.5

208
Esempio 5.
X\Y y1 y2 y3
x1 3 3 3 9
x2 1 2 3 6 ni j
x3 6 0 9 15
10 5 15 30
X\Y y1 y2 y3
x1 3 1.5 4.5 9
x2 2 1 3 6 n̂i j
x3 5 2.5 7.5 15
10 5 15 30

contingenze assolute ci j rapporti di contingenza 100(contingenze relative)%


y1 y2 y3 y1 y2 y3 y1 y2 y3
x1 0 1.5 −1.5 0 x1 1 2 0.6667 x1 0 +100% −33.33%
x2 −1 1 0 0 x2 0.5 2 1 x2 −50% +100% 0
x3 1 −2.5 1.5 0 x3 1.2 0 1.2 x3 +20% −100% +20%
0 0 0 0
14.6
Esempio 6.
3 8 1 12
4 1 2 7
ni j
7 5 1 13
14 14 4 32
5.2500 5.2500 1.5000 12
3.0625 3.0625 0.8750 7
n̂i j
5.6875 5.6875 1.6250 13
14 14 4 32
contingenze assolute ci j rapporti di contingenza 100(contingenze relative)%
−2.2500 2.7500 −0.5000 0 0.5714 1.5238 0.6667 −42.86% +52.38% −33.33%
0.9375 −2.0625 1.1250 0 1.3061 0.3265 2.2857 +30.61% −67.35% +128.57%
1.3125 −0.6875 −0.6250 0 1.2308 0.8791 0.6154 +23.08% −12.09% +38.46%
0 0 0 0
14.7

4 Indice χ 2 di Pearson
Definizione 7.
h k c2i j h k
(ni j − n̂i j )2
χ2 = ∑ ∑ =∑∑
i=1 j=1 n̂i j i=1 j=1 n̂i j
dove
• ni j sono le frequenze congiunte osservate
• n̂i j sono le frequenze teoriche nella situazione di indipendenza stocastica
14.8

209
4.1 L’indice χ 2 come funzione delle contingenze relative

h k
(ni j − n̂i j )2
χ2 = ∑ ∑
i=1 j=1 n̂i j
( )
h k n2i j + n̂2i j − 2ni j n̂i j h k n2i j n̂2i j
2ni j n̂i j
=∑∑ =∑∑ + −
i=1 j=1 n̂i j i=1 j=1 n̂i j n̂i j n̂i j
h k n2i j h k n̂2i j h k
ni j n̂i j
=∑∑ +∑ ∑ −2∑ ∑
i=1 j=1 n̂i j i=1 j=1 n̂i j i=1 j=1 n̂i j
h k h k h k
ni j
= ∑ ∑ ni j + ∑ ∑ n̂i j −2 ∑ ∑ ni j ; quindi
i=1 j=1 n̂i j i=1 j=1 i=1 j=1
+n −2n
( )
h k h k
2 ni j ni j
χ = ∑ ∑ ni j − n = n ∑ ∑ fi j −1
i=1 j=1 n̂i j i=1 j=1 n̂i j
( ) ( ) ( )
h k h k h k  h k
ni j ni j ni j − n̂i j
= n ∑ ∑ fi j − ∑ ∑ fi j = n ∑ ∑ fi j −1 = n ∑ ∑ fi j
i=1 j=1 n̂i j i=1 j=1 i=1 j=1 n̂i j i=1 j=1 n̂i j
14.9

4.2 Formula operativa dell’indice χ 2

h k
ni j
χ 2 = ∑ ∑ ni j −n
i=1 j=1 n̂i j
h k n2i j
=∑∑ ni• n• j − n
i=1 j=1 n
h k n2i j
=n∑ ∑ −n
i=1 j=1 ni• n• j
( )
2
h k n2i j
χ =n ∑∑ −1
i=1 j=1 ni• n• j
14.10

4.3 Normalizzazione dell’indice χ 2


Se sussiste indipendenza stocastica ni j = n̂i j e, quindi, χ 2 = 0:
2
χmin =0

Si dimostra che nella situazione di dipendenza funzionale χ 2 = χmax


2 :

2
χmax = n · min(h − 1, k − 1)

dove h e k sono rispettivamente il numero di modalità delle variabili X e Y (numero di


righe e colonne nella tabella a doppia entrata).
In conclusione, l’indice normalizzato risulta

χ 2 − χmin
2
χ2 χ2
χN2 = 2
= 2 =
2
χmax − χmin χmax n · min(h − 1, k − 1)

210
14.11

Osservazione n o
n
Dall’espressione χ 2 = n ∑hi=1 ∑kj=1 fi j n̂ii jj − 1 , presente nella penultima riga della slide
14.9, si desume come χ 2 possa interpretarsi come

n · {media dei rapporti di contingenza − 1}.

La quantità in parentesi esprime una sintesi dell’eccesso relativo di frequenza presente


nella tabella osservata rispetto alla situazione di indipendenza stocastica.
14.12

Osservazione
L’indice χN2 risulta poco risolvente nelle situazioni vicine all’indipendenza stocastica, e
assume valori bassi anche in situazioni che si discostano da tale situazione limite.
È quindi preferibile considerare la radice quadrata dell’indice
q
χN = χN2

che risulta più facilmente interpretabile.


L’indice χN è citato in letteratura come statistica V di Cramér e come misura di effect size.
Come suggerito da Cohen J. 1992 A Power Primer, Psychological Bulletin, 112(1), 155-
159 valori di χN pari a 0.10, 0.30 e 0.50 possono indicativamente riflettere situazioni di
bassa, media ed elevata connessione.

Osservazione
La formulazione dell’indice χ 2 (assoluto) che è stata presentata, è solitamente utilizzata
nell’ambito della Statistica inferenziale.
Una trattazione più approfondita dello studio della connessione è presente in Zanella A
1992 Lezioni di Statistica. Parte seconda. Strutture dei dati in due o più dimensioni. La
connessione, Vita e Pensiero. 14.13

211
5 Calcolo indice χ 2
5.1 Calcolo indice χ 2 con le contingenze assolute
X\Y y1 y2 y3
x1 3 3 3 9
x2 1 2 3 6 ni j
x3 6 0 9 15
10 5 15 30
X\Y y1 y2 y3
x1 3 1.5 4.5 9
x2 2 1 3 6 n̂i j
x3 5 2.5 7.5 15
10 5 15 30
y1 y2 y3
x1 0 1.5 −1.5 0
x2 −1 1 0 0 ci j = ni j − n̂i j
x3 1 −2.5 1.5 0
0 0 0 0
y1 y2 y3
x1 0 1.5 0.5 2 (ni j −n̂i j )2
x2 0.5 1 0 1.5 n̂i j
x1 0.2 2.5 0.3 3
h k
(ni j − n̂i j )2
χ2 = ∑ ∑ = 6.5
i=1 j=1 n̂i j
14.14
5.2 Calcolo indice χ 2 con la formula operativa
X\Y y1 y2 y3
x1 3 3 3 9
x2 1 2 3 6 ni j
x3 6 0 9 15
10 5 15 30
y1 y2 y3
x1 0.1000 0.2000 0.0667 0.3667 n2i j
x2 0.0167 0.1333 0.1000 0.2500 ni• n• j
x3 0.2400 0.0000 0.3600 0.6000
( )
h k n2i j
χ2 = n ∑∑ −1 = 30 · (1.2167 − 1) = 30 · 0.2167 = 6.5
i=1 j=1 ni• n• j
14.15

5.3 Normalizzazione
Abbiamo
χ2 6.5 6.5 6.5 6.5
χN2 = = = = = = 0.1083
n · min(h − 1, k − 1) 30 · min(3 − 1, 3 − 1) 30 · min(2, 2) 30 · 2 60
e q √
χN = χN2 = 0.1083 = 0.3291.
Tra le variabili in gioco sussiste, quindi, un livello medio di connessione. 14.16

212
Esempio 8. Si riprenda l’analisi del caso con cui si è aperta la Sezione precedente (X =
’provenienza’, Y = ’secondo’)
X \Y y1 y2 y3 y4 y5 ni•
Europa 30 20 15 15 20 100
America 5 40 10 15 30 100
Asia 5 10 20 10 5 50
n• j 40 70 45 40 55 250
ni• · n• j
La situazione teorica di indipendenza stocastica n̂i j = risulta
n
X \Y y1 y2 y3 y4 y5 ni•
Europa 16 28 18 16 22 100
America 16 28 18 16 22 100
Asia 8 14 9 8 11 50
n• j 40 70 45 40 55 250
14.17
Le contingenze assolute ci j = ni j − n̂i j risultano
X \Y y1 y2 y3 y4 y5
Europa 14 −8 −3 −1 −2
America −11 12 −8 −1 8
Asia −3 −4 11 2 −6
   
n −n̂ n
Le contingenze relative espresse in termini percentuali, 100 i jn̂i j i j % = 100 n̂ii jj − 1 %,
risultano
X \Y y1 y2 y3 y4 y5
Europa +87.50% −28.57% −16.67% −6.25% −9.09%
America −68.75% +42.86% −45.44% −6.25% +36.36%
Asia −37.50% −28.57% +122.22% +25% −54.55%
14.18
Utilizzando la definizione dell’indice χ 2 si calcolano c2i j = (ni j − n̂i j )2
X \Y y1 y2 y3 y4 y5
Europa 196 64 9 1 4
America 121 144 64 1 64
Asia 9 16 121 4 36

(ni j − n̂i j )2
e
n̂i j
X \Y y1 y2 y3 y4 y5
Europa 12.25 2.2857 0.5 0.0625 0.1818
America 7.5625 5.1428 3.5556 0.0625 2.9091
Asia 1.125 1.1429 13.4444 0.5 3.2727
53.9976
14.19
n2i j
Utilizzando la formula operativa si calcolano
ni• n• j
X \Y y1 y2 y3 y4 y5
Europa 0.225 0.05714286 0.05 0.05625 0.07272727
America 0.00625 0.22857143 0.02222222 0.05625 0.16363636
Asia 0.0125 0.02857143 0.17777778 0.05 0.00909091
1.21599026

213
( )
2
h k n2i j
χ =n ∑∑ −1 = 250 · (1.21599026 − 1) = 53.9976
i=1 j=1 ni• n• j

Osservazione
I calcoli precedenti sono stati effettuati utilizzando 8 cifre significative allo scopo di
ottenere il medesimo risultato finale.
14.20

Normalizzazione
h k
(ni j − n̂i j )2
χ2 = ∑ ∑ = 53.9976
i=1 j=1 n̂i j
Con riferimento all’esempio in esame: h = 3, k = 5 :
2
χmax = n · min(h − 1, k − 1) = 250 · min(3 − 1, 5 − 1)
= 250 · min(2, 4) = 250 · 2 = 500

χ2 53.9976
χN2 = 2
= = 0.108.
χmax 500
e q √
χN = χN2 = 0.108 = 0.3286.
Tra le variabili in gioco sussiste, quindi, un livello medio di connessione.
14.21

214
6 Interpretazione dei rapporti di contingenza
Si riprende l’esempio sulla distribuzione dei 250 ’secondi’ serviti a clienti di diversa
origine geografica.

X \Y y1 y2 y3 y4 y5 ni• X\Y y1 y2 y3 y4 y5
Europa 30 20 15 15 20 100 x1 16 28 18 16 22
America 5 40 10 15 30 100 x2 16 28 18 16 22
Asia 5 10 20 10 5 50 x3 8 14 9 8 11
n• j 40 70 45 40 55 250 n̂i j

Si considerino le distribuzioni condizionate


Y |X y1 y2 y3 y4 y5
Europa 0.30 0.20 0.15 0.15 0.20 1
America 0.05 0.40 0.10 0.15 0.30 1
Asia 0.10 0.20 0.40 0.20 0.10 1
f req.marg.rel. 0.16 0.28 0.18 0.16 0.22 1

X|Y y1 y2 y3 y4 y5 f req.marg.rel.
Europa 0.750 2/7 15/45 0.375 20/55 0.4
America 0.125 4/7 10/45 0.375 30/55 0.4
Asia 0.125 1/7 20/45 0.25 5/55 0.2
1 1 1 1 1 1
14.22
Rapporti di contingenza:
ni j ni j
ni j ni j ni• f (y j |xi ) n• j f (xi |y j )
= ni• n• j = n• j = = ni• =
n̂i j n n
f (y j ) n f (xi )

• Confrontando le frequenze osservate ni j con le frequenze teoriche nella situazione


di indipendenza stocastica n̂i j abbiamo una misura relativa della frequenza con-
giunta osservata rispetto a quella che si avrebbe nella situazione di indipendenza
stocastica.
Ad esempio nn̂11
11
= 30
16 = 1.875: il consumo di ’carni arrosto’ da parte di clienti
europei è superiore dell’87.5% rispetto a quello che si avrebbe nella situazione di
indipendenza stocastica.
14.23

• Se rapportiamo le frequenze condizionate relative f (y j |xi ) alle frequenze marginali


relative f (y j ) (prima tabella di distribuzioni condizionate) confrontiamo il compor-
tamento di Y nella distribuzione condizionata xi rispetto al comportamento ’medio’
di Y (cfr. infra).
Ad esempio
f (y1 |x1 ) 0.30
= = 1.875
f (y1 ) 0.16
nella composizione dei secondi consumati dai clienti europei il consumo di ’carni
arrosto’ è superiore dell’87.5% rispetto a quello che si ha nella composizione dei
secondi di tutti i clienti (media di riferimento).
14.24

• Se rapportiamo le frequenze condizionate relative f (xi |y j ) alle frequenze margi-


nali relative f (xi ) (seconda tabella di distribuzioni condizionate) confrontiamo il
comportamento di X nella distribuzione condizionata y j rispetto al comportamento
’medio’ di X (cfr. infra).

215
Ad esempio
f (x1 |y1 ) 0.75
= = 1.875
f (x1 ) 0.4
nella composizione geografica dei clienti che hanno consumato ’carni arrosto’ la
frazione di clienti europei è superiore dell’87.5% rispetto alla composizione geo-
grafica di tutti i clienti (media di riferimento).
14.25

6.1 Relazione tra distribuzione marginale e distribuzioni condizio-


nate
Le frequenze marginali di Y possono essere ottenute come media ponderata delle frequen-
ze condizionate Y |xi .

n• j = n1 j + n2 j + . . . + nk j
n1• n2• nk•
n• j = n1 j + n2 j + . . . + nk j
n1• n2• nk•
n1 j n2 j nk j
n• j = n1• + n2• + . . . + nk•
n1• n2• nk•
e dividendo per n abbiamo
n• j n1 j n1• n2 j n2• nk j nk•
= + +...+
n n1• n n2• n nk• n
n1 j n2 j nk j
f• j = f1• + f2• + . . . + fk•
n1• n2• nk•
Ad esempio,
1
0.16 = (0.30 · 100 + 0.05 · 100 + 0.10 · 50)
250
0.16 = 0.30 · 0.4 + 0.05 · 0.4 + 0.10 · 0.2
14.26
Una considerazione analoga vale per le frequenze marginali di X, che possono essere
ottenute come media ponderata delle frequenze condizionate X|y j .

ni• = ni1 + ni2 + . . . + nih


n•1 n•2 n•h
ni• = ni1 + ni2 + . . . + nih
n•1 n•2 n•h
ni1 ni2 nih
ni• = n•1 + n•2 + . . . + n•h
n•1 n•2 n•h
e dividendo per n abbiamo
ni• ni1 n•1 ni2 n•2 nih n•h
= + +...+
n n•1 n n•2 n n•h n
ni1 ni2 nih
fi• = f•1 + f•2 + . . . + f•h
n•1 n•2 n•h
Ad esempio,
 
1 2 15 20
0.4 = 0.75 · 40 + · 70 + · 45 + 0.375 · 40 + · 55
250 7 45 55
2 15 20
0.4 = 0.75 · 0.16 + · 0.28 + · 0.18 + 0.375 · 0.16 + · 0.22
7 45 55
14.27

216
7 Esercizi
Esercizio 9 (T 248, 29.01.2009, 2). Con riferimento a n unità statistiche si sono raccolti alcuni
dati in una tabella a doppia entrata:
Determinare, motivando le risposte, i valori delle frequenze assolute mancanti in modo tale che
χ 2 = 0.

X \Y y1 y2 y3 ni•
x1 21 2
x2 14
n• j 37

X \Y y1 y2 y3 ni•
x1 20 30
x2 10 3 15
n• j

X \Y y1 y2 y3 ni•
x1

x2 21 0 15
n• j
14.28

Esercizio 10 (T 253, 03.09.2009, 2). Si consideri la seguente tabella delle frequenze congiunte
del carattere quantitativo X e del carattere qualitativo ordinato Y

X \Y y1 y2 y3 ni•
1 2 n12 n13 n1•
x2 n21 n22 n23 n2•
n•1 n•2 n•3 14
1. Si completi la tabella (modalità e frequenze) in modo tale che χ 2 = χmax
2 e che per la variabile

Y si verifichi la condizione n•1 = n•3 . ✍


14.29

Esercizio 11 (T 250, 04.06.2009, 2). Si completi la seguente tabella in modo che siano soddi-
sfatte, se possibile, le condizioni indicate:

X \Y y1 y2 y3
x1 19
x2 8
x3 3
1. χN2 =1e 2
χmax = 90
2. χN2 =0e 2
χmax = 180 ✍
14.30

Esercizio 12. Nei prospetti seguenti sono riassunti tre scenari che descrivono la distribuzione dei
clienti presenti su un mercato dove opera l’agenzia A, riclassificati mediante le variabili X, con
categorie x1 = ’clienti agenzia A’ e x2 = ’clienti della concorrenza’, e Y = ’tipologia di viaggio’,
con categorie y1 = ’low cost’, y2 = ’medium cost’ e y3 = ’high cost’.
Si commentino i tre scenari attraverso lo studio delle contingenze assolute e delle contingenze rela-
tive e il calcolo di una misura di connessione, tenendo presente che la clientela target dell’agenzia
A è del tipo ’high cost’.

X \Y y1 y2 y3 X \Y y1 y2 y3 X \Y y1 y2 y3
x1 200 500 800 x1 780 375 345 x1 800 500 200
x2 5000 2000 1500 x2 4420 2125 1955 x2 1500 2000 5000
✍ ✍
14.31

217
Sezione 15
Connessione (2)
15.1

Indice
1 Analisi grafica: costruzione di un Mosaic Plot 219

2 Student Admissions at UC Berkeley 222


2.1 Odds e Odds Ratio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222

3 Analisi di dati multidimensionali: the Titanic data 227

4 Studio della connessione per problemi asimmetrici 228

5 Analisi delle distribuzioni condizionate 229

6 L’indice τ di Goodman-Kruskal 230

7 Esercizi 231 15.2

1 Analisi grafica: costruzione di un Mosaic Plot


X \Y Economia Giurisprudenza Ingegneria
umanistica 20 40 15 75
scienti f ica 35 35 30 100
tecnica 25 15 35 75
80 90 80 250
Se si vuole rappresentare la Facoltà scelta, Y , come dipendente dalla tipologia di diploma
superiore X, occorre considerare
1. la distribuzione delle frequenze marginali relative di X
2. le distribuzioni delle frequenze condizionate relative Y |xi , i = 1, 2, 3
n1 j n2 j n3 j
X fi• Y |x=u n1• Y |x=s n2• Y |x=t n3•
u 0.30 E 0.2667 E 0.35 E 0.3333
s 0.40 G 0.5333 G 0.35 G 0.2000
t 0.30 I 0.2000 I 0.30 I 0.4667
1.00 1.0000 1.0000 1.0000
15.3

219
Nei prospetti seguenti si riportano anche le frequenze cumulate Fi , anche se non hanno
senso in presenza di caratteri qualitativi sconnessi, solo come ausilio alla costruzione del
grafico.
X fi• (Fi• )
u 0.30 0.30
s 0.40 0.70
t 0.30 1.00
1.00

1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
15.4

X fi• (Fi• )
u 0.30 0.30
s 0.40 0.70
t 0.30 1.00
1.00

t
0.7

0.3

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1


15.5

220
     
n1 j f .c.r. n2 j f .c.r. n3 j f .c.r.
Y |x=u n1• Y |x=s n2• Y |x=t n3•
cum. cum. cum.
E 0.27 0.27 E 0.35 0.35 E 0.33 0.33
G 0.53 0.80 G 0.35 0.70 G 0.20 0.53
I 0.20 1.00 I 0.30 1.00 I 0.47 1.00
1.00 1.00 1.00

E G I 1

t
0.7

0.3

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1


15.6

     
n1 j f .c.r. n2 j f .c.r. n3 j f .c.r.
Y |x=u n1• Y |x=s n2• Y |x=t n3•
cum. cum. cum.
E 0.27 0.27 E 0.35 0.35 E 0.33 0.33
G 0.53 0.80 G 0.35 0.70 G 0.20 0.53
I 0.20 1.00 I 0.30 1.00 I 0.47 1.00
1.00 1.00 1.00

E G I

15.7

Esercizio 1. Costruire il mosaic plot per le distribuzioni condizionate X|Y j ’tipologia di


provenienza’ per ciascuna Facoltà.
In questo caso la rappresentazione delle distribuzioni condizionate segue una struttura
verticale e non orizzontale. 15.8

221
2 Student Admissions at UC Berkeley
(from the R help system)
This data set is frequently used for illustrating Simpson’s paradox, see Bickel et al. (1975).
At issue is whether the data show evidence of sex bias in admission practices.
There were 2691 male applicants, of whom 1198 (44.5%) were admitted, compared with
1835 female applicants of whom 557 (30.4%) were admitted.
This gives a sample odds ratio of 1.84, indicating that males were almost twice as likely
to be admitted.
In fact, graphical methods or log-linear modelling show that the apparent association
between admission and sex stems from differences in the tendency of males and females
to apply to the individual departments (females used to apply more to departments with
higher rejection rates).
See the home page of Michael Friendly (http://www.math.yorku.ca/SCS/friendly.html)
for further information.
Bickel, P. J., Hammel, E. A., and O’Connell, J. W. (1975) Sex bias in graduate admissions:
Data from Berkeley. Science, 187, 398-403. 15.9
Distribuzione congiunta:
Admitted Rejected
Male 1198 1493
Female 557 1278
Distribuzioni marginali:
freq freq
Male 2691 Admitted 1755
Female 1835 Rejected 2771
Distribuzione congiunta (frequenze relative fi j ):
Admitted Rejected
Male 0.2647 0.3299
Female 0.1231 0.2824
Distribuzioni marginali (frequenze relative fi• , f• j ):
freq freq
Male 0.5946 Admitted 0.3878 15.10
Female 0.4054 Rejected 0.6122

2.1 Odds e Odds Ratio


Definizione 2 (Odds). Con riferimento a una variabile statistica Y dicotomica, (con due
sole modalità y1 e y2 ) si definisce odds il rapporto tra le frequenze (relative) assunte da y1
e y2 . 1198
Esempio 3. Considerando i risultati del test di ammissione abbiamo 1198 1493 =
1198+1493
1493 =
1198+1493
557
0.4452 557 557+1278 0.3035
0.5548 = 0.8025 per i maschi e 1278 = 1278 = 0.6965 = 0.4358 per le femmine.
557+1278 15.11
Definizione 4 (Odds ratio). Con riferimento a una variabile statistica doppia (X,Y ) con
Y dicotomica si definisce odds ratio il rapporto tra due odds definiti sulle distribuzioni
condizionate Y |X.
Esempio 5. Considerando i risultati dei test di ammissione abbiamo
0.4452

0.5548 0.8025
0.3035
= = 1.8414,
0.6965
0.4358
vale a dire l’odds per i maschi è superiore dell’84% all’odds per le femmine.
Gli odds e gli odds ratio trovano frequente impiego nel calcolo delle probabilità. 15.12

222
Distribuzioni condizionate
Admitted Rejected
Admit|Gender: Male 0.4452 0.5548
Female 0.3035 0.6965
Male Female
Gender|Admit: Admitted 0.6826 0.3174
Rejected 0.5388 0.4612

Admitted Rejected Admitted Rejected


Male

Male
Gender

Gender
Female

Female

Admit Admit

15.13

Distribuzioni (congiunte) di Gender e Admit, condizionatamente ai diversi livelli


della variabile Dept
Admitted Rejected
Department A Male 512 313
Female 89 19
Admitted Rejected
Department B Male 353 207
Female 17 8
Admitted Rejected
Department C Male 120 205
Female 202 391
Admitted Rejected
Department D Male 138 279
Female 131 244
Admitted Rejected
Department E Male 53 138
Female 94 299
Admitted Rejected
Department F Male 22 351
Female 24 317
15.14
Dalle precedenti tabelle è possibile ricavare le informazioni relative:
• al diverso grado di selettività esercitato dai 6 dipartimenti,
• alla preferenza nella scelta del dipartimento.

Osservazione
I gruppi (Dept) non sono omogenei.
15.15

223
Grado di selettività
Admitted Rejected
Department A
freq 0.6442 0.3558
Admitted Rejected
Department B
freq 0.6325 0.3675
Admitted Rejected
Department C
freq 0.3508 0.6492
Admitted Rejected
Department D
freq 0.3396 0.6604
Admitted Rejected
Department E
freq 0.2517 0.7483
Admitted Rejected
Department F
freq 0.0644 0.9356
I dipartimenti sono già ordinati rispetto alla rigidità nella selezione 15.16

Scelta dipartimento
Male Female
Department A
freq 0.8842 0.1158
Male Female
Department B
freq 0.9573 0.0427
Male Female
Department C
freq 0.3540 0.6460
Male Female
Department D
freq 0.5265 0.4735
Male Female
Department E
freq 0.3271 0.6729
Male Female
Department F
freq 0.5224 0.4776
La preferenza data dalle femmine ai diversi dipartimenti è secondo l’ordine

ECFDAB
15.17

224
Distribuzioni condizionate di Admit|Gender per i diversi dipartimenti
Admitted Rejected Admitted Rejected odds odds ratio
Department A Male 512 313 Male 0.6206 0.3794 1.6358 0.3492
Female 89 19 Female 0.8241 0.1759 4.6842
Admitted Rejected Admitted Rejected odds odds ratio
Department B Male 353 207 Male 0.6304 0.3696 1.7053 0.8025
Female 17 8 Female 0.6800 0.3200 2.1250
Admitted Rejected Admitted Rejected odds odds ratio
Department C Male 120 205 Male 0.3692 0.6308 0.5854 1.1331
Female 202 391 Female 0.3406 0.6594 0.5166
Admitted Rejected Admitted Rejected odds odds ratio
Department D Male 138 279 Male 0.3309 0.6691 0.4946 0.9213
Female 131 244 Female 0.3493 0.6507 0.5369
Admitted Rejected Admitted Rejected odds odds ratio
Department E Male 53 138 Male 0.2775 0.7225 0.3841 1.2216
Female 94 299 Female 0.2392 0.7608 0.3144
Admitted Rejected Admitted Rejected odds odds ratio
Department F Male 22 351 Male 0.0590 0.9410 0.0627 0.8279
Female 24 317 Female 0.0704 0.9296 0.0757
15.18

Student admissions at UC Berkeley


Department A Department B Department C
Admitted Rejected Admitted Rejected Admitted Rejected

Male
Male
Sex

Sex

Sex
Male

Female
Female

Female

Admit Admit Admit

Department D Department E Department F


Admitted Rejected Admitted Rejected Admitted Rejected
Male

Male
Male
Sex

Sex

Sex
Female

Female
Female

Admit Admit Admit

15.19

225
Distribuzioni condizionate di Gender|Admit per i diversi dipartimenti
Admitted Rejected Male Female
Department A Male 512 313 Admitted 0.8519 0.1481
Female 89 19 Rejected 0.9428 0.0572
Admitted Rejected Male Female
Department B Male 353 207 Admitted 0.9541 0.0459
Female 17 8 Rejected 0.9628 0.0372
Admitted Rejected Male Female
Department C Male 120 205 Admitted 0.3727 0.6273
Female 202 391 Rejected 0.3440 0.6560
Admitted Rejected Male Female
Department D Male 138 279 Admitted 0.5130 0.4870
Female 131 244 Rejected 0.5335 0.4665
Admitted Rejected Male Female
Department E Male 53 138 Admitted 0.3605 0.6395
Female 94 299 Rejected 0.3158 0.6842
Admitted Rejected Male Female
Department F Male 22 351 Admitted 0.4783 0.5217
Female 24 317 Rejected 0.5254 0.4746
15.20
Student admissions at UC Berkeley
Department A Department B Department C
Admitted Rejected Admitted Rejected Admitted Rejected

Male
Male
Sex

Sex

Sex
Male

Female
Female

Female

Admit Admit Admit

Department D Department E Department F


Admitted Rejected Admitted Rejected Admitted Rejected
Male

Male
Male
Sex

Sex

Sex
Female

Female
Female

Admit Admit Admit

15.21

Osservazioni
• Solo nei dipartimenti C ed E si ha una percentuale di successo per le femmine
lievemente inferiore rispetto a quella ottenuta dai maschi.
• In tali dipartimenti si osserva anche che la quota di femmine tra gli ammessi risulta
inferiore alla quota di femmine tra coloro che non sono stati ammessi.
• L’elevato numero di femmine che hanno fatto domanda in tali dipartimenti, unita-
mente al basso numero di domande presentate nei dipartimenti a bassa selettività,
ha una grande influenza nella determinazione della percentuale di successo a li-
vello ’marginale’, dando l’impressione di una discriminazione nei confronti delle
candidature delle femmine. 15.22

226
3 Analisi di dati multidimensionali: the Titanic data
(from the R help system)
The sinking of the Titanic is a famous event. Many well-known facts – from the propor-
tions of first-class passengers to the ’women and children first’ policy, and the fact that
that policy was not entirely successful in saving the women and children in the third class
– are reflected in the survival rates for various classes of passenger.
The dataset Titanic consists of a 4-dimensional array resulting from cross-tabulating
2201 observations on 4 variables. The variables and their levels are as follows:
No Name Levels
1 Class 1st, 2nd, 3rd, Crew
2 Sex Male, Female
3 Age Child, Adult
4 Survived No, Yes

These data were originally collected by the British Board of Trade in their investigation
of the sinking.
Note that there is not complete agreement among primary sources as to the exact numbers
on board, rescued, or lost.
> mosaicplot(Titanic) 15.23

Titanic

1st 2nd 3rd Crew


Child Adult Child Adult Child Adult Child Adult
No
Male
Yes
Sex

No
Female
Yes

Class

15.24

227
4 Studio della connessione per problemi asimmetrici
Si consideri la seguente tabella a doppia entrata che riassume la distribuzione delle varia-
bili X, provenienza scolastica, e Y , Facoltà scelta.
ECONOMIA LETTERE
umanistica 9 36
scientifica 30 30
commerciale 41 4

È ragionevole1 ritenere che la scelta della Facoltà Y possa logicamente dipendere dalla
tipologia di formazione superiore conseguita X.
L’indice χ 2 , che, si ricorda, ha carattere simmetrico, risulta 46.1607, con valore norma-
lizzato χN2 = 0.3077, confermando la presenza di connessione tra le variabili in gioco.
15.25
Una prima analisi delle distribuzioni condizionate, definite secondo la natura asimmetrica
del problema, può essere svolta tramite l’esame del mosaic plot.
commerciale scientifica umanistica
ECONOMIA
LETTERE

15.26

1 Nella presente sezione si assume che X ’variabile sulle righe della tabella’ possa interpretarsi come variabile

’indipendente’ o esplicativa, mentre Y ’variabile sulle colonne della tabella’ come variabile ’dipendente’, valga
cioè la seguente relazione di causalità
X →Y

228
5 Analisi delle distribuzioni condizionate
Studio delle distribuzioni condizionate Y |X. Si riportano le frequenze condizionate
relative Y |xi , i = 1, 2, 3.

ECONOMIA LETTERE
umanistica 0.2000 0.8000
scientifica 0.5000 0.5000
commerciale 0.9111 0.0889
Con riferimento ai 150 casi considerati:
• gli studenti provenienti da una scuola umanistica prediligono la Facoltà di Lettere;
• quelli provenienti da un istituto commerciale la Facoltà di Economia;
• gli studenti con maturità scientifica sono, invece, equidistribuiti tra le due Facoltà.
La situazione è evidente se si considerano i valori della Moda per le distribuzioni condi-
zionate. 15.27
Per ’avvalorare’ il valore della Moda si può calcolare una misura di eterogeneità.
Si osserva come anche l’indice di Gini non normalizzato, G, consenta di effettuare un
confronto tra i livelli di eterogeneità delle distribuzioni condizionate, essendo queste
caratterizzate tutte dallo stesso numero di categorie.
Con riferimento alla marginale Y : G(Y ) = 0.4978:
k k  2
ni j
G(Y ) = 1 − ∑ f•2j G(Y |xi ) = 1 − ∑ , i = 1, . . . , h
j=1 j=1 ni•

xi Moda(Y |xi ) G(Y |xi )


umanistica LETTERE 0.32
scientifica ∄ 0.5
commerciale ECONOMIA 0.162
15.28
Lo studio delle cosiddette ’differenze di eterogeneità’

G(Y ) − G(Y |xi ), i = 1, . . . , h,

consente di stabilire per quali livelli della variabile X si ha una propensione della variabile
Y a concentrarsi su ’poche’ categorie, o addirittura su un valore modale, dando in questo
caso un contributo significativo alla connessione
xi Moda(Y |xi ) G(Y |xi ) G(Y ) − G(Y |xi )
umanistica LETTERE 0.32 0.4978 − 0.32 = 0.1778
scientifica ∄ 0.5 0.4978 − 0.5 = −0.0022
commerciale ECONOMIA 0.162 0.4978 − 0.162 = 0.3358

Per Y |x1 e per Y |x3 abbiamo G(Y ) − G(Y |xi ) > 0. 15.29

229
6 L’indice τ di Goodman-Kruskal
L’indice di Goodman-Kruskal consiste in una sintesi (media aritmetica) delle differenze
di eterogeneità, che vengono ponderate con le frequenze della variabile condizionante X:

MX {G(Y ) − G(Y |X)}


GK(Y |X) = τY |X =
G(Y )

Si osserva che l’indice è già normalizzato.


xi G(Y ) − G(Y |xi ) n(xi ) mod × freq
umanistica 0.1778 45 8
scientifica −0.0022 60 −0.1333
commerciale 0.3358 45 15.1111
150 22.9778
22.9778
150
GK(Y |X) = τY |X = = 0.3077.
0.4978
15.30

Osservazione
Se la variabile ’dipendente’, Y , è caratterizzata da due sole categorie l’indice χN2 e l’in-
dice di Goodman-Kruskal, GK(Y |X), forniscono lo stesso valore (normalmente ciò non
avviene).

Osservazione
Come osservato per l’indice χ 2 , anche l’espressione dell’indice di Goodman-Kruskal,
GK(Y |X), presentata sopra, trova utilizzo nell’ambito della Statistica inferenziale; volen-
do utilizzare l’indice ai fini descrittivi è preferibile considerare la radice quadrata dello
stesso, che risulta meglio interpretabile come indice normalizzato.
Con riferimento all’esempio precedente abbiamo
p
GK(Y |X) = 0.5547.

che indica un livello elevato di connessione della scelta della Facoltà rispetto alla prove-
nienza scolastica.
Solo per esercizio:
p
GK(X|Y ) = 0.1402 e GK(X|Y ) = 0.3744

questo risultato ha la sola valenza numerica e nessun senso logico in quanto basato
sull’assunzione che sia la tipologia di diploma a dipendere dalla scelta della Facoltà. 15.31

230
7 Esercizi
Esercizio 6. Nella seguente tabella è riportata la distribuzione delle frequenze congiunte
delle variabili X = ’Tipologia diploma scuola superiore’ e Y = ’Facoltà universitaria’
rilevate in corrispondenza di un campione di 250 matricole di università milanesi.
X \Y Economia Giurisprudenza Ingegneria
umanistica 20 40 15 75
scienti f ica 35 35 30 100
tecnica 25 15 35 75
80 90 80 250

1. È possibile ritenere che la scelta della facoltà dipende dal tipo di diploma?
2. Sotto quali condizioni tale conclusione è estensibile a tutta la popolazione delle
matricole universitarie di Milano?
15.32

Esercizio 7 (T 182, 18.01.2001, 1). In una località turistica invernale L1 sono presenti 30
alberghi.
Nel prospetto di sinistra si riporta la distribuzione congiunta del livello di soddisfacimen-
to, S, rispetto alla categoria alberghiera, A, espresso da un campione di 200 turisti.
Nel prospetto di destra si riportano, in corrispondenza di ciascuna categoria alberghiera,
con riferimento al medesimo campione di 200 turisti, le distribuzioni delle frequenze, ri-
levate nel 1999, della permanenza media in giorni, G, del soggiorno, condizionate rispetto
alla categoria alberghiera, A.
G|A ⋆⋆ ⋆ ⋆ ⋆ ⋆ ⋆ ⋆⋆
A \ S non sodd. indi f f . sodd.
1.5 0.50 0.70 0.60
⋆⋆ 18 6 36
3.0 0.30 0.15 0.25
⋆⋆⋆ 12 43 45
7.5 0.20 0.15 0.15
⋆ ⋆ ⋆⋆ 8 12 20
1.00 1.00 1.00
1. Si rappresentino graficamente le distribuzioni A|G = 3.0 e A|G = 7.5 e si dica, senza
effettuare calcoli e motivando la risposta, se sussiste indipendenza stocastica fra A
e G.
2. Si confrontino con opportuni indici di posizione e di variabilità le distribuzioni
G|A = ⋆⋆ e G|A = ⋆ ⋆ ⋆.
3. Si calcoli una misura della connessione tra il livello di soddisfazione e la categoria
alberghiera (S|A).
15.33

Esercizio 8 (T 239, 10.01.2008, 3). Completare la tabella, esplicitando anche i valori


possibili per x2 e y2 , in modo tale che l’indice χ 2 normalizzato sia pari a zero:
X \Y 1 y2 = 3
5 −
x2 = 2
15.34

Esercizio 9 (T 240, 31.01.2008, 2,3). Completare la tabella (inserendo frequenze con-


giunte e marginali) in modo che:
a) χ 2 = 21;
b) ci sia dipendenza funzionale di Y da X.
X \Y y1 y2 y3
x1 14

x2
21

231
15.35

Esercizio 10 (T 248, 29.01.2009, 2). Con riferimento a n unità statistiche si sono raccolti
alcuni dati in una tabella a doppia entrata:
Determinare, motivando le risposte, i valori delle frequenze assolute mancanti in modo
tale che χ 2 = 0.
X \Y y1 y2 y3 ni•
x1 29 10
x2 6
n• j 45
X \Y y1 y2y3 ni•
x1 20 30
x2 10 11 15
n• j
X \Y y1 y2 y3 ni•
x1

x2 29 0 15
n• j
15.36

232
Sezione 16
Studio della dipendenza se la
variabile dipendente è di tipo
quantitativo
16.1

Indice
1 Introduzione 233

2 Studio di un caso 234

3 Collegamento tra scomposizione della varianza e analisi bivariata 234

4 Calcolo del rapporto di correlazione ηY2|X 236

5 Considerazioni di riepilogo 237

6 Raccordo notazione 237

7 Analisi del Rapporto di Correlazione 238

8 Relazione tra indipendenza stocastica e indipendenza in media 240

9 Esercizi 242 16.2

1 Introduzione
Nella presente sezione si descrive come analizzare il comportamento congiunto di due
variabili in relazione a un problema di tipo asimmetrico con:
• X carattere qualitativo o quantitativo (variabile esplicativa)
• Y carattere quantitativo (variabile dipendente)
Si vuole studiare Y in funzione di X.
Si ricorda come lo studio della dipendenza passi sempre attraverso lo studio delle di-
stribuzioni condizionate Y |X.
Dal momento che la variabile dipendente (variabile risposta/outcome) Y è di tipo quanti-
tativo, è possibile riassumere le distribuzioni condizionate mediante appropriati indici di
posizione.
Utilizzeremo le medie delle distribuzioni condizionate M(Y |xi ). La scelta della media
come indice sintetico verrà giustificata nelle sezioni successive, quando verrà presentato
il criterio dei minimi quadrati. 16.3

233
2 Studio di un caso
Un albergatore è interessato a stabilire se il livello Y dei consumi per food & beverage
dipende dal motivo (X) della trasferta dei clienti: per turismo (T ) o per lavoro (L).
A tal fine effettua, presso un campione di 10 soggetti, una rilevazione dei caratteri X e Y
ottenendo le seguenti informazioni

X Y
T 23.1
T 43.1
L 21.5
L 7
T 21.8
T 34.6
L 26.6
T 30.2
L 18
L 10.5
16.4

3 Collegamento tra scomposizione della varianza e ana-


lisi bivariata
Sebbene risulti più semplice analizzare i dati in questione considerando la struttura per
gruppi1
Turismo Lavoro
23.1 43.1 21.8 21.5 7 26.6
34.6 30.2 18 10.5

riclassifichiamo i dati in una tabella a doppia entrata SOLO per mostrare come la variabile
di raggruppamento possa essere interpretata come variabile esplicativa o condizionante.
X \Y 7 10.5 18 21.5 21.8 23.1 26.6 30.2 34.6 43.1 ni•
T 0 0 0 0 1 1 0 1 1 1 5
L 1 1 1 1 0 0 1 0 0 0 5
n• j 1 1 1 1 1 1 1 1 1 1 10

Y |Xi 7 10.5 18 21.5 21.8 23.1 26.6 30.2 34.6 43.1


T 0 0 0 0 0.2 0.2 0 0.2 0.2 0.2 1
L 0.2 0.2 0.2 0.2 0 0 0.2 0 0 0 1
16.5
Si ricorda come sia possibile studiare il comportamento congiunto a partire da un’analisi
grafica che rappresenti le coppie di valori e le medie di gruppo (medie condizionate)
Possiamo rappresentare i valori assunti dalle unità statistiche appartenenti alle 2 categorie
1 cfr. calcolo delle medie potenziate in corrispondenza di valori singoli e il risultato di scomposizione della

varianza

234
50

40

30

20

10

0
Turismo Lavoro

Y |X = turismo Y |X = lavoro
M(Y |X = turismo) = 30.56 M(Y |X = lavoro) = 16.72
Var(Y |X = turismo) = 61.2184 Var(Y |X = lavoro) = 51.0536
16.6
Infatti:

1 1
M(Y |X = turismo) = (23.1 + 43.1 + 21.8 + 34.6 + 30.2) = 152.8 = 30.56
5 5
1
Var(Y |X = turismo) = (23.12 + 43.12 + 21.82 + 34.62 + 30.22 ) − 30.562 =
5
1
= 4975.66 − 933.9136 = 995.132 − 933.9136 = 61.2184
5

1 1
M(Y |X = lavoro) = (21.5 + 7 + 26.6 + 18 + 10.5) = 83.6 = 16.72
5 5
1
Var(Y |X = lavoro) = (21.5 + 7 + 26.6 + 18 + 10.5 ) − 16.722 =
2 2 2 2 2
5
1
= 1653.06 − 279.5584 = 330.612 − 279.5584 = 51.0536
5
16.7
Stiamo quindi interpretando i dati mediante la funzione medie condizionate.

Dal momento che le medie condizionate sono fra loro diverse è possibile concludere
che sussiste una forte dipendenza della variabile Y dalla variabile X = motivazione del
soggiorno?

Per rispondere al quesito occorre considerare il risultato di scomposizione della varianza


e calcolare il rapporto di correlazione ηY2|X .
Notazione
Nel presente contesto (analisi bivariata) la varianza Between e la varianza Within sono
anche denominate varianza spiegata e varianza residua.
16.8

235
4 Calcolo del rapporto di correlazione ηY2|X
In primo luogo calcoliamo media e varianza della variabile statistica medie condizionate
M(Y |X)
xi M(Y |xi ) ni
T 30.56 5
L 16.72 5
le cui modalità sono le medie condizionate (medie di gruppo), con frequenze le numero-
sità delle categorie della variabile condizionante (numerosità di gruppo)

M(Y |xi ) ni M(Y |xi ) · ni {M(Y |xi )}2 · ni


30.56 5 152.8 4669.568
16.72 5 83.6 1397.792
10 236.4 6067.36

1 h 1
MX {M(Y |X)} = ∑ modalità · frequenze = 236.4 = 23.64 = M(Y )
n i=1 10
varianza momento
VarX {M(Y |X)} = σB2 = = − media2 =
spiegata secondo
1
= 6067.36 − 23.642 = 606.736 − 558.8496 = 47.8864
10
16.9
È possibile ricostruire la variabile statistica varianze condizionate Var(Y |X)

xi Var(Y |xi ) ni
T 61.2184 5
L 51.0536 5
10

le cui modalità sono le varianze condizionate (varianze di gruppo), con associate co-
me frequenze le numerosità delle categorie della variabile condizionante (numerosità di
gruppo).
La media di tale variabile statistica risulta
Var(Y |xi ) ni Var(Y |xi )ni
61.2184 5 306.092
51.0536 5 255.268
10 561.36

varianza 1 h
MX {Var(Y |X)} = σW2 = = ∑ modalità · frequenze =
residua n i=1
1
= 561.36 = 56.136
10
16.10
La varianza della variabile statistica marginale Y (varianza generale calcolata su tutte le
unità statistiche) può essere ottenuta come

σY2 = varianza spiegata + varianza residua = σB2 + σW2


= 47.8864 + 56.136 = 104.0224

236
Si può, infatti, verificare che
1
Var(Y ) = (23.12 + 43.12 + 21.52 + 72 + 21.82 + 34.62 + 26.62 + 30.22 + 182 + 10.52 ) − 23.642
10
1
= (6628.72) − 558.8496 = 662.872 − 558.8496 = 104.0224
10
Abbiamo, quindi

VarX {M(Y |X)} = σB2 = 47.8864


e σ 2 = 104.0224
MX {Var(Y |X)} = σW2 = 56.136

quindi
47.8864
ηY2|X = = 0.4603.
104.0224
Il rapporto di correlazione assume un valore moderato.
Non sussiste, quindi, un forte livello di dipendenza tra la spesa per food & beverage e la
motivazione del soggiorno. 16.11

5 Considerazioni di riepilogo
Considerazioni di riepilogo
• È possibile concludere che sussiste una certa dipendenza della variabile Y = spesa
per food & beverage dalla variabile X = motivazione del viaggio in quanto le medie
condizionate sono fra loro diverse (Varianza delle medie condizionate)
• Tale considerazione non garantisce un livello elevato di dipendenza in quanto le
medie condizionate devono essere ’rappresentative’ delle rispettive distribuzioni
condizionate
• Si deve, quindi, anche considerare la variabilità delle rispettive distribuzioni condi-
zionate
• Affinché le medie condizionate siano rappresentative è necessario che le varianze
condizionate assumano valore piccolo (Media delle varianze condizionate)
16.12

6 Raccordo notazione
Proprietà Associativa della media aritmetica

media generale = media delle medie di gruppo


M(Y ) = MX {M(Y |X)}

Scomposizione varianza
σB2 = varianza spiegata = VarX {M(Y |X)}
+ + +
σW2 = varianza residua = MX {Var(Y |X)}
= = =
2
σ(globale) = varianza dipendente = Var(Y )
16.13

237
7 Analisi del Rapporto di Correlazione
Osservazione
• medie condizionate tra loro molto diverse → varianza spiegata ↑
• varianze condizionate piccole → varianza residua ↓

Precedentemente si era utilizzato il Rapporto di Correlazione per stabilire se è opportuno


effettuare una segmentazione delle unità statistiche; l’indice consente di sintetizzare le
due considerazioni riportate nella precedente Osservazione.
Definizione 1 (Rapporto di correlazione).
var.spiegata VarX {M(Y |X)}
ηY2|X = =
Var(Y ) Var(Y )
var.residua MX {Var(Y |X)}
= 1− = 1−
Var(Y ) Var(Y )
16.14
Interpretazione
• è interpretabile anche come rapporto di composizione in quanto
var. spiegata + var. residua = var. totale dipendente

0 ≤ η2 ≤ 1

• quota di variabilità spiegata dalla funzione medie condizionate

Si analizzano ora le situazioni a cui corrispondono i valori estremi di η 2 16.15

ηY2|X =0
VarX {M(Y |X)}
ηY2|X =
Var(Y )
quindi
ηY2|X = 0 ↔ VarX {M(Y |X)} = 0
la variabile statistica ’medie condizionate’ M(Y |X) ha varianza nulla (è degenere)

M(Y |x1 ) = M(Y |x2 ) = . . . = M(Y |xh ) = M(Y )

situazione di indipendenza in media


y

x1 x2 ... xh
16.16

ηY2|X =1
MX {Var(Y |X)}
ηY2|X = 1 −
Var(Y )
quindi
ηY2|X = 1 ↔ MX {Var(Y |X)} = 0

238
la variabile statistica ’varianze condizionate’ Var(Y |X) ha media nulla
ma
Var(Y |x1 ) ≥ 0,Var(Y |x2 ) ≥ 0, . . . ,Var(Y |xh ) ≥ 0
quindi
MX {Var(Y |X)} = 0 ↔ Var(Y |x1 ) = . . . = Var(Y |xh ) = 0
le distribuzioni condizionate Y |xi sono degeneri, situazione di dipendenza funzionale.
y

x1 x2 ... xh
16.17

Osservazione
In tutte le precedenti considerazioni la variabile X ha svolto il ruolo di carattere condi-
zionante, come mera variabile di raggruppamento; potrebbe, quindi, essere di entrambi i
tipi
• qualitativo
(genere, regione geografica, tipo di cliente, classe di età o di reddito)
• quantitativo
(numero componenti famiglia, età)

In entrambi i casi, da un punto di vista operativo, non dovrebbe essere caratterizzata da


un numero troppo elevato di categorie/modalità
(eventuale ricodifica in un numero ridotto di categorie/classi).
16.18

Esercizio 2. Con riferimento a 20 unità statistiche sono state rilevate le variabili X1, X2,
Y, Z e W.

i x1i x2i yi zi wi
1 1 1 38 36 32.75
2 1 1 39 38 34.75
3 1 2 40 40 36.2
4 1 2 41 42 38.2
5 1 3 42 44 40
6 2 2 47 49 50.2
7 2 3 43 41 42
8 2 4 46 47 48.4
9 2 4 44 43 44.4
10 3 3 42 42 40
11 3 4 41 40 38.4
12 3 4 43 44 42.4
13 4 1 47 48 50.75
14 4 1 49 52 54.75
15 4 3 49 52 54
16 4 2 43 40 42.2
17 4 2 48 50 52.2
18 4 3 43 40 42
19 4 3 45 44 46
20 4 4 44 42 44.4

239
Si vuole studiare la dipendenza:
A di Y in funzione di X1 C di Y in funzione di X2

B di Z in funzione di X1 D di W in funzione di X2
16.19
medie condizionate diverse - bassa variabilità distribuzioni condizionate medie condizionate simili - bassa variabilità distribuzioni condizionate

A C
60 60

55 55
X1 X1 X1 X1 X2 X2 X2 X2
50 50
X1 1 2 3 4 X2 1 2 3 4
M(Y|X1) 40 45 42 46 45 45 M(Y|X2) 43.3 43.8 44 43.6
Var(Y|X1) 2 2.5 0.6667 5.75 40 40 Var(Y|X2) 23.1875 10.16 6 2.64
n(Y|X1) 5 4 3 8 n(Y|X2) 4 5 6 5
35 35

30 30
0 1 2 3 4 5 0 1 2 3 4 5

medie condizionate diverse - elevata variabilità distribuzioni condizionate medie condizionate simili - elevata variabilità distribuzioni condizionate

B D
60 60

55 55
X1 X1 X1 X1 X2 X2 X2 X2
X1 1 2 3 4 50 50
X2 1 2 3 4
M(Z|X1) 40 45 42 46 45 45 M(W|X2) 43.3 43.8 44 43.6
Var(Z|X1) 8 10 2.6667 23 40 40
Var(W|X2) 92.75 40.64 24 10.56
n(Z|X1) 5 4 3 8 n(W|X2) 4 5 6 5
35 35

30 30
0 1 2 3 4 5 0 1 2 3 4 5

M(Y)=MX1[M(Y|X1)] 43.7 M(Y)=MX2[M(Y|X2)] 43.7


A
MX1[M(Y |X1)]
2
1916 MX2[M(Y2|X2)] 1909.763
C
varianza spiegata VarX1[M(Y|X1)] 6.31 VarX2[M(Y|X2)] 0.0725 varianza spiegata
varianza residua MX1[Var(Y|X1)] 3.4 MX2[Var(Y|X2)] 9.6375 varianza residua
Var(Y)=var.spieg.+var.res. 9.71 Var(Y)=var.spieg.+var.res. 9.71
rapporto di correlazione 0.649846 rapporto di correlazione 0.007467

M(Z)=MX1[M(Z|X1)] 43.7 M(W)=MX2[M(W|X2)] 43.7


B
MX1[M(Z |X1)]
2
1916
2
MX2[M(W |X2)] 1909.763
D
varianza spiegata VarX1[M(Z|X1)] 6.31 VarX2[M(W|X2)] 0.0725 varianza spiegata
varianza residua MX1[Var(Z|X1)] 13.6 MX2[Var(W|X2)] 38.55 varianza residua
Var(Z)=var.spieg.+var.res. 19.91 Var(W)=var.spieg.+var.res. 38.6225
rapporto di correlazione 0.316926 rapporto di correlazione 0.001877

A 1a situazione di riferimento C 2a situazione di riferimento


(medie condizionate diverse e rappresentative) (medie condizionate simili e poco rappresentative)
16.20
B aumento variabilità distribuzioni condizionate D aumento variabilità distribuzioni condizionate

8 Relazione tra indipendenza stocastica e indipenden-


za in media
indipendenza stocastica

Y |xi ∼ Y ↔ X|y j ∼ X

↓ ↑
\/ ↓ ↑\/

M(Y |xi ) = M(Y ) M(X|y j ) = M(X)


i = 1, 2, . . . , h j = 1, 2, . . . , k
↕ ↕
ηY2|X = 0 2 =0
ηX|Y

indipendenza in media

Nella parte in basso a destra della precedente relazione si è assunto che anche X sia di
tipo quantitativo.

240
Osservazione
ηY2|X e ηX|Y
2 possono anche essere molto differenti

16.21
Indipendenza in media (reciproca) ma non indipendenza stocastica

X \Y y2 − b y2 y2 + b
x2 − c 0 20 0
x2 10 30 10
x2 + c 0 20 0

abbiamo
y x

x y

µY (x1 ) = µY (x2 ) = µY (x3 ) = y2 e µX (y1 ) = µX (y2 ) = µX (y3 ) = x2

ηY2|X = 0 2 =0
ηX|Y
16.22
Indipendenza in media in una direzione (di X da Y ) e non indipendenza in media nell’altra

X \Y y1 y2 y3
x2 − c 0 20 10
x2 10 30 0
x2 + c 0 20 10

abbiamo
y x

x y

µY (x1 ) = µY (x3 ) > µY (x2 ) e µX (y1 ) = µX (y2 ) = µX (y3 ) = x2

ηY2|X > 0 2 =0
ηX|Y
16.23

241
9 Esercizi
Esercizio 3. Si completino, se possibile, le seguenti tabelle a doppia entrata con le
opportune frequenze congiunte relative in modo tale che:
a) le variabili X e Y siano stocasticamente indipendenti
X \ Y y1 y2 y3
x1 0.4
x2 0.6
0.2 0.6 0.2 1

b) sussista dipendenza funzionale di Y da X


X \ Y y1 y2 y3
x1 0.4
x2 0.6
0.2 0.6 0.2 1

c) sussista dipendenza funzionale di X da Y


X \ Y y1 y2 y3
x1 0.4
x2 0.6
0.2 0.6 0.2 1
16.24

Esercizio 4 (continuazione). Si completino, se possibile, le seguenti tabelle a doppia


entrata con le opportune frequenze congiunte relative in modo tale che:
d) sussistano contemporaneamente:

dipendenza funzionale di X da Y
indipendenza in media di Y da X

X \Y y1 y2 y3
x1 0.4
x2 0.6
0.2 0.6 0.2 1

e) si realizzino contemporaneamente le seguenti condizioni:



 indipendenza in media di Y da X
non ci sia dipendenza funzionale di X da Y
X e Y non siano stocasticamente indipendenti

X \Y y1 y2 y3
x1 0.4
x2 0.6
0.2 0.6 0.2 1
16.25

Esercizio 5 (T 256, 28.01.2010, 5). Si indichi, senza effettuare calcoli e motivando le


risposte, il valore (o l’intervallo di valori) assunto dagli indici ηY2|X , ηX|Y
2 e χ2 .
N
X \Y 1 2 3
4 9 0 0 ✍▶
6 0 8 6
16.26

242
Esercizio 6 (T 250, 04.06.2009, 2). Si completi la seguente tabella in modo che siano
soddisfatte, se possibile, le condizioni indicate:

X \Y y1 y2 y3
x1 19
x2 8
x3 3
2 = 0 e η 2 ̸= 0 ✍
1. ηX|Y Y |X
16.27

Esercizio 7 (T 264-3, 07.07.2011, 4). Si completi se possibile la seguente tabella, ripor-


tando modalità e frequenze e motivando teoricamente la risposta, in modo tale che:
X \Y 1 2 3
2 2 5
5 2 0 2
8

1. ηY2|X < ηX|Y


2 <1

2 2 ✍
2. ηY |X = ηX|Y
16.28

Esercizio 8 (T 267, 26.01.2012, 5). Se possibile e giustificando teoricamente le risposte,


si completi la seguente tabella in modo da soddisfare le condizioni sotto indicate.
X \ Y 10 30
5 1 6
10 5
2 = 1, η 2 = 0
1. ηX|Y Y |X
2 = 0, χ 2 = 0
2. ηX|Y
2 = 1, η 2 = 1 ✍
3. ηX|Y Y |X
16.29

Esercizio 9 (T 253, 03.09.2009, 2). Si consideri la seguente tabella delle frequenze


congiunte del carattere quantitativo X e del carattere qualitativo ordinato Y

X \Y y1 y2 y3 ni•
1 2 n12 n13 n1•
x2 n21 n22 n23 n2•
n•1 n•2 n•3 14
1. Si completi la tabella (modalità e frequenze) in modo che contemporaneamente ci
sia indipendenza in media di X da Y e la moda di Y sia y2 .✍
16.30

Esercizio 10 (T 269-2, 28.06.2012, 4). Dati due caratteri Z e W , indicare che valore
2
assume l’indice ηZ|W nelle seguenti ipotesi:
1. l’indice di connessione χ 2 assume valore zero;
2. la media delle varianze condizionate è pari a 3 volte la varianza delle medie condi-
zionate;
3. la distribuzione delle medie condizionate e delle varianze condizionate è la seguente
w1 w2 w3
M(Z|W ) 2 4 6
2 ✍
σZ|W 7 7 7
frequenze marginali di W 20 10 20

243
16.31

Esercizio 11 (T 270-1, 20.09.2012, 4). Se possibile e giustificando teoricamente le rispo-


ste, si completi la seguente tabella in modo da soddisfare le condizioni sotto indicate.
X \Y 3 9
2 2
2
6
1. ηY2|X = ηX|Y
2 ✍

16.32

244
Sezione 17
Studio della dipendenza se
entrambe le variabili sono di tipo
quantitativo (1)
17.1

Indice
1 Introduzione 245

2 Funzioni delle componenti di una variabile statistica doppia 245

3 Media di una funzione di una variabile statistica doppia 246

4 La Covarianza 248

5 Interpretazione della Covarianza 248

6 Media di una combinazione lineare 254

7 Varianza di una combinazione lineare 255

8 Covarianza tra trasformazioni lineari 256 17.2

1 Introduzione
Si premettono alcuni complementi sulla variabile statistica doppia
• funzioni delle componenti di una variabile statistica doppia
• media di una funzione delle componenti di una variabile statistica doppia
• covarianza
• media di una combinazione lineare delle componenti di una variabile statistica
doppia
• varianza di una combinazione lineare delle componenti di una variabile statistica
doppia
• covarianza tra trasformazioni lineari
17.3

2 Funzioni delle componenti di una variabile statistica


doppia
W = f (X,Y ) = X +Y

245
• reddito coniugi → reddito famigliare
• peso veicolo + peso carico = peso lordo
X \Y y1 = 5 y2 = 15 y3 = 25 ni•
x1 = 15 3 9 18 30
x2 = 25 2 6 12 20
x3 = 35 5 15 30 50
n• j 10 30 60 100
wk nk
20 3
30 2+9 f −1 (30) = {(25, 5), (15, 15)}
40 5 + 6 + 18
50 15 + 12
60 30
100
nk = ∑ ni j = ∑ ni j = ∑ ni j
{(xi ,y j ):xi +y j =wk } {(xi ,y j ): f (xi ,y j )=wk } {(xi ,y j )= f −1 (wk )}
17.4

3 Media di una funzione di una variabile statistica dop-


pia
Definizione 1 (Media di una funzione di una variabile statistica doppia). L’operatore
media aritmetica assume la seguente struttura

1 h k
M(W ) = M{ f (X,Y )} = ∑ ∑ f (xi , y j )ni j
n i=1 j=1
in presenza di una variabile statistica doppia (tabella a doppia entrata)

1 n
M(W ) = M{ f (X,Y )} = ∑ f (xi , yi )
n i=1
quando si considerano le coppie di valori
(ciascuna coppia figura una sola volta)
17.5
Esempio 2 (W = X + Y , tabella doppia). Riprendendo l’esempio iniziale, possiamo cal-
colare la media sulla variabile W (dopo averla ricostruita)
wk nk wk nk
20 3 60
30 11 330
1 k
40 29 1160 M(W ) = ∑ wk nk = 47
n i=1
50 27 1350
60 30 1800
100 4700
oppure applicare la formula dell’operatore media alla serie statistica doppia (X,Y )
(xi + y j )ni j y1 = 5 y2 = 15 y3 = 25
x1 = 15 (15 + 5) · 3 = 60 (15 + 15) · 9 = 270 (15 + 25) · 18 = 720
x2 = 25 (25 + 5) · 2 = 60 (25 + 15) · 6 = 240 (25 + 25) · 12 = 600
x3 = 35 (35 + 5) · 5 = 200 (35 + 15) · 15 = 750 (35 + 25) · 30 = 1800
4700

246
1 h k 1
M(X +Y ) = ∑ ∑ (xi + y j )ni j = 4700 = 47 = M(X) + M(Y ) = 27 + 20
n i=1 j=1 100
17.6
Esempio 3 (W = X +Y , coppie valori). Si considerino le seguenti coppie di informazioni
relative alle variabili X e Y
xi 3 2 1 4 2
yi 6 4 4 6 5
l’applicazione della formula dell’operatore media consiste nel calcolare la media della
variabile somma
xi yi wi = xi + yi
3 6 9
2 4 6
1 4 5
4 6 10
2 5 7
∑ 12 25 37
M = ∑ /n 2.4 5 7.4
M(X) M(Y ) M(X +Y )
Oppure, ricordando che l’operatore media è lineare

M(X +Y ) = 7.4 = M(X) + M(Y ) = 2.4 + 5


17.7
Esempio 4 (W = X ·Y , tabella doppia). Riprendendo l’esempio iniziale, possiamo calco-
lare la media sulla variabile W (dopo averla ricostruita)

wk nk wk nk
75 3 225
125 2 250
175 5 875
225 9 2025 1 k
M(W ) = ∑ wk nk = 540
375 6 + 18 = 24 9000 n i=1
525 15 7875
625 12 7500
875 30 26250
100 54000

oppure possiamo applicare direttamente la formula dell’operatore media alla serie stati-
stica doppia (X,Y )

xi y j ni j y1 = 5 y2 = 15 y3 = 25
x1 = 15 15 · 5 · 3 = 225 15 · 15 · 9 = 2025 15 · 25 · 18 = 6750
x2 = 25 25 · 5 · 2 = 250 25 · 15 · 6 = 2250 25 · 25 · 12 = 7500
x3 = 35 35 · 5 · 5 = 875 35 · 15 · 15 = 7875 35 · 25 · 30 = 26250
54000

1 h k 1
M(X ·Y ) = ∑ ∑ (xi · y j )ni j = 54000 = 540
n i=1 j=1 100
17.8
Esempio 5 (W = X ·Y , coppie valori). Si considerino le seguenti coppie di informazioni
relative alle variabili X e Y
xi 3 2 1 4 2
yi 6 4 4 6 5

247
xi yi xi yi
3 6 18
2 4 8
1 4 4
4 6 24
2 5 10
∑ 12 25 64
M = ∑ /n 2.4 5 12.8
M(X) M(Y ) M(XY )
Si osserva come
M(XY ) = 12.8 ̸= M(X)M(Y ) = 2.4 · 5 = 12
17.9

4 La Covarianza
Definizione 6 (Covarianza).

Cov(X,Y ) = M[(X − µX )(Y − µY )] = σXY

con
µX = M(X) µY = M(Y )
Applicando la proprietà dell’operatore media aritmetica come operatore lineare

Cov(X,Y ) = M[(X − µX )(Y − µY )] =


= M(XY − X µY − µX Y + µX µY ) =
= M(XY ) − M(X µY ) − M(µX Y ) + M(µX µY ) =
= M(XY ) − µY M(X) − µX M(Y ) + µX µY =
= M(XY ) − µX µY − µX µY + µX µY =
= M(XY ) − µX µY

si ottiene la seguente formula operativa

Cov(X,Y ) = M(XY ) − M(X)M(Y )

17.10
Con riferimento ai due esempi precedenti:
• tabella a doppia entrata

Cov(X,Y ) = M(XY ) − µX µY = 540 − 27 · 20 = 540 − 540 = 0

• coppie valori

Cov(X,Y ) = M(XY ) − µX µY = 12.8 − 2.4 · 5 = 12.8 − 12 = 0.8


17.11

5 Interpretazione della Covarianza


Si riprende la definizione di covarianza

Cov(X,Y ) = M[(X − µX )(Y − µY )]

248
la cui scrittura estesa, nel caso di coppie di osservazioni, risulta

1 n
Cov(X,Y ) = ∑ (xi − µX )(yi − µY )
n i=1

Implica, quindi, il calcolo


1. delle medie (marginali) µX e µY di X e Y
2. degli scarti dalle medie (xi − µX ) e (yi − µY )
3. della media del prodotto di tali scarti
Il segno della covarianza dipende dal segno degli addendi (xi − µX )(yi − µY ) che figurano
nella sommatoria 17.12
Si consideri la rappresentazione grafica delle seguenti coppie di osservazioni (xi , yi )

xi yi
3.5 6
3 4
1 3.5
4 6
2 5.5
3 5
3 7
2 3
2 6
1 2
17.13
7
6
5
4
3
2
1
0

0 1 2 3 4 5

possiamo identificare sul grafico le medie di X e Y :


µX = 2.45, µY = 4.8 17.14

249
7
6
µY

5
4
3
2
1
0

0 1 2 µX 3 4 5

tracciare le 2 rette perpendicolari in corrispondenza di µX = 2.45 e µY = 4.8 17.15


7
6

µY
5
4
3
2
1
0

0 1 2 µX 3 4 5

e qualificare il contributo alla covarianza dato dai punti nei quattro quadranti. 17.16

250
7
(+) (+) = (+)

6
µY

5
4
3
2
1
0

0 1 2 µX 3 4 5

I punti nel quadrante in alto a destra hanno coordinate xi > µX e yi > µY .


Risulta (xi − µX ) > 0, (yi − µY ) > 0 e

(xi − µX )(yi − µY ) > 0.

I punti nel quadrante in alto a destra danno un contributo positivo alla covarianza. 17.17
7

(+) (+) = (+)


6

µY
5
4
3

(+) (−) = (−)


2
1
0

0 1 2 µX 3 4 5

I punti nel quadrante in basso a destra hanno coordinate xi > µX e yi < µY .


Risulta (xi − µX ) > 0, (yi − µY ) < 0 e

(xi − µX )(yi − µY ) < 0.

I punti nel quadrante in basso a destra danno un contributo negativo alla covarianza. 17.18

251
7
(+) (+) = (+)

6
µY

5
4
3

(+) (−) = (−)


2

(−) (−) = (+)


1
0

0 1 2 µX 3 4 5

I punti nel quadrante in basso a sinistra hanno coordinate xi < µX e yi < µY .


Risulta (xi − µX ) < 0, (yi − µY ) < 0 e

(xi − µX )(yi − µY ) > 0.

I punti nel quadrante in basso a sinistra danno un contributo positivo alla covarianza. 17.19
7

(−) (+) = (−) (+) (+) = (+)


6

µY
5
4
3

(+) (−) = (−)


2

(−) (−) = (+)


1
0

0 1 2 µX 3 4 5

I punti nel quadrante in alto a sinistra hanno coordinate xi < µX e yi > µY .


Risulta (xi − µX ) < 0, (yi − µY ) > 0 e

(xi − µX )(yi − µY ) < 0.

I punti nel quadrante in alto a sinistra danno un contributo negativo alla covarianza. 17.20

252
Conclusione (1)

7
6
5
4
µY
3

Cov(X, Y) > 0
2
1
0

0 1 2 µX 3 4 5

Se sono più frequenti i punti nelle regioni in alto a destra e in basso a sinistra potremo
aspettarci un valore positivo della covarianza. 17.21

Conclusione (2)
7
6

Cov(X, Y) < 0
5
4

µY
3
2
1
0

0 1 2 µX 3 4 5

Se sono più frequenti i punti nelle regioni in basso a destra e in alto a sinistra potremo
aspettarci un valore negativo della covarianza. 17.22

Interpretazione della Covarianza


La covarianza fornisce, quindi, informazioni sulla tipologia di relazione esistente tra le
due variabili
• se sussiste una dipendenza di tipo diretto
Cov(X,Y ) > 0
a valori elevati della X corrispondono valori elevati della Y
a valori piccoli della X corrispondono valori piccoli della Y

253
• se sussiste una dipendenza di tipo inverso

Cov(X,Y ) < 0

a valori elevati della X corrispondono valori piccoli della Y


a valori piccoli della X corrispondono valori elevati della Y

Esempio 7. Dalle nozioni di Economia Politica


• relazione tra X = prezzo e Y = domanda: Cov(X,Y ) < 0
• relazione tra X = prezzo e Y = offerta: Cov(X,Y ) > 0
17.23
Esempio 8. Con riferimento ai dati seguenti

xi yi xi · yi
3.5 6 21
3 4 12
1 3.5 3.5
4 6 24
2 5.5 11
3 5 15
3 7 21
2 3 6
2 6 12
1 2 2
∑ 24.5 48 127.5
∑ /n 2.45 4.8 12.75
M(X) M(Y ) M(XY )

Cov(X,Y ) = M(XY ) − µX µY
= 12.75 − 2.45 · 4.8 = 12.75 − 11.76 = 0.99
17.24

6 Media di una combinazione lineare


Teorema 9 (Media di una combinazione lineare). Siano X e Y due variabili statistiche
con medie µX e µY e sia
W = a + bX + cY
con a, b, c ∈ ℜ. Allora
M(W ) = a + bM(X) + cM(Y ).
La dimostrazione può essere svolta considerando la definizione dell’operatore media arit-
metica per una variabile statistica doppia 17.25

254
Dimostrazione.

1 h k
M(a + bX + cY ) = ∑ ∑ (a + bxi + cy j )ni j
n i=1 j=1
h k
= ∑ ∑ (a + bxi + cy j ) fi j
i=1 j=1
h k
= ∑ ∑ (a fi j + bxi fi j + cy j fi j )
i=1 j=1
h k h k k h
= ∑ ∑ a fi j + ∑ ∑ bxi fi j + ∑ ∑ cy j fi j
i=1 j=1 i=1 j=1 j=1 i=1
h k h k k h
= a ∑ ∑ f i j + b ∑ xi ∑ f i j + c ∑ y j ∑ f i j
i=1 j=1 i=1 j=1 j=1 i=1
h k
= a · 1 + b ∑ xi fi• + c ∑ y j f• j
i=1 j=1

= a + bµX + cµY .
17.26

Dimostrazione. La dimostrazione può anche essere ottenuta ricordando che la media


aritmetica è un operatore lineare

M(W ) = M(a + bX + cY ) = a + bM(X) + cM(Y ).


17.27

7 Varianza di una combinazione lineare


Teorema 10 (Varianza di una combinazione lineare). Siano X e Y due variabili statistiche
con medie µX , µY , varianze σX2 , σY2 e covarianza Cov(X,Y ) = σXY .
Si definisca
W = a + bX + cY
con a, b, c ∈ ℜ. Allora

Var(W ) = b2Var(X) + c2Var(Y ) + 2bcCov(X,Y ).

Esempio 11.
µX = 5, µY = 10, σX2 = 4, σY2 = 5, σXY = 4.5
Se
W = 10 − 5X + 2Y
allora
a = 10, b = −5, c = +2
Var(W ) = (−5)2 · 4 + 22 · 5 + 2 · (−5) · 2 · 4.5 = 100 + 20 − 90 = 30.
17.28

255
Dimostrazione.

Var(W ) = M [W − M(W )]2




= M [a + bX + cY − M(a + bX + cY )]2


= M [a + bX + cY − a − bµX − cµY ]2


= M [bX + cY − bµX − cµY ]2



n o
= M [b(X − µX ) + c(Y − µY )]2
= M b2 (X − µX )2 + c2 (Y − µY )2 +


+2bc(X − µX )(Y − µY )]
= b M (X − µX ) + c M (Y − µY )2 +
2 2
  2  

+ 2bc M [(X − µX )(Y − µY )]


2 2
= b Var(X) + c Var(Y ) + 2bcCov(X,Y )
= b2 σX2 + c2 σY2 + 2bc σXY .
17.29

8 Covarianza tra trasformazioni lineari


Teorema 12 (Covarianza tra trasformazioni lineari). Siano X e Y due variabili statistiche
con medie µX , µY , varianze σX2 , σY2 e covarianza Cov(X,Y ).
Si definiscano
W = a + bX
e
T = c + dY
con a, b, c, d ∈ ℜ. Allora
Cov(W, T ) = bd Cov(X,Y ).
17.30

Dimostrazione.

Cov(W, T ) = M {[W − M(W )][T − M(T )]}


= M {[a + bX − M(a + bX)][c + dY − M(c + dY )]}
= M {[a + bX − a − bµX ][c + dY − c − dµY ]}
= M {[bX − bµX ][dY − dµY ]}
= M {bd[X − µX ][Y − µY ]}
= bd M {[X − µX ][Y − µY ]}
= bd Cov(X,Y ).
17.31

256
Sezione 18
Studio della dipendenza se
entrambe le variabili sono di tipo
quantitativo (2)
18.1

Indice
1 La dipendenza e le sue misure 257

2 I modelli di regressione 259

3 Il criterio dei minimi quadrati 260

4 Bontà di adattamento di un modello 260

5 Soluzione del problema: la funzione di Regressione 262

6 Origine del termine regressione 264

7 Adattamento e dipendenza 266

8 I polinomi di regressione 267

9 Residuo quadratico medio di un modello polinomiale 268 18.2

1 La dipendenza e le sue misure


Come si è visto nelle sezioni precedenti lo studio della dipendenza passa attraverso lo
studio delle distribuzioni condizionate:
studio condizionate → studio connessione

• condizionate somiglianti = indipendenza stocastica


• condizionate diverse = dipendenza
• condizionate degeneri = dipendenza funzionale

In più, data una v.s. doppia (X,Y ), quando la variabile dipendente (Y ) è quantitativa ci si
propone di descrivere al meglio l’andamento (la dinamica) del livello di Y al variare di X.
18.3

257
Esempio 1 (La scaltra commessa del negozio di scarpe). Per prevedere la lunghezza del
piede del cliente considera le informazioni relative a un campione di soggetti
Y = lunghezza piede di 90 maschi adulti
yj 37 38 39 40 41 42 43 44 45 46
nj 3 5 8 12 16 21 13 8 3 1 90

M(Y ) = 41.3667, Var(Y ) = 3.81


Ipotizzando che il campione estratto sia rappresentativo dei clienti del negozio, preso a
caso un maschio adulto possiamo affermare che la lunghezza del suo piede è in media tra
41 e 42.
Più correttamente applicando la diseguaglianza di Tchebychev
• con t = 2 una frazione degli
√ individui almeno pari al 75% avrà lunghezza del piede
nell’intervallo 41.4 ± 2 · 3.8 = [37.5, 45.3]
• con t = 3 una frazione degli
√ individui almeno pari al 89% avrà lunghezza del piede
nell’intervallo 41.4 ± 3 · 3.8 = [35.5, 47.2]
18.4
La commessa osserva, però, anche l’altezza del cliente prima di suggerire un articolo.
Con riferimento al campione abbiamo (X = altezza in cm)
Y \X 160 170 180 190
37 2 1 3
38 3 2 5
39 3 4 1 8
40 4 6 2 12
41 3 7 6 16
42 2 9 9 1 21
43 6 6 1 13
44 2 4 2 8
45 1 2 3
46 1 1
17 37 29 7 90

medie 39.5294 41.0811 42.1379 44.1429 41.3667


varianze 2.3668 2.8853 1.843 1.551 3.81
Considerato un individuo di altezza 160 possiamo dire che Y è in media tra 39 e 40 (con
maggior precisione!)

Var(Y |X = 160) = 2.3668 < Var(Y ) = 3.81

18.5
I limiti degli intervalli definiti con la diseguaglianza di Tchebychev per t = 2 risultano
X 160 170 180 190
limin f 36.5 37.7 39.4 41.7 37.5
limsup 42.6 44.5 44.9 46.6 45.3

I limiti degli intervalli definiti con la diseguaglianza di Tchebychev per t = 3 risultano


X 160 170 180 190
limin f 34.9 36 38.1 40.4 35.5
limsup 44.1 46.2 46.2 47.9 47.2
18.6

258
2 I modelli di regressione
Definizione 2 (I modelli di regressione). Sono funzioni che descrivono il legame tra la
variabile statistica Y e la variabile statistica X.
(studio della dipendenza)
vengono così definiti dei modelli teorici del tipo
Y ∗ = g(X)
che vengono utilizzati per descrivere in maniera approssimata la relazione tra la variabile
statistica dipendente Y e la variabile statistica esplicativa X secondo la relazione
Y = g(X) + E
dove E riassume gli scostamenti di Y da Y ∗ = g(X) (residui) dovuti alla incapacità del
modello a riprodurre fedelmente i valori osservati in corrispondenza delle n coppie di
osservazioni.
Tra le singole osservazioni risultano, quindi, definite le seguenti relazioni
yi = g(xi ) + ei in presenza di coppie di osservazioni
y j = g(xi ) + ei j se i dati sono raccolti in tabella
18.7
Nella seguente tabella sono riassunte le informazioni relative alle variabili X e Y per 10
unità statistiche
X\Y 37 43 50 ni•
1 1 1 0 2
2 0 1 1 2
3 1 1 0 2
4 0 2 2 4
n• j 2 5 3 10
Si riportano, nel seguente prospetto, le medesime informazioni con riferimento alle
coppie di valori (xi , yi ) rilevati in corrispondenza di ciascuna delle 10 unità statistiche
i xi yi
55

1 1 37
2 1 43
50

3 2 50
4 2 43
5 3 37
45

6 3 43
7 4 43
40

8 4 50
9 4 50
10 4 43
35

0 1 2 3 4 5

18.8
Si supponga di interpretare la 
variabile Y secondo una generica funzione della variabile
 41 se x = 1
45 se x = 2
X, ad esempio: Y ∗ = g1 (X) =
 42 se x = 3
47 se x = 4

i xi yi g1 (xi ) ei = yi − g1 (xi )
55

1 1 37 41 37 − 41 = −4
2 1 43 41 43 − 41 = 2
50 − 45 = 5
50

3 2 50 45
4 2 43 45 43 − 45 = −2
5 3 37 42 37 − 42 = −5
45

6 3 43 42 43 − 42 = 1
7 4 43 47 43 − 47 = −4
40

8 4 50 47 50 − 47 = 3
9 4 50 47 50 − 47 = 3
10 4 43 47 43 − 47 = −4
35

0 1 2 3 4 5

259
vale
Y = Y ∗ + E = g1 (X) + E
dove le componenti della variabile E (residuo) sono gli scarti tra i valori di Y e i valori
assegnati dal modello Y ∗ = g1 (X)
• ei = yi − g1 (xi ) in presenza di coppie dei valori (xi , yi )
• ei j = y j − g1 (xi ) in presenza di valori riclassificati in tabella
18.9
Al fine di definire un criterio per scegliere la funzione g mediante la quale interpretare
la variabile Y in funzione della variabile X occorre introdurre - come si è visto anche nel
contesto del ’criterio di scelta della media per minimizzazione del danno’ - una opportuna
penalizzazione degli scarti.
Si può considerare a tal fine la funzione di perdita quadratica1

e2i = [yi − g1 (xi )]2 e2i j = [y j − g1 (xi )]2


i xi yi g1 (xi ) ei e2i
1 1 37 41 −4 16
2 1 43 41 2 4
3 2 50 45 5 25
4 2 43 45 −2 4
5 3 37 42 −5 25
6 3 43 42 1 1
7 4 43 47 −4 16
8 4 50 47 3 9
9 4 50 47 3 9
10 4 43 47 −4 16
18.10

3 Il criterio dei minimi quadrati


Definizione 3 (Il criterio dei minimi quadrati). Si cerca la funzione g(x) che rende minima
la seguente funzione criterio (che riassume il danno globale):
• in presenza di coppie di valori:

1 n 2 1 n
M(E 2 ) = ei = ∑ [yi − g(xi )]2 = M [Y − g(X)]2 ,


n i=1 n i=1

• oppure, in presenza di dati raccolti in una tabella a doppia entrata

1 h k 2 1 h k
M(E 2 ) = ei j ni j = ∑ ∑ [y j − g(xi )]2 ni j = M [Y − g(X)]2 .

∑ ∑
n i=1 j=1 n i=1 j=1

Nel presente paragrafo la ricerca della funzione g(·) è effettuata nell’insieme G delle
funzioni che assumono valore reale.
La ricerca può anche essere effettuata in sottoinsiemi di G , ad esempio l’insieme delle
funzioni lineari in x (rette). 18.11

4 Bontà di adattamento di un modello


La quantità M(E 2 ) fornisce una misura della bontà di adattamento di un modello g(·), e
indica il danno globale/medio valutato secondo la funzione di perdita quadratica.
1 Come si è visto nella Sezione 6 esistono anche altre funzioni di perdita, ad esempio |ei | = |yi − g1 (xi )|

260
Definizione 4 (Residuo quadratico medio). La quantità M(E 2 ), media del quadrato della
variabile errore/scarti/residui, è denominata Residuo Quadratico Medio, in inglese Mean
Square Residual (MSR).

Osservazione
Può essere, indifferentemente, utilizzata quale funzione criterio anche la somma dei qua-
drati dei residui n · M(E 2 ), denominata in inglese Residual Sum of Squares (RSS) e in
italiano Devianza dei residui (Dev(E)).
18.12

Osservazione
Se la variabile residuo ha media nulla, M(E) = 0, allora
M(E 2 ) = Var(E).
Infatti
Var(E) = M (E − µE )2 = M (E − 0)2 = M(E 2 ).
   
18.13


 41 se x = 1
45 se x = 2


Y = g1 (X) =

 42 se x = 3
47 se x = 4

i xi yi g1 (xi ) ei e2i
1 1 37 41 −4 16
2 1 43 41 2 4
3 2 50 45 5 25
4 2 43 45 −2 4
5 3 37 42 −5 25
6 3 43 42 1 1
7 4 43 47 −4 16
8 4 50 47 3 9
9 4 50 47 3 9
10 4 43 47 −4 16
Somma −5 125
Media −0.5 12.5
In corrispondenza della funzione g1 (x) il residuo quadratico medio risulta M(E 2 ) = 12.5.
18.14
A ogni funzione g(x) è associato un diverso valore del residuo quadratico medio.
Nel seguente caso g2 (x) è preferibile a g1 (x).
 

 41 se x = 1 
 38.5 se x = 1
45 se x = 2 46 se x = 2
 
Y ∗ = g1 (X) = Y ∗ = g2 (X) =

 42 se x = 3 
 41 se x = 3
47 se x = 4 47 se x = 4
 

i xi yi g1 (xi ) ei e2i i xi yi g2 (xi ) ei e2i


1 1 37 41 −4 16 1 1 37 38.5 −1.5 2.25
2 1 43 41 2 4 2 1 43 38.5 4.5 20.25
3 2 50 45 5 25 3 2 50 46 4 16
4 2 43 45 −2 4 4 2 43 46 −3 9
5 3 37 42 −5 25 5 3 37 41 −4 16
6 3 43 42 1 1 6 3 43 41 2 4
7 4 43 47 −4 16 7 4 43 47 −4 16
8 4 50 47 3 9 8 4 50 47 3 9
9 4 50 47 3 9 9 4 50 47 3 9
10 4 43 47 −4 16 10 4 43 47 −4 16
Somma −5 125 Somma 0 117.5
Media −0.5 12.5 Media 0 11.75
g2 (x) è anche caratterizzata dal fatto che M(E) = 0, di conseguenza non genera residui
sistematici.
M(E) = 0 rappresenta una caratteristica auspicabile per un modello di regressione. 18.15

261
5 Soluzione del problema: la funzione di Regressione
Teorema 5. In presenza di una variabile statistica doppia (X,Y )
1 h k 2 1 h k
M(E 2 ) = ei j ni j = ∑ ∑ [y j − g(xi )]2 ni j = M [Y − g(X)]2

∑ ∑
n i=1 j=1 n i=1 j=1
con g ∈ G , insieme delle funzioni che assumono valore reale, risulta minimo se
g(X) = M(Y |X).
18.16

Dimostrazione. La dimostrazione è riferita a una v.s. doppia con dati raccolti in una
tabella a doppia entrata.
1 h k
M(E 2 ) = M [Y − g(X)]2 = ∑ ∑ [y j − g(xi )]2 ni j =

n i=1 j=1

1 h ni• k
1 h k
ni j
= ∑ ni•
n i=1 ∑ [y j − g(xi )]2 ni j = n ∑ ni• ∑ [y j − g(xi )]2 ni• =
j=1 i=1 j=1
( )
1 h k
ni j
= ∑ ni•
n i=1 ∑ [y j − g(xi )]2 ni• .
j=1

Si osserva come ciascuna espressione in parentesi graffe è non negativa ed è riferita alla
distribuzione condizionata Y |xi .
Minimizzando ciascuna di queste espressioni, che sono le uniche che dipendono da g(·),
si otterrà il minimo globale.
Si è riformulato il problema iniziale in un insieme di h problemi di minimo.
Quindi, con riferimento a ciascuna delle distribuzioni condizionate Y |xi , occorre determi-
nare il valore α = g(xi ) che rende minima
k
ni j
∑ [y j − α]2 ni• M (Y − α)2 X = xi .
 
ovvero
j=1

In base al criterio di scelta della media per minimizzazione del danno la soluzione risulta
α = g(xi ) = M(Y |xi ) = µY (xi ).
18.17
Definizione 6 (Funzione di Regressione). Si definisce Funzione di Regressione una qual-
siasi funzione che associa a ogni xi la media di Y condizionata a xi .
M(E 2 ) risulta, quindi, minimo in corrispondenza della funzione di regressione.
40 = 12 (37 + 43)

 se x = 1
46.5 = 12 (50 + 43)

se x = 2

Y ∗ = M(Y |X) =
 40 = 21 (37 + 43)
 se x = 3
46.5 = 14 (43 · 2 + 50 · 2) se x = 4

i xi yi M(Y |xi ) ei e2i


1 1 37 40 −3 9
55

2 1 43 40 3 9
3 2 50 46.5 3.5 12.25
50

4 2 43 46.5 −3.5 12.25


5 3 37 40 −3 9
45

6 3 43 40 3 9
7 4 43 46.5 −3.5 12.25
8 4 50 46.5 3.5 12.25
40

9 4 50 46.5 3.5 12.25


10 4 43 46.5 −3.5 12.25
35

Somma 0 109.5 0 1 2 3 4 5

Media 0 10.95

262
18.18

v.s. medie condizionate


Y
xi M(Y |xi ) ni• M(Y |xi ) · ni• [M(Y |xi )]2 · ni•
yi y2i
1 40 2 80 3200.0
37 1369
2 46.5 2 93 4324.5
43 1849
3 40 2 80 3200.0
50 2500
4 46.5 4 186 8649.0
43 1849
10 439 19373.5
37 1369
43 1849
v.s. varianze condizionate
43 1849
xi Var(Y |xi ) ni• Var(Y |xi ) · ni•
50 2500
1 9 2 18
50 2500
2 12.25 2 24.5
43 1849
3 9 2 18
∑ 439 19483
4 12.25 4 49
M 43.9 1948.3
10 109.5
M(Y ) = MX [M(Y |X)] = 43.9
M(Y 2 ) = 1948.3
Var(Y ) = 1948.3 − 43.92 = 21.09
varianza spiegata = VarX [M(Y |X)] = 1937.35 − 43.92 = 10.14
varianza residua = MX [Var(Y |X)] = 10.95
Var(Y ) = var. sp. + var. res. = 10.14 + 10.95 = 21.09
VarX [M(Y |X)]
rapporto di correlazione ηY2|X = = 0.4808
Var(Y )

18.19
Nel seguito si indicheranno con Ê, êi , êi j i residui del modello ottenuto con il criterio dei
minimi quadrati.
Nel caso della funzione di regressione abbiamo
êi j = y j − M(Y |xi ).
Teorema 7. Il residuo quadratico medio della funzione di regressione
M(Ê 2 ) = M [Y − M(Y |X)]2


coincide con la varianza dei residui.


18.20

Dimostrazione. Si dimostra, in primo luogo, con riferimento a una tabella a doppia en-
trata, che M(Ê) = 0

1 h k
M(Ê) = M {[Y − M(Y |X)]} = ∑ ∑ [y j − M(Y |xi )]ni j =
n i=1 j=1

1 h ni• k
= ∑ ni•
n i=1 ∑ [y j − M(Y |xi )]ni j =
j=1
( )
h k
1 ni j
= ∑ ni•
n i=1 ∑ [y j − M(Y |xi )] ni• =
j=1

= MX [M { [Y − M(Y |X)]| X}]


= MX [0] = 0.
in quanto per la generica distribuzione condizionata vale M { [Y − M(Y |X)]| X} = 0.
Pertanto
M(Ê 2 ) = M (Ê − 0)2 = M (Ê − µÊ )2 = Var(Ê).
   

263
18.21

Teorema 8. Con riferimento al modello funzione di regressione il residuo quadrati-


co medio coincide con il termine varianza residua nel risultato di scomposizione della
varianza.
18.22

Dimostrazione. La dimostrazione è riferita a una v.s. doppia con dati raccolti in una
tabella a doppia entrata. M(Ê 2 ) può essere riscritto come:

1 h k
M(Ê 2 ) = M [Y − M(Y |X)]2 = ∑ ∑ [y j − M(Y |xi )]2 ni j =

n i=1 j=1

1 h ni• k
= ∑ ni•
n i=1 ∑ [y j − M(Y |xi )]2 ni j =
j=1
( )
h k
1 ni j
= ∑ ni• ∑ [y j − M(Y |xi )]2 =
n i=1 j=1 ni•
h n oi
= MX M [Y − M(Y |X)]2 X

= MX [Var(Y |X)] = varianza residua.


18.23

Osservazione
Con riferimento al modello funzione di regressione le quantità

1 n 2 1 n
M(Ê 2 ) = êi = ∑ [yi − M(Y |xi )]2 = M [Y − M(Y |X)]2


n i=1 n i=1

definita in presenza di coppie di valori, oppure

1 h k 2 1 h k
M(Ê 2 ) = [y j − M(Y |xi )]2 ni j = M [Y − M(Y |X)]2

∑ ∑ êij ni j = ∑ ∑
n i=1 j=1 n i=1 j=1

definita per una tabella a doppia entrata, coincidono con il termine varianza residua nel
risultato di scomposizione della varianza.
18.24

6 Origine del termine regressione


Galton F.R.S. 1886 Regression towards Mediocrity in Hereditary Stature, Journal of the Anthropo-
logical Institute, 15, 246-263

Plants data:
’It appeared from these experiments that the offspring did not tend to resemble their parent
seeds in size, but to be always more mediocre than they—to be smaller than the parents,
if the parents were large; to be larger than the parents, if the parents were very small.’
Humans data:
’The child inherits partly from his parents, partly from his ancestry. ... Their mean stature
will then be the same as that of the race; in other words, it will be mediocre. Or, to put
the same fact into another form, the most probable value of the mid-ancestral deviates in
any remote generation is zero.’
’The average regression of the offspring to a constant fraction of their respective mid-
parental deviations, which was first observed in the diameters of seeds, and then confirmed

264
by observations on human stature, is now shown to be a perfectly reasonable law which
might have been deductively foreseen.’ 18.25

Righe: Heights of the Midparents in inches


Colonne: Heights of the Adult Children in inches
61.7 62.2 63.2 64.2 65.2 66.2 67.2 68.2 69.2 70.2 71.2 72.2 73.2 73.7
73 0 0 0 0 0 0 0 0 0 0 0 1 3 0
72.5 0 0 0 0 0 0 0 1 2 1 2 7 2 4
71.5 0 0 0 0 1 3 4 3 5 10 4 9 2 2
70.5 1 0 1 0 1 1 3 12 18 14 7 4 3 3
69.5 0 0 1 16 4 17 27 20 33 25 20 11 4 5
68.5 1 0 7 11 16 25 31 34 48 21 18 4 3 0
67.5 0 3 5 14 15 36 38 28 38 19 11 4 0 0
66.5 0 3 3 5 2 17 17 14 13 4 0 0 0 0
65.5 1 0 9 5 7 11 11 7 7 5 2 1 0 0
64.5 1 1 4 4 1 5 5 0 2 0 0 0 0 0
64 1 0 2 4 1 2 2 1 1 0 0 0 0 0
18.26
74
72
Heights of the Adult Children in inches

70
68
66
64
62

62 64 66 68 70 72 74

Heights of the Midparents in inches

Si può osservare come la linea tratteggiata che ’approssima’ (interpola) le medie dell’al-
tezza dei figli da adulti condizionate all’altezza mediana dei genitori abbia una pendenza
inferiore alla bisettrice (linea continua).
Galton conclude che vi è una tendenza delle medie condizionate (che descrivono l’altezza
media dei figli da adulti) a ritornare (’regredire’) verso la media generale che caratterizza
la specie umana.
18.27
18.28
18.29

265
7 Adattamento e dipendenza
La funzione di regressione consente di descrivere il legame in media, quindi si ha:
• adattamento buono se:
– punti sperimentali vicini alla funzione di regressione g(x) = M(Y |X)
– bassa variabilità attorno alle medie condizionate
• dipendenza nulla se:
– medie condizionate tutte eguali
• dipendenza massima se:
– medie condizionate differenti
– variabilità nulla attorno alle medie condizionate
La varianza della variabile statistica medie condizionate
VarX {M(Y |X)}
costituisce un possibile indice di dipendenza (assoluto). 18.30

Teorema 9 (Scomposizione della varianza in corrispondenza del modello funzione di


regressione).
Var(Y ) = VarX [M(Y |X)] + MX [Var(Y |X)]
= varianza spiegata + varianza residua.

Dimostrazione. È possibile fare riferimento alla dimostrazione dell’analogo risultato ot-


tenuto per la varianza di un miscuglio, cfr. il Teorema 1 nella Sezione 10, p. 144.
Si riporta, per completezza, anche la dimostrazione riferita a una tabella a doppia entrata.
h i h i
Var(Y ) = M (Y − µY )2 = M (Y − M(Y |X) + M(Y |X) − µY )2 =
n h io
= MX M (Y − M(Y |X) + M(Y |X) − µY )2 X =

n hn o io
= MX M (Y − M(Y |X))2 + (M(Y |X) − µY )2 + 2 (Y − M(Y |X)) (M(Y |X) − µY ) X =

n h io n h io
= MX M (Y − M(Y |X))2 X + MX M (M(Y |X) − µY )2 X +

+ MX {M [ 2 (Y − M(Y |X)) (M(Y |X) − µY )| X]} =


n h io n h io
= MX M (Y − M(Y |X))2 X + MX M (M(Y |X) − µY )2 X +

+ 2MX {(M(Y |X) − µY ) · M [ (Y − M(Y |X))| X]} =


n o
= MX {Var(Y |X)} + MX (M(Y |X) − µY )2 + 2MX {(M(Y |X) − µY ) · 0} =
= MX {Var(Y |X)} +VarX {M(Y |X)} .
h i
Si osserva che l’eguaglianza M (M(Y |X) − µY )2 X = (M(Y |X) − µY )2 vale in quanto

M(Y |X) e µY sono delle costanti per la generica distribuzione condizionata Y |xi .
18.31
Una misura della bontà di adattamento del modello funzione di regressione è costituita
dalla quota di varianza spiegata.
Definizione 10 (Rapporto di correlazione).
VarX [M(Y |X)] MX [Var(Y |X)]
ηY2|X = = 1− .
Var(Y ) Var(Y )
18.32

266
8 I polinomi di regressione
Si è introdotta la funzione di regressione come una qualsiasi funzione passante per le h
medie condizionate.
Tra le infinite funzioni che soddisfano tale definizione figura anche il polinomio di grado
(h − 1)
y∗ = a0 + a1 x + a2 x2 + . . . + ah−1 xh−1
che unisce le medie senza soluzione di continuità.
Per determinare i coefficienti a0 , a1 , a2 , . . . , ah−1 di tale polinomio, occorre risolvere il
seguente sistema di h equazioni lineari
2 h−1

 M(Y |x1 ) = a0 + a1 x1 + a2 x1 + . . . + ah−1 x1

.. .
 .
2 h−1
M(Y |xh ) = a0 + a1 xh + a2 xh + . . . + ah−1 xh

18.33
Si osserva però come il modello descritto dal polinomio di grado (h − 1) possa risultare
troppo complesso nelle applicazioni pratiche.
Si pensi ad esempio al polinomio interpolante una serie storica di lunghezza h.
Comunemente si fa, quindi, ricorso a modelli più semplici:
polinomi di grado inferiore a (h − 1) 18.34
Si considerano dei modelli polinomiali completi di grado r
0 ≤ r ≤ h−1

spazio funzioni
ĝ G = che assumono
valore reale

L0 L1 ... Lh−1 L0 ⊂ L1 ⊂ . . . ⊂ Lh−1 ⊂ G

Y = Y ∗ + E = λ (x) + E = a0 + a1 X + a2 X 2 + . . . + ar X r + E
si tratta di modelli lineari nei parametri. 18.35
Stime dei parametri ai (i = 0, 1, . . . , r) possono essere determinate applicando ai dati il
criterio dei minimi quadrati, che va a ricercare la soluzione che rende minimo il residuo
quadratico medio
M(E 2 ) = M [Y − λ (X)]2


= M (Y − a0 − a1 X − a2 X 2 − . . . − ar X r )2 .
 

Osservazione
Si dimostra che, in base al criterio dei minimi quadrati, il modello che meglio approssima
i dati è lo stesso che meglio approssima la funzione di regressione.
18.36

Definizione 11 (Varianza residua). Se M(E) = 0, allora


M(E 2 ) = Var(E)
e il residuo quadratico medio è denominato varianza residua.

267
Osservazione
Con riferimento alla stima dei parametri di un polinomio di regressione secondo il cri-
terio dei minimi quadrati, la relazione M(Ê) = 0 risulta verificata se il parametro a0
(denominato costante o intercetta) non è vincolato.
18.37

Definizione 12 (Scomposizione della varianza). Si dimostra che se in un modello poli-


nomiale il parametro a0 (denominato costante o intercetta) non è vincolato, allora vale la
seguente scomposizione della varianza di Y .

Var(Y ) = varianza spiegatamodello + varianza residuamodello


= varianza spiegatamodello + M(Ê 2 )

Definizione 13 (Indice di adattamento). Se vale il risultato di scomposizione della va-


rianza, allora, è possibile definire la seguente misura normalizzata

M(E 2 ) Var(E)
R2 = 1 − = 1−
Var(Y ) Var(Y )

detta indice di adattamento.

Osservazione
L’indice di adattamento R2 può essere interpretato come la quota di varianza spiegata dal
modello.
18.38

9 Residuo quadratico medio di un modello polinomiale


Si supponga di avere ottenuto, in base al criterio dei minimi quadrati, le stime dei coeffi-
cienti â0 , â1 , . . . , âr del seguente modello polinomiale:

Y = a0 + a1 X + . . . + ar X r + E

Il residuo quadratico medio


n o
M(Ê 2 ) = M (Y − â0 − â1 X − . . . − âr X r )2

può essere ottenuto applicando la seguente formula operativa

M(Ê 2 ) = M {Y (Y − modello polinomiale stimato)}


= M {Y (Y − â0 − â1 X − . . . − âr X r )}
= M(Y 2 ) − â0 M(Y ) − â1 M (Y X) − . . . − âr M (Y X r )

L’espressione vale anche se alcuni coefficienti sono nulli e, quindi, anche se manca l’in-
tercetta o qualche potenza della variabile X. 18.39

268
Sezione 19
Modelli polinomiali
19.1

Indice
1 Il modello costante Y = a0 + E 270
1.1 Residuo quadratico medio e indice di adattamento . . . . . . . . . . . . . 270

2 Il modello retta Y = a + bX + E 271


2.1 Scomposizione della varianza totale . . . . . . . . . . . . . . . . . . . . 272
2.2 Indice adattamento retta . . . . . . . . . . . . . . . . . . . . . . . . . . . 273
2.3 Residuo quadratico medio retta di regressione . . . . . . . . . . . . . . . 273
2.4 Una ulteriore scomposizione della varianza residua del modello retta . . . 273
2.5 Retta di regressione e covarianza . . . . . . . . . . . . . . . . . . . . . . 274
2.6 Relazione tra indipendenza stocastica, indipendenza in media e indipen-
denza lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 275
2.7 Il coefficiente di correlazione lineare . . . . . . . . . . . . . . . . . . . . 276
2.8 Confronto tra η 2 e ρ 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 278

3 Esercizi 281
3.1 Esercizi sul confronto tra ρ 2 e η 2 . . . . . . . . . . . . . . . . . . . . . . 281
3.2 Esercizi di carattere teorico . . . . . . . . . . . . . . . . . . . . . . . . . 287

4 Modello Y = bX + E 290 19.2

269
1 Il modello costante Y = a0 + E
Si tratta del polinomio di grado r = 0.
Si applica il criterio dei minimi quadrati per determinare l’espressione del parametro a0 .
La ricerca del minimo viene condotta all’interno della classe dei polinomi λ (x) ∈ L0

â0 = arg min M[E 2 ] = arg min M (Y − a0 )2 = M(Y ) = µY


 
a0 ∈ℜ a0 ∈ℜ

(per la proprietà della media aritmetica inerente il criterio di scelta della media per mini-
mizzazione del danno 1 ).

5
4

µY
3
2
1
0

0 1 2 3 4 5

19.3

1.1 Residuo quadratico medio e indice di adattamento


Il residuo quadratico medio risulta:

M Ê 2 = M (Y − µY )2 = Var(Y )
  


Dal momento che M Ê = M(Y − µY ) = 0 il residuo quadratico medio minimo coincide
con la varianza residua
M Ê 2 = Var Ê = Var(Y ).
 

L’indice di adattamento R2 (quota di varianza spiegata) assume valore nullo:

M Ê 2

Var(Y )
1− = 1− = 0.
Var(Y ) Var(Y )

Osservazioni
• Il modello non passa necessariamente per le medie condizionate.
• È il modello più semplice, però è decisamente scarso:
anche se i dati presentano trend non ne tiene conto!
19.4
1 Occorre risolvere la seguente equazione
d M (Y − a0 )2
 
=0
d a0
d(Y − a0 )2
 
M =0
d a0
M [2(Y − a0 )(−1)] = 0
−2M(Y − a0 ) = 0
M(Y − a0 ) = M(E) = 0
M(Y ) − a0 = 0
â0 = M(Y ).

270
2 Il modello retta Y = a + bX + E
Esprime la dinamica in modo solo proporzionale.
Si applica il criterio dei minimi quadrati per determinare l’espressione dei parametri a e
b. La ricerca del minimo viene condotta all’interno della classe dei polinomi λ (x) ∈ L1

(â, b̂) = arg min M[E 2 ] = arg min M (Y − a − bX)2


 
a,b a,b

Si ottiene:
Cov(X,Y )
b̂ = â = M(Y ) − b̂ M(X)
Var(X)

5
4
3
2
1
0

0 1 2 3 4 5

19.5

Dimostrazione. Occorre risolvere il seguente sistema di equazioni lineari (denominate


equazioni normali)

 ∂ M[(Y −a−bX)2 ]
∂a =0
 ∂ M[(Y −a−bX)2 ] = 0
∂b

M [2(Y − a − bX)(−1)] = 0
M [2(Y − a − bX)(−X)] = 0

−2M(Y − a − bX) = 0
−2M [(Y − a − bX)X] = 0

M(Y − a − bX) = 0
M [(Y − a − bX)X] = 0

Si osserva come, in corrispondenza


 dei valori (â, b̂) soluzione del sistema, dalla prima
equazione segue che M Ê = 0.
Dalla seconda equazione,
 sempre in corrispondenza dei valori (â, b̂) soluzione del siste-
ma, abbiamo M ÊX = 0. La seconda equazione impone, quindi, l’ortogonalità tra Ê e
X, da cui la denominazione di sistema delle equazioni normali. 
Si stanno, quindi, cercando le stime (â, b̂) che garantiscono M Ê = 0 e M(ÊX) = 0.
Dal momento che M è un operatore lineare, dalla prima equazione si ottiene

M(Y ) − a − bM(X) = 0
â = M(Y ) − bM(X) = µY − bµX

che può essere sostituito nella seconda equazione del sistema

M {[Y − (µY − bµX ) − bX] X} = 0


M XY − µY X + bµX X − bX 2 = 0


M(XY ) − µY M(X) + bµX M(X) − b M X 2 = 0




271
M(XY ) − µX µY + b (µX )2 − bM X 2 = 0

h i
[M(XY ) − µX µY ] − b M X 2 − (µX )2 = 0


M(XY ) − µX µY Cov(X,Y )
b̂ = = .
M (X 2 ) − (µX )2 Var(X)
19.6
In definitiva:
Cov(X,Y )
b̂ = â = M(Y ) − b̂ M(X)
Var(X)

Osservazione
Si dimostra che la retta interpolante tutti i dati osservati è equivalente alla retta approssi-
mante le medie condizionate.
19.7

2.1 Scomposizione della varianza totale


Definizione 1 (Scomposizione della varianza totale). Data la retta di regressione

Y = â + b̂X + Ê = Ŷ + Ê

dove â e b̂ sono le stime dei valori dei coefficienti a e b del modello retta Y = a + bX + E,
ottenute secondo il criterio dei minimi quadrati, vale la seguente scomposizione

Var(Y ) = varianza spiegataretta + varianza residuaretta


 
= Var Ŷ +Var Ê
= Var Ŷ + M Ê 2
 

con

varianza spiegataretta = Var Ŷ = Var(â + b̂X) = b̂2Var(X) =




Cov(X,Y ) 2 [Cov(X,Y )]2


 
= Var(X) =
Var(X) Var(X)
h i
2
varianza residuaretta = M Ê 2 = M Y − Ŷ
 
.
  19.8
Il residuo quadratico medio coincide con Var Ê , varianza dei residui, (M Ê = 0). 19.9

Dimostrazione. Dalla prima equazione del sistema delle equazioni normali, cfr. dimo-
strazione che ha portato alle formule dei coefficienti â e b̂, si è ottenuto
 
M Ê = M Y − Ŷ = 0

quindi 
M Ŷ = M(Y ) = µY .
Si considera ora la varianza di Y
h i h 2 i
Var(Y ) = M (Y − µY )2 = M Y − Ŷ + Ŷ − µY
n  2 o
=M Y − Ŷ + Ŷ − µY
h 2 i h 2 i   
= M Y − Ŷ + M Ŷ − µY + M 2 Y − Ŷ Ŷ − µY
h 2 i
= M Ê 2 + M Ŷ − µY
   
+ 2M Y − Ŷ Ŷ − µY

272
• Il residuo quadratico medio al primo addendo coincide con la varianza della varia-
bile residuo (residual), dal momento che M Ê = 0.
• Il secondo addendo misura la variabilità dei valori stimati dal modello (punti sulla
retta) rispetto alla media di Y e rappresenta la parte della variabilità di Y che il
modello retta è in grado di spiegare.  
• Il terzo addendo, 2 volte la covarianza tra Ê = Y − Ŷ e Ŷ − µY , risulta nullo:
      
M Ê Ŷ − µY = M Ê â + b̂X − â − b̂µX = M Ê b̂X − b̂µX = M b̂ÊX − b̂µX Ê
 
= b̂M ÊX − b̂µX M Ê = b̂ · 0 − b̂µX · 0 = 0
   
essendo M ÊX = M Y − Ŷ X = 0 in base alla seconda equazione del sistema
delle equazioni normali.
Quindi
 
Var(Y ) = Var Ê +Var Ŷ = varianza residuaretta + varianza spiegataretta .
19.10

2.2 Indice adattamento retta


Definizione 2 (Indice di adattamento della retta di regressione). Dal momento che vale la
scomposizione

Var(Y ) = varianza spiegataretta + varianza residuaretta

possiamo definire, analogamente al modello funzione di regressione, un indice di adatta-


mento come
M Ê 2

2 varianza spiegataretta varianza residuaretta
R = = 1− = 1−
Var(Y ) Var(Y ) Var(Y )
[Cov(X,Y )]2
Var(X) [Cov(X,Y )]2
= = = ρ 2.
Var(Y ) Var(X)Var(Y )

L’indice di adattamento del modello retta viene anche indicato con il simbolo ρ 2 .
19.11

2.3 Residuo quadratico medio retta di regressione

Osservazione
È possibile ricavare il residuo quadratico medio, o varianza residua, del modello retta
come
M Ê 2 = varianza residuaretta = 1 − ρ 2 Var(Y )
 

• ρ 2 rappresenta la quota di varianza spiegata dal modello retta


• 1 − ρ 2 rappresenta la quota di varianza non spiegata (residua)


• varianza residuaretta è l’ammontare di varianza non spiegata


19.12

2.4 Una ulteriore scomposizione della varianza residua del model-


lo retta
La retta (secondo i minimi quadrati) e la funzione di regressione sono state ottenute come
le funzioni che rendono minimo il residuo quadratico medio rispettivamente nelle classi:

273
• L1 , delle rette,
• G , delle funzioni che assumono valore reale.
Dal momento che L1 ⊂ G vale la seguente relazione tra i residui quadratici medi (varianze
residue) dei due modelli
2 2
 
M Êfunzione di regressione ≤ M Êretta .

L’indice di adattamento della retta assumerà, di conseguenza, un valore inferiore a quello


della funzione di regressione:
ρ 2 ≤ ηY2|X .
19.13
Segue l’ulteriore scomposizione della varianza residua del modello retta2
varianza residuaretta = MX [Var(Y |X)] + ∆2retta, funzione di regressione
dove n h io
• MX [Var(Y |X)] = MX M (Y − M(Y |X))2 X = var. residuafunzione di regressione

n 2 o
• ∆2retta, funzione di regressione = MX

â + b̂X − M(Y |X) è la media degli scosta-
menti, elevati al quadrato, tra i valori teorici secondo il modello retta e le medie
condizionate (valori teorici secondo la funzione di regressione).

La varianza residua della funzione di regressione viene anche detta varianza irriducibile,
in quanto coincide con il valore minimo che può assumere il residuo quadratico medio di
un modello scelto con il criterio dei minimi quadrati. 19.14

2.5 Retta di regressione e covarianza


Si è visto come la formula del coefficiente angolare della retta di regressione secondo i
minimi quadrati e l’indice di adattamento del modello retta dipendono dalla covarianza

Cov(X,Y ) [Cov(X,Y )]2


b̂ = , ρ2 = .
Var(X) Var(X)Var(Y )
È, quindi, possibile identificare la covarianza come indicatore fondamentale della dipen-
denza lineare.
Definizione 3 (Indipendenza lineare). Si ha indipendenza lineare se
Cov(X,Y ) = Cov(Y, X) = 0 ↔ b = 0 ↔ ρ 2 = 0.
Definizione 4 (Perfetta dipendenza lineare). Si ha perfetta dipendenza lineare se
ρ 2 = 1.
In questa situazione vale anche ηY2|X = ηX|Y
2 = 1.
19.15
2 Posto Ŷ
= â + b̂X vale infatti:
h 2 i n h 2 io n h 2 io
M Y − Ŷ = MX M Y − Ŷ X = MX M Y ± M(Y |X) − Ŷ X =
n hn 2 o io
= MX M (Y − M(Y |X))2 + M(Y |X) − Ŷ − 2 (Y − M(Y |X)) · M(Y |X) − Ŷ X =
n h io n 2 o
= MX M (Y − M(Y |X))2 X + MX M(Y |X) − Ŷ
 
− 2MX M(Y |X) − Ŷ · M [ (Y − M(Y |X))| X]

= MX [Var(Y |X)] + ∆2retta, funzione di regressione


ricordando che M [ (Y − M(Y |X))| X] = 0.

274
2.6 Relazione tra indipendenza stocastica, indipendenza in media
e indipendenza lineare
indipendenza stocastica



x
 Y |xi ∼ Y ↔ X|y j ∼ X 

x

   
   



 ↓ ↑ \/ ↓ ↑\/ 



   
   
  M(Y |x ) = M(Y ) ↔
\/ M(X|y j ) = M(X)  
  i  
  i = 1, 2, . . . , h j = 1, 2, . . . , k  
   



\
/
 ↕ ↕ 


\/

  η 2 =0 indipendenza η 2 =0  
  Y |X X|Y  
in media
   
   
↓ ↑ \/ ↓ ↑\/
   
   
   
   
Cov(X,Y ) = Cov(Y, X) = 0
   
   
indipendenza lineare
   
y  y 
 
se le medie condizionate sono tra loro eguali
la retta che le interpola ha coefficiente angolare nullo
19.16

Osservazione
Possono sussistere contemporaneamente le situazioni di indipendenza lineare e dipenden-
za funzionale; si consideri, al riguardo, il seguente esempio

X \Y 8 23 29 ni•
1 0 0 k k
2 k 0 0 k
5 0 k 0 k
n• j k k k n = 3k

Le distribuzioni condizionate Y |xi e X|y j sono degeneri; sussiste, quindi, dipendenza


funzionale bijettiva, ma Cov(X,Y ) = 0.

1 1 160k 160
M(XY ) = (1 · 29k + 2 · 8k + 5 · 23k) = (29k + 16k + 115k) = =
3k 3k 3k 3
1 8k 8 1 60k
µX = (1k + 2k + 5k) = = µY =
(8k + 23k + 29k) = = 20
3k 3k 3 3k 3k
160 8 160 160
Cov(X,Y ) = M(XY ) − µX µY = − 20 = − =0
3 3 3 3
35
30
25
20
15
10
5
0

0 1 2 3 4 5

19.17

275
2.7 Il coefficiente di correlazione lineare
Definizione 5 (Il coefficiente di correlazione lineare). Si definisce coefficiente di cor-
relazione lineare tra X e Y , ρXY , anche indicato con il simbolo ρ, la covarianza tra le
corrispondenti variabili standardizzate
 
X − µX Y − µY Cov(X,Y )
ρ = Cov , =
σX σY σX σY

dove µX , µY , σX , σY sono rispettivamente le medie e gli scarti quadratici medi.

Teorema 6.
−1 ≤ ρ ≤ 1.
19.18
Si riportando due dimostrazioni del risultato.
Dimostrazione. Il quadrato del coefficiente di correlazione lineare

Cov(X,Y )
ρ=
σX σY
2
[Cov(X,Y )]
coincide con l’indice di adattamento del modello retta, ρ 2 = Var(X)Var(Y ) , quota di varian-
za spiegata dal modello retta; vale quindi:

0 ≤ ρ2 ≤ 1

da cui segue la tesi.


19.19

Dimostrazione. Si ricorda che una variabile standardizzata Z è caratterizzata da media


nulla e varianza unitaria, quindi:
       
Y −µY Y −µY
M X−µσX
X
= M σY = 0 Var X−µX
σX = Var σY =1

Si considerano le varianze delle variabili somma e differenza delle variabili X e Y stan-


dardizzate. Entrambe le varianze sono, per definizione, non negative.
  
 Var X−µX + Y −µY ≥ 0
 σX σY 
 Var X−µX − Y −µY ≥ 0
σX σY
      
 Var X−µX +Var Y −µY + 2Cov X−µX , Y −µY ≥ 0
 σX   σY   σX σY 
 Var X−µX +Var Y −µY − 2Cov X−µX , Y −µY ≥ 0
σX σY σX σY

1 + 1 + 2ρ ≥ 0
1 + 1 − 2ρ ≥ 0

2 + 2ρ ≥ 0
2 − 2ρ ≥ 0

1+ρ ≥ 0
1−ρ ≥ 0

da cui segue la tesi −1 ≤ ρ ≤ 1.

276
19.20

ρ ed equazione retta di regressione


Ricordando che
Cov(X,Y )
b̂ =
σX2
e
Cov(X,Y )
ρ=
σX σY
abbiamo
σY
b̂ = ρ ;
σX
da cui si può scrivere
σY
Y ∗ = â + b̂X = µY − b̂µX + b̂X = µY + b̂(X − µX ) = µY + ρ (X − µX ).
σX
La retta passa, quindi, nel punto (µX , µY ), detto centroide.
19.21

retta di regressione al variare di ρ


5

5
4

4
µY µY
3

µY
2

2
1

1
0

0 1 2
µX 3 4 5 0 1 2
µX 3 4 5 0 1 2
µX 3 4 5

−1 < ρ < 0 ρ ≃0 0 < ρ < +1


19.22

retta di regressione al variare di ρ


5

5
4

µY µY
3

3
2

2
1

1
0

0 1 2
µX 3 4 5 0 1 2
µX 3 4 5

ρ = −1 ρ = +1
19.23

Il seguente teorema trova applicazione in ambito finanziario.


Teorema 7 (Risultato di diversificazione). Siano X e Y due variabili statistiche con medie
µX , µY , varianze σX2 , σY2 e covarianza σXY . Allora
p
Var(X +Y ) ≤ σX + σY .
19.24

277
Dimostrazione. Dal momento che

Cov(X,Y )
|ρ| =
≤ 1.
σX σY
abbiamo
−σX σY ≤ Cov(X,Y ) ≤ σX σY .
Moltiplicando per 2 e sommando Var(X) + Var(Y ) ai tre termini della diseguaglianza
abbiamo
Var(X)+Var(Y )−2σX σY ≤ Var(X)+Var(Y )+2Cov(X,Y ) ≤ Var(X)+Var(Y )+2σX σY ,
da cui si ottiene
(σX − σY )2 ≤ Var(X +Y ) ≤ (σX + σY )2
e p
|σX − σY | ≤ Var(X +Y ) ≤ σX + σY .
19.25

2.8 Confronto tra η 2 e ρ 2


Si ipotizza di studiare la dipendenza di Y da X.
Dal momento che vale la relazione
0 ≤ ρ 2 ≤ ηY2|X ≤ 1
si possono presentare le situazioni riassunte nel seguente prospetto
ηY2|X = 0 0 < ηY2|X < 1 ηY2|X = 1
5

5
4

4
3

ρ2 = 0
2

2
1

1
0

0 2 4 6 8 0 2 4 6 8 0 2 4 6 8
5

5
4

4
3

0 < ρ2 < 1 no
2

2
1

1
0

0 2 4 6 8 0 2 4 6 8
5
4
3

ρ2 = 1 no no
2
1
0

0 2 4 6 8

Le sei situazioni plausibili sono descritte nelle pagine successive.


Per una presentazione più dettagliata si rimanda a Zanella A 2003 Elementi di statistica
descrittiva, CUSL. 19.26

278
ηY2|X = 0
Se ηY2|X = 0 sussiste indipendenza in media di Y da X e anche ρ 2 = 0 in quanto le medie
condizionate M(Y |xi ) sono uguali a M(Y ).

5
4
3
2
1
0
0 2 4 6 8

19.27

ηY2|X = 1
Se ηY2|X = 1 sussiste dipendenza funzionale di Y da X in quanto le distribuzioni condizio-
nate (Y |xi ) sono degeneri.

ηY2|X = 1
5

i dati hanno una configurazione tale che


4

la retta interpolante ha pendenza nulla


3

ρ2 = 0
2
1
0

0 2 4 6 8
5
4
3

0 < ρ2 < 1
2
1
0

0 2 4 6 8
5

ρ 2 = ηY2|X = 1
4

sussiste perfetta dipendenza lineare


3

ρ2 = 1
2
1
0

0 2 4 6 8

19.28

279
0 < ηY2|X < 1
Se 0 < ηY2|X < 1 esiste dipendenza di Y da X, ma non dipendenza funzionale.
Le rappresentazioni grafiche delle situazioni che si possono verificare sono simili a quelle
costruite per ηY2|X = 1; qui è, però, presente la nuvola dei punti in quanto le distribuzioni
condizionate (Y |xi ) non sono tutte degeneri.

0 < ηY2|X < 1


5
4
i dati hanno una configurazione tale che
la retta interpolante ha pendenza nulla
3

ρ2 = 0
2
1
0

0 2 4 6 8
5
4

nella situazione rappresentata abbiamo


ρ 2 < ηY2|X
3

0 < ρ2 < 1
2
1
0

0 2 4 6 8

19.29

0< ρ2 = ηY2|X < 1


Se ρ 2 = ηY2|X il modellofunzione di regressione e il modello retta coincidono (hanno lo
stesso residuo quadratico medio); di conseguenza le medie condizionate sono allineate.
retta di regressione al variare di ρ
5

5
4

4
3

3
2

2
1

1
0

0 2 4 6 8 0 2 4 6 8

ρ <0 ρ >0
Le medie condizionate non sono tutte uguali in quanto ηY2|X > 0;
è presente la nuvola dei punti in quanto ηY2|X < 1.
19.30

280
3 Esercizi
I seguenti esercizi sono articolati in 2 gruppi
• esercizi sul confronto tra ρ 2 e η 2 ,
• esercizi di carattere teorico.
La presente sezione ha carattere integrativo rispetto agli esercizi che presuppongono uno
sviluppo numerico. 19.31

3.1 Esercizi sul confronto tra ρ 2 e η 2


Esercizio 8 (T 246, 18.09.2008, 4). Si indichi, per ognuna delle seguenti tabelle a doppia
entrata, il valore assunto dagli indici sotto indicati, motivando le risposte.
X \Y 4 5 6
1 10 0 0
1.
2 0 8 0
3 0 0 6
2 , η2 , ρ2
ηX|Y Y |X

X \Y 4 5
1 10 0
2.
2 0 8
3 10 0
2 , η2 , χ2 ✍
ηX|Y Y |X
19.32

Esercizio 9 (T 239, 10.01.2008, 4). Completare la tabella, esplicitando anche i valori possibili
per x2 e y2 , in modo tale ρ 2 = 0 e ηX|Y
2 = 1:

X \Y 1 y2 3
5 ✍
x2 2
19.33

Esercizio 10 (T 243, 19.06.2008, 2). Completare la seguente tabella, motivando le risposte, in


modo tale che:
1. ηY2|X = 0 e ρ 2 = 1;

2. ρ 2 = 0 e χN2 = 1;
3. ηY2|X = χN2 .

X \Y 10 15 20
3 8

5 4
3 6 3 12
19.34

Esercizio 11 (T 251, 18.06.2009, 2). Data la seguente tabella a doppia entrata si determinino i
valori delle frequenze n21 ed n22 in modo tale che risulti:
1. ηY2|X = ρ 2 = 1

2. 0 < ηY2|X = ρ 2 < 1

3. ηY2|X ̸= ρ 2

281
X \Y 1 2 3
10 2 0 0

11 1
12 0 0 2
19.35

Esercizio 12 (T 255, 14.01.2010, 5). Si completino ove possibile le seguenti tabelle, motivando
la risposta, in modo tale che:
X \Y 2 4 8
1 0 0
1. 2 0 0
5 0 0
4
ρ2 = ηY2|X =1
X \Y 2 4 6
1 0
2.
3 0 0
5
ηY2|X = 0 e contemporaneamente ηX|Y
2 >0✍

19.36

Esercizio 13 (T 257, 11.02.2010, 5). Se possibile e giustificando teoricamente le risposte,


completare le seguenti tabelle in modo da soddisfare le condizioni sotto indicate.
X \Y 3 4 ?
4 0 8 ?
7 12 0 ?
1. χN2 = 1 ρ = 0
2 =1
2. ηY2|X = ηX|Y

3. ρ 2 = ηY2|X = ηX|Y
2 =0✍

19.37

Esercizio 14 (T 261, 13.01.2011, 4). Si completi ove possibile la seguente tabella, motivando
la risposta, in modo tale che:
X \Y 1 5
10 0
20
0
55

1. 0 < ρ 2 = ηY2|X < 1

2. χ 2 = 55
3. ρ 2 = 0 ✍
19.38

Esercizio 15 (T 262, 03.02.2011, 4). Si completi se possibile la seguente tabella, motivando la


risposta, in modo tale che:
X \Y 1 2 3
1 1
3 1
6

1. ηY2|X = 0 e ρ 2 = 1

2. ρ 2 = 0 ✍
19.39

282
Esercizio 16 (T 266, 12.01.2012, 4). La tabella seguente riporta le osservazioni della variabile
Y in corrispondenza di 5 valori della X:
xi 8 8 10 12 12
yi 4 6 y3 8 10
Si indichi un valore da assegnare a y3 affinché ρ 2 < ηY2|X e ηX|Y
2 = 1. ✍

19.40

Esercizio 17 (T 263, 17.02.2011, 4). Si completino se possibile le seguenti tabelle, riportando


modalità e frequenze e motivando teoricamente la risposta, in modo tale che:
X \Y 2 y2
9
1.
10
11
ηY2|X = 1, ηX|Y
2 =0eρ >0

X \Y 2 y2
9
2. 10 4 0
11 0 7
12
ηY2|X = 1 e ρ < 0 ✍
19.41

Esercizio 18 (T 264-1, 09.06.2011, 5). Si completino se possibile le seguenti tabelle, riportan-


do modalità e frequenze e motivando teoricamente la risposta, in modo tale che:
X \Y 2 5 8
1. x1 2 4 2
x2 4 4
ηY2|X = 0, ηX|Y
2 >0

X \Y y1 y2 y3
2. x1 2 4 2
x2 4 4
ρ2 = 0 ✍
19.42

Esercizio 19 (T 265, 08.09.2011, 4). Si completino se possibile le seguenti tabelle, motivando


teoricamente la risposta, in modo tale che:
X \Y 10 20 30
1. 1 0 11
2 0
ηY2|X = ρ 2 = 0
X \Y 10 20 30
2. 1 11 0
2 0 9
ηY2|X = ρ 2 ̸= 0 ✍
19.43

Esercizio 20 (T 265-1, 22.09.2011, 4). Si completino se possibile le seguenti tabelle, motivan-


do teoricamente la risposta, in modo tale che:
X \Y 10 20 30
1 0 12
1.
2 0
4 0
2
ηX|Y = ρ2 =0

283
X \Y 10 20 30
1 12 0
2.
2 0 9
3 12
ηY2|X = ρ 2 ̸= 0 ✍
19.44

Esercizio 21 (T 268, 09.02.2012, 4). Se possibile e giustificando teoricamente le risposte, si


completino le seguenti tabelle in modo da soddisfare le condizioni sotto indicate.
X \Y 3 9
2 3
1.
3
6
0 < ρ 2 = ηX|Y
2 <1

X \Y 20 40
10 3
2.
20 1
χ 2 = 30 e ηY2|X = 1 ✍
19.45

Esercizio 22 (T 269-1, 07.06.2012, 4). Se possibile e giustificando teoricamente le risposte, si


completino le seguenti tabelle in modo da soddisfare le condizioni sotto indicate.
X \Y 3 9
2 3
1.
3
6
0 < ρ 2 < ηX|Y
2 <1

X \Y 20 40
10 3
2.
20 1
ρ = −30 e ηY2|X =0✍
19.46

Esercizio 23 (T 269-3, 12.07.2012, 4). Se possibile e giustificando teoricamente le risposte, si


completi la seguente tabella in modo da soddisfare le condizioni sotto indicate.
X \Y 3 9
2 8
8
1. ρ 2 = ηX|Y
2

2. ρ 2 = ηY2|X ✍
19.47

Esercizio 24 (T 240, 31.01.2008, 4). Con riferimento ai dati della seguente tabella:
X \Y 10 20
0 4 1 5
12 1 4 5
5 5 10
1. Rappresentare, mediante un grafico bubble diagram, le coppie di dati e la funzione di regres-
sione per lo studio di Y |X.
2. Si stimino, attraverso il criterio dei minimi quadrati, i parametri del modello Y ∗ = a + bX
3. Calcolare ρ 2 .

284
4. Calcolare i valori di ηY2|X ed ηX|Y
2 .✍

19.48

Esercizio 25 (T 207, 15.01.2004, 4). Con riferimento a n = 50 unità statistiche si sono raccolti
alcuni dati, relativi alle variabili (X,Y ) nella seguente tabella:

Y \X 1 2 3
10 8 1 0
20 8 4 a
30 0 1 b

1. Determinare i valori (interi) da assegnare alle costanti a e b affinché ηY2|X = ρ 2 .


2. Calcolare il valore del coefficiente di correlazione lineare.
19.49

Esercizio 26 (T 270-1, 20.09.2012, 4). Se possibile e giustificando teoricamente le risposte, si


completi la seguente tabella in modo da soddisfare le condizioni sotto indicate.
X \ Y 20 y2 40
10 2
x2
1. ρ = 1 e χ 2 = 0 ✍
19.50

Esercizio 27 (T 271, 10.01.2013, 4). Si completino, giustificando opportunamente la risposta,


le seguenti tabelle in modo tale che:
y1 = 2 y2 = y3 = 12
1. x1 = 2 3
x2 = 4 5 5
ρ 2 = 1 e ηX|Y
2 =0

y1 = 2 y2 = y3 = 12
2. x1 = 2 3
x2 = 4 5 5
ρ2 = ηY2|X =0e 2
ηX|Y =1✍
19.51

Esercizio 28 (T 272, 24.01.2012, 4). Si completi la tabella, giustificando opportunamente la


risposta, in modo che ρ 2 < ηY2|X .
y1 = 2 y2 = y3 = 12
x1 = 2 3 ✍
x2 = 4 5 5
19.52

Esercizio 29 (T 273, 07.02.2013, 4). Si completino le seguenti tabelle, giustificando opportu-


namente la risposta, in modo tale che:
y1 = 2 y2 = 4 y3 = 6
x1 = 1 7
1. x2 = 2 0 0
x3 = 3 0
n = 31
χ 2 = 62 e M(X) = 2
y1 = 2 y2 = 4 y3 = 6
x1 = 1 7
2. x2 = 2
x3 = 3
n=
χ2 = 0 e M(Y ) = 4 ✍

285
19.53

Esercizio 30 (T 274-1, 06.06.2013, 4). Si completi la seguente tabella, giustificando opportu-


namente la risposta, in modo che χ 2 = ρ 2 = ηY2|X .
y1 = 2 y2 = 4 y3 = 6
x1 = 1 7
x2 = 2 ✍
x3 = 3
n = 120
19.54

Esercizio 31 (T 274-2, 11.07.2013, 4). Si completino le seguenti tabelle, giustificando oppor-


tunamente la risposta, in modo tale che:
y1 = 2 y2 = 4 y3 = 6
x1 = 1 7
1.
x2 = 2
n = 120
ρ 2 = 1 e ηY2|X = 0
y1 = 2 y2 = 4 y3 = 6
x1 = 1 7
2.
x2 = 2
n = 120
2
ηX|Y =1e ηY2|X =0✍
19.55

Esercizio 32 (T 275, 05.09.2013, 4). Si completi la seguente tabella, giustificando opportuna-


mente la risposta, in modo tale che χ 2 = 44 e ρ 2 = 0

x1 = 12 x2 = x3 = 18
y1 = 2 20

y2 = 4
n = 44
19.56

Esercizio 33 (T 275-1, 16.09.2013, 4). Si completi la seguente tabella, giustificando opportu-


namente la risposta, in modo tale che χ 2 = 44 e ρ 2 = 1

x1 = 12 x2 = 15 x3 = 18
y1 = 2
y2 = 4 20 ✍
y2 = 5
n = 44
19.57

Esercizio 34 (T 276, 16.01.2014, 4). Si completino le seguenti tabelle, giustificando la risposta,


in modo che siano soddisfatte le condizioni indicate.
y1 = 10 y2 = 15
1. x1 = 1 11
x2 = 2 10
ηY2|X = ρ2 >0
y1 = 10 y2 = 15
2. x1 = 1 11
x2 = 2 5
χ2 = 0

286
y1 = 10 y2 = 15
3. x1 = 1 11
x2 = 2
ρ = −1 ✍
19.58

Esercizio 35 (T 277, 30.01.2014, 4). Si completino le seguenti tabelle, giustificando la risposta,


in modo che siano soddisfatte le condizioni indicate.
y1 = 10 y2 = 20 y3 = 30
1. x1 = 1 0 11
x2 = 2 0
2 = 1, ρ 2 = 0
ηX|Y
y1 = 10 y2 = 20 y3 = 30
2. x1 = 1 11
x2 = 2 11
ηY2|X = ρ 2 ̸= 0 ✍
19.59

Esercizio 36 (T 228, 13.07.2006, 2). Con riferimento alla seguente tabella a doppia entrata si
dica, motivando teoricamente la risposta, che valore assume

X \Y 8 10 12
1 0 0 b
2 a 1 a
3 c 0 0

1. ηY2|X sapendo che ρ = −0.85 e che a, b, c sono valori interi strettamente positivi;

2. ηY2|X e ρ nell’ipotesi in cui a = 0. Si definisca, per questo caso, l’espressione analitica della
funzione di regressione.
2 .
3. Indicare l’intervallo di valori che può assumere il rapporto di correlazione ηX|Y
19.60

3.2 Esercizi di carattere teorico


Esercizio 37 (T 212, 15.07.2004, 1). Con riferimento alla seguente tabella a doppia entrata
riferita a una rilevazione campionaria su 200 unità statistiche, posto che il rapporto di correlazione
ηY2|X assume valore nullo e che la media marginale di Y è pari a 25:

X \Y 15 25 35
x1 25 50 n13
x2 n21 80 10

1. si determinino i valori delle frequenze assolute n13 e n21 e si rappresenti graficamente la


distribuzione cumulata Y |X = x1 ;
2. si riassumano con opportuni indici di posizione e di variabilità le distribuzioni condizionate
Y |X = xi , i = 1, 2;
3. sulla base di un opportuno indice verificare se si può ritenere che esista connessione tra le
variabili X e Y ;
4. confrontare le due distribuzioni condizionate Y |X = xi , i = 1, 2, con un opportuno indice di
asimmetria;
5. supponendo che x1 = 1 e x2 = 2x1 si calcoli il valore del coefficiente di correlazione lineare
tra X e Y .
19.61

287
Esercizio 38 (T 212, 15.07.2004, 2). Dato il seguente grafico della serie storica Y del fatturato
(in milioni di e) di un’azienda negli ultimi 7 mesi (t = 1, 2, . . . , 7),

0 2 4 6 8

1. sapendo che M(Y ) = 4, Var(Y ) = 9, e che ρ 2 = 0.64 calcolare i parametri della retta di
regressione Y ∗ = a + bt;
2. indicare i valori assunti dalle varianze spiegate dei modelli I) Ŷ = â + b̂t e II) funzione di
regressione M(Y |t).
19.62

Esercizio 39 (T 227, 29.06.2006, 3). Date due v.s. X e Y , la funzione di regressione di Y |X è


M(Y |X) = 2 + 3X 2 . Sapendo che la distribuzione marginale di X è la seguente:

xi 1 2 3 4
fi 0.2 0.3 0.4 0.1

e sapendo che ηY2|X = 0.5, determinare il valore della varianza residua di Y .


19.63

Esercizio 40 (T 157, 30.09.1999, 3). Data la seguente distribuzione del carattere W :


wi 2 7 12
ni 3 4 3

sapendo che le stime dei parametri del seguente modello di regressione: T ∗ = a + bW assumono i
valori seguenti: â = −4 e b̂ = 2, e che l’indice di adattamento di tale modello è pari al rapporto di
correlazione, ossia ρ 2 = ηT2 |W , calcolare:
1. le medie condizionate M(T |W ) del carattere T ;
2. il valore di ηT2 |W sapendo che la varianza di T è pari a 100;
3. il valore della covarianza tra W e T .
19.64

Esercizio 41 (T 179, 20.07.2000, 5). A un insieme di dati si è adattato un modello di regressione


lineare Y ∗ = a + bX e si sono conservati soltanto i seguenti valori: b̂ = 0.7; σX2 = 5 e M(Y 2 ) = 2.2.
Si vogliono determinare le seguenti quantità:
1. ρ 2 : indice di adattamento;
2. σXY (covarianza);
3. la varianza residua;
4. la varianza spiegata;
5. la stima dell’intercetta a.
Si calcolino, ove possibile, i valori numerici delle quantità sopra indicate e, in caso di impossibilità,
si indichino quali ulteriori informazioni sarebbero necessarie.
19.65

Esercizio 42 (T 189, 27.09.2001, 5). Siano date le due variabili statistiche X e Y . Sapendo
che il coefficiente angolare (b̂) della retta di regressione Y = a + bX è pari a 1.5 e il coefficiente di
correlazione lineare tra X e Y è pari a 0.7, si determini il valore:
1. del coefficiente angolare della seconda retta di regressione X = γ + δY ;
2. l’indice di adattamento ρ 2 .
Sapendo inoltre che σX2 = 56 si calcoli il valore:

288
1. della varianza spiegata della prima retta di regressione Y = a + bX;
2. della covarianza.
19.66

Esercizio 43 (T 191, 31.01.2002, 4). In una classe di 20 studenti di un liceo scientifico si sono
rilevati il voto di matematica (X) ed il voto di fisica (Y ). Il coefficiente di correlazione lineare è
risultato essere pari a 0.8. Per descrivere l’eventuale legame esistente fra le due variabili sono stati
usati i seguenti modelli lineari: Y = a + bX ed X = c + dY , i cui parametri sono stati determinati
col metodo dei minimi quadrati.
Dire, motivando la risposta, se le seguenti affermazioni sono vere.
1. b̂ = −0.6 e dˆ = −1.0667;
2. l’80% della variabilità di Y è spiegata attraverso il legame lineare con X;
3. esiste perfetta relazione lineare tra X e Y .
19.67

Esercizio 44 (T 203, 26.06.2003, 3). Siano M(Y |x1 ) = 2, M(Y |x2 ) = 4 e M(Y |x3 ) = 6 le medie
condizionate di una variabile Y alle tre modalità di una variabile X così distribuita:
xi ni
a 10
b 20
c 10

1. Sapendo che la media delle varianze condizionate di Y a X è 20, calcolare la varianza di Y .


2. Si determini il valore di ηY2|X .
3. Posto a = 1, b = 2 e c = 3, si determini il segno del coefficiente di correlazione lineare tra X
e Y.
19.68

Esercizio 45 (T 211, 01.07.2004, 3). Siano X e Y due variabili statistiche. Sapendo che la stima
b̂ del coefficiente b della retta di regressione X = a + bY è pari a 0.7 e il coefficiente di correlazione
lineare tra X e Y è pari a 0.5, determinare:
1. il coefficiente angolare della retta di regressione Y = c + dX
2. le varianze residua e spiegata della retta di regressione X = â + b̂Y sapendo che σY2 = 7
3. il valore della covarianza tra X e Y .
19.69

Esercizio 46 (T 238, 20.09.2007, 3). Siano X e Y due caratteri quantitativi tali che la funzione

di regressione di Y su X sia M(Y |X = xi ) = 2 + 4 xi . Sapendo che la distribuzione del carattere X
è la seguente:
xi 4 9 16 25 36
fi 0.2 0.15 0.3 0.15 0.2
e che la varianza del carattere Y è pari a 45.6
1. si calcoli la media della variabile Y .
2. Si calcoli il valore dell’indice ηY2|X .
3. Si indichi l’intervallo dei valori che può assumere il coefficiente di correlazione lineare ρ tra
le variabili X e Y .
19.70

Esercizio 47 (T 152, .., 5). Siano X1 , X2 e X3 tre variabili statistiche tra loro non correlate, con
medie aritmetiche µi e varianze σi2 ; sia Z un’altra variabile definita come Z = X1 + X2 . Trovare
l’espressione analitica dei parametri e della varianza residua del modello di regressione lineare di Z
con X3 .
19.71

289
4 Modello Y = bX + E
Si applica il criterio dei minimi quadrati per determinare l’espressione del parametro b
h i
b̂ = arg min M E 2 = arg min M (Y − bX)2
 
b b

h i
dM (Y − bX)2
=0
" db #
d (Y − bX)2
M =0
db
M [2 (Y − bX) (−X)] = 0
− 2M [(Y − bX) X] = 0
M [(Y − bX) X] = M (EX) = 0
M XY − bX 2 = 0


M (XY ) − b M X 2 = 0


b M X 2 = M (XY )


da cui segue
M (XY )
b̂ = .
M (X 2 )
19.72
Il residuo quadratico medio risulta
h 2 i
M Ê 2 = M Y − b̂X
   
= M Y − b̂X Y − b̂X
     
= M Y − b̂X Y − b̂M Y − b̂X X
  
ma, nella dimostrazione precedente si è visto che, per b = b̂, si ha M Y − b̂X X =

M ÊX = 0; abbiamo quindi:

M Ê 2 = M Y − b̂X Y .
   

La formula coincide con quella generale relativa ai polinomi

M Ê 2 = M Y Y − b̂X = M Y 2 − b̂M (XY ) .


   

Si osserva come, mancando l’intercetta (è stata vincolata a 0), non vale il risultato di
scomposizione della varianza e non è quindi possibile calcolare l’indice di adattamento
(normalizzato). 19.73

290
Sezione 20
Modelli riconducibili al modello
retta
20.1

Indice
1 Linearizzazioni 291

2 Valutazione di modelli alternativi 292


2.1 Modelli completi e funzione di regressione . . . . . . . . . . . . . . . . . 293
2.2 Modelli incompleti e linearizzati . . . . . . . . . . . . . . . . . . . . . . 293

3 Indice di miglioramento 295

4 Previsione 295

5 Valutazione di modelli in termini previsivi 295

6 Estensione del modello lineare bivariato 296

7 Interpretazione del coefficiente b per alcuni modelli di regressione 297


7.1 Relazione lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297
7.2 Trasformata logaritmica della variabile esplicativa . . . . . . . . . . . . . 297
7.3 Trasformata logaritmica della variabile dipendente . . . . . . . . . . . . 298
7.4 Trasformata logaritmica della variabile dipendente e variabile esplicativa
di tipo dummy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 298
7.5 Trasformata logaritmica sia della variabile dipendente che della variabile
esplicativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299
7.6 Prospetto riepilogativo . . . . . . . . . . . . . . . . . . . . . . . . . . . 300
7.7 Esercizio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 300 20.2

1 Linearizzazioni
Sebbene qualsiasi funzione continua possa essere approssimata, con riferimento allo svi-
luppo in serie di Taylor, con una funzione polinomiale di grado opportuno, a volte per
interpretare al meglio il legame esistente tra la variabile Y e la variabile X risulta più ap-
propriato fare ricorso a una relazione di tipo non lineare. Alcune, come le seguenti, sono
riconducibili al modello retta tramite una opportuna trasformazione (linearizzazione).

291
forma non lineare forma linearizzata
1) Y ∗ = aX b (lnY ∗ ) = (ln a) + b(ln X)

2) Y = ae bX (lnY ∗ ) = (ln a) + bX

3) Y = ab X (lnY ∗ ) = (ln a) + (ln b)X

4) Y = a + X b
Y ∗ = a + b X1

5) Y = a+bX 1 1
Y ∗ = a + bX

6) Y = a+bX X 1 1
Y∗ = b + aX
4) iperbole 5) reciproco retta 6) reciproco iperbole
20.3
Il precedente prospetto contiene dei particolari modelli che nelle variabili trasformate
divengono lineari di 1◦ grado del tipo

dipendente = intercetta + pendenza · esplicativa + residuo

i cui parametri (intercetta e pendenza) sono stimati con le usuali formule del modello retta

Cov(dipendente, esplicativa)
pendenza =
Var(esplicativa)
intercetta = M(dipendente) − pendenza · M(esplicativa).

Le stime così ottenute costituiscono delle approssimazioni di quelle che si otterrebbero


risolvendo il problema di minimo in base al criterio dei minimi quadrati applicato ai
residui della forma non lineare. 20.4
Ad esempio, con riferimento ai coefficienti â e b̂ del modello 1) occorrerebbe risolvere
(per via numerica) uno dei seguenti problemi:
(  )
Y 2
 2 
b
min M Y − aX min M
(a,b) (a,b) aX b

riferiti ai modelli di regressione:

Y = aX b + E Y = aX b · E

caratterizzati, rispettivamente, da residui di tipo additivo e moltiplicativo. 20.5

2 Valutazione di modelli alternativi


In presenza di due o più modelli è possibile individuare il modello che si ’adatta’ meglio
ai dati, vale a dire interpreta meglio la relazione di dipendenza tra la variabile dipendente
Y e la variabile esplicativa X, confrontando i residui quadratici medi dei modelli in gioco.
Il modello ’migliore’ è quello caratterizzato da residuo quadratico medio, M Ê 2 , mini-
mo.
Si osserva che l’indice di adattamento non risulta essere, in genere, ben definito. Se,
ad esempio, la variabile E non avesse media nulla non sarebbe possibile scomporre
opportunamente la varianza della variabile dipendente.
Nel caso in cui, per ciascuno dei modelli in gioco valga il risultato di scomposizione
della varianza è anche possibile, in alternativa al confronto dei residui quadratici medi,
effettuare il confronto tra gli indici di adattamento.
Il modello ’migliore’ è quello caratterizzato dall’indice di adattamento (quota di varianza
spiegata) più elevato. 20.6

292
2.1 Modelli completi e funzione di regressione
Con riferimento ai modelli completi (modelli polinomiali nei quali figura l’intercetta co-
me parametro libero) e alla funzione di regressione si è visto che la media del residuo è
nulla 
M Ê = 0
quindi, il residuo quadratico medio coincide con la varianza residua del modello

M Ê 2 = Var Ê
 

e vale la scomposizione della varianza come

σY2 = σspiegata
2 2
+ σresidua

dove
2
• σspiegata = varianza dei punti di regressione
• σresidua = attorno ai punti di regressione = Var Ê = M Ê 2
2
 
20.7

2.2 Modelli incompleti e linearizzati


Nei modelli incompleti e in quelli non lineari, se per ricondursi alla forma linearizzata
si opera una trasformazione della variabile dipendente, non vale la scomposizione della
varianza e può, anche, accadere che

M Ê 2 > σY2 .


Di conseguenza, dovendo scegliere, tra diversi modelli, quale è più opportuno utilizzare
per interpretare la variabile Y si dovranno confrontare i residui quadratici medi quando:
• con riferimento a modelli lineari nei parametri
– in qualcuno dei modelli in gioco manca l’intercetta,
– l’intercetta è vincolata,
• il modello è non lineare e, per ricondursi alla forma linearizzata, si è operata una
trasformazione che coinvolge la variabile dipendente.
In questi casi non ha senso calcolare l’usuale indice di adattamento. 20.8

Esempio 1 (vincolo: retta passante in (0, a0 )).

Y ∗ = a0 + bX (a ≡ a0 = 10)
y
10
8
6
4
2
0

0 2 4 6 8 x

293
20.9

Esempio 2 (trasformazione: modello = Y∗


È possibile ricondursi al modelloa + bX 2 ).
retta, considerando X 2 come variabile esplicativa.
Nella prima delle seguenti rappresentazioni grafiche si stima il modello quadratico in X;
nella seconda il modello lineare in X 2 ; si osserva come la struttura di variabilità della Y
rimane immutata.
I residui del primo modello sono identici a quelli del secondo, avendo operato una tra-
sformazione solo della variabile esplicativa.
Quindi il residuo quadratico medio assume lo stesso valore in entrambe le situazioni.
y y
10

10
8

8
6

6
4

4
2

x x2
0

0 1 2 3 4 5 6 7 8 0 4 9 16 25 36 49

20.10

Osservazione
Per convenzione, con riferimento ai modelli linearizzabili, si indicherà con Ê la variabile
residuo attinente alla forma non lineare.
Ad esempio, per il modello
Y ∗ = aX b
avremo
Ê = Y − âX b̂
dove â e b̂ sono le stime dei parametri ottenute con il modello linearizzato

lnY ∗ = ln a + b ln X.
20.11

Esempio 3 (trasformazione: modello Y ∗ = aX b ). È possibile ricondursi al modello retta,


operando la linearizzazione
ln(Y ∗ ) = ln a + b ln(X)
Nella prima delle seguenti rappresentazioni grafiche si stima il modello non lineare in X;
nella seconda il modello linearizzato in ln X e lnY .
Si osserva come in questo caso la struttura di variabilità della Y cambia.
Non si possono, quindi, utilizzare i residui e, tantomeno, l’indice di adattamento del
secondo modello per valutare la bontà del primo.
Occorre calcolare il residuo quadratico medio basandosi sui residui della prima figura.
y ln(y)
100

5
80

4
60

3
40

2
20

x ln(x)
0

0 2 4 6 8 0.0 0.5 1.0 1.5 2.0 2.5

20.12

294
3 Indice di miglioramento
Dati due modelli possiamo classificare come ’migliore’ il modello che ha associato il
residuo quadratico medio più piccolo e come ’peggiore’ quello che ha associato il residuo
quadratico medio più grande.

Definizione 4. Si definisce indice di miglioramento la riduzione relativa del residuo


quadratico medio che si ottiene passando dal modello peggiore al modello migliore.

2 RMS pegg − RMSmigl


pegg,migl ρ = .
RMS pegg
20.13

4 Previsione
Ottenuta la stima ĝ(·) della componente strutturale g(·) del modello

Y = g(X) + E,

formulato per spiegare una variabile dipendente Y in termini di una variabile esplicativa
X, è possibile utilizzare tale stima per effettuare una previsione riguardo al valore as-
sunto dalla variabile dipendente Y in corrispondenza di una nuova osservazione x0 della
variabile esplicativa X.
Occorre, a tal fine, posta pari a zero la previsione della componente accidentale, sostituire
il valore x0 nell’espressione ĝ(x). 20.14

Esempio 5. Si considera il problema della previsione per il modello retta

Y = a + bX + E.

Ipotizzando che le stime dei parametri a e b, ottenute, secondo il criterio dei minimi
quadrati, in corrispondenza a un insieme di n osservazioni (xi , yi ), i = 1, 2, . . . , n, siano
â = 3 e b̂ = 7, la previsione in corrispondenza del valore x0 = 5 risulta

Ŷ (x0 = 5) = â + b̂ · x0 + 0
= 3 + 7 · 5 = 38.
20.15

5 Valutazione di modelli in termini previsivi


Si ricorda che le stime secondo il criterio dei minimi quadrati vengono ottenute tramite
minimizzazione del residuo quadratico medio
h i
M(E 2 ) = M {Y − g(X)}2

con riferimento all’insieme dei dati osservati che costituiscono il cosiddetto training set. 20.16
Si osserva che, nel caso le realizzazioni nel training set presentino notevoli deviazioni
rispetto alla componente strutturale g(x) del modello che si pensa descrivere il fenomeno
oggetto di studio, i criteri di scelta tra i possibili modelli alternativi1 (presentati nel para-
grafo 2) potrebbero portare a selezionare un modello ĝ(x) poco efficace con riferimento
alla previsione in corrispondenza di nuove osservazioni. 20.17

1 Si ricorda che tali criteri sono basati sul valore assunto dal residuo quadratico medio calcolato per ciascun

modello in corrispondenza del training set.

295
La valutazione in termini previsivi di un insieme di modelli alternativi G = {g1 (x), . . . , gh (x)}
dovrebbe, pertanto, essere effettuata su un nuovo insieme di k unità statistiche (il cosiddet-
to test set) per il quale si dispongano di informazioni relative sia alla variabile esplicativa
sia alla variabile dipendente (x01 , y01 ), . . . , (x0k , y0k ), cfr. James, Witten, Hastie, Tibshirani
2015 An Introduction to Statistical Learning. Springer.
In tal modo la valutazione viene svolta considerando un insieme di osservazioni non
utilizzate per la stima del modello. 20.18
Il modello migliore in ottica previsiva sarà quello che minimizza il residuo quadratico
medio calcolato sul test set

1 k
ĝ(x) = arg min
gi (x)∈G
∑ {y0i − g (x0i )}2 .
k i=1
20.19

6 Estensione del modello lineare bivariato


• se ρ 2 ≪ ηY2|X → il modello è migliorabile
(ad esempio aumentando il grado del polinomio)
• se ρ 2 ≃ ηY2|X → il modello polinomiale non è migliorabile
20.20
Esempio 6. Si riprenda l’esempio relativo alla lunghezza piede (Y ) e all’altezza (X)

xi 160 170 180 190


fi• 0.189 0.411 0.322 0.078
µY (xi ) 39.43 41.04 42.14 44.14
σY2 (xi ) 2.37 2.83 1.84 1.55

M(X) = 172.89 Var(X) = 73.88


M(Y ) = 41.37 Var(Y ) = 3.81
Cov(X,Y ) = M(XY ) − µX µY = 10.56
avendo espresso M(XY ) come segue
h k h k
fi j
M(XY ) = ∑ ∑ xi y j fi j = ∑ fi• ∑ xi y j
i=1 j=1 i=1 j=1 fi•
h k h h
fi j
= ∑ fi• xi ∑ y j = ∑ fi• xi M(Y |xi ) = ∑ xi µY (xi ) fi•
i=1 j=1 fi• i=1 i=1

media varianze condizionate = 2.32


varianza medie condizionate = 1.54
ηY2 = 0.399 ρ 2 = 0.391
20.21

Soluzione
aggiungere variabili esplicative → analisi multivariata

ad esempio:
lunghezza piede = f (altezza, peso)
20.22

296
7 Interpretazione del coefficiente b per alcuni modelli
di regressione
I risultati seguenti valgono anche con riferimento ai modelli di regressione multipla (che
verranno presentati in una Sezione successiva), ceteris paribus, ossia supponendo che
rimanga immutato il livello di tutte le altre variabili eventualmente presenti nel modello e
nell’ipotesi teorica che vi sia assenza di correlazione lineare tra la componente di errore e
i regressori.
Si considerano le seguenti tipologie di relazioni lineari:
• relazione lineare tra le variabili nella loro scala originaria
• relazione lineare con trasformata logaritmica della variabile esplicativa
• relazione lineare con trasformata logaritmica della variabile dipendente
• relazione lineare con trasformata logaritmica della variabile dipendente e variabile
esplicativa di tipo dummy
• relazione lineare con trasformata logaritmica sia della variabile dipendente che
della variabile esplicativa 20.23

7.1 Relazione lineare


Y ∗ = a + bX
Se
x0 → x0 + ∆x
consegue che
y∗0 = a + bx0 → a + b(x0 + ∆x) = a + bx0 + b∆x = y∗0 + b∆x,
quindi
∆y∗
∆y∗ = y∗0 + b∆x − y∗0 = b∆x e = b.
∆x
b è la variazione assoluta di y∗ che consegue a una variazione assoluta unitaria di x. 20.24

7.2 Trasformata logaritmica della variabile esplicativa


Y ∗ = a + b ln(X)
Se
x0 → x1 = x0 + ∆x = x0 + cx0 = (1 + c)x0
consegue che
y∗0 = a + b ln(x0 ) → a + b ln[(1 + c)x0 ] = a + b ln(x0 ) + b ln(1 + c) = y∗0 + b ln(1 + c),
quindi
∆y∗ = b ln(1 + c).
Si osserva che il rapporto tra il nuovo valore di x, x1 = (1 + c)x0 e il valore iniziale x0 può
essere interpretato come un valore relativo e risulta pari a 1 + c:
x1
= (1 + c)
x0
da cui consegue una variazione relativa di x pari a c.
Si consideri lo sviluppo in serie di Taylor di ln(1 + c), vale:
ln(1 + c) ≃ c.
Per valori ’piccoli’ di c si può interpretare b ln(1 + c) ≃ bc come la variazione assoluta
di y∗ che consegue a una variazione relativa di x pari a 100c%. 20.25

297
7.3 Trasformata logaritmica della variabile dipendente
ln(Y ∗ ) = a + bX
Se
x0 → x1 = x0 + ∆x
consegue che

ln(y∗0 ) = a + bx0 → ln(y∗1 ) = a + b(x0 + ∆x) = a + bx0 + b∆x = ln(y∗0 ) + b∆x.

Si consideri il rapporto (valore relativo) tra il nuovo valore y∗1 = exp{ln(y∗0 ) + b∆x} e il
valore iniziale y∗0 :

y∗1 exp{ln(y∗0 ) + b∆x} exp ln(y∗0 ) + ln eb∆x



= = =
y∗0 exp{ln(y∗0 )} y∗0
exp ln y∗0 · eb∆x y∗ · eb∆x
 
= ∗ = 0 ∗ = eb∆x .
y0 y0

Considerando lo sviluppo in serie di Taylor di eb∆x , abbiamo che eb∆x ≃ (1 + b∆x).


Quindi, per valori piccoli di b e di ∆x si può interpretare b∆x come la variazione relativa
di y∗ che consegue a una variazione assoluta ∆x di x. 20.26

7.4 Trasformata logaritmica della variabile dipendente e variabile


esplicativa di tipo dummy
Si particolarizza il caso precedente tenendo presente che x può assumere solo i valori 0 e
1, rispettivamente nelle situazioni di assenza e presenza del carattere di cui è indicatrice.2

ln(Y ∗ ) = a + bX

Se
x0 = 0 → x1 = 1
consegue che
ln(y∗0 ) = a → ln(y∗1 ) = a + b = ln(y∗0 ) + b.
Il rapporto (valore relativo) tra il nuovo valore y∗1 = exp{ln(y∗0 ) + b} e il valore iniziale y∗0
risulta:
y∗1 exp{ln(y∗0 ) + b} exp ln(y∗0 ) + ln eb exp ln y∗0 eb y∗ eb
  
∗ = ∗ = ∗ = ∗ = 0 ∗ = eb .
y0 exp{ln(y0 )} y0 y0 y0

Quindi, dal momento che eb ≃ (1 + b) per valori piccoli di b, il coefficiente b può essere
interpretato come la variazione relativa di y∗ che consegue al passaggio della variabile
indicatrice x dallo stato 0 allo stato 1.
Ad esempio l’incremento percentuale, ceteris paribus, del salario di un soggetto di genere
maschile, x = 1, rispetto allo stipendio di un soggetto di genere femminile, x = 0. 20.27
2 Se, ad esempio, si è rilevato il genere G di 4 soggetti, la variabile X = maschio assume valore 1 per i soggetti

maschi e 0 per le femmine


soggetto G X
1 m 1
2 f 0
3 f 0
4 m 1
5 f 0

298
7.5 Trasformata logaritmica sia della variabile dipendente che del-
la variabile esplicativa
ln(Y ∗ ) = a + b ln(X)
Se
x0 → x1 = x0 + ∆x = x0 + cx0 = (1 + c)x0
consegue che

ln(y∗0 ) = a + b ln(x0 ) → ln(y∗1 ) = a + b ln[(1 + c)x0 ] =


= a + b ln(x0 ) + b ln(1 + c) = ln(y∗0 ) + b ln(1 + c).

Si consideri il rapporto (valore relativo) tra il nuovo valore y∗1 = exp{ln(y∗0 ) + b ln(1 + c)}
e il valore iniziale y∗0 :

y∗1 exp{ln(y∗0 ) + b ln(1 + c)} exp{ln(y∗0 ) + ln(1 + c)b }


∗ = = =
y0 exp{ln(y∗0 )} y∗0
exp{ln[y∗0 (1 + c)b ]} y∗0 (1 + c)b
= = = (1 + c)b .
y∗0 y∗0

Si osservi come
(1 + c)b ≃ (1 + bc),
per valori piccoli di b e c; infatti

(1 + c)b = exp[ln(1 + c)b ] = exp[b ln(1 + c)];

inoltre
ln(1 + c) ≃ c
e, infine,
exp(bc) ≃ (1 + bc).
20.28
A una variazione relativa di x, pari a
c
(si ricordi che x1 /x0 = 1 + c) consegue, quindi, una variazione relativa di y∗ pari a circa

bc

(infatti, y∗1 /y∗0 ≃ 1 + bc).


Dal momento che si considerano valori ’sufficientemente piccoli’ di b e c le variazioni
dy∗
relative di x e y∗ possono rispettivamente indicarsi (nel continuo) con dx
x e y∗ , da cui il
rapporto
dy∗
y∗ bc
dx
≃ =b
x
c
noto anche come elasticità di y∗ rispetto a x.
Si osserva che la presente relazione, ln(Y ∗ ) = a + b ln(X), corrisponde alla versione
’linearizzata’ di Y ∗
Y ∗ = αX b
con a = ln(α). 20.29

299
7.6 Prospetto riepilogativo
• Y ∗ = a + bX
b è la variazione assoluta di Y ∗ conseguente a una variazione assoluta di X = +1.
• Y ∗ = a + b ln X
bc è la variazione assoluta di Y ∗ conseguente a una variazione relativa di X pari a
c = 100c%;
se X aumenta dell’1% (variazione relativa di X = 0.01 = +1%) allora la variazione
assoluta di Y ∗ è 0.01b.
• lnY ∗ = a + bX
b = 100b% è la variazione relativa (percentuale) di Y ∗ conseguente a una variazione
assoluta di X = +1.
• lnY ∗ = a + b ln X
bc = 100(bc)% è la variazione relativa (percentuale) di Y ∗ conseguente a una va-
riazione relativa di X pari a c = 100c%;
se X aumenta dell’1% (variazione relativa di X = 0.01 = +1%) allora la variazione
relativa di Y ∗ è 0.01b = 100 · 0.01b% = b%.
20.30
Se X è una variabile indicatrice (dummy) abbiamo:
• Y ∗ = a + bX
b è la variazione assoluta di Y ∗ conseguente al passaggio di X dallo stato 0 allo
stato 1.
• lnY ∗ = a + bX
b = 100b% è la variazione relativa (percentuale) di Y ∗ conseguente al passaggio di
X dallo stato 0 allo stato 1. 20.31

7.7 Esercizio
Esercizio 7. Si riportano nel seguente prospetto lo stipendio orario, yi , e il settore lavora-
tivo (con categorie f = finanziario e m = manifatturiero), wi , di 5 soggetti

wi f m f m f
yi 6 7 8 8 10

• Si calcolino M(Y |W = f ) e M(Y |W = m) e si riassuma il livello di dipendenza in


media di Y da W mediante il rapporto di correlazione ηY2|W .
• Si ricodifichino le categorie di W mediante le variabili indicatrici (dummy)

1 se wi = m
xi =
0 se wi ̸= m

1 se wi = f
ci =
0 se wi ̸= f

• Si stimino, secondo il criterio dei minimi quadrati, i parametri e l’indice di adatta-


mento dei seguenti modelli di regressione

Y = a + bX + E (1)
Y = α + βC + E (2)

• Si interpretino le stime dei parametri nei modelli (1) e (2), confrontandole con i
valori delle medie di gruppo M(Y |W = f ) e M(Y |W = m).
• Si giustifichi perché gli indici di adattamento dei modelli (1) e (2) coincidono con
il rapporto di correlazione ηY2|W .
20.32

300
Sezione 21
Esempio stima modelli in
presenza di tabella a doppia
entrata
21.1

Indice
1 Funzione di regressione 302
1.1 Rapporto di correlazione . . . . . . . . . . . . . . . . . . . . . . . . . . 303

2 Modello Y ∗ = a + bX 304

3 Modello Y ∗ = a + bX 2 304

4 Modello Y ∗ = bX 305

5 Modello Y ∗ = bX 2 305

6 Modello Y ∗ = aX b 306

7 Modello Y ∗ = aebX 307

8 Modello Y ∗ = abX 308

9 Modello Y ∗ = 5 + bX 308

10 Modello Y ∗ = 5 + bX 2 309

11 Schema riassuntivo 310 21.2


Con riferimento ai dati raccolti nella tabella a doppia entrata

X \Y 5 15 26
1 0 0 4 4
2 0 8 3 11
3 9 1 0 10
9 9 7 25

si stimano i parametri e il residuo quadratico medio di alcuni modelli di regressione. 21.3

301
Si considerano le distribuzioni condizionate Y |X per il calcolo di medie e varianze condi-
zionate
Y |x = 1 n1 j
5 0
M(Y |x = 1) = 26
15 0
Var(Y |x = 1) = 0
26 4
4
Y |x = 2 n2 j Y |x = 2 · n2 j
5 0 0
M(Y |x = 2) = 18
15 8 120
Var(Y |x = 2) = 24
26 3 78
11 198
Y |x = 3 n3 j Y |x = 3 · n3 j
5 9 45
M(Y |x = 3) = 6
15 1 15
Var(Y |x = 3) = 9
26 0 0
10 60
21.4

1 Funzione di regressione
Rappresentazione grafica mediante bubble diagram con aggiunta delle medie condiziona-
te M(Y |X)
30
25
20
15
10
5
0

0 1 2 3 4

21.5
Variabile statistica medie condizionate M(Y |X)

xi M(Y |xi ) ni M(Y |X)ni M(Y |X)2 ni


1 26 4 104 2704
2 18 11 198 3564
3 6 10 60 360
Somma 25 362 6628
modalità frequenze calcolo calcolo
media momento
secondo

media delle medie condizionate


362
MX {M(Y |X)} = = 14.48;
25

302
varianza delle medie condizionate
6628
VarX {M(Y |X)} = − 14.482 = 55.4496 (varianza spiegata).
25
21.6
Variabile statistica varianze condizionate Var(Y |X)

xi Var(Y |xi ) ni Var(Y |xi )ni


1 0 4 0
2 24 11 264
3 9 10 90
Somma 25 354
modalità frequenze calcolo
media

media varianze condizionate


354
MX {Var(Y |X)} = = 14.16 (varianza residua).
25
Calcolo media e varianza di Y
yj nj y j n j y2j n j
5 9 45 225 M(Y ) = 362/25 = 14.48
15 9 135 2025 M Y 2 = 6982/25 = 279.28
26 7 182 4732 Var(Y ) = 279.28 − 14.482 = 69.6096.
25 362 6982
21.7

1.1 Rapporto di correlazione


Dai calcoli effettuati nelle pagine precedenti si ha che

M(Y ) = MX {M(Y |X)} = 14.48

Var(Y ) = VarX {M(Y |X)} + MX {Var(Y |X)}


Var(Y ) = (varianza spiegata) + (varianza residua)
69.6096 = 55.4496 + 14.16

varianza spiegata funzione regressione


ηY2|X =
Var(Y )
VarX {M(Y |X)} 55.4496
ηY2|X = = = 0.7967.
Var(Y ) 69.6096
21.8

303
2 Modello Y ∗ = a + bX

Cov(X,Y ) M(XY ) − M(X)M(Y )


b̂ = =
Var(X) M (X 2 ) − [M(X)]2
27.2 − 2.24 · 14.48 −5.2352
= = = −10.4204
5.52 − 5.0176 0.5024
â = M(Y ) − b̂ M(X) = 14.48 + 10.4204 · 2.24 = 37.8217
[Cov(X,Y )]2 27.4073
ρ2 = = = 0.7837
Var(X)Var(Y ) 0.5024 · 69.6096
ρ = −0.8853

M Ê 2 = Var Ê = varianza residua = 15.0568 = σY2 (1 − ρ 2 ).


 

21.9

Osservazione

dipendente = a + b · esplicativa

Cov(esplicativa, dipendente)
b̂ =
Var(esplicativa)
â = M(dipendente) − b̂ M(esplicativa).

• Nel caso in esame la variabile residuo, Ê = Y − Ŷ , è caratterizzata da media nulla,


quindi M Ê 2 = Var Ê , vale a dire il residuo quadratico medio coincide con la
 

varianza dei residui.


21.10

3 Modello Y ∗ = a + bX 2
È possibile ricondursi al modello retta

dipendente = a + b · esplicativa

Cov X 2 ,Y M X 2Y − M X 2 M(Y )
  
b̂ = =
Var (X 2 ) M (X 4 ) − [M (X 2 )]2
57.44 − 5.52 · 14.48 −22.4896
= = = −2.4634
39.6 − 5.522 9.1296
â = M(Y ) − b̂ M X 2 = 14.48 + 2.4634 · 5.52 = 28.078

2
Cov X 2 ,Y

2 505.7821
ρ = 2
= = 0.7958
Var (X )Var(Y ) 9.1296 · 69.6096
ρ = −0.8921

M Ê 2 = Var Ê = varianza residua = 14.2113 = σY2 (1 − ρ 2 ).


 

Anche nel caso in esame M Ê = 0 quindi M Ê 2 = Var Ê .


  
21.11

304
4 Modello Y ∗ = bX
M (XY ) 27.2
b̂ = = = 4.9275.
M (X 2 ) 5.52
Per ottenere il residuo quadratico medio si applica la formula relativa ai polinomi

M Ê 2 = M Y Y − b̂X = M Y 2 − b̂M(XY ) = 279.28 − 4.9275 · 27.2 = 145.252.


   

Si osserva come, mancando l’intercetta, non vale il risultato di scomposizione della va-
rianza: il valore del residuo quadratico medio è superiore a quello di Var(Y ). 21.12

5 Modello Y ∗ = bX 2
Si applica il criterio dei minimi quadrati per determinare l’espressione del parametro b
h 2 i
b̂ = arg min M Y − bX 2
b

h 2 i
dM Y − bX 2
=0
db
" 2 #
d Y − bX 2
M =0
db
M 2 Y − bX 2 −X 2 = 0
  

M −X 2Y + bX 4 = 0


− M X 2Y + b M X 4 = 0
 

da cui segue
M X 2Y

57.44
b̂ = = = 1.4505.
M (X 4 ) 39.6
21.13
Per ottenere il residuo quadratico medio si applica la formula relativa ai polinomi

M Ê 2 = M Y Y − b̂X 2 = M Y 2 − b̂M X 2Y = 279.28 − 1.4505 · 57.44 = 195.9633


    

Si osserva come, mancando l’intercetta, non vale il risultato di scomposizione della va-
rianza: il valore del residuo quadratico medio è superiore a quello di Var(Y ). 21.14

305
6 Modello Y ∗ = aX b
È possibile linearizzare il modello

lnY ∗ = ln a + b ln X

e ricondursi al modello retta

dipendente = ln a + b · esplicativa

dove dipendente = lnY e esplicativa = ln X.


Per calcolare i parametri conviene riferirsi alle variabili trasformate

ln X \ lnY 1.6094 2.7081 3.2581


0 0 0 4 4
0.6931 0 8 3 11
1.0986 9 1 0 10
9 9 7 25

 X) =0.744
M(ln M(lnY ) = 2.4666
M (ln X)2 = 0.6942 M[(lnY )2 ] = 1.6272
Var(ln X) = 0.14 Cov(ln X, lnY ) = M(ln X lnY ) − M(ln X)M(lnY ) =
= 1.6272 − 0.744 · 2.4666 = −0.2090

Cov(ln X, lnY ) M(ln X lnY ) − M(ln X)M(lnY ) −0.2090


b̂ = = = = −1.4929
Var(ln X) M [(ln X)2 ] − [M(ln X)]2 0.14
ln (â) = M(lnY ) − b̂ M(ln X) = 3.578 → â = e3.578 = 35.8019.

21.15
Per il calcolo del residuo quadratico medio occorre, in primo luogo, determinare i valori
assunti dal modello Y ∗ = 35.8019X −1.4929 con x = 1, 2, 3.

Y ∗ (1) = 35.80, Y ∗ (2) = 12.72, Y ∗ (3) = 6.94

quindi, applicando la definizione di residuo quadratico medio


n 2 o 1 h k 2
M Ê 2 = M Y − 35.8019X −1.4929 = ∑ ∑ y j − 35.8019xi−1.4929 ni j

n i=1 j=1

calcolare la corrispondente media di una funzione di una variabile statistica doppia

2
y j − 35.8019xi−1.4929 ni j y1 = 5 y2 = 15 y3 = 26
x1 = 1 (5 − 35.80)2 · 0 (15 − 35.80)2 · 0 (26 − 35.80)2 · 4
x2 = 2 (5 − 12.72)2 · 0 (15 − 12.72)2 · 8 (26 − 12.72)2 · 3
x3 = 3 (5 − 6.94)2 · 9 (15 − 6.94)2 · 1 (26 − 6.94)2 · 0
1053.75

da cui
 1053.75
M Ê 2 = = 42.15.
25
21.16

306
7 Modello Y ∗ = aebX
È possibile linearizzare il modello

lnY ∗ = ln a + bX

e ricondursi al modello retta

dipendente = ln a + b · esplicativa

dove dipendente = lnY e esplicativa = X.


Per calcolare i parametri conviene riferirsi alle variabili trasformate

X \ lnY 1.6094 2.7081 3.2581


1 0 0 4 4
2 0 8 3 11
3 9 1 0 10
9 9 7 25

M(X) = 2.24 M(lnY ) = 2.4666


M[X 2 ] = 5.52 M(X lnY ) = 5.0995
Var(X) = 0.5024 Cov(X, lnY ) = 5.0995 − 2.24 · 2.4666 = −0.4256

Cov(X, lnY ) M(X lnY ) − M(X)M(lnY ) −0.4256


b̂ = = = = −0.8470
Var(X) M (X 2 ) − [M(X)]2 0.5024
ln (â) = M(lnY ) − b̂ M(X) = 4.3639 → â = e4.3639 = 78.5648.

21.17
Per il calcolo del residuo quadratico medio occorre, in primo luogo, determinare i valori
assunti dal modello Y ∗ = 78.5648e−0.8470X con x = 1, 2, 3.

Y ∗ (1) = 33.68, Y ∗ (2) = 14.44, Y ∗ (3) = 6.19

quindi, applicando la definizione di residuo quadratico medio


n 2 o 1 h k 2
M Ê 2 = M Y − 78.5648e−0.8470X = ∑ ∑ y j − 78.5648e−0.8470xi ni j

n i=1 j=1

e calcolando la corrispondente media di una funzione di una variabile statistica doppia

2
y j − 78.5786e−0.8471xi ni j y1 = 5 y2 = 15 y3 = 26
x1 = 1 (5 − 33.68)2 · 0 (15 − 33.68)2 · 0 (26 − 33.68)2 · 4
x2 = 2 (5 − 14.44)2 · 0 (15 − 14.44)2 · 8 (26 − 14.44)2 · 3
x3 = 3 (5 − 6.19)2 · 9 (15 − 6.19)2 · 1 (26 − 6.19)2 · 0
729.83

da cui
 729.83
M Ê 2 = = 29.19.
25
21.18

307
8 Modello Y ∗ = abX
È possibile linearizzare il modello
lnY ∗ = ln a + (ln b)X.
Si lascia per esercizio la stima dei parametri e del residuo quadratico medio
 Cov(X, lnY ) −0.4256
ln b̂ = = = −0.8470 → b̂ = e−0.8470 = 0.4287
Var(X) 0.5024
ln (â) = M(lnY ) − ln b̂ M(X) = 4.3639 → â = e4.3639 = 78.5648

n 2 o 729.83
M Ê 2 = M Y − 78.5648 · 0.4287X

= = 29.19.
25
Il modello in esame è equivalente a quello precedentemente stimato; vale infatti
X
abX = aeln b = aeX ln b = ae(ln b)X = aecX .
21.19

9 Modello Y ∗ = 5 + bX
Si applica il criterio dei minimi quadrati per determinare l’espressione del parametro b
h i
b̂ = arg min M (Y − 5 − bX)2
b
h i
dM (Y − 5 − bX)2
=0
" db #
d (Y − 5 − bX)2
M =0
db
M [2 (Y − 5 − bX) (−X)] = 0
(è utile considerare Y − 5 come termine unico)
M −X (Y − 5) + bX 2 = 0
 

− M [X (Y − 5)] + b M X 2 = 0


da cui segue
M [X (Y − 5)] 16
b̂ = = = 2.8986.
M (X 2 ) 5.52
X \ Y −5 0 10 21
1 0 0 4 4 M[X 2 ] = 5.52
2 0 8 3 11 M[X(Y − 5)] = 16
3 9 1 0 10 M[(Y − 5)2 ] = 159.48.
9 9 7 25
21.20
Per ottenere il residuo quadratico medio si applica la formula relativa ai polinomi con-
siderando la trasformazione Y − 5 (in questo caso si è operata una traslazione e non si è
alterata la struttura di variabilità della Y )
M Ê 2 = M (Y − 5) Y − 5 − b̂X
  

= M (Y − 5)2 − b̂ M[X(Y − 5)] = 159.48 − 2.8986 · 16 = 113.1024.


 

Si osserva come, essendo l’intercetta vincolata, non vale il risultato di scomposizione


della varianza: il valore del residuo quadratico medio è superiore a quello di Var(Y ). 21.21

308
10 Modello Y ∗ = 5 + bX 2
Si applica il criterio dei minimi quadrati per determinare l’espressione del parametro b
h 2 i
b̂ = arg min M Y − 5 − bX 2
b

h 2 i
dM Y − 5 − bX 2
=0
db
" 2 #
d Y − 5 − bX 2
M =0
db
M 2 Y − 5 − bX 2 −X 2 = 0
  

(è utile considerare Y − 5 come termine unico)

M −X 2 (Y − 5) + bX 4 = 0
 

− M X 2 (Y − 5) + b M X 4 = 0
  

da cui segue
M X 2 (Y − 5)
 
29.84
b̂ = = = 0.7535.
M (X 4 ) 39.6
X \ (Y − 5) 0 10 21
1 0 0 4 4 M[X 4 ] = 39.6
2 0 8 3 11 M[X 2 (Y − 5)] = 29.84
3 9 1 0 10 M[(Y − 5)2 ] = 159.48.
9 9 7 25
21.22
Per ottenere il residuo quadratico medio si applica la formula relativa ai polinomi con-
siderando la trasformazione Y − 5 (in questo caso si è operata una traslazione e non si è
alterata la struttura di variabilità della Y )

M Ê 2 = M (Y − 5) Y − 5 − b̂X 2
  

= M (Y − 5)2 − b̂ M[X 2 (Y − 5)] = 159.48 − 0.7535 · 29.84 = 136.9956.


 

Si osserva come, essendo l’intercetta vincolata, non vale il risultato di scomposizione


della varianza: il valore del residuo quadratico medio è superiore a quello di Var(Y ). 21.23

309
11 Schema riassuntivo
modello I II III IV V VI V II V III IX X
Y∗ =  f .regress. a + bX a + bX 2 bX bX 2 aX b aebX abX 5 + bX 5 + cX 2
M Ê 2 14.16 15.0568 14.2113 145.25 195.96 42.15 29.19 29.19 113.10 136.996
indice 0.7967 0.7837 0.7958 non vale il teorema di scomposizione
 della varianza
adatt. in quanto M Ê ̸= 0
21.24
Il seguente prospetto riporta gli indici di miglioramento

2 RMS pegg − RMSmigl


pegg,migl ρ =
RMS pegg

per i modelli considerati


2 I II III IV V VI V II V III IX X
riga,colonna ρ
Y∗ = f .regress. a + bX a + bX 2 bX bX 2 aX b aebX abX 5 + bX 5 + cX 2
I
II 0.0596 0.0562
III 0.0036
IV 0.9025 0.8963 0.9022 0.7098 0.7990 0.7990 0.2213 0.0568
V 0.9277 0.9232 0.9275 0.2588 0.7849 0.8510 0.8510 0.4228 0.3009
VI 0.6641 0.6428 0.6628 0.3075 0.3075
V II 0.5149 0.4842 0.5131 0.0000
V III 0.5149 0.4842 0.5131 0.0000
IX 0.8748 0.8669 0.8743 0.6273 0.7419 0.7419
X 0.8966 0.8901 0.8963 0.6923 0.7869 0.7869 0.1744
21.25

310
Sezione 22
Esempio stima modelli in
presenza di coppie di dati
22.1

Indice
1 Funzione di regressione 312
1.1 Rapporto di correlazione . . . . . . . . . . . . . . . . . . . . . . . . . . 313

2 Modello Y ∗ = a + bX 314

3 Modello Y ∗ = a + bX 2 315

4 Modello Y ∗ = bX 316

5 Modello Y ∗ = bX 2 316

6 Modello Y ∗ = aX b 317

7 Modello Y ∗ = aebX 318

8 Modello Y ∗ = abX 319

9 Modelli Y ∗ = 5 + bX e Y ∗ = 5 + cX 2 320

10 Schema riassuntivo 320 22.2


Con riferimento alle coppie di dati

xi 3 2 1 4 2
yi 6 4 4 6 5

si stimano i parametri e il residuo quadratico medio dei seguenti modelli


• funzione di regressione
• Y ∗ = a + bX
• Y ∗ = a + bX 2
• Y ∗ = bX
• Y ∗ = bX 2
• Y ∗ = aX b
• Y ∗ = aebX
• Y ∗ = abX
• Y ∗ = 5 + bX
• Y ∗ = 5 + cX 2
22.3

311
1 Funzione di regressione
i xi yi
1 3 6
2 2 4
3 1 4
4 4 6
5 2 5
Somma 12 25
Media 2.4 5
Rappresentazione grafica punti e medie condizionate M(Y |X)
7
6
5
4
3
2
1
0

0 1 2 3 4 5

22.4
Variabile statistica medie condizionate M(Y |X)

xi M(Y |xi ) ni M(Y |X)ni M(Y |X)2 ni


1 4 1 4 16
2 4.5 2 9 40.5
3 6 1 6 36
4 6 1 6 36
Somma 5 25 128.5
modalità frequenze calcolo calcolo
media momento
secondo

media delle medie condizionate


25
MX {M(Y |X)} = = 5;
5
varianza delle medie condizionate
128.5
VarX {M(Y |X)} = − 52 = 0.7 (varianza spiegata).
5
22.5

312
Variabile statistica varianze condizionate Var(Y |X)

xi Var(Y |xi ) ni Var(Y |xi )ni


1 0 1 0
2 0.25 2 0.5
3 0 1 0
4 0 1 0
Somma 5 0.5
modalità frequenze calcolo
media

media varianze condizionate


0.5
MX {Var(Y |X)} = = 0.1 (varianza residua).
5
22.6

1.1 Rapporto di correlazione


Dai calcoli effettuati nelle pagine precedenti si ha che

M(Y ) = 5 = MX {M(Y |X)}

Var(Y ) = VarX {M(Y |X)} + MX {Var(Y |X)}


Var(Y ) = (varianza spiegata) + (varianza residua)
0.8 = 0.7 + 0.1

varianza spiegata funzione regressione


ηY2|X =
Var(Y )
VarX {M(Y |X)} 0.7
ηY2|X = = = 0.875.
Var(Y ) 0.8
22.7

313
2 Modello Y ∗ = a + bX

Cov(X,Y ) 0.8
b̂ = = = 0.7692
Var(X) 1.04
â = M(Y ) − b̂ M(X) = 3.1538
[Cov(X,Y )]2 0.64
ρ2 = = = 0.7692
Var(X)Var(Y ) 1.04 · 0.8

M Ê 2 = Var Ê = varianza residua = σY2 (1 − ρ 2 ) = 0.1846.


 

i xi yi xi yi xi2 y2i
1 3 6 18 9 36
2 2 4 8 4 16
3 1 4 4 1 16
4 4 6 24 16 36
5 2 5 10 4 25
Somma 12 25 64 34 129
Media 2.4 5 12.8 6.8 25.8
M(X) M(Y ) M(XY ) M X 2 M Y2
Var(X) = M X 2 − [M(X)]2 = 1.04 Var(Y ) = M Y 2 − [M(Y )]2 = 0.8
 

Cov(X,Y ) = M(XY ) − M(X)M(Y ) = 0.8.


22.8

Osservazione

dipendente = a + b · esplicativa

Cov(esplicativa, dipendente)
b̂ =
Var(esplicativa)
â = M(dipendente) − b̂ M(esplicativa).

• Nel caso in esame la variabile residuo Ê = Y − Ŷ è caratterizzata da media nulla,


quindi M Ê 2 = Var Ê , vale a dire il residuo quadratico medio coincide con la
 

varianza dei residui.


22.9

314
3 Modello Y ∗ = a + bX 2
È possibile ricondursi al modello retta

dipendente = a + b · esplicativa

Cov X 2 ,Y M X 2Y − M X 2 M(Y )
  
4
b̂ = = = = 0.1441
Var (X 2 ) M (X 4 ) − [M (X 2 )]2 27.76
â = M(Y ) − b̂ M X 2 = 4.0202

2
Cov X 2 ,Y

2
ρ = = 0.7205
Var (X 2 )Var(Y )

M Ê 2 = Var Ê = varianza residua = σY2 (1 − ρ 2 ) = 0.2236.


 

Anche nel caso in esame M Ê = 0 quindi M Ê 2 = Var Ê .


  

i xi yi xi2 xi2 yi xi4 y2i


1 3 6 9 54 81 36
2 2 4 4 16 16 16
3 1 4 1 4 1 16
4 4 6 16 96 256 36
5 2 5 4 20 16 25
Somma 25 34 190 370 129
Media 5 6.8 38 74 25.8
M(Y ) M X 2 M X 2Y M X4 M Y2

Var X 2 = M X 4 − [M X 2 ]2 = Var(Y ) = M Y 2 − [M(Y )]2 = 0.8


   
27.76
Cov X 2 ,Y = M X 2Y − M X 2 M(Y ) = 4.
 

22.10

315
4 Modello Y ∗ = bX
M(XY ) 12.8
b̂ = = = 1.8824
M (X 2 ) 6.8
Per ottenere il residuo quadratico medio si applica la formula relativa ai polinomi
M Ê 2 = M[Y (Y − b̂X)] = M Y 2 − b̂ M(XY ) = 25.8 − 1.8824 · 12.8 = 1.7059.
 

i xi yi xi yi xi2 y2i
1 3 6 18 9 36
2 2 4 8 4 16
3 1 4 4 1 16
4 4 6 24 16 36
5 2 5 10 4 25
Somma 64 34 129
Media 12.8 6.8 25.8
M(XY ) M X 2 M Y2
22.11

5 Modello Y ∗ = bX 2
Si applica il criterio dei minimi quadrati per determinare l’espressione del parametro b
h 2 i
b̂ = arg min M Y − bX 2
b

h 2 i
dM Y − bX 2
=0
db
2
" #
d Y − bX 2

M =0
db
M 2 Y − bX 2 −X 2 = 0
  

M −X 2Y + bX 4 = 0


− M X 2Y + b M X 4 = 0
 

da cui segue
M X 2Y

38
b̂ = = = 0.5135.
M (X 4 ) 74
22.12
Per ottenere il residuo quadratico medio si applica la formula relativa ai polinomi
M Ê 2 = M Y Y − b̂X 2 = M Y 2 − b̂M X 2Y = 25.8 − 0.5135 · 38 = 6.287.
    

i xi yi xi2 xi2 yi xi4 y2i


1 3 6 9 54 81 36
2 2 4 4 16 16 16
3 1 4 1 4 1 16
4 4 6 16 96 256 36
5 2 5 4 20 16 25
Somma 190 370 129
Media 38 74 25.8
M X 2Y M X4 M Y2
22.13

316
6 Modello Y ∗ = aX b
È possibile linearizzare il modello

lnY ∗ = ln a + b ln X

e ricondursi al modello retta

dipendente = ln a + b · esplicativa.

Per calcolare i parametri conviene riferirsi alle variabili trasformate

Cov(ln X, lnY ) M(ln X lnY ) − M(ln X)M(lnY )


b̂ = = = 0.3310
Var(ln X) M [(ln X)2 ] − [M(ln X)]2
ln â = M(lnY ) − b̂ M(ln X) = 1.3368 → â = eln â = e1.3368 = 3.8070.

i xi yi ln xi ln yi ln xi ln yi [ln xi ]2
1 3 6 1.0986 1.7918 1.9684 1.2069
2 2 4 0.6931 1.3863 0.9609 0.4805
3 1 4 0.0000 1.3863 0.0000 0.0000
4 4 6 1.3863 1.7918 2.4839 1.9218
5 2 5 0.6931 1.6094 1.1156 0.4805
Somma 3.8712 7.9655 6.5288 4.0897
Media 0.7742 1.5931 1.3058  0.8179
M(ln X) M(lnY ) M(ln X lnY ) M (ln X)2
Var(ln X) = M (ln X)2 − [M(ln X)]2 = 0.2185
 

Cov(ln X, lnY ) = M(ln X lnY ) − M(ln X) M(lnY ) = 0.0723.


22.14
Per calcolare il residuo quadratico medio
h 2 i 1 n
M Ê 2 = M Y − Ŷ = ∑ (yi − ŷi )2

n i=1

occorre determinare i valori assunti dal modello ŷi = â · (xi )b̂ = 3.8070 · (xi )0.3310 , essendo
â = 3.8070 e b̂ = 0.3310 le stime dei parametri a e b ottenute secondo il criterio dei minimi
quadrati
i xi yi ŷi (yi − ŷi )2
1 3 6 5.4766 0.2740
2 2 4 4.7887 0.6221
3 1 4 3.8070 0.0373
4 4 6 6.0237 0.0006
5 2 5 4.7887 0.0446
Somma 0.9786
Residuo Quadratico Medio = Media 0.1957
22.15

317
7 Modello Y ∗ = aebX
È possibile linearizzare il modello

lnY ∗ = ln a + b X

e ricondursi al modello retta

dipendente = ln a + b · esplicativa.

Per calcolare i parametri conviene riferirsi alle variabili trasformate

Cov(X, lnY ) M(X lnY ) − M(X)M(lnY )


b̂ = = = 0.1544
Var(X) M[X 2 ] − [M(X)]2
ln â = M(lnY ) − b̂ M(X) = 1.2226
â = eln â = e1.2226 = 3.3960.

i x i yi ln yi xi ln yi xi2
1 3 6 1.7918 5.3753 9
2 2 4 1.3863 2.7726 4
3 1 4 1.3863 1.3863 1
4 4 6 1.7918 7.1670 16
5 2 5 1.6094 3.2189 4
Somma 12 7.9655 19.9201 34
Media 2.4 1.5931 3.9840 6.8
M(X) M(lnY ) M(X lnY ) M X 2
Var(X) = M(X 2 − [M(X)]2 = 1.04
Cov(X, lnY ) = M(X lnY ) − M(X) M(lnY ) = 0.1606.
22.16
Per calcolare il residuo quadratico medio
h 2 i 1 n
M Ê 2 = M Y − Ŷ = ∑ (yi − ŷi )2

n i=1

occorre determinare i valori assunti dal modello ŷi = âeb̂xi = 3.3960 · e0.1544xi , essendo
â = 3.3960 e b̂ = 0.1544 le stime dei parametri a e b ottenute secondo il criterio dei
minimi quadrati

i xi yi ŷi (yi − ŷi )2


1 3 6 5.3964 0.3643
2 2 4 4.6245 0.3899
3 1 4 3.9629 0.0014
4 4 6 6.2973 0.0884
5 2 5 4.6244 0.1410
Somma 0.9850
Residuo Quadratico Medio = Media 0.1970
22.17

318
8 Modello Y ∗ = abX
È possibile linearizzare il modello
lnY ∗ = ln a + ln b X
e ricondursi al modello retta
dipendente = ln a + ln b · esplicativa.
Per calcolare i parametri conviene riferirsi alle variabili trasformate
Cov(X, lnY ) M(X lnY ) − M(X)M(lnY )
ln b̂ = = = 0.1544
Var(X) M[X 2 ] − [M(X)]2
b̂ = eln b̂ = e0.1544 = 1.1669
ln â = M(lnY ) − ln b̂ M(X) = 1.2226
â = eln â = e1.2226 = 3.3960.
i x i yi ln yi xi ln yi xi2
1 3 6 1.7918 5.3753 9
2 2 4 1.3863 2.7726 4
3 1 4 1.3863 1.3863 1
4 4 6 1.7918 7.1670 16
5 2 5 1.6094 3.2189 4
Somma 12 7.9655 19.9201 34
Media 2.4 1.5931 3.9840 6.8
M(X) M(lnY ) M(X lnY ) M X 2
Var(X) = M(X 2 − [M(X)]2 = 1.04
Cov(X, lnY ) = M(X lnY ) − M(X) M(lnY ) = 0.1606.
22.18
Per calcolare il residuo quadratico medio
h 2 i 1 n
M Ê 2 = M Y − Ŷ = ∑ (yi − ŷi )2

n i=1
occorre determinare i valori assunti dal modello ŷi = abxi = 3.3960 · 1.1669xi , essendo
â = 3.3960 e b̂ = 1.1669 le stime dei parametri a e b ottenute secondo il criterio dei
minimi quadrati
i xi yi ŷi (yi − ŷi )2
1 3 6 5.3964 0.3643
2 2 4 4.6245 0.3899
3 1 4 3.9629 0.0014
4 4 6 6.2973 0.0884
5 2 5 4.6245 0.1410
Somma 0.9850
Residuo Quadratico Medio = Media 0.1970
Il modello in esame è equivalente a quello precedentemente stimato; vale infatti
X
abX = aeln b
= aeX ln b
= ae(ln b)X
= aecX .
22.19

319
9 Modelli Y ∗ = 5 + bX e Y ∗ = 5 + cX 2
Si applica il criterio dei minimi quadrati per determinare l’espressione del coefficiente
incognito, cfr. Sezione 21 anche per la formula del residuo quadratico medio

M [X (Y − 5)] 0.8
b̂ = = = 0.1176
M (X 2 ) 6.8
M Ê 2 = M (Y − 5) Y − 5 − b̂X
  

= M (Y − 5)2 − b̂ M[X(Y − 5)] = 0.8 − 0.1176 · 0.8 = 0.7059


 

M X 2 (Y − 5)
 
4
ĉ = = = 0.0541
M (X 4 ) 74
M Ê 2 = M (Y − 5) Y − 5 − ĉX 2
  

= M (Y − 5)2 − ĉ M[X 2 (Y − 5)] = 0.8 − 0.0541 · 4 = 0.5836.


 

Si osserva come, in entrambi i casi, essendo l’intercetta vincolata, non vale il risultato di
scomposizione della varianza. Non ha senso calcolare l’indice di adattamento.
i xi yi yi − 5 xi (yi − 5) xi2 (yi − 5)2 xi2 (yi − 5) xi4
1 3 6 1 3 9 1 9 81
2 2 4 −1 −2 4 1 −4 16
3 1 4 −1 −1 1 1 −1 1
4 4 6 1 4 16 1 16 256
5 2 5 0 0 4 0 0 16
Somma 12 25 0 4 34 4 20 370
Media 2.4 5 0 0.8 6.8 0.8 4  74
M X2 M (Y − 5)2 M X 2 (Y − 5) M X4
 
M(X) M(Y ) M(Y − 5) M[X(Y − 5)]
22.20

10 Schema riassuntivo
modello I II III IV V VI V II V III IX X
Y∗ =  f .regress. a + bX a + bX 2 bX bX 2 aX b aebX abX 5 + bX 5 + bX 2
M Ê 2 0.1 0.1846 0.2236 1.7059 6.287 0.1957 0.1970 0.1970 0.7059 0.5836
indice 0.875 0.7692 0.7205 non vale il teorema di scomposizione
 della varianza
adatt. in quanto M Ê ̸= 0
22.21
Il seguente prospetto riporta gli indici di miglioramento

2 RMS pegg − RMSmigl


pegg,migl ρ =
RMS pegg

per i modelli considerati.

2 I II III IV V VI V II V III IX X
riga,colonna ρ
Y∗ = f .regress. a + bX a + bX 2 bX bX 2 aX b aebX abX 5 + bX 5 + bX 2
I
II 0.4583
III 0.5528 0.1744 0.1248 0.1190 0.1190
IV 0.9414 0.8918 0.8689 0.8853 0.8845 0.8845 0.5862 0.6579
V 0.9841 0.9706 0.9644 0.7287 0.9689 0.9687 0.9687 0.8877 0.9072
VI 0.4890 0.0567
V II 0.4924 0.0629 0.0066 0.0000
V III 0.4924 0.0629 0.0066 0.0000
IX 0.8583 0.7385 0.6832 0.7228 0.7209 0.7209 0.1733
X 0.8286 0.6837 0.6169 0.6647 0.6624 0.6624
22.22

320
Sezione 23
Regressione lineare multipla
23.1

Indice
1 Statistica descrittiva e statistica inferenziale 321

2 Modello di regressione lineare multipla 323

3 Giustificazione del modello di regressione lineare nelle variabili 324

4 Ipotesi sul modello di regressione lineare multipla 325

5 Stima dei parametri a con il criterio dei minimi quadrati 326

6 Esempio 327

7 Interpretazione dei coefficienti 328

8 Coefficienti standardizzati 329

9 Ulteriori ipotesi sul modello lineare 330

10 Modelli di regressione lineare multipla con presenza di variabili indicatrici 331

11 Misure di importanza delle variabili esplicative 344


Si suggerisce di anticipare lo studio delle Sezioni 24-27 sul Calcolo delle Probabilità alla
lettura della presente Sezione. 23.2

1 Statistica descrittiva e statistica inferenziale


Nelle sezioni precedenti sono stati presentati gli strumenti (indicatori statistici e modelli)
che consentono di effettuare un’analisi di tipo descrittivo di un carattere (statistica uni-
variata) e l’analisi congiunta di due caratteri oggetto di studio (analisi bivariata) a partire
dalle osservazioni disponibili.
Oggetto della statistica inferenziale è lo studio dei modelli generatori delle osservazioni. 23.3
Con riferimento all’analisi di un singolo carattere le osservazioni x1 , x2 , . . . , xn , riassunte
nella variabile statistica X, sono da intendere come determinazioni di una variabile casuale
X.
L’insieme dei dati x1 , x2 , . . . , xn viene denominato campione di osservazioni da X .
È possibile avvalersi di informatori (funzioni delle osservazioni) per ricercare il valore in-
cognito dei parametri che caratterizzano la distribuzione di probabilità di X ; ad esempio

321
la media µ = M (X ) e la varianza σ 2 = Var (X ) nel caso X sia distribuita secondo una
variabile casuale Normale. 23.4

Esempio 1 (Alcuni informatori statistici).


• La media campionaria x̄
1 n
x̄ = ∑ xi = M(X)
n i=1
viene utilizzata come ’stima’ del valore atteso (media) µ di X .
• La varianza campionaria

1 n
σ̂ 2 = ∑ (xi − x̄)2 = Var(X)
n i=1

oppure la varianza campionaria corretta1

1 n n
s2 = ∑ (xi − x̄)2 = n − 1 Var(X)
n − 1 i=1

vengono utilizzate come ’stime’ della varianza σ 2 di X .


23.5
Con riferimento a un’analisi di regressione bivariata e allo studio della dipendenza del-
la variabile casuale Y in funzione della variabile casuale X è possibile formulare un
modello del tipo
Y = g(X ) + E
dove g ∈ G esprime il legame teorico tra le variabili casuali X e Y , ipotizzato apparte-
nere alla classe di funzioni G .
La relazione vale a meno della componente aleatoria di errore E che riassume il contributo
di tutte le variabili esplicative che non sono state inserite nel modello (non essendo ca-
ratterizzate da contributi sistematici); si rimanda ai paragrafi successivi per la definizione
delle proprietà di E nel contesto di un modello di regressione multipla. 23.6
La funzione g(·) può essere determinata avvalendosi del criterio dei minimi quadrati
n o
arg min M E 2 = arg min M [Y − g(X )]2

g g

23.7

• Se g ∈ G , insieme delle funzioni che assumono valore reale, abbiamo la funzione


di regressione ’teorica’
g(X ) = M(Y |X )
mentre, in presenza di n coppie di osservazioni (xi , yi ), i = 1, 2, . . . , n, riassunte in
una tabella a doppia entrata, abbiamo

1 h k
arg min M(E 2 ) = arg min [y j − g(xi )]2 ni j = arg min M [Y − g(X)]2

g g
∑ ∑
n i=1 j=1 g

con soluzione la funzione di regressione cosiddetta ’empirica’

g(xi ) = M(Y |xi ), i = 1, 2, . . . , h

stima della funzione di regressione ’teorica’.


23.8
1 L’espressione della varianza campionaria corretta verrà giustificata nell’insegnamento di Statistica

applicata.

322
• Se g ∈ L 1 , insieme delle funzioni lineari (rette), il problema di minimo tra le
variabili casuali X e Y
n o
arg min M E 2 = M [Y − (α + β X )]2
 
α,β

ha come soluzione i valori teorici dei parametri del modello retta Y = α +β X +E


Cov(X , Y )
β̂ = e α̂ = M (Y ) − β̂ M (X ) .
Var(X )
In presenza di n coppie di osservazioni (xi , yi ), i = 1, 2, . . . , n, abbiamo le stime â e
b̂ rispettivamente di α̂ e β̂
1
n−1 ∑ni=1 (xi − x̄)(yi − ȳ) 1
n ∑ni=1 (xi − x̄)(yi − ȳ) Cov(X,Y )
b̂ = 1
= 1 n
=
n−1 ∑ni=1 (xi − x̄)2 n ∑i=1 (xi − x̄)
2 Var(X)
e
â = ȳ − b̂x̄ = M(Y ) − b̂M(X).
I residui êi = yi − â − b̂xi sono, invece, delle stime delle realizzazioni (non osserva-
bili) della variabile casuale di errore E . 23.9

Osservazione
Nella esposizione precedente si sono utilizzati simboli latini per indicare le variabili
statistiche (X,Y, E) e simboli calligrafici per le variabili casuali (X , Y , E ).
Tale convenzione consente l’utilizzo degli operatori M(·), Var(·) e Cov(·, ·), introdotti
nelle sezioni precedenti, con una semplificazione di scrittura delle formule.
Si osserva come spesso venga utilizzata la simbologia latina maiuscola per indicare le va-
riabili casuali e quella minuscola per le osservazioni e, a volte, la minuscola per entrambe.
Con l’esperienza il lettore non troverà difficoltà nel discernere tra le diverse fattispecie.

Nell’insegnamento di Statistica applicata vengono presentate le proprietà degli stimatori e


strumenti quali gli intervalli di confidenza e i test che consentono di verificare delle ipotesi
sul valore incognito dei parametri che caratterizzano sia le distribuzioni di probabilità
delle variabili in gioco sia i modelli utilizzati per studiare relazioni tra le stesse. 23.10

2 Modello di regressione lineare multipla


In un modello di regressione multipla si studia la relazione tra la variabile dipendente Y
e un insieme di variabili esplicative X1 , X2 , . . . , Xk .
Definizione 2 (Modello di regressione lineare multipla). Un modello di regressione mul-
tipla
Y = a0 + a1 X1 + a2 X2 + . . . + ak Xk + E (1)
si definisce lineare in quanto la variabile dipendente Y viene espressa mediante una
struttura lineare nei parametri a j ( j = 0, 1, . . . , k).
23.11
Esempio 3. Per descrivere il prezzo di mercato Y di un prodotto si possono utilizzare le
seguenti variabili esplicative
X1 = costo di produzione
X2 = quantità prodotte
X3 = quantità a magazzino
X4 = grado di sfruttamento degli impianti
X5 = prezzo nel periodo precedente.

323
23.12
La componente di errore E , presente nella (1), variabile casuale con media nulla che si
assume non correlata linearmente con i regressori X1 , X2 , . . . , Xk , riassume il contribu-
to di tutte le variabili esplicative che non sono state inserite nel modello (non essendo
caratterizzate da contributi sistematici).
La variabile casuale E descrive, quindi, la componente di variabilità accidentale presente
nella risposta Y , che non viene spiegata dalle variabili esplicative X1 , X2 , . . . , Xk ; ossia,
l’incapacità del modello di riprodurre esattamente i valori osservati. 23.13

Nella specificazione del modello le variabili esplicative possono anche figurare in forma di
potenza. Con riferimento all’esempio precedente anche il quadrato della variabile grado
di sfruttamento degli impianti potrebbe figurare tra le variabili esplicative
X1 = costo di produzione
X2 = quantità prodotte
X3 = quantità a magazzino
X4 = grado di sfruttamento degli impianti
X42 = (grado di sfruttamento degli impianti)2
X5 = prezzo nel periodo precedente.
23.14
Il modello di regressione lineare multipla può essere anche utilizzato nell’ambito di una
regressione polinomiale
Y = a0 + a1 X + a2 X 2 + a3 X 3 + . . . + ak X k + E
come approssimazione della funzione di regressione (o di un suo sviluppo in serie di
Taylor di ordine k) nello studio della variabile dipendente Y in funzione della variabile
esplicativa X , avendo posto
X1 = X
X2 = X 2
X3 = X 3
..
.
Xk = X k .
23.15

3 Giustificazione del modello di regressione lineare nel-


le variabili
Si assuma che sia possibile descrivere la ’vera’ relazione che intercorre tra la variabile
dipendente Y e i regressori X1 , X2 , . . . , Xk , mediante una funzione g(·)
Y = g(X1 , X2 , . . . , Xk ) + Eg .
a meno di una componente di errore Eg = Y − g(X1 , X2 , . . . , Xk ).
Se la funzione g(·) ammette derivate fino all’ordine d, essa può essere espressa, applican-
do la formula di Taylor, come
g(X ) = a0 + ∑ a j X j + ∑ a jh X j Xh + . . . + Rd
j j≤h

324
con Rd resto che riassume l’effetto dei termini di grado superiore a d.
Il modello più semplice consiste nel considerare termini solo lineari per le variabili espli-
cative
k
Y = a0 + ∑ a j X j + E .
j=1
23.16
23.17

4 Ipotesi sul modello di regressione lineare multipla


In presenza della costante a0 si è soliti completare il modello di regressione lineare
multipla
Y = a0 X0 + a1 X1 + . . . + ak Xk + E ,
inserendo una ulteriore variabile esplicativa X0 ≡ 1 che assume valore costante unitario. 23.18
Anche la matrice delle osservazioni (variabili statistiche Y, X1 , . . . , Xk )

i Y X1 X2 . . . Xk
1 y1 x11 x12 . . . x1k
2 y2 x21 x22 . . . x2k
.. .. .. .. ..
. . . . .
i yi xi1 x12 ... xik
.. .. .. .. ..
. . . . .
n yn xn1 xn2 . . . xnk

viene, quindi, completata inserendo una colonna corrispondente alla variabile statistica
X0 che assume valore unitario per tutte le unità statistiche osservate

Y X0 X1 X2 . . . Xk
y1 1 x11 x12 . . . x1k
y2 1 x21 x22 . . . x2k
.. .. .. .. ..
. . . . .
yi 1 xi1 x12 ... xik
.. .. .. .. ..
. . . . .
yn 1 xn1 xn2 . . . xnk
23.19
In corrispondenza del generico soggetto abbiamo

yi = a0 + a1 xi1 + a2 xi2 + . . . + ak xik + ei ,

dove xi1 , xi2 , . . . , xik sono i valori assunti dalle k variabili X1 , X2 , . . . , Xk .


Con riferimento agli n soggetti gli elementi ei rappresentano gli scostamenti delle osser-
vazioni dai valori descritti dal modello

ei = yi − (a0 + a1 xi1 + a2 xi2 + . . . + ak xik )

e sono denominati residui. 23.20


Gli elementi ei contengono informazioni sulle determinazioni delle variabili casuali di
errore Ei (i = 1, 2, . . . , n), che caratterizzano l’aleatorietà della variabile risposta.
Il valore yi della variabile risposta per il generico soggetto è determinazione di una varia-
bile casuale Yi
Yi = a0 + a1 xi1 + a2 xi2 + . . . + ak xik + Ei

325
avendo considerato prefissati i valori xi j dei regressori (cosiddetto modello a effetti fissi).
La natura aleatoria della risposta Y deriva quindi dalla presenza nel modello della com-
ponente accidentale E . 23.21
Le componenti di errore Ei nel modello classico di regressione lineare si assume abbiano
le seguenti caratteristiche
• M(Ei ) = 0,
• Cov(Ei , E j ) = 0 (se i ̸= j),
• la matrice Σ di varianze e covarianze di E = (E1 , E2 , . . . , En )′
 2 
σ1 σ12 . . . σ1n
 σ21 σ 2 . . . σ2n 
2
Σ= . ..  ,
 
.. ..
 .. . . . 
σn1 σn2 ... σn2

dove σi j = Cov(Ei , E j ), assume la particolare forma

Σ = σ 2 In

(ipotesi di sfericità degli errori o di omoschedasticità),


• gli errori Ei hanno distribuzione Normale.
• gli errori Ei non sono correlati con i regressori, se sono presenti regressori stocastici,
vale a dire se i valori assunti dai regressori sono determinazioni di variabili casuali.
23.22

Notazione matriciale del modello di regressione lineare multipla


Le osservazioni attinenti le n unità statistiche possono essere riassunte mediante la se-
guente notazione matriciale
y = Xa + e
dove

     
y1 1 x11 . . . x1k   e1
a0
 y2   1 x21 . . . x2k 
 .. 
 e2 
y= X= a= .  e=
     
..  .. .. ..  .. 
 .   . . .   . 
ak
yn 1 xn1 . . . xnk en

• y ed e sono vettori n-dimensionali,


• a è un vettore (k + 1)-dimensionale,
• X è la cosiddetta matrice sperimentale.
23.23

5 Stima dei parametri a con il criterio dei minimi qua-


drati
In base al criterio dei minimi quadrati si ricercano i valori â0 , â1 , . . . , âk dei parametri
a0 , a1 , . . . , ak che minimizzano il residuo quadratico medio in corrispondenza alle osser-
vazioni y e X
( )
n
k+1 1 2 1 n 2
â = a ∈ ℜ : ∑ ei = ∑ {yi − (a0 + a1 xi1 + a2 xi2 + . . . + ak xik )} = min
n i=1 n i=1

326
ovvero, con ovvie estensioni formali delle proprietà dell’operatore media al caso multi-
variato,  
!2
 k 
â = a ∈ ℜk+1 : M Y − ∑ a j X j = min .
j=0
 

La soluzione del problema esiste ed è unica se rango(X) = (k + 1) ≤ n; essa risulta

â = (X′ X)−1 X′ y.

23.24

6 Esempio
Esempio 4 (Consumi mensili pro-capite di gelato).

Y X1 X2
n consumo kg prezzo/hg temp max ◦ F
1 0.386 0.230 41
2 0.374 0.240 56
3 0.393 0.235 63
4 0.425 0.238 68
5 0.406 0.231 69
6 0.344 0.262 65
7 0.327 0.275 61
8 0.288 0.307 47
9 0.269 0.305 32
10 0.256 0.319 24
11 0.286 0.324 28
12 0.298 0.311 26
13 0.329 0.272 32
14 0.318 0.287 40
15 0.381 0.249 55
16 0.381 0.258 63
17 0.470 0.252 72
18 0.443 0.249 72
19 0.386 0.277 67
20 0.342 0.277 60
21 0.319 0.292 44
22 0.307 0.287 40
23 0.284 0.332 32
24 0.326 0.285 27
25 0.309 0.282 28
26 0.359 0.265 33
27 0.376 0.265 41
28 0.416 0.225 52
29 0.437 0.228 64
30 0.548 0.221 71

media 0.359 0.269 49.10


sqm 0.065 0.031 16.146
23.25

327
Si riporta l’output dell’elaborazione, effettuata con EXCEL, del seguente modello

Y = a0 + a1 X1 + a2 X2 + E

OUTPUT RIEPILOGO

Statistica della regressione


R multiplo 0.8929
R2 0.7972
R2 corretto 0.7822
Errore std 0.0307
Osservazioni 30

ANALISI VARIANZA
gdl SQ MQ F Significatività F
Regressione 2 0.1001 0.0500 53.0725 4.41599E-10
Residuo 27 0.0255 0.0009
Totale 29 0.1255

Coefficienti Errore std Stat t Signif Inf 95% Sup 95%


Intercetta 0.6435 0.0874 7.3612 0.0000 0.4641 0.8228
prezzo −1.2999 0.2547 −5.1035 0.0000 −1.8225 −0.7773
temp 0.0013 0.0005 2.7472 0.0106 0.0003 0.0023
23.26

7 Interpretazione dei coefficienti


La stima del coefficiente ai , i = 1, 2, . . . , k, nel modello

Y = a0 + a1 X1 + a2 X2 + · · · + ak Xk + E

rappresenta la variazione (media) attesa nella variabile risposta Y conseguente a un incre-


mento unitario della corrispondente variabile Xi , ceteris paribus, ossia supponendo che
rimanga immutato il livello di tutte le altre variabili X j , j ̸= i, e che vi sia assenza di cor-
relazione lineare tra la componente stocastica di errore E e i regressori Xi , i = 1, 2, . . . , k.2
23.27
Con riferimento all’esempio sul consumo di gelato il parametro a1 = −1.2999 nel mo-
dello
Ŷ = 0.6435 − 1.2999 · X1 + 0.0013 · X2
dove:
• Ŷ = consumo stimato di gelato
• X1 = prezzo/hg
• X2 = temperatura
indica che, supponendo che non si modifichi il livello della temperatura (X2 ), una varia-
zione positiva di una unità del prezzo implica un calo nei consumi individuali di 1.2999.
23.28
2 Nell’insegnamento di Statistica applicata verranno accennati i metodi per accertare che i residui del modello

soddisfino le condizioni imposte alla variabile di errore nel modello definito tra le variabili casuali.

328
Una variabile esplicativa Xi ha, quindi, influenza sulla variabile dipendente Y solo se il
corrispondente coefficiente ai risulta diverso da 0.
Secondo un approccio di carattere inferenziale i valori âi costituiscono le migliori ap-
prossimazioni, secondo il criterio dei minimi quadrati, dei coefficienti incogniti ai . Cia-
scun coefficiente si ritiene significativamente diverso da 0 solo se il corrispondente valore
indicato nella colonna Signif è piccolo (in genere < 0.05 = 5% o < 0.01 = 1%).
Tale valore, denominato p-value, indica, informalmente, il livello di compatibilità dei dati
con l’ipotesi di nullità del coefficiente ai . 23.29

8 Coefficienti standardizzati
Per confrontare i coefficienti in presenza di un modello completo, ad esempio

Y = a0 + a1 X1 + a2 X2 + E,

è possibile riferirsi alle stime dei coefficienti βi nel modello costruito con le variabili
standardizzate34
Y std = β1 X1std + β2 X2std + ERRORE.
Abbiamo
σXi
Coeff std = βi = ai · (i = 1, 2)
σY
mentre β0 = 0.

Coeff std
Intercetta 0
prezzo −0.6238
temp 0.3358
23.30
Il coefficiente standardizzato βi rappresenta la variazione (media) attesa di Y std conse-
guente a una variazione unitaria di Xistd , corrispondente a una variazione di Xi pari a
σXi .
La corrispondente variazione assoluta di Y risulta pari a βi σY .
Nel modello
Y = a0 + a1 X1 + a2 X2 + E
con variabili in scala originaria, il coefficiente ai corrisponde, invece, alla variazione
(media) attesa di Y conseguente a una variazione unitaria di Xi . 23.31

3 Si ricorda che
Y − µY
Y std =
σY
Xi − µXi
Xistd = (i = 1, 2).
σXi
Vale inoltre
M(Y std ) = M(Xistd ) = M(E std ) = 0
e
Var(Y std ) = Var(Xistd ) = Var(E std ) = 1.

4 Se l’intercetta risulta nulla si considera il modello definito sulle variabili


Y Xj
Ỹ = e X̃ j = .
σY σj

329
Osservazione
Nel caso un coefficiente sia riferito a una variabile dummy, cfr. Sezione 20 §4.4, ai fi-
ni del calcolo della versione ’standardizzata’ del coefficiente la variabile dummy viene
mantenuta nella scala originaria.
In questo caso, il coefficiente standardizzato βi = ai · σ1Y rappresenta la variazione (media)
attesa di Y std conseguente al passaggio della variabile dummy dallo stato 0 allo stato 1.
23.32

9 Ulteriori ipotesi sul modello lineare


Le ipotesi, complessivamente imposte al modello lineare, sono piuttosto forti. Presup-
pongono, infatti, anche che:
• la correlazione lineare tra le variabili esplicative non sia troppo elevata; deve, in
genere, valere ρXi X j < 0.8, i = 1, . . . , k, j = 1, . . . , k, i ̸= j se la dimensione cam-

pionaria non è elevata n ≃ 20 e ρXi X j < 0.95 in presenza di una elevata dimensione
campionaria;
• il contributo dato dalle componenti non considerate esplicitamente nel modello, in
quanto riassunte dalla componente di errore E, sia in media nullo.
23.33
La matrice di correlazione riferita all’esempio sui consumi pro-capite di gelato risulta

consumo prezzo temp


consumo 1 −0.8605 0.7756
prezzo −0.8605 1 −0.7051
temp 0.7756 −0.7051 1

Abbiamo ρprezzo,temp = ρtemp,prezzo = −0.7051 < 0.8. Non sussistono, quindi, problemi
riguardo all’utilizzo congiunto delle variabili esplicative prezzo e temperatura nel modello
di regressione. 23.34

Osservazione
La condizione rango(X) = (k + 1) ≤ n, che assicura l’esistenza e l’unicità della stima
secondo il criterio dei minimi quadrati, implica che non devono sussistere relazioni lineari
esatte tra le variabili esplicative.
Ad esempio, nel modello non possono figurare contemporaneamente le variabili ’Età’ e
’Anno di nascita’, oppure il ’Peso lordo’, il ’Peso netto’ e la ’Tara’.
Tra le variabili ’Età’ e ’Anno di nascita’ vale, infatti, la relazione
Età = Anno corrente − Anno di nascita
e abbiamo
ρEtà,Anno di nascita = −1.
Tra le variabili ’Peso lordo’, ’Peso netto’ e ’Tara’ vale, invece, la relazione
Peso lordo = Peso netto + Tara
le variabili in gioco sono, quindi, linearmente dipendenti.
23.35
Si consideri la seguente matrice di correlazione relativa allo studio della dipendenza del-
la variabile Y = ’cauzione sul prezzo di aggiudicazione richiesta da una casa d’asta al
vincitore’, in funzione delle seguenti variabili:
• X1 = ’costo originario di acquisto dell’opera’,
• X2 = ’prezzo di aggiudicazione’,
• X3 = ’costi amministrativi’,
• X4 = ’guadagno della casa d’asta’,

330
• X5 = ’numero di partecipanti all’asta’,
• X6 = ’anno di nascita del vincitore’,
• X7 = ’età del vincitore’,
• X8 = ’il vincitore ha prestato garanzie di pagamento (variabile dummy)’. 23.36

Y X1 X2 X3 X4 X5 X6 X7 X8
Y 1 0.54 0.78 0.13 0.55 0.02 −0.16 0.04 −0.56
X1 0.54 1 0.51 −0.02 −0.24 0.02 −0.08 0.08 −0.15
X2 0.78 0.51 1 0.19 0.70 0.02 −0.00 0.00 −0.12
X3 0.13 −0.02 0.19 1 0.15 −0.22 0.00 −0.00 −0.23
X4 0.55 −0.24 0.70 0.15 1 0.02 0.07 −0.07 −0.00
X5 0.02 0.02 0.02 −0.22 0.02 1 0.08 −0.08 0.00
X6 −0.16 −0.08 −0.00 0.00 0.07 0.08 1 −1 0.38
X7 0.04 0.08 0.00 −0.00 −0.07 −0.08 −1 1 −0.38
X8 −0.56 −0.15 −0.12 −0.23 −0.00 0.00 0.38 −0.38 1
23.37
Tra le variabili esplicative sussistono le seguenti 2 relazioni lineari
X4 = X2 − X1 − X3
X7 = Anno corrente − X6 .
Dalla matrice di correlazione si può evincere l’esistenza della relazione lineare tra le va-
riabili X6 e X7 , tra le quali vale ρX6 X7 = −1. Non è, invece, possibile evincere la relazione
lineare esistente tra le variabili X1 , X2 , X3 e X4 .
Occorre a tal fine considerare la matrice ridotta di dimensione 7 × 7, ottenuta eliminando
dalla matrice di correlazione riportata sopra la riga e la colonna relative alla variabile
dipendente Y e, ad esempio, la riga e la colonna relative a X6 . Il determinante della
matrice ridotta risulta essere nullo essendo la stessa caratterizzata da rango pari a 6.
Si osserva che la matrice sperimentale X = [1, X1 , X2 , X3 , X4 , X5 , X7 , X8 ] ha rango 7 < 8. 23.38

10 Modelli di regressione lineare multipla con presen-


za di variabili indicatrici
È possibile tenere conto in un modello di regressione (lineare) anche della presenza di
eventuali variabili esplicative di tipo qualitativo?
Ad esempio formulare un modello per interpretare la variabile dipendente Y = ’salario’ in
funzione della variabile esplicativa G = ’genere’, o in funzione della variabile EDUC =
’livello di istruzione’?
La risposta immediata è di ricorrere alla costruzione della funzione di regressione consi-
derando la variabile G o la variabile EDUC (ed eventualmente l’interazione tra le stesse)
come variabile di raggruppamento.
Esistono però anche delle soluzioni alternative illustrate nel seguente esempio. 23.39

Esempio 5. Il presente esempio numerico considera 1472 osservazioni dall’indagine sul


comportamento delle famiglie condotta dall’Unione Europea (anno 1994, Belgio). (Ver-
beek M, 2008, A Guide to Modern Econometrics John Wiley)
Variabili presenti nel database:
• wage: salario lordo orario in Euro
• educ: livello di istruzione da 1 [basso] a 5 [alto]
• exper: anni di esperienza
• male: dummy, 1 se maschio
Si studia, dal punto di vista descrittivo, la variabile wage in funzione delle altre variabili. 23.40

331
Genere
Si definisca una nuova variabile M a partire da G, ponendo in corrispondenza della ima
unità statistica: 
1 se gi = maschio
mi =
0 se gi = femmina
Si consideri il seguente modello di regressione lineare per interpretare la variabile Y in
funzione della variabile indicatrice (chiamata variabile dummy) M
Y = a + bM + E
23.41
Interpretazione dei coefficienti
b è la differenza tra lo stipendio medio dei maschi (variabile indicatrice che figura nel
modello) e lo stipendio medio delle femmine, riassunto dalla costante a.
I seguenti prospetti danno, quindi, informazioni coerenti.
Funzione di regressione M(Y |gi )
indwages$MALE: 0
[1] 10.26154
----------------------------------------------
indwages$MALE: 1
[1] 11.56223
Modello lineare
Call:
lm(formula = WAGE ~ MALE, data = indwages)

Residuals:
Min 1Q Median 3Q Max
-8.095 -2.864 -0.999 1.818 36.013

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 10.2615 0.1831 56.036 < 2e-16 ***
MALE 1.3007 0.2351 5.532 3.74e-08 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 4.406 on 1470 degrees of freedom


Multiple R-squared: 0.0204, Adjusted R-squared: 0.01973
F-statistic: 30.61 on 1 and 1470 DF, p-value: 3.737e-08
Nella presente situazione dal momento che la variabile esplicativa nel modello lineare
(M = MALE) è una variabile indicatrice consegue che
Multiple R-squared = ηY2|M .
23.42
Si osserva che il modello
Y = a + bM + cF + E
nel quale sono presenti sia la variabile indicatrice M per i maschi sia la variabile indica-
trice F per le femmine: 
1 se gi = femmina
fi =
0 se gi = maschio

332
non può essere stimato in quanto la matrice ottenuta accostando il vettore unitario (X0 ) ai
k = 2 vettori delle osservazioni delle variabili M ed F ha rango 2 < (k + 1) = 3

X0 M F
1 0 1
1 1 0
.. .. ..
. . .
1 1 0
1 0 1
Vale, infatti
M + F = X0 = 1.
23.43
Risultano, quindi, stimabili i modelli
Y = a + bM + E e Y = α +βF +E
nei quali è presente un numero di variabili indicatrici inferiore di una unità rispetto al
numero di categorie distinte della variabile che è stata ricodificata.
Per il secondo modello abbiamo
Call:
lm(formula = WAGE ~ FEMALE, data = indwages)

Residuals:
Min 1Q Median 3Q Max
-8.095 -2.864 -0.999 1.818 36.013

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 11.5622 0.1475 78.412 < 2e-16 ***
FEMALE -1.3007 0.2351 -5.532 3.74e-08 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 4.406 on 1470 degrees of freedom


Multiple R-squared: 0.0204, Adjusted R-squared: 0.01973
F-statistic: 30.61 on 1 and 1470 DF, p-value: 3.737e-08
con β differenza tra lo stipendio medio delle femmine (variabile indicatrice che figura nel
modello) e lo stipendio medio dei maschi, riassunto dalla costante α. 23.44
Risulta anche stimabile il seguente modello incompleto (senza intercetta)
Y = bM + cF + E
i cui coefficienti coincidono con gli stipendi medi per i maschi e per le femmine.
t test of coefficients:

Estimate Std. Error t value Pr(>|t|)


MALE 11.56223 0.14745 78.412 < 2.2e-16 ***
FEMALE 10.26154 0.18312 56.036 < 2.2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
23.45

333
Livello di istruzione
La variabile EDUC è stata codificata con i valori interi da 1 a 5.
Si può, in primo luogo, osservare come non sia opportuno considerare il seguente modello
di regressione lineare
Y = a + b · EDUC + E

Call:
lm(formula = WAGE ~ EDUC, data = indwages)

Residuals:
Min 1Q Median 3Q Max
-10.569 -2.731 -0.615 1.907 34.190

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 6.18513 0.31830 19.43 <2e-16 ***
EDUC 1.44018 0.08875 16.23 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 4.1 on 1470 degrees of freedom


Multiple R-squared: 0.1519, Adjusted R-squared: 0.1514
F-statistic: 263.3 on 1 and 1470 DF, p-value: < 2.2e-16
23.46
Il coefficiente b dovrebbe essere interpretato, ceteris paribus, come la variazione nella
variabile risposta (stima di Y ) conseguente a variazioni unitarie della variabile esplicativa
EDUC (passaggi da un livello di istruzione al successivo).
Non è verosimile che tale incremento sia costante, dal momento che EDUC è un carattere
qualitativo ordinato.
È opportuno costruire alcune (4) nuove variabili indicatrici L2 , L3 , L4 , L5 con la seguente
struttura per la generica unità statistica
 
1 se educi = 2 1 se educi = 5
l2i = ... l5i = .
0 se educi ̸= 2 0 se educi ̸= 5
23.47
Si osserva come il numero di variabili indicatrici che sono state costruite e che verranno
utilizzate nelle analisi successive è inferiore di una unità al numero di categorie distin-
te della variabile che si è ricodificata. La presenza di tutte e 5 le variabili indicatrici
L1 , . . . , L5 con 
1 se educi = 1
l1i =
0 se educi ̸= 1
non rispetterebbe, infatti, la condizione rango(X) = (k + 1). Infatti, in tal caso nella
matrice del modello avremmo 1 = L1 + . . . + L5 con 1 vettore di termini unitari. 23.48
Ciascuna variabile indicatrice dà informazioni sulla presenza, o meno, della generica cate-
goria della variabile ricodificata: se, ad esempio, l3i = 1 la iesima unità statistica possiede
il terzo livello di istruzione; conseguentemente, in corrispondenza a tale unità statistica,
si avrà che l1i = l2i = l4i = l5i = 0.
Si considera quindi il seguente modello di regressione lineare per interpretare la variabile
Y in funzione del livello di istruzione

Y = a + b2 L2 + b3 L3 + b4 L4 + b5 L5 + E.

334
23.49
Interpretazione del generico coefficiente bi
Variazione media nello stipendio che si ottiene passando dal livello di istruzione, che non
è stato considerato nella costruzione delle variabili indicatrici (nel caso presente EDUC =
1), al livello di istruzione ricodificato mediante la variabile Li .
Si osserva che la costante a nel modello di regressione riassume la media della variabile
risposta per le unità statistiche con livello di istruzione EDUC = 1. 23.50
I seguenti prospetti danno, quindi, informazioni equivalenti.
Funzione di Regressione M(Y |educi )
indwages$EDUC: 1
[1] 8.429049
----------------------------------------------
indwages$EDUC: 2
[1] 9.21519
----------------------------------------------
indwages$EDUC: 3
[1] 10.2032
----------------------------------------------
indwages$EDUC: 4
[1] 11.43112
----------------------------------------------
indwages$EDUC: 5
[1] 13.96139
Modello Lineare
Call:
lm(formula = WAGE ~ L, data = indwages)

Residuals:
Min 1Q Median 3Q Max
-11.144 -2.547 -0.572 1.769 33.614

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 8.4290 0.4099 20.566 < 2e-16 ***
L2 0.7861 0.4804 1.637 0.101933
L3 1.7742 0.4556 3.894 0.000103 ***
L4 3.0021 0.4634 6.479 1.26e-10 ***
L5 5.5323 0.4670 11.847 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 4.078 on 1467 degrees of freedom


Multiple R-squared: 0.1627, Adjusted R-squared: 0.1604
F-statistic: 71.24 on 4 and 1467 DF, p-value: < 2.2e-16
23.51
Anche in questo caso le variabili esplicative nel modello lineare (Li , i = 2, . . . , 5) sono solo
variabili indicatrici; consegue che
Multiple R-squared = ηY2|EDUC .
23.52

335
Genere e Livello di istruzione
Si vuole studiare se l’evoluzione del salario rispetto al livello di istruzione è la stessa per
le femmine e per i maschi. 23.53
Box & Whiskers Plots

40
30
20
10

0 1
40
30
20
10

1 2 3 4 5
40
30
20
10

01 02 03 04 05 11 12 13 14 15

Dall’alto:
• salario in funzione del genere (G);
• salario in funzione del livello di istruzione (EDUC);
• salario in funzione delle interazioni tra genere e livello di istruzione (G ∗ EDUC).

336
23.54
L’introduzione di una cosiddetta interazione tra la variabile ’genere’ e la variabile ’livello
di istruzione’ consente di tenere conto del diverso effetto del livello di istruzione rispetto
al genere, evidenziato sia dall’analisi dei Box & Whiskers plots, sia dallo studio della
funzione di regressione.
Funzione di Regressione M(Y |gi , educ j )

paste(indwages$MALE, indwages$EDUC): 0 1
[1] 6.60001
----------------------------------------------
paste(indwages$MALE, indwages$EDUC): 0 2
[1] 8.152744
----------------------------------------------
paste(indwages$MALE, indwages$EDUC): 0 3
[1] 9.34604
----------------------------------------------
paste(indwages$MALE, indwages$EDUC): 0 4
[1] 10.71929
----------------------------------------------
paste(indwages$MALE, indwages$EDUC): 0 5
[1] 12.47561
----------------------------------------------
paste(indwages$MALE, indwages$EDUC): 1 1
[1] 8.982574
----------------------------------------------
paste(indwages$MALE, indwages$EDUC): 1 2
[1] 9.596581
----------------------------------------------
paste(indwages$MALE, indwages$EDUC): 1 3
[1] 10.74142
----------------------------------------------
paste(indwages$MALE, indwages$EDUC): 1 4
[1] 12.26449
----------------------------------------------
paste(indwages$MALE, indwages$EDUC): 1 5
[1] 14.942
23.55
È possibile tenere conto in un modello di regressione del fatto che la somma degli effetti
’marginali’ di alcune variabili esplicative non coincide con il loro effetto congiunto sul-
la variabile dipendente, inserendo nuove variabili, denominate interazioni, che vengono
definite come prodotto tra le variabili esplicative in gioco:

Y = a + gM + b2 L2 + b3 L3 + b4 L4 + b5 L5 +
+ c12 · M · L2 + c13 · M · L3 + c14 · M · L4 + c15 · M · L5 + E.

Nel caso in esame si sono inserite 4 nuove variabili (M · L2 , M · L3 , M · L4 e M · L5 )


corrispondenti al prodotto tra la variabile indicatrice M e le 4 variabili indicatrici L2 ,
L3 , L4 e L5 riferite ai livelli di istruzione 2, 3, 4 e 5. 23.56

337
Modello Lineare
Call:
lm(formula = WAGE ~ MALE * L, data = indwages)

Residuals:
Min 1Q Median 3Q Max
-10.059 -2.405 -0.532 1.820 32.634

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 6.60001 0.83243 7.929 4.36e-15 ***
MALE 2.38256 0.95008 2.508 0.01226 *
L2 1.55273 0.95949 1.618 0.10582
L3 2.74603 0.88956 3.087 0.00206 **
L4 4.11928 0.88088 4.676 3.19e-06 ***
L5 5.87560 0.90204 6.514 1.01e-10 ***
MALE:L2 -0.93873 1.10093 -0.853 0.39398
MALE:L3 -0.98718 1.03092 -0.958 0.33844
MALE:L4 -0.83736 1.04059 -0.805 0.42113
MALE:L5 0.08384 1.05027 0.080 0.93639
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 3.992 on 1462 degrees of freedom


Multiple R-squared: 0.2003, Adjusted R-squared: 0.1954
F-statistic: 40.68 on 9 and 1462 DF, p-value: < 2.2e-16
23.57
Anche in questo caso dal momento che le variabili esplicative nel modello lineare (Li , i =
2, . . . , 5) sono variabili indicatrici o variabili ottenute dal prodotto di variabili indicatrici
consegue che
Multiple R-squared = ηY2|M∗EDUC .
23.58
Previsione

Ŷ = â + ĝM + b̂2 L2 + b̂3 L3 + b̂4 L4 + b̂5 L5 +


+ ĉ12 M · L2 + ĉ13 M · L3 + ĉ14 M · L4 + ĉ15 M · L5 + E.
Dal momento che il modello lineare coincide con la funzione di regressione, i due modelli
forniranno le medesime previsioni.
La previsione del salario per un soggetto maschio (M = 1) con livello di istruzione 4
(L4 = 1) risulta
Ŷ = 6.60001 + 2.38256 · 1 + 1.55273 · 0 + 2.74603 · 0 + 4.11928 · 1 + 5.87560 · 0+
− 0.93873 · 1 · 0 − 0.98718 · 1 · 0 − 0.83736 · 1 · 1 + 0.08384 · 1 · 0 =
= 6.60001 + 2.38256 + 4.11928 − 0.83736 = 12.26449.
Per una femmina con livello di istruzione 5 abbiamo
Ŷ = 6.60001 + 2.38256 · 0 + 1.55273 · 0 + 2.74603 · 0 + 4.11928 · 0 + 5.87560 · 1+
− 0.93873 · 0 · 0 − 0.98718 · 0 · 0 − 0.83736 · 0 · 1 + 0.08384 · 0 · 0 =
= 6.60001 + 5.87560 = 12.47561.

338
23.59
Genere e Livello di istruzione e anni di esperienza

Y = a + gM + b2 L2 + b3 L3 + b4 L4 + b5 L5 +
+ c12 M · L2 + c13 M · L3 + c14 M · L4 + c15 M · L5 + d · Exper + E

Modello Lineare
Call:
lm(formula = WAGE ~ MALE * L + EXPER, data = indwages)

Residuals:
Min 1Q Median 3Q Max
-13.9128 -1.8688 -0.3153 1.5982 30.3096

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.094466 0.773842 2.707 0.00688 **
MALE 1.808870 0.844576 2.142 0.03238 *
L2 1.958518 0.852688 2.297 0.02177 *
L3 4.377753 0.794609 5.509 4.25e-08 ***
L4 5.974984 0.788205 7.580 6.09e-14 ***
L5 7.970928 0.808374 9.860 < 2e-16 ***
EXPER 0.191195 0.009666 19.780 < 2e-16 ***
MALE:L2 -0.169567 0.978878 -0.173 0.86250
MALE:L3 -1.034530 0.915907 -1.130 0.25887
MALE:L4 -0.709085 0.924519 -0.767 0.44322
MALE:L5 0.038260 0.933099 0.041 0.96730
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 3.547 on 1461 degrees of freedom


Multiple R-squared: 0.3692, Adjusted R-squared: 0.3649
F-statistic: 85.51 on 10 and 1461 DF, p-value: < 2.2e-16
23.60
Si osservi che nella presente situazione la variabile

Exper = numero di anni di esperienza

figura come variabile quantitativa e non è conveniente costruire la funzione di regressione


dal momento che Exper assume parecchi valori distinti.
Multiple R-squared esprime la quota di varianza di Y spiegata dal modello di
regressione lineare riportato all’inizio della pagina.
Non è inoltre ragionevole assumere che l’effetto dell’esperienza sul salario sia diretta-
mente proporzionale al numero di anni (interpretazione del coefficiente d).
Si potrebbe ovviare a tale inconveniente ricodificando anche la variabile esperienza con
opportune variabili indicatrici che identifichino livelli bassi, medi e alti di esperienza.
Una soluzione alternativa è quella di effettuare una trasformazione non lineare della
variabile Exper 23.61

339
Y = a + gM + b2 L2 + b3 L3 + b4 L4 + b5 L5 +
+ c12 M · L2 + c13 M · L3 + c14 M · L4 + c15 M · L5 + d ln(Exper) + E

Call:
lm(formula = WAGE ~ MALE * L + LNEXPER, data = indwages)

Residuals:
Min 1Q Median 3Q Max
-12.8419 -1.9742 -0.2711 1.4507 30.5102

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.73580 0.83950 -2.068 0.0388 *
MALE 1.90487 0.83817 2.273 0.0232 *
L2 1.79639 0.84623 2.123 0.0339 *
L3 4.15723 0.78750 5.279 1.49e-07 ***
L4 5.72400 0.78077 7.331 3.76e-13 ***
L5 7.86340 0.80139 9.812 < 2e-16 ***
LNEXPER 2.70650 0.13223 20.468 < 2e-16 ***
MALE:L2 -0.20095 0.97155 -0.207 0.8362
MALE:L3 -1.10739 0.90916 -1.218 0.2234
MALE:L4 -0.78301 0.91767 -0.853 0.3937
MALE:L5 -0.08071 0.92624 -0.087 0.9306
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 3.521 on 1461 degrees of freedom


Multiple R-squared: 0.3785, Adjusted R-squared: 0.3742
F-statistic: 88.97 on 10 and 1461 DF, p-value: < 2.2e-16
23.62
La presente formulazione, considerando la trasformata logaritmica del numero di anni
di esperienza, può consentire di tenere conto di un effetto non lineare dell’esperienza
(si presuppone che gli effetti sulla variabile risposta siano legati in maniera meno che
proporzionale al crescere del numero di anni di esperienza). Infatti:
> 1:7
[1] 1 2 3 4 5 6 7
> diff(1:7)
[1] 1 1 1 1 1 1
> round(log(1:7), 4)
[1] 0.0000 0.6931 1.0986 1.3863 1.6094 1.7918 1.9459
> round(diff(log(1:7)), 4)
[1] 0.6931 0.4055 0.2877 0.2231 0.1823 0.1542
La previsione del salario per un soggetto maschio (M = 1) con livello di istruzione 4 (L4 =
1) e 10 anni di esperienza risulta −1.73580 + 1.90487 + 5.72400 − 0.78301 + 2.70650 ·
ln(10) = 11.34201. Per una femmina con livello di istruzione 5 e 7 anni di esperienza
abbiamo −1.73580 + 7.86340 + 2.70650 · ln(7) = 11.39421. 23.63
Per ulteriori approfondimenti si veda Verbeek M (2008) A Guide to Modern Econometrics
John Wiley, testo da cui sono stati reperiti i dati relativi all’esempio considerato. 23.64

340
Esercizio 6. Facendo riferimento ai risultati della sezione 20.4 si dia un’interpretazione
dei coefficienti nel seguente output relativo a due modelli di regressione utilizzati per
interpretare il prezzo (1987) di 546 abitazioni, o il suo logaritmo, in funzione di alcune
caratteristiche, Verbeek M (2008) A Guide to Modern Econometrics John Wiley, cap. 3.

Dependent variable:
price log(price)
(1) (2)
Constant −4,038.350 7.745∗∗∗
(3,409.471) (0.216)

lot.size.in.sq.feet 3.546∗∗∗
(0.350)

log(lot.size.in.sq.feet) 0.303∗∗∗
(0.027)

number.of.bedrooms 1,832.003∗ 0.034∗∗


(1,047.000) (0.014)

number.of.full.bathrooms 14,335.560∗∗∗ 0.166∗∗∗


(1,489.921) (0.020)

dummy.there.is.central.air.conditioning 12,632.890∗∗∗ 0.166∗∗∗


(1,555.021) (0.021)

dummy.the.house.has.a.driveway 6,687.779∗∗∗ 0.110∗∗∗


(2,045.246) (0.028)

dummy.the.house.has.a.recreational.room 4,511.284∗∗ 0.058∗∗


(1,899.958) (0.026)

dummy.the.house.has.a.full.finished.basement 5,452.386∗∗∗ 0.104∗∗∗


(1,588.024) (0.022)

dummy.the.house.uses.gas.for.hot.water.heating 12,831.410∗∗∗ 0.179∗∗∗


(3,217.597) (0.044)

number.of.garage.places 4,244.829∗∗∗ 0.048∗∗∗


(840.544) (0.011)

dummy.located.in.the.preferred.neighbourhood.of.the.city 9,369.513∗∗∗ 0.132∗∗∗


(1,669.091) (0.023)

number.of.stories.excluding.basement 6,556.946∗∗∗ 0.092∗∗∗


(925.290) (0.013)

R2 0.673 0.687
F Statistic (df = 11; 534) 99.968∗∗∗ 106.329∗∗∗
Note: ∗ p<0.1; ∗∗ p<0.05; ∗∗∗ p<0.01

341
23.65
Soluzione 7 (Esercizio 6). Nel seguente prospetto viene riportata l’interpretazione, cete-
ris paribus, dei coefficienti di ciascuna variabile presente nel modello che spiega il prezzo
dell’abitazione nella sua scala originaria, supponendo che rimangano fissati i livelli di
tutte le altre variabili.
variabile coefficiente interpretazione
il prezzo teorico per sq.feet al netto di tut-
lot size in sq.feet 3.5463 te le altre caratteristiche dell’abitazione è
3.5463
per ogni camera da letto presente nell’abi-
number of bedrooms 1832.0035 tazione il prezzo aumenta teoricamente di
1832.0035
per ogni stanza da bagno presente nell’a-
number of full bathrooms 14335.5585 bitazione il prezzo aumenta teoricamente
di 14335.5585
se nell’abitazione è presente l’impianto
dummy there is central
12632.8904 di climatizzazione centralizzato il prezzo
air conditioning
aumenta teoricamente di 12632.8904
se l’edificio è accessibile mediante un via-
dummy the house has a
6687.7789 le carrozzabile il prezzo aumenta teorica-
driveway
mente di 6687.7789
se nell’abitazione è presente una stanza dei
dummy the house has a
4511.2838 giochi il prezzo aumenta teoricamente di
recreational room
4511.2838
se l’abitazione dispone anche di un piano
dummy the house has a
5452.3855 seminterrato abitabile il prezzo aumenta
full finished basement
teoricamente di 5452.3855
se il riscaldamento dell’acqua calda vie-
dummy the house uses ne prodotto mediante un impianto a
12831.4063
gas for hot water heating gas il prezzo aumenta teoricamente di
12831.4063
per ogni posto macchina presente nell’abi-
number of garage places 4244.829 tazione il prezzo aumenta teoricamente di
4244.829
dummy located in the pre- se l’abitazione è situata in zona residen-
ferred neighbourhood of 9369.5132 ziale il prezzo aumenta teoricamente di
the city 9369.5132
per ogni piano (escluso il seminterrato)
number of stories exclud-
6556.9457 di cui è composta l’abitazione il prezzo
ing basement
aumenta teoricamente di 6556.9457

342
Nel seguente prospetto viene riportata l’interpretazione, ceteris paribus, dei coefficienti di
ciascuna variabile presente nel modello che spiega il logaritmo del prezzo dell’abitazione,
supponendo che rimangano fissati i livelli di tutte le altre variabili.
variabile coefficiente interpretazione
se la superficie aumenta dell’1% allora il prezzo
log(lot size in sq.feet) 0.3031 aumenta teoricamente dello 100 · (e0.3031·ln(1.01) −
1)% = 0.302% (circa dello 0.3031%)

in presenza di una camera da letto aggiuntiva il


number of bedrooms 0.0344 prezzo aumenta teoricamente del 100 · (e0.0344 −
1)% = 3.5% (circa del 3.44%)

in presenza di una stanza da bagno aggiuntiva il


number of full bathrooms 0.1658 prezzo aumenta teoricamente del 100 · (e0.1658 −
1)% = 18.03% (circa del 16.58%)

se è presente l’impianto di climatizzazione centra-


there is central air condi-
0.1664 lizzato il prezzo aumenta teoricamente del 100 ·
tioning (dummy)
(e0.1664 − 1)% = 18.1% (circa del 16.64%)

se l’edificio è accessibile mediante un viale car-


the house has a driveway
0.1102 rozzabile il prezzo aumenta teoricamente del 100 ·
(dummy)
(e0.1102 − 1)% = 11.65% (circa dell’11.02%)

se nell’abitazione è presente una stanza dei giochi


the house has a recreation-
0.058 il prezzo aumenta teoricamente del 100 · (e0.058 −
al room (dummy)
1)% = 5.97% (circa del 5.8%)

se l’abitazione dispone anche di un piano semin-


the house has a full fin- terrato abitabile il prezzo aumenta teoricamen-
0.1045
ished basement (dummy) te del 100 · (e0.1045 − 1)% = 11.02% (circa del
10.45%)

se il riscaldamento dell’acqua calda viene prodot-


the house uses gas for hot to mediante un impianto a gas il prezzo aumen-
0.179
water heating (dummy) ta teoricamente del 100 · (e0.179 − 1)% = 19.6%
(circa del 17.9%)

in presenza di un posto macchina aggiuntivo il


number of garage places 0.048 prezzo aumenta teoricamente del 100 · (e0.048 −
1)% = 4.92% (circa del 4.8%)

located in the preferred se l’abitazione è situata in zona residenziale il


neighbourhood of the city 0.1319 prezzo aumenta teoricamente del 100 · (e0.1319 −
(dummy) 1)% = 14.1% (circa del 13.19%)

se l’abitazione è disposta su più piani; in pre-


number of stories exclud- senza di un piano supplementare (escluso il se-
0.0917
ing basement minterrato) il prezzo aumenta teoricamente del
100 · (e0.0917 − 1)% = 9.6% (circa del 9.17%)
Osservazione
Si ricorda come, in base allo sviluppo in serie di Taylor, si ottiene una buona approssi-
mazione di ex con (1 + x) solo in un intorno dell’origine.

343
Abbiamo infatti |ex − (1 + x)| < 0.01, corrispondente a uno scostamento massimo di un
punto percentuale, solo se −0.1448 < x < 0.1382.

Osservazione
Si fa presente che i due indici di adattamento R2 riportati nell’output non sono confron-
tabili in quanto il secondo modello è riferito alla variabile prezzo trasformata in scala
logaritmica.
23.66

11 Misure di importanza delle variabili esplicative


Con riferimento a un modello di regressione lineare completo (di intercetta)

Y = a0 + f (X1 , X2 , . . . , Xk ) + E,

con f (·) funzione lineare nelle variabili esplicative X1 , X2 , . . . , Xk , eventualmente ricodifi-


cate mediante variabili indicatrici se qualitative, una misura del contributo di ciascun re-
gressore Xi nella spiegazione della variabile dipendente Y , al netto di tutte le altre variabili
incluse nel modello, è data dal seguente indice di miglioramento

2 RMSconstr − RMS f ull


constr, f ull ρ = ,
RMSconstr
ottenuto considerando come full il modello con tutte le variabili esplicative e come con-
strained il modello senza la variabile Xi (ovvero l’insieme delle variabili indicatrici uti-
lizzate per codificare le categorie di Xi nel caso questa sia una variabile qualitativa).
23.67
Si osserva la struttura nidificata (nested) dei modelli in gioco, nel senso che il modello
full, che ha associato il residuo quadratico medio più piccolo, contiene quello constrained,
con residuo quadratico medio più grande. 23.68

Osservazione
La valutazione del contributo ’marginale’ di ciascun regressore può essere effettuata tra-
mite l’indicatore constr, f ull ρ 2 solo quando non figurano effetti di interazione nel modello,
vale a dire non sono presenti variabili ottenute come prodotto di altre variabili, come av-
viene, ad esempio, nel modello che include le variabili Genere, Livello di istruzione e la
loro interazione negli esempi presentati nel §10.
In presenza di interazioni tra le variabili in gioco, ai fini della valutazione dell’impatto
delle variabili possono essere utilizzate le misure di importanza presentate in Grömping
U 2006 Relative Importance for Linear Regression in R: The Package relaimpo. Journal
of Statistical Software, 17(1), 1-27. 23.69
L’indicatore constr, f ull ρ 2 è anche noto in letteratura come coefficiente di correlazione par-
ziale e rappresenta una possibile misura di effect size del regressore. In tal senso, un valore
di constr, f ull ρ 2 pari a 0.02 può, indicativamente, essere associato a un effetto di entità lieve,
0.15 a un effetto di entità media e 0.35 a un effetto di grande entità, come suggerito da
Cohen J 1989 Statistical Power Analysis for the Behavioral Sciences, Lawrence Erlbaum
Associates.
Osservazione
Anche il quadrato βi2 del coefficiente standardizzato βi rappresenta una possibile misura
di effect size della singola variabile esplicativa, in alternativa a constr, f ull ρ 2 .
In effetti, constr, f ull ρ 2 può anche essere utilizzato per valutare l’importanza marginale di
un gruppo di variabili esplicative, al netto delle altre variabili nel modello. A tal fine

344
è sufficiente considerare come full il modello con tutte le variabili esplicative e come
constrained il modello senza le variabili di cui si vuole valutare l’importanza.
Come esempio, si pensi all’insieme di variabili indicatrici utilizzate per codificare una
variabile qualitativa. Mediante l’utilizzo di constr, f ull ρ 2 è possibile valutare l’importanza
complessiva della variabile qualitativa e non solo delle sue singole categorie.
23.70

Osservazione
La misura constr, f ull ρ 2 può essere espressa in funzione degli indici di adattamento

RMS
R2 = 1 −
Var(Y )

dei modelli in gioco. Vale infatti

2 RMSconstr − RMS f ull


constr, f ull ρ = =
RMSconstr
RMSconstr −RMS f ull
Var(Y )
= RMSconstr
=
Var(Y )
RMSconstr RMS f ull
Var(Y ) − Var(Y )
= =
1 − R2constr
1 − R2constr − (1 − R2f ull )
= =
1 − R2constr
R f ull − R2constr
2
= .
1 − R2constr
23.71
Si riportano le misure di effect size relative ai coefficienti dei modelli di regressione pre-
sentati nell’Esercizio 6 per descrivere il prezzo di un’abitazione in funzione di alcune
caratteristiche.
eff.size (1) eff.size (2)
lot.size.in.sq.feet 0.1610
log(lot.size.in.sq.feet) 0.1945
number.of.bedrooms 0.0057 0.0108
number.of.full.bathrooms 0.1478 0.1107
dummy.there.is.central.air.conditioning 0.1100 0.1023
dummy.the.house.has.a.driveway 0.0196 0.0278
dummy.the.house.has.a.recreational.room 0.0104 0.0092
dummy.the.house.has.a.full.finished.basement 0.0216 0.0416
dummy.the.house.uses.gas.for.hot.water.heating 0.0289 0.0302
number.of.garage.places 0.0456 0.0317
dummy.located.in.the.preferred.neighbourhood.of.the.city 0.0557 0.0596
number.of.stories.excluding.basement 0.0860 0.0900

Si osserva come le variabili ’dimensione del lotto’ e ’numero di bagni’ abbiano, al netto
delle altre variabili esplicative, un’importanza più elevata. 23.72

345
Sezione 24
Calcolo delle probabilità (1)
24.1

Indice
1 La probabilità 347

2 Oggetto della probabilità 349

3 Relazioni tra eventi 350

4 Operazioni elementari 351

5 Funzione di probabilità 353

6 Impostazione assiomatica 353

7 Teoremi calcolo probabilità 354

8 Elicitazione e interpretazione di P(A): altri approcci 356


8.1 Approccio classico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 356
8.2 L’approccio frequentista . . . . . . . . . . . . . . . . . . . . . . . . . . 357
8.3 Lo schema della scommessa . . . . . . . . . . . . . . . . . . . . . . . . 358

9 Gioco equo 359

10 Probabilità e Odds 361

11 Odds e logit 361 24.2

1 La probabilità
Nelle sezioni precedenti si sono trattate le mutabili, le serie e le seriazioni statistiche che
sono riferite a un campione di osservazioni.
Considereremo, ora, i corrispondenti modelli teorici per l’universo/popolazione

xi ϕi
x1 ϕ1
x2 ϕ2 ϕi = frequenze relative teoriche
.. ..
. .
xh ϕh

Tali modelli descrivono i meccanismi generatori delle osservazioni che costituiscono il


campione e sono rappresentati dalle cosiddette mutabili, variabili casuali. 24.3

347
Esempio 1 (Lancio di una moneta regolare). In 40 lanci di una moneta non truccata si
sono osservate 25 teste e 15 croci.
xi ni fi
T 25 0.625
C 15 0.375
Da un punto di vista teorico, essendo la moneta regolare, ci si attende la stessa frequenza
di teste e croci. Nella corrispondente mutabile casuale, a entrambe le categorie T e C è
associata la medesima probabilità 0.5.
xi pi
T 0.5
C 0.5
Problema. Come definire la probabilità? 24.4

Definizione 2 (Esperimento deterministico). Si definisce deterministico un esperimento


il cui risultato non è affetto da variabilità accidentale, è prevedibile con certezza.
Definizione 3 (Esperimento aleatorio). Si definisce aleatorio un esperimento il cui risul-
tato è casuale, non è prevedibile con certezza.
Un esperimento aleatorio può, quindi, dare luogo a 2 o più risultati.
Per descrivere le manifestazioni di un esperimento aleatorio parleremo di eventi.
Definizione 4 (Probabilità). È la misura del presentarsi di un evento; una valutazione sul
fatto che un esperimento aleatorio dia luogo a un certo evento.

Obiettivo
Costruire modelli teorici che permettano di calcolare la probabilità di tutti gli eventi
sperimentabili.
24.5

0 00
1 2 3 
 4 5 6 
7 8 9 
10 11 12 
 13 14 15 
16 17 18 
19 20 21 
 22 23 24 
25 26 27 
28 29 30 
 31 32 33 
34 35 36 
  
1-12
1-18 PAIR
13-24
19-36 IMPAIR
25-36 24.6

348
2 Oggetto della probabilità
Definizione 5 (Eventi elementari).

e1 , e2 , . . . , ei , . . .

Risultati (manifestazioni) possibili del fenomeno aleatorio


Ad esempio:
1, 2, 3, . . . , 36, 0, 00
24.7

Definizione 6 (Eventi generici).

A1 , A2 , . . . , Ai , . . .

• Insiemi di eventi elementari


• Insiemi di possibili modalità del fenomeno di specifico interesse
Ad esempio:
• nel gioco della roulette
– pari = 2 ∪ 4 ∪ . . . ∪ 34 ∪ 36 = {2, 4, . . . , 34, 36},
– dispari, rosso, nero, 1-12, 13-24, 25-36, . . .
– si puntano un gettone sul pari e un gettone sul rosso

{2, 4, . . . , 34, 36} ∪ {1, 3, . . . , 34, 36}

– si puntano un gettone su 1-12 e un gettone su dispari


– i numeri 8, 10, 11 si possono ottenere come intersezione degli insiemi: 7-12
e nero

{7, 8, 9, 10, 11, 12} ∩ {2, 4, 6, 8, 10, 11, 13, 15, . . . , 31, 33, 35}

• nel lancio di un dado


– risultato pari = {2, 4, 6},
– risultato dispari = {1, 3, 5}.
24.8

Definizione 7 (Classi o famiglie di eventi). Collezioni di insiemi definite attraverso una


regola di appartenenza
Ad esempio:
• tutti gli eventi su cui è possibile puntare alla roulette
24.9

Definizione 8 (Eventi particolari).


• L’insieme vuoto ∅ (evento impossibile)
• Lo spazio probabilistico di tutti gli eventi elementari Ω (evento certo) o spazio
campionario dei possibili risultati
Ad esempio:
• scommessa sul numero 52 = ∅
• Ω = {1, 2, 3, . . . , 36, 0, 00}.
24.10

349
3 Relazioni tra eventi
Definizione 9 (Eguaglianza).
A=B
A e B hanno gli stessi elementi
Ω Ω

B A B A

24.11

Definizione 10 (Appartenenza).
A⊂B
gli elementi di A sono anche elementi di B
(ma non necessariamente viceversa)

B
A

24.12

Definizione 11 (Inclusione o contenimento).

A⊃B

350

A
B

24.13

Definizione 12 (Disgiunzione o Incompatibilità).


A∩B = ∅
A e B non hanno elementi in comune

B A

24.14

4 Operazioni elementari
Definizione 13 (Insieme Unione).
A∪B
i cui elementi appartengono ad A oppure a B

A B

351
24.15

Definizione 14 (Insieme Intersezione).


A ∩ B = AB
i cui elementi appartengono sia ad A che a B

A B

Insieme intersezione tra A e B:


area scura comune ad A e B

24.16

Definizione 15 (Insieme Differenza).


A−B
i cui elementi appartengono ad A ma non a B. Quindi A − B = A ∩ B̄

A B

A−B= area bianca nell'insieme A

24.17

Definizione 16 (Insieme Complementare). Ā = Ω − A i cui elementi non appartengono


ad A

352
24.18

Esempio 17 (Lancio del dado).


Ω={ , , , , , }
A = {dispari} = {1, 3, 5} Ā = {2, 4, 6} A ∩ Ā = ∅ A ∪ Ā = Ω.
24.19

5 Funzione di probabilità
È una funzione di insieme, una legge che permette di calcolare P(A) per ogni evento
A ⊂ Ω.
Ipotesi di lavoro
Indicata con S (Ω) la classe di tutti i sottoinsiemi di Ω (algebra degli eventi)
(compresi ∅ e Ω)
assiomi del calcolo delle probabilità
+
probabilità eventi elementari

calcolo di P(A) ∀A ∈ S (Ω)
P : S (Ω) → ℜ

(tratteremo solo il caso di Ω finito) 24.20

6 Impostazione assiomatica
Definizione 18 (Impostazione assiomatica di Kolmogorov). Siano Ω lo spazio degli even-
ti elementari ed S (Ω) la classe di tutti i sottoinsiemi di Ω.
Una funzione P(·) definita su S (Ω) si definisce funzione di probabilità se soddisfa i
seguenti assiomi:
1. P(A) ≥ 0, ∀A ∈ S (Ω)
2. P(Ω) = 1
3. Data una sequenza di eventi {A1 , A2 , . . . , An } a coppie disgiunti (Ai ∩ A j = ∅) vale
!
n
[ n
P Ai = ∑ P(Ai ).
i=1 i=1

Osservazione
1) e 2) vincoli alla funzione misura 3) condizione operativa
24.21

Osservazione
Definita una legge
P = P(ei ) (∀ei ⊂ Ω)
che soddisfa gli assiomi possiamo calcolare
P(A) (∀A ⊂ Ω).
Infatti, ogni evento A è interpretabile come unione di un certo numero di eventi elementari
(disgiunti)
k
[
A= ei
i=1

353
quindi
k
P(A) = ∑ P(ei ).
i=1

Altre volte risulta più agevole non ricorrere alle P(ei ) ma usare dei teoremi che derivano
dai postulati. 24.22

7 Teoremi calcolo probabilità


Teorema 19.
P(A ∪ B) = P(A) + P(B) − P(A ∩ B)

A B

P(A ∩ B) = 0 solo se A e B sono disgiunti 24.23

Teorema 20.
P(A − B) = P(A) − P(A ∩ B)

A B

A−B= area bianca nell'insieme A

P(A ∩ B) = P(B) solo se B ⊂ A 24.24

354
Teorema 21.
P(Ā) = 1 − P(A)

24.25

Dimostrazione. Valgono le seguenti relazioni

A ∪ Ā = Ω e P(A ∪ Ā) = P(Ω).

In base al secondo assioma abbiamo P(Ω) = 1 e, dal momento che A e Ā sono disgiunti,
per il terzo assioma vale
P(A ∪ Ā) = P(A) + P(Ā).
Quindi
P(Ω) = 1 = P(A) + P(Ā),
da cui segue la tesi.
24.26

Teorema 22.
P(∅) = 0
Teorema 23. Se A ⊂ B allora P(A) ≤ P(B) (monotonicità)
24.27

Osservazione
Se gli eventi A e B sono incompatibili allora

P(A ∪ B) = P(A) + P(B).

È il cosiddetto principio delle probabilità totali, postulato base dell’impostazione classica


della probabilità.

Osservazione
Dall’ultimo teorema segue che P(A) ≤ 1 essendo A ⊂ Ω
24.28

Esercizio 24 (T 168, 19.02.1999, 4). La probabilità che si verifichi l’evento A e non si


verifichi l’evento B è pari a 0.12.
La probabilità che si verifichi l’evento B è pari a 2 volte la probabilità che si verifichi
l’evento A.
La probabilità che si verifichi l’evento A o non si verifichi l’evento B è pari a 0.68.
1. Calcolare la probabilità che si verifichi l’evento A e la probabilità che si verifichi
l’evento B.
24.29

355
8 Elicitazione e interpretazione di P(A): altri approcci
Si considerano i seguenti schemi che consentono l’elicitazione di P(A) e la sua interpre-
tazione dal punto di vista operativo:
• approccio classico (Laplace/Pascal)
• approccio frequentista (limite del rapporto di frequenze)
• schema della scommessa (De Finetti)
24.30

8.1 Approccio classico


Definizione 25 (Formula classica di Laplace/Pascal). Se lo spazio probabilistico Ω
• è costituito da un numero finito n di eventi elementari
e
• gli eventi elementari sono ’simmetrici’ (equiprobabili)
la probabilità del generico evento A ⊂ Ω può essere definita come
# casi favorevoli ad A # eventi elementari ∈ A
P(A) = =
# casi possibili n

Possibili applicazioni:
• giochi d’azzardo
• lotto e tombola 24.31

Dimostrazione.
Ω = {e1 , e2 . . . , en }
Se gli eventi ei sono simmetrici (equiprobabili) vale

P({ei }) = costante = p =?

Per il secondo e terzo postulato


!
n
[ n n
P(Ω) = P ei = ∑ P(ei ) = ∑ p = np = 1
i=1 i=1 i=1

quindi
1
p=
n
e
1 nA
P(A) = ∑ = .
i:ei ∈A n n
24.32
Esempio 26. Calcolare la probabilità che estraendo una carta da un mazzo di 52 carte si
ottenga una carta di fiori.
Siamo interessati all’evento
F = {carta di fiori}
Con riferimento allo spazio probabilistico Ω formato dalle 52 carte
A♡ 2♡ 3♡ 4♡ 5♡ 6♡ 7♡ 8♡ 9♡ 10♡ J♡ Q♡ K♡
A♢ 2♢ 3♢ 4♢ 5♢ 6♢ 7♢ 8♢ 9♢ 10♢ J♢ Q♢ K♢
A♣ 2♣ 3♣ 4♣ 5♣ 6♣ 7♣ 8♣ 9♣ 10♣ J♣ Q♣ K♣
A♠ 2♠ 3♠ 4♠ 5♠ 6♠ 7♠ 8♠ 9♠ 10♠ J♠ Q♠ K♠

356
13
P(F) == 0.25
52
Con riferimento allo spazio probabilistico Ω formato dai 4 semi (simmetrici, essendo
ciascuno costituito da 13 carte)
1
♡ ♢ ♣ ♠ P(F) = = 0.25
4
24.33
Esempio 27. Calcolare la probabilità che la somma dei punteggi ottenuti nel lancio di 2
dadi (equilibrati) sia almeno pari a 11.
Siano D1 e D2 i punteggi ottenuti con i due dadi ed S = D1 + D2 la loro somma.
Lo spazio probabilistico Ω è costituito da tutte le possibili coppie di risultati
7

7
6

6
5

5
4

4
3

3
2

2
1

1
0

0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7

3
P(S ≥ 11) = P(D1 + D2 ≥ 11) = = 0.0833.
36
24.34
L’assegnazione della funzione di probabilità in base all’approccio classico può essere
utilizzata se sono verificate le seguenti due assunzioni
• lo spazio probabilistico Ω consta di un numero finito di eventi
• simmetria degli eventi elementari
Come è possibile operare se le precedenti ipotesi non sono verificate?
Si pensi, ad esempio, alla probabilizzazione dei seguenti eventi:
• evento testa nel caso di una moneta non equilibrata
• in una partita di calcio disputata tra le squadre a e b vinca la squadra a
24.35

8.2 L’approccio frequentista


Definizione 28 (Esperimento aleatorio ripetibile). Si definisce ripetibile un esperimento
aleatorio che può essere ripetuto nelle stesse condizioni sperimentali.
Definizione 29 (Legge empirica del caso). In presenza di un esperimento aleatorio ripe-
tibile ∀A ∈ S (Ω) esiste un valore oggettivo P(A)
NA
lim = P(A).
N→∞ N
dove
• N è il numero di volte che si è replicato l’esperimento,
• NA è il numero di volte che l’esperimento ha dato luogo, nelle N prove, a un risultato
in A.

357
24.36

Osservazione
La frequenza relativa di successo NNA (detta anche rapporto di frequenze) soddisfa gli
assiomi.
P(A) è definito come limite del rapporto di frequenze. Tale limite costituisce un approccio
oggettivo alla elicitazione della probabilità.
24.37

0.7
0.6
Limite in senso matematico

limN→∞ f (N) = p

0.5
∀ε > 0, ∃N0 (ε) : se N > N0 allora

0.4
| f (N) − p| < ε

0.3

0 200 400 600 800 1000


0.70
0.60

Limite in senso probabilistico


0.50

limN→∞ f (N) = p
0.40
0.30

∀ε > 0, ∃N0 (ε, s) : se N > N0 allora 0 200 400 600 800 1000
0.70

| f (N) − p| < ε
0.60
0.50

N0 dipende anche dalla successione


s di esperimenti.
0.40
0.30

0 200 400 600 800 1000


24.38

8.3 Lo schema della scommessa


Si tratta di uno approccio soggettivo all’elicitazione della probabilità.
Può essere applicato anche in presenza di esperimenti non necessariamente ripetibili.
Può dare luogo a valutazioni soggettive differenti.
Definizione 30. ∀A ∈ S (Ω) la probabilità P(A) è quantificata come la posta p che un
dato soggetto, che partecipa a una scommessa coerente, è disposto a pagare
• per riscuotere 1 se A si verifica,
• per riscuotere 0 se A non si verifica.
La scommessa è coerente se non dà luogo ad aspettative non nulle di guadagno o di
perdita.
Per garantire la coerenza la valutazione non deve cambiare se l’individuo passa da scom-
mettitore a banco.
Una valutazione coerente soddisfa gli assiomi. 24.39

358
Imporre che la scommessa sia coerente implica che il soggetto non sottovaluti o soprav-
valuti, mediante la dichiarazione di una posta p0 , il valore p della probabilità che suppone
essere quello vero.
Si consideri, al riguardo, un evento A e siano
• p = P(A) il valore della probabilità dell’evento A secondo l’opinione del soggetto
• p0 il valore dichiarato effettivamente dal soggetto (posta).
È possibile calcolare il valore atteso del guadagno, X, associato alla scommessa come
media tra l’opposto di p0 , posta che il soggetto ha dichiarato di essere disposto a pagare
per partecipare al gioco, e il guadagno 1 − p0 che il soggetto realizza nel caso si verifichi
l’evento A. 24.40
Nel calcolo del valore atteso (media) occorre tenere conto delle probabilità 1 − p e p,
ipotizzate come vere dal soggetto con riferimento agli eventi Ā e A.

guadagno (xi )
evento posta vincita P(X = xi ) xi · P(X = xi )
vincita − posta
Ā p0 0 −p0 1− p −p0 (1 − p)
A p0 1 1 − p0 p (1 − p0 )p
−p0 + p0 p + p − p0 p =
1
= p − p0

Si osserva che
• dichiarando p0 = p, l’aspettativa di guadagno o perdita è nulla,
• dichiarando p0 < p il soggetto sta effettuando un arbitraggio, in quanto si aspetta
di realizzare un guadagno pari a p − p0 ,
• il soggetto non dichiarerà mai p0 > p; in tal caso si aspetterebbe, infatti, una perdita
pari a |p0 − p|.
24.41
Imponendo al soggetto il vincolo, che può avere luogo in qualunque momento del gioco,
di dover scambiare la sua posizione con quella del banco, egli non dichiarerà come posta
p0 un valore diverso dalla probabilità p corrispondente alla sua opinione. 24.42

9 Gioco equo
Il concetto di gioco equo è strettamente legato a quello di scommessa coerente.
Definizione 31 (Gioco equo). Un gioco si definisce equo se non dà luogo a guadagni o
perdite certi, ovvero se il guadagno ’medio’ del giocatore è nullo.

Osservazione
Una scommessa su un evento A, per il quale P(A) = p, corrisponde a un gioco equo se
puntando p si vince 1 ovvero se puntando 1 si vince 1/p.
Abbiamo, infatti,

xi = vincita − posta P(X = xi ) xi · P(X = xi )


−1 1− p −(1 − p)
1/p − 1 p 1− p
1 0

e M(X) = E(X) = 0. 24.43

359
Esempio 32 (Lancio di una moneta equilibrata). I risultati possibili sono: T = testa e C =
croce:
• in base all’impostazione classica si tratta di eventi elementari simmetrici:

P(T ) = P(C) = 0.5;

• in base all’impostazione soggettiva un soggetto razionale è disposto a scommettere,


ad esempio, sull’evento T 0.5 unità per ricevere 1 (il rapporto tra posta e vincita è
di 1 a 2, ovvero punto 1 per ricevere 2);

0 se risultato = T̄
quindi: posta = 1 vincita =
2 se risultato = T

risultato xi P(X = xi ) xi · P(X = xi )


T̄ −1 0.5 −0.5
T 1 0.5 0.5
1 0

dove xi = guadagno = vincita − posta

M(X) = E(X) = 0

Il gioco è equo: non dà, infatti, luogo a guadagni o perdite certi.


24.44
Si considerano con riferimento a 4 possibili sequenze di 1000 replicazioni dell’esperi-
mento ripetibile ’lancio di una moneta equilibrata’
• l’andamento della convergenza della frequenza di T = testa (grafici A)
• la corrispondente evoluzione della situazione patrimoniale di un ipotetico giocatore
che scommette su T (grafici B)
0.30 0.40 0.50 0.60 0.70

0.30 0.40 0.50 0.60 0.70

A B A B
50

50
20

20
0

0 200 400 600 800 1000 0 200 400 600 800 1000
−30

−30
−60

−60

0 200 400 600 800 1000 0 200 400 600 800 1000
0.30 0.40 0.50 0.60 0.70

0.30 0.40 0.50 0.60 0.70

A B A B
50

50
20

20
0

0 200 400 600 800 1000 0 200 400 600 800 1000
−30

−30
−60

−60

0 200 400 600 800 1000 0 200 400 600 800 1000

Si dimostra (Teorema della rovina del giocatore) che la situazione di pareggio si verifica in
maniera stabile solo al divergere del numero di lanci e che le perdite possibili potrebbero
superare qualsiasi disponibilità finanziaria finita. 24.45

Esempio 33 (Gioco della roulette). I risultati possibili sono i simboli 0, 00, 1, 2, 3, . . . , 36:
• in base all’impostazione classica:
1
P(0) = P(00) = P(1) = . . . = P(36) = ;
38
• in base all’impostazione soggettiva un soggetto razionale è disposto a scommettere
1
sul generico simbolo 38 unità per ricevere 1 (il rapporto tra posta razionale e vincita
è di 1 a 38);

360
In caso di uscita del simbolo su cui è stata effettuata una scommessa unitaria si ottiene
però solo una somma pari a 36 e il guadagno risulta, quindi, pari a 35:

xi = vincita − posta P(X = xi ) xi · P(X = xi )


37
−1 38 − 37
38
1 35
35 38 38
2
1 − 38 = −0.05263

M(X) = E(X) < 0


Il gioco non è equo: ci si attende ’in media’ una perdita certa.
24.46

10 Probabilità e Odds
Si ricorda che una scommessa su un evento A, per il quale P(A) = p, corrisponde a un
gioco equo se puntando 1 si vince 1/p ovvero se puntando p si vince 1.
Abbiamo, infatti,

xi = vincita − posta P(X = xi ) xi · P(X = xi )


−p 1− p −p + p2
1− p p p − p2
1 0

e M(X) = E(X) = 0. 24.47


Si riprende, nel contesto del calcolo delle probabilità e del gioco equo, la definizione di
odds introdotta nella Sezione 15.
Definizione 34 (Odds). Con riferimento a un evento A si definisce odds il rapporto tra
P(A) = p e P(Ā) = 1 − p
P(A) p
= .
P(Ā) 1 − p
L’odds può essere interpretato, in presenza di un gioco equo, come il rapporto tra la posta,
p, e il guadagno, 1 − p, che si ottiene nel caso si verifichi l’evento A. 24.48

11 Odds e logit
Spesso gli odds vengono utilizzati, ad esempio in ambito medico, assicurativo od econo-
mico, come misura del rischio di incorrere in un determinato evento A, ad esempio:
• ’essere affetti da una patologia’,
• ’verificarsi di una tipologia di sinistro’
• ’appartenere allo status neet’
24.49
Una seconda importante misura utilizzata per quantificare il rischio in oggetto è il cosid-
detto logit, logaritmo dell’odds.

Definizione 35 (Logit). Con riferimento a un evento A si definisce logit il logaritmo del


rapporto tra P(A) = p e P(Ā) = 1 − p
   
P(A) p
ln = ln .
P(Ā) 1− p

361
24.50
Il logit può essere utilizzato come variabile dipendente in un modello di regressione li-
neare al fine di studiare la relazione tra il rischio di incorrere nell’evento A e una o più va-
riabili esplicative. In questa situazione il modello di regressione lineare viene denominato
modello di regressione logistica.
Osservazione
Non è possibile considerare come variabile dipendente in modello di regressione lineare
la probabilità p di incorrere nell’evento in quanto assume valori limitati all’insieme [0, 1].
È invece lecito utilizzare il logit in quanto assume valori nell’intervallo (−∞, +∞).
Si rimanda al corso di Statistica applicata per ulteriori approfondimenti sul modello di
regressione logistica. 24.51

L’odds ha il seguente andamento al variare della probabilità P(A) = p


p
50

1−p
40
30
20
10
0

0.0 0.2 0.4 0.6 0.8 1.0


p

24.52
Il logit ha il seguente andamento al variare della probabilità P(A) = p
p
8

log
1−p
7
6
5
4
3
2
1

p
0

0.0 0.2 0.4 0.6 0.8 1.0


−1
−2
−3
−4
−5
−6
−7
−8

24.53

362
Sezione 25
Calcolo delle probabilità (2)
25.1

Indice
1 La probabilità condizionata P(A|B) 363

2 La probabilità composta 365

3 Indipendenza stocastica 366


3.1 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 366

4 La probabilità composta (caso generale) 367


4.1 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 367
4.2 Le permutazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 368
4.3 Le combinazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 369
4.4 Il coefficiente binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . 370
4.5 Combinazioni multiple e coefficiente multinomiale . . . . . . . . . . . . 372

5 Legge delle probabilità totali 372


5.1 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373

6 Formula di Bayes 374

7 I grafi di probabilità 376


7.1 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 376 25.2

1 La probabilità condizionata P(A|B)


In presenza di due eventi A e B

A B

363
siamo interessati a calcolare la probabilità dell’evento condizionato A|B, ossia la probabi-
lità che si verifichi l’evento A a condizione che B si sia verificato.
L’evento B deve potersi verificare: P(B) > 0. 25.3
Si opera una restrizione dello spazio probabilistico Ω al solo evento B, che diventa lo
spazio di riferimento (Ω∗ = B) su cui definire una nuova legge P∗ (A) = P(A|B).
È possibile utilizzare la legge P definita su Ω per costruire P∗ ?

A B

L’evento A si verifica ora nella sola intersezione con B, quindi

P(A ∩ B)
P(A|B) = .
P(B)

Si osserva come con riferimento allo spazio Ω vale

P(A ∩ Ω) P(A)
P(A) = = .
P(Ω) 1
25.4

Definizione 1 (Probabilità condizionata).

P(A ∩ B)
P(A|B) = , P(B) ̸= 0
P(B)

Esempio 2. Si estragga una carta da un mazzo di 52 carte. Si calcoli la probabilità che sia
un asso, condizionatamente al fatto che la carta estratta abbia il seme ’cuori’.
• ottenere un asso all’interno delle cuori (A ∩ B)
• considerando solo le uscite di cuori (B)

A♡ 2♡ 3♡ 4♡ 5♡ 6♡ 7♡ 8♡ 9♡ 10♡ J♡ Q♡ K♡
A♢ 2♢ 3♢ 4♢ 5♢ 6♢ 7♢ 8♢ 9♢ 10♢ J♢ Q♢ K♢
A♣ 2♣ 3♣ 4♣ 5♣ 6♣ 7♣ 8♣ 9♣ 10♣ J♣ Q♣ K♣
A♠ 2♠ 3♠ 4♠ 5♠ 6♠ 7♠ 8♠ 9♠ 10♠ J♠ Q♠ K♠

1
P(A ∩ B) 52 1
P(A|B) = = 13
=
P(B) 52
13
25.5
Si osserva come l’ultimo passaggio nella precedente espressione non sia una semplice
semplificazione della formula.
Il condizionamento rappresenta, infatti, una restrizione all’insieme condizionante (B).

364
Risulta, quindi, definita una nuova misura di probabilità P∗ riferita allo spazio probabili-
stico Ω∗ = B = carte di cuori.
1 #AC in Ω
P(A ∩ B) #casi poss. in Ω 1 #AC in B
= 52
13
= #C in Ω
= = = P∗ (A)
P(B) 52 #casi poss. in Ω
13 #casi poss. in B
25.6

Osservazione
Con riferimento a particolari sequenze di eventi {A1 , A2 , . . . , An } il terzo postulato del-
l’impostazione assiomatica potrebbe applicarsi per P∗ definita su B e non per P definita
su Ω.

A1

B
A2

A3

A4

A1 ∩ A2 ̸= ∅, A3 ∩ A4 ̸= ∅, (A1 |B) ∩ (A2 |B) = (A3 |B) ∩ (A4 |B) = ∅


25.7

2 La probabilità composta
Da
P(B ∩ A)
P(B|A) = , P(A) ̸= 0
P(A)
P(A ∩ B)
P(A|B) = , P(B) ̸= 0
P(B)
segue la definizione di probabilità composta.

Definizione 3 (Probabilità composta).

P(A ∩ B) = P(A) · P(B|A) = P(B) · P(A|B)


25.8

365
3 Indipendenza stocastica
Definizione 4 (Indipendenza stocastica). Due eventi A e B si dicono stocasticamente
indipendenti se
P(A ∩ B) = P(A) · P(B)
Se A e B sono stocasticamente indipendenti, dalla formula della probabilità condizionata
segue che:

P(A ∩ B) P(A) · P(B)
P(A|B) = = = P(A)
P(B) P(B)
l’evento B non ha alcuna influenza sulla manifestazione dell’evento A.

P(B ∩ A) P(B) · P(A)
P(B|A) = = = P(B)
P(A) P(A)
l’evento A non ha alcuna influenza sulla manifestazione dell’evento B. 25.9

3.1 Esercizi
Esercizio 5. Due eventi disgiunti sono indipendenti?
25.10

Esercizio 6 (T 168, 19.02.1999, 4). La probabilità che si verifichi l’evento A e non si


verifichi l’evento B è pari a 0.12.
La probabilità che si verifichi l’evento B è pari a 2 volte la probabilità che si verifichi
l’evento A.
La probabilità che si verifichi l’evento A o non si verifichi l’evento B è pari a 0.68.
1. Calcolare la probabilità che si verifichi l’evento A e la probabilità che si verifichi
l’evento B.
2. Calcolare la probabilità che si verifichi l’evento A dato che non si è verificato
l’evento B.
3. Indicare, giustificando la risposta, se A e il complementare di B sono tra loro
stocasticamente indipendenti.
4. Dimostrare che A e B sono tra loro stocasticamente indipendenti.
25.11

Esercizio 7 (T 156, 13.09.1997, 4). Dati due eventi tali che P(A) = 0.3, P(B) = 0.4;
calcolare P(A ∪ B) nelle seguenti ipotesi:
1. A e B sono stocasticamente indipendenti;
2. A e B sono disgiunti;
3. P(A|B) = 0.8.
25.12

Esercizio 8 (T 173, 13.09.1997, 4). Sapendo che la probabilità che si verifichi l’evento A
è pari a 0.4 e che la probabilità che si verifichi l’evento B è pari a 0.9, dire, giustificando
la risposta data, se:
1. A e B sono due eventi incompatibili (o disgiunti);
2. A e B sono due eventi tra loro stocasticamente indipendenti, sapendo che P(A∪B) =
0.9.
25.13

Esercizio 9 (T 231, 11.01.2007, 4). Sapendo che A, B e C sono tre eventi che costituisco-
no una partizione dello spazio Ω e che P(A) = 0.2 e P(B) è 2 volte P(C):
1. calcolare P(B ∪C), P(A ∩C), P(A − B), P(A|B),
2. dire se A e C sono stocasticamente indipendenti.
25.14

366
4 La probabilità composta (caso generale)
Definizione 10 (Probabilità composta). Si considerino gli eventi A1 , A2 , . . . , An . Allora

P(A1 ∩ A2 ∩ . . . ∩ An ) = P(A1 ) · P(A2 |A1 ) · P(A3 |A1 ∩ A2 ) · . . . · P(An |A1 ∩ A2 ∩ . . . ∩ An−1 )

con P(A1 ∩ A2 ∩ . . . ∩ An ) ̸= 0.

Teorema 11. Si considerino gli eventi A1 , A2 , . . . , An con P(A1 ∩ A2 ∩ . . . ∩ An ) ̸= 0. Allora

0 < P(A1 ∩ . . . ∩ An ) ≤ P(A1 ∩ . . . ∩ An−1 ) ≤ . . . ≤ P(A1 )

Dimostrazione. Dal momento che

(A1 ∩ . . . ∩ An ) ⊂ (A1 ∩ . . . ∩ An−1 ) ⊂ . . . ⊂ (A1 ∩ A2 ) ⊂ A1 ,

la tesi segue applicando il Teorema della monotonicità.


25.15

4.1 Esercizi
Esercizio 12 (T 164, 16.09.1998, 9). In un’urna sono contenute 21 palline, ciascuna
recante impressa una lettera dell’alfabeto italiano.
Calcolare la probabilità che estraendo contemporaneamente 5 palline escano:
1. 5 consonanti;
2. le 5 lettere che compongono il sostantivo ombra;
(suggerimento: calcolare le seguenti probabilità: P(o1 ∩ m2 ∩ b3 ∩ r4 ∩ a5 ), P(a1 ∩
m2 ∩ b3 ∩ r4 ∩ o5 ); conteggiare poi il numero di sequenze che possono essere co-
struite con le lettere o, m, b, r, a, cfr. il paragrafo successivo ’le permutazioni’).
25.16

367
4.2 Le permutazioni
Esempio 13. Quante sequenze si possono costruire con le quattro lettere (elementi distin-
ti) r, o, m, a
r o m a
r o a m
r m o a
r m a o
r a o m
r a m o
o r m a
o r a m
o m r a
o m a r
o a r m
o a m r
m r o a
m r a o
m o r a
m o a r
m a r o
m a o r
a r o m
a r m o
a o r m
a o m r
a m r o
a m o r

4 3 2 1
In totale 24 sequenze, ottenibili mediante il prodotto

4 · 3 · 2 · 1 = 24
25.17

Definizione 14 (Permutazioni). Numero di sequenze che possono essere costruite con n


elementi distinti:
n · (n − 1) · . . . · 2 · 1
Definizione 15 (Fattoriale). Si definisce fattoriale di un numero n il prodotto dei numeri
da 1 a n
n! = n · (n − 1) · . . . · 2 · 1
Per definizione vale
0! = 1
25.18

Esempio 16 (Soluzione Esercizio 12). Abbiamo

P(o1 ∩ m2 ∩ b3 ∩ r4 ∩ a5 ) = P(o1 ) · P(m2 |o1 ) · P(b3 |o1 ∩ m2 ) · P(r4 |o1 ∩ m2 ∩ b3 )·


1 1 1 1 1
· P(a5 |o1 ∩ m2 ∩ b3 ∩ r4 ) = · · · · .
21 20 19 18 17
Si osserva come valga

P(a1 ∩ m2 ∩ b3 ∩ r4 ∩ o5 ) = P(o1 ∩ m2 ∩ b3 ∩ r4 ∩ a5 )

e come tale probabilità coincida con quella di qualsiasi sequenza che può essere costruita
con le lettere o, m, b, r, a.

368
Il numero di tali sequenze (permutazioni) è pari a 5! = 120, abbiamo quindi:
1 1 1 1 1
P(5 lettere o, m, b, r, a) = 5! · · · · · = n. sequenze · P(generica sequenza).
21 20 19 18 17
25.19

Esercizio 17 (T 164, 16.09.1998, 9). In un’urna sono contenute 21 palline, ciascuna


recante impressa una lettera dell’alfabeto italiano.
Calcolare la probabilità che estraendo contemporaneamente 5 palline escano:
3. le 5 lettere che compongono il sostantivo sasso.
4. 3 vocali e 2 consonanti;
(suggerimento: calcolare le seguenti probabilità: P(v1 ∩ v2 ∩ v3 ∩ c4 ∩ c5 ), P(c1 ∩
c2 ∩ v3 ∩ v4 ∩ v5 ); conteggiare poi il numero di sequenze che possono essere costrui-
te con 3 vocali e 2 consonanti, cfr. il paragrafo successivo ’le combinazioni’).
25.20

4.3 Le combinazioni
Esempio 18. Si considerino 5 elementi dei quali 3 di un tipo e 2 di un secondo tipo (ad
esempio 3 lettere f e 2 lettere g).
Quante sequenze si possono costruire con i 5 elementi?
Ipotizziamo in primo luogo che i 5 elementi siano distinti:

a, b, c, d, e

Il numero delle possibili sequenze è 5! = 5 · 4 · 3 · 2 · 1 = 120


abcde bacde cabde dabce eabcd
abced baced cabed dabec eabdc
abdce badce cadbe dacbe eacbd
abdec badec cadeb daceb eacdb
abecd baecd caebd daebc eadbc
abedc baedc caedb daecb eadcb
acbde bcade cbade dbace ebacd
acbed bcaed cbaed dbaec ebadc
acdbe bcdae cbdae dbcae ebcad
acdeb bcdea cbdea dbcea ebcda
acebd bcead cbead dbeac ebdac
acedb bceda cbeda dbeca ebdca
adbce bdace cdabe dcabe ecabd
adbec bdaec cdaeb dcaeb ecadb
adcbe bdcae cdbae dcbae ecbad
adceb bdcea cdbea dcbea ecbda
adebc bdeac cdeab dceab ecdab
adecb bdeca cdeba dceba ecdba
aebcd beacd ceabd deabc edabc
aebdc beadc ceadb deacb edacb
aecbd becad cebad debac edbac
aecdb becda cebda debca edbca
aedbc bedac cedab decab edcab
aedcb bedca cedba decba edcba
25.21
Si sostituisca alle lettere a, b, c la lettera f .

369
Tutte le sequenze che contengono la coppia (d, e) in posizione prefissata, ad esempio in
4a e 5a posizione divengono indistinguibili
abcde
bacde
cabde
→ f f f de
acbde
bcade
cbade

Il numero di sequenze distinte (per l’ordine) risulta allora ridotto a


120 5!
= = 20,
6 3!
essendo 3!, permutazione delle 3 lettere a, b, c, il numero di elementi ’indistinguibili’ con
d ed e in posizione prefissata e a, b, c sostituite con f
f f f de f f de f fd fef d f f fe d fef f
f f f ed f f ed f fefd f ef f fd efd f f
f fd fe fd f fe f de f f d f fef de f f f
f fefd fef fd f ed f f ef fd f ed f f f
25.22
Sostituendo, ora, alle lettere d, e la lettera g, il numero di sequenze distinte (per l’ordine)
risulta
5! 120
= = 10,
3! · 2! 6 · 2
dove 2!, permutazione delle lettere d, e, è il numero di elementi ’indistinguibili’ con a, b, c
(o f f f ) in posizione prefissata e d, e sostituite con g
f f f gg f f gg f fgfgf gf f fg gfgf f
f fgfg fgf fg f gg f f gf fgf gg f f f
25.23
In conclusione, disponendo di 5 elementi di cui 3 di un primo tipo e 2 di un secondo tipo,
è possibile costruire
5! 120
= = 10
3! · 2! 6 · 2
ordinamenti (sequenze) distinte.
Definizione 19 (Combinazioni). Il numero di sequenze che possono essere costruite con
n elementi dei quali k di un primo tipo e n − k di un secondo tipo

•| •{z
· · · •} ◦| ◦{z
· · · ◦}
k n−k

è pari a:
n!
.
k! · (n − k)!
25.24

4.4 Il coefficiente binomiale


Definizione 20 (Coefficiente binomiale).
 
n n!
= .
k k! · (n − k)!

370
Per il calcolo del coefficiente binomiale risulta utile la seguente proprietà
   
n n! n! n
= = =
k k! · (n − k)! (n − k)! · k! n−k

Inoltre
n(n − 1) · . . . · (n − k + 1)(n − k)!
 
n n!
= =
k k! · (n − k)! k! · (n − k)!
n(n − 1) · . . . · (n − k + 1)
=
k(k − 1) · . . . · 1
k fattori decrescenti a partire da n
= .
k fattori (i primi k interi)
25.25
80 70 70
Esempio 21. Si calcolino 78 , 3 , 66

80 · 79
   
80 80
= = = 3160;
78 2 2·1
70 · 69 · 68
 
70
= = 54740;
3 3·2·1
70 · 69 · 68 · 67
   
70 70
= = = 916895.
66 4 4·3·2·1
25.26
Esempio 22 (Soluzione Esercizio 17). Abbiamo

P(v1 ∩ v2 ∩ v3 ∩ c4 ∩ c5 ) = P(v1 ) · P(v2 |v1 ) · P(v3 |v1 ∩ v2 ) · P(c4 |v1 ∩ v2 ∩ v3 )·


5 4 3 16 15
· P(c5 |v1 ∩ v2 ∩ v3 ∩ c4 ) = · · · · .
21 20 19 18 17
Si osserva come valga

P(v1 ∩ v2 ∩ v3 ∩ c4 ∩ c5 ) = P(c1 ∩ c2 ∩ v3 ∩ v4 ∩ v5 )

e come tale probabilità coincida con quella di qualsiasi sequenza che può essere costruita
con 3 vocali e 2 consonanti (o, equivalentemente, con 2consonanti e 3 vocali). 
Il numero di tali sequenze (combinazioni) è pari a 53 = 10 (equivalente a 52 = 10),
abbiamo quindi:
 
5 5 4 3 16 15
P(3 vocali e 2 consonanti) = · · · · · = n. sequenze·P(generica sequenza).
3 21 20 19 18 17
25.27

Esercizio 23 (T 121, 26.06.1993, 5). Papà, mamma con i due figli vanno in gelateria e
si siedono a un tavolo quadrato a 4 posti; determinare la probabilità che i due figli siano
seduti uno di fronte all’altro, ritenendo equiprobabile ogni configurazione. ✍
25.28

Esercizio 24 (T 158, 24.01.1998, 5). Sia dato un gruppo di n = 12 individui.


1. Si valuti la probabilità che, dopo aver disposto gli stessi in fila, due persone si
trovino vicine.
2. Si valuti la probabilità che, dopo aver disposto gli stessi in fila, tre persone si trovino
vicine.
25.29

371
4.5 Combinazioni multiple e coefficiente multinomiale
Esempio 25. Si considerino 7 elementi dei quali 1 di un primo tipo, 3 di un secondo tipo,
2 di un terzo tipo e 1 di un quarto tipo (ad esempio ahhhllg). Quante sequenze si possono
costruire?
Ipotizziamo in primo luogo che i 7 elementi siano distinti:
a, b, c, d, e, f , g
Il numero delle possibili sequenze è 7! = 5040.
Si sostituisca alle lettere b, c, d la lettera h e alle lettere e, f la l
Molte sequenze divengono indistinguibili, ad esempio
abcde f g
abdce f g
acbde f g
acdbe f g
adbce f g
adcbe f g
→ ahhhllg
abcd f eg
abdc f eg
acbd f eg
acdb f eg
adbc f eg
adcb f eg
Il numero totale di sequenze distinte (per l’ordine) risulta
7!
= 420
1! · 3! · 2! · 1!
25.30

5 Legge delle probabilità totali


Si consideri una partizione di Ω costituita dagli eventi A1 , A2 , . . . , Ak

A1 A2 ... Ak

Sk
i=1 Ai = Ω, Ai ∩ A j = ∅ (∀i ̸= j) 25.31
Si consideri ora un generico insieme B

A1 A2 ... Ak

372
Siamo interessati a determinare P(B) supponendo di conoscere
• P(A1 ), P(A2 ), . . . , P(Ak )
• P(B|A1 ), P(B|A2 ), . . . , P(B|Ak ).
Si osserva, innanzitutto, che l’insieme B può essere espresso come:

B = Ω ∩ B = (A1 ∪ . . . ∪ Ak ) ∩ B = (A1 ∩ B) ∪ . . . ∪ (Ak ∩ B).

Pertanto
P(B) = P(A1 ∩ B) + . . . + P(Ak ∩ B)
che, in base agli elementi noti, può essere riformulata come

P(B) = P(A1 )P(B|A1 ) + . . . + P(Ak )P(B|Ak ).

25.32

Teorema 26 (Legge delle probabilità totali). Si considerino


• una partizione di Ω costituita dagli eventi A1 , A2 , . . . , Ak ,
• un insieme B.
Si supponga di conoscere
• P(A1 ), P(A2 ), . . . , P(Ak ),
• P(B|A1 ), P(B|A2 ), . . . , P(B|Ak ).
Allora
P(B) = P(A1 )P(B|A1 ) + . . . + P(Ak )P(B|Ak ).
25.33

5.1 Esercizi
Esercizio 27 (T 154, 28.06.1997, 5). Siano date due urne così composte:
• la prima contiene 18 palline bianche, 17 palline rosse e 5 palline verdi,
• la seconda contiene 10 palline bianche, 16 palline rosse e 24 palline verdi.
Si proceda allo svolgimento del seguente esperimento casuale: si lanci un dado regolare.
Se si ottiene un numero multiplo di 3 si estrae una pallina dalla prima urna contrariamente
si estrae una pallina dalla seconda urna.
Determinare la probabilità che la pallina estratta sia bianca.
25.34

Esercizio 28 (T 152, 22.02.1997, 4). Tre scatole contengono rispettivamente:


• due palline bianche e una nera;
• due palline nere e una bianca;
• tre palline bianche.
Estraendo in modo indipendente una pallina da ciascuna scatola, calcolare la probabilità
di estrarre due palline bianche e una nera.
25.35

373
6 Formula di Bayes
Teorema 29 (Formula di Bayes). Si considerino
• una partizione di Ω costituita dagli eventi A1 , A2 , . . . , Ak ,
• un insieme B.
Si supponga di conoscere
• P(A1 ), P(A2 ), . . . , P(Ak ),
• P(B|A1 ), P(B|A2 ), . . . , P(B|Ak ).
Allora
P(Ai )P(B|Ai )
P(Ai |B) = , i = 1, . . . , k.
P(A1 )P(B|A1 ) + . . . + P(Ak )P(B|Ak )
Dimostrazione.
P(Ai ∩ B) P(Ai )P(B|Ai )
P(Ai |B) = = k
P(B) ∑i=1 P(Ai )P(B|Ai )
ricordando la formula della probabilità composta e la legge delle probabilità totali.
25.36

Interpretazione della Formula di Bayes


Se si attribuisce agli eventi Ai il significato di possibili cause dell’effetto B, la formula di
Bayes consente di effettuare uno ’scambio’ tra le cause e l’effetto.
Infatti, note le probabilità, P(Ai ), di ciascuna causa e le probabilità dell’effetto data cia-
scuna causa P(B|Ai ), consente di determinare la probabilità P(Ai |B) della causa dato
l’effetto, vale a dire che essendosi verificato l’evento B sia stata la causa Ai a determinarlo.
25.37

Esempio 30. Si consideri un paziente che si presenta dal medico con un determinato
sintomo. Il medico sa che detto sintomo potrebbe essere causato da k patologie che si
suppongono mutuamente esclusive.
Sia B l’evento che rappresenta il sintomo e Ai l’evento che si identifica con la i-esima
patologia (i = 1, 2, . . . , k).
Il medico conosce (a priori) la probabilità P(B|Ai ) che si manifesti il sintomo B essendo
il paziente affetto dalla patologia Ai . È, però, interessato a determinare la probabilità

P(Ai |B)

che essendosi manifestato il sintomo B sia stata la patologia Ai a determinarlo.


A tal fine può utilizzare la formula di Bayes.
25.38

Utilizzazione
La formula di Bayes trova utilizzo nell’approccio soggettivo all’inferenza statistica, cosid-
detta Bayesiana, nella quale in aggiunta al risultato sperimentale B, si suppone di disporre
di una ’elicitazione’, come distribuzione di probabilità a priori, riguardo agli eventi Ai
oggetto di inferenza.
Esempio 31. Con riferimento all’Esempio 5 della Sezione 1, relativo alla determinazione
della quota di mercato di un’azienda, si utilizzano, in aggiunta all’informazione campio-
naria, anche altre valutazioni (soggettive), in forma di distribuzione di probabilità a priori,
relative ai possibili valori della quota di mercato oggetto di stima.
25.39

374
Esempio 32. Una linea di produzione è costituita da 3 macchinari, m1 , m2 , m3 , che contri-
buiscono rispettivamente al 20%, al 30% e al 50% della produzione. I 3 macchinari sono
caratterizzati dai seguenti tassi di difettosità: 5%, 4% e 2%.
• Si calcoli la probabilità che estratto a caso un pezzo dalla linea di produzione,
questo sia difettoso.
• Si calcoli la probabilità che avendo estratto un pezzo difettoso, questo provenga dal
macchinario m1 .

macchina m1 m2 m3
% produzione 20% 30% 50%
% difettosità 5% 4% 2%

D̄D̄DD̄D̄D̄D̄D̄D̄D̄D̄D̄D̄D̄D̄D̄D̄D̄D̄D̄D̄D̄D̄D̄D̄D̄D̄D̄DD̄D̄D̄D̄D̄D̄D̄D̄D̄D̄D̄D̄D̄D̄ ←
25.40
Indicando con Mi l’evento ’pezzo prodotto da mi ’ e con D l’evento ’pezzo difettoso’
abbiamo:
macchina m1 m2 m3
P(Mi ) 0.20 0.30 0.50
P(D|Mi ) 0.05 0.04 0.02
Siamo interessati a conoscere P(D) e P(M1 |D)
M1 M2 M3 Ω
ND
D

25.41
Abbiamo:

P(D) = P (Ω ∩ D) = P ((M1 ∪ M2 ∪ M3 ) ∩ D) =
= P ((M1 ∩ D) ∪ (M2 ∩ D) ∪ (M3 ∩ D)) =
= P(M1 ∩ D) + P(M2 ∩ D) + P(M3 ∩ D) =
= P(M1 )P(D|M1 ) + P(M2 )P(D|M2 ) + P(M3 )P(D|M3 ) =
= 0.20 · 0.05 + 0.30 · 0.04 + 0.50 · 0.02 =
= 0.01 + 0.012 + 0.01 = 0.032

e
P(M1 ∩ D) P(M1 )P(D|M1 ) 0.01
P(M1 |D) = = = = 0.3125.
P(D) P(D) 0.032
25.42

375
7 I grafi di probabilità
Sono delle strutture ’orientate’, denominate anche alberi di probabilità, costituite da nodi
e archi, mediante le quali è possibile rappresentare la struttura di casualità di un problema.
Ad esempio, con riferimento alla legge delle probabilità totali applicata agli eventi D e D̄
specificati nel precedente Esempio 32 abbiamo il grafo nella seguente figura. 25.43
D
P (M1 ∩ D) = 0.2 · 0.05 = 0.01 = P (M1 )P (D|M1 )
0.05

M1

0.95

0.2 P (M1 ∩ D̄) = 0.2 · 0.95 = 0.19 = P (M1 )P (D̄|M1 )

D
0.04 P (M2 ∩ D) = 0.3 · 0.04 = 0.012 = P (M2 )P (D|M2 )

0.3 M2

0.96

P (M2 ∩ D̄) = 0.3 · 0.96 = 0.288 = P (M2 )P (D̄|M2 )

D
0.5 P (M3 ∩ D) = 0.5 · 0.02 = 0.01 = P (M3 )P (D|M3 )
0.02

M3

0.98

P (M3 ∩ D̄) = 0.5 · 0.98 = 0.49 = P (M3 )P (D̄|M3 )

• Dal nodo iniziale partono 3 archi relativi alla possibile ’scelta’ del macchinario; la
somma delle probabilità a essa associate è pari a 1.
• Da ciascun nodo intermedio partono 2 archi relativi alla realizzazione del prodotto
effettuata mediante il macchinario Mi . Il prodotto può essere ’difettoso’ oppure
’non difettoso’ e la somma delle probabilità associate ai due eventi è sempre pari a
1.
• Effettuando il prodotto tra i valori delle probabilità presenti lungo i diversi archi che
portano dal nodo iniziale ai nodi terminali si ottengono le probabilità composte.
25.44

7.1 Esercizi
Esercizio 33 (T 214, 23.09.2004, 3). Un manager ha nel proprio ufficio tre linee telefo-
niche (A, B e C) che risultano libere con probabilità rispettivamente pari a 0.70, 0.20 e
0.40.
1. Scegliendo a caso una delle linee, si determini la probabilità che la linea scelta
risulti essere libera.
2. Ipotizzando che la linea scelta sia libera, qual è la probabilità che sia la linea C?
25.45

376
Sezione 26
Calcolo delle probabilità (3)
26.1

Indice
1 La variabile casuale 377

2 Esperimenti aleatori descritti da variabili casuali discrete 378

3 La variabile casuale di Bernoulli 381

4 La variabile casuale binomiale 382

5 La variabile casuale ipergeometrica 386

6 La variabile casuale uniforme discreta 390

7 Esercizi 390

8 La Funzione di Ripartizione 391

9 Altri esempi di variabili casuali 393 26.2

1 La variabile casuale
Denominata anche ’numero aleatorio’, la variabile casuale è il corrispondente stocastico
della serie statistica.
Al posto degli eventi elementari ωi ∈ Ω abbiamo valori numerici appartenenti a un insie-
me S detto supporto.
In genere S ⊂ ℜ e gli eventi di interesse sono, quindi, insiemi numerici del tipo

X = x0 X ≤ x0 a<X ≤b

e si parla di probabilità che X assuma determinati valori.


Analogamente al caso delle variabili statistiche, il simbolo X riassume, ora, valori e
probabilità.
Tipologie di variabili casuali
• discrete (Ω assume valori in un insieme finito o numerabile)
• continue (Ω corrisponde a un intervallo di valori reali)
26.3

Definizione 1 (Esperimento aleatorio). Un esperimento aleatorio è definito dalla terna


{Ω, S (Ω), P(·)}, dove

377
• Ω è lo spazio probabilistico,
• S (Ω) la corrispondente algebra degli eventi (elementari e non),
• P(·) è la misura di probabilità operante su S (Ω).
Definizione 2 (Variabile casuale). Dato un esperimento aleatorio, una trasformazione X :
Ω → ℜ dello spazio probabilistico Ω in ℜ è detta variabile casuale, X, se ogni elemento
B ∈ S (ℜ) ha controimmagine in S (Ω), dove S (ℜ) è una opportuna algebra su ℜ,
costruita, ad esempio, a partire dalla classe delle semirette.
Vale a dire:
PX (B) = P X −1 (B) , ∀B ∈ S (ℜ).
 
26.4

Osservazione
Con riferimento alla terna {ℜ, S (ℜ), PX (·)}, relativa a una variabile casuale continua, è
conveniente usare la legge di probabilità P(X ≤ x).
26.5

2 Esperimenti aleatori descritti da variabili casuali di-


screte
Esempio 3 (Guadagno di un giocatore). Si riprende l’esempio sul gioco della roulette,
visto nel contesto della definizione di gioco equo.
I risultati possibili sono i simboli 0, 00, 1, 2, 3, . . . , 36, a ciascuno dei quali è associata una
1
probabilità costante pari a 38 .
Indicato con A l’evento ’uscita del simbolo su cui è stata effettuata la scommessa’, lo
spazio degli eventi è
Ω = {A, Ā}
ed è, quindi, assegnata la probabilità a ogni elemento della algebra degli eventi

S (Ω) = {∅, A, Ā, A ∪ Ā ≡ Ω};

abbiamo
1 37
P(∅) = 0, P(A) = , P(Ā) = , P(Ω) = 1.
38 38
26.6

• In caso di uscita del simbolo su cui è stata effettuata una scommessa unitaria, evento
A, si ottiene una somma pari a 36 e il guadagno risulta, quindi, pari a 36 − 1 = 35.
• In caso di non uscita del simbolo su cui è stata effettuata la scommessa, evento Ā,
si perde la posta, vale a dire l’unità scommessa.
26.7
Si considera la variabile casuale X = ’guadagno del giocatore’

X :Ω→ℜ


Ā A

−1 35

378
La variabile casuale X ha come supporto S = {−1, 35}

xi P(X = xi )
−1 37/38
35 1/38
1 26.8
Per verificare che, effettivamente, X è una variabile casuale si osserva come i tre seguenti
generici elementi di S (ℜ)

B1 = 10 B2 = (34, 36] B3 = (−∞, 4]

corrispondenti ai tre esempi X = x0 , a < X ≤ b e X ≤ x0 di generici eventi di interesse in


ℜ, hanno come controimmagine in S (Ω)

X −1 (B1 ) = ∅ X −1 (B2 ) = {A ∪ ∅} X −1 (B3 ) = {Ā ∪ ∅};

le controimmagini sono caratterizzate dalle probabilità, definite su Ω,


1 37
P(∅) = 0

P(A ∪ ∅) = P(A) = P Ā ∪ ∅ = P(Ā) = .
38 38
Seguono in S (Ω) le misure di probabilità indotte, PX (Bi ), riportate nella seguente tabella

X −1 (Bi )
 −1 
Bi PX (B
i) = P X  (Bi )
10 ∅ PX (10)= P X −1 (10)  = P ({∅}) = 0 1
(34, 36] {A ∪ ∅} PX ((34, 36]) = P  X −1 ((34, 36])  = P ({A  ∪ ∅})  = P (A)= 38
−1 37
(−∞, 4] {Ā ∪ ∅} PX ((−∞, 4]) = P X ((−∞, 4]) = P Ā ∪ ∅ = P Ā = 38
26.9
Esempio 4. Esperimento di estrazione di 2 palline senza reimmissione da un’urna conte-
nente 10 palline bianche e 6 palline nere


10 9
ω1 = (B1 ∩ B2 ) P(ω1 ) = P(B1 ∩ B2 ) = P(B1 )P(B2 |B1 ) = = 0.375
16 15
10 6
ω2 = (B1 ∩ N2 ) P(ω2 ) = P(B1 ∩ N2 ) = P(B1 )P(N2 |B1 ) = = 0.250
16 15
6 10
ω3 = (N1 ∩ B2 ) P(ω3 ) = P(N1 ∩ B2 ) = P(N1 )P(B2 |N1 ) = = 0.250
16 15
6 5
ω4 = (N1 ∩ N2 ) P(ω4 ) = P(N1 ∩ N2 ) = P(N1 )P(N2 |N1 ) = = 0.125
16 15
26.10
L’algebra degli eventi S (Ω) risulta:
 

 ∅ 

ω1 , ω2 , ω3 , ω4

 

 
S (Ω) = (ω1 ∪ ω2 ), (ω1 ∪ ω3 ), (ω1 ∪ ω4 ), (ω2 ∪ ω3 ), (ω2 ∪ ω4 ), (ω3 ∪ ω4 )
(ω1 ∪ ω2 ∪ ω3 ), (ω1 ∪ ω2 ∪ ω4 ), (ω1 ∪ ω3 ∪ ω4 ), (ω2 ∪ ω3 ∪ ω4 )

 


 

(ω1 ∪ ω2 ∪ ω3 ∪ ω4 ) = Ω
 

Osservazione
Il numero di elementi che costituiscono S (Ω) è pari a 24 , essendo 4 la cardinalità di Ω
(numero di eventi elementari in Ω).

379
L’affermazione si dimostra ponendo a = b = 1 nella formula di Newton per la potenza di
un binomio
n  
n n−k k
(a + b)n = ∑ a b.
k=0 k
n
k è la numerosità dei gruppi formati con k elementi.
Nel caso in esame abbiamo
4 4 4 4 4
         
24 = + + + + = 1 + 4 + 6 + 4 + 1.
0 1 2 3 4

Gli addendi corrispondono alle numerosità in S (Ω) di: ∅, degli elementi singoli ωi , delle
unioni di coppie (ωi ∪ ω j ), di terne (ωi ∪ ω j ∪ ωk ) e della quaterna (ω1 ∪ ω2 ∪ ω3 ∪ ω4 ) =
Ω. 26.11

Osservazione
Mediante la funzione P(·) siamo in grado di assegnare la probabilità a ciascun elemento
di S (Ω).
Esercizio 5. Si costruisca la variabile casuale X = ’n◦ palline nere estratte’.
26.12
Variabile casuale X = ’n◦ palline nere estratte’
X :Ω→ℜ

(B1 ∩ B2 ) (B1 ∩ N2 ) (N1 ∩ B2 ) (N1 ∩ N2 )

<

0 1 2
supporto S = {0, 1, 2}

xi P(X = xi ) = pi
0 P(ω1 ) 0.375
1 P(ω2 ∪ ω3 ) = P(ω2 ) + P(ω3 ) 0.500
2 P(ω4 ) 0.125
1
26.13

Esempio 6. Si considera un’urna contenente elementi di due tipi, A e Ā, in frazione p e


1 − p.

p 1− p

A Ā
L’esperimento consiste nell’estrazione di una pallina dall’urna.
Abbiamo
P(A) = p P(Ā) = 1 − p
Infatti, nel caso fosse noto il numero totale di elementi nell’urna, diciamo N, si avrebbero:

380
• N p elementi del tipo A
• N − N p = N(1 − p) elementi del tipo Ā
che sarebbero tutti alla pari di fronte all’operazione di estrazione (eventi simmetrici),
quindi
Np N(1 − p)
P(A) = =p P(Ā) = = 1− p
N N
26.14

Esercizio 7. Si costruisca la variabile casuale X = ’n◦ elementi di tipo A’ ottenuti in una


estrazione dall’urna considerata nell’Esempio 6.
26.15

3 La variabile casuale di Bernoulli


Definizione 8 (Variabile casuale di Bernoulli). X = ’n◦ elementi di tipo A’ in una estra-
zione da un’urna contenente elementi di due tipi, A e Ā, in frazione p e 1 − p.
Supporto S = {0, 1}
xi P(X = xi ) = pi
0 1− p
1 p
1
26.16
Esempio 9 (Estrazioni bernoulliane). Esperimento di estrazione di 2 elementi con reim-
missione da un’urna contenente elementi di due tipi, A e Ā, in frazione p e 1 − p.
Le estrazioni in questo caso sono dette bernoulliane o prove indipendenti

(A1 ∩ A2 ) P(A1 ∩ A2 ) = P(A1 )P(A2 |A1 ) = P(A)P(A) = p2

(A1 ∩ Ā2 ) P(A1 ∩ Ā2 ) = P(A1 )P(Ā2 |A1 ) = P(A)P(Ā) = p(1 − p)

(Ā1 ∩ A2 ) P(Ā1 ∩ A2 ) = P(Ā1 )P(A2 |Ā1 ) = P(Ā)P(A) = (1 − p)p

(Ā1 ∩ Ā2 ) P(Ā1 ∩ Ā2 ) = P(Ā1 )P(Ā2 |Ā1 ) = P(Ā)P(Ā) = (1 − p)2

Si costruisca la variabile casuale X = ’n◦ elementi di tipo A estratti nelle 2 estrazioni con
reimmissione’ 26.17
Variabile casuale X = ’n◦ elementi di tipo A estratti nelle 2 estrazioni con reimmissione’
X :Ω→ℜ

(Ā1 ∩ Ā2 ) (Ā1 ∩ A2 ) (A1 ∩ Ā2 ) (A1 ∩ A2 )

<

0 1 2

381
supporto S = {0, 1, 2}

xi P(X = xi ) = pi
0 P(Ā1 ∩ Ā2 ) (1 − p)2
1 P(Ā1 ∩ A2 ) + P(A1 ∩ Ā2 ) (1 − p)p + p(1 − p)
2 P(A1 ∩ A2 ) p2
1
26.18

Osservazione
Nel caso fosse noto il numero totale di elementi nell’urna, diciamo N, si avrebbero:
• N p elementi del tipo A
• N − N p = N(1 − p) elementi del tipo Ā
Si potrebbe quindi anche considerare lo spazio probabilistico Ω costituito da N 2 coppie
simmetriche (dal momento che le estrazioni sono con reimmissione) del tipo (A1 ∩ A2 ),
(A1 ∩ Ā2 ), (Ā1 ∩ A2 ) e (Ā1 ∩ Ā2 )

Np·Np N p · N(1 − p) N(1 − p) · N p N(1 − p) · N(1 − p)

(A1 ∩ A2 ) (A1 ∩ Ā2 ) (Ā1 ∩ A2 ) (Ā1 ∩ Ā2 )

Np·Np N(1 − p) · N(1 − p)


P(A1 ∩ A2 ) = = p2 , P(Ā1 ∩ Ā2 ) = = (1 − p)2
N2 N2
N(1 − p) · N p N p · N(1 − p)
P(Ā1 ∩ A2 ) = = (1 − p)p, P(A1 ∩ Ā2 ) = = p(1 − p)
N2 N2
26.19
Osservazione
Cosa succede in presenza di n estrazioni?
Gli eventi elementari diventano delle n-ple e vengono definite le variabili casuali
• binomiale, nel caso le estrazioni siano con reimmissione, ovvero in presenza di
prove indipendenti
• ipergeometrica, nel caso di estrazioni senza reimmissione
26.20

4 La variabile casuale binomiale


Definizione 10 (Variabile casuale binomiale X ∼ Bin(n, p)). Si consideri l’esperimento
di estrazione di n elementi con reimmissione da un’urna contenente elementi di due tipi,
A e Ā, in frazione p e 1 − p.

p 1− p

A Ā

382
La variabile casuale X = ’n◦ elementi di tipo A estratti nelle n estrazioni con reimmissio-
ne’ si definisce variabile casuale binomiale con parametri n e p.
X ha distribuzione di probabilità
 
n x
P(X = x) = p (1 − p)n−x , (x = 0, 1, . . . , n).
x
26.21
Osservazione
L’esperimento potrebbe anche consistere nella ripetizione di n prove indipendenti, ciascu-
na delle quali può dare luogo a un successo, A, con probabilità p, ovvero a un insuccesso,
Ā, con probabilità 1 − p.

Osservazione
Per n = 1 si ottiene la variabile casuale di Bernoulli.

Osservazione
La variabile casuale binomiale può essere interpretata come somma di n variabili casuali
di Bernoulli indipendenti.
26.22

Osservazione
• se p = 0.5 allora X ∼ Bin(n, p) ha distribuzione di probabilità simmetrica
• se p → 0 oppure p → 1 la distribuzione è asimmetrica

Osservazione
La distribuzione di probabilità può presentare 1 moda oppure 2 mode contigue.
26.23
Esempio 11.

X ∼ Bin(n = 15, p = 0.1) X ∼ Bin(n = 15, p = 0.5)

x P(X = x) x P(X = x)
0 0.20589 0 3e − 05
1 0.34315 1 0.00046
2 0.2669 2 0.0032
3 0.12851 3 0.01389
4 0.04284 4 0.04166
5 0.01047 5 0.09164
6 0.00194 6 0.15274
7 0.00028 7 0.19638
8 3e − 05 8 0.19638
9 0 9 0.15274
10 0 10 0.09164
11 0 11 0.04166
12 0 12 0.01389
13 0 13 0.0032
14 0 14 0.00046
15 0 15 3e − 05
1 1
26.24

383
X ∼ Bin(n = 15, p = 0.75) X ∼ Bin(n = 15, p = 0.9)

x P(X = x) x P(X = x)
0 0 0 0
1 0 1 0
2 0 2 0
3 1e − 05 3 0
4 1e − 04 4 0
5 0.00068 5 0
6 0.0034 6 0
7 0.01311 7 3e − 05
8 0.03932 8 0.00028
9 0.09175 9 0.00194
10 0.16515 10 0.01047
11 0.2252 11 0.04284
12 0.2252 12 0.12851
13 0.15591 13 0.2669
14 0.06682 14 0.34315
15 0.01336 15 0.20589
1 1
26.25
0.4

0.4
0.3

0.3
n = 15, p = 0.1

n = 15, p = 0.5
0.2

0.2
0.1

0.1
0.0

0.0

0 2 4 6 8 10 12 14 0 2 4 6 8 10 12 14

x x
0.4

0.4
0.3

0.3
n = 15, p = 0.75

n = 15, p = 0.9
0.2

0.2
0.1

0.1
0.0

0.0

0 2 4 6 8 10 12 14 0 2 4 6 8 10 12 14

x x

26.26

Esempio 12. Calcolare la probabilità che esca 2 volte testa in 2 successivi lanci di una
moneta
Ti = {testa all’iesimo lancio} (i = 1, 2)

384
A = T1 ∩ T2
P(A) = P(T1 ∩ T2 ) = P(T1 ) · P(T2 |T1 ) = P(T1 ) · P(T2 ) = 0.52
(si poteva usare la binomiale con p = 0.5)
2
 
P(X = 2) = 0.52 (1 − 0.5)2−2 = 1 · 0.52 · 0.50
2
26.27
Osservazione
La distribuzione di probabilità della variabile casuale binomiale
 
n x
P(X = x) = p (1 − p)n−x , (x = 0, 1, . . . , n)
x
può essere ottenuta, avvalendosi della probabilità composta e della legge delle probabilità
totali, come prodotto tra  
n n!
= ,
x x! · (n − x)!
numero di sequenze (combinazioni) che possono essere ottenute con n elementi, x dei
quali sono del tipo A ed n − x del tipo Ā, e
 
P(A1 ∩ . . . ∩ Ax ∩ Āx+1 ∩ . . . ∩ Ān ) = P(A) · . . . · P(A) · P Ā · . . . · P Ā =
= p · . . . · p · (1 − p) · . . . · (1 − p) = px · (1 − p)n−x

probabilità che si verifichi una qualunque di queste sequenze (che risultano equiprobabili).
26.28
Con riferimento a un’urna contenente N elementi di due tipi, A e Ā, con numerosità M ed
N − M, si può pervenire alla distribuzione di probabilità della variabile casuale binomiale
anche applicando la formula classica di Laplace/Pascal, come rapporto tra il numero dei
casi favorevoli e il numero dei casi possibili. 26.29
Il numero dei casi possibili coincide con il numero delle ’sequenze di lunghezza n’ che
possono essere costruite estraendo ’con reimmisione’ n elementi dagli N presenti nel-
l’urna, le cosiddette ’combinazioni con ripetizione’ di N elementi di classe n, (due com-
binazioni si considerano distinte se differiscono per almeno un elemento, a prescindere
dall’ordine degli elementi)1
Nn N ·N ·...·N
= .
n! n · (n − 1) · . . . · 1
26.30
Il numero dei casi favorevoli coincide con il prodotto tra il numero delle ’sequenze di
lunghezza x’ che possono essere costruite con gli M elementi del tipo A presenti nell’urna
Mx M ·M ·...·M
= .
x! x · (x − 1) · . . . · 1
e il numero delle ’sequenze di lunghezza (n − x)’ che possono essere costruite con gli
(N − M) elementi del tipo Ā presenti nell’urna

(N − M)(n−x) (N − M) · (N − M) · . . . · (N − M)
= .
(n − x)! (n − x) · (n − x − 1) · . . . · 1
26.31
1 Al numeratore figura il numero delle cosiddette ’disposizioni con ripetizione’ di N elementi di classe n,
(due disposizioni sono distinte se differiscono per almeno un elemento, o per l’ordine degli elementi). Al fine di
ottenere il numero delle combinazioni occorre dividere per il numero delle permutazioni degli n elementi nella
sequenza (due sequenze che differiscono solo per l’ordine degli elementi rappresentano un’unica combinazione).

385
Abbiamo, infatti
M x (N−M)n−x x 
N − M n−x
   
x! (n−x)! n! M n x
Nn
= · = p (1 − p)n−x
n!
x! · (n − x)! N N x

avendo indicato con p = M


N la frazione di elementi del tipo A presenti nell’urna. 26.32

5 La variabile casuale ipergeometrica


Definizione 13 (Variabile casuale ipergeometrica). Si consideri l’esperimento di estra-
zione di n elementi senza reimmissione da un’urna contenente N elementi di due tipi, A e
Ā, con numerosità M ed N − M.

M N −M

A Ā
La variabile casuale X = ’n◦ elementi di tipo A estratti nelle n estrazioni senza reimmis-
sione’ si definisce variabile casuale ipergeometrica.
X ha distribuzione di probabilità
M  N−M 
x n−x
P(X = x) = N
.
n
26.33
Osservazione
Ricostruzione mnemonica della formula di calcolo
1◦ tipo 2◦ tipo

M N−M  urna 
x n−x campione

N urna 
n campione

tutti
26.34
Osservazione
La variabile casuale ipergeometrica trova applicazione nell’ambito della teoria dei cam-
pioni nel cosiddetto schema di campionamento in blocco.

Osservazione
◦ ◦
N = p = frazione iniziale elementi di 1 tipo = P(elemento di 1 tipo alla prima estrazione)
M

Osservazione
Nel caso il numero n di elementi estratti sia molto inferiore al numero N di elementi con-
tenuti nell’urna, la variabile casuale ipergeometrica può essere approssimata da una va-
riabile casuale binomiale. In tal caso, infatti, la composizione dell’urna rimane pressoché
inalterata al susseguirsi delle estrazioni.
Affinché si abbia una buona approssimazione in presenza di una frazione iniziale p di
elementi di 1◦ tipo prossima a 0 oppure a 1 è necessario che l’urna contenga un numero
N di elementi molto elevato. 26.35

386
Esempio 14.

n = 15, M = 2, N − M = 48 n = 15, M = 25, N − M = 25

x P(X = x) x P(X = x)
0 0.48571 0 0
1 0.42857 1 5e − 05
2 0.08571 2 0.00069
3 0 3 0.00531
4 0 4 0.02505
5 0 5 0.07716
6 0 6 0.16075
7 0 7 0.23099
8 0 8 0.23099
9 0 9 0.16075
10 0 10 0.07716
11 0 11 0.02505
12 0 12 0.00531
13 0 13 0.00069
14 0 14 5e − 05
15 0 15 0
1 1

Si osserva che non è possibile estrarre più di M elementi di primo tipo: se M = 2 abbiamo
P(X = x) = 0 per x ≥ 3.
26.36

n = 15, M = 30, N − M = 20 n = 15, M = 45, N − M = 5

x P(X = x) x P(X = x)
0 0 0 0
1 0 1 0
2 1e − 05 2 0
3 0.00023 3 0
4 0.00204 4 0
5 0.0117 5 0
6 0.04431 6 0
7 0.11394 7 0
8 0.20158 8 0
9 0.24637 9 0
10 0.20695 10 0.00142
11 0.11759 11 0.02255
12 0.04381 12 0.12778
13 0.01011 13 0.32435
14 0.00129 14 0.37069
15 7e − 05 15 0.15322
1 1
Si osserva che non è possibile estrarre più di N −M elementi di secondo tipo: se N −M = 5
abbiamo P(X = x) = 0 per x ≤ 9 essendo n = 15. 26.37

387
0.4

0.4
n = 15, M = 25, N−M = 25
n = 15, M = 2, N−M = 48

0.3

0.3
0.2

0.2
0.1

0.1
0.0

0.0
0 2 4 6 8 10 12 14 0 2 4 6 8 10 12 14

x x
0.4

0.4
n = 15, M = 30, N−M = 20

n = 15, M = 45, N−M = 5


0.3

0.3
0.2

0.2
0.1

0.1
0.0

0.0

0 2 4 6 8 10 12 14 0 2 4 6 8 10 12 14

x x

26.38

Esempio 15. Calcolare la probabilità che i primi 2 numeri estratti alla tombola siano
dispari
Di = {estrazione dispari}
A = D1 ∩ D2
45 44
P(A) = P(D1 ∩ D2 ) = P(D1 ) · P(D2 |D1 ) =
90 89

45 45
prima estrazione

D D̄

44 45
seconda estrazione

D D̄

(si poteva usare la ipergeometrica)


45 45
2 0
P(X = 2) = 90
2
26.39
Osservazione
La distribuzione di probabilità della variabile casuale ipergeometrica
M  N−M 
x n−x
P(X = x) = N
n

388
può essere ottenuta dalla formula della probabilità composta e dalla legge delle probabilità
totali considerando il prodotto tra
 
n n!
= ,
x x! · (n − x)!
numero di sequenze che possono essere ottenute con n elementi, x dei quali sono del tipo
A ed n − x del tipo Ā, e la probabilità che si verifichi una qualunque di queste sequenze
(che risultano equiprobabili)
M M−x+1 N −M N − M − (n − x) + 1
P(A1 ∩ . . . ∩ Ax ∩ Āx+1 ∩ . . . ∩ Ān ) = ·...· · ·...· .
N N −x+1 N −x N −n+1
Vale, infatti, l’eguaglianza
M  N−M 
M−x+1 N −M N − M − (n − x) + 1
 
n M x n−x
· ·...· · ·...· =
x N N −x+1 N −x N −n+1 N
n

come viene mostrato nella seguente relazione (1).


26.40
Con riferimento a un’urna contenente N elementi di due tipi, A e Ā, con numerosità M
ed N − M, si può pervenire alla distribuzione di probabilità della variabile casuale iper-
geometrica anche applicando la formula classica di Laplace/Pascal, come rapporto tra il
numero dei casi favorevoli e il numero dei casi possibili. 26.41
Il numero dei casi possibili coincide con il numero delle ’sequenze di lunghezza n’ che
possono essere costruite estraendo ’senza’ reimmissione n elementi dagli N presenti nel-
l’urna, le cosiddette ’combinazioni’ di N elementi di classe n, (due combinazioni si con-
siderano distinte se differiscono per almeno un elemento, a prescindere dall’ordine degli
elementi)2
N · (N − 1) · . . . · (N − n + 1)
 
N! N
= = .
n · (n − 1) · . . . · 1 n! · (N − n)! n
26.42
Il numero dei casi favorevoli coincide con il prodotto tra il numero delle ’sequenze di
lunghezza x’ che possono essere costruite con gli M elementi del tipo A presenti nell’urna
M · (M − 1) · . . . · (M − x + 1)
 
M! M
= =
x · (x − 1) · . . . · 1 x! · (M − x)! x
e il numero delle ’sequenze di lunghezza (n − x)’ che possono essere costruite con gli
(N − M) elementi del tipo Ā presenti nell’urna
(N − M) · (N − M − 1) · . . . · (N − M − (n − x) + 1) (N − M)! N −M
 
= = .
(n − x) · (n − x − 1) · . . . · 1 (n − x)! · (N − M − (n − x))! n−x
26.43
Segue che
M  N−M  M·(M−1)·...·(M−x+1) (N−M)·(N−M−1)·...·(N−M−(n−x)+1)
x n−x x·(x−1)·...·1 (n−x)·(n−x−1)·...·1
N
= N·(N−1)·...·(N−n+1)
=
n n·(n−1)·...·1
n! M M−x+1 N −M N − M − (n − x) + 1
= · ·...· · ·...· . (1)
x! · (n − x)! N N −x+1 N −x N −n+1
26.44
2 Alnumeratore figura il numero delle cosiddette ’disposizioni’ di N elementi di classe n, (due disposizioni
sono distinte se differiscono per almeno un elemento, o per l’ordine degli elementi). Al fine di ottenere il
numero delle combinazioni occorre dividere per il numero delle permutazioni degli n elementi nella sequenza
(due sequenze che differiscono solo per l’ordine degli elementi rappresentano un’unica combinazione).

389
6 La variabile casuale uniforme discreta
Definizione 16 (Variabile casuale uniforme discreta). Ha supporto S = {1, 2, . . . , n} con
probabilità costante
1
P(X = x) = (x = 1, . . . , n).
n
Ad esempio: n = 2 per una moneta equilibrata; n = 6 nel caso di un dado non truccato.
Osservazione
A volte si considera come supporto S = {0, 1, 2, . . . , n} e in tal caso la probabilità risulta

1
P(X = x) = , (x = 0, 1, . . . , n).
n+1
26.45
0.5

0.5
0.4

0.4
0.3

0.3
n=2

n=6
0.2

0.2
0.1

0.1
0.0

0.0

0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10

x x
0.5

0.5
0.4

0.4
0.3

0.3
n = 10
n=4

0.2

0.2
0.1

0.1
0.0

0.0

0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10

x x

26.46

7 Esercizi
Esercizio 17. Un’urna contiene 10 palline bianche e 40 palline rosse.
Si descriva la natura della variabile casuale ’numero di palline bianche ottenute nell’estra-
zione di 5 palline dall’urna’ e si calcoli la probabilità di ottenere almeno 2 palline bianche
(nell’estrazione di 5 palline dall’urna) nelle seguenti ipotesi:
1. l’estrazione delle palline è effettuata con reimmissione;
2. l’estrazione delle palline è effettuata senza reimmissione.
26.47

390
Esercizio 18 (T 168, 19.02.1999, 5). Un’urna contiene palline rosse e palline nere.
Il rapporto tra la probabilità di ottenere 2 palline nere in 4 estrazioni con reinserimento e
la probabilità di ottenere 2 palline nere in 3 estrazioni con reinserimento è pari a 0.9.
Individuare la percentuale di palline rosse contenute nell’urna.
26.48

Esercizio 19 (T 234, 07.06.2007, 4). Si consideri un dado regolare le cui 6 facce riportano
in eguale numero i segni: ’1’, ’X’ e ’2’.
Calcolare le probabilità che lanciando 11 volte il dado:
1. il segno ’X’ compaia al più una volta;
2. essendosi presentati solo segni numerici (’1’ oppure ’2’), questi siano solo dispari.
26.49

8 La Funzione di Ripartizione
Definizione 20 (Funzione di Ripartizione). Data una variabile casuale X si definisce
funzione di ripartizione la seguente funzione

F(x) = P(X ≤ x)

È uno strumento unico, legge di probabilità, per i casi discreto e continuo che consente di
attribuire una probabilità al generico intervallo {a < x ≤ b}, infatti

P(a < X ≤ b) = P(X ≤ b) − P(X ≤ a) = F(b) − F(a)

Si osserva come nel caso continuo gli insiemi probabilizzabili sono costituiti dagli insiemi
appartenenti a una cosiddetta σ -algebra costruita a partire dalle semirette. 26.50

Caso discreto
P(X = xi ) = pi > 0 ∑ pi = 1
i

F(x) = ∑ pi
xi ≤x

Caso continuo
Se la funzione di ripartizione è assolutamente continua, allora esiste una funzione

f (x) = densità di probabilità

tale che Z +∞
f (x) ≥ 0 f (x)dx = 1.
−∞
Vale Z x
dF(x)
F(x) = f (t)dt, f (x) = .
−∞ dx
26.51

391
F(x)

x x

Z x
F(x) = P(X ≤ x) = f (t)dt
−∞
26.52

a b

Z b
P(a < X ≤ b) = f (x)dx
a
ovvero
P(a < X ≤ b) = P(X ≤ b) − P(X ≤ a) = F(b) − F(a)
26.53

392
9 Altri esempi di variabili casuali
Variabile casuale di Poisson
La variabile casuale (discreta) di Poisson

λ x e−λ
P(X = x) = , x = 0, 1, 2, . . .
x!
è utilizzata, nei sistemi di gestione delle code, per descrivere il numero di persone che
sono in attesa a uno sportello.

0 1 2 3 4 5 6 7 8 9 10
E(X)=λ= 1.5

26.54

Variabile casuale uniforme


La variabile casuale (continua) uniforme
1
f (x) = , a≤x≤b
b−a
è caratterizzata da densità costante sul supporto [a, b].

1
b−a

a b

Un caso di particolare importanza con riferimento alla generazione di numeri pseudo-


casuali si ottiene ponendo a = 0 e b = 1.
26.55

393
Variabile casuale esponenziale negativa
La variabile casuale (continua) esponenziale negativa

f (t) = λ e−λt , t ≥0

descrive la distribuzione del tempo di attesa per la prima persona in coda.

time

26.56

Variabile casuale Gamma


La variabile casuale (continua) Gamma
1
f (t) = λ α xα−1 e−λt , t ≥ 0,
Γ(α)

dove Γ(·) è la funzione Gamma di Eulero, descrive la distribuzione del tempo di attesa
per la α-esima persona in coda.

α =3

α =2

time time

26.57

394
Sezione 27
Calcolo delle probabilità (4)
27.1

Indice
1 La variabile casuale Normale 395

2 Tavola variabile casuale Normale standardizzata 397


2.1 Utilizzo tavola . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 398
2.2 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 401

3 Media e varianza di variabile casuale 402


3.1 Trasformazioni lineari variabile casuale Normale . . . . . . . . . . . . . 403
3.2 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 405

4 Schema interpretativo della variabile casuale Normale 405

5 Approssimazione della variabile casuale binomiale con la Normale 405


5.1 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 407

6 Esercizi 408 27.2

1 La variabile casuale Normale


Definizione 1 (Variabile casuale Normale X ∼ N(µ, σ 2 )). Ha la seguente funzione di
densità (  )
1 x−µ 2

1
f (x) = √ exp −
2πσ 2 σ
con −∞ < µ < ∞ e σ > 0.
27.3
La densità di probabilità è simmetrica rispetto a µ

µ−σ µ µ+σ
x

27.4

395
Z b
P(a < X ≤ b) = F(b) − F(a) = f (x)dx
a

= −

a b a b a b
x x x

Valgono, in particolare, le seguenti relazioni

P(µ − σ ≤ X ≤ µ + σ ) = 0.6826
P(µ − 2σ ≤ X ≤ µ + 2σ ) = 0.9545
P(|X − µ| ≤ 3σ ) = 0.9973.

27.5
La funzione di ripartizione può essere ottenuta mediante il calcolo di un integrale molto
complesso Z x
F(x) = P(X ≤ x) = f (t)dt
−∞
però, tenendo conto che
   
X −µ x−µ x−µ
P(X ≤ x) = P(X − µ ≤ x − µ) = P ≤ =P Z≤
σ σ σ

che corrisponde al cambiamento di variabili che conduce alla variabile standardizzata


Z = X−µ
σ , abbiamo
  Z x−µ    
x−µ σ 1 1 2 x−µ
P(X ≤ x) = P Z ≤ = √ exp − z dz = Φ
σ −∞ 2π 2 σ

dove si è indicata con Φ(z) la funzione di ripartizione della variabile casuale Z ∼ N(µ =
0, σ 2 = 1) Normale standardizzata. 27.6
Pertanto se X ∼ N(µ, σ 2 )  
x−µ
F(x) = Φ
σ
inoltre    
b−µ a−µ
P(a < X ≤ b) = F(b) − F(a) = Φ −Φ
σ σ
basta quindi conoscere la funzione di ripartizione della N(0, 1).
Tale funzione di ripartizione è tabulata. 27.7

396
2 Tavola variabile casuale Normale standardizzata
0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.00 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.10 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.20 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.30 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.40 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.50 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.60 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.70 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.80 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.90 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
1.00 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.10 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.20 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.30 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.40 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.50 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.60 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.70 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.80 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.90 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2.00 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.10 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.20 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.30 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.40 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.50 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.60 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.70 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.80 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.90 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
3.00 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990
0.4

1.0
0.9
0.8
0.3

0.7
0.6
0.2

0.5
0.4
0.3
0.1

0.2
0.1
0.0

0.0

−3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3

x x

27.8

Osservazione
Valgono, inoltre, approssimativamente, le seguenti relazioni

P(Z ≤ z) ≃ 0 se z ≤ −3.10
P(Z ≤ z) ≃ 1 se z ≥ 3.10
P(Z ≥ z) ≃ 0 se z ≥ 3.10.
27.9

397
2.1 Utilizzo tavola
Lettura diretta (1)
Sia Z ∼ N(µ = 0, σ 2 = 1) si calcoli P(Z ≤ 1.24).
Tenendo conto che 1.24 = 1.20 + 0.04 possiamo leggere sulla tavola l’elemento corri-
spondente a 1.20 e 0.04.

0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.00 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.10 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.20 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.30 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.40 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.50 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.60 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.70 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.80 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.90 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
1.00 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.10 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.20 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.30 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.40 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.50 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.60 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.70 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.80 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.90 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2.00 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.10 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.20 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.30 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.40 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.50 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.60 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.70 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.80 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.90 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
3.00 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990
P(Z ≤ 1.24) = 0.8925.
27.10

Lettura diretta (2)


Sia X ∼ N(µ = 5, σ 2 = 9) si calcoli P(X ≤ 8.72).
Occorre passare alla variabile Normale standardizzata

 
X −µ 8.72 − µ
P(X ≤ 8.72) = P ≤ =
σ σ
 
8.72 − 5
=P Z≤ = P(Z ≤ 1.24) = 0.8925.
3
27.11

398
Lettura diretta (3)
Sia X ∼ N(µ = 5, σ 2 = 9) si calcoli P(X > 8.72).
Occorre passare alla variabile Normale standardizzata

 
X −µ 8.72 − µ
P(X > 8.72) = P > =
σ σ
 
8.72 − 5
=P Z> =
3
= P(Z > 1.24) = 1 − P(Z ≤ 1.24) =
= 1 − 0.8925 = 0.1075.

27.12

Lettura diretta (4)


Sia X ∼ N(µ = 5, σ 2 = 9) si calcoli P(X ≥ 1.28).
Occorre passare alla variabile Normale standardizzata

 
X −µ 1.28 − µ
P(X ≥ 1.28) = P ≥ =
σ σ
 
1.28 − 5
=P Z≥ = P(Z ≥ −1.24).
3

Ora, tenendo conto che la distribuzione della variabile casuale Normale è simmetrica
abbiamo (costruire il grafico della funzione di densità di probabilità)

P(Z ≥ −1.24) = P(Z ≤ 1.24) = 0.8925.

27.13

Lettura diretta (5)


Sia X ∼ N(µ = 5, σ 2 = 9) si calcoli P(X ≤ 1.28).
Occorre passare alla variabile Normale standardizzata

 
X −µ 1.28 − µ
P(X ≤ 1.28) = P ≤ =
σ σ
 
1.28 − 5
=P Z≤ = P(Z ≤ −1.24).
3

Ora, tenendo conto che la distribuzione della variabile casuale Normale è simmetrica
abbiamo (costruire il grafico della funzione di densità di probabilità)

P(Z ≤ −1.24) = P(Z ≥ 1.24)


= 1 − P(Z < 1.24) = 1 − P(Z ≤ 1.24) =
= 1 − 0.8925 = 0.1075.

In definitiva
Φ(−z) = 1 − Φ(+z).
27.14

399
Lettura indiretta (1)
Sia Z ∼ N(µ = 0, σ 2 = 1). Sapendo che P(Z ≤ z) = 0.8925 si ricavi z.
Dobbiamo ora cercare il valore 0.8925 all’interno della tavola.

0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.00 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.10 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.20 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.30 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.40 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.50 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.60 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.70 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.80 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.90 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
1.00 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.10 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.20 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.30 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.40 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.50 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.60 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.70 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.80 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.90 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2.00 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.10 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.20 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.30 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.40 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.50 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.60 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.70 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.80 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.90 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
3.00 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990

Il valore si ottiene in corrispondenza delle ’coordinate’ 1.20 (riga) e 0.04 (colonna),


quindi risulta z = 1.24. 27.15

Lettura indiretta (2)


Sia X ∼ N(µ = 5, σ 2 = 9). Sapendo che P(X ≤ x) = 0.8925 si ricavi x.
Occorre passare alla variabile Normale standardizzata
 
X −µ x−µ
P(X ≤ x) = P ≤ =
σ σ
 
x−5
=P Z≤ = P(Z ≤ z) = 0.8925.
3

All’interno della tavola della Normale standardizzata troviamo 0.8925 in corrispondenza


delle ’coordinate’ 1.20 (riga) e 0.04 (colonna), quindi z = 1.24;
x−5
= z = 1.24
3
x − 5 = 1.24 · 3
x = 5 + 1.24 · 3 = 8.72.
27.16

400
Lettura indiretta (3)
Sia X ∼ N(µ = 5, σ 2 = 9). Sapendo che P(X ≤ x0 ) = 0.1075 si ricavi x0 .
Occorre passare alla variabile Normale standardizzata
 
X −µ x0 − µ
P(X ≤ x0 ) = P ≤ =
σ σ
 
x0 − 5
=P Z≤ = P(Z ≤ z0 ) = 0.1075.
3
All’interno della tavola della Normale standardizzata non figura il valore 0.1075; inoltre
questo valore è minore di 0.5, pertanto z0 è sicuramente negativo. 27.17
Tenendo poi conto che la distribuzione della Normale è simmetrica vale

P(Z ≤ z0 ) = 0.1075 = P(Z ≥ z1 )

con z0 = −z1 . Dal momento che

P(Z ≤ z1 ) = 1 − 0.1075 = 0.8925

abbiamo z1 = 1.24 e z0 = −1.24. Otteniamo, infine


x0 − 5
= z0 = −1.24
3
x0 − 5 = −1.24 · 3 27.18

x0 = 5 − 1.24 · 3 = 1.28.
2.2 Esercizi
Esercizio 2 (T 233, 08.02.2007, 4). Si supponga che X sia distribuita come una variabile
casuale Normale con media µ = 10 e varianza σ 2 incognita.
Sapendo che P(X > 21) = 0.025 si determini il valore di σ 2 .
27.19

Esercizio 3 (T 219, 30.06.2005, 5). Una macchina produce pezzi meccanici la cui lun-
ghezza X si distribuisce normalmente, con media pari a 10 cm e varianza pari a 2.
Un pezzo è ritenuto difettoso se risulta più lungo di un certo valore ritenuto accettabile.
Sapendo che i difettosi sono il 5%:
1. indicare il valore x0 al di sopra del quale si ritiene che un pezzo sia difettoso;
2. calcolare la probabilità che, estratti a caso 10 pezzi, uno sia difettoso.
27.20

Quadro riassuntivo
Abbiamo visto le seguenti variabili casuali
• caso discreto
– uniforme discreta
– binomiale
– ipergeometrica
– Poisson
• caso continuo
– Normale o gaussiana
– uniforme
– esponenziale negativa
– gamma

401
Si ricordi che al simbolo X corrispondono:
• nel caso discreto
valori xi e probabilità pi (distribuzione)
• nel caso continuo
supporto S e densità f (x) (x ∈ S)
27.21

3 Media e varianza di variabile casuale


• caso discreto

M(X) = ∑ xi pi = µ
i
Var(X) = ∑(xi − µ)2 pi = σ 2
i

• caso continuo
Z +∞
M(X) = x f (x)dx = µ
−∞
Z +∞
Var(X) = (x − µ)2 f (x)dx = σ 2
−∞
27.22
X parametri M(X) Var(X)

n+1 n2 −1
uniforme discreta n 2 12

binomiale n, p np np(1 − p)

M
ipergeometrica n, p = N np np(1 − p) N−n
N−1

Poisson λ λ λ

Normale µ, σ 2 µ σ2

a+b (b−a)2
uniforme a, b 2 12

1 1
esponenziale negativa λ λ λ2

α α
gamma α, λ λ λ2

27.23

402
3.1 Trasformazioni lineari variabile casuale Normale
X ∼ N(µ = 3, σ 2 = 4)

0.4
0.3
0.2
0.1
0.0
−6 −5 −4 −3 −2 −1 0 1 2 3 4 5 6 7 8 9 10

27.24
Y = X + 2, Y ∼ N(µ = 5, σ 2 = 4)
0.4
0.3
0.2
0.1
0.0

−6 −5 −4 −3 −2 −1 0 1 2 3 4 5 6 7 8 9 10

27.25
W = X − 1, W ∼ N(µ = 2, σ 2 = 4)
0.4
0.3
0.2
0.1
0.0

−6 −5 −4 −3 −2 −1 0 1 2 3 4 5 6 7 8 9 10

27.26
X ∼ N(µ = 3, σ 2 = 4), Y ∼ N(µ = 5, σ 2 = 4) e W ∼ N(µ = 2, σ 2 = 4)
0.4
0.3
0.2
0.1
0.0

−6 −5 −4 −3 −2 −1 0 1 2 3 4 5 6 7 8 9 10

403
27.27
X ∼ N(µ = 3, σ 2 = 4)

0.4
0.3
0.2
0.1
0.0
−6 −5 −4 −3 −2 −1 0 1 2 3 4 5 6 7 8 9 10

27.28
Y = 32 X, Y ∼ N(µ = 3, σ 2 = 9)
0.4
0.3
0.2
0.1
0.0

−6 −5 −4 −3 −2 −1 0 1 2 3 4 5 6 7 8 9 10

27.29
W = 12 X, W ∼ N(µ = 3, σ 2 = 1)
0.4
0.3
0.2
0.1
0.0

−6 −5 −4 −3 −2 −1 0 1 2 3 4 5 6 7 8 9 10

27.30
X ∼ N(µ = 3, σ 2 = 4), Y ∼ N(µ = 3, σ 2 = 9) e W ∼ N(µ = 3, σ 2 = 1)
0.4
0.3
0.2
0.1
0.0

−6 −5 −4 −3 −2 −1 0 1 2 3 4 5 6 7 8 9 10

27.31

404
3.2 Esercizi
Esercizio 4 (T 156, 13.09.1997, 5). Sia X una variabile casuale Binomiale; sapendo che
il suo valore atteso e la varianza assumono valori rispettivamente uguali a 2 e 1.2:
1. individuare n (numero di prove indipendenti) e p (probabilità del singolo successo);
2. calcolare la probabilità che X assuma valori maggiori o uguali a 4.
27.32

Esercizio 5 (T 216, 04.02.2005, 6). Si consideri l’esperimento di estrazione, con ripe-


tizione, di n palline da un’urna contenente palline rosse e bianche in proporzione p e
(1 − p).
Sia X la v.c. n◦ di palline rosse estratte e Y n◦ di bianche.
1. Sapendo che M(X) = 3 e M(Y ) = 1, determinare n e calcolare P(X > 2).
2. Nel caso di 100 estrazioni con reimmissione dalla stessa urna, calcolare P(X > 70).
27.33

4 Schema interpretativo della variabile casuale Norma-


le
Il seguente risultato fornisce una giustificazione al fatto che molti fenomeni in natura si
manifestano con una distribuzione di probabilità che segue la legge Normale. 27.34

Teorema 6 (del limite centrale). Sia


Xn = µ + E1 + E2 + . . . + En
con
• {Ei } = successione di v.c. indipendenti
• M(Ei ) = 0 (tipico della variabilità accidentale)
• Var(Ei ) = σi2 (finita)
Sotto ulteriori condizioni sui momenti terzi, posto
Xn − µ
Zn = q
σ12 + . . . + σn2

vale Z w  
1 1 2
lim P(Zn ≤ w) = √ exp − z dz = Φ(w).
n→∞ −∞ 2π 2
La somma di v.c. indipendenti converge a una variabile casuale Normale.
27.35
Si pensi, ad esempio, a un fenomeno aleatorio le cui manifestazioni sono caratterizzate da
• livello deterministico µ
• svariate perturbazioni accidentali indipendenti che agiscono in maniera additiva 27.36

5 Approssimazione della variabile casuale binomiale


con la Normale
Teorema 7 (Approssimazione della variabile casuale binomiale con la Normale). Essen-
do la variabile casuale Bin(n, p) somma di v.c. Bin(1, p) indipendenti, allora
   
n i n−i ∼ x + 0.5 − np
P(X ≤ x) = ∑ pq =Φ √ , per n → ∞
i≤x i npq

dove

405
• q = 1− p
• Φ(·) = funzione di ripartizione di Z ∼ N(0, 1) Normale standardizzata.
La variabile casuale X ∼ Bin(n, p) è, quindi, approssimata da una Normale con media
µ = np e varianza σ 2 = np(1 − p).
27.37

Osservazione
Si ha una buona approssimazione se valgono le seguenti condizioni:

np > 5
n(1 − p) > 5
ovvero 
 p>0
p<1
n≫1

Osservazione
La presenza dello 0.5 nella formula, cosiddetta correzione per continuità, consente di
migliorare l’approssimazione quando n non è troppo elevato oppure p molto piccolo o
molto grande (poco utilizzata nelle applicazioni pratiche).
27.38
1.0

1.0
0.8

0.8
n = 10, p = 0.5

n = 40, p = 0.5
0.6

0.6
0.4

0.4
0.2

0.2
0.0

0.0

0 2 4 6 8 10 0 10 20 30 40

x x
1.0

1.0
0.8

0.8
n = 100, p = 0.5
n = 20, p = 0.5

0.6

0.6
0.4

0.4
0.2

0.2
0.0

0.0

0 5 10 15 20 0 20 40 60 80 100

x x

27.39

406
1.0

1.0
0.8

0.8
n = 10, p = 0.25

n = 40, p = 0.25
0.6

0.6
0.4

0.4
0.2

0.2
0.0

0.0
0 2 4 6 8 10 0 10 20 30 40

x x
1.0

1.0
0.8

0.8
n = 100, p = 0.25
n = 20, p = 0.25

0.6

0.6
0.4

0.4
0.2

0.2
0.0

0.0

0 5 10 15 20 0 20 40 60 80 100

x x

27.40

5.1 Esercizi
Esercizio 8 (T 212, 15.07.2004, 3). Si supponga di effettuare 5 estrazioni con reimmis-
sione da un’urna che contiene palline bianche e rosse in proporzione p e 1 − p.
Indicata con X la variabile casuale: n◦ di palline bianche estratte nelle 5 prove,
1. si descriva la natura della variabile casuale X, indicando valori e distribuzione di
probabilità;
2. sapendo che P(X ≤ 4) = 0.99968 si determini il valore di p e si calcolino media e
varianza di X;
3. con riferimento alla medesima urna si supponga di effettuare n = 100 estrazioni con
reimmissione; si descriva la natura della variabile casuale Y : n◦ di palline bianche
estratte nelle 100 prove e si calcoli la probabilità di ottenere almeno 10 palline
bianche.
27.41

Esercizio 9 (T 207, 15.01.2004, 5). Due dadi vengono truccati in modo che non si
presentino mai la faccia 2 del primo e la 4 del secondo.
1. Calcolare la probabilità che su 5 lanci l’evento A = ’somma dei valori ≥ 9’ si
presenti almeno 2 volte.
2. Calcolare la probabilità che su 100 lanci l’evento A si presenti almeno 30 volte.
27.42

407
Esercizio 10 (T 245, 04.09.2008, 4). Si faccia riferimento a una slot-machine dotata di 3
finestrelle, all’interno delle quali si possono presentare, a ogni lancio, i numeri da 0 a 9,
in maniera casuale e indipendente.
1. Calcolare la probabilità che si presentino 3 numeri uguali.
2. Calcolare la probabilità che escano tutti pari.
3. Eseguendo 101 lanci, calcolare la probabilità che almeno 20 presentino tutti numeri
pari. ✍
27.43

6 Esercizi
Esercizio 11 (T 239, 10.01.2008, 6). Uno studente deve superare un esame con 10 do-
mande a risposta multipla, di uguale difficoltà, per le quali gli eventi ’fornire risposta
esatta’ sono indipendenti e hanno probabilità pari a p.
1. Sapendo che la probabilità di rispondere correttamente a tutte le 10 domande è
0.001, si ricavi il valore di p.
2. Se l’esame contenesse 100 domande, quale sarebbe la probabilità di rispondere
correttamente a non più di 51 domande? ✍
27.44

Esercizio 12 (T 240, 31.01.2008, 5). Un gioco a premi viene organizzato nel seguente
modo: il concorrente lancia 2 dadi e se il prodotto dei numeri presenti sulle due facce è
superiore a 10 vince un premio.
1. Calcolare la probabilità che su 3 lanci un concorrente vinca 1 premio.
2. Calcolare la probabilità che su 3 lanci vinca il premio solo al 3◦ tentativo.
3. Calcolare la probabilità che su 99 lanci vinca almeno 42 volte. ✍
27.45

Esercizio 13 (T 241, 14.02.2008, 5). In una lotteria si vince il premio a (evento A) con
probabilità pari a 0.13 e il premio b (evento B) con probabilità pari a 0.15. Sapendo che
la probabilità complessiva di vincere o uno o l’altro dei due premi è 0.20:
1. si rappresentino in un diagramma di Venn gli eventi sopra indicati;
2. si calcoli la probabilità di vincere entrambi i premi;
3. si dica giustificando la risposta se gli eventi A e B sono indipendenti. ✍
27.46

Esercizio 14 (T 242, 05.06.2008, 4). Siano A, B e C tre eventi caratterizzati da probabilità


P(A) = 0.2, P(B) = 0.5, P(C) = 0.8, P(A|B) = 0.2 e P(A|C) = 0.
Si dica, giustificando la risposta se:
1. A e B sono indipendenti;
2. A e C sono indipendenti;
3. si rappresentino in un diagramma di Venn gli eventi A, B, C e si calcoli P(A ∪ B).

27.47

Esercizio 15 (T 243, 19.06.2008, 3). Da un’urna, che contiene 10 palline nere e 6 rosse
e 14 blu, si estraggono 3 palline.
1. Si calcoli la probabilità che 2 delle palline estratte siano nere nell’ipotesi di estra-
zione senza reimmissione.
2. Si calcoli la probabilità che 2 delle palline estratte siano nere nell’ipotesi di estra-
zione con reimmissione.
3. Si calcoli la probabilità di ottenere 3 palline dello stesso colore nell’ipotesi di
estrazione con reimmissione.

408
4. Effettuando 90 estrazioni con reimmissione si calcoli la probabilità di ottenere
almeno 32 palline nere. ✍
27.48

Esercizio 16 (T 244, 03.07.2008, 5). A un’uscita autostradale ci sono 3 caselli, il primo


con pagamento con contanti, il secondo con pagamento con carta, il terzo con pagamento
Telepass. Le probabilità di chiudere le 3 procedure di pagamento in meno di 25 secondi
sono rispettivamente 0.2, 0.5 e 0.8. Sappiamo che il 51% degli automobilisti paga in
contanti, il 20% con carta e il restante con Telepass.
1. Calcolare la probabilità di eseguire la procedura in meno di 25 secondi.
2. Sapendo che un automobilista ha impiegato più di 25 secondi, calcolare la probabi-
lità che abbia utilizzato la carta. ✍
27.49

Esercizio 17 (T 246, 18.09.2008, 5). Siano A e B due eventi disgiunti, tali che P(A) =
0.15 e P(B) = 0.4. Indicando con C = A ∪ B, calcolare:
1. P(C);
2. P(A|C).
3. Dire perché A e C non sono indipendenti. ✍
27.50

Esercizio 18 (T 247, 09.01.2009, 3). Siano A, B e C tre eventi caratterizzati da: P(A) =
0.5, P(B) = 0.22, P(C) = 0.5, P(A|B) = 1, P(A|C) = 0.
1. Si rappresentino in un diagramma di Venn gli eventi A, B, C e si indichi se (giusti-
ficando la risposta) A, B e C costituiscono una partizione dello spazio campionario
Ω.
2. Si calcoli la probabilità di ottenere 2 successi in 10 prove indipendenti essendo 0.22
la probabilità di successo nella singola prova.
3. Si calcoli la probabilità di ottenere almeno 21 successi in 100 prove indipendenti
essendo 0.22 la probabilità di successo nella singola prova. ✍
27.51

Esercizio 19 (T 248, 29.01.2009, 5). Si considerino due urne, indicate con U1 e U2 .


L’urna U1 contiene 14 palline rosse e 6 palline blu; l’urna U2 contiene 48 palline rosse e
12 palline blu. Si estraggono 3 palline da ciascuna urna.
1. Nell’ipotesi di estrazioni senza reimmissione si calcoli la probabilità che le 3 palline
estratte dall’urna U1 siano blu e le altre di colore qualsiasi.
2. Nell’ipotesi di estrazioni con reimmissione si calcoli la probabilità che 2 delle 6
palline estratte siano blu. ✍
27.52

Esercizio 20 (T 249, 12.02.2009, 4). Due dadi vengono truccati in modo che non si
presentino mai le facce 1 e 2 del primo e la 4 del secondo.
1. Si calcoli la probabilità dell’evento A = ’somma dei valori ≥ 10’.
2. Si calcoli la probabilità che su 11 lanci l’evento A si presenti almeno 2 volte.
3. Si calcoli la probabilità che su 103 lanci l’evento A si presenti almeno 30 volte. ✍
27.53

Esercizio 21 (T 250, 04.06.2009, 5). Un gioco consiste nel lanciare una moneta e un
dado; il giocatore vince se ottiene testa (evento T ) e un punteggio del dado maggiore di 4
(evento D).
1. Si calcoli P(D|T ).
2. Si calcoli la probabilità di vincita.
3. Si calcoli la probabilità che su 120 tentativi un giocatore vinca almeno 22 volte. ✍
27.54

409
Esercizio 22 (T 251, 18.06.2009, 4). Date due differenti urne, U1 e U2 , contenenti palline
numerate da 1 a 5, un esperimento casuale consiste nell’estrarre una pallina da ciascuna
urna. Sapendo che nell’urna U1 vi è una pallina per ogni numero e che la composizione
dell’urna U2 è la seguente: U2 = (1, 1, 2, 3, 3, 3, 4, 5, 5, 5)
1. Si costruisca la distribuzione di probabilità delle variabili X = ’risultato estrazione
urna U1 ’ e Y = ’risultato estrazione urna U2 ’.
2. Si calcoli la probabilità che la somma dei punteggi delle 2 palline estratte sia pari a
3.
3. Indicati con D1 e D2 gli eventi ’estrazione di un numero dispari’ rispettivamente da
U1 e U2 , si calcolino P(D1 ), P(D2 |D1 ) e P(D1 ∩ D2 ).
4. Considerando ora solo l’urna U2 , si calcoli la probabilità che, estraendo 100 palline
con reinserimento, almeno 21 siano col numero 3. ✍
27.55

Esercizio 23 (T 252, 02.07.2009, 3). Il titolare di un’azienda conduce un’indagine sui


suoi 100 dipendenti. Indicati con F l’evento ’il soggetto è fumatore’ e con S l’evento ’il
soggetto consuma abitualmente snack’, si ha la seguente tabella a doppia entrata:
F F̄
S 26 40
S̄ 25 9
1. Si calcoli la probabilità che, estraendo a caso un dipendente, questo: A) sia un
fumatore; B) non fumi e non consumi abitualmente snack; C) fumi sapendo che
non consuma abitualmente snack.
2. Calcolare infine la probabilità che, considerati i 10 dipendenti più anziani, ci siano
5 fumatori e 5 no. ✍
27.56

Esercizio 24 (T 253, 03.09.2009, 3). Un test è costituito da 56 domande le cui 3 possibili


risposte sono codificate con A, B e C. Se la risposta è corretta il punteggio assegnato e +1
mentre se la risposta è errata il punteggio è −0.25; se invece la risposta non viene data il
punteggio è 0. Per superare il test bisogna raggiungere il punteggio minimo di 10.
1. Dire, motivando la risposta, se risulta più conveniente tentare tutte le risposte a caso
o non rispondere alle domande.
2. Supponendo ora di aver deciso di rispondere a caso a tutte le 56 domande:
• si calcoli la probabilità di rispondere correttamente ad almeno 20 domande.
• si calcoli la probabilità di rispondere correttamente ad almeno 2 domande tra
le prime 6. ✍
27.57

Esercizio 25 (T 254, 17.09.2009, 4). Esaminando i risultati raccolti attraverso un’analisi


condotta sui lavoratori di una impresa milanese emerge che abitualmente il 36% degli
intervistati utilizza l’auto, il 24% utilizza il treno, il 10% la metropolitana e il restante
autobus o tram. Calcolare le seguenti probabilità:
1. scegliendo a caso un intervistato, che questo usi l’auto;
2. scegliendo a caso quattro diversi intervistati, che due utilizzino il treno;
3. scegliendo a caso tre diversi intervistati, che almeno uno si rechi al lavoro con
autobus o tram. ✍
27.58

Esercizio 26 (T 255, 14.01.2010, 4). È stata studiata la distribuzione teorica del tempo,
in minuti, necessario per la visita di una mostra.
Si assume che i tempi dei visitatori seguono una distribuzione Normale, X, con media 21
e varianza 2.
Si calcoli, nell’ipotesi che i visitatori si comportino in maniera indipendente, la probabilità
che:

410
1. la durata della visita del generico visitatore sia superiore a 20 minuti;
2. su 3 visitatori la durata della visita di almeno 2 sia superiore a 20 minuti. ✍
27.59

Esercizio 27 (T 256, 28.01.2010, 4). Il titolare di un ristorante ha condotto un’indagine


su 50 clienti osservando che 29 di essi amano i dolci mentre 11 sono vegetariani. Sapendo
che tra i vegetariani, 8 amano i dolci:
1. si rappresenti l’insieme degli intervistati attraverso un diagramma di Venn.
2. Si calcoli la probabilità che un cliente non sia vegetariano.
3. Si calcoli la probabilità che un cliente sia vegetariano oppure non ami i dolci.
4. Si calcoli la probabilità che un cliente sia vegetariano, sapendo che lo stesso non
ama i dolci.
5. Supponendo di estrarre a caso 3 diversi clienti, si calcoli la probabilità che solo uno
di essi sia vegetariano. ✍
27.60

Esercizio 28 (T 257, 11.02.2010, 6). Una classe è composta da 11 femmine e 16 maschi,


dei quali il 50% ha i capelli neri.
1. Calcolare la probabilità che, interrogando a caso 3 differenti alunni, questi siano
maschi con i capelli neri.
2. Calcolare la probabilità che, nel caso sia stato estratto un maschio, questo abbia i
capelli neri.
3. Calcolare la probabilità che, estraendo ogni giorno uno studente a caso dall’e-
lenco completo degli iscritti alla classe, solo al 5◦ giorno venga interrogata una
studentessa. ✍
27.61

Esercizio 29 (T 258-1, 03.06.2010, 5). È stata studiata la distribuzione teorica del tempo,
in minuti, necessario per la visita di una mostra.
Si assume che i tempi dei visitatori seguano la seguente variabile casuale W .

wi−1 ⊣ wi P(wi−1 < W ≤ wi )


5 ⊣ 10 0.43
10 ⊣ 15 0.31
15 ⊣ 20 0.16
20 ⊣ 25 0.09
25 ⊣ 30 0.01

1. Si calcoli il valore atteso di W ;


Si calcoli, nell’ipotesi che i visitatori si comportino in maniera indipendente, la probabilità
che:
1. la durata della visita del generico visitatore sia superiore a 20 minuti;
2. su 3 visitatori, la durata della visita di 2 sia superiore a 20 minuti e di uno sia
inferiore a 15 minuti. ✍
27.62

Esercizio 30 (T 258-2, 01.07.2010, 3). In un gioco a premi i concorrenti devono effet-


tuare delle estrazioni, senza re-immissione, da un’urna contenente 13 gettoni ROSSI e
17 BIANCHI. Se la prima estrazione è ROSSA il concorrente ha diritto a una ulteriore
estrazione; se invece la prima è BIANCA esso ha diritto a 2 ulteriori estrazioni. Si vince
se, al termine della procedura, sono stati estratti 2 gettoni ROSSI.
1. Si calcoli la probabilità di vincere.
2. Nell’ipotesi che il giocatore G1 estragga il primo gettone ROSSO e il giocatore G2
BIANCO, si determini chi dei due ha più probabilità di vincere.

411
3. Considerando ora l’estrazione con re-immissione di n = 90 gettoni, si calcoli la
probabilità di ottenere non più di 34 gettoni ROSSI. ✍
27.63

Esercizio 31 (T 258-3, 15.07.2010, 4). Dall’elenco degli 80 visitatori (30 esperti e 50


occasionali) si estraggano 5 nominativi senza reimmissione.
Si calcoli la probabilità che:
1. tra i 5 nominativi estratti ve ne siano solo 2 esperti;
2. tra i 5 nominativi estratti ve ne sia almeno 1 esperto;
3. supponendo di estrarre 100 nominativi con reimmissione, vi siano almeno 36 esper-
ti. ✍
27.64

Esercizio 32 (T 259, 02.09.2010, 4). Una societa che gestisce campi da golf effettua
un’indagine sui suoi 300 dipendenti, di cui 170 sono maschi.
È emerso che 84 donne non giocano a golf, e che il 70% degli uomini gioca a golf. Si
calcoli:
1. la probabilità che scegliendo a caso un dipendente questo sia giocatore di golf;
2. la probabilità che sia maschio e giocatore di golf;
3. la probabilità che estraendone in blocco 10, la metà di questi siano femmine gioca-
trici di golf. ✍
27.65

Esercizio 33 (T 260, 16.09.2010, 4). Sapendo che P(A) = 0.6, P(A − B) = 0.33, P(A ∩
C) = 0.2, P(B ∩C) = 0:
1. calcolare P(A ∩ B), P(C|A) e P(A −C);
2. dire se B e C possono ritenersi stocasticamente indipendenti;
3. calcolare la probabilità di ottenere meno di 20 successi in 51 lanci indipendenti,
sapendo che la probabilità di successo è p = 0.333. ✍
27.66

Esercizio 34 (T 261, 13.01.2011, 4). L’ufficio controllo qualità di una data azienda rileva
che la probabilità che un pezzo prodotto su una determinata linea sia difettoso è pari a
0.1875. Si indichi con X la variabile casuale ’numero di pezzi difettosi rilevati in 10
estrazioni indipendenti’.
1. Si determini la probabilità che su 10 pezzi estratti a caso se ne presentino al massi-
mo 2 difettosi.
2. Supponendo che i pezzi estratti siano 120, si calcoli la probabilità di trovare meno
di 25 pezzi difettosi. ✍
27.67

Esercizio 35 (T 262, 03.02.2011, 5). Sapendo che i tre eventi A, B, C costituiscono una
partizione dello spazio probabilistico Ω, che P(A) = 0.25 e che P(B) è il doppio di P(C),
si calcoli:
1. P(A ∩ B)
2. P(B −C)
3. P(A ∪ Ω)
4. Si ipotizzi che P(A) sia la probabilità di vincere un premio a un gioco: ripetendo il
gioco 105 volte qual è la probabilità di vincere al massimo 30 volte? ✍
27.68

Esercizio 36 (T 263, 17.02.2011, 5). L’urna U1 contiene 10 palline bianche e 40 palline


rosse. L’urna U2 contiene 14 palline bianche, 20 rosse e 15 nere.
1. Si calcoli la probabilità che estraendo senza reimmissione 5 palline dall’urna U1 ce
ne siano almeno 4 rosse.

412
2. Si estragga una pallina dall’urna U1 e la si metta nell’urna U2 . Si calcoli la proba-
bilità che estraendo con reimmissione 5 palline dall’urna U2 si ottengano 2 palline
bianche. ✍
27.69

Esercizio 37 (T 264-1, 09.06.2011, 6). Si considerino gli eventi A e B. Sapendo che


P(B|A) = 0.8 e che P(A ∩ B) = 0.2:
1. si calcoli P(A) e si indichi l’intervallo dei valori che puo assumere P(B).
2. La probabilità di rispondere correttamente a un certo test è pari a 0.82. Con-
siderando le ripetizioni del test eventi indipendenti, si calcoli la probabilità che
replicandolo 6 volte lo si superi almeno 5 volte. ✍
27.70

Esercizio 38 (T 264-2, 23.06.2011, 5). Si consideri l’esperimento di lancio di due monete


regolari.
1. Si costruisca lo spazio degli eventi elementari.
2. Si determini la probabilità che in almeno 2 su 7 prove si ottenga la stessa faccia in
entrambe le monete.
3. Supponendo ora che le prove siano 50, determinare la probabilità che in almeno 30
si ottenga la stessa faccia in entrambe le monete. ✍
27.71

Esercizio 39 (T 264-3, 07.07.2011, 5). Un’urna contiene 14 palline bianche e 36 palline


rosse.
1. Si calcoli la probabilità che estraendo senza reimmissione 7 palline dall’urna ce ne
siano almeno 5 rosse.
2. Si calcoli la probabilità che estraendo con reimmissione 500 palline dall’urna si
ottengano almeno 127 palline bianche. ✍
27.72

Esercizio 40 (T 265, 08.09.2011, 5). Un gioco consiste nel lanciare 1 dado equilibrato e,
subito dopo, una moneta equilibrata, tante volte quante il risultato ottenuto nel dado.
1. Si calcoli la probabilità dell’evento A = {numero teste = 4}.
2. Si calcoli la probabilità che, eseguendo il gioco 100 volte, l’evento A si presenti
almeno 6 volte. ✍
27.73

Esercizio 41 (T 265-1, 22.09.2011, 5). Un urna contiene 20 palline bianche e 20 palline


rosse e 10 nere.
1. Si calcoli la probabilità che estraendo senza reimmissione dall’urna 4 palline se ne
ottengano almeno 3 rosse.
2. Si calcoli la probabilità che estraendo con reimmissione dall’urna 4 palline se ne
ottengano 1 bianca, 2 rosse e 1 nera.
3. Si calcoli la probabilità che, estraendo con reimmissione 100 palline se ne ottenga-
no almeno 40 bianche. ✍
27.74

Esercizio 42 (T 266, 12.01.2012, 5). Un urna contiene 2 palline bianche, 1 pallina rossa
e 2 nere.
1. Si calcoli la probabilità che estraendo dall’urna con reimmissione 90 palline se ne
ottengano almeno 39 bianche.
2. Si calcoli la probabilità che estraendo senza reimmissione dall’urna 4 palline, di
queste una sola sia nera. ✍
27.75

413
Esercizio 43 (T 267, 26.01.2012, 6). Due dadi vengono truccati, in modo tale che in uno
compaiano solo i numeri pari e nell’altro solo dispari.
1. Si calcoli la probabilità che, in un generico lancio, la somma dei risultati sia ≥ 8
(evento A).
2. Si calcoli la probabilità condizionata che, essendo uscito 5 in uno dei due dadi,
nell’altro si presenti 4.
3. Si calcoli la probabilità che su 90 lanci l’evento A (somma ≥ 8) si presenti almeno
24 volte. ✍
27.76

Esercizio 44 (T 268, 09.02.2012, 5). Gli eventi A, B, C e D costituiscono una partizione


dello spazio campionario, inoltre: P(A) = 0.4, P(B) è 4 volte P(D) e P(Ω ∩C) = 0.2.
1. Si calcolino P(D), P(D|A) e P(B −C)
2. Si stabilisca se A e D sono tra loro indipendenti.
3. Si consideri un’urna contenente N = 35 palline, di cui alcune bianche e le altre
nere. Si calcoli la probabilità che su 4 estrazioni senza ripetizione si ottenga alme-
no 1 pallina nera, sapendo che la probabilità di estrarre una pallina nera al primo
tentativo è pari a P(C). ✍
27.77

Esercizio 45 (T 269-1, 07.06.2012, 5). Si consideri l’esperimento di estrazione con reim-


missione di 10 palline da un’urna contenente 10 palline rosse, 23 palline bianche e 17
palline nere.
1. Si definisca la natura della variabile casuale X = ’numero di palline rosse estratte’.
2. Si calcoli la probabilità di ottenere almeno 8 palline bianche nelle 10 estrazioni.
3. Si consideri l’esperimento di estrazione con reimmissione di 100 palline dalla me-
desima urna; si calcoli la probabilità di ottenere almeno 23 palline rosse. ✍
27.78

Esercizio 46 (T 269-2, 28.06.2012, 5). In un dado perfettamente bilanciato le sei facce


sono colorate nel seguente modo: 2 blu e 4 rosse.
1. Il dado viene lanciato due volte: un giocatore perde 3 euro se i due lanci danno luo-
go a un colore diverso e vince 5 euro se danno luogo allo stesso colore. Si fornisca
la distribuzione della variabile casuale X che descrive la vincita del giocatore e si
calcoli la vincita media attesa.
2. Si supponga di lanciare 70 volte il dado sopra descritto; calcolare la probabilità di
ottenere almeno 47 volte il colore rosso. ✍
27.79

Esercizio 47 (T 269-3, 12.07.2012, 5). Si consideri il seguente gioco: si estraggono


senza reimmissione 4 palline da un’urna contenente 18 palline bianche e 22 palline nere;
pagando una posta di 1e si vincono 4e se il numero di palline bianche estratte è superiore
a quello delle palline nere.
1. Si calcoli la probabilità di ottenere 4 palline bianche nelle 4 estrazioni.
2. Si costruisca la variabile casuale X = ’guadagno del giocatore’.
3. Si stabilisca se il gioco in oggetto è equo. ✍
27.80

Esercizio 48 (T 270, 06.09.2012, 4). Un gioco consiste nel lanciare 4 volte una moneta
regolare scommettendo, a ogni lancio, 1e sull’evento Testa.
1. Si stabilisca se il gioco in oggetto è equo.
2. dopo i primi 4 lanci ci si ritrovi esattamente con ancora 100 euro;
3. dopo i primi 4 lanci il proprio capitale sia superiore ai 100 euro iniziali;
4. Calcolare la probabilità che in 50 lanci si siano ottenuti almeno 26 eventi Testa. ✍

414
27.81

Esercizio 49 (T 270-1, 20.09.2012, 5). Si supponga di lanciare un dado regolare. Si


consideri il seguente gioco: si scommette, a ogni lancio, 1e e si vincono 2e se esce il
numero 2 e 4e se esce il numero 4.
1. Si stabilisca se il gioco in oggetto è equo.
Calcolare la probabilità che:
1. In 3 lanci esca sempre il numero 4;
2. In 90 lanci si vinca almeno 30 volte. ✍
27.82

Esercizio 50 (T 271, 10.01.2013, 5). Si consideri l’esperimento di estrazione di 4 palline


da un’urna contenente 21 palline rosse e 29 palline blu.
1. Si calcoli la probabilità di ottenere almeno 3 palline blu nell’ipotesi che le 4 estra-
zioni siano effettuate senza reimmissione.
2. Si calcoli la probabilità di ottenere almeno 36 palline blu nell’ipotesi che siano
effettuate 60 estrazioni con reimmissione. ✍
27.83

Esercizio 51 (T 272, 24.01.2013, 5). Si consideri l’esperimento di lancio di 10 monete


equilibrate e 6 dadi equilibrati.
1. Si calcoli la probabilità di ottenere 5 teste e 5 facce con numero pari.
2. Ipotizzando di lanciare 100 monete e 100 dadi, si calcoli la probabilità di ottenere
almeno 50 teste e almeno 39 numeri pari. ✍
27.84

Esercizio 52 (T 273, 07.02.2013, 5). Siano A, B,C e D quattro eventi che costituiscono
una partizione dello spazio campionario, tali che P(A) = P(B) = 0.2 e P(D) = 2 · P(C).
1. Si calcolino P(A|B), P(B ∪ D) e P(A ∪ B).
2. Si dica se A e C possono ritenersi indipendenti.
3. Si calcoli la probabilità di ottenere meno di 6 successi in 80 prove indipendenti con
probabilità di successo p = P(B). ✍
27.85

Esercizio 53 (T 274-1, 06.06.2013, 5). L’urna U1 contiene 3 palline nere e 1 pallina


rossa. L’urna U2 contiene 4 palline nere e 5 palline rosse.
1. Si calcoli la probabilità che estraendo con reimmissione 5 palline dall’urna U1 ce
ne siano almeno 4 nere.
2. Si estragga una pallina dall’urna U1 e la si metta nell’urna U2. Si calcoli la pro-
babilità che estraendo senza reimmissione 3 palline dall’urna U2 si ottengano 2
palline nere. ✍
27.86

Esercizio 54 (T 274, 27.06.2013, 4). Un macchinario presenta un tasso di difettosità del


6%.
1. Scelti a caso 4 pezzi (con reimmissione) dal flusso produttivo si calcoli la probabi-
lità che nessuno sia difettoso.
2. Nell’ipotesi in cui siano effettuate 60 estrazioni si calcoli la probabilità che vi sia
almeno un pezzo difettoso. ✍
27.87

Esercizio 55 (T 274-2, 11.07.2013, 5). Per il seguente gioco è prevista una posta di 2e:
si lanciano due dadi e se la somma dei numeri ottenuti è almeno pari a 9 si vincono 6e.
1. Si stabilisca se il gioco è equo.

415
2. Nell’ipotesi di ripetere il gioco 5 volte si calcoli la probabilità di vincere almeno 2
volte. ✍
27.88

Esercizio 56 (T 275, 05.09.2013, 5). Si consideri l’esperimento di estrazione di 3 palline


da un’urna contenente 16 palline rosse, 19 gialle e 5 blu.
1. Si calcoli la probabilità di estrarre zero palline rosse nell’ipotesi che le estrazioni
vengano fatte senza reimmissione.
2. Si consideri, ora, l’esperimento di 50 estrazioni con reinserimento. Si calcoli la
probabilità di ottenere almeno 31 palline di colore blu. ✍
27.89

Esercizio 57 (T 275-1, 16.09.2013, 5). Si consideri l’esperimento di estrazione di 9


palline da un’urna contenente 16 palline rosse, 19 gialle e 5 blu.
1. Si calcoli la probabilità di estrarre 2 palline rosse, 1 gialla e 6 blu nell’ipotesi che
le estrazioni vengano fatte senza reimmissione.
2. Si calcoli la probabilità di estrarre 3 palline rosse, 4 gialle e 2 blu nell’ipotesi che
le estrazioni vengano fatte con reimmissione.
3. Si calcoli la probabilità di ottenere almeno 12 palline di colore blu in 100 estrazioni
con reimmissione. ✍
27.90

Esercizio 58 (T 276, 16.01.2014, 5). Vengono lanciati 3 dadi regolari


1. Si calcoli la probabilità che, essendosi presentati 3 numeri uguali, questi siano i
numeri da 1 a 4.
2. Si calcoli la probabilità che su 51 lanci in almeno 10 tutti e 3 i dadi presentino un
numero pari. ✍
27.91

Esercizio 59 (T 277, 30.01.2014, 5). Date due differenti urne, U1 e U2 , contenenti palli-
ne numerate, un esperimento casuale consiste nell’estrarre una pallina da ciascuna urna.
Sapendo che nell’urna U1 vi sono 5 palline con numero pari (2, 4, 6, 8, 10) e che nell’urna
U2 vi sono 2 palline con il numero 1, 2 con numero 3 e 2 con il numero 5:
1. costruire la distribuzione di probabilità delle variabili casuali X = “risultato estra-
zione urna U1 ” e Y = “risultato estrazione urna U2 ”;
2. calcolare P({X = 10} ∩ {Y = 1}), ovvero la probabilità che sia estratto il numero
10 da U1 e il numero 1 da U2 ;
3. calcolare la probabilità che, su 100 estrazioni con reinserimento dalla sola urna U2 ,
almeno 21 presentino il numero 3. ✍
27.92

Esercizio 60 (T 278, 13.02.2014, 5). Un’urna è composta da gettoni rossi e neri in pro-
porzione 0.15 e 0.85. Ogni gettone rosso reca impresso il numero 1, i neri il numero 2. Si
consideri l’esperimento casuale G3 = ’estrazione con reimmissione di 3 gettoni dall’urna’.
1. Si costruisca lo spazio probabilistico associato all’esperimento G3 .
2. Si costruisca la variabile casuale X = ’somma dei valori impressi sui gettoni estratti’
e si calcoli la probabilità che X assuma valori maggiori o uguali a 5.
3. Si calcoli la probabilità di ottenere almeno due gettoni rossi nelle 3 estrazioni.
4. Si calcoli la probabilità di ottenere non più di un gettone rosso in 26 estrazioni con
reimmissione. ✍
27.93

416
Sezione A
Richiami di matematica
A.1

Indice
1 La sommatoria 417
1.1 Esempi e proprietà . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 417

2 Matrici e sommatorie doppie 418

3 I logaritmi 420

4 La funzione esponenziale 421

5 Capitalizzazione composta di un investimento a tassi variabili nel tempo 422

6 La produttoria 423

7 Approssimazione in serie di Taylor di ex e di ln(1 + x) 424

8 Autoverifica nozioni di aritmetica e di algebra elementare 427

9 Autoverifica nozioni di aritmetica e di algebra elementare - Soluzioni 429 A.2

1 La sommatoria
Data una k-upla di valori {x1 , x2 , . . . , xk }, ovvero {xi , i = 1, 2, . . . , k} è possibile esprimere
’in forma compatta’ la somma degli elementi come segue:
k
∑ xi = x1 + x2 + . . . + xk (1)
i=1
A.3

1.1 Esempi e proprietà


• Si supponga che k = 3 e siano: x1 = 1, x2 = 2, x3 = 3

x1 + x2 + x3 = 1 + 2 + 3 = 6

• Se c è una costante arbitraria:


k k
∑ cxi = c ∑ xi
i=1 i=1

417
(proprietà distributiva del prodotto rispetto alla somma)
se, ad esempio, c = 2, con riferimento alla terna {1, 2, 3} vale:

2 · 1 + 2 · 2 + 2 · 3 = 2 + 4 + 6 = 12
12 = 2 · 6 = 2 · (1 + 2 + 3) = 2 + 4 + 6 = 12
A.4

• Se w è un valore intero: 1 ≤ w ≤ k, la sommatoria (1) può essere scomposta come


segue:
k w k
∑ xi = ∑ xi + ∑ xi
i=1 i=1 i=w+1

inoltre:
k k
∑ c = k · c = kc, ∑ y j = ky j
i=1 i=1
A.5

2 Matrici e sommatorie doppie


Si consideri la seguente matrice:

a11 a12 a13


i indice di riga
a21 a22 a23
j indice di colonna
a31 a32 a33

Si utilizzi la sommatoria per ottenere il totale degli elementi:


• sulla prima riga
3
∑ a1 j = a11 + a12 + a13
j=1

• sulla terza colonna


3
∑ ai3 = a13 + a23 + a33
i=1
• sulla diagonale principale
3
∑ aii = a11 + a22 + a33
i=1
A.6
Vengono riportati degli esempi di utilizzo del simbolo di sommatoria doppia per scrivere
in maniera compatta la somma dei simboli che figurano nei riquadri

a11 a12 a13


a21 a22 a23
a31 a32 a33

3 2 3
∑ ∑ ai j = ∑ (ai1 + ai2 ) =
i=1 j=1 i=1

= (a11 + a12 ) + (a21 + a22 ) + (a31 + a32 ) =


2 3
= (a11 + a21 + a31 ) + (a12 + a22 + a32 ) = ∑ ∑ ai j
j=1 i=1

418
A.7

a11 a12 a13


a21 a22 a23
a31 a32 a33

3 i 3
∑ ∑ ai j = ∑ (ai1 + ai2 + . . . + aii ) =
i=1 j=1 i=1

= a11 + (a21 + a22 ) + (a31 + a32 + a33 )

3 3 3
∑ ∑ ai j = ∑ (a j j + a j j+1 + . . . + a j3 ) =
j=1 i= j j=1

= (a11 + a21 + a31 ) + (a22 + a32 ) + (a33 )

A.8

a11 a12 a13


a21 a22 a23
a31 a32 a33

3 3 3
∑ ∑ ai j = ∑ (aii + ai i+1 + . . . + ai3 ) =
i=1 j=i i=1
= (a11 + a12 + a13 ) + (a22 + a23 ) + a33

3 j 3
∑ ∑ ai j = ∑ (a1 j + a2 j + . . . + a j j ) =
j=1 i=1 j=1

= a11 + (a12 + a22 ) + (a13 + a23 + a33 )

A.9

Esercizio 1. Si scriva in forma compatta, utilizzando il simbolo di sommatoria, la somma


dei simboli che figurano nei riquadri.
1.
a11 a12 a13
a21 a22 a23
a31 a32 a33
2.
a11 a12 a13
a21 a22 a23
a31 a32 a33
3.
a11 a12 a13
a21 a22 a23
a31 a32 a33
4.
a11 a12 a13
a21 a22 a23
a31 a32 a33
A.10

419
3 I logaritmi
loga x = c, dove x > 0, a > 0, a ̸= 1
a: base del logaritmo
x: argomento della funzione loga
c: esponente da assegnare alla base a per ottenere l’argomento x:

ac = x
3

10
2

9
1

8
0

7
0 1 2 3 4 5
−1

6
−2

5
−3

4
−4

3
−5

2
−6

1
−7

0
−8

0 1 2 3 4 5
−1
−9

−2
−10

−3

x x

a>1 a<1
A.11
Valori della base solitamente utilizzati:

a = 10, a = e = 2.71828

Notazioni: log10 x = Log x, loge x = ln x


Nel seguito si utilizzeranno i logaritmi in base e
Proprietà dei Logaritmi
• ln xy = ln x + ln y
• ln xy = ln x − ln y
• ln xy = y ln x
• eln x = exp(ln x) = x
• ln e = 1
• ln ex = x
A.12

420
4 La funzione esponenziale
ax , x ∈ ℜ, a > 0
a: base della funzione esponenziale
x: argomento della funzione esponenziale

30

30
28

28
26

26
24

24
22

22
20

20
18

18
16

16
14

14
12

12
10

10
8

8
6

6
4

4
2

2
0

0
−5 −4 −3 −2 −1 0 1 2 3 4 5 −5 −4 −3 −2 −1 0 1 2 3 4 5

x x

a>1 a<1
A.13
Valore della base solitamente utilizzato:

a = e = 2.71828

ex = exp(x)

Proprietà della funzione esponenziale


• ex · ey = ex+y
ex x−y
• ey = e c
• (e ) = eb = ebc
b c
c
• attenzione: e(b ) ̸= ebc
• 0
e =1
• ln ex = x
• ln e = 1
• eln x = x
A.14

421
Richiami di Matematica

TASSO COMPLESSIVO DI INVESTIMENTO


5 Capitalizzazione composta di un investimento a tassi
Sevariabili
investo al nel
tempo 0 una somma pari a C
tempo
Se investo al tempo 0 una somma pari a C

C 5% 8% 2% 10% M

0 1 2 3 4
alla fine del primo anno il deposito ammonterà a:
alla fine del primo anno il deposito ammonterà a:
C (1 + 0.05) C · (1 + 0.05)
alla fine del secondo anno il deposito ammonterà a:
alla fine del secondo anno il deposito ammonterà a:
C (1 + 0.05) (1 + 0.08)
alla fine del terzo anno Cil·deposito
(1 + 0.05) ·ammonterà
(1 + 0.08) a:
C (1 + 0.05) (1 + 0.08) (1 + 0.02)
alla fine del terzo anno il deposito ammonterà a:

e alla fine del quarto C · anno il deposito


(1 + 0.05) · (1 + 0.08)ammonterà
· (1 + 0.02) a:
C (1
e alla fine+del
0.05) (1anno
quarto + 0.08) (1 + ammonterà
il deposito 0.02) (1 +a:0.10) = M

C · (1 + 0.05) · (1 + 0.08) · (1 + 0.02) · (1 +j 0.10) i=j M xj = 1 + ij


1 0.05 1.05 A.15
2 0.08 1.08
j ij xj = 1+ij 3 0.02 1.02
1 0.05 1.05
2 0.08 1.08 4 0.10 1.10
3 0.02 1.02
La relazione che intercorre
4 tra
0.10C, capitale
1.10 iniziale,ed M, montante
Lafinale, è che
relazione la seguente:
intercorre tra C, capitale iniziale, ed M, montante finale, è la seguente:

4 4 4
4
M = C ∏ (1 + ij) = C ∏ M = C ∏ (1 + i j ) = C ∏ x j = C · 1.27234.
x = C ⋅ 1.27234.
j=1 j j=1
j=1 j=1
A.16

422
6 La produttoria
Data una k-upla di valori (x1 , x2 , . . . , xk ), ovvero (xi , i = 1, 2, . . . , k)
k
∏ xi = x1 · x2 · . . . · xk
i=1

se c è una costante arbitraria:


k k
. . . · c = ck
∏ c = c · kc ·volte quindi ∏ y j = ykj
i=1 i=1

k k
∏(cxi ) = ck ∏ xi
i=1 i=1
A.17
Relazione con i logaritmi
!
k
ln ∏ xi = ln(x1 · x2 · . . . · xk ) =
i=1
k
= ln x1 + ln x2 + . . . + ln xk = ∑ ln xi
i=1

Esercizio 2. Dimostrare la seguente eguaglianza


!
k k
ln ∏ xifi = ∑ ln(xi ) · fi
i=1 i=1
A.18

423
7 Approssimazione in serie di Taylor di ex e di ln(1 + x)
Sia f (x) una funzione, definita su un intervallo aperto (x0 − r, x0 + r) che ammette derivate
fino all’ordine n. Si definisce polinomio di Taylor di grado n relativo alla funzione f e al
punto x0 il seguente polinomio:
n
(x − x0 )k
Tn (x) = ∑ f (k) (x0 ) k!
k=0

k
avendo indicato con f (k) (x) = d dxf (x)
k la derivata k-esima di f (x) e con k! il fattoriale di k.
La formula di Taylor consente di ottenere un’approssimazione della funzione f (x).
Nelle tabelle seguenti si riportano gli errori corrispondenti alle approssimazioni del primo
ordine, T1 (x), delle funzioni ex e ln(1 + x), con x0 = 0 e −0.15 ≤ x ≤ 0.15. A.19

ex

1+x

4
3
2
1
0

−5 −4 −3 −2 −1 0 1 2 3 4
−1
−2
−3
−4
−5

A.20

−1+x x
4

4
3

ln(x) ln(1+x)
2

2
1

1
0

−5 −4 −3 −2 −1 0 1 2 3 4 5 6 7 8 −5 −4 −3 −2 −1 0 1 2 3 4 5 6 7 8
−1

−1
−2

−2
−3

−3
−4

−4
−5

−5

A.21

424
x
x ex 1 + x (1 + x) − ex ex −1
−0.15000 0.86070 0.85000 −0.01070 1.07681
−0.14375 0.86610 0.85625 −0.00985 1.07356
−0.13750 0.87150 0.86250 −0.00900 1.07004
−0.13125 0.87700 0.86875 −0.00825 1.06707
−0.12500 0.88250 0.87500 −0.00750 1.06383
−0.11875 0.88800 0.88125 −0.00675 1.06027
−0.11250 0.89360 0.88750 −0.00610 1.05733
−0.10625 0.89920 0.89375 −0.00545 1.05407
−0.10000 0.90480 0.90000 −0.00480 1.05042
−0.09375 0.91050 0.90625 −0.00425 1.04749
−0.08750 0.91620 0.91250 −0.00370 1.04415
−0.08125 0.92200 0.91875 −0.00325 1.04167
−0.07500 0.92770 0.92500 −0.00270 1.03734
−0.06875 0.93360 0.93125 −0.00235 1.03539
−0.06250 0.93940 0.93750 −0.00190 1.03135
−0.05625 0.94530 0.94375 −0.00155 1.02834
−0.05000 0.95120 0.95000 −0.00120 1.02459
−0.04375 0.95720 0.95625 −0.00095 1.02220
−0.03750 0.96320 0.96250 −0.00070 1.01902
−0.03125 0.96920 0.96875 −0.00045 1.01461
−0.02500 0.97530 0.97500 −0.00030 1.01215
−0.01875 0.98140 0.98125 −0.00015 1.00806
−0.01250 0.98760 0.98750 −0.00010 1.00806
−0.00625 0.99380 0.99375 −0.00005 1.00806
0.00000 1.00000 1.00000 0.00000
0.00625 1.00630 1.00625 −0.00005 0.99206
0.01250 1.01260 1.01250 −0.00010 0.99206
0.01875 1.01890 1.01875 −0.00015 0.99206
0.02500 1.02530 1.02500 −0.00030 0.98814
0.03125 1.03170 1.03125 −0.00045 0.98580
0.03750 1.03820 1.03750 −0.00070 0.98168
0.04375 1.04470 1.04375 −0.00095 0.97875
0.05000 1.05130 1.05000 −0.00130 0.97466
0.05625 1.05790 1.05625 −0.00165 0.97150
0.06250 1.06450 1.06250 −0.00200 0.96899
0.06875 1.07120 1.06875 −0.00245 0.96559
0.07500 1.07790 1.07500 −0.00290 0.96277
0.08125 1.08460 1.08125 −0.00335 0.96040
0.08750 1.09140 1.08750 −0.00390 0.95733
0.09375 1.09830 1.09375 −0.00455 0.95371
0.10000 1.10520 1.10000 −0.00520 0.95057
0.10625 1.11210 1.10625 −0.00585 0.94781
0.11250 1.11910 1.11250 −0.00660 0.94458
0.11875 1.12610 1.11875 −0.00735 0.94171
0.12500 1.13310 1.12500 −0.00810 0.93914
0.13125 1.14030 1.13125 −0.00905 0.93550
0.13750 1.14740 1.13750 −0.00990 0.93284
0.14375 1.15460 1.14375 −0.01085 0.92982
0.15000 1.16180 1.15000 −0.01180 0.92707
A.22

425
x
x 1+x ln(1 + x) x − ln(1 + x) ln(1+x)
−0.15000 0.85000 −0.16250 0.01250 0.92308
−0.14375 0.85625 −0.15520 0.01145 0.92622
−0.13750 0.86250 −0.14790 0.01040 0.92968
−0.13125 0.86875 −0.14070 0.00945 0.93284
−0.12500 0.87500 −0.13350 0.00850 0.93633
−0.11875 0.88125 −0.12640 0.00765 0.93948
−0.11250 0.88750 −0.11930 0.00680 0.94300
−0.10625 0.89375 −0.11230 0.00605 0.94613
−0.10000 0.90000 −0.10540 0.00540 0.94877
−0.09375 0.90625 −0.09840 0.00465 0.95274
−0.08750 0.91250 −0.09160 0.00410 0.95524
−0.08125 0.91875 −0.08470 0.00345 0.95927
−0.07500 0.92500 −0.07800 0.00300 0.96154
−0.06875 0.93125 −0.07120 0.00245 0.96559
−0.06250 0.93750 −0.06450 0.00200 0.96899
−0.05625 0.94375 −0.05790 0.00165 0.97150
−0.05000 0.95000 −0.05130 0.00130 0.97466
−0.04375 0.95625 −0.04470 0.00095 0.97875
−0.03750 0.96250 −0.03820 0.00070 0.98168
−0.03125 0.96875 −0.03170 0.00045 0.98580
−0.02500 0.97500 −0.02530 0.00030 0.98814
−0.01875 0.98125 −0.01890 0.00015 0.99206
−0.01250 0.98750 −0.01260 0.00010 0.99206
−0.00625 0.99375 −0.00630 0.00005 0.99206
0.00000 1.00000 0.00000 0.00000
0.00625 1.00625 0.00620 0.00005 1.00806
0.01250 1.01250 0.01240 0.00010 1.00806
0.01875 1.01875 0.01860 0.00015 1.00806
0.02500 1.02500 0.02470 0.00030 1.01215
0.03125 1.03125 0.03080 0.00045 1.01461
0.03750 1.03750 0.03680 0.00070 1.01902
0.04375 1.04375 0.04280 0.00095 1.02220
0.05000 1.05000 0.04880 0.00120 1.02459
0.05625 1.05625 0.05470 0.00155 1.02834
0.06250 1.06250 0.06060 0.00190 1.03135
0.06875 1.06875 0.06650 0.00225 1.03383
0.07500 1.07500 0.07230 0.00270 1.03734
0.08125 1.08125 0.07810 0.00315 1.04033
0.08750 1.08750 0.08390 0.00360 1.04291
0.09375 1.09375 0.08960 0.00415 1.04632
0.10000 1.10000 0.09530 0.00470 1.04932
0.10625 1.10625 0.10100 0.00525 1.05198
0.11250 1.11250 0.10660 0.00590 1.05535
0.11875 1.11875 0.11220 0.00655 1.05838
0.12500 1.12500 0.11780 0.00720 1.06112
0.13125 1.13125 0.12330 0.00795 1.06448
0.13750 1.13750 0.12880 0.00870 1.06755
0.14375 1.14375 0.13430 0.00945 1.07036
0.15000 1.15000 0.13980 0.01020 1.07296
A.23

426
8 Autoverifica nozioni di aritmetica e di algebra ele-
mentare
1. Indicate il ’dominio’ di ciascuna delle seguenti variabili e stabilite se sono continue
o discrete:
(a) somma S dei punti ottenuti nel lancio di due dadi,
(b) diametro D di una sfera,
(c) numero N di individui in una famiglia,
(d) altezza H di un coscritto alla leva,
A.24

2. Arrotondate il numero 46.7385:


(a) alla decina più prossima,
(b) al terzo decimale,
(c) all’unità più prossima.
A.25

3. Dite il numero di cifre significative e indicate l’intervallo dei possibili valori che
portano alle seguenti misurazioni:
(a) velocità di 119 km/h,
(b) altezza di 1.76 m.
A.26

4. Esprimete ciascun numero senza usare le potenze di dieci:


(a) 2.8 · 106 ,
(b) 0.000185 · 105 .
A.27

5. Eseguite le operazioni indicate, arrotondando il risultato con tante cifre decimali


tali da garantire almeno 4 cifre significative:
(a) 22.58 · 5.16,
(b) 5.78 · 2700 · 16.00,

(c) (416.00 · 0.00019)/ 73.84.
A.28

6. Calcolate le seguenti espressioni, sapendo che U = −2, V = 1/2, Z = 1/6, con


quattro cifre significative:
(a) 4U − 6V − 2Z,

(b) U 2 − 2UV + Z 2 ,

(c) (U −V )/ U 2 +V 2 ,
(d) 3(U −V )2 + Z.
A.29

7. Localizzate su un sistema di coordinate cartesiane i punti di coordinate:


(a) A = (0, 1), B = (1, 3),C = (2, 3), D = (3, 1),
(b) P = (X,Y ) con X = −2, −1, 0, 1, 2, 3 e Y = |X|,
(c) P = (X,Y ) con X = −2, −1, 0, 1, 2, 3 e Y = 10 − 2X,
(d) P = (X,Y ) con X = −2, −1, 0, 1, 2, 3 e Y = 2 + X 2 ,
A.30

8. Risolvete le seguenti equazioni (e sistemi):

427
(a) 16 − 5c = 36,
(b) 2(12 + y)/3 = 6 − (9 − y)/2,
(c) 3x2 + 2x − 1 = 0,
(d) {2a + b = 10; 7a − 3b = 9}.
A.31

9. Usate i simboli di diseguaglianza per esprimere le seguenti proposizioni:


(a) il numero N di bambini è compreso fra 30 e 50, estremi compresi,
(b) la somma S dei punteggi D1 e D2 di due dadi è non minore di sette,
(c) X è maggiore o uguale a −4 e minore di 3,
(d) X è superiore a Y per più di due.
A.32

10. Risolvete le seguenti diseguaglianze:


(a) 3x ≥ 12,
(b) −3 ≤ (2x + 1)/5 < 3,
(c) |x| ≤ 3.
A.33

11. Calcolate le seguenti espressioni:


(a) y = 3 · x10 , ln y = . . .,
(b) y = 10/x, ln y = . . ..
A.34

428
9 Autoverifica nozioni di aritmetica e di algebra ele-
mentare - Soluzioni
1. Indicate il ’dominio’ di ciascuna delle seguenti variabili e stabilite se sono continue
o discrete:
(a) somma S dei punti ottenuti nel lancio di due dadi,
{2, 3, . . . , 12} (discreta)
(b) diametro D di una sfera,
(0, ∞) (continua)
(c) numero N di individui in una famiglia,
1, 2, . . . , nmax (discreta)
(d) altezza H di un coscritto alla leva,
[amin , amax ] (continua)
A.35

2. Arrotondate il numero 46.7385:


(a) alla decina più prossima,
50
(b) al terzo decimale,
46.739
(c) all’unità più prossima.
47
A.36

3. Dite il numero di cifre significative e indicate l’intervallo dei possibili valori che
portano alle seguenti misurazioni:
(a) velocità di 119 km/h,
3 [118.5, 119.5)
(b) altezza di 1.76 m.
3 [1.755, 1.765)
A.37

4. Esprimete ciascun numero senza usare le potenze di dieci:


(a) 2.8 · 106 ,
2 800 000
(b) 0.000185 · 105 .
18.5
A.38

5. Eseguite le operazioni indicate, arrotondando il risultato con tante cifre decimali


tali da garantire almeno 4 cifre significative:
(a) 22.58 · 5.16,
116.5128
(b) 5.78 · 2700 · 16.00,
249696

(c) (416.00 · 0.00019)/ 73.84.
0.009198
A.39

429
6. Calcolate le seguenti espressioni, sapendo che U = −2, V = 1/2, Z = 1/6, con
quattro cifre significative:
(a) 4U − 6V − 2Z,
−11.33

(b) U 2 − 2UV + Z 2 ,
2.455

(c) (U −V )/ U 2 +V 2 ,
−1.213
(d) 3(U −V )2 + Z.
18.92
A.40

6. Calcolate le seguenti espressioni, sapendo che U = −2, V = 1/2, Z = 1/6, con


almeno quattro cifre significative:
(a) 4U − 6V − 2Z,
−11.3333

(b) U 2 − 2UV + Z 2 ,
2.4552

(c) (U −V )/ U 2 +V 2 ,
−1.2127
(d) 3(U −V )2 + Z.
18.9167
A.41

7. Localizzate su un sistema di coordinate cartesiane i punti di coordinate:


(a) A = (0, 1), B = (1, 3),C = (2, 3), D = (3, 1),
5
4

B C
3
2

A D
1
0

−1 0 1 2 3 4

A.42

430
(b) P = (X,Y ) con X = −2, −1, 0, 1, 2, 3 e Y = |X|,

3
2
1
0

−3 −2 −1 0 1 2 3 4

A.43

(c) P = (X,Y ) con X = −2, −1, 0, 1, 2, 3 e Y = 10 − 2X,


15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
0

−3 −2 −1 0 1 2 3 4
−1

x
−2

A.44

(d) P = (X,Y ) con X = −2, −1, 0, 1, 2, 3 e Y = 2 + X 2,


12
11
10
9
8
7
6
5
4
3
2
1
0

−3 −2 −1 0 1 2 3 4
−1

A.45

431
8. Risolvete le seguenti equazioni (e sistemi):
(a) 16 − 5c = 36,
c = −4
(b) 2(12 + y)/3 = 6 − (9 − y)/2,
y = −39
(c) 3x2 + 2x − 1 = 0,
x = {−1, 1/3}
(d) {2a + b = 10; 7a − 3b = 9}.
a = 3, b = 4
A.46

9. Usate i simboli di diseguaglianza per esprimere le seguenti proposizioni:


(a) il numero N di bambini è compreso fra 30 e 50, estremi compresi,
30 ≤ N ≤ 50 (intero)
(b) la somma S dei punteggi D1 e D2 di due dadi è non minore di sette,
S ≥ 7 oppure D1 + D2 ≥ 7
(c) X è maggiore o uguale a −4 e minore di 3,
−4 ≤ X < 3
(d) X è superiore a Y per più di due.
X >Y +2
A.47

10. Risolvete le seguenti diseguaglianze:


(a) 3x ≥ 12,
x≥4
(b) −3 ≤ (2x + 1)/5 < 3,
−8 ≤ x < 7
(c) |x| ≤ 3.
−3 ≤ x ≤ 3
A.48

11. Calcolate le seguenti espressioni:


(a) y = 3 · x10 , ln y = . . .,
ln y = ln 3 + 10 ln x
(b) y = 10/x, ln y = . . ..
ln y = ln 10 − ln x
A.49

432
Indice analitico
adattamento 260, 268, 270, 273, 276, 292, confronto tra η 2 e ρ 2 . . . . . . . . . . . . . . . 278 B.1
293 confronto tra grafici box & whiskers plot
algebra degli eventi S (Ω) . 353, 353, 357, 167
358, 377, 378, 378, 379, 379, 380 connessione . . . . . . . . . . . . . . . . . . . . . . . 207
analisi del rapporto di correlazione . . . 238 connessione, indici χ 2 , χN2 e χN . . . . . 209
applicazioni del risultato di scomposizione connessione, indice di Goodman-Kruskal
della varianza . . . . . . . . . . . . . . . . . . . . . . 149 230
approccio deduttivo . . . . . . . . . . . . . . . . . . . 2 contingenze assolute . . . . . . . . . . . . . . . . 208
approccio induttivo . . . . . . . . . . . . . . . . . . . 2 contingenze relative . . . . . . . . . . . . . . . . 208
approccio pragmatico . . . . . . . . . . . . . . . . 23 contingenze relative, interpretazione . 215
approssimazione della variabile casuale correlazione, lineare . . . . . . . . . . . . . . . . 276
binomiale con la Normale . . . . . . . . . . . 405 correlazione, rapporto di . . 150, 236, 238,
asimmetria negativa . . . . . . . . . . . . . . . . 162 266, 303, 313
asimmetria positiva . . . . . . . . . . . . . . . . . 162 covarianza . . . . . . . . . . . . . . . . . . . . . . . . . 248
assiomi del calcolo delle probabilità . . 353 covarianza tra trasformazioni lineari . . 256
autoverifica nozioni di aritmetica e di criterio dei minimi quadrati . . . . . . . . . 260
algebra elementare . . . . . . . . . . . . . . . . . 427 criterio di scelta della media per minimiz-
zazione del danno . . . . . . . . . . . . . . . . . . 100
bontà di adattamento . . . . . . . . . . . . . . . 260 criterio di scelta della media secondo
box & whiskers plot . . . . . . . . . . . . . 75, 167 Chisini . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
curtosi . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
calcolo del rapporto di correlazione in
presenza di coppie di dati . . . . . . . . . . . 313 danno (perdita media) assoluto . . . . . . 100
campo di variazione . . . . . . . . . . . . . . . . 126 danno (perdita media) quadratico . . . . 102
capitalizzazione composta di un inve- densità di frequenza . . . . . . . . . . . . . . . . . 38
stimento a tassi variabili nel tempo differenza semplice media . . . . . . . . . . . 126
422 differenza quadratica media . . . . . . . . . 127
caratteri qualitativi . . . . . . . . . . . . . . . . . . 16 dipendenza funzionale . . . . . . . . . . . . . . 203
caratteri qualitativi ordinati . . . . . . . . . . . 16 dipendenza lineare . . . . . . . . . . . . . . . . . 274
caratteri qualitativi sconnessi . . . . . . . . . 16 diseguaglianza di Tchebychev . . . . . . . 154
caratteri quantitativi . . . . . . . . . . . . . . . . . 19 dispersione rispetto a un centro . . . . . . 127
caratteri quantitativi continui . . . . . . . . . 19 distanza . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
caratteri quantitativi discreti . . . . . . . . . . 19 distribuzione doppia. . . . . . . . . . . . .53, 198
caratteri stocasticamente indipendenti 201 distribuzione leptocurtica . . . . . . . . . . . 169
classi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 distribuzione platicurtica . . . . . . . . . . . . 169
classificazione congiunta di due caratteri distribuzioni asimmetriche . . . . . . . . . . 161
53 distribuzioni condizionate . . . . . . . 55, 198
coefficiente binomiale . . . . . . . . . . . . . . 370 distribuzioni marginali . . . . . . . . . . 54, 198
coefficiente multinomiale . . . . . . . . . . . 372 distribuzioni simmetriche . . . . . . . . . . . 157
coefficiente di correlazione lineare . . . 276
coefficiente di scostamento . . . . . . . . . . 134 effect size . . . . . . . . . . . . . . . . . . . . . 211, 344
coefficiente di variazione . . . . . . . . . . . . 133 esperimento aleatorio . . . . . . . . . . . . . . . 348
combinazioni . . . . . . . . . . . . . . . . . . . . . . 370 eterogeneità, indici di . . . . . . . . . . . . . . . 110
combinazioni multiple e coefficiente mul- eventi casuali . . . . . . . . . . . . . . . . . . . . . . 348
tinomiale . . . . . . . . . . . . . . . . . . . . . . . . . . 372 eventi condizionati . . . . . . . . . . . . . . . . . 363
condizione di ammissibilità per le mutabili eventi incompatibili . . . . . . . . . . . . 351, 354
(variabili) statistiche doppie . . . . . . . . . 203 eventi indipendenti . . . . . . . . . . . . . . . . . 366
condizione di Cauchy per una media . . 59 eventi, relazioni tra . . . . . . . . . . . . . . . . . 350
condizione di monotonicità per una media evento impossibile . . . . . . . . . . . . . . . . . 349
59, 61

433
fenomeni aleatori . . . . . . . . . . . . . . . . 2, 348 indici relativi . . . . . . . . . . . . . . . . . . . . . . 133 B.2
fenomeni aleatori ripetibili (ripetitività indipendenza in media . . . . . . . . . 238, 240
attuale) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 indipendenza lineare . . . . . . . . . . . 274, 275
fenomeni aleatori ripetibili (ripetitività indipendenza stocastica tra variabili stati-
virtuale) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 stiche . . . . . . . . . . . . . . . . . . . . . . . . 201, 240,
formula di Bayes . . . . . . . . . . . . . . . . . . . 374 275
frequenze assolute . . . . . 26, 28, 30, 33, 37 indipendenza stocastica tra eventi . . . . 366
frequenze cumulate . . . . . . . . . . . 30, 33, 37 inferenza statistica . . . . 6, 7, 321, 328, 374
frequenze relative . . . . . . 26, 28, 30, 33, 37 insiemi disgiunti . . . . . . . . . . . . . . . . . . . 351
funzione di perdita in valore assoluto . 100 interazione (effetto di) . . . . . . . . . . . . . . 336
funzione di perdita quadratica . . . . . . . 102 internalità delle medie . . . . . . . . . . . . . . . 59
funzione di probabilità353, 353, 357, 358, interpretazione dei coefficienti di regres-
377, 378, 378, 379, 379 sione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297
funzione di regressione . . . . 262, 302, 312 interpretazione della covarianza . . . . . . 248
funzione di ripartizione . . 31, 34, 40, 391, intersezione di insiemi . . . . . . . . . . . . . . 352
396 istogramma . . . . . . . . . . . . . . . . . . . . . . . . . 39
funzione di ripartizione retrocumulata . 66
funzioni delle componenti di una variabile legge delle probabilità totali . . . . . . . . . 372
statistica doppia . . . . . . . . . . . . . . . . . . . . 245
matrice dei dati . . . . . . . . . . . . . . . . . . . . . 14
gioco equo . . . . . . . . . . . . . . . . . . . . . . . . 359 media aritmetica . . . . . . . . . . . . . . . . . . . . 83
grafi di probabilità . . . . . . . . . . . . . . . . . . 376 media aritmetica, interpretazione fisica 92
grafico a bastoncini . . . . . . . . . . . 27, 31, 34 media aritmetica, operatore lineare . . . . 93
grafico bubble plot . . . . . . . . . . . . . . . . . 302 media aritmetica (media in senso stretto),
grafico box & whiskers plot . . . . . . 75, 167 dimostrazione . . . . . . . . . . . . . . . . . . . . . . . 90
grafico a dispersione . . . . . . . . . . . . . . . . 259 media aritmetica di una trasformazione
grafico di Pareto . . . . . . . . . . . . . . . . . 27, 44 lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
grafico word cloud . . . . . . . . . . . . . . . 28, 45 media armonica . . . . . . . . . . . . . . . . . . . . . 84
media campionaria . . . . . . . . . . . . . . . . . 322
indicazioni operative sull’utilizzo delle media di una combinazione lineare . . . 254
misure di posizione e di variabilità . . . 138 media di una funzione di una variabile
indice dei prezzi di Fisher . . . . . . . . . . . 185 statistica doppia . . . . . . . . . . . . . . . . . . . . 246
indice dei prezzi di Laspeyres . . . . . . . 185 media di una variabile casuale . . . . . . . 402
indice dei prezzi di Paasche . . . . . . . . . 185 media geometrica . . . . . . . . . . . . . . . . . . . 87
indice di adattamento . 268, 270, 273, 276, media quadratica . . . . . . . . . . . . . . . . . . . . 85
292, 293 mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
indici di asimmetria . . . . . . . . . . . . . . . . 164 medie condizionate . . . . . . . . . . . . 234, 236
indice di connessione χ 2 . . . . . . . . . . . . 209 medie potenziate . . . . . . . . . . . . . . . . . . . . 83
indice di connessione di misura relativa . . . . . . . . . . . . . . . . . . . . . . 20
Goodman-Kruskal . . . . . . . . . . . . . . . . . . 230 misure di importanza delle variabili espli-
indice di eterogeneità di Frosini . . . . . . 116 cative nei modelli di regressione . . . . .344
indice di eterogeneità di Gini . . . . . . . . 112 moda . . . . . . . . . . . . . . . . . . . . . . . . . . . 60, 60
indici di connessione χN2 e χN . . . . . . . 209 modalità di un carattere . . . . . . . . . . . . . . 15
indici di Curtosi . . . . . . . . . . . . . . . . . . . . 169 modelli di regressione . . . . . . . . . . . . . . 259
indici di dispersione . . . . . . . . 127, 128 129 modelli di regressione, coefficienti stan-
indice di miglioramento . . . . . . . . 294, 344 dardizzati . . . . . . . . . . . . . . . . . . . . . . . . . . 329
indici di penetrazione relativi . . . . . . . . 176 modelli di regressione, estensione modello
indici di posizione . . . . . . . . . . . . . . . . . . . 58 lineare regressione multipla . . . . . . . . . 323
indici di variabilità globale . . . . . . . . . . 125 modelli di regressione, interpretazione dei
indici inter-popolazione . . . . . . . . . . . . . 177 coefficienti . . . . . . . . . . . . . . . . . . . . . . . . 297
indici inter-temporali . . . . . . . . . . . . . . . 178 modelli di regressione, modelli incompleti
indici normalizzati . . . . . . . . . . . . . . . . . 113 293

434
modelli di regressione, modelli linearizza- quadro riassuntivo indipendenza stocasti- B.3
bili . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291 ca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202
modelli di regressione, previsione . . . . 295 quantili . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
modelli di regressione, valutazione tra
modelli alternativi . . . . . . . . . . . . . . . . . . 292 rapporti di composizione . . . . . . . . . . . . 175
modelli di regressione con variabili indi- rapporti di contingenza . . . . . . . . . . . . . 208
catrici (dummy) . . . . . . . . . . . . . . . . . . . . 331 rapporti di contingenza, interpretazione
modello costante . . . . . . . . . . . . . . . . . . . 270 215
modello retta . . . . . . . . . . . . . . . . . . . . . . 271 rapporti di densità . . . . . . . . . . . . . . . . . . 176
modello retta, scomposizione della varian- rapporti di durata . . . . . . . . . . . . . . . . . . . 187
za totale . . . . . . . . . . . . . . . . . . . . . . . . . . . 273 rapporti di offerta turistica . . . . . . . . . . 188
modello retta, indice di adattamento . . 273 rapporti di propensione turistica . . . . . 188
modello retta vincolata . . . . . . . . . . . . . . 290 rapporti di ripetizione . . . . . . . . . . . . . . . 187
momenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 rapporti relativi ai flussi turistici . . . . . 188
monotonicità delle medie . . . . . . . . . 59, 61 rappresentazione grafica di una serie
monotonicità delle medie potenziate . . . 86 storica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
mosaic plot . . . . . . . . . . . . . . . . . . . . . . . . 219 rappresentazione grafica di un carattere
mutabile statistica . . . . . . . . . . . . . . . . . . . 26 qualitativo . . . . . . . . . . . . . . . . . . . . . . . . . . 26
mutabilità . . . . . . . . . . . . . . . . . . . . . . . . . 110 rappresentazione grafica di un carattere
quantitativo non raggruppato in classi . 33
numeri indici . . . . . . . . . . . . . . . . . . . . . . 178 rappresentazione grafica di un carattere
numeri indici a base fissa. . . . . . . . . . . .178 quantitativo raggruppato in classi . . . . . 35
numeri indici a base mobile . . . . . . . . . 178 regressione dei minimi quadrati . . . . . . 260
numeri indici, cambiamento di base . . 180 regressione dei minimi quadrati, origine
numeri indici dei prezzi . . . . . . . . . . . . . 184 del termine . . . . . . . . . . . . . . . . . . . . . . . . 264
numeri indici di borsa . . . . . . . . . . . . . . 186 relazione tra indipendenza stocastica e
indipendenza in media . . . . . . . . . . . . . . 240
odds e odds ratio . . . . . . . . . . . . . . 222, 361 relazione tra indipendenza stocastica, indi-
operatore media aritmetica . . . . . . . . . . . 93 pendenza in media e indipendenza lineare
275
p-value. . . . . . . . . . . . . . . . . . . . . . . . . . . .329 residuo quadratico medio . . . . . . . . . . . 260
partizione . . . . . . . . . . . . . . . . . . . . . . . . . 175 residuo quadratico medio di un modello
percentili . . . . . . . . . . . . . . . . . . . . . . . . . . 62 polinomiale . . . . . . . . . . . . . . . . . . . . . . . . 268
perdita di informazione . . . . . . 26, 38, 100 retta di regressione . . . . . . . . . . . . . . . . . 271
permutazioni . . . . . . . . . . . . . . . . . . . . . . 368
polinomi di regressione . . . . . . . . . . . . . 267 scala per intervalli . . . . . . . . . . . . . . . . . . . 21
probabilità, assiomi . . . . . . . . . . . . . . . . . 353 scala per rapporti . . . . . . . . . . . . . . . . . . . . 22
probabilità composta . . . . . . . . . . . . . . . 367 scale per caratteri qualitativi . . . . . . 16, 23
probabilità condizionata . . . . . . . . . . . . 363 scale per caratteri quantitativi . . 16, 21, 23
probabilità dell’evento unione . . . . . . . 354 scostamento medio assoluto dalla mediana
probabilità, elicitazione classica . . . . . 356 128
probabilità, elicitazione frequentista . . 357 scarto quadratico medio . . . . . . . . . . . . . 129
probabilità, elicitazione soggettiva . . . 358 schema della scommessa . . . . . . . . . . . . 358
problema della scelta della media . . . . . 95 scomposizione della varianza . . . 145, 266
problemi simmetrici e asimmetrici . . . 197 seriazione statistica . . . . . . . . . . . . . . . . . . 37
proprietà associativa della media aritmeti- serie statistica . . . . . . . . . . . . . . . . . . . . . . . 33
ca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 serie storica . . . . . . . . . . . . . . . . . . . . . . . . . 49
proprietà media, mediana, media geome- sommatoria . . . . . . . . . . . . . . . . . . . . . . . . 417
trica (riassunto) . . . . . . . . . . . . . . . . . . . . 107 spazi campionari simmetrici . . . . . . . . . 356
proprietà di minimo della media aritmetica spazio campionario . . . . . . . . . . . . . . . . . 349
130 spazio probabilistico . 349, 356, 357, 364,
proprietà di minimo della mediana . . . 130 365, 377

435
statistica descrittiva e statistica inferenzia- variazione relativa media . . . . . . . . . . . . 181 B.4
le . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321 word cloud . . . . . . . . . . . . . . . . . . . . . . 28, 45
sviluppo in serie di Taylor . 291, 297, 298,
343, 424

tabella a doppia entrata . . . . . . . . . . . . . . 53


tavola variabile casuale Normale standar-
dizzata . . . . . . . . . . . . . . . . . . . . . . . . . . . . 397
teorema fondamentale sulle medie poten-
ziate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
teoremi del calcolo delle probabilità . . 354

unione di insiemi . . . . . . . . . . . . . . . . . . . 351


unità sperimentale o statistica . . . . . . . . . 15

variabile casuale . 377, 378, 378, 379, 381,


382, 386, 395
variabile casuale binomiale . . . . . . . . . . 382
variabile casuale di Bernoulli . . . . . . . . 381
variabile casuale di Poisson . . . . . . . . . 393
variabile casuale esponenziale negativa
394
variabile casuale Gamma . . . . . . . . . . . . 394
variabile casuale ipergeometrica . . . . . 386
variabile casuale Normale . . . . . . . . . . . 395
variabile casuale Normale, schema inter-
pretativo. . . . . . . . . . . . . . . . . . . . . . . . . . .405
variabile casuale Normale, trasformazioni
lineari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 403
variabile casuale uniforme (continua) . 393
variabile casuale uniforme discreta . . . 390
variabile scarto dalla media aritmetica . 93
variabile statistica . . . . . . . . . . . . . . . . . . . 47
variabile statistica degenere . . . . . . . . . . 87
variabile statistica standardizzata. . . . .144
variabili indicatrici (dummy) . . . 298, 331
variabilità accidentale . . . . . . . . . . . . . . . . . 2
varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
varianza di una combinazione lineare . 255
varianza di una trasformazione lineare132
varianza di una variabile casuale . . . . . 402
varianza di un miscuglio . . . . . . . . . . . . 145
varianza between . . . . . . . . . . . . . . 146, 266
varianza campionaria . . . . . . . . . . . . . . . 322
varianza residua della funzione di regres-
sione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264,
146
varianza spiegata . . . . . . . . . . . . . . 266, 146
varianza within . . . . . . . . . . . . . . . . . . . . 146
varianze condizionate . . . . . . . . . . . . . . . 234
variazione assoluta . . . . . . . . . . . . . . . . . . 20
variazione relativa . . . . . . . . . . . . . . . . . . . 20

436
Riferimenti bibliografici
[1] Bertoli Barsotti L. 1998 Probabilità: aspetti storici ed assiomatizzazione. Diritto
allo Studio Universitario, Università Cattolica del Sacro Cuore, Milano.
[2] Bickel P. J., Hammel E. A., O’Connell J. W. 1975 ’Sex bias in graduate admissions:
Data from Berkeley’. Science, 187, 398-403.
[3] Bonanomi A., Cantaluppi G. 2012 Measurement scales, in R. Kenett S. Salini,
Modern Analysis of Customer Surveys: with applications using R, John Wiley,
Chicester.
[4] Borra S., Di Ciaccio A. 2008 Statistica. Metodologie per le scienze economiche e
sociali. Seconda edizione. Mc-Graw-Hill, Milano.
[5] Cantaluppi G., Bianchi B., Piraina D., La Placa F. 2011 A Structural Equation Mo-
del Proposal for evaluating Visitor Satisfaction at an Exhibition. Innovation and
Society. Statistical methods for service evaluation, 30 May - 1 June 2011, Florence
- Book of Abstracts, Facoltà di Economia, Università degli Studi di Firenze p. 52.
[6] Cicchitelli G. 2012 Statistica: principi e metodi. Pearson Education, Milano.
[7] Cohen J. 1989 Statistical Power Analysis for the Behavioral Sciences. Lawrence
Erlbaum Associates.
[8] Cohen J. 1992 ’A Power Primer’, Psychological Bulletin, 112(1), 155-159
[9] Fisher I. 1921 ’The Best Form of Index Number’ Journal of the American Statistical
Association, 17(133), 533-551.
[10] Fisher R. A. 1918 ’Studies in Crop Variation. I. An examination of the yield of
dressed grain from Broadbalk’, Journal of Agricultural Science, 11(2), 107-135.
[11] Frosini B. V. 1990 Lezioni di Statistica. Parte prima. Vita e Pensiero, Milano.
[12] Frosini B. V. 2009 Metodi statistici: teoria e applicazioni economiche e sociali.
Carocci, Roma.
[13] Galton F. R. S. 1886 ’Regression towards Mediocrity in Hereditary Stature’,
Journal of the Anthropological Institute, 15, 246-263.
[14] Greenacre M. 2007 Correspondence analysis in practice. Chapman & Hall, Bocan
Raton, Fla.
[15] Grömping U. 2006 ’Relative Importance for Linear Regression in R: The Package
relaimpo’, Journal of Statistical Software, 17(1), 1-27.
[16] Guseo R. 2006 Statistica. Terza edizione, CEDAM, Padova.
[17] Hyndman R. J., Fan Y. 1996 ’Sample quantiles in statistical packages’, American
Statistician, 50, 361-365.
[18] Huff D. 1954 How to Lie with Statistics. Norton & Company.
[19] James G., Witten D., Hastie T., Tibshirani R. 2015 An Introduction to Statistical
Learning. Springer, New York.
[20] Landenna G. 1994 Fondamenti di statistica descrittiva. Il Mulino, Bologna.
[21] Landenna G. 1997 Introduzione alla probabilità e all’inferenza statistica. Il Mulino,
Bologna.
[22] Landenna G., Marasini D., Ferrari P. 1997 Probabilità e variabili casuali. Il Mulino,
Bologna.
[23] Laspeyres E. 1864 ’Hamburger Waarenpreise 1851-1863 und die californisch-
australischen Goldentdeckungen seit 1848. Ein Beitrag zur Lehre von der
Geldentwerthung’ Jahrbücher für Nationalökonomie und Statistik 3, 81-118, 236.
[24] Magagnoli U. 1993 Elementi di statistica descrittiva. CLUEB, Bologna.
[25] Magagnoli U. 2010 Lezioni di statistica e calcolo delle probabilità. Università degli
Studi di Ferrara.
[26] Montgomery D. C. 2000 Controllo statistico della qualità. Mc-Graw-Hill, Milano.
[27] Montinaro M., Nicolini G. 2007 Elementi di statistica descrittiva. UTET, Torino.
[28] Paasche H. 1874 ’Ueber die Preisentwicklung der letzten Jahre nach den Hamburger

437
Börsennotirungen’ Jahrbücher für Nationalökonomie und Statistik 23(2), 168-178.
[29] Pasetti P. 2002 Statistica del Turismo. Carocci, Roma.
[30] Piccolo D. 2010 Statistica. Il Mulino, Bologna.
[31] Predetti A. 2002 I Numeri Indici - teoria e pratica. Giuffré editore, Milano.
[32] R Core Team 2020 R: A language and environment for statistical computing. R
Foundation for Statistical Computing, Vienna, Austria. https://www.R-proje
ct.org/
[33] Santamaria L. 2006 Statistica descrittiva: applicazioni di carattere economico e
aziendale. Vita e Pensiero, Milano.
[34] Spirer F. H., Spirer L., Jaffe A. J. 1998 Misused Statistics, 2nd ed.. Marcel Dekker.
[35] Verbeek M. 2008 A Guide to Modern Econometrics. John Wiley, New York.
[36] Zanella A. 1992 Lezioni di Statistica. Parte seconda. Strutture dei dati in due o più
dimensioni. La connessione. Vita e Pensiero, Milano.
[37] Zanella A. 2003 Elementi di statistica descrittiva. Una presentazione sintetica.
CUSL, Milano.
[38] Zani S. 1997 Analisi dei dati statistici. Voll. I,II. Giuffré editore, Milano.
[39] Zenga M. 1998 Introduzione alla statistica descrittiva. Vita e Pensiero, Milano.
[40] Zenga M. 2009 Lezioni di statistica descrittiva. Giappichelli, Torino.

Questo volume è stato redatto con MiKTeX (versione 21.6.28), R (versione 4.1.0) e Swea-
ve. Per la realizzazione sono, inoltre, stati utilizzati i package e le utility di seguito
elencati.
1. Chen H. 2018 VennDiagram: Generate High-Resolution Venn and Euler Plots.
R package version 1.6.20. https://CRAN.R-project.org/package=Ve
nnDiagram
2. Csardi G., Nepusz T. 2006 The igraph software package for complex network
research, InterJournal, Complex Systems p. 1695. http://igraph.org
3. Dahl D. B., Scott D., Roosen C., Magnusson A., Swinton J. 2019 xtable: Export
Tables to LaTeX or HTML. R package version 1.8-4. https://CRAN.R-proje
ct.org/package=xtable
4. Faraway J. 2016 faraway: Functions and Datasets for Books by Julian Faraway.
R package version 1.0.7. https://CRAN.R-project.org/package=fara
way
5. Hlavac M. 2018 stargazer: Well-Formatted Regression and Summary Statistics
Tables. R package version 5.2.2. http://CRAN.R-project.org/package=
stargazer
6. Leisch F. 2002 Sweave: Dynamic Generation of Statistical Reports Using Literate
Data Analysis. In W. Härdle, B. Rönz (eds.), Compstat 2002 - Proceedings in
Computational Statistics, pp. 575-580. Physica Verlag, Heidelberg.
7. R Core Team 2020 foreign: Read Data Stored by ’Minitab’, ’S’, ’SAS’, ’SPSS’,
’Stata’, ’Systat’, ’Weka’, ’dBase’, . . .. R package version 0.8-81. https://CR
AN.R-project.org/package=foreign
8. Verzani J. 2018 UsingR: Data Sets, Etc. for the Text "Using R for Introductory
Statistics", Second Edition. R package version 2.0-6. https://CRAN.R-proje
ct.org/package=UsingR
9. Xie Y. 2013 animation: An R Package for Creating Animations and Demon-
strating Statistical Methods. Journal of Statistical Software, 53(1), 1-27. http:
//www.jstatsoft.org/v53/i01/.
10. Xie Y., Mueller C., Yu L., Zhu W. 2018 animation: A Gallery of Animations in
Statistics and Utilities to Create Animations. R package version 2.6.

438
E PRIMI ELEMENTI DI CALCOLO DELLE PROBABILITÀ
GIUSEPPE BOARI – GABRIELE CANTALUPPI

NOTE DI STATISTICA DESCRITTIVA


NOTE DI STATISTICA DESCRITTIVA EDUCatt - Ente per il Diritto allo Studio Universitario dell’Università Cattolica
Largo Gemelli 1, 20123 Milano - tel. 02.7234.22.35 - fax 02.80.53.215
e-mail: editoriale.dsu@educatt.it (produzione); librario.dsu@educatt.it (distribuzione)
web: www.educatt.it/libri

E PRIMI ELEMENTI
DI CALCOLO DELLE PROBABILITÀ

GABRIELE CANTALUPPI
GIUSEPPE BOARI

Euro 22,00
2021

Potrebbero piacerti anche