Dispensa Statistica

Lezioni di Statistica
Giovanni M. Marchetti
Universita di Sassari, Facolta di Scienze Politiche, Anno accademico 1996{1997

2
Indice
1 Concetti introduttivi 1
1.1 Fenomeni collettivi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Unita' . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.3 Caratteri . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.4 Processo di rilevazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.5 Osservazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.6 Tipi di indagine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.7 Campioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.8 Censimenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.9 Confronti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.10 Studi osservazionali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.11 Esperimenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.12 Confronti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.13 Denizione delle unita' . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.14 Dati individuali e aggregati . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.15 Tipi di caratteri . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.16 Caratteri continui . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.17 Caratteri discreti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.18 Modalita' di un carattere continuo . . . . . . . . . . . . . . . . . . . . . . . . 8
1.19 Discretezza delle misurazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.20 Caratteri ordinali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.21 Caratteri sconnessi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.22 Tempo e spazio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.23 Spazio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.24 Rilevazioni statiche e dinamiche . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.25 Serie storiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2 Distribuzioni di frequenza 13
2.1 Successioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2 Frequenze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.3 Presentazioni tabulari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.4 Distribuzione di frequenze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.5 Costruzione delle distribuzioni di frequenza . . . . . . . . . . . . . . . . . . . 15
i
ii
2.6 La struttura del fenomeno collettivo . . . . . . . . . . . . . . . . . . . . . . . 15

2.7 Calcoli per le frequenze relative . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.8 Percentuali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.9 Frequenze relative percentuali . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.10 Eliminazione di N e confronti . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.11 Il problema delle frequenze piccole . . . . . . . . . . . . . . . . . . . . . . . . 17
2.12 Aggregazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.13 Classi per caratteri continui . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.14 Distribuzioni in classi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.15 Ampiezza delle classi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.16 Confronti tra frequenze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.17 Densita' di frequenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3 Rappresentazioni grache 23
3.1 Visualizzazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.2 Scatter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.3 Istogrammi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.4 Diagrammi a barre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.5 Altre rappresentazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.6 Confronto tra una torta e un diagramma a barre . . . . . . . . . . . . . . . . 27
4 Sintesi di distribuzioni univariate 29
4.1 Rapporti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.2 Variabili discrete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.3 Mutabili . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.4 Sintesi di una distribuzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.5 Caratteri ordinali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.6 Media aritmetica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.7 Media di una variabile discreta . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.8 Media e mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.9 Confronti di medie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.10 Confronti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.11 La media e' interna . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.12 Medie di trasformazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.13 Medie di trasformazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.14 Ammontare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.15 Medie di medie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.16 Medie ponderate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.17 Medie di medie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.18 Ogni media e' imprecisa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.19 Equazione base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.20 Proprieta' degli scarti dalla media . . . . . . . . . . . . . . . . . . . . . . . . 39
4.21 Varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.22 Variabilita' . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
iii
4.23 Unita' di misura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

4.24 Interpretazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.25 Proprieta' dello sqm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.26 Scarto quadratico medio di distribuzioni . . . . . . . . . . . . . . . . . . . . . 40
4.27 Calcoli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.28 Varianza di una variabile discreta . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.29 Intervalli intorno alla media . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.30 Esempi della regola dei tre sqm . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.31 Trasformazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5 Serie storiche 45
5.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
5.2 Variazioni e tassi di variazione . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.3 Numeri indici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.4 Varaizioni relative complessive e medie di numeri indici . . . . . . . . . . . . 52
5.5 Numeri indici composti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.6 De azionamento di valori espressi in moneta corrente . . . . . . . . . . . . . . 56
6 Distribuzioni di due caratteri 59
6.1 Distribuzioni doppie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
6.2 Esempi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
6.3 Medie di distribuzioni doppie . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
6.4 Associazione tra due caratteri quantitativi . . . . . . . . . . . . . . . . . . . . 67
6.5 Covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
7 Relazioni tra due caratteri: correlazione 75
7.1 Dipendenza e interdipendenza . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
7.2 Misure di interdipendenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
7.3 Standardizzazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
7.4 Correlazione e standardizzazione . . . . . . . . . . . . . . . . . . . . . . . . . 80
8 Dipendenza e indipendenza 83
8.1 Distribuzioni condizionate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
8.2 Indipendenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
8.3 Relazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
9 Confronti di medie 97
9.1 Medie condizionate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
9.2 Varianza interna . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
9.3 Varianza tra gruppi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
10 Regressione 107
10.1 Funzione di regressione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
10.2 Varianze condizionate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
10.3 Approssimazioni analitiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
iv
10.4 Funzione di regressione lineare . . . . . . . . . . . . . . . . . . . . . . . . . . 114

11 Interpolazione 119
11.1 Tipi di interpolazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
11.2 Interpolazione per punti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
11.3 Fasi dell'interpolazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
11.4 Metodo dei minimi quadrati . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
11.5 Valori adattati e residui . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
11.6 Bonta' di adattamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
11.7 Analisi dei residui . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
12 Campioni casuali e probabilita' 145
12.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
12.2 Campioni casuali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
12.3 Probabilita' . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
12.4 Operazioni con gli eventi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
12.5 Calcolo delle probabilita' . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
12.6 Probabilita' condizionata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
12.7 Indipendenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
13 Campionamento da una popolazione dicotomica 165
13.1 Variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
13.2 Variabile di Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
13.3 Campionamento e universo dei campioni . . . . . . . . . . . . . . . . . . . . . 169
13.4 Distribuzione campionaria di una proporzione . . . . . . . . . . . . . . . . . . 172
14 Campionamento da una popolazione Gaussiana 181
14.1 Variabili aleatorie continue . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
14.2 Variabile aleatoria Gaussiana . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
14.3 Probabilita' per la normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
14.4 Modelli Gaussiani . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
14.5 Campionamento da una popolazione normale . . . . . . . . . . . . . . . . . . 189
14.6 Distribuzione campionaria della media . . . . . . . . . . . . . . . . . . . . . . 191
15 Introduzione alla stima 195
15.1 Problemi di stima . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
15.2 Come si valuta una stima? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
A Dati 203
A.1 Dati sui frequentanti di un corso di Statistica . . . . . . . . . . . . . . . . . . 203
B Tavola della distribuzione normale 207
SETTIMANA 1
Concetti introduttivi
1.1 Fenomeni collettivi

1. Che cos'e' la statistica?
La Statistica si occupa dell'analisi quantitativa dei fenomeni collettivi.
2. Che cosa sono i fenomeni collettivi?

Sono fenomeni composti da un gran numero di unita' elementari, ma che sfuggono all'os-
servazione diretta. Possono essere studiati rilevando su ciascuna unita' gli aspetti misurabili
ritenuti importanti e analizzando in modo opportuno le misure ottenute.
Il metodo statistico permette di far emergere delle regolarita' che non potrebbero essere
notate altrimenti.
L'insieme degli studenti di un corso universitario. Quali sono le caratteristiche degli
studenti?
Un campione di elettori estratto per stimare la proporzione di favorevoli al capo di
governo
L'insieme dei potenziali pazienti soerenti di ipertensione. Il farmaco A e' migliore del
farmaco B per regolarizzare la pressione?
L'economista sa che il consumo delle famiglie dipende dal reddito, secondo una legge
crescente. La legge che lega il consumo al reddito e' un fenomeno collettivo che nasce
da una molteplicita' di comportamenti individuali.
1.2 Unita'
3. Come si puo' denire un fenomeno collettivo?
1
2
Vi sono tre concetti, intimamente legati, che permettono di denire quantitativamente

un fenomeno collettivo e cioe' il concetto di unita', il concetto di carattere e il concetto di
processo di rilevazione.
4. Che cos'e' un'unita' statistica?
Le entita' elementari del fenomeno collettivo si chiamano unita' statistiche o unita' di
osservazione e l'insieme che le comprende si dice popolazione o collettivo.
1.3 Caratteri
5. Che cos'e' un carattere?
Il fenomeno collettivo viene studiato prendendo in esame una o piu' caratteristiche og-
getto di interesse. Tali caratteristiche non possono essere rilevate direttamente sul fenomeno
collettivo, ma sulle singole unita' di osservazione che lo compongono. Ogni caratteristica
studiata si dice carattere o fenomeno e le sue possibili manifestazioni si chiamano modalita'
del carattere.
1.4 Processo di rilevazione
6. Che cos'e' il processo di rilevazione?
E' necessario intraprendere un processo di rilevazione durante il quale ciascuna unita'
viene osservata per vedere come le caratteristiche in questione si manifestano.
7. In cosa consiste?
Esso consiste nell'associare a ciascuna unita' del collettivo una e una sola modalita' del
carattere.
8. Che cos'e' una modalita' di un carattere?
Una modalita' e' uno dei possibili modi con cui il carattere si puo' manifestare.
9. Che cos'e' una determinazione di un carattere?
Una determinazione e' una realizzazione del carattere su una particolare unita' statistica.
10. Dati sul collettivo dei frequentanti del corso di Statistica di questa facolta'
Include anche studenti di altre facolta'
Il numero di unita' e' variabile, rilevazione con un questionario anonimo
Caratteri
Carattere Modalita'
sesso fm, fg
scuola fliceo, istituto tecnico, altrog
voto maturita' f36,37, . . . , 59, 60g
componenti famiglia f1, 2, 3, . . . g
durata (minuti) qualsiasi tempo 0
3
1.5 Osservazioni
11. Come possono essere le modalita' teoriche di un carattere?
Per alcuni caratteri le modalita' sono numeriche mentre per altri sono categorie.
12. Tutti i caratteri hanno una unita' di misura?
Alcuni caratteri (es. la durata) hanno una unita' di misura ed e' necessario sceglierla.
Altri caratteri hanno una unita' di misura naturale (es. il numero di componenti). Altri
caratteri non hanno unita' di misura (il sesso).
13. Che cos'e' il raggruppamento in classi?
Quando le modalita' di un carattere sono molte (es. tipo di scuola) puo' essere utile
raggrupparle in un numero minore di classi (sottoinsiemi di modalita').
14. Che cos'e' lo strumento di misura usato nel processo di rilevazione?
E' il mezzo tecnico con cui il dato statistico viene rilevato. Nell'esempio e' il questionario.
15. Che cosa sono gli errori di misura?
Sono gli errori che si commettono nel rilevare il dato a causa di una imperfezione sistema-
tica dello strumento di misura. Ad esempio se il questionario e' mal realizzato o distribuito i
dati rilevati sono presumibilmente aetti da errori di misura
16. Che associazione produce il processo di rilevazione?
Esso realizza l'associazione di una e una sola modalita' di ciascun carattere a ciascuna
unita'.
17. Che cosa sono i dati mancanti?
Si hanno dati mancanti quando, per vari motivi, non e' possibile rilevare il dato relativo
a un carattere su una particolare unita'. Nel caso di indagini tramite questionario essi sono
associati a non risposte
18. Come si chiama il dato osservato su ogni unita'?
Si dice determinazione o realizzazione del carattere.
19. Risultati dei primi 5 questionari relativi all'anno accademico 95{96 e per i due caratteri
sesso e voto.
studente 1 2 3 4 5
sesso m f f f f
voto 46 54 57 48 58
20. Quante sono le modalita' del sesso?
Due.
4
21. Quante sono le determinazioni del sesso in questo esempio?

Sono 5, una per ogni unita'.
1.6 Tipi di indagine
22. Quali sono i tipi fondamentali di indagine?
Si distinguono
(a) le indagini campionarie
(b) i censimenti
(c) gli studi osservazionali
(d) gli esperimenti
1.7 Campioni
23. Che cos'e' una indagine campionaria?
E' caratterizzata dall' estrazione di un campione, di solito con metodi probabilistici da
una popolazione e dalla rilevazione di un certo numero di caratteri.
24. Che cos'e' un campione?

E' un sottoinsieme della popolazione.
25. Come si chiama la branca della statistica che si occupa della progettazione delle indagini
campionarie?
Campionamento statistico.
26. Qual'e' l'obbiettivo delle indagini campionarie?

Il loro obbiettivo e' quello di fornire stime di medie, proporzioni o totali relativi alla
popolazione oggetto di studio.
1.8 Censimenti
27. Che cos'e' un censimento?
E' un indagine che si propone di rilevare un certo numero di caratteri sul tutte le unita'
di una popolazione a una certa data.
28. Esempi rilevanti?

Ogni dieci anni l'Istituto Nazionale di Statistica (istat) eettua il Censimento della Po-
polazione, il Censimento dell'Industria, del Commercio, dei Servizi e dell'Artigianato e il
Censimento dell' Agricoltura.
5
1.9 Confronti
29. Qual'e' la dierenza essenziale tra indagini campionarie e censimenti?
Nelle prime si opera una rilevazione parziale, mentre nei secondi si opera una rilevazione
completa.
30. Quali sono i vantaggi e gli svantaggi?

I censimenti pur utilissimi sono indagini estremamente costose e quindi sono eettuati solo
ogni 10 anni. Le indagini campionarie sono assai meno costose e possono fornire informazioni
tempestive.
31. Quali tipi di errori sono rilevanti nelle indagini campionarie?

Gli errori di campionamento, cioe' l'errore dovuto dall'aver trascurato una parte della
popolazione.
32. Quali tipi di errori sono rilevanti nei censimenti?

Gli errori non campionari, cioe' gli errori di misura dovuti all'errato riempimento dei
questionari presentati dagli uciali di censimento.
33. E'possibile stimare l'ordine di grandezza degli errori?

E'possibile per gli errori di campionamento se il campionamento e' casuale. Gli errori
non campionari sono talvolta rilevanti e possono essere ridotti solo migliorando il processo di
rilevazione.
1.10 Studi osservazionali
34. Che cos'e' un indagine osservazionale?
E' un'indagine realizzata raccogliendo dati, cosi' come si presentano, sulle unita apparte-
nenti a qualche sistema. Si parla di indagini basate su osservazioni passive. In questo caso il
ricercatore non ha alcun controllo sulla raccolta dei dati.
35. Quali scienze utilizzano dati osservazionali?

Per esempio l'astronomia e l'economia. Gli astronomi e gli economisti cercano di control-
lare e interpretare le indagini utilizzando le relative costruzioni teoriche. Solo in questo modo
essi possono vericare teorie contrapposte.
1.11 Esperimenti
36. Che cos'e' un esperimento?
Un esperimento e' un' indagine accuratamente controllata e progettata per scoprire co-
sa succede ad un carattere oggetto di studio (la risposta) quando uno o piu' caratteri (i
trattamenti), vengono fatti variare.
6
37. Come e' eettuato un esperimento?

Si sceglie un certo numero di unita sperimentali, a ciascuna unita' si assegna un tratta-
mento scelto opportunamente, e alla ne si rileva un carattere sulle unita' cosi' trattate.
38. Come e' assegnato il trattamento?
L'assegnazione del trattamento all'unita' sperimentale e' decisa in modo casuale. Il
procedimento in questione si dice randomizzazione.
1.12 Confronti
39. Qual'e' la dierenza essenziale tra esperimenti e indagini osservazionali?
Negli esperimenti il sistema e' controllato dal ricercatore. Solo i trattamenti possono
in uenzare la risposta e sono assegnati a caso. Invece nelle indagini osservazionali il sistema
non e' controllato dal ricercatore. Molti caratteri possono in uenzare la risposta e alcuni non
sono noti.
40. Come si fa a stabilire se il trattamento ha eetto?
Se alla ne si osserva una dierenza nella risposta a due trattamenti questa puo' essere
attribuita solo ai trattamenti e non ad altro. Se non vi e' dierenza i trattamenti non sono
signicativamente diversi.
1.13 Denizione delle unita'
41. Che cos'e' una popolazione?
Una popolazione raccoglie delle unita' statistiche caratterizzate dal fatto di possedere delle
proprieta' comuni ed e' pertanto un insieme strutturato, dotato di rilevanza scientica.
42. Che cosa si intende per denizione delle unita'?
Si intende il procedimento con cui si denisce in modo univoco l'unita' di osservazione in
modo da evitare incertezze.
43. Se si studia il collettivo delle famiglie residenti in un certo comune, occorre denire in
modo preciso che cosa si intende per famiglia. E' una famiglia un convento, un ospedale, una
persona che vive sola?
44. Si puo' lasciare la denizione delle unita' al rilevatore?
No. Se la scelta non viene denita in modo preciso e universale, l'intero procedimento ne
risulta aetto e i confronti con altre rilevazioni non sono possibili.
1.14 Dati individuali e aggregati
45. Come possono essere le unita' statistiche?
Si distinguono unita' statistiche individuali in cui la determinazione del carattere e' riferita
a un entita' indivisibile e unita' aggregate che sono costituite da insiemi di unita' del primo
tipo.
7
46. Fare un esempio di unita' individuale.

Un'unita' individuale e' un individuo, una famiglia, una azienda, un nato, una partita
esportata, un punto geograco.
47. Fare un esempio di unita' aggregata.
Un insieme di residenti in uno stesso comune, un insieme di nati in un comune in un certo
mese, una regione geograca.
48. Qual'e' il problema dell'unita' modicabile?
Siccome il raggruppamento e' arbitrario, le unita' aggregate sono entita' modicabili che
non hanno una connotazione intrinseca.
1.15 Tipi di caratteri
49. Qual'e' la classicazione fondamentale dei caratteri?
Una possibile classicazione distingue
i caratteri continui,
i caratteri quantitativi discreti,
i caratteri ordinali,
i caratteri sconnessi o nominali
i caratteri dicotomici o binari.
1.16 Caratteri continui
50. Quali sono i caratteri continui?
I caratteri continui sono quelli le cui modalita' possono essere, almeno in linea di principio,
espresse da qualsiasi numero reale compreso in un intervallo.
51. Quante sono le modalita' teoriche di un carattere continuo?
Sono innite non numerabili. Di solito derivano da un operazione di misura con qualche
strumento.
1.17 Caratteri discreti
52. Quali sono i caratteri quantitativi discreti?
I caratteri quantitativi discreti sono quelli le cui modalita' sono numeri naturali, cioe'
sottoinsiemi di f0; 1; 2; 3; : : :g. Di solito derivano da un operazione di conteggio.
53. Qual'e' il signicato delle dierenze tra modalita'?
Nei caratteri continui e in quelli quantitativi discreti le modalita' sono espresse da numeri
ed esprimono l'intensita' del carattere. Pertanto le dierenze sono interpretate come una
misura della separazione tra le modalita'.
8
54. Un medico e' interessato a studiare un gruppo di pazienti aetti da disturbi cardiaci.
Per ciascun paziente rileva i seguenti caratteri.
Carattere Modalita' teoriche
pressione sanguigna (mm) x reale tale che 80 x 250
numero di battiti al minuto f20, 21, 22, . . . , 200g
altezza (cm) x reale tale che 150 x 200
55. Classicare i caratteri precedenti.
La pressione e' un carattere continuo misurato con un strumento chiamato sgmomano-
metro. L'unita' di misura e' in mm di mercurio.
Il numero di battiti e' un carattere discreto perche' e' un conteggio.
L'altezza e' anch'essa un carattere continuo perche' si assume che essa vari in uno stesso
individuo con continuita' e non a salti.
1.18 Modalita' di un carattere continuo
56. Che cosa si intende per unita' minima di misurazione?
Si intende quella tollarenza posseduta da ogni strumento di misura al di la' della quale
esso non riesce a distinguere.
57. Fare un esempio.

Il metro per misurare l'altezza ha una unita' minima di misurazione che e' il mm.
58. Che cosa si intende per modalita' teoriche di un carattere continuo?

Sono le modalita' che sono concepibili a priori per il carattere e che lo strumento di misura
dovrebbe rilevare. I caratteri continui hanno un numero innito di modalita' teoriche.
1.19 Discretezza delle misurazioni
59. Che cosa sono le modalita' eettive di un carattere continuo?
Sono le modalita' che eettivamente si possono distinguere con lo strumento di misura e
che dipendono dalla unita' minima di misurazione dello stesso.
60. Quante sono le modalita' eettive di un carattere?

Sono sempre nite e discrete.
61. Come si interpretano le modalita' eettive di un carattere continuo?

Come degli intervalli di numeri.
62. Quante sono le modalita' eettive dell'altezza se e' misurata in cm ed e' compresa tra
150 e 200 cm?
Il carattere rilevato ha solo 51 possibili modalita' contro le innite possibili.
9
63. Se l'altezza di un individuo e' misurata in 175 cm qual'e' l'intervallo di misure corri-
spondente?
L'intervallo di misure che vanno da 174.5 cm a 175.5 cm.
1.20 Caratteri ordinali
64. Quali sono i caratteri ordinali?
I caratteri ordinali (o ordinabili), sono quelli che hanno delle modalita' che possono essere
ordinate.
65. Fare esempi di caratteri ordinali.

I caratteri che esprimono graduatorie come il titolo di studio con modalita': senza titolo,
licenza elementare, licenza media, diploma, laurea, dottorato.
I giudizi espressi su scale a cinque valori come totalmente contrario, contrario, neutrale,
daccordo, totalmente daccordo.
66. Si possono interpretare le dierenze tra modalita' di caratteri ordinali?

No, le dierenze tra le modalita' non si possono interpretare come per i caratteri continui
o quantitativi discreti. In tali casi e' possibile stabilire che una unita' e' maggiore o minore
di un altro, ma non si sa stabilire di quanto.
67. Se si associano dei punteggi numerici alle modalita' di un carattere ordinale, si possono
interpretare le dierenze tra punteggi?
No non e' possibile.
68. I caratteri continui e quantitativi discreti sono ordinali?

Si', sono ordinali perche' le loro modalita' possono essere ordinate.
1.21 Caratteri sconnessi
69. Che cosa e' un carattere sconnesso?
I caratteri sconnessi (o nominali) sono quelli che hanno come modalita' degli attributi
senza un ordine naturale. L'insieme delle modalita' di un carattere sconnesso e' un insieme
di categorie completamente privo di struttura i cui elementi si possono permutare. Talvolta
le modalita' vengono chiamate classi.
70. Quali sono i caratteri dicotomici?

I caratteri dicotomici o binari sono quelli che misurano la presenza o l'assenza di una
particolare caratteristica dell'unita'. Essi pertanto hanno due sole modalita'.
71. La segreteria dell'Universita' rileva per tutti gli studenti iscritti all'Ateneo vari caratteri
tra cui i seguenti
10
Carattere Modalita'
sesso fm,fg
e' in regola? fsi', nog
facolta' (elenco di tutte le facolta')
anno di iscrizione f1, 2, 3, 4, 4o ripetente, fuori corsog
72. Classicare i caratteri dell'esempio.
Il carattere sesso e' dicotomico, perche' le mod unita'.
73. Classicare i caratteri X2; X3; X4; X8 e X10.
Il carattere X2 , numero di componenti della famiglia e' quantitativo discreto.
Il carattere X3 , scuola di provenienza e' sconnesso.
Il carattere X4 , voto alla maturita' e' ordinabile.
Il carattere X8 , quanti minuti impieghi a raggiungere l'universita'?, e' continuo.
Il carattere X10, fumi?, e' binario.
74. Il carattere voto alla maturita' e' quantitativo discreto?
A rigore no, perche' non e' possibile interpretare le dierenze tra punteggi dicendo, ad
esempio che la dierenza tra un punteggio di 60 e uno di 54 e' la stessa esistente tra 42 e 36.
E' possibile invece ordinare gli studenti dai meno bravi ai piu' bravi.
75. Il carattere religione che tipo di carattere e'?
Sconnesso.
76. Il carattere numero di gli che tipo di carattere e'?
Quantitativo discreto.
77. Qual'e' l'unita' statistica cui va riferito il carattere precedente?
La famiglia.
1.22 Tempo e spazio
78. E' importante il tempo in un indagine statistica?
Si e' importante. Su ogni unita' statistica e' possibile rilevare il tempo al quale la
rilevazione e' avvenuta.
79. Come si distinguono i fenomeni in relazione alla rilevazione nel tempo?
Certi fenomeni si possono rilevare in un preciso istante di tempo e vengono detti fenomeni
di stato, mentre per altri la rilevazione deve avvenire necessariamente in un intervallo di tempo
e vengono detti fenomeni di movimento o di usso.
80. Quando si ottengono tipicamente i dati di usso?
Quando si contano eventi che avvengono secondo un processo temporale.
11
81. Fare esempi di dati di stato e di usso.

L'eta' di un individuo, la sua altezza, la posizione nel lavoro sono tutti fenomeni di stato.
Invece il numero di nati puo' essere rilevato solo facendo riferimento a un intervallo di
tempo e pertanto e' un dato di usso.
82. Qual'e' il processo temporale sottostante all'esempio dei nati?

Le nascite sono eventi che avvengono ad istanti precisi, secondo un processo temporale.
Il numero di nati al mese misura la velocita' con cui avvengono le nascite.
83. Fare altri esempi di dati di usso.

Il numero di incidenti su un tratto di strada.
I consumi mensili di una famiglia.
La consistenza del conto in banca di un cliente di una banca e' un dato di stato perche'
puo' essere rilevato in un istante di tempo. Il numero di prelievi e', invece, un dato di usso.
1.23 Spazio
84. Perche' ha rilevanza la collocazione spaziale di una unita'?
Perche' alcuni fenomeni possono essere rilevati in un punto geograco preciso mentre altri
debbono essere riferiti a una zona di territorio.
85. Fare degli esempi di fenomeni che possono essere riferiti a un punto geograco.
Ad ogni famiglia si puo' associare la residenza mediante la posizione su un arco di strada
della mappa del comune.
In ogni punto geograco si puo' rilevare un carattere come la temperatura o la pressione.
86. Fare esempi di fenomeni che debbono essere riferiti a zone.

La popolazione residente, puo' essere riferita solo a una unita' statistica che e' una zona
del territorio, per esempio un comune. Non e' possibile rilevare la popolazione in un punto.
1.24 Rilevazioni statiche e dinamiche
87. Che cosa si intende per rilevazione statica?
E' una rilevazione in cui si vuole cogliere un immagine istantanea del fenomeno collettivo,
e l'aspetto dinamico (nel tempo) viene ignorato perche' ritenuto non di interesse primario.
88. Che cosa e' una rilevazione dinamica?

Si ha quando la dinamica temporale non puo' essere trascurata perche' e' proprio attra-
verso di essa che si colgono gli aspetti piu interessanti del fenomeno collettivo.
89. Che cosa e' una indagine longitudinale?

Si ha quando il carattere oggetto di studio viene rilevato in piu' tempi successivi. Si
dispone pertanto di dati longitudinali ossia di misure ripetute per ciascuna unita'.
12
90. Fare degli esempi di indagine statica.

Se si rilevano i consumi di un collettivo di famiglie ad un certo tempo, i dati sono statici.
91. Fare esempi di dati e indagini dinamiche.
Il prodotto interno lordo italiano negli ultimi 10 anni.
Le indagini cliniche che seguono nel tempo campioni di soggetti per osservare alla ne
un evento oggetto di interesse (l'insorgenza di una malattia, la guarigione completa dopo un
intervento).
92. Qual'e' la distinzione essenziale tra indagini statiche e dinamiche?
Nelle prime vi e' essenzialmente una sola rilevazione, mentre nelle seconde vi sono piu'
rilevazioni sulle stesse unita' in tempi diversi.
1.25 Serie storiche
93. Che cos'e' una serie storica?
E' un insieme di dati rilevati in tempi successivi su una sola unita'.
94. Fare degli esempi di serie storiche.
Un pediatra e' interessato a studiare la crescita di un bambino e a rilevare, per esempio,
l'altezza a intervalli di tempo, durante i primi due anni di vita. La successione di misure
ripetute su un solo bambino e' una serie storica.
La successione degli incassi di un supermercato a ne della giornata, per un mese e' una
serie storica.
SETTIMANA 2
Distribuzioni di frequenza
2.1 Successioni
In quello che segue si considera il caso piu' semplice in cui si dispone di una popolazione di
unita' osservata a un certo tempo, e su cui viene rilevato un solo carattere.
95. Che cos'e' la successione delle determinazioni?

Al termine della rilevazione, l'insieme dei dati rilevati sul carattere per ciascuna unita'.
Esso e' chiamato insieme delle osservazioni o successione delle determinazioni.
96. La successione puo' essere compattata?

Siccome spesso le modalita' del carattere sono molto minori del numero di osservazioni,
la successione puo' essere compattata elencando accando alle modalita' teoriche il numero di
volte che esse sono ripetute.
2.2 Frequenze
97. Come si chiama il numero di volte che una modalita' si ripete?
Si dice frequenza assoluta, o semplicemente frequenza, associata alla modalita'.
98. Che cos'e' una frequenza?

La frequenza associata a una modalita' indica il numero di unita' statistiche nella popo-
lazione che possiedono quella modalita'.
99. Qual'e' la successione delle determinazioni della Scuola di provenienza per i dati sui
frequentanti?
E' composta delle 94 osservazioni seguenti
13
14
I L L L L L L L I L I I I L L L I I A I
I A I I L I I L L I I L I L L I L A I L
A A A L I I A I L I L I L L L I I L I L
L I L I I L L A I L L L L I I I I I I I
I L I L I L I L L L L I I I
dove L = Liceo, I = Istituti tecnici, e A = Altre scuole.
100. Quali sono le frequenze?
Una semplice operazione di spoglio permette di riassumere l'insieme delle osservazioni
nella tabella seguente
Modalita' Frequenza
L 42
I 44
A 8
2.3 Presentazioni tabulari
101. Come si presentano le frequenze?
La tabella e' migliorata aggiungendo il totale delle osservazioni e scrivendo per esteso le
modalita', per esempio
Tipo di scuola Studenti
Liceo 42
Istituti tecnici 44
Altre scuole 8
Totale 94
102. Si possono mettere le frequenze per colonne?
Ovviamente si'. Per esempio,
Tipo di scuola Liceo Istituti tecnici Altre scuole Totale
Studenti 42 44 8 94
2.4 Distribuzione di frequenze
103. Che cos'e' una distribuzione di frequenze?
E' la tabella che si ottiene associando ad ogni modalita' teorica le frequenze osservate,
alludendo al fatto che le unita' vengono distribuite ossia classicate secondo le modalita' del
carattere.
104. Che signica distribuzione di frequenze semplice?
Distribuzione di frequenze di un solo carattere.
105. Che cosa si perde passando dalla successione alla distribuzione?
Non si puo' piu' conoscere il dato relativo a ciascuna unita'.
15
106. Costruire la distribuzione di frequenza secondo il numero di componenti della famiglia.

Numero di componenti 1 2 3 4 5 6 7 8 Totale
Studenti 1 1 15 44 19 8 2 2 92
107. Perche' il totale e' 92 e non 94?

Perche' ci sono due dati mancanti.
2.5 Costruzione delle distribuzioni di frequenza
108. Come si costruiscono usualmente le tavole di frequenza?
Spesso l'operazione di classicazione e tabulazione delle osservazioni e' realizzata \con
l'elaboratore".
109. Quali sono i passi necessari per costruire una buona tabella?
(a) La successione delle osservazione deve essere registrata in modo opportuno su un ar-
chivio elettronico (le), (b) deve essere scritto un opportuno programma che usi un algoritmo
per classicare le osservazioni, (c) il programma deve essere fatto girare con i dati registrati
e, inne, (d) i risultati forniti dall'elaboratore debbono essere riscritti in forma leggibile.
110. Dati della World Fertility Survey, anno 1974 per le isole Figi. La popolazione e'
costituita da donne sposate di eta' tra 15 e 49 anni. Il carattere rilevato e' la residenza con
modalita': Suva (la capitale), Altre zone urbane, Zona rurale, Non precisata. La distribuzione
di frequenza e' la seguente
Residenza Numero di donne
Suva 800
Altre zone urbane 964
Zona Rurale 3146
Non precisata 18
Totale 4928
2.6 La struttura del fenomeno collettivo
La distribuzione di frequenza non e' soltanto un modo per compattare la successione delle
osservazioni, ma e' anche un modo per fare emergere la struttura del fenomeno collettivo.
111. Qual'e' il modo migliore per evidenziare la struttura della popolazione?

Il modo migliore e' prescindere dall'eettiva numerosita' del collettivo. Questo si puo'
ottenere calcolando per ogni modalita' la proporzione di unita' della popolazione che la
possiedono.
112. Che cos'e' una frequenza relativa?

E' il rapporto tra ogni frequenza e il numero totale di unita' statistiche.
16
2.7 Calcoli per le frequenze relative

113. Se si denota con n la frequenza di una certa modalita' e N il numero totale di unita'
come si calcola la frequenza relativa?
Si calcola col rapporto
f = Nn :
114. La somma delle frequenze relative a cosa e' eguale?
Poiche' sono quote della popolazione esse sommano a uno.
2.8 Percentuali
115. Che cos'e' una percentuale?
Dato un rapporto a=b si dice che si esprime in percentuale se si trova quel valore x tale
che a= x
b 100
116. Esprimere 1=2 in percentuale.
E' 50%. Infatti, 1 sta a 2 come 50 sta a 100.
117. Dato un rapporto, come si trasforma in percentuale?
Si moltiplica per 100 e si aggiunge il simbolo %.
118. Data una percentuale come si trasforma in numero?
Basta togliere il simbolo % e dividere per 100.
2.9 Frequenze relative percentuali
119. Che cos'e' una frequenza relativa percentuale?
E' una frequenza relativa espressa in forma percentuale.
120. Che informazioni fornisce una frequenza relativa percentuale?
Esprime la percentuale di popolazione (cioe' di unita') che possiede la modalita' associata.
121. Quant'e la somma delle frequenze percentuali?
E' 100 (a meno di errori di arrotondamento).
122. Ottenere la distribuzione di frequenza relativa del tipo di scuola, dai dati sui frequen-
tanti.
Modalita' Frequenza Frequenza relativa %
Licei 42 0.446 44.6
Istituti Tecnici 44 0.469 46.9
Altre scuole 8 0.085 8.5
Totale 94 1.0000 100.0
17
123. Come e' stata ottenuta la percentuale 44:6%?

Col calcolo 42=94 100%.
2.10 Eliminazione di N e confronti
124. Qual'e' in sintesi l'utilita' dell'aver calcolato le frequenze relative?
E' il fatto di rendere possibili i confronti. Questi possono essere eettuati poiche' e' stato
eliminato l'eetto della numerosita' della popolazione. Infatti, poiche' si e' fatto 100 il totale
del collettivo e si sono ricalcolate le frequenze in proporzione, e' possibile mettere a confronto
distribuzioni aventi numerosita' diverse, ma le stesse modalita'.
125. I dati seguenti riguardano tutti i casi giudicati in Florida dal 1976 al 1987, per omicidi
multipli, classicati a seconda che l'accusato abbia ricevuto la pena capitale oppure no. I
collettivi studiati sono due: quello relativo agli accusati di razza bianca e quello degli accusati
di razza nera.
Razza bianca
Pena capitale? S No Totale
Frequenza 53 430 483
Razza nera
Frequenza 15 176 191
Fonte: M. L. Radelet e G. L. Pierce, Florida
Law Rev. 43: 1{34 (1991).
126. Calcolare le frequenze relative sui dati dell'esempio precedente, per i due collettivi.
Razza bianca
Frequenza % 11.0 89.0 100
Razza nera
Frequenza % 7.9 92.1 100
127. Confrontare i due collettivi.
Il confronto che non e' agevole con le frequenze assolute e' immediato con le frequenze
relative. L'11% degli accusati di razza bianza ha ricevuto la pena capitale, contro il 7.9%
degli accusati di razza nera. Se le due distribuzioni fossero relative a due collettivi del tutto
uguali tranne che per la razza, sarebbe possibile concludere che c'e' discriminazione razziale
nell'assegnazione della pena capitale. Altrimenti l'interpretazione precedente e' fallace.
2.11 Il problema delle frequenze piccole
128. Perche' talvolta si osservano frequenze piccole?
Perche' le frequenze sono associate a modalita' rare nel collettivo.
18
129. Le frequenze possono essere uguali a zero?

Se nessuna unita' del collettivo possiede una modalita' quella modalita' ha frequenza nulla.
130. Che cosa succede se le modalita' del carattere sono molte?
E' probabile che vi siano molte modalita' con frequenza zero e che le modalita' osservate
abbiano frequenza 1.
131. Trovare la distribuzione di frequenza dell'altezza per i primi dieci studenti frequentanti.
La distribuzione e' la seguente
154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170
1 0 0 1 1 0 1 0 1 0 1 0 0 0 0 1 3
132. I dati seguenti sono le intensita' (in gradi Richter) dei principali terremoti avvenuti
nel mondo dal 1966 al 1976.
6:9 7:4 7:4 7:7 6:5 6:9 6:2 6:3 6:8 7:5 6:5
E' utile costruire una distribuzione di frequenza?
No in quanto il numero di modalita' e' molto elevato e le frequenze sono molto piccole.
2.12 Aggregazione
133. E' possibile diminuire il numero delle modalita'?
Si'. Basta aggregare le modalita' in classi, denendo una partizione delle modalita'.
134. L'aggregazione e' arbitraria?
Il numero di classi e la loro denizione puo' essere scelto arbitrariamente, ma esistono
modi piu' o meno buoni di farlo.
135. Le classi [151; 155]; [156; 160]; [161; 165]; [166; 170] indicano degli intervalli di altezze,
estremi inclusi. Sono delle classi corrette?
Si', se le altezze sono rilevate in cm, perche' ogni determinazione puo' essere asseganata a
una e una sola classe.
2.13 Classi per caratteri continui
136. Come si fanno le classi per i caratteri continui?
Si costruiscono delle successioni di intervalli in modo che ogni unita' possa essere attribuita
a uno e un solo intervallo.
137. Come possono essere le classi?
Possono essere
intervalli contenenti entrambi gli estremi, es. [151; 155] indicato con 151 - 155
intervalli contenenti solo un estremo, es. [151; 155) indicato con 151 - 155| oppure
(151; 155] indicato con 151 - 155|.
19
2.14 Distribuzioni in classi

138. Trovare la distribuzione di frequenza dei primi 10 studenti avendo denito le seguenti
classi di altezza: [151; 155]; [156; 160]; 161; 165]; [166; 170].
La distribuzione e'
151-155 156-160 161-165 166-170 Totale
1 3 2 4 10
139. Trovare la distribuzione di frequenza dei terremoti, con delle classi di intensita' (6; 6:5],
(6:5; 7], (7; 7:5], (7:5; 8].
La distribuzione e'
6 -| 6.5 6.5 -| 7.0 7.0 -| 7.5 7.5 -| 8.0 Totale
4 3 3 1 11
2.15 Ampiezza delle classi

140. Che cos'e' l'ampiezza di una classe?
Per caratteri continui, l'ampiezza e' la lunghezza dell'intervallo che denisce la classe.
141. Come si calcola l'ampiezza?

Se l'intervallo e' indicato nella forma [a; b) o (b; a] l'ampiezza e' b ; a. Se l'intervallo e'
nella forma [a; b] l'ampiezza e' b ; a + 1.
142. Le classi devono essere tutte della stessa ampiezza?

Non e' necessario. In certi casi e' comunque piu' semplice denire classi tutte uguali.
2.16 Confronti tra frequenze
143. Le frequenze di classi di ampiezza diversa si possono confrontare?
Direttamente no, ma e' possibile farlo dopo eliminato l'eetto della diversa ampiezza.
144. Come si elimina l'eetto delle diverse ampiezze?

Si divide la frequenza della classe per l'ampiezza della classe, calcolando la frequenza per
unita' di misura del carattere.
145. Come si chiama la frequenza per unita' di del carattere?

Si dice densita' di frequenza.
146. Si confrontino le frequenze della distribuzione seguente di una popolazione classicata
secondo l'eta'.
20
Eta' Frequenza %
0 -| 10 10
10 -| 20 10
20 -| 40 20
40 -| 60 30
60 -| 100 30
Totale 100
E' possibile fare il confronto tra le frequenze delle due prime classi, che hanno la stessa
ampiezza, ma sarebbe errato confrontare ad esempio le frequenze delle ultime due perche'
hanno ampiezze diverse.
147. Confrontare le frequenze delle ultime due classi.

Il 30% della popolazione ha un'eta' compresa tra 40 e 60 anni (ampiezza di 20 anni) e il
30% della popolazione ha un'eta' compresa tra 60 e 100 anni (ampiezza di 40 anni).
Quindi nel secondo caso la stessa frequenza insiste su una classe di ampiezza doppia.
Dunque la densita' di frequenza deve essere minore nella seconda classe.
2.17 Densita' di frequenza
148. Calcolare le densita' di frequenza e fare i confronti.
Eta' Frequenza % Ampiezza Densita'
0 -| 10 10 10 1.00
10 -| 20 10 10 1.00
20 -| 40 20 20 1.00
40 -| 60 30 30 1.50
60 -| 100 30 40 0.75
149. Qual'e' la classe con maggiore densita'?

La classe da 40 a 60 anni. In questa classe vi e' una densita' di 1.5 punti percentuali per
anno.
150. Perche' la seconda e la terza classe hanno uguale densita' pur avendo frequenze diverse?
La classe da 20 a 40 anni ha una frequenza doppia della classe da 10 a 20 anni ma anche
un'ampiezza doppia.
151. Se si cambiano le classi di un carattere continuo le densita' restano le stesse?

No, le densita' dipendono dal modo con cui sono state costruite le classi.
152. E' possibile risalire dalle densita' alle frequenze?

Si' basta moltiplicare le densita' per le ampiezze delle classi.
21
153. La distribuzione seguente riguarda gli alberghi di un comprensorio, classicati secondo
la supercie. Trovare le densita'.
Superficie Alberghi % Densita'
200 |- 400 23 31.9 0.16
400 |- 800 15 20.8 0.05
800 |- 1600 22 30.6 0.03
1600 |- 3000 12 16.7 0.01
Totale 72 100.0
22
SETTIMANA 3
Rappresentazioni grache
3.1 Visualizzazione
154. Si possono fare dei graci per rappresentare le distribuzioni?
Le tecniche appropriate che dipendono dal tipo di carattere studiato. Si da' la preferenza
a rappresentazioni delle frequenze o delle densita' su un graco in coordinate Cartesiane.
155. Esiste una classicazione dei graci per distribuzioni?

I graci piu' diusi sono
gli scatter unidimensionali per i caratteri quantitativi
gli istogrammi per i caratteri continui raggruppati in classi
i diagrammi a barre per le altre distribuzioni
3.2 Scatter
156. Che cos'e' uno scatter unidimensionale?
E' una rappresentazione talvolta usata per caratteri quantitativi in cui si riportano le de-
terminazioni x del carattere come punti su un asse su cui si e' ssato un sistema di riferimento
Cartesiano. Se ci sono determinazioni ripetute i punti si riportano uno sopra all'altro.
157. Rappresentare la seguente successione di voti alla maturita'

f40; 36; 52; 36; 60; 55; 56; 40; 40; 40g:
Si ottiene
23
24
o
o
o o
o o o o o o
+-----------+-----------+-----------+-----------+
36 42 48 54 60
158. Quando e' utile lo scatter?

Se il carattere e' continuo (non raggruppato) e numero di osservazioni non e' molto elevato
(minore di 500).
159. Come si visualizzano i caratteri continui raggruppati in classi?

Con un istogramma.
160. Disegnare gli scatter per la distribuzione degli studenti frequentanti relativamente al
voto alla maturita' e al tempo impiegato per raggiungere l'universita'.
5 40 45 50 55 60
Voto alla maturita'
0 10 20 30 40 50 60
Tempo per arrivare all'Universita'
3.3 Istogrammi
161. Cosa sono gli istogrammi?
Sono rappresentazioni grache della densita' delle classi di una distribuzione continua
raggruppata.
162. Come si rappresentano le densita' delle classi?

Come una funzione costante a tratti, cioe' una funzione a gradini in cui ogni gradino ha
un'altezza pari alla densita' e una larghezza pari alla ampiezza della classe.
25
163. Rappresentare l'istogramma della distribuzione del problema 146.

2 +
|
| +-------+
| | |
1 +---+---+-------+ |
| | | | +---------------+
| | | | | |
| | | | | |
+---+---+---+---+---+---+---+---+---+---+
0 10 20 40 60 100
Eta'
164. E' necessario che l'unita' di misura sia la stessa per le ascisse e per le ordinate?
No, non e' necessario.
165. L'istogramma denisce una successione di rettangoli di base uguale all'ampiezza di

classe e di altezza uguale alla densita'. A cosa e' uguale l'area di ogni rettangolo?
Alla frequenza della classe (relativa percentuale se questa e' stata usata per calcolare la
densita').
166. L'area totale sotto l'istogramma a cosa e' uguale?

Alla somma delle frequenze, cioe' a 100 se si sono usate frequenze percentuali.
167. Rappresentare l'istogramma della supercie degli alberghi.

0.20
0.15
Densita’
0.10
0.05
0.0
200 800 1600 3000

Superficie
26
168. Come sono rappresentate le frequenze in un istogramma?

Sono aree di rettangoli. Due frequenze uguali sono rappresentate da rettangoli aventi
uguale area. Se le frequenze insistono su classi aventi diverse ampiezze l'altezza dei rettangoli
sono diverse.
169. Che cosa sono le altezze dei rettangoli?

Le densita' delle classi. Piu' alti sono i rettangoli e maggiore e' la densita' delle osservazioni
per unita' di carattere.
170. Nell'ultimo istogramma la prima classe ha densita' 0:16 e la seconda ha densita' 0:05.
Come si interpreta questo fatto?
La prima classe ha una densita' tripla della seconda.
171. Che cosa signica istogramma?

Diagramma per aree (dal greco).
3.4 Diagrammi a barre
172. Come si costruisce un diagramma a barre?
Si riportano in ascisse le modalita' del carattere (se sono attributi si elimina l'asse gra-
duato) e si disegnano sopra di esse dei segmenti di lunghezza uguale alle frequenze.
173. Visualizzare la distribuzione degli studenti per tipo di scuola.

50
40
30
Frequenza
20
10
0
L I A
Scuola
3.5 Altre rappresentazioni

174. Esistono altre rappresentazioni che possono essere impiegate al posto dei diagrammi a
barre?
27
Esistono i diagrammi a settori circolari (le cosiddette `torte') tipici dei programmi automa-
tici. Sono da evitare perche' la percezione delle lunghezze e' molto migliore della percezione
degli angoli.
In particolare sono da evitare le torte in prospettiva e tridimensionali, che oltre che di
cattivo gusto peggiorano ulteriormente la percezione della struttura della distribuzione.
175. Confrontare le rappresentazioni a barre e a settori circolari sulla distribuzione seguente
Corsi di laurea Studenti iscritti 1991, Italia

Gruppo scientifico 117552
Gruppo medico 48307
Gruppo ingegneria 192444
Gruppo agrario 20024
Gruppo economico 181832
Gruppo politico-sociale 88680
Gruppo giuridico 163419
Gruppo letterario 196344
Diplomi 13758
Totale 1022260
3.6 Confronto tra una torta e un diagramma a barre

Po
liti
co
Medico
r.
Ag
i
Scien lom
t. Dip
Lett.
. In
Giur g.
Eco.
28
200000
150000
Numero di iscritti
100000 50000
0
Diplomi Agr. Medico Politico Scient. Giur. Eco. Ing. Lett.

Gruppi di Facolta’
Il diagramma a barre e' preferibile perche' la percezione delle lunghezze e' migliore della
precezione degli angoli. Ogni abbellimento del graco a torta (torte in prospettiva, tridimen-
sionali, con fette che escono) sono da sconsigliare perche' aggiungono elementi inutili e in
genere fuorvianti.
SETTIMANA 4
Sintesi di distribuzioni univariate
4.1 Rapporti
176. Sono stati utilizzati due tipi di rapporti nora. Quali?
Il rapporto tra frequenza di una modalita' e frequenza totale per costruire le frequenze
relative e il rapporto tra frequenza di una classe e l'ampiezza della classe per costruire le
densita'.
Il primo rapporto (di una parte al tutto) si dice di composizione il secondo si dice di
densita.
177. A quale scopo si utilizzano i rapporti?

Per poter eettuare confronti eliminando l'eetto di elementi che lo impediscono. I rappor-
ti di composizione rendono possibili i confronti di distribuzioni che hanno le stesse modalita'
ma numerosita' diverse. I rapporti di densita' permettono i confronti tra classi di ampiezza
diversa.
4.2 Variabili discrete
Una distribuzione di frequenza di un carattere quantitativo discreto si dice variabile discreta.
178. Che cos'e' una variabile discreta?
E' denita da un carattere quantitativo X avente modalita'
x1 ; x2; : : :; xk
e frequenze relative associate
f1 ; f2; : : :; fk
maggiori o uguali a zero e a somma 1.
29
30
4.3 Mutabili
Una distribuzione di frequenza di un carattere sconnesso si dice mutabile.
179. Che cos'e' una mutabile?

E' denita da un carattere quantitativo A avente modalita'
a1; a2; : : :; ak
e frequenze relative associate
f1 ; f2; : : :; fk
maggiori o uguali a zero e a somma 1.
180. La distribuzione degli studenti frequentanti secondo il numero di auto possedute in

famiglia e' la seguente
N. Auto
1 2 3 4 5 6 Totale
29 52 8 2 1 2 94
Scrivere i valori della variabile e le frequenze usando dei simboli.
x1 = 1; x2 = 2; x3 = 3; x4 = 4; x5 = 5; x6 = 6
f1 = 29
94 ; f2 = 94 ; f3 = 94 ; f4 = 94 ; f5 = 94 ; f6 = 94
52 8 2 1 2
4.4 Sintesi di una distribuzione

E' utile fare una sintesi estrema di una distribuzione individuando un valore rappresentativo
della stessa. Questo valore e' ovviamente solo una approssimazione, ma nondimeno utile
per i confronti. Esistono molti modi per trovare un valore rappresentativo. Ogni indice
rappresentativo e' detto genericamente una media.
In una distribuzione sconnessa la media piu' usata e' la modalita' con frequenza piu' alta
che si chiama moda della distribuzione.
181. Trovare la moda della distribuzione degli studenti per scuola di provenienza.
La moda e' rappresentata dagli Istituti tecnici.
182. E' vero che la moda della distribuzione del problema 146 e' 196344?
No, la moda non e' la frequenza piu' alta, ma la modalita' ad essa associata, cioe' il gruppo
letterario.
183. La seguente distribuzione mostra gli alberghi del comprensorio di Assisi secondo la
categoria (30-6-1987).
31
Categoria n. alberghi
1 stella 23
2 stelle 37
3 stelle 14
4 stelle 4
Totale 78
Qual'e' il valore modale della distribuzione?
La seconda categoria.
4.5 Caratteri ordinali
Per caratteri ordinali si usa spesso un valore rappresentativo detto mediana.
184. Che cos'e' la mediana?

La mediana e' quella modalita' che ha e' piu' grande del 50% delle osservazioni e piu'
piccola del 50% delle osservazioni.
185. Trovare la mediana della successione seguente di punteggi all'esame di laurea

110; 98; 105; 102; 104; 99; 90; 110; 105; 103; 100
Prima si ordinano le osservazioni dalla piu' bassa alla piu' alta
90; 98; 99; 100; 102; 103; 104; 105; 105; 110; 110
Quindi si trova il punteggio centrale cioe' 103, che e' migliore di 5 punteggi e peggiore di altri
5. La mediana dei punteggi e' 103.
186. Come si trova la mediana se il numero di osservazioni e' pari?

Si trovano le due osservazioni centrali nella successione ordinata e si prende come mediana
qualsiasi modalita' compresa tra le due.
187. Trovare la mediana della successione di punteggi di laurea

98; 105; 102; 104; 99; 90; 110; 105; 103; 100
Nella successione ordinata
90; 98; 99; 100; 102; 103; 104; 105; 105; 110
si trova la coppia di elementi centrali, 102 e 103. La mediana e' qualsiasi punteggio compreso
tra 102 e 103. Per esempio la semisomma 102.5.
32
188. Trovare la mediana della distribuzione seguente di 10 individui secondo il titolo di

studio.
Titolo Modalita' Frequenza
Analfabeti A 1
Alfabeti senza titolo B 9
Licenza Elementare C 20
Licenza Media D 12
Diploma E 6
Laurea F 1
189. La distribuzione vista come successione ordinata e'

A
BBBBBBBB
CCCCCCCCCCCCCCCCCCCC
DDDDDDDDDDDD
EEEEEE
F
Il totale di osservazioni e' 49, quindi il l'osservazione centrale sta al 24-esimo posto. Tale
osservazione sta nella terza classe (Licenza Elementare) che e' appunto la classe mediana.
190. Trovare la mediana della distribuzione della popolazione residente da sei anni in poi
per grado di istruzione al 25 ottobre 1981.
Titolo Frequenze (migliaia) Frequenze Cumulate
Analfabeti 1608 1608
Alfabeti senza titolo 9548 11156
Licenza Elementare 21778 39934
Licenza Media 12481 45415
Diploma 6019 51434
Laurea 1477 52911
E' facile osservare che l'unita' centrale e' al posto 26456 (26455+1+26455=52911). Que-
sta sta nella terza classe come si vede guardando le frequenze cumulate. Quindi il valore
rappresentativo del grado di istruzione e' Licenza Elementare.
191. Qual'e' la mediana della distribuzione del problema 183?
Ci sono 78 osservazioni (78= 36+36) quindi i due elementi centrali sono il 36 e il 37.
Entrambe le unita' sono alberghi a due stelle, percio' la categoria mediana e' due stelle.
192. Qual'e' la mediana della distribuzione del problema 180?
La mediana si puo' trovare anche per i caratteri quantitativi discreti, perche' sono ordi-
nabili. Le osservazioni sono 94 = 47 + 47, quindi le due unita' centrali sono la 47 e la 48 che
appartengono entrambe alla seconda classe. Percio' il numero mediano di auto possedute e'
di due.
33
4.6 Media aritmetica

193. Che indice si usa tipicamente per caratteri quantitativi?
La media aritmetica.
194. Che cos'e' la media aritmetica?
E' un indice che come la mediana e la moda individua un valore di sintesi della distribu-
zione che ne individua la posizione.
195. Qual'e' l'idea di base della media aritmetica?
Quella di equiripartire fra le unita' statistiche l'ammontare totale del carattere. Per questo
ha senso calcolare una media aritmetica se il carattere e' additivo.
196. Calcolare la media e la mediana di 1; 2; 3; 4; 5; 6; 7.
Si ha
m = 1 + 2 + 3 + 74 + 5 + 6 + 7 = 4
e med = 4.
197. Calcolare la media della distribuzione del numero di auto possedute.
N. Auto
1 2 3 4 5 6 Totale
29 52 8 2 1 2 94
Il numero di auto complessivo e'
1 29 + 2 52 + 3 8 + 4 2 + 5 1 + 6 2 = 182
che ripartito fra i 94 nuclei famigliari da' m = 182=94 = 1:93 auto per famiglia. La mediana
e' invece pari a 2.
198. La tavola seguente riporta le abitazioni di proprieta' occupate e il numero di stanze,
per la Sardegna e per l'Italia nel complesso
ZONA TERRITORIALE ABITAZIONI STANZE Censimento 1991
Sardegna 393622 1955978
Italia 13419121 61059498
199. Qual'e' il numero medio di stanze per abitazione per la Sardegna e per l'Italia?
Sono due collettivi di abitazioni su cui si e' rilevato il carattere numero di stanze. Gli
ammontari totali sono gia' calcolati. Le medie sono
m1 = 1955978
393622 = 4 : 9 m 2=
61059498 = 4:5
13419121
34
4.7 Media di una variabile discreta

200. Qual'e' in generale la media aritmetica di una variabile discreta?
La media e'
m = x1f1 + x2f2 + x3f3 +
201. Un collettivo di famiglie e' classicato secondo il numero di gli. Trovare la media
aritmetica della distribuzione.
N. Figli N. Famiglie Freq. relativa
0 10 0.125
1 40 0.500
2 30 0.375
Il numero totale di gli e' 100 che diviso per 80 famiglie da' una media di 1:25 gli.
202. Far vedere che si puo' usare anche la formula della media aritmetica per una variabile
discreta.
Infatti
m = 0 10 + 1 8040 + 2 30
10 + 1 40 + 2 30
= 0 80 80 80
= 0 0:125 + 1 0:5 + 2 0:375 = 1:25
4.8 Media e mediana
203. Supponiamo che per sbaglio i dati
1; 2; 3; 4; 5; 6; 7
siano stati trascritti come
1; 2; 3; 4; 5; 6; 700:
Come si trasformano la media e la mediana?
La mediana resta invariata, mentre la media diventa 103. La mediana e' piu' resistente
quando un solo valore della successione viene alterato, mentre la media e' molto sensibile.
204. Che cos'e' un valore atipico?
E' un dato che e' molto diverso dal resto della distribuzione. (Ad esempio, 700 nel
problema precedente.)
205. Come si comportano la media e la mediana in presenza di dati atipici?
La mediana ne e' scarsamente aetta in confronto alla media che invece ne risente sensi-
bilmente.
35
4.9 Confronti di medie

206. Vengono osservati due popolazioni di individui di eta' tra 40 e 50 anni, una di maschi
e una di femmine, e su ciascuna viene rilevato il carattere pressione sanguigna. Si ottengono
le medie di 135 per i maschi e di 130 per le femmine. Che cosa si puo' dire?
Il livello medio della pressione dierisce nel gruppo dei maschi rispetto a quello delle
femmine, con un livello maggiore per i maschi. Poiche' gli individui sono tutti della stessa
eta', questa non in uenza il confronto.
207. La dierenza di pressione puo' essere attribuita al sesso?

No, solo se non esistono altri aspetti rilevanti di dierenziazione tra le popolazioni che
potrebbero esercitare un eetto sulla pressione.
4.10 Confronti
208. In Sardegna c'e' stato il seguente movimento di clienti italiani e stranieri negli esercizi
alberghieri (1994).
Clienti Arrivi Presenze
Stranieri 124458 646613
Italiani 852011 3806049
Confrontare la durata media della permanenza per gli italiani e gli stranieri.
Gli arrivi sono il numero di clienti che si presentano e le presenze sono il numero di notti
trascorse. Il rapporto tra presenze e arrivi e' il numero medio di notti. Si ottengono 5:19
notti per gli stranieri e 4:46 notti per gli italiani.
4.11 La media e' interna
209. Si verichi che ogni media e' interna ai dati.
Occorre vericare che ogni media e' compresa tra il dato piu' piccolo e il dato piu' grande.
Questo e' immediato per la mediana. Si puo' dimostrare anche per la media aritmetica. Ad
esempio
min = 1 = 1 + 1 + 1 1 + 2 + 3 3 + 3 + 3 = 3 = max
3 3 3
4.12 Medie di trasformazioni
210. Se una la successione viene trasformata aggiungendo uno stesso valore a tutti i dati,
la media si trasforma aumentando di quel valore.
Ad esempio se X = (1; 2; 3; 4; 5) viene trasformata, aggiungendo 5, in Y = (6; 7; 8; 9; 10)
la media passa da 3 a 3 + 5 = 8.
211. Gli impiegati di una ditta hanno uno stipendio medio mensile di 1:6 milioni. La
direzione decide di dare a tutti una gratica di 200 mila lire. Qual'e' lo stipendio medio alla
ne?
E' di 1.8 milioni.
36
4.13 Medie di trasformazioni

212. Se una la successione viene trasformata moltiplicando uno stesso valore per tutti i dati,
la media risulta moltiplicata per tale valore.
Ad esempio se X = (100; 200; 300) viene trasformata, moltiplicando per 0.1 (dividendo
per 10), in (10; 20; 30) la media passa da 200 a 200 0:1 = 20:
213. Cinque libri costano rispettivamente 35; 50; 25; 90 e 110 mila lire. Calcolare il prezzo
medio in lire e il prezzo medio in dollari dopo aver eettuato la trasformazione da lire a dollari
(1000 lire = $0:625).
La media dei prezzi e' 62 mila lire cioe' 68 0:625 = $38:75. Lo stesso valore si ottiene
facendo la media degli importi in dollari
21:87; 31:25; 15:625; 56:25; 68:75:
4.14 Ammontare
214. Come si passa da una media aritmetica a l'ammontare?
Poiche' la media aritmetica e' un rapporto
Ammontare
m = Totale unita'
l'ammontare complessivo si ottiene moltiplicando la media per il numero di unita'.
215. In Sardegna ci sono 521179 famiglie. Il numero medio di componenti per famiglia e'
di 3:1 componenti. Stimare il numero totale dei componenti.
Poiche' 3:1 = componenti=521179, i componenti sono 1615700. Si tratta di una ap-
prossimazione perche' la media non e' un valore esatto. Il numero vero di componenti e'
1636551:
4.15 Medie di medie
216. Se due collettivi hanno rispettivamente medie aritmetiche m1 e m2 e numero di unita'
n1 e n2 la media del collettivo ottenuto combinando i due e'
m = m1nn1 ++ m2 n2 :
n2
1
Dimostrare l'aermazione.

L'ammontare complessivo e' m1 n1 , per il primo collettivo e m2n2 , per il secondo. La media
combinata si ottiene ripartendo l'ammontare combinato (la somma dei due) per il numero
totale di unita'.
217. La media di (1; 2; 3) e' 2 e di (20; 30; 40; 50; 60) e' 40. Qual'e' la media di
(1; 2; 3; 20; 30; 40; 50; 60)?
37
La media ottenuta direttamente e' 25:75. Questa si puo' ottenere anche con la formula
2 3 + 40 5 = 25:75:
3+5
218. La tabella seguente rissume la distribuzione del voto alla maturita' per il gruppo dei
maschi e delle femmine dei frequentanti.
Voto medio Studenti
Maschi 43:28 36
Femmine 48:36 58
Qual'e' il voto medio per tutto il collettivo?
E'
36 43:28 + 58 48:36 = 46:41:
94
4.16 Medie ponderate
219. Uno studente supera gli esami di Sociologia con 30, Statistica con 25 e Inglese con 27.
Calcolare il voto medio tenendo conto della dicolta' degli esami: la dicolta' di Statistica
e' doppia di quella di Sociologia e la dicolta' di Inglese e' 2:5 volte quella di Sociologia.
In questo caso e' opportuno calcolare una media aritmetica ponderata dei punteggi con
pesi 1; 2 e 2:5. Percio'
m = 30 1 +1 25 2 + 27 2:5 = 26:82
+ 2 + 2:5
220. Che cos'e' una media aritmetica ponderata?
E' una media per dati che non hanno ciascuno peso uguale a 1, ma pesi diversi. Per
esempio, se le determinazioni sono x1 ; x2; x3 e hanno pesi w1; w2; w3 la media e'
m = x1 ww1 ++xw2w2++wx3w3
1 2 3
221. Che succede alla media ponderata se i pesi sono tutti uguali?
Si ottiene la usuale media aritmetica.
4.17 Medie di medie
222. Supponiamo di avere i voti medi di laurea per tre gruppi di laureati in Scienze Politiche,
distinti a seconda della scuola superiore di provenienza, come segue
Scuola Voto medio Numero
Licei 105:9 200
Istituti Tecnici 102:8 300
Altro 100:2 100
Trovare il voto medio di laurea.
38
La somma dei voti per ciascuna scuola e', rispettivamente, 105:9 200 = 21180, 102:8
300 = 30840 e 100:2 100 = 10020. Quindi la media e' il totale voti 62040 ripartito su 600
studenti, cioe' 103:4.
223. La media sopra calcolata e' una media ponderata?

Si' e' una media delle tre medie con pesi uguali alle numerosita' dei tre gruppi.
224. Calcolare la media ponderata di 0 e 1 con pesi 25 e 75. Il risultato e' piu' vicino a 0 o
a 1?
Il risultato e' 0:75, piu' vicino a 1 perche' il valore 1 pesa di piu'.
225. Quali proprieta' della media aritmetica valgono anche per la mediana?
La mediana si trasforma come la media quando i dati vengono trasformati per aggiunta
di una costante o per moltiplicazione per una costante. Invece, dati due collettivi di cui si
conoscono le mediane non e' possibile calcolare la mediana dei due collettivi combinati con
una regola semplice.
4.18 Ogni media e' imprecisa
Una media e' una sintesi imperfetta di una distribuzione. Assieme alla media occorre avere
una misura di questa imprecisione.
226. Fare degli esempi di distribuzioni diverse che hanno la stessa media.
Per esempio X = (1; 2; 3; 4; 5) e Y = (3; 3; 3; 3; 3) hanno la stessa media e anche Z =
(0; 0; 0; 0; 15) o U = (2:6; 2:8; 3; 3:2; 3:4).
227. Dire nei casi precedenti quando la media e' una buona sintesi e quando e' meno buona.
Si possono ordinare dal caso peggiore al caso migliore Z , X , U , Y .
4.19 Equazione base
Immaginando di sostituire a ogni osservazione, la media si commette un errore pari al dato
meno la media. Chiamiamo l'errore scarto oppure residuo.
228. Come si puo' esprimere ogni dato?

Poiche'
residuo = dato ; m
risulta che
dato = m + residuo
39
4.20 Proprieta' degli scarti dalla media

229. Mostrare che la somma dei residui e' sempre nulla.
La somma dei residui e' la somma dei dati meno la somma delle medie. Ma la somma
delle medie e' uguale alla somma dei dati e dunque segue che la dierenza e' zero.
230. Dato X = (2; 10; 20; 28; 40) calcolare la media, i residui e mostrare che la somma dei
residui e' zero.
m = 20 e i residui sono ;18; ;10; 0; 8; 20 la cui somma e' zero.
4.21 Varianza
Quanto piu' sono grandi i residui (a parte il segno) e tanto piu' imprecisa e' la sintesi operata
dalla media. Una misura della imprecisione e' la varianza della variabile.
231. Che cos'e' la varianza di una variabile?
E' la media dei residui al quadrato.
232. Qual'e' la varianza della variabile X precedente?
E'
182 + (;10)2 + 0 + 82 + 202 = 888=5 = 177:6:
5
233. Perche' si fanno i quadrati?
Ci sono delle ragioni teoriche, tra cui quella di prendere misure di errore solo positive,
altrimenti misure positive e negative si elidono.
4.22 Variabilita'
234. Che caratteristica della distribuzione misura la varianza?
Essa misura la variabilita' della distribuzione cioe' l'attitudine del carattere ad assumere
valori diversi dalla media.
235. Si puo' misurare la variabilita' di un carattere qualitativo con la varianza?
No, la varianza e' adatta solo per caratteri quantitativi. Per i caratter qualitativi si parla
di misure di eterogeneita'.
4.23 Unita' di misura
236. La media ha una unita' di misura?
Si' la stessa unita' di misura del carattere.
237. Qual'e' l'unita' di misura della varianza?
L'unita' di misura del carattere al quadrato. Ad esempio, una varianza di altezze misurate
in cm risulta in cm2. Per questo si introduce un'indice di migliore interpretazione della
varianza chiamato scarto quadratico medio, ottenuto facendo la radice quadrata della varianza.
40
238. Che cos'e' lo scarto quadratico medio?

E' la radice della varianza. Esso ha la stessa unita' di misura del carattere.
239. Siano date 5 altezze X = (175; 170; 168; 180; 165). Calcolare lo sqm.
m = 171:6 quindi la varianza e'
s2 = 15 f(175 ; 171:6)2 + (170 ; 171:6)2 + (168 ; 171:6)2 +
+(180 ; 171:6)2 + (165 ; 171:6)2g
= 28:24
e lo sqm e' s = 5:3:
4.24 Interpretazione
240. Come si puo' interpretare lo sqm?
E' il residuo medio, ossia l'errore medio che si compie sostituendo ai dati la loro media
aritmetica. Nel problema precedente l'errore medio che si compie e' di 5:3cm.
241. Calcolare gli sqm per le variabili del problema 226.
Si ha
Variabile sqm
X = (1; 2; 3; 4; 5) 1:4
Y = (3; 3; 3; 3; 3) 0:0
Z = (0; 0; 0; 0; 15) 6:0
U = (2:6; 2:8; 3; 3:2; 3:4) 0:28
4.25 Proprieta' dello sqm
242. Quando lo sqm si annulla?
Lo scarto quadratico medio e' zero se e solo se tutte le determinazioni del carattere sono
uguali, cioe' quando non c'e' variabilita'.
243. La media puo' essere negativa? Si'.
244. Lo sqm puo' essere negativo?
No, perche' la radice quadrata di un numero e' sempre positiva.
4.26 Scarto quadratico medio di distribuzioni
245. Quali sono i residui al quadrato della seguente variabile \numero di gli"?
Numero di gli N. di donne
0 20
1 30
2 20
3 10
41
La media e' 100=80 = 1:25. I residui al quadrato sono i seguenti con accanto la frequenza con
cui sono ripetuti.
Numero di gli N. di donne
(0 ; 1:25)2 = 1:5625 20
(1 ; 1:25)2 = 0:0625 30
(2 ; 1:25)2 = 0:5625 20
(3 ; 1:25)2 = 3:0625 10
4.27 Calcoli
246. Calcolare lo sqm dell'esercizio precedente.
La varianza si ottiene facendo la media dei residui al quadrato ottenuta tenendo conto
delle frequenze:
s2 = 1:5625 20 + 0:0625 30 + 0:5625 20 + 3:0625 10
20 + 30 + 20 + 10
= 1:007
p
Lo sqm e', pertanto, di 1:007 1 glio.
4.28 Varianza di una variabile discreta
247. Scrivere formalmente la varianza di una variabile discreta X con modalita' xi e fre-
quenze relative fi , (i = 1; 2; 3; : : :).
Risulta
s2 = (x1 ; m)2f1 + (x2 ; m)2f2 + (x3 ; m)2f3 +
248. Qual'e' lo sqm di X = (0; 1; 2) con frequenze relative (0:2; 0:3; 0:5)?
La media e' m = 1 0:3 + 2 0:5 = 1:3. La varianza e'
s2 = (0 ; 1:3)2 0:2 + (1 ; 1:3)2 0:3 + (3 ; 1:3)2 0:5 = 1:81
Lo sqm e' s = 1:3.
4.29 Intervalli intorno alla media
249. Come si interpretano congiuntamente media e sqm?
La media e' un valore tipico che indica il centro della distribuzione. Lo sqm e' una misura
dell'imprecisione della media, cioe' della variabilita' dei dati attorno alla media.
250. E' possibile utilizzare media e sqm per ottenere una sintesi ulteriore?
Si' si usa calcolare un intervallo con estremo inferiore
m;3s
ed estremo superiore
m+3s
a delimitare la distribuzione.
42
251. Che interpretazione hanno gli estremi di tale intervallo?

E' possibile dimostrare che l'intervallo (m ; 3s; m + 3s) contiene sempre una frequenza
relativa maggiore di 8=9 89%. Cioe' in tutte le distribuzioni gli 8=9 delle unita' hanno
valori compresi tra la media meno 3 sqm e la media piu' 3 sqm.
4.30 Esempi della regola dei tre sqm
252. I bambini alla nascita hanno un peso medio di 3:1kg e uno sqm di 0:5kg. Qual'e'
l'interpretazione?
La distribuzione dei pesi varia attorno a 3.1 chili e l'ordine di grandezza dei residui e' di
mezzo chilo. Circa l'89% dei bambini alla nascita hanno un peso compreso nell'intervallo
2:8 ; 3 0:5 = 1:6kg; 3:1 + 3 0:5 = 4:6kg:
253. I voti all'esame di statistica sono in media 25 con una varianza di 1:44. Interpretare.
Gli 8=9 degli studenti che danno l'esame prendono voti compresi tra
25 ; 3 1:2 = 21:4; 25 + 3 1:2 = 28:6:
4.31 Trasformazioni
254. Se si trasforma una variabile X aggiungendo ad ogni modalita' una costante come si
trasforma lo sqm della variabile?
La varianza resta la stessa e quindi lo sqm resta uguale a prima.
255. Esemplicare.

Se X = (1; 2; 3) la varianza e' s2 = (1 + 0 + 1)=3 = 2=3: Trasformando ora X in Y =
X + 100 = (101; 102; 103) la media si sposta da 2 a 102 e quindi i residui restano gli stessi e
la varianza e' ancora s2 = (1 + 0 + 1)=3:
256. Se si trasforma una variabile X moltiplicando la variabile per una costante, come si
trasforma la varianza della variabile?
La varianza risulta moltiplicata per quella costante elevata al quadrato.
257. Esemplicare.

Se X = (1; 2; 3) e viene trasformata in Z = X 10 = (10; 20; 30) la media passa da 2 a 20
e i residui risultano tutti moltiplicati per 10. I residui al quadrato sono moltiplicati per 100
e cosi' pure la varianza.
258. Se si moltiplica una variabile per una costante (positiva) come si trasforma lo sqm?
Lo sqm risulta moltiplicato per tale costante.
43
259. Calcolare lo scarto quadratico medio relativo ai problemi 211 e 213.

Lo scarto quadratico medio degli stipendi non varia prima e dopo la gratica (l'impreci-
sione resta la stessa aggiungendo a tutti i dati una costante). Lo scarto quadratico medio del
prezzo dei libri espresso in dollari e' 0:625 per lo sqm del prezzo dei libri espresso in migliaia
di lire (l'imprecisione ha una unita' di misura).
44
SETTIMANA 5
Serie storiche
5.1 Introduzione
260. Fare alcuni esempi di serie storiche.
La popolazione residente a Sassari dal 1989 al 1994.
Anni Popolazione
1989 119717
1990 120011
1991 120556
1992 121961
1993 122010
1994 121889
Numero di abbonati alla Televisione a Sassari dal 1988 al 1993. In assoluto e rapporto ogni
1000 abitanti
Anni abbonati abbonati per 1000 abitanti
1988 107292 237
1989 108328 239
1990 110206 242
1991 222224 322
1992 113610 249
1993 117110 256
261. Quali rappresentazioni grache si usano per le serie storiche?

Si usano dei graci Cartesiani ponendo sull'asse delle ascisse il tempo e sull'asse delle
ordinate la scala della variabile rilevata.
45
46
Abbonamenti / 1000 abitanti

320
300
280
260
240
1988 1989 1990 1991 1992 1993
Anni
262. Quali aspetti si possono vedere dall'esame analitico e graco di una serie storica?
I tassi di variazione
L'andamento di fondo (trend ).
La variabilita' attorno all'andamento di fondo.
La stagionalita'.
263. Un esempio di curva dell'andamento di fondo. Numero di morti per AIDS in Australia
per i trimestri da Gennaio-Marzo 1983 a Aprile-Giugno 1986. La curva passa nel tra i punti.
40
N. di morti per AIDS
30
20
10
2 4 6 8 10 12 14
Anni
264. Un esempio di serie storica con un marcato andamento stagionale. Numero di morti
per malattie polmonari nel Regno Unito. Dati mensili dal Gennaio 1974 al Dicembre 1980.
47
2500
Morti per malattie polmonari
2000
1500
1000
500
1974 1975 1976 1977 1978 1979 1980
Anni
5.2 Variazioni e tassi di variazione

265. Quali sono le prime elaborazioni possibili su una serie storica?
Innanzitutto conviene studiare il livello medio della serie ed esaminare quindi le variazioni
assolute e relative.
266. Che cos'e' una variazione assoluta?

Ad esempio, la variazione assoluta nella popolazione a Sassari tra il 93 e il 94 e' la dierenza
tra il dato al 1994 e il dato al 1993. Quindi,
1993 122010
1994 121889 VA = 121889 - 122010 = -121
si calcola che la popolazione e' scesa di 121 unita'.

In generale se x1 e' il dato a un tempo 1 e x0 e' il dato a un tempo base 0 (di solito
precedente) la variazione assoluta e'
VA = x1 ; x0:
267. Che cos'e' una variazione relativa? Quando e' utile?

Se si vuol confrontare la variazione per due serie diverse con livelli medi diversi le variazioni
assolute non sono opportune.
Comune di Sassari Comune di Cagliari
1993 122010 178063
1994 121889 176236
VA -121 -1827
48
La variazione assoluta e' maggiore a Cagliari, ma il confronto e' distorto dal diverso livello
delle due serie. Percio' si calcola quanto e' in percentuale la variazione assoluta rispetto al
livello del tempo base. Ad esempio,
Comune di Sassari Comune di Cagliari
-121/122010 = -0.1% -1827/178063 = -1.03%
Percio' a Sassari c'e' stato nel 94 un calo della popolazione di 0:1% rispetto al 93, mentre a
Cagliari c'e' stato un calo di circa un punto percentuale.
Pertanto, nella notazione prima introdotta
VR = x1 x; x0
0
Le variazioni relative si dicono anche tassi di variazione tra il tempo 1 e il tempo 0.

268. Calcolare VA e VR per xb = 200 e xt = 300.
La variazione assoluta e' 100. La variazione relativa e' del 50%.
269. Si osservi che VR puo' essere positiva (se x1 e' maggiore di x0) o negativa (se x1 < x0).
E' zero se non c'e' variazione.
270. La popolazione e' di 50000 unita'. Se subisce una variazione relativa del +2% in un
certo periodo, come si trasforma?
Risulta che la popolazione e'
50000 + 0:02 50000 = 50000 1:02 = 51000
In generale,
x1 = x0 + VR x0 = (1 + VR)x0:
271. Se la VR tra il dato al 1994 e il dato al 1995 e' +5% la VR tra il dato al 1995 e il dato
al 1994 e' ;5%?
105;100
No, la VR e' asimmetrica. Ad esempio, la VR tra 100 e 105 e' 100 = 5% mentre la
;105 = ;4:76%:
VR inversa e' 100105
5.3 Numeri indici
272. Il rapporto tra il dato al tempo t e il dato al tempo b si dice numero indice relativo al
periodo da b a t
NI = xx1 :
0
273. Calcolare il numero indice tra il numero di abbonamenti TV del 1989 e il 1989, a
Sassari.
107292 = 1:01.
Si ha NI = 108328
49
274. Qual'e' la relazione tra numero indice e variazione relativa?

Risulta che la variazione relativa e' uguale al numero indice meno uno:
VR = NI ; 1 = xx1 ; 1 = x1 x; x0
0 0
Ovviamente il NI e' uguale alla VR piu' uno.
275. Si osservi che spesso anche i numeri indici sono espressi in forma percentuale.
Ad esempio, il numero indice tra il numero di abbonamenti TV del 1989 e il 1988, a Sassari
e' 101, (1989 = 100). Questo signica che c'e' stato un aumento dell'1%.
276. Che cosa signica un NI maggiore di 100? Se il NI e' maggiore di 100 signica che c'e'
stato un incremento, cioe' la VR e' positiva. Al contrario, se e' minore di 100 signica che
c'e' stata una diminuzione, cioe' la VR e' negativa.
277. Come si presentano usualmente i numeri indici?

Ci sono due modi fondamentali.
I numeri indici a base ssa. Si prendono i rapporti tra ciascun dato e un dato sso di
un tempo preso come base costante. Il numero indice relativo al tempo base e' 1. Il
tempo base non e' necessariamente il primo.
I numeri indice a base mobile. Si prendono i rapporti tra ciascun dato e il precedente.
In questo caso la base cambia ad ogni rapporto. Il numero indice relativo al primo
tempo non si puo' calcolare poiche' non si conosce il dato del tempo precedente.
278. Calcolare i NI a base mobile e a base ssa (basi 1989 e 1992) per la serie storica della
popolazione a Sassari.
Anni Popolazione Base mobile Base 1989=100 Base 1992=100
1989 119717 * 100 98.16
1990 120011 100.2 100.2 98.40
1991 120556 100.5 100.7 98.85
1992 121961 101.2 101.9 * 100
1993 122010 100.0 101.9 100.04
1994 121889 99.9 101.8 99.94
279. Interpretare i risultati della tabella precedente. Dai NI a base mobile si deduce che i
tassi di variazione percentuali annuali sono stati 0:2%; 0:5%; 1:2%; 0%; ;0:1%. Quindi, vi
sono stati prima tassi di crescita in aumento e quindi una essione. Il tasso di variazione tra
l'89 e il 94 (quinquennale) e' dell'1:8%.
50
280. Talvolta non si hanno i dati grezzi, ma si richiede di trasformare una serie di NI a base
ssa in una serie di NI a base mobile. Come si procede?
Si prendono i NI a base ssa e si costruiscono i rapporti tra ogni NI e il precedente.
Pertanto, sui NI precedenti in base 1989 = 100, si lavora come segue
Anni Base 1989=100 Base mobile
1989 100
1990 100.2 100.2 / 100 = 1.002 = 100.2 %
1991 100.7 100.7 / 100.2 = 1.005 = 100.5 %
1992 101.9 101.9 / 100.7 = 1.012 = 101.2 %
1993 101.9 101.9 / 101.9 = 1.000 = 100.0 %
1994 101.8 101.8 / 101.9 = 0.999 = 99.9 %
281. Si puo' calcolare la VR per il periodo 89{92, senza fare riferimento ne' ai dati grezzi,
usando i NI a base ssa 1992?
Si' si calcola il NI partendo dalla serie dei NI a base ssa a base 1992. Il NI per quel
periodo e' 98100:16 = 1:019, per cui la VR e' 0:019, cioe' l'1:9%. Guardando i NI a base ssa
1989, si puo' fare la riprova.
282. Si puo' passare da una serie di NI a base mobile alla serie corrispondente a base ssa?
Si', per trovare un NI a base ssa basta moltiplicare fra loro tutti i numeri indici a
base mobile esistenti tra il tempo base e il tempo studiato. Per esempio, se si ha una serie
x1; x2; x3; x4, il prodotto dei numeri indice a base mobile
6 x2 6 x3 x4 = x4
x1 6 x2 6 x3 x1
e' uguale al NI a base ssa tra x4 e x1 .
283. Calcolare la serie dei numeri indice a base ssa 1988 = 100 dalla seguente serie di
numeri indice a base mobile (tratta dalla serie degli abbonati alla TV).
Anni NI a base mobile
1988
1989 100.97
1990 101.73
1991 201.64
1992 51.12
1993 103.08
Si elimina prima la forma percentuale e quindi si calcolano i prodotti cumulati.

Anni NI a base mobile Prodotti cumulati NI base 1988=100
1988 100
1989 1.0097 1.0097 101.0
1990 1.0173 1.027 102.7
51
1991 2.0164 2.071 207.1

1992 0.5112 1.059 105.9
1993 1.0308 1.091 109.1
Fare la riprova usando dati grezzi.

284. Date due o piu' VR per dei periodi consecutivi e' possibile costruire la VR per il
periodo nel complesso? Ad esempio, se si hanno 2 VR semestrali del 4% e del 6%, qual'e' la
VR complessiva annuale?
Se il dato all'inizio dell'anno fosse 100, dopo un semestre diventa 100(1 + 1:04) = 104 e
alla ne dell'anno 104(1 + 0:06) = 110:24, quindi la VR complessiva e' del 10:24%.
In generale, se le variazioni relative sono r1 e r2 la variazione complessiva e'
(1 + r1)(1 + r2) ; 1
Notare che i termini tra parentesi sono due NI a base mobile consecutivi il cui prodotto da'
il rapporto tra il dato alla ne e il dato all'inizio.
La generalizzazione a piu' di due VR e' ovvia.
285. Qual'e' l'uso tipico delle serie di numeri indici in campo economico?
Controllare l'evoluzione dei prezzi (di beni o quotazioni di titoli).
Valutare il tasso di variazione medio dei prezzi di un certo bene.
Costruire delle serie medie di numeri indici di piu' beni (o di piu' titoli).
De azionare le serie in valuta.
286. Valutare l'andamento del prezzo della tazzina di cae' a Milano dal 1981 al 1988.
Anni Prezzo di una tazzina di caffe'
1981 350
1982 350
1983 500
1984 600
1985 600
1986 700
1987 700
1988 800
La serie dei NI a base ssa 1980=100 e' la seguente

Anni Prezzo tazzina NI base mobile NI a base 1981=100
1981 350 100.0
1982 350 100.0 100.0
1983 500 142.9 142.9
52
1984 600 120.0 171.4

1985 600 100.0 171.4
1986 700 116.7 200.0
1987 700 100.0 200.0
1988 800 114.3 228.6
5.4 Varaizioni relative complessive e medie di numeri indici

287. Se si ha una variazione relativa annuale e' possibile calcolare la variazione relativa
trimestrale? Ad esempio se la variazione relativa annuale nella quotazione di un titolo di
Borsa e' stata del 46:41% qual'e' la variazione relativa trimestrale?
Senza disporre dei dati trimestrali occorre fare delle assunzioni, cioe' immaginare una
legge di variazione del prezzo durante l'anno in modo da ripartire la variazione annuale nei
trimestri. Nell'esempio se le variazioni relative trimestrali fossero state costanti e uguali al
10% si sarebbe avuto l'andamento seguente
Trimestre VR NI base mobile NI base fissa
gen-mar 0.10 1.10 1.10
apr-giu 0.10 1.10 1.10 * 1.10 = 1.21
lug-set 0.10 1.10 1.10 * 1.10 * 1.10 = 1.3321
ott-dic 0.10 1.10 1.10 * 1.10 * 1.10 * 1.10 = 1.461
e alla ne dell'anno la VR e' appunto quella osservata di 46:1%. Il tasso stimato di variazione
trimestrale e' pertanto del 10%. Si osservi che non si ottiene tale valore dividendo 46:1 per 4
(il numero di trimestri).
288. Qual'e' la regola generale per determinare il tasso trimestrale?

La regola consiste nel calcolare p4
VR + 1 ; 1
Infatti, nell'esempio precedente si ottiene
p4
1:461 ; 1 = 1:1 ; 1 = 0:1 = 10%
ogni trimestre.
289. Come si procede per calcolare la variazione relativa mensile?

Seguendo la stessa idea, si calcola
p
12
VR + 1 ; 1:
Nell'esempio, si ha p
12
1:461 ; 1 = 1:032 ; 1 = 0:032 = 3:2%
ogni mese.
53
290. Un prezzo di un bene aumenta del 10% in un anno. Qual'e' il tasso di variazione
stimatopsemestrale?
E' 2 1:1 ; 1 = 0:0488 = 4:88%:
291. Se si hanno due VR e' possibile farne la media?
Si', ma non conviene farne la media aritmetica. Si ragiona come segue. Si denisce la VR
media quella variazione relativa costante che sostituita a quelle osservate produce la stessa
variazione relativa complessiva.
Ad esempio supponiamo di avere un prezzo di un bene con due VR del 2% e del 10% per
due semestri consecutivi. Allora la VR complessiva annuale e' del 1:02 1:10 ; 1 = 12:2%.
Pertanto, la VR semestrale media si puo' ottenere con la regola spiegata in precedenza, cioe'
(trattandosi di due periodi)
p2
1:122 ; 1 = 1:059 ; 1 = 5:9%:
L'interpretazione e' la seguente: se il tasso di variazione semestrale fosse stato del 5:9%,
alla ne dell'anno il tasso di variazione complessivo sarebbe stato uguale a quello osservato
ottenuto combinando quello del 2% e del 10%.
292. Un bene ha i seguenti tassi di variazione annuali dal 1990 al 1993
4%; 7%; 2%; 1%
Qual'e' la variazione relativa media?
Il tasso medio di variazione e'
p4 p
1:04 1:07 1:02 1:01 ; 1 = 4 1:146 ; 1 = 1:034 ; 1 = 3:4%
Si osservi che la media aritmetica 3:5% non sarebbe una media corretta, benche' non molto
diversa numericamente.
Il tasso medio di variazione e' detto anche tasso medio composto di variazione.
293. Scrivere in modo teorico la formula del tasso medio di variazione di tre VR r1; r2 e r3.
Si ha q
Tasso medio di variazione = 3 (1 + r1)(1 + r2)(1 + r3 ) ; 1:
294. Si puo' calcolare la media di una serie di NI a base mobile?
Si', poiche' ogni numero indice e' uguale a VR + 1 risulta che il numero indice medio e'
ottenuto facendo il prodotto dei numeri indici a base mobile ed estraendo quindi la radice di
ordine uguale al numero degli indici. Per esempio, i NI a base mobile degli abbonati alla TV
a Sassari dal 1989 al 1992 sono
Anni NI base mobile
1989 100.97
1990 101.73
1991 201.64
1992 51.12
54
il numero indice medio e'

p4 p
1:0097 1:0173 2:0164 0:5112 = 4 1:0587 = 1:0144 = 101:44%:
Infatti si puo' osservare che il tasso di variazione medio e' 1:44%.
295. Che tipo di media e' quella con cui si calcola il numero indice medio?
Una media geometrica. Una media geometrica di una successione di dati e' ottenuta
appunto facendo il prodotto delle osservazioni ed estraendo la radice di ordine uguale al
numero di osservazioni. Tale media gode di molte delle proprieta' della media aritmetica.
5.5 Numeri indici composti
296. Se si hanno due (o piu') serie di numeri indici relative ai prezzi di due (o piu') be-
ni e' possibile combinarle insieme in un'unica serie di numeri indici composti che evidenzi
l'andamento medio dei prezzi dei beni?
E' necessario denire in un modo sensato una media delle due serie. Per esempio suppo-
niamo di avere i NI a base ssa 1992 = 100 del prezzo della benzina e del prezzo del pane per
tre anni successivi
Anni Benzina Pane
1992 100 100
1993 103 101
1994 104 101
1995 106 105
1996 108 110
Se si calcolasse la media aritmetica dei due NI della benzina e del pane per ogni anno si
otterrebbe in eetti una serie media di NI. Tuttavia, con la media aritmetica semplice si da'
un peso uguale ai due beni. Cio' non sembra corretto in quanto i due beni hanno un peso
diverso nel bilancio di una famiglia.
Pertanto, se nel bilancio di una famiglia ogni 10 lire in pane si spendono 90 lire in benzina
(cioe' l'importanza relativa dei due beni e' 0:9 per la benzina e 0:1 per il pane, e' opportuno
calcolare una media ponderata dei due NI per ogni anno, con pesi 0:9 e 0:1. Si ottiene
Anni NI composto
1993 103 * 0.9 + 101 * 0.1 = 92.7 + 10.1 = 102.8
1994 104 * 0.9 + 101 * 0.1 = 93.6 + 10.1 = 103.7
1995 106 * 0.9 + 105 * 0.1 = 95.4 + 10.5 = 105.9
1996 108 * 0.9 + 110 * 0.1 = 97.2 + 11.0 = 108.2
297. Come si calcolano i pesi?

I pesi sono quantita' spese per l'acquisto dei vari beni a un certo tempo. Pertanto si
determinano da modelli di spesa che si desumono dall'analisi del comportamento individuale.
Maggiore e' la spesa per un particolare titolo in un portafoglio di investimenti, o maggiore e'
la spesa per un particolare bene in un paniere dei consumatori, maggiore e' il peso da dare ai
55
NI di quel titolo o di quel bene. Per calcolare la spesa occorre dunque conoscere le quantita'
acquistate dei beni, q e i loro prezzi p dai quali si puo' desumere le spese sostenute pq . I pesi
sono in proporzione di tali spese.
Si osservi che se si usano le spese di una anno base, calcolate come prezzi dell'anno base
per quantita' dell'anno base, si ottiene un sistema di pesi sso.
Per esempio, dati due beni A e B, e i rispettivi prezzi e quantita' scambiate
Bene A Bene B
Anni Prezzo Quantita' Prezzo Quantita'
1994 28 750 200 1250
1995 30 900 235 1300
1996 31 920 250 1100
per calcolare i pesi ssi bisogna trovare una anno base, per esempio il 1994. La spesa per i
due beni in quell'anno e' stata 28 750 = 21000 e 200 1250 = 250000. Le proporzioni di
spesa sono percio'
21000 = 0:078; 250000 = 0:922
271000 271000
Quindi, si calcolano i NI a base ssa e la media ponderata nel modo seguente
Anni Bene A (Peso = 0.078) Bene B (peso = 0.922) Media
1994 100 % 100 % 100.00
1995 30/28 = 1.071 = 107.1 % 235/200 = 1.175 = 117.5 % 116.68
1996 31/28 = 1.107 = 110.7 % 250/200 = 1.250 = 125.0 % 123.88
I pesi deniti nel modo precedente sono stati proposti da Laspeyres. I NI composti ottenuti
si dicono ottenuti con la formula di Laspeyres. Esistono altri modi piu' complessi di denire
il sistema dei pesi, facendolo variare da periodo a periodo.
298. Quali sono i principali numeri indici calcolati dall'istat?
NI dei prezzi alla produzione dei prodotti industriali. Misurano l'evoluzione dei prezzi
dei prodotti industriali al primo stadio della commercializzazione.
NI dei prezzi all'ingrosso. Servono per misurare le variazioni dei prezzi che si formano
nelle vendite eettuate nell'ambito del settore delle imprese.
NI dei prezzi al consumo per tutta la collettivita' nazionale. Servono per misurare le
variazioni nei prezzi che si riferiscono alle vendite eettuate dal settore delle imprese al
settore delle famiglie.
NI dei prezzi al consumo per le famiglie di operai e impiegati. Forniscuno una misura
delle variazione dei prezzi al dettaglio di beni e servizi acquistati da una famiglia tipo.
I beni e servizi considerati nel bilancio sono raggruppati in 5 capitoli (alimentazione,
abbigliamento, elettricita' e combustibili, abitazione, beni e servizi vari). Il tasso di
variazione in questa serie di NI e' una misura dell'in azione.
NI della produzione industriale. Misurano l'evoluzione delle quantita' siche di beni
prodotte dalle industrie.
56
299. Che tipo di medie ponderate vengono usate nel calcolo dei NI precedenti?
Vengono sempre usate le formule di Laspeyres. Ad esempio, alcuni coecienti di ponde-
razione (in %) dei capitoli di spesa nei NI dei prezzi al consumo, sono, per gli anni 1938, 1980
e 1985,
Base
Capitoli 1938=100 1980=100 1985=100
Alimentazione 66.40 34.97 30.92
Abbigliamento 5.30 10.46 8.67
Elettr. e combustibili 7.20 3.39 4.72
Abitazione 14.30 4.82 4.97
Beni e servizi vari 6.8 46.36 50.72
Notare la forte evoluzione nella struttura percentuale dei consumi.

5.6 De azionamento di valori espressi in moneta corrente
300. Che cosa signica de azionare una serie economica?
Quando una serie economica e' espressa in moneta corrente e' necessario depurare i suoi va-
lori dalle variazioni del metro monetario. Il de azionamento consente di valutare l'evoluzione
del fenomeno in termini reali anziche' in termini puramente monetari.
301. Siano dati i seguenti fatturati (in migliaia di lire) di un azienda in tre anni
Anni Fatturati NI base=1994
1994 1.5 100
1995 2.0 110
1996 3.0 120
dove i NI sono indici composti dei prezzi all'ingrosso. Trovare la serie storica del fatturato a
prezzi costanti del 1994.
Per risolvere il problema si ragiona in questo modo: nel primo periodo i prezzi sono
aumentati del 10%, quindi il dato del fatturato del secondo anno e' gonato del 10%. Quindi,
se x95 e' il fatturato del secondo anno, in realta' tale valore e' x95 = x95 1:1 dove x95 e' lo
stesso dato de azionato. Pertanto, il dato de azionato e' il dato in moneta corrente diviso
per il NI: 2=1:1 = 1:82. Quindi passando al terzo periodo il dato del fatturato si de aziona
calcolando 3=1:2 = 2:5. La serie dei fatturati in lire del 1994 e'
Fatturati
Anni in lire correnti in lire costanti del 1994
1994 1.5 1.5
1995 2.0 1.82
1996 3.0 2.5
57
302. Qual'e'la regola generale?

Se
x0; x1 ; x2; : : :
e' la serie in moneta corrente,
1; i1; i2 ; : : :
e' la serie dei numeri indici dei prezzi a base 0, allora la serie de azionata in lire del tempo 0
risulta x0 ; x1 ; x2 ; : : :
1 i1 i2 :
303. De azionare una serie produce risultati rilevanti?
In periodi di forte in azione si possono avere risultati molto distorti se non si determina
la serie in termini reali. Per esempio, i redditi medi a prezzi correnti per occupato dipendente
sono i seguenti, in migliaia di lire.
Anni Reddito a prezzi correnti NI base mobile NI dei prezzi
1980 12396 100
1981 15113 121.9 118.7
1982 17727 117.3 138.1
Nel prospetto sono riportati i NI a base mobile della serie, e la serie dei NI dei prezzi al
consumo per le famiglie di operai e impiegati in base 1980 = 100. La serie dei redditi in
termini reali, in lire del 1980 e i corrispondenti NI a base mobile sono riportati nella tavola
sottostante.
Anni Reddito a prezzi 1980 NI base mobile
1980 12396
1981 12732 102.7
1982 12836 100.8
La serie presenta aumenti contenuti. nel 1981 il reddito medio per occupato dipendente e'
aumentato solo del 2:7% in termini eettivi, contro un aumento del 21:9% in termini monetari
(cioe' nominali o apparenti).
58
SETTIMANA 6
Distribuzioni di due caratteri
6.1 Distribuzioni doppie

In questo capitolo studieremo un collettivo di unita' statistiche su cui sono stati rilevati due o
piu' caratteri. In certi casi i caratteri sono rilevati tutti allo stesso tempo e dunque il tempo e'
sso, in altri casi i caratteri sono rilevato in tempi diversi. Il ruolo del tempo dipende dunque
dal tipo di rilevazione.
304. Come si studia la distribuzione congiunta di due caratteri?
Utilizzando la distribuzione doppia dei due caratteri.
305. Come si costruisce una distribuzione doppia?
Una distribuzione doppia si costruisce classicando le unita' secondo le modalita' congiunte
dei due caratteri.
306. Che cosa sono le modalita' congiunte dei due caratteri?
Ad esempio, si considerino le variabili Sesso e Fumo tratte dai dati sugli studenti (vedi
appendice). Le modalita' del sesso sono due (m, f) e le modalita' del fumo sono due (si', no).
Ogni studente puo' avere le seguenti modalita' dei due caratteri:
Sesso Fumo
m si'
m no
f si'
f no
Queste sono le modalita' congiunte dei due caratteri; esse sono 2 2 quante sono le combi-
nazioni di modalita' del primo carattere e del secondo carattere. Le modalita' congiunte si
dicono talvolta celle.
59
60
307. Come si calcolano le frequenze?

Ogni unita' viene classicata in una delle modalita' congiunte dei due caratteri, con la
consueta operazione di spoglio. Al termine, le frequenze sono il numero di unita' che possie-
dono contemporaneamente una modalita' del primo e una modalita' del secondo carattere.
Ad esempio nell'esempio precedente si ottiene
Sesso Fumo Frequenza
m si' 17
m no 19
f si' 18
f no 40
Totale 94
Le frequenze cosi' trovate si dicono frequenze congiunte dei due caratteri o frequenze doppie.
308. Denire un modo alternativo di rappresentare le frequenze doppie.
Si usa il formato di matrice, denendo un insieme ordinato di righe e colonne: tante righe
quante sono le modalita' del primo carattere e tante colonne quante sono le modalita' del
secondo carattere. Ad esempio,
Fuma?
Sesso si' no
m 17 19
f 18 40
Quindi, ad esempio, 17 studenti hanno sesso maschile e fumano, 40 sono di sesso femmini-
le e non fumano. La tavola precedente si chiama tavola (o tabella) di contingenza. Essa
si dice ottenuta dall'incrocio dei due caratteri. All'incrocio di ogni riga e di ogni colonna
sta la frequenza corrispondente al presentarsi contemporaneo delle due modalita' associate
rispettivamente alla riga e alla colonna.
309. Si faccia un diagramma di Venn disegnando l'insieme degli studenti maschi e l'insieme
di coloro che fumano. Descrivere l'intersezione dei due insiemi e il complementare dei due
insiemi.
f & si’: 18 m & si’: 17 m & no: 19
f & no: 40
Nel diagramma l'insieme a sinistra e' l'insieme dei maschi e l'insieme di destra e' quello dei
fumatori. L'intersezione contiene i 17 studenti maschi fumatori. Al di fuori dei due insiemi
stanno le 40 femmine non fumatrici.
61
310. E' possibile determinare le frequenze separate dei due caratteri, dalla distribuzione
doppia?
Si'. Ad esempio, per trovare la frequenza di studenti maschi si somma il numero di studenti
maschi e fumatori piu' il numero di studenti maschi e non fumatori, cioe' 17 + 19 = 36: In
generale per trovare la frequenza di una certa modalita' di un carattere, si sommano tutte le
frequenze congiunte che contengono quella modalita'.
Le frequenze di ciascun carattere si dicono frequenze marginali del carattere.
311. Perche' si chiamano frequenze marginali?
Perche' si calcolano facilmente dalla tavola di contingenza, determinando i totali di riga
e di colonna della tavola. Le somme si riportano al margine della tavola e pertanto si dicono
marginali. E' importante distinguerle dalle frequenze congiunte che stanno all'interno della
tabella.
312. Calcolare le frequenze marginali nell'esempio precedente. Si ottiene subito
Fuma?
Sesso si' no Totale
m 17 19 36
f 18 40 58
Totale 35 59 94
Nella tavola si e' calcolato anche il numero totale di osservazioni che e' riportato in basso a
destra.
313. La distribuzione doppia di due caratteri si puo' dedurre dalle distribuzioni marginali?
No, in generale almeno non e' possibile, perche' distribuzioni doppie diverse possono avere
gli stessi totali marginali.
314. Estendere il concetto di frequenza relativa alle distribuzioni doppie.
Una frequenza relativa e' una frequenza assoluta divisa per il totale delle osservazioni.
Pertanto, ad esempio la frequenza relativa di maschi che fumano e' di 17=94 = 0:18 = 18%:
315. Calcolare le frequenze relative nell'esempio precedente.
La tabella seguente riporta le frequenze relative percentuali. Anche le frequenze marginali
sono espresse in percentuale rispetto al numero totale delle osservazioni.
Fuma?
Sesso si' no Totale
m 18.09 20.21 38.30
f 19.15 42.55 61.70
Totale 37.24 62.76 100.00
Quindi, il 20:2% degli studenti sono maschi e non fumano, il 19:1 sono femmine che fumano
e il 42:5 sono femmine che non fumano.
62
316. Per quale tipo di analisi si utilizza una distribuzione doppia di frequenza?
Per l'analisi congiunta dei due caratteri, ossia per lo studio dell'interdipendenza, quando
i due caratteri sono posti sullo stesso piano.
317. Come si indicano le frequenze relative congiunte?
Se indichiamo con X e Y i due caratteri e con x e y due modalita' generiche dei due
caratteri, possiamo indicare con
p(X = x; Y = y ) = # di unita' che possiedono la modalita' x di X e y di Y
# totale di unita'
la frequenza relativa congiunta (p() sta qui per proporzione). A volte, per semplicita' si
scrivera' p(x; y ) invece di p(X = x; Y = y ).
318. Come si calcola dunque una frequenza relativa marginale partendo dalle frequenza
congiunte?
Per calcolare la frequenza relativa marginale p(X = x) (che indicheremo anche piu' bre-
vemente con p(x)) basta sommare tutte le frequenze relative congiunte p(X = x; Y = y ) per
tutte le modalita' y di Y , cioe' X
p(x) = p(x; y)
y
P
dove il simbolo y (detto di sommatoria) indica che si stanno sommando tutte le frequenze
p(x; y ) rispetto a y , cioe' facendo assumere a y via via tutte le modalita'.
6.2 Esempi
319. Dai dati sugli studenti (vedi appendice) costruire la distribuzione doppia per i caratteri
Numero di auto possedute in famiglia (con modalita' da 1 a 6) e Residenza a Sassari (si', no).
Si ottiene una tabella 62 che incrocia un carattere quantitativo e un carattere dicotomico.
Riportiamo la tavola con le frequenze assolute.
Residenza a Sassari?
Numero di auto si' no Totale
1 14 15 29
2 32 20 52
3 8 0 8
4 2 0 2
5 1 0 1
6 2 0 2
Totale 59 35 94
Si nota che solo i ragazzi residenti a Sassari hanno in famiglia un numero di auto superiore a
2. Questa informazione non si poteva desumere dalla distribuzione marginale degli studenti
secondo il numero di auto. E' un primo esempio di relazione trovata osservando la tavola
doppia.
63
320. Ancora dai dati sugli studenti costruire la distribuzione doppia per i caratteri Tipo di
scuola (con modalita' Licei, Istituti tecnici, Altro) e Residenza a Sassari (con modalita' si',
no).
Risiede a Sassari?
Scuola si' no Totale
Liceo 27 15 42
Istituto tecnico 29 15 44
Altro 3 5 8
Totale 59 35 94
321. I dati seguenti riguardano sei modelli di auto Alfa Romeo a benzina a trazione ante-
riore. Si sono rilevati i cavalli e il prezzo (marzo 1990).
Auto Cavalli Prezzo
33 1.7 ie 107 20638
33 1.7 ie 16V 133 22126
164 2.0 i ts 145 32967
164 2.0 i turbo 171 42606
164 3.0 i v6 179 54680
164 3.0 i aut. 179 57495
Studiare la distribuzione doppia delle variabili Cavalli e Prezzo.

Poiche' i due caratteri hanno molte modalita' conviene fare un graco come il seguente.
50000
40000
Prezzo
30000
20000
120 140 160 180
Cavalli
Il graco riporta sull'asse delle ascisse le determinazioni della variabile Cavalli e sull'asse delle
ordinate le determinazioni della variabile Prezzo. I punti sul graco rappresentano le unita'
statistiche osservate, individuate da una coppia di coordinate. Il graco si chiama graco
di dispersione (scatterplot ) o scatter. Il fatto abbastanza naturale che il prezzo aumenta
all'aumentare dei cavalli si traduce sul graco nell'andamento tendenzialmente crescente dei
punti.
64
322. Nello scatter sottostante sono rappresentate le variabili Prezzo e Cilindrata per un
campione di auto (con la cilindrata sotto 2000 cc). I dati sono tratti da Quattroruote (marzo,
1996). Interpretare il graco.
100
80
60
prezzo
40
20
1000 1200 1400 1600 1800 2000
cil
Si osserva che c'e' un andamento crescente del prezzo medio all'aumentare della cilindrata.
Anche la variabilita' del prezzo tende a crescere con la cilindrata (osservare la variabilita' dei
punti in verticale).
323. Nello scatter sottostante sono rappresentati per gli studenti del corso di Statistica
(vedi appendice). Sul graco sono distinti gli studenti per sesso (m=maschi, f=femmine).
Interpretare il graco.
m m m
44
m mm m m
m m m
m m
42
m m m m m
mm m mmm m
Scarpe
40
f f m
f m
f
f f f f f m
f f f
38
f f f f f f f f
f f f f f f f f
f
36
f f f f f f f
f f f f
150 160 170 180
Altezza
Si osserva una associazione tra altezza e numero di scarpe. La taglia media delle scarpe crsce
al crescere dell'altezza. La variabilita' della taglia e' stabile. I maschi sono nella parte alta
dello scatter, come ci si poteva attendere. Si osservi che sul graco sono riportati tre caratteri:
altezza, scarpe e sesso.
65
324. E' possibile costruire delle tavole doppie di frequenza per due variabili continue?
Si', basta raggruppare le variabili in classi. Ad esempio, la tabella seguente incrocia per
un collettivo di 246 sposi, l'eta' della sposa al matrimonio e l'eta' dello sposo al matrimonio.
Eta' Sposo
Sposa -| 22 22 -| 26 26 -| 30 30 - Totale
-| 22 32 3 1 0 36
22 -| 26 35 20 10 2 67
26 -| 30 23 33 27 12 95
30 - 8 13 15 12 48
Totale 98 69 53 26 246
325. Si osservi la dierenza tra una successione doppia e la distribuzione doppia corrispon-
dente. Ad esempio sia X il numero di gli e Y il numero di auto possedute relativi a un
collettivo di famiglie.
Successione Distribuzione
Unita' X Y Y
1 1 2 X 1 2 Totale
2 0 1
3 1 1 0 1 0 1
4 2 2 1 1 2 3
5 1 2 2 0 2 2
6 2 2 Totale 2 4 6
326. Sia Y = voto alla laurea, e A = facolta' (Lettere, Ingegneria, Economia e Commercio).
Y A
104 Ec
98 Ec
102 Lett
90 Ing
110 Lett
108 Ing
110L Lett
Si costruisca la distribuzione doppia dopo aver formato due classi di voto: < 105 e 105+.
Si ottiene
Voto
Facolta' < 105 105+ Totale
Ec 2 0 2
Lett 1 2 3
Ing 1 1 2
Totale 4 3 7
66
6.3 Medie di distribuzioni doppie

327. La media di una variabile X si usa denotare con un simbolo X (la lettera greca mi
minuscola con un susso X ) o con l'operatore E (X ). Talvolta e' comodo usare la notazione
seguente per la media di una variabile X avente modalita' discrete x e frequenze relative p(x):
X
X = x p(x)
x
P P
dove il simbolo x indica che si sta facendo la somma rispetto a x ( e' la lettera greca
sigma maiuscola). La notazione e' simile a quella usata in precedenza in cui le modalita' sono
indicate con x1; x2; x3; : : : e le frequenze relative con f1 ; f2; f3; : : :.
328. In una distribuzione doppia in cui entrambi i caratteri X e Y sono quantitativi, quante
medie e' possibile calcolare?
Due medie marginali, la media di X e la media di Y .
X X
X = x p(x); Y = y p(y ):
x y
329. Calcolare le due medie marginali per il problema 325.

Si possono calcolare le medie direttamente dalla successione ottenendo
X = 7=6 = 1:17; Y = 10=6 = 1:67:
Lo stesso risultato si ottiene dalle distribuzione marginali
x: 0 1 2 y: 1 2
p(x) : 1=6 3=6 2=6 p(y) : 2=6 4=6
Infatti,
X = 0 1=6 + 1 3=6 + 2 2=6 = 7=6; Y = 1 2=6 + 2 4=6 = 10=6:
330. Fare uno scatterplot dei dati seguenti e riportare sul graco il punto di coordinate
uguali alle medie di X e di Y .
Unita' x y
1 4 4.26
2 5 5.68
3 6 7.24
4 7 4.82
5 8 6.95
6 9 8.81
7 10 8.04
8 11 8.33
9 12 10.84
10 13 7.58
11 14 9.96
67
Le medie sono rispettivamente 9 e 7:5, il graco e' riportato nella gura sottostante.
10
8
Y
6
4
4 6 8 10 12 14
Il graco e' stato diviso in quattro parti facendo passare due rette perpendicolari nel punto
di coordinate (9; 7:5). Tale punto e' detto baricentro della distribuzione. Si osservi infatti che
il punto e' situato circa a meta' della nuvola di punti. In generale, il baricentro e' denito da
una coppia di coordinate uguali rispettivamente alla media di X e alla media di Y .
6.4 Associazione tra due caratteri quantitativi
331. Su ogni unita' statistica su cui si sono rilevati i caratteri X e Y e' possibile rilevare
se x e' piu' grande o piu' piccolo della propria media X e se y e' piu' grande o piu' piccolo
della propria media Y . Possiamo avere i casi seguenti
x
y minore della media maggiore della media
maggiore della media discordi concordi
minore della media concordi discordi
Se x e y sono entrambi sopra le rispettive medie o entrambi sotto, diremo che sono concordi,
altrimenti diremo che sono discordi. Si osservi che x e y sono concordi se gli scarti dalle medie
x ; X e y ; Y hanno lo stesso segno e sono discordi se hanno segni opposti.
332. Se due caratteri sono entrambi quantitativi, diremo che sono associati positivamente, o
che c'e' concordanza, se in media osservazioni sopra la media di X sono associate a osservazioni
sopra la media di Y e osservazioni sotto la media di X sono associate a osservazioni sotto la
media di Y .
333. Fare esempi di caratteri concordanti.
Ad esempio, le spese alimentari e il reddito di una famiglia, l'altezza e il numero di scarpe
di un individuo, l'eta' della sposa e l'eta' dello sposo al matrimonio.
334. I dati ttizi seguenti riguardano l'eta' e lo stipendio mensile di dieci impiegati di una
azienda.
68
Unita' Eta' Stipendio
1 27 1.26
2 29 1.58
3 34 1.87
4 35 1.41
5 35 2.19
6 37 1.67
7 44 2.09
8 44 1.47
9 45 1.87
10 50 2.37
Vericare se c'e' concordanza.
Si calcolano gli scarti di X (l'eta') dalla media e gli scarti di Y (lo stipendio) dalla media
e si controlla quelli che hanno segni concordi e quelli che hanno segni discordi. L'eta' media
e' 38 anni e lo stipendio medio e' 1 milione e 780 mila lire al mese. Gli scarti dalla media
sono i seguenti.
Unita' x ; 38 y ; 1:78
1 ;11 ;0:518
2 ;9 ;0:198
3 ;4 0:092 *
4 ;3 ;0:368
5 ;3 0:412 *
6 ;1 ;0:108
7 6 0:312
8 6 ;0:308 *
9 7 0:092
10 12 0:592
Nella tavola solo tre individui (indicati con un asterisco) hanno segni discordi. Pertanto c'e'
evidenza di una certa concordanza tra stipendio ed eta'.
335. Disegnare il graco di dispersione e segnare le unita' concordi e quelle discordi.
2.4
•
2.2
2.0
Stipendio
•
1.8
1.6
•
1.4
30 35 40 45 50
Eta’
69
Nel graco seguente le unita' concordi sono indicate con un cerchietto vuoto e quelle discordi
con un cerchietto pieno. Si osservi che le unita' concordi stanno nel primo e terzo quadrante e
che quelle discordi stanno nel secondo e quarto quadrante (sono le unita' 3, 5 e 8). Pertanto, se
lo scatterplot presenta una nuvola di punti che copre in prevalenza il primo e terzo quadrante
c'e' concordanza tra i caratteri (all'aumentare dell'uno aumenta l'altro e al diminuire dell'uno
diminuisce l'altro). Se invece i punti sono in prevalenza nel secondo e quarto quadrante c'e'
discordanza (all'aumentare di un carattere l'altro diminuisce e al diminuire di un carattere
l'altro aumenta).
336. Si osservi in generale la regola:
1. Se la maggior parte dei punti sta nel I e III quadrante
la covarianza e' positiva
a scarti di un certo segno dalla media di X corrispondono scarti dello stesso segno
dalla media di Y ,
concordanza positiva
2. Se la maggior parte dei punti sta nel II e IV quadrante
la covarianza e' negativa
a scarti di un certo segno dalla media di X corrispondono scarti del segno opposto
dalla media di Y ,
concordanza negativa
337. Si osservi la gura sottostante in cui sono rappresentate tre distribuzioni doppie: A in
cui i caratteri sono discordanti, C in cui i caratteri sono concordanti. Il caso B e' un caso
incerto , intermedio fra i due.
-2 -1 0 1 2
A B C
•
2 • • •
• • •••• •
• •• • •
• • •
1 •• • • • • •
•
•
• •• •
•
•• • • • • • •• • • •• •
• • • •• •
• •• ••• •
Y
0 • • • ••• •• ••
• • •• •
• ••
• • •• • •• • ••
• • •• • • •• • •• • ••
• • •
-1 • • •• •
• •
• •
-2 • • • •
-2 -1 0 1 2 -2 -1 0 1 2
6.5 Covarianza
338. Per misurare la concordanza e la discordanza si calcola un indice sintetico chiamato
covarianza tra X e Y che si calcola facendo la media dei prodotti degli scarti (X ; X ) e
(Y ; Y ). Calcolare i prodotti degli scarti e la loro media per i dati sull'eta' e lo stipendio.
Gli scarti e il loro prodotto sono riporati nella tavola seguente
70
Unita' X ; X Y ; Y Prodotto
1 ;11 ;0:518 5:70
2 ;9 ;0:198 1:78
3 ;4 0:092 ;0:37
4 ;3 ;0:368 1:10
5 ;3 0:412 ;1:24
6 ;1 ;0:108 0:11
7 6 0:312 1:87
8 6 ;0:308 ;1:85
9 7 0:092 0:64
10 12 0:592 7:10
Media 0 0:000 1:49
Pertanto la covarianza e' 1:49.
339. Perche' la covarianza misura se vi e' associazione positiva o negativa?

Poiche' il prodotto degli scarti e' positivo solo se gli scarti sono entrambi positivi o en-
trambi negativi la covarianza e' positiva se in prevalenza vi sono coppie di scarti concordanti.
Viceversa il prodotto degli scarti e' negativo solo se gli scarti sono di segno opposto, quindi
la covarianza e' negativa se in prevalenza vi sono coppie di scarti discordanti.
Nell'esempio, si nota che la media dei prodotti e' positiva poiche' 7 unita' hanno valori
concordi e solo 3 discordi. Inoltre vi e' un contributo positivo elevato specialmente delle unita'
1 (valori (27; 1:26)) e 10 (valori (50; 2:37))
340. Come si interpreta la covarianza?

Si interpreta innanzitutto il segno. Se la covarianza e' positiva diremo che vi e' associazione
positiva e se e' negativa diremo che vi e' associazione negativa.
341. La covarianza si puo' calcolare per una distribuzione doppia di frequenze relative?
Si', si calcola la media dei prodotti degli scarti ponderati con le frequenze relative p(x; y ).
Pertanto,
XY = E f(X ; X )(Y ; Y )g:
342. Sia data la seguente distribuzione di frequenze relative (ttizia) dell'altezza e del
numero di scarpe.
Scarpe
Altezza 38 40 42 Totale
160 0.2 0.1 0 0.3
170 0.1 0.3 0.2 0.6
180 0 0 0.1 0.1
Totale 0.3 0.4 0.3 1.0
Calcolare la covarianza.
71
La media di X =altezza e'

X = 160 0:3 + 170 0:6 + 180 0:1 = 168:
La media del numero di scarpe e' Y = 40. Si costruiscono gli scarti dalla media per X e Y
e si calcola il prodotto come nella tavola seguente.
Prodotti Scarti Y
Scarti X -2 0 2
-8 16 0 -16
2 -4 0 4
12 -24 0 24
Si sono ottenuti 9 prodotti e di questi si fa la media ponderando per le 9 frequenze relative

congiunte. Il prodotto tra gli scarti e le frequenze relative e' il seguente.
16 0 ;16 0:2 0:1 0 3:2 0 0:0
;4 0 4 0:1 0:3 0:2 = ;0:4 0 0:8
;24 0 24 0 0 0:1 0:0 0 2:4
La media dei 9 numeri e' la covarianza
cov(X; Y ) = 3:2 ; 0:4 +9 0:8 + 2:4 = 0:667
che e' positiva, come ci si attendeva.
343. Come si denota la covarianza?
Con l'operatore cov(X; Y ) o con il simbolo XY (lettera greca sigma minuscola).
344. Si osservi che la covarianza tra una variabile e se stessa e' uguale alla varianza della
variabile.
Infatti, se X = Y , la media dei prodotti (X ; X )(X ; X ) = (X ; X )2 e' per denizione
la varianza di X . Pertanto,
cov(X; X ) = var(X ):
Si usa di solito anche un simbolo classico per la varianza, cioe'
XX = X2 :
Percio' lo scarto quadratico medio si indica con X . Si faccia attenzione a non confondere
XX che e' una varianza, con X che e' lo sqm.
345. La covarianza e' un indice assoluto o relativo?
E' un indice assoluto nel senso che dipende dall'unita' di misura dei due caratteri. Se X
e' misurato in chili e Y in grammi, la covarianza e' misurata in kg g.
72
346. Qual'e' il campo di variazione della covarianza?

In ogni caso la covarianza puo' assumere valori solo dentro l'intervallo
;X Y cov(X; Y ) +X Y :
347. Che cosa signica quando la covarianza e' uguale a uno degli estremi?
Se la covarianza e' uguale al prodotto degli scarti (l'estremo superiore) vuol dire che la
variabile X e' funzione lineare crescente di Y . In questo caso le due variabili sono esattamente
legate fra loro. Non solo all'aumentare di X , Y tende ad aumentare, ma e' noto esattamente
di quanto aumenta.
Ad esempio, se x e' la temperatura in gradi Celsius e y e' la temperatura in gradi
Fahrenheit e' noto che si puo' passare da una scala all'altra con la regola
y = 59 x + 32
Si noti che y e' funzione lineare crescente di x. Se la temperatura in gradi Celsius e' rilevata su
un certo numero di unita' possiamo ottenere una distribuzione X . A questa corrisponde una
distribuzione Y di temperature in gradi Fahrenheit. La covarianza tra X e Y e' uguale allora
per forza al suo valore massimo cioe' al prodotto degli scarti. E' chiaro che in questo caso e'
sensato che l'associazione debba essere massima, perche' Y e' una trasformazione esatta di
X . Si osservi che pero' la trasformazione e' particolare, cioe' e' lineare.
Anche la covarianza tra un distribuzione di prezzi espressi in lire e in marchi da' luogo a
una covarianza massima.
349. Quando avviene che la covarianza assume il valore minimo, cioe' meno il prodotto degli
scarti quadratici medi?
Quando la variabile Y e' funzione lineare decrescente di X .
350. Se si disegna lo scatter della distribuzione doppia, quando la covarianza e' massima,
cosa si osserva?
I punti (x; y ) si dispongono esattamente su una retta crescente.
351. Se si disegna lo scatter della distribuzione doppia, quando la covarianza e' minima,
cosa si osserva?
I punti (x; y ) si dispongono esattamente su una retta decrescente.
352. Come si valuta la forza dell'associazione?
L'associazione e' tanto piu' forte quanto piu' la covarianza e' diversa da zero e vicina agli
estremi. Quando la covarianza e' vicina al massimo i punti (x; y ) sullo scatter sono vicini a
disporsi su una retta crescente. Quando la covarianza e' vicina al minimo i punti (x; y ) sullo
scatter sono vicini a disporsi su una retta decrescente. In questo senso la covarianza misura
l'allineamento dei punti (x; y ) lungo una retta crescente o decrescente. Quindi la covarianza
misura la forza della relazione lineare fra le variabili.
73
353. I due diagrammi di dispersione seguenti sono relativi a due collettivi di studenti lau-
reatisi nella facolta' A e nella facolta' B. Entrambi i collettivi hanno numerosita' 200. Si sono
rilevate le variabili X , voto medio al termine degli esami e Y , voto di laurea.
Facolta’ A sxy = 3.4 sx = 1.5 sy = 2.5 Facolta’ B sxy = 3.4 sx = 1.8 sy = 2.9
110
110
105
105
Voto di laurea
Voto di laurea
100
100
95
95
90
90
18 20 22 24 26 28 30 18 20 22 24 26 28 30
Voto medio Voto medio
La covarianza tra X e Y e' la stessa nei due collettivi: XY = 3:4. I due scarti quadratici
medi sono nella facolta' A: X = 1:5 e Y = 2:5 e nella facolta' B: X = 1:8 e Y = 2:9. In
quale facolta' le due variabili sono maggiormente associate linearmente?
Nella facolta' A, come si vede anche dallo scatterplot. Infatti, nella facolta' A la covarianza
puo' variare nell'intervallo (;3:75; 3:75) (dove 3:75 e' il prodotto degli scarti quardatici medi),
mentre nella facolta' B la covarianza puo' variare in un intervallo maggiore (;5:22; 5:22):
Pertanto il valore osservato della covarianza e' molto piu' vicino all'estremo 3:75 per la Facolta'
A che all'estremo 5:22 per la facolta' B.
354. Se i punti (x; y) sono sono allineati su una retta crescente o decrescente, che tipo di
relazione esiste tra X e Y ?
Una relazione lineare, del tipo
Y = a + bX
dove b e' positivo se la retta e' crescente e b e' negativo se la retta e' decrescente. Se a e'
uguale a zero la retta passa per l'origine.
355. Se tra le variabili X e Y esiste una relazione non lineare esatta per esempio
Y = a + bX + cX 2 (equazione di una parabola)
la covarianza e' uguale a uno dei due estremi del suo campo di variazione?
No, perche' la covarianza e' uguale a uno degli estremi solo in caso di esatto allineamento
su una retta.
74
SETTIMANA 7
Relazioni tra due caratteri: correlazione
7.1 Dipendenza e interdipendenza

356. Come viene studiata la relazione fra due caratteri?
Per studiare la relazione tra due caratteri e' necessario specicare se
i due caratteri sono considerati sullo stesso piano, oppure
i due caratteri sono cosiderati su due piani diversi.
357. Quando due caratteri sono considerati sullo stesso piano?
Quando ai ni dell'analisi, sono entrambi oggetto di studio ed e' importante studiare il
loro comportamento congiunto.
358. Fare degli esempi.
Un medico che rileva la pressione massima e minima dei pazienti ed e' interessato al
comportamento congiunto delle due variabili.
L'oculista che rileva il grado di miopia dell'occhio sinistro e dell'occhio destro dei suoi
pazienti.
Un insegnante che rileva i voti presi dai suoi studenti in varie materie alla ne dell'anno
tratta i punteggi sullo stesso piano.
359. Quando due caratteri sono considerati su piani diversi?
In molti casi uno dei caratteri e' un antecedente logico dell'altro ed e' pensato come una
possibile in uenza dell'altro. In questo caso si dice che un carattere e' esplicativo e che l'altro
e' dipendente.
75
76

Ad esempio, in un collettivo di famiglie il consumo in generi alimentari dipende dal
reddito, quindi il consumo e' una variabile dipendente e il reddito e' una variabile
esplicativa.
In un collettivo di studenti iscritti all'universita' il voto alla maturita' puo' essere un
fattore, tra gli altri, che spiega l'eventuale seguente abbandono degli studi.
Il prezzo di un bene in uenza la quantita' venduta.
Il consumo di carburante si puo' pensare dipendente dalla cilindrata.
In un esperimento in genere si somministra un trattamento a un certo numero di unita'
e si osserva quindi la risposta delle unita' (fertilizzante, quantita' raccolta; farmaco,
miglioramento; fattore di rischio, malattia). La risposta e' il carattere dipendente e il
trattamento e' il carattere esplicativo.
Si osservi che talvolta due variabili sono considerate sullo stesso piano ai ni di un'analisi e
distinte in esplicativa e dipendente ai ni di un'altra analisi.
Si osservi anche che in generale un carattere puo' dipendere contemporaneamente da piu
caratteri esplicativi. Ad esempio, l'altezza di un individuo dipende tra le altre cose dall'eta'
e dal sesso. Il numero di gli di una donna puo' dipendere dall'eta' della donna, ma anche
dal grado di istruzione.
361. Come si distingue lo studio della relazione tra due caratteri?

Si distingue
l'analisi della interdipendenza tra due caratteri, quando essi sono considerati ai ni
dell'analisi sullo stesso piano
l'analisi della dipendenza di un carattere dall'altro quando essi sono trattati su due piani
diversi.
362. La distinzione tra carattere esplicativo e carattere dipendente e' di natura stratistica?
No, tale distinzione e' extra statistica, ma dipende dal campo di studio e dalla specica
applicazione.
7.2 Misure di interdipendenza
363. Come si misura tipicamente l'interdipendenza di due caratteri X e Y quantitativi?
Si misura tramite il coeciente di correlazione tra X e Y . Esso misura l'associazione
lineare tra le variabili, ossia indica quanto e' forte il grado di allineamento tra X e Y .
77
364. Come e' denito il coeciente di correlazione lineare?

E' indicato con corr(X; Y ) = XY , dove
XY = XY
X Y
cioe' dal rapporto tra la covarianza e il prodotto degli scarti quadratici medi.
365. Perche' l'indice e' costruito in questo modo?

Poiche' la covarianza XY e' sempre compresa tra ;X Y e X Y , il coeciente di cor-
relazione risulta sempre compreso tra ;1 e +1. L'indice e' quindi normalizzato e quale che
sia la distribuzione doppia dei due caratteri, esso risulta sempre uguale a un numero com-
preso tra ;1 e +1. Cio' e' utile per confrontare l'associazione lineare in collettivi diversi.
Ovviamente, quando il coeciente di correlazione e' uguale a +1 la covarianza e' uguale al
suo valore massimo, cioe' c'e' perfetto allineamento su una retta crescente, e quando e' uguale
a ;1 la covarianza e' uguale al suo valore minimo e c'e' perfetto allineamento su una retta
decrescente. Nei casi intermedi, l'allineamento e' tanto piu' forte quanto piu' vicino e' il
coeciente di correlazione agli estremi ;1 o +1.
366. La gura seguente rappresenta 6 scatter ciascuno con un grado di allineamento diverso.
Sotto lo scatter e' indicato il coeciente di correlazione.
3
• •
•
••
2
• •
•
• • • ••
• • •
• •
• ••
1
• •• •• •• • •
•• • • • • •
••
•• ••
• •• •• • • • •• • • •• •• • •
• • ••• • •• • •• • •
0
• •• • • ••• • • •
• ••• • •• • ••• • •
•• •••• • •
• •
-1
-1
-1
• • • ••• •• •
• •• •
• •
• • • •
-2
-2
-2
•
-3
-3
-3
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
cor = 0.6 cor = -1 cor = -0.8
•
3
• •
•
•
2
•
•• •
• • • •
• •• • • • •
• • •
1
••• • • • • •• ••
• •• • • • • •
• • •• •••• • • • • •
•• • • • •
•• • • • • • • • •
0
•
• • • • ••• •••
• • • •• •• • •••• • • ••
•• •
•
• • • •• • • • • • • • ••
• • • • •• ••
-1
-1
-1
•
• •• • • •
••
• •
•
• •
• • •
• •
-2
-2
-2
•
-3
-3
-3
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
cor = 0.9 cor = 0 cor = -0.5
367. Se si scambia l'ordine dei caratteri come cambia il coeciente di correlazione?

Il coeciente di correlazione non cambia se si permutano i due caratteri. Percio' Y X =
XY : Infatti, si dice che l'indice e' simmetrico, in X e Y e che per questo e' una misura di
interdipendenza tra i due caratteri.
78
368. Calcolare il coeciente di correlazione tra voto medio e voto di laurea dai dati del
problema 343.
Nella facolta' A il coeciente di correlazione e' 3:4=(1:5 2:5) = 0:9, mentre nella facolta'
B e' 3:4=(1:8 2:9) = 0:65. Pertanto c'e' maggiore associazione lineare tra le variabili nella
facolta' A.
369. Quando l'associazione lineare tra X e Y risulta perfetta?

Quando il coeciente di correlazione e' uguale a +1 o a ;1. In tal caso X e' funzione
lineare di Y e viceversa. Pertanto e' possibile prevedere esattamente un carattere conoscendo
l'altro.
370. Che cosa signica un coeciente di correlazione uguale a zero?

La situazione in cui XY = 0 si ha quando vi e' indecisione sulla concordanza o discordanza
tra X e Y . Tale situazione e' chiamata incorrelazione. Evidentemente vi e' incorrelazione se
la covarianza e' zero, cioe' se in media i prodotti degli scarti valgono zero. Come si vedra'
piu' avanti l'incorrelazione e' una forma debole di indipendenza.
371. In tutti i casi rappresentati negli scatter sottostanti vi e' incorrelazione.

15
20
10
10
0
5
-10
0 50 100 0 20 40 60
25
4
20
3
15
2
10
1
5
0
0
0 10 20 30 40 4 6 8 10 14
372. Il coeciente di correlazione ha una unita' di misura?

No il coeciente di correlazione e' adimensionale, perche' e' un rapporto in cui al nume-
ratore vi e' la covarianza che e' espressa nel prodotto delle unita' di misura di X edi Y e al
79
denominatore vi e' il prodotto degli scarti q. medi che e' anch'esso espresso nel prodotto delle
unita' di misura dei due caratteri.
7.3 Standardizzazione
373. Data una variabile X con media X , la variabile si dice espressa in scarti dalla media
se viene trasformata in
X 0 = X ; X :
374. Uno studente ha fatto 5 esami prendendo i voti
22; 28; 27; 30; 28:
Esprimere la variabile in scarti dalla media.
La media e' 27. Pertanto la variabile espressa in scarti dalla media e'
;5; +1; 0; +3; +1
L'interpretazione e' semplice: il primo esame ha un voto che e' 5 punti sotto la media, il
secondo e' un punto sopra, il terzo e' uguale alla media, etc.
375. A cosa e' uguale la media di una variabile espressa in scarti dalla media?
La media e' sempre uguale a zero, perche' la somma degli scostamenti dalla media di una
variabile qualsiasi e' sempre zero.
376. Si osservi che la covarianza e' la media dei prodotti delle variabili espresse in sacrti
dalla media.
377. Data una variabile X con media X e scostamento quadratico medio X , la varia-
bile si dice espressa in scarti standardizzati o, piu' semplicemente, standardizzata se viene
trasformata in
ZX = X ; X :
X
378. Uno studente ha fatto 5 esami prendendo i voti
23; 20; 26; 22; 24:
Standardizzare la variabile.
La media e' 23 e la varianza e' 4. Pertanto, la variabile espressa in scarti dalla media e'
0; ;3; +3; ;1; +1
e, dividendo questi valori per lo scarto quadratico medio che e' 2, si hanno i punteggi
standardizzati
0; ;1:5; +1:5; ;0:5; +0:5
80
379. Qual'e' l'interpretazione dei punteggi standardizzati?

Standardizzare un dato signica trovare quanti scostamenti quadratici medi dista dalla
media. Ad esempio, nel problema 378 il secondo voto standardizzato (20) e' ;1:5 perche' ha
un valore inferiore alla media (23) di uno scarto quadratico medio e mezzo (1:5 2 = 3).
380. Che valori ci si puo' aspettare per un punteggio standardizzato?

Poiche' almeno gli 8=9 dei dati sono compresi nell'intervallo
X ; 3X ; X + 3X
almeno gli 8=9 dei punteggi standardizzati sono compresi nell'intervallo
;3; +3:
381. Qual'e' la media dei punteggi standardizzati?
E' sempre zero, perche' i punteggi standardizzati sono scarti dalla media.
382. Qual'e' la varianza dei punteggi standardizzati?

E' sempre 1. Infatti,
varf(X ; X )=X g = var(X ; X )=X2 = X2 =X2 = 1
poiche', nella frazione, la varianza var(X ; X ) e' uguale alla varianza di X .
383. Pertanto, che cosa signica standardizzare una variabile?

Signica trasformarla linearmente in modo da ridurla ad avere sempre media zero e
varianza 1.
7.4 Correlazione e standardizzazione
384. Qual'e' il coeciente di correlazione tra due variabili standardizzate?
Si puo' dimostrare che e' uguale al coeciente di correlazione tra le variabili originarie.
Pertanto
corr(ZX ; ZY ) = corr(X; Y );
dove ZX e ZY sono le variabili X e Y standardizzate. Tenendo conto del fatto che le variabili
standardizzate hanno varianza 1 (e quindi scostamento quadratico medio 1) risulta che il
coeciente di correlazione e'
corr(X; Y ) = p cov(ZX ; ZY ) = cov(ZX ; ZY )
var(ZX )var(ZY )
e' uguale alla covarianza tra le variabili standardizzate.
81
385. Calcolare il coeciente di correlazione tra eta' e stipendio (vedi problema 325), in
modo diretto e come covarianza tra le variabili standardizzate.
Posto X = eta' e Y = stipendio, risulta che X = 38, y = 1:778, X = 7:085 e Y = 0:34.
Dai calcoli fatti in precedenza risulta anche che XY = 1:49. Direttamente risulta dunque
che XY = 1:49=(7:085 0:34) = 0:61. L'eta' e lo stipendio standardizzati sono riportati nella
tabella sottostante
ZX ZY ZX ZY
;1:553 ;1:524 2:365
;1:270 ;0:582 0:740
;0:565 0:271 ;0:153
;0:423 ;1:082 0:458
;0:423 1:212 ;0:513
;0:141 ;0:318 0:045
0:847 0:918 0:777
0:847 ;0:906 ;0:767
0:988 0:271 0:267
1:694 1:741 2:949
Nella terza colonna sono calcolati i prodotti tra ZX eZY necessari per calcolare la covarianza
(La covarianza e' la media dei prodotti delle variabili espresse in scarti dalla media, ma qui le
medie sono zero perche' si tratta di punteggi standardizzati.) La media dell'ultima colonna
e' appunto 0:61.
82
SETTIMANA 8
Dipendenza e indipendenza
8.1 Distribuzioni condizionate

Lo strumento fondamentale per studiare la dipendenza di un carattere da un altro e' il concetto
di distribuzione condizionata.
386. Che cos'e' una distribuzione condizionata?
Dati due caratteri, una distribuzione condizionata e' la distribuzione di uno di essi tenendo
sso l'altro.
387. Come si denisce la distribuzione di un carattere Y condizionata all'aver ssato l'altro
carattere X ad assumere una modalita' x?
E' la distribuzione di Y per quelle unita' statistiche per le quali X e' uguale alla modalita'
ssata x. La distribuzione condizionata si costruisce prima selezionando quella parte della
popolazione le cui unita' hanno tutte lo stesso valore x della variabile esplicativa X e quindi
trovando la distribuzione del carattere dipendente Y solo per tali unita'. Di solito si calcolano
le frequenze relative.
Dato il reddito e il titolo di studio di un collettivo di individui si puo' denire la di-
stribuzione del reddito per tutti coloro che hanno lo stesso titolo di studio. Ad esempio, la
distribuzione del reddito per tutti i laureati. Questa e' la distribuzione del reddito condizio-
nata al titolo di studio, cioe' avendo vincolato il titolo di studio ad assumere la modalita'
`laureato'.
La distribuzione reddito per tutti coloro che hanno solo il titolo delle medie inferiori, e'
un'altra distribuzione condizionata.
Dato un collettivo di automobili, su cui si e' rilevato il consumo di benzina e la cilindrata,
si puo' denire la distribuzione del consumo per tutte le auto che hanno la stessa cilindrata.
83
84
Per ogni valore possibile di cilindrata si puo' individuare la sottopopolazione di auto che
hanno quella cilindrata e descriverle con la loro distribuzione di frequenza.
Dato un collettivo di individui si puo' misurare la pressione sanguigna e l'eta' e quindi
ottenere, per ogni eta', le relative distribuzioni condizionate della pressione.
389. Come si indica la distribuzione di Y condizionata a X ?

Si indica in modo simbolico Y j (X = x) e si legge `Y dato X '.
390. Ad esempio, si consideri la distribuzione degli studenti secondo il fumo e il sesso. La

distribuzione congiunta, con i totali marginali di riga, e' la seguente
Fuma?
Sesso si' no Totale
m 17 19 36
f 18 40 58
Per studiare se il fumo dipende dal sesso e' conveniente confrontare la proporzione di fumatori
tra i maschi e tra le femmine che sono appunto le due distribuzioni condizionate Fumo j
Sesso = m e Fumo j Sesso = f :
Fuma?
Sesso si' no Totale
m 17=36 19=36 36=36
f 18=58 40=58 58=58
La distribuzione dei fumatori quando Sesso = m e' riportata nella prima riga della tabella
ottenuta dividendo ciascuna frequenza congiunta della prima riga per la frequenza marginale.
Analogamente, la distribuzione dei fumatori quando Sesso = f e' riportata nella seconda riga
della tabella. Usando le frequenze relative percentuali si ottiene
Fuma?
Sesso si' no Totale
m 47:22 52:78 100
f 31:03 68:97 100
Le due distribuzioni condizionate si possono confrontare perche' relativizzando si e' reso uguale
a 100 la numerosita' del colletivo per i maschi e per le femmine. Si nota una certa dierenza
tra la proporzione di maschi fumatori e di femmine fumatrici, con una maggior propensione
per i maschi a fumare.
391. Osservare che calcolando le frequenze condizionate relativizzando al totale di riga

le frequenze relative congiunte anziche' le frequenze assolute congiunte, si ottiene lo stesso
risultato.
Infatti, poiche' il numero totale di unita' e' 94, la distribuzione congiunta relativa e quella
marginale relativa sono ottenute dividendo tutte le frequenze assolute per 94, come segue
85
Fuma?
Sesso si' no Totale
m 17=94 19=94 36=94
f 18=94 40=94 58=94
Dunque i rapporti delle frequenze congiunte per le frequenze marginali restano gli stessi.
392. Pertanto, come e' denita in generale una frequenza condizionata di Y = y j X = x?
E' il rapporto tra la proporzione di osservazioni per cui X = x e Y = y e la proporzione
di osservazioni per cui X = x. Cioe'
p(Y = y j X = x) = p(Xp(=Xx;=Yx=) y ) = p(px;
(x)
y) :
393. Si consideri l'esempio seguente (ttizio). X e' il titolo di studio e Y e' il reddito di un
individuo. Si abbia la seguente tavola di contingenza
Reddito
Titolo di studio Basso Medio Alto Totale
Elementari 88 143 120 351
Medie 9 38 38 85
Superiori 3 19 42 64
Totale 100 200 200 500
Qual'e' la frequenza di quelli che hanno il reddito medio, condizionata a: titolo = elementari?
Utilizzando la formula generale, risulta
p(Y = medio j X = elementari) = p(X =p(elementari ; Y = medio) = 143=500 = 0:408:
X = elementari) 351=500
Cioe' il 40.8% di coloro che hanno il titolo delle elementari ha un reddito medio. Inoltre le
tre distribuzioni di Y condizionate a X = elementari, X = medie e X = superiori sono le
seguenti
Reddito
Elementari 26.0 40.8 34.2 100
Medie 10.6 44.7 29.7 100
Superiori 4.7 29.7 65.6 100
Totale 20.0 40.0 40.0 100
Nella tabella e' riportatata anche la distribuzione marginale del reddito.

394. Qual'e' la frequenza di quelli che hanno il titolo delle superiori, condizionata al reddito
basso?
Anche in questo caso, utilizzando la formula generale, risulta
p(X = superiori j Y = basso) = p(X = superiori ; Y = basso) = 3=500 = 0:03 = 3%
p(Y = basso) 100=500
86
cioe' il 3% di coloro che hanno il reddito basso hanno il titolo delle superiori. Inoltre le tre
distribuzioni di X condizionate a Y = basso, Y = medio e Y = alto sono le seguenti
Reddito
Elementari 88.0 71.5 60.0 70.2
Medie 9.0 19.0 19.0 17.0
Superiori 3.0 9.5 21.0 12.8
Totale 100.0 100.0 100.0 100.0
Nella tavola, l'ultima colonna e' la distribuzione marginale del titolo di studio.
395. Se X e Y sono caratteri discreti, e' possibile costruire una tavola di contingenza in cui
le righe sono le modalita' di X e le colonne sono le modalita' di Y . In tal caso le distribuzioni
condizionate di Y j X sono le righe della tabella divise per i rispettivi. Invece, le distribuzioni
condizionate di X j Y sono le colonne divise per i rispettivi totali.
396. Se i caratteri sono continui non e' possibile rappresentare le distribuzioni congiunte
in tavole di contingenza. Tuttavia e' semplice individuare le distribuzioni condizionate sullo
scatter. Per esempio, consideriamo di nuovo i dati sulle altezze e il numero di scarpe degli
studenti di Statistica. Nel graco si vede la distribuzione congiunta delle due variabili.
180
170
altezza
160
150
36 38 40 42 44
scarpe
Nel graco seguente, invece sono state selezionate le distribuzioni condizionate dell'altezza
dato il numero di scarpe X = 36; X = 38; e X = 44: Le distribuzioni delle altezze condizionate
al numero di scarpe sono delimitate dalle strisce verticali centrate su 36; 38 e 44.
87
180
170
altezza
160
150
36 38 40 42 44
scarpe
8.2 Indipendenza
Le distribuzioni condizionate permettono di denire esattamente il concetto di dipendenza e
di indipendenza.
397. Quando si vuole studiare la dipendenza di Y da X qual'e' la cosa fondamentale da

fare?
La cosa fondamentale e' studiare come varia la distribuzione del carattere dipendente Y
condizionata al carattere esplicativo X . Questo permette di controllare qual'e' l'eetto di X
sulla distribuzione di Y j X .

Ad esempio, per studiare se l'altezza dipende dal numero di scarpe, (cioe' se la lunghezza
dei piedi permette di prevedere l'altezza), conviene studiare come varia la distribuzione della
altezza condizionata al numero di scarpe.
Per studiare se lo stipendio dipende dall'anzianita' conviene studiare le distribuzioni dello
stipendio condizionate all'anzianita'.
Per studiare se la pena di morte dipende dalla razza, si deve studiare la distribuzione della
pena di morte condizionata alla razza.
Per studiare se la concentrazione di ozono nell'aria dipende dalla temperatura si studiano
le distribuzioni condizionate della concentrazione di ozono a varie temperature.
Per studiare se la spesa per generi alimentari dipende dal reddito si studiano le distribu-
zioni delle spese per vari livelli di reddito.
Per studiare se la quantita' venduta di un bene dipende dal prezzo si studiano le distri-
buzioni condizionate delle quantita' vendute a vari livelli di prezzo.
88
399. Quando si puo' aermare che un carattere dipendente Y e' indipendente da un carattere
esplicativo X ?
Un carattere Y e' indipendente (in distribuzione) da un carattere Y quando tutte le di-
stribuzioni condizionate di Y j (X = x) sono identiche, quale che sia il livello x. In tal caso,
comunque sia ssata X , la distribuzione di Y j X non cambia. Questo permette di concludere
che conoscere X non fornisce un aiuto per prevedere Y .
Il gruppo sanguigno (Rh+ e Rh-) e' indipendente dal sesso? Se la distribuzione teorica
relativa a una certa popolazione e' la seguente
Gruppo
Sesso Rh+ Rh- Totale
Maschi 120 30 150
Femmine 80 20 100
Totale 210 40 250
Si ottengono le seguenti distribuzioni condizionate del gruppo sangugno dato il sesso.
Gruppo
Maschi 0.8 0.2 1.0
Femmine 0.8 0.2 1.0
Come si vede, una volta relativizzate per il totale di riga le frequenze condizionate sono
uguali. Quindi sia tra i maschi che tra le femmine c'e' la stessa proporzione di Rh positivi
e Rh negativi. Questo signica che il fatto di conoscere il sesso non aiuta nel prevedere il
gruppo sanguigno, perche' la distribuzione del gruppo sanguigno e' la stessa per i due sessi.
Conclusione: il gruppo sanguigno e' indipendente dal sesso.
401. La tavola seguente riporta la distribuzione degli studenti secondo la facolta' (Scienze
politiche, Economia, Lettere) e la sede (citta' A, citta' B).
Facolta'
Sede S. Politiche Economia Lettere Totale
A 25 50 75 150
B 50 100 150 300
Totale 75 250 225 450
La facolta' e' indipendente dalla sede?
Le distribuzioni condizionate della facolta' data la sede sono uguali:
Facolta'
Sede S. Politiche Economia Lettere Totale
A 1/6 1/3 1/2 1
B 1/6 1/3 1/2 1
Pertanto, la facolta' e' indipendente dalla sede. Interpretazione: sia nella sede A che nella
sede B vi sono le stesse proporzioni di studenti delle tre facolta'.
89
402. Nella tavola precedente, la sede e' indipendente dalla facolta'?

Le distribuzioni condizionate della sede data la facolta' sono le seguenti.
Facolta'
Sede S. Politiche Economia Lettere
A 1/3 1/3 1/3
B 2/3 2/3 2/3
Totale 1 1 1
Risultano dunque tre distribuzioni condizionate identiche. Pertanto, vi e' indipendenza della
sede dalla facolta'. Interpretazione: gli studenti delle tre facolta' si distribuiscono sempre per
un terzo nella sede A e per due terzi nella sede B.
403. L'esempio precedente suggerisce che se Y e' indipendente da X , anche X e' indipen-
dente da Y . Questa aermazione e' sempre vera?
Si', e' vero che Y e' indipendente da X se e solo se X e' indipendente da Y . Per questo
si dice semplicemente che X e Y sono indipendenti fra loro.
8.3 Relazione tra le distribuzioni condizionate e la distribuzione marginale
404. Sia data la seguente distribuzione di votanti secondo il partito scelto (Destra, Sinistra)
e il comune di residenza (comuni A, B e C).
Partito
Comune Destra Sinistra Totale
A 600 1800 2400
B 1190 510 1700
C 450 450 900
Totale 2240 2760 5000
Tale distribuzione si puo' completamente ricavare dalla tavola delle distribuzioni condizionate
del partito dato il comune piu' la distribuzione marginale dei votanti per comune
Partito
Comune Destra Sinistra Totale Comune Votanti
A 0.25 0.75 1.0 A 2400
B 0.70 0.30 1.0 B 1700
C 0.50 0.50 1.0 C 900
Totale 5000
Infatti per trovare per esempio nel comune A i 600 votanti per la Destra, basta moltiplicare
2400 per 0.25. Analogamente, per trovare per esempio i 450 votanti per la sinistra nel comune
C basta moltiplicare 900 per 0.5.
Le frequenze congiunte sono percio' le seguenti
Partito
Comune Destra Sinistra
90
A 0.25 x 2400 0.75 x 2400

B 0.70 x 1700 0.30 x 1700
C 0.50 x 900 0.50 x 900
Totale 2240 2760
Dunque i totali marginali dei vari partiti si ottengono per somma, ad esempio
2240 = (0:25 2400) + (0:70 1700) + (0:50 900):
La frequenza relativa marginale dei votanti per la Destra e'
2240 = 0:25 2400 + 0:70 1700 + 0:50 900 :
5000 5000 5000 5000
2400 ; 1700 e 900 sono le frequenze marginali dei comuni e sommano a uno.
Si osservi che 5000 5000 5000
Percio', l'equazione precedente si puo' interpretare come una media ponderata delle frequenze
5000 = 0:48; 5000 = 0:34 e 5000 = 0:18.
condizionate con pesi uguali a 2400 1700 900
405. Esprimere la frequenza relativa marginale delle sinistre come media ponderata delle
frequenze condizionate.
Risulta
2760 = 0:75 0:48 + 0:30 0:34 + 0:50 0:18:
5000
406. Si abbia la seguente distribuzione di laureati a un anno dalla laurea secondo il tipo di
laurea (Scienze politiche, Economia, Letter) e la posizione sul lavoro (In cerca di occupazione,
Occupato).
Occupato?
Laurea No Si' Totale
S. politiche 0.5 0.5 1.0
Economia 0.3 0.7 1.0
Lettere 0.8 0.2 1.0
Qual'e' la percentuale di disoccupati nel complesso? E' noto che la distribuzione dei laureati
e' la seguente
Laurea Frequenza
S. politiche 0.4
Economia 0.2
Lettere 0.6
Totale 1.0
La percentuale dei disoccupati nel complesso non e' la media aritmetica delle percentuali
di disoccupati provenienti dalle tre facolta', a meno che la proporzione di laureati sia la stessa.
La percentuale di disoccupati nel complesso e' una media ponderata delle tre percentuali
con pesi uguali a 0.4, 0.2 e 0.6, cioe'
0:5 0:4 + 0:3 0:2 + 0:8 0:6 = 0:74 = 74%:
Notare che la percentuale e' alta a causa di Lettere che ha un peso elevato e un tasso di
disoccupazione elevato (dati ipotetici!).
91
407. * La relazione precedente si puo' scrivere in modo simbolico come

X
p(y) = p(y j x)p(x)
x
dove p(y j x) sono le frequenze condizionate e p(x) sono i pesi uguali alle frequenze marginali
del carattere esplicativo. Dimostrarlo.
Infatti, p(y j x) = p(x; y )=p(x) per cui il secondo membro della formula precedente e'
X p(x; y ) p(x) = X p(x; y):
x p(x) x
Ma la somma delle proporzioni congiunte p(x; y ) rispetto a x e' proprio la proporzione
marginale p(y ).
408. Dimostrare che se tutte le distribuzioni condizionate sono uguali (caso di indipendenza
in distribuzione) allora la distribuzione marginale e' uguale ad esse.
In caso di indipendenza di Y da X tutte le proporzioni p(y j x) sono uguali fra loro.
Allora la distribuzione marginale denita da p(y ) e' una media ponderata di p(y j x) (che
sono eguali) con pesi uguali a p(x). Ora una media ponderata di quantita' identiche e' per
forza uguale ad esse.
Pertanto, se Y e' indipendente in distribuzione da X tutte le frequenze condizionate p(y jx)
non variano al variare di x e sono uguali alle frequenze marginali p(y ). In simboli, per ogni x,
p(y j x) = p(y )
equazione che esprime bene il fatto che la distribuzione condizionata di Y j (X = x) non
dipende da x.
409. Se esiste indipendenza in distribuzione di Y da X risulta sempre, per ogni coppia di

valori x e y ,
p(x; y ) = p(x)p(y )
cioe' la distribuzione congiunta delle due variabili e' uguale al prodotto delle distribuzioni
marginali.
La dimostrazione e' banale perche' partendo da p(y j x) = p(y ) (denizione di indipen-
denza) risulta (sostituendo a p(y j x) la sua denizione p(x; y )=p(x))
p(x; y ) = p(y )
p(x)
da cui si ha che p(x; y ) = p(x)p(y ).
410. Si osservi che dalla relazione precedente segue immediatamente che se Y e' indipen-
dente da X anche X e' indipendente da Y e viceversa.
92
411. La distribuzione congiunta del sesso e del gruppo sanguigno e' la seguente
Gruppo
Maschi 0.48 0.12 0.6
Femmine 0.32 0.08 0.4
Totale 0.80 0.20 1.0
Come si e' visto prima, vi e' indipendenza tra i due caratteri. Vericare che la distribuzione
congiunta e' il prodotto delle due distribuzioni marginali.
Si ha infatti la seguente tabella
0.48 = 0.8 x 0.6 0.12 = 0.2 x 0.6
0.32 = 0.8 x 0.4 0.08 = 0.2 x 0.4
412. In una popolazione ci sono il 10% di disoccupati. La stessa popolazione e' per il 30%
composta da individui di razza nera e per il 70% da individui di razza bianca. Costruire la
distribuzione doppia congiunta secondo la posizione sul lavoro e la razza, nell'ipotesi che i
due caratteri siano indipendenti.
La distribuzione doppia si presenta come segue
Situazione
Razza Occupato Disoccupato Totale
Bianca 0.7
Nera 0.3
Totale 0.90 0.10 1.0
Le frequenze delle quattro celle sono incognite. Ma se vi e' indipendenza tra i due caratteri,
e' possibile ricostruirle come prodotto delle frequenze marginali. Si ottiene
Situazione
Bianca 0.9 x 0.7 0.1 x 0.7 0.7
Nera 0.9 x 0.3 0.1 x 0.3 0.3
Totale 0.90 0.10 1.0
cioe'
Situazione
Bianca 0.63 0.07 0.7
Nera 0.27 0.03 0.3
Totale 0.90 0.10 1.0
Si oosservi che i totali riga e colonna della tavola di indipendeza cosi' costruita corrispondono
perfettamente ai totali marginali dati.
93
413. Talvolta e' opportuno confrontare una distribuzione data con una distribuzione teorica
che e' uguale a quella data per quanto riguarda i totali marginali, ma costruita (con la regola
spiegata sopra) in modo che vi sia indipendenza. Tale tabella e' detta tavola teorica in
caso di indipendenza. Ad esempio, trovare la tavola teorica in caso di indipendenza per la
distribuzione seguente relativa a un collettivo classicato secondo il sesso e il partito preferito
(dati della General Social Survey, USA, 1991)
Partito
Sesso Democratici Indipendenti Repubblicani Totale
Femmine 0.28 0.08 0.23 0.59
Maschi 0.17 0.05 0.19 0.41
Totale 0.45 0.13 0.42 1.00
Moltiplicando i totali marginali si ottiene

Partito
Sesso Democratici Indipendenti Repubblicani Totale
Femmine 0.2655 0.0767 0.2478 0.59
Maschi 0.1845 0.0533 0.1722 0.41
Totale 0.45 0.13 0.42 1.00
Il confronto tra le frequenze teoriche in caso di indipendenza e le frequenze osservate permette

di vedere le celle piu' devianti dalla situazione di indipendenza.
414. Le dierenze tra frequenze osservate e frequenze teoriche in caso di indipendenza si
dicono contingenze.
415. Dalle frequenze relative teoriche in caso di indipendenza si possono dedurre le frequenze
assolute teoriche, moltiplicando le frequenze relative per il numero di unita' statistiche.
416. Trovare le frequenze assolute teoriche in caso di indipendenza per la distribuzione
seguente ottenuta da un collettivo di madri, che hanno partorito presso un ospedale, classi-
cate a seconda dello stato diabetico (Non diabetiche, pre-diabetiche, diabetiche) e secondo la
presenza o meno di malformazioni nel bambino nato (Nessuna, una o piu' malformazioni).
Malformazioni
Stato della madre Nessuna Una o piu' Totale
Non diabetica 754 31 785
Pre-diabetica 362 13 375
Diabetica 38 9 47
Totale 1154 53 1207
La distribuzione doppia delle frequenze relative e'

Malformazioni
94
Non diabetica 0.6247 0.0257 0.6504

Pre-diabetica 0.2999 0.0108 0.3107
Diabetica 0.0315 0.0075 0.0389
Totale 0.9561 0.0439 1.0000
Pertanto la distribuzione relativa delle frequenze teoriche e'

Malformazioni
Non diabetica 0.6218 0.0286 0.6504
Pre-diabetica 0.2970 0.0136 0.3107
Diabetica 0.0372 0.0017 0.0389
Totale 0.9561 0.0439 1.0000
Moltiplicando quest'ultima tavola per il totale di osservazioni 1207, si ottiene la tavola delle
frequenze assolute teoriche in caso di indipendenza:
Malformazioni
Non diabetica 750.5 34.5 785
Pre-diabetica 358.5 16.5 375
Diabetica 44.9 2.0 47
Totale 1154.0 53.0 1207
Le frequenze assolute teoriche possono essere numeri con la virgola. Osservando le contingenze
si vede che la tavola presenta delle frequenze teoriche molto vicine a quelle osservate tranne
per una cella, quella relativa alle donne diabetiche con gli con malformazioni. Le frequenze
teoriche in caso di indipendenza sono molto piu' basse di quelle osservate.
417. Quando di studiano due variabili continue e' bene dare un occhiata allo scatter per
rendersi conto se vi e' o meno indipendenza. Le tre gure sottostanti rappresentano due
situazioni (a sinistra e al centro) in cui vi e' indipendenza e una (a destra) in cui non vi e'
indipendenza.
• •
10
10
10
•
• ••
••• • • • •
••• • •••• •
8
• • •
••
• • • •• • • •• •• •••• ••••• • ••
• • •• • ••• • • • • •
• • •
••••••• ••• •• • • •••••••••• • • •• ••• •• •
•••• •• ••••••••••••• • • •• • •
6
• • • •• • • •
•• • • •
••••••••• • •• •••••• • •••••• •• ••••• • •••• ••• •• • • • ••• • •
•••• ••••• • ••••• •••• • •• •••• •• • ••••••• • •• • •••• ••••••• •
y
• ••
•••• • •••••• ••• ••••• • •••••••••• • ••• • •••• • • ••• • •• •••• • •••••• • •
•• ••••••••• •••• ••••••••• • • • • •• ••
4
• •
•• • •• •
• • • • • • • •
• • • ••••• • ••
••• • • • • • • •• • • •• •••• • •• • •••
•
2
•
••••• •• • •• •• •• •• • •• • •• •• ••••• • • •
••• ••••••••••••• •••••• ••••••••••••••••••••••••••••••• ••••• •••••• ••••••• •
• • •••••• • • ••• • • •••• • •• • • ••
0
5 6 7 8 9 10 5 6 7 8 9 10 5 6 7 8 9 10
x x x
95
Infatti nei primi due casi le distribuzioni condizionate di Y j X sono uguali (approssimati-
vamente) mentre nel secondo caso tali distribuzioni condizionate hanno delle medie e delle
varianze diverse fra loro. Maggiori dettagli verranno dati nella prossima lezione.
96
SETTIMANA 9
Confronti di medie
In questa lezione supporremo sempre che Y sia un carattere quantitativo e che X sia un
carattere qualitativo o quantitativo discreto, cioe' con un certo numero di classi. Pertanto,
la popolazione risulta suddivisa in gruppi dal carattere X , dove ciascun gruppo comprende
tutte le unita' che hanno la stessa modalita' di X .
9.1 Medie condizionate
Se c'e' dipendenza tra una variabile numerica Y e un carattere qualsiasi X le distribuzioni
condizionate Y j X non sono uguali fra loro. Poiche' Y e' quantitativa, si possono calcolare
le medie delle distribuzioni condizionate e confrontarle.
418. Ogni distribuzione condizionata di una variabile quantitativa Y dato un carattere
qualsiasi X ha una media e una varianza. Come si chiamano?
Si chiamano media condizionata e varianza condizionata.
419. Come si indicano?
La media condizionata di Y j (X = x) si indica con E (Y j x) o anche con Y (x) e la
varianza condizionata si indica con var(Y j x) o anche con Y2 (x).
Consideriamo l'altezza Y degli studenti di statistica e il sesso X . La tavola seguente
riporta le medie e le varianze condizionate dell'altezza dato il sesso.
Media Varianza Numero
Maschi 174.9 24.06 36
Femmine 162.0 38.36 58
Totale 166.9 72.08 94
97
98
190
180
Altezza
170
160
150
maschi femmine
Sesso
La distribuzione della altezza per i maschi ha una media maggiore e una varianza minore
come appare anche dallo scatter in cui si e' riportato il sesso in ascisse e l'altezza in ordinate.
Le distribuzioni condizionate sono rappresentate come strisce verticali di punti (questi sono
stati un po' perturbati orizzontalmente per evitare le sovrapposizioni).
421. Consideriamo un secondo esempio. Siano Y il consumo di benzina (a 120 km/h in
autostrada, in litri per 100 km) e X la cilindrata suddivisa in classi: sotto 1200 cc, da 1200
a 1600, da 1600 a 2000, oltre 2000 cc. I dati di Quattroruote su 193 auto, italiane ed estere
possono essere sintetizzati nella tavola e nello scatter seguenti.
Cilindrata Numero Media Varianza
sotto 1200 14 6.579 1.013
da 1200 a 1600 54 6.933 0.551
da 1600 a 2000 76 7.417 1.751
oltre 2000 49 9.314 3.522
Totale 193 7.703 2.760

14
12
Consumo
10
8
6
4
<1200 1200 - 1600 1600 - 2000 >2000
Classi di cilindrata
99
Lo scatter evidenzia la dipendenza delle medie condizionate del consumo dalla cilindrata.
Il consumo medio aumenta all'aumentare della cilindrata. Si osserva che anche le varianze
condizionate non sono costanti, ma tendono ad aumentare con la cilindrata.
Gli esempi precedenti evidenziano una dipendenza di Y da X riscontrabile nel fatto che
le medie e le varianze condizionate dipendono da X . Se ci fosse indipendenza le medie e le
varianze condizionate dovrebbero essere invece uguali.
422. Dagli esempi fatti, e' semplice vericare che la media della variabile dipendente e' una
media ponderata delle medie condizionate. Ad esempio, per i dati sul consumo,
14 + 6:933 54 + 7:417 76 + 9:314 49
7:703 = 6:579 193 193 193 193
I pesi sono le frequenze relative della variabile esplicativa (cioe' le proporzioni dei gruppi).
423. Talvolta le medie condizionate sono uguali fra loro. E' utile dare un nome a questa
situazione particolare. Quando le medie condizionate E (Y j x) sono tutte uguali (e quindi
non dipendono da x) si dice che Y e' indipendente in media da X .
424. Se Y e' indipendente in media da X allora la media di Y e' uguale a tutte le medie
condizionate.
Infatti, poiche' la media di Y e' la media ponderata delle medie condizionate, essendo
queste uguali fra loro, la media di Y risulta ad esse uguale.
425. Confrontare i concetti di indipendenza in media e di indipendenza in distribuzione.

Y e' indipendente in distribuzione da X se tutte le distribuzioni condizionate Y j X sono
uguali alla distribuzione marginale Y . Y e' indipendente in media da X le le medie delle
distribuzioni condizionate Y j X sono uguali alla media della distribuzione marginale Y .
426. Qual'e' la relazione esistente fra i due tipi di indipendenza?

L'indipendenza in distribuzione implica l'indipendenza in media (se le distribuzioni con-
dizionate sono identiche, a maggior ragione sono identiche le loro medie). Tuttavia l'indipen-
denza in media non e' suciente perche' vi sia indipendenza in distribuzione. Per questo si
dice che l'indipendenza in media e' una forma piu' debole di indipendenza.
427. Lo scatter seguente esemplica un caso di indipendenza in media, ma di dipendenza

in distribuzione. Tutte le distribuzioni condizionate hanno la stessa media E (Y j x) = 10,
ma non vi e' indipendenza in distribuzione, perche' le distribuzioni condizionate sono diverse
(ad esempio, le loro varianze sono evidentemente diverse).
100
20
15
Y
10
5
1.0 1.5 2.0 2.5 3.0
9.2 Varianza interna

428. Si osservi che, mentre X
E (Y ) = E (Y j x)p(x)
x
cioe' la media marginale e' una media ponderata delle medie condizionate, invece, la varianza
marginale var(Y ) non e' una media ponderata delle varianze condizionate. Ad esempio, per
i dati sull'altezza, la media ponderata delle varianze e'
36 + 38:36 58 = 32:88
24:06 94 94
che e' molto minore della varianza vera 72.08. Per i dati sul consumo, la media ponderata
delle varianze e'
14 + 0:551 54 + 1:751 76 + 3:522 49 = 1:811
1:013 193 193 193 193
che, anch'essa, e' minore della varianza vera 2.76.
429. Come si chiama la media ponderata delle varianze condizionate?

Si chiama varianza interna ai gruppi. I gruppi sono le classi del carattere X (esplicativo).
Infatti, la varianza interna e' un indicatore medio delle varianze della variabile dipendente
nelle classi.
430. Come si indica la varianza interna?

Useremo il simbolo E (var(Y j X )) che indica appunto che si tratta della media delle
varianze condizionate. Piu' precisamente la varianza interna e'
X
var(Y j x)p(x):
x
101
431. Che cosa misura la varianza interna?

Essa misura la dispersione delle osservazioni attorno alle rispettive medie di gruppo. Quan-
to minore e' e tanto piu' ogni dato (appartenente a un certo gruppo) e' vicino alla media del
suo gruppo.
432. Quando la varianza interna risulta nulla?
Quando in ogni gruppo le varianze sono zero, cioe' se ogni grupo e' composto da osser-
vazioni tutte uguali. Ad esempio, per le altezze e il sesso, quando tutti i maschi hanno la
stessa altezza e quando le femmine hanno tutte la stessa altezza. Per i dati sul consumo delle
automobili, la varianza interna e' nulla se tutte le auto sotto 1200 cc di cilindrata hanno lo
stesso consumo, se tutte le auto tra 1200 e 1600 cc hanno lo stesso consumo etc.
433. Che valori puo' assumere la varianza interna?
Puo' assumere valori solo positivi e al massimo uguali alla varianza del carattere Y . Infatti
la varianza interna e' sempre minore o uguale alla varianza di Y . Questo fatto concorda con
i calcoli ottenuti sugli esempi.
434. Esprimere questo risultato in simboli.
Risulta sempre che
varianza interna = E (var(Y j X )) var(Y ):
9.3 Varianza tra gruppi
435. La dierenza tra la varianza di Y e la varianza interna ai gruppi e' chiamata varianza
tra gruppi.
436. Calcolare la varianza interna e varianza tra gruppi negli esempi precedenti.
Nell'esempio dell'altezza la varianza interna e' 32.88, mentre la varianza tra gruppi e'
72:08 ; 32:88 = 39:2.
Nell'esempio del consumo e della cilindrata, la varianza interna e' 1.557, mentre la varianza
tra gruppi e' 2:76 ; 1:811 = 0:949.
437. L'ordine di grandezza della varianza interna e della varianza tra gruppi dipende ov-
viamente dall'unita di misura del carattere oggetto di studio. Per quanto detto sopra risulta
sempre per denizione la seguente scomposizione della varianza
varianza di Y = varianza interna + varianza tra gruppi
438. L'interpretazione della varianza tra gruppi e' chiarita da un risultato fondamentale.
La varianza tra gruppi e' uguale sempre alla varianza delle medie condizionate, cioe'
varianza tra gruppi = var(E (Y j X )):
.
102
439. Calcolare la varianza delle medie condizionate nell'esempio della altezza.

Le medie condizionate sono 174.9 e 162, mentre la media marginale (la media di tali
medie) e' 166.9. Percio' la varianza delle medie e'
(174:9 ; 166:9)2 36 + (162 ; 166:9)2 58 = 64 0:38 + 24:01 0:62 = 39:2:

94 94
Come si vede questo calcolo produce lo stesso valore della varianza tra gruppi ottenuta come
dierenza tra la varianza di Y e la varianza interna ai gruppi.
440. Calcolare la varianza tra gruppi nell'esempio del consumo.

Come prima si calcolano gli scarti al quadrato tra le medie condizionate e la media generale
e se ne fa la media ponderata con pesi uguali alle proporzioni di unita' nei gruppi:
14 +(6:933 ; 7:703)2 54 +(7:417 ; 7:703)2 76 +(9:314 ; 7:703)2 49 = 0:949
(6:579 ; 7:703)2 193 193 193 193
che e' uguale alla varianza generale meno la varianza interna.
441. Che cosa misura la varianza tra gruppi?

La varianza tra gruppi misura la variabilita' esistente tra i gruppi, o meglio, la varianza
delle loro medie rispetto alla media generale.
442. Come si denota la varianza tra gruppi?

Useremo il simbolo var(E (Y j X )). Piu' precisamente, la varianza tra gruppi e'
X
(E (Y j x) ; E (Y ))2p(x):
x
443. Qual'e' l'interpretazione della varianza tra gruppi?

Quanto piu' e' piccola la varianza tra gruppi e tanto meno diverse fra loro sono le medie
condizionate. Quanto piu' e' grande e tanto piu' dieriscono fra loro le medie dei gruppi.
444. Qual'e' il valore minimo della varianza tra gruppi?

Essendo una varianza, la varianza tra gruppi e' sempre positiva. Al minimo puo' valere
zero e questo avviene quando le medie dei gruppi sono uguali fra loro. Pertanto e' zero quando
c'e' indipendenza in media di Y da X . Nell'esempio delle altezze una varianza tra gruppi nulla
signicherebbe che i maschi e le altezze hanno la stessa altezza media. Nell'esempio del con-
sumo, invece, implicherebbe che il consumo medio non dipende dalla cilindrata. Ovviamente,
in questi due esempi ci aspettiamo invece una varianza tra gruppi diversa da zero.
Se la varianza tra gruppi e' zero, naturalmente la varianza interna e' uguale alla varianza
marginale. Infatti, essa e' la dierenza tra la varianza marginale e la varianza interna.
103
445. Qual'e' il valore massimo della varianza tra gruppi?

Al massimo la varianza tra gruppi puo' essere uguale alla varianza marginale e questo
avviene quando la varianza interna e' zero, cioe' quando la variabilita' e' nulla nei gruppi.
Percio' si hanno le due situazioni opposte seguenti
Indipendenza in media Variabilita' nulla nei gruppi
Varianza interna massima zero
Varianza tra gruppi zero massima
446. Riassumere i concetti di varianza interna e varianza tra gruppi.
Nello studio della dipendenza in media di Y da X e' fondamentale l'analisi delle medie
condizionate E (Y j x) e delle varianze condizionate var(Y j x). La varianza tra gruppi e' la
varianza delle medie e misura quanto queste sono diverse. La varianza interna e' la media delle
varianze e misura quanta variabilita' c'e' nei gruppi. Nei calcoli delle medie e delle varianze
si usano le frequenze marginali p(x) per dare un peso diverso alle distribuzioni condizionate.
447. Riassumere il signicato della varianza interna zero e della varianza tra gruppi zero.
La varianza interna e' nulla solo se le tutte le varianze dei gruppi sono zero. Cioe', nei
gruppi tutte le osservazioni sono uguali alla media. In questa situazione tutta la variabilita'
var(Y ) e' il risultato delle dierenze tra le medie dei gruppi. Infatti, se la varianza interna
e' zero, la varianza di Y e' uguale alla varianza tra gruppi. E' la situazione di massima
dipendenza tra Y e X .
La varianza tra gruppi e' zero solo se tutte le medie condizionate sono uguali. E' la
situazione di indipendenza in media di Y da X . La variabilita' var(Y ) in questo caso e'
dovuta alle dierenze tra i dati e la media generale e non a dierenze tra le medie dei gruppi.
448. Dare una interpretazione della scomposizione della varianza.
La varianza di Y e' la somma di due componenti: la varianza tra i gruppi e la varianza
interna. Quindi la variabilita' generale e' imputabile in parte alle dierenze delle medie
rispetto alla media generale (variabilita' tra gruppi) e in parte alle dierenze delle osservazioni
rispetto alla propria media (variabilita' interna). Si dice percio' che la variabilita' in parte è'
spiegata' dalle dierenze tra i gruppi e in parte dalle dierenze entro i gruppi.
449. Un indice importante e' il rapporto tra la varianza fra gruppi e la varianza marginale.
Tale indice e' denotato con Y2 X (eta quadro)
Y2 X = varianza tra gruppi
var(Y )
ed e' chiamato rapporto di correlazione. Di solito e' riportato in forma percentuale.
450. Come si interpreta il rapporto di correlazione?
Il rapporto di correlazione indica quanta parte della varianza marginale e' spiegata dalle
dierenze tra i gruppi cioe' dalle modalita' del carattere esplicativo X .
104
451. Esprimere il rapporto di correlazione in funzione della varianza interna e della varianza
marginale.
Ovviamente risulta
Y2 X = 1 ; varianza interna :
var(Y )
452. Qual'e' il campo di variazione del rapporto di correlazione?
Il rapporto di correlazione, essendo un rapporto di una parte a tutta la varianza, e' una
proporzione sempre compresa tra 0 e 1.
453. Come si interpreta il caso 2 = 0?

Il rapporto di correlazione e' zero solo se la varianza tra gruppi e' zero, cioe' se vi e'
indipendenza in media tra Y e X .
454. Come si interpreta il caso 2 = 1?

Il rapporto di correlazione e' 1 solo se la varianza interna e' zero e la varianza tra gruppi
e' uguale alla varianza marginale, cioe' se la variabilita' e' tutta dovuta alle dierenze tra le
medie di gruppo. Cioe' entro i gruppi le osservazioni sono uguali.
455. Come si interpretano i casi intermedi?

Quanto piu' il coeciente si avvicina a zero e tanto piu' ci si avvicina alla situazione di
indipendenza in media di Y da X . Quanto piu' 2 si avvicina a 1 e tanto maggiore e' il grado
di dipendenza in media di Y da X .
456. Calcolare il rapporto di correlazione nell'esempio delle altezze.

Nell'esempio dello studio della dipendenza dell'altezza dal sesso si ha la seguente scompo-
sizione della varianza della altezza
Variabile dipendente: altezza Esplicativa: sesso
Fonte della variabilita' Valore Percentuale
Esterna 39.20 54.38
Interna 32.88 45.61
Totale 72.08 100.00
Il rapporto di correlazione e' 2 = 39:2=72:08 = 0:5438: Dunque la variabilita' delle altezze

e' dovuta al sesso per il 54.4%. Per il restante 45.6% la variabilita' delle altezze e' dovuta a
fattori diversi non riconducibili al sesso, cioe' alla variabilita' intrinseca delle altezze all'interno
del gruppo dei maschi e delle femmine. Il valore di 2 e' abbastanza alto da fare escludere
l'indipendenza in media dell'altezza dal sesso.
457. Calcolare il rapporto di correlazione nell'esempio dei consumi.

Costruendo anche in questo caso la tavola di scomposizione della varianza
105
Variabile dipendente: consumo Esplicativa: classi di cilindrata

Fonte della variabilita' Valore Percentuale
Esterna 0.949 34.38
Interna 1.811 65.62
Totale 2.760 100.00
si ottiene un rapporto di correlazione del 34.4%. Pertanto, si conclude che la variabilita' dei
consumi e' imputabile per circa il 35% alle diverse classi di cilindrata delle auto e per il 65%
ad altri fattori.
458. Si osservi il graco seguente. Esso rappresenta due scatter. Nel primo a sinistra ci sono
due gruppi: le medie condizionate sono 5 e 10 e le varianze condizionate sono uguali a 1. Nel
secondo ci sono ancora due gruppi: le distribuzioni hanno sempre medie condizionate 5 e 10,
ma le varianze condizionate sono uguali a 4. I gruppi sono tutti composti da 50 osservazioni.
sqm=1 sqm=2
15
15
10
10
Y
Y
5
5
0
1.0 1.2 1.4 1.6 1.8 2.0 1.0 1.2 1.4 1.6 1.8 2.0
X X
Percio', in entrambi i casi, le medie dieriscono di 5 e la media generale e' 7.5, quindi le
varianze esterne sono eguali. Tuttavia, le varianze interne sono diverse: nel primo esempio la
varianza interna e' piu' bassa, mentre nel secondo e' piu' alta. Quindi anche se la dierenza
tra le medie e' la stessa, nel secondo esempio la separazione tra i gruppi e' piu' netta. Questo
porta a concludere che la dipendenza in media di Y da X e' piu' marcata. Le considerazioni
precedenti suggeriscono che non e' opportuno usare la varianza tra gruppi come misura della
dipendenza in media.
Invece il rapporto di correlazione ri ette la situazione. Infatti, la varianza tra gruppi e',
in entrambi i casi,
(5 ; 7:5)2 50 + (10 ; 7:5)2 50 = 6:25
100 100
mentre le varianze interne sono, rispettivamente 1 100
50 + 1 50 = 1 e 4 50 + 4 50 = 4. Percio' i
100 100 100
rapporti di correlazione sono, rispettivamente, = 6:25=(1+6:25) = 0:8621 e 2 = 6:25=(4+
2
6:25) = 0:6098: Quindi, nel primo caso, i due gruppi spiegano circa l'86% della variabilita',
mentre nel secondo essi spiegano solo il 60%.
106
459. Gli esempi e la discussione precedente mettono in luce vari aspetti legati al rapporto di
correlazione. (a) Si tratta di un numero adimensionale (e' una percentuale). (b) Permette di
misurare il grado di dipendenza di Y da X determinando la parte di variabilita' spiegata dalle
classi del carattere esplicativo. (c) Ovviamente, per poterlo calcolare occorre che la variabile
dipendente sia quantitativa e il carattere esplicativo sia suddiviso in classi.
SETTIMANA 10
Regressione
In questa lezione consideriamo la dipendenza di un carattere quantitativo Y da un carattere

esplicativo X quantitativo. Alla base delle tecniche introdotte sta il problema concreto della
misura dell'eetto di una variabile X su una variabile Y . Percio', e' opportuno ricordare il
diverso ruolo (esplicativo, dipendente) svolto dalle due variabili.
10.1 Funzione di regressione
460. Se X ha un certo numero di modalita' x e se per ciascuna modalita' x si calcola la
media condizionata E (Y j x), l'insieme delle coppie di valori (x; E (Y jx)) e' chiamato funzione
di regressione di Y da X .
461. Un esempio gia' visto piu' volte nelle lezioni scorse e' quello dell'altezza e del numero
di scarpe di un collettivo di studenti. I dati completi sono riportati nella tabella seguente,
in cui ogni riga rappresenta una distribuzione condizionata dell'altezza, dato il numero di
scarpe.
Scarpe Altezza
35 : 150 150 153 155 162
36 : 150 150 152 156 158 160 160 162 165
36.5 : 165
37 : 150 152 159 160 160 160 160 160 162 165 167 170 170
38 : 154 157 160 160 161 163 163 164 164 165 165 170
39 : 162 163 163 164 164 165 165 166 166 170 170 170 170 173 175
40 : 163 165 170 170 170 172 172
41 : 165 166 170 170 173 173 173 174 175 179
42 : 169 171 175 175 175 175 178 180
42.5 : 170 176
43 : 173 178 180
44 : 176 178 179 185 187
45 : 173 180 180 182
107
108
Se si calcola, per ogni riga, la media condizionata delle altezze si ottiene il prospetto
seguente,
Scarpe Altezza media
35 154.0
36 157.0
36.5 165.0
37 161.2
38 162.2
39 167.1
40 168.9
41 171.8
42 174.8
42.5 173.0
43 177.0
44 181.0
45 178.8
Il prospetto denisce la funzione di regressione dell'altezza dal numero di scarpe.

462. Che cos'e' una funzione?
Una funzione e' una corrispondenza che associa ad ogni numero x appartenente a un certo
insieme uno e un solo numero y = f (x). La funzione e' indicata talvolta con x 7! f (x).
Se i possibili x sono in numero nito, la funzione e' perfettamente denita dalla tabella
dei valori x, f (x) per tutti i possibili x. E' comunque possibile rappresentare gracamente le
coppie di valori associati (x; f (x)) su un sistema di assi coordinati. Il luogo dei punti (x; f (x))
si dice graco della funzione.
p la funzione radice quadrata associa ad ogni numero x positivo un numero
Ad esempio,
positivo y = x che e' la sua radice quadrata. In questo caso non e' possibile denire tutta
la funzione con una tabella perche' le modalita' non sono nite. Il graco della funzione e'
riportato nella gura sottostante.
Grafico della radice quadrata
5
4
3
y
2
1
0
0 5 10 15 20 25
463. Allo stesso modo la funzione di regressione x 7! E (Y j x) associa ad ogni modalita'

di un carattere X la media della distribuzione condizionata di un altro carattere Y , ssato
X = x.
109
464. Anche la funzione di regressione puo' essere rappresentata su un sistema di assi car-
tesiani e, spesso, viene riportata sullo stesso scatter. Disegnare la funzione di regressione
dell'altezza rispetto al numero di scarpe.
Riportando i punti (x; E (Y j x)) sul diagramma, si ottiene il graco seguente.
Funzione di regressione dell’altezza dal numero di scarpe
180
Altezza
170
160
150
36 38 40 42 44
Scarpe
I punti sono stati uniti da segmenti per evidenziare l'andamento della funzione.
465. Se le variabili X e Y sono continue, e' possibile che ad ogni determinazione x di X
sia associata una determinazione di Y . Pertanto ogni distribuzione condizionata ha una sola
osservazione. In teoria, la media condizionata E (Y j x) e' uguale a quell'unico valore. La
funzione di regressione e' pertanto lo stesso scatter.
Tuttavia, spesso e' opportuno suddividere in classi il carattere X e calcolare le media
condizionate per ogni classe, al ne di \lisciare" l'andamento della funzione di regressione.
Ad esempio, si considerino i dati seguenti rilevati su un collettivo di 40 famiglie, tutte composte
da 3 componenti. Le variabili sono X , il reddito mensile, e Y , la spesa per generi alimentari
(entrambe in migliaia di lire).
Reddito Spesa Reddito Spesa Reddito Spesa Reddito Spesa
1 761.1 249.7 11 1490.5 513.7 21 1900.3 469.1 31 2180.0 807.3
2 905.8 278.8 12 1553.1 470.7 22 1900.8 592.4 32 2200.0 1085.6
3 1122.0 391.0 13 1561.0 866.2 23 1906.9 603.8 33 2202.0 406.0
4 1234.2 573.1 14 1603.3 584.2 24 1906.9 700.1 34 2424.0 471.8
5 1274.9 601.7 15 1613.6 619.3 25 1938.8 554.4 35 2424.0 674.3
6 1287.5 480.2 16 1665.8 443.8 26 1960.2 990.5 36 2454.0 1029.6
7 1310.8 580.8 17 1741.3 563.6 27 1974.0 572.6 37 2512.0 539.6
8 1371.2 478.4 18 1753.0 392.6 28 2015.0 723.4 38 2677.0 794.6
9 1434.3 610.6 19 1859.1 871.2 29 2139.0 810.2 39 3013.0 551.8
10 1448.6 501.6 20 1860.7 665.0 30 2161.0 516.4 40 3048.0 1285.9
Scegliendo delle classi di reddito, ad esempio, meno di 1 milione, [1000; 1500), [1500; 2000),
[2000; 2500), 2 milioni e mezzo e oltre al mese, si ottengono le medie condizionate
Classi < 1000 1000 - 1500 1500 - 2000 2000 - 2500 2500+
Punti centrali 850 1250 1750 2250 2750
Medie 264.2 525.7 622.5 725 793
110
La funzione di regressione si puo' disegnare riportando sullo scatter i punti aventi come
coordinate i punti centrali delle classi e le medie ed inne unendoli con dei segmenti.
Funzione di regressione della spesa dato il reddito
1200
Spesa
400 600 800
1000 1500 2000 2500 3000
Reddito
466. La funzione di regressione permette di studiare come varia la media della variabile
dipendente per valori ssati della variabile esplicativa. In tal senso e' utile per studiare la
dipendenza in media. Dato che X e' quantitativa, la funzione di regressione suggerisce una
legge di variazione di Y in funzione di X .
Ad esempio, i due esempi precedenti suggeriscono che l'altezza media e' una funzione
crescente del numero di scarpe. Analogamente la spesa e' una funzione crescente del reddito.
L'origine del termine regressione risale alle prime applicazioni di questa tecnica allo studio
della dipendenza dell'altezza dei gli dall'altezza dei padri (Galton, 1986). Galton osservo'
che la statura media dei gli tendeva a crescere con la statura del padre, ma non allo stesso
livello (padri piu' alti tendono ad avere gli alti, ma un po' piu' bassi di loro; padri piu' bassi
tendono ad avere gli bassi ma piu' alti di loro). Egli chiamo' questo fenomeno regressione
verso la mediocrita'.
467. La funzione di regressione di X da Y e' uguale alla funzione di regressione di Y dato
X?
No, e' diversa, in generale. Questo fatto e' opportuno perche' lo studio della dipendenza
e' per sua natura asimmetrico.
468. A conferma delle considerazioni precedenti, si studi la funzione di regressione del
numero di scarpe dall'altezza.
L'altezza ha un numero troppo elevato di modalita', per cui e' opportuno suddividerla in
classi. Ad esempio,
Classi < 155 155 - 160 160 - 165 165 - 170 170 - 175 175 - 180 180+
Punti centrali 151.5 157.5 162.5 167.5 172.5 177.5 183.5
Medie 36.2 36.92 38.15 39.47 41.31 43.23 44.5
111
Il graco di (y; E (X j y )) e' stato riportato sullo stesso scatter, visto sopra, con in ascisse il
numero di scarpe e in ordinate l'altezza. Per questo si sono rappresentati i punti (E (X j y ); y )
con le coordinate scambiate.
Funzione di regressione del numero di scarpe dall’altezza
180
170
Altezza
160
150
36 38 40 42 44
Scarpe
469. In molti fenomeni si osserva una funzione di regressione decrescente. Ad esempio, se X

e' la cilindrata e Y e' il consumo, in km con un litro, ci si attende che, in media, all'aumentare
della cilindrata diminuiscano i km percorsi con un litro di benzina. Il diagramma seguente
e' costruito dai dati di Quattroruote (Y e' il consumo urbano in km per un litro e X e' la
cilindrata in cc). La funzione di regressione e' decrescente.
20
15
Km cony un litro
10
5
1000 2000 3000 4000 5000 6000

x
Cilindrata
470. Spesso, come negli esempi fatti n qui, la funzione di regressione e' monotona, cioe' o
crescente, o decrescente. Talvolta essa non e' monotona nel senso che per certi valori di x e'
crescente e per altri e' decrescente.
112
Esempi tipici di questo comportamento sono certe serie storiche. Ad esempio, nel graco
seguente e' rappresentata la serie storica (mensile) dei tassi di natalita' cioe' del numero di
nati ogni 1000 abitanti per gli Stati Uniti dal 1940 al 1947. (U. S. Department of Health,
Education and Welfare, National Center for Health Statistics, series 21, no. 9).
Tasso di natalita’ in USA
30
25
20
15
1940 1941 1942 1943 1944 1945 1946 1947 1948
Nelle serie storiche, la variabile X e' particolare perche' rappresenta il tempo a cui e' stata fatta
la rilevazione. Di solito, inoltre, per ogni tempo, esiste un solo valore di Y , come nell'esempio
dei tassi di natalita'. Spesso, anche se non sempre, il dato rilevato di Y e' aggregato e quindi
puo' essere pensato come un dato medio.
La funzione di regressione nel caso delle serie e' chiamata comunemente trend della serie,
cioe' andamento di fondo tendenziale. Nella serie esemplicata il trend non e' monotono, ma
segue delle uttuazioni, in parte stagionali entro l'anno (il minimo e' all'inizio dell'estate e
il massimo in autunno), in parte dovute a fatti congiunturali (la rapida crescita del tasso di
natalita' inizia circa 9 mesi dopo il rientro delle truppe americane dopo la seconda guerra
mondiale).
10.2 Varianze condizionate
471. La funzione di regressione e' il luogo delle medie condizionate. Le medie condizionate
non sono i soli aspetti delle distribuzioni condizionate che cambiano al variare di X . Spesso
anche le varianze condizionate var(Y j x) cambiano. Questo si puo' vedere facilmente dagli
scatter degli esempi precedenti.
Se dispersione verticale dei punti attorno alla funzione di regressione e' piu' o meno co-
stante, vuol dire che le varianze condizionate sono costanti. Questo e' il caso, per esempio,
delle distribuzioni condizionate dell'altezza dato il numero di scarpe.
Se, al contrario, i punti hanno una dispersione che varia al variare di x (dando luogo
tipicamente a delle forme à megafono') cio' signica che le varianze condizionate sono diver-
se. Ad esempio, le distribuzioni condizionate della spesa dato il reddito hanno varianze che
crescono al crescere del reddito. Cio' signica che la variabilita' della spesa e' minore per le
famiglie con i redditi bassi e va via via crescendo per le famiglie con i redditi piu' alti.
472. Come si comportano le varianze condizionate nell'esempio del consumo e della cilin-
drata?
113
Le varianze prima aumentano e poi diminuiscono all'aumentare della cilindrata. La va-

riabilita' nel numero di km con un litro e' minore per le vetture con una cilindrata maggiore.
Per le vetture di media cilindrata la variabilita' e' massima. Per le utilitarie la variabilita' del
consumo e' minore.
473. Si osservi che una determinazione della distribuzione condizionata Y j (X = x),

chiamiamola y j x si puo' sempre scomporre nel modo seguente
y j x = E (Y j x) + fY j x ; E (Y j x)g = E (Y j x) + " j x
dove " j x e' lo scostamento tra il dato e la sua media. Se questo scostamento fosse nullo,
il dato sarebbe esattamente uguale alla media condizionata e dunque Y sarebbe funzione
esatta di X seguendo perfettamente la funzione di regressione. In generale, tutti i fenomeni
osservati presentano, in maggiore o minor misura, un certo grado di variabilita' attorno alla
funzione di regressione. E' quindi importante ricordare la relazione fondamentale precedente,
che potremmo sintetizzare come
risposta = funzione di regressione + perturbazione
dove con risposta si indica la variabile dipendente e con perturbazione lo scostamento tra il
dato e la media condizionata.
10.3 Approssimazioni analitiche
474. La funzione di regressione e' una sintesi della distribuzione doppia, tuttavia non e' una
sintesi particolarmente maneggevole.
Infatti, e' necessario trovare le medie condizionate per un certo numero di valori di X .
Quindi se si hanno, per esempio, 6 valori di X occorre costruire una tavola di 6 coppie di nu-
meri (x; Y (x)), dove, lo ricordiamo, Y (x) e' un altro modo di indicare la medie condizionata
di Y j (X = x).
Questa dicolta' nasce dunque dal fatto che la funzione di regressione e' costruita per
punti e non e' una funzione denita da una formula (una funzione analitica). Se, per esempio,
la funzione di regressione fosse esattamente
p
Y (x) = x
l'andamento della media di Y in funzione di x pootrebbe essere riassunto semplicemente
con una radice quadrata. Ossia, basterebbe ricordare che per ogni valore di x la media
condizionata e' la radice quadrata di x.
475. Viste le considerazioni precedenti, spesso si cerca di sostituire alla funzione di regres-
sione vera una funzione analitica approssimata f (x). La funzione analitica e' un modo per
riassumere la funzione di regressione.
114
476. Talvolta la funzione analitica viene usata per denire la relazione teorica tra una
variabile statistica Y e una variabile esplicativa X .
Dal punto di vista statistico, la relazione tra due variabili non viene concepita come una
relazione matematica funzionale del tipo
y = f (x)
ma come una relazione funzionale perturbata del tipo
y = f (x) + ":
dove f (x) e' appunto la funzione di regressione teorica e " e' la dierenza tra i dati e la
funzione stessa.
10.4 Funzione di regressione lineare
477. Osservando l'andamento della funzione di regressione su esempi concreti si osserva che
esso somiglia spesso a quello di funzioni analitiche semplici, ad esempio spesso e' lineare. In
quasi tutti gli esempi fatti in precedenza, salvo il caso della serie storica dei tassi di natalita',
la funzione di regressione non si discosta molto da una retta. Pertanto e' naturale sostiture
alla funzione di regressione vera una funzione lineare.
478. Che cos'e' una funzione lineare?

E' una funzione per i cui punti (x; y = f (x)) sono tutti allineati. Il suo graco e' pertanto
quello di una retta. La funzione lineare, per denizione, ha la forma
y = + x
dove e indicano due numeri reali. Talvolta si dice che y = + x e' l'equazione di una
retta.
479. Che cosa bisogna conoscere per denire l'equazione di una retta?
L'equazione della retta e' completamente determinata dai due coecienti e .
480. Qual'e' il signicato dei due coecienti e nell'equazione di una retta?
Facciamo un esempio. Supponiamo che = 2 e = 1 e che dunque l'equazione della
retta sia
y = 2+x
Il graco della funzione e' disegnato nella gura sottostante, in alto a sinistra.
115
10 10
8 E(Y|x) = 2 + 1 x 8 E(Y|x) = 0 + 0.5 x
6 6
y 4 4
y
2 2
-2 2 4 6 8 10 -2 2 4 6 8 10
-2 -2
x x
10 10
8 E(Y|x) = 8 - 1.5 x 8 E(Y|x) = 4 + 0 x
6 6
4 4
y
2 2
-2 2 4 6 8 10 -2 2 4 6 8 10
-2 -2
x x
Il coeciente 2, detto anche termine costante, indica l'ordinata del punto in cui la retta
incontra l'asse verticale e cioe' e' il valore di y quando x vale zero.
Il coeciente denota la pendenza (o coeciente angolare ) della retta che indica di
quanto varia y se x varia di 1. In questo esempio, = 1 indica che se si fa crescere un x
qualsiasi di 1, la funzione aumenta di 1. In altri termini se si considerano due valori qualsiasi
x e x0 la cui dierenza e' 1, i valori corrispondenti 2 + x e 2 + x0 dieriscono di 1 (vericare
prendendo per esempio x = 11 e x0 = 10). Si osservi che la retta si alza di 1 ogni volta che x
si sposta a destra di 1.
Nella gura, in alto a destra e' rappresentata la retta
y = 0 + 0:5x
La pendenza di questa retta e' 0:5 cioe' ad ogni aumento unitario di x, corrisponde un aumento
di 0:5 di y . Ovvero, se si considerano due valori qualsiasi x e x0 la cui dierenza e' 1, i valori
corrispondenti 0:5x e 0:5x0 dieriscono di 0.5 (vericare prendendo per esempio x = 11 e
x0 = 10). Si osservi che sul graco la retta si alza di 1=2 ogni volta che x si sposta a destra
di 1.
La pendenza puo' essere positiva, negativa o nulla. E' negativa se il coeciente e'
negativo, e' nulla se e' zero. Nella gura a sinistra in basso e' disegnata una retta con la
116
pendenza negativa
y = 8 ; 1:5x:
Ogni incremento unitario di x da' luogo a una variazione negativa, cioe' a una diminuzione di
;1:5 in y. Si osservi che sul graco la retta scende di 1 21 ogni volta che x si sposta a destra
di 1.
La retta passa inoltre per il punto (0; 8), cioe' y e' 8 quando x = 0.
Nell'ultima gura a destra in basso e' disegnata una retta con pendenza zero
y = 4+0x
La retta e' parallela all'asse delle ascisse. Ogni incremento di 1 in x non comporta alcuna
variazione in y .
481. Qual'e' la caratteristica fondamentale di una funzione lineare?

E' il fatto di avere la pendenza costante. Cioe' la pendenza e' sempre la stessa ed uguale
a . La pendenza di una funzione y = f (x) in due punti x e x0 e' per denizione il rapporto
f (x) ; f (x0 )
x ; x0
ed esso
p dipende, in generale, dai punti x e x0 scelti. Basta fare qualche prova con la funzione
y = x per notare che la pendenza e' maggiore per x e x0 vicini a zero e minore per x e x0
lontani da zero (guardare il graco della funzione).
Invece, per le funzioni lineari f (x) = + x avviene che la pendenza e'
( + x) ; ( + x0) = (x ; x0 ) =
x ; x0 x ; x0
qualsiasi siano x e x0. Per questo motivo la pendenza contiene tutta l'informazione neces-
saria per capire il modo con cui varia y al variare di x.
482. Come si calcola la pendenza di una retta?

Basta considerare due valori diversi x e x0 e i corrispondenti valori f (x) = + x e
f (x0) = + x0 e costruire il rapporto
0
; f (x ) :
= f (xx) ; x0
La pendenza e' dunque il rapporto tra la variazione di y e la variazione di x.
483. Da si puo' dedurre se la retta cresce o decresce?

Si'. Se > 0 la retta e' crescente, se < 0 la retta e' decrescente, se = 0, la retta e'
costante.
117
484. Che cosa e' una funzione di regressione lineare?

Puo' essere vista in due modi. (a) Come funzione di regressione teorica del tipo
E (Y j x) = + x
(b) Come un modo matematico per riassumere in modo semplice l'andamento delle medie
condizionate anche quando non seguono esattamente tale legge. Infatti, in taluni casi, anche
se la funzione di regressione non e' esattamente lineare e' conveniente sacricare l'esattezza
alla semplicita'.
485. Quando e perche' viene usata una funzione di regressione approssimata lineare?
(a) Quando la funzione di regressione e' monotona e non evidenzia una curvatura notevole.
(b) Quando la funzione di regressione e' non lineare, ma viene ridotto il campo di variazione
di X . In questo caso, delle approssimazioni lineari sono spesso adeguate.
(c) Perche' e' una funzione semplice. Supponiamo infatti di poter determinare una fun-
zione di regressione lineare che non si discosta molto dalla vera funzione di regressione. In tal
caso possiamo disporre di un modo estremamente sintetico per descrivere l'andamento della
media di Y j x in funzione di x. Infatti, sarebbe suciente ricordare i due valori e per
cogliere l'intera funzione di regressione.
(d) Perche' e' facile da capire e da comunicare.
(e) Perche' talvolta e' possibile ottenere una funzione di regressione lineare trasformando
le variabili.
486. Qual'e' l'interpretazione di e per una funzione di regressione (esattamente) lineare?

Il coeciente e' il valore di y quando x = 0 cioe' e' la media condizionata E (Y j X = 0).
Questo coeciente ha un senso se si dispone di dati per X = 0.
Il coeciente e' la variazione della media condizionata E (Y j X ) se X aumenta di
1. Meglio, e' la dierenza tra le medie condizionate E (Y j x) e E (Y j x + 1). Esprime
cioe' la dierenza che c'e' tra le medie della variabile dipendente in due sottopopolazioni che
dieriscono di 1 nella variabile esplicativa.
487. Ad esempio, supponiamo che la funzione di regressione dell'altezza dal numero di

scarpe sia
E (altezza j scarpe) = 60 + 2:5 scarpe:
Come si interpreta?
I due coecienti = 60 e = 2:5 riassumono gli aspetti salienti della relazione tra
l'altezza media e il numero di scarpe. In particolare, possiamo dire che, se il numero di scarpe
aumenta di un numero l'altezza aumenta di 2.5 cm. Naturalmente, questa espressione e' un
modo comodo per esprimere una relazione complessa. Non e' possibile cioe' fare aumentare il
numero di scarpe di 1 e vedere cosa succede all'altezza. Tuttavia se la funzione di regressione
e' quella specicata sopra, e' vero che se si considerano due sottopopolazioni di individui che
dieriscono di 1 nel numero di scarpe, le loro altezze medie dieriscono di 2.5 cm.
118
488. Se la funzione di regressione della spesa dal reddito fosse

E (spesa j reddito) = 190 + 0:25 reddito
come si dovrebbe interpretare?
L'eetto del reddito sulla spesa e' racchiuso nel coeciente . Pertanto se il reddito
aumenta di 1 (migliaia di lire) la spesa aumenta di 0.25 (migliaia di lire). Analogamente, se
il reddito mensile aumentasse di 100 mila lire la spesa aumenterebbe di 250 mila lire.
489. Non si interpreta mai ?
Raramente. Poiche' e' il valore medio di Y quando X e' uguale a zero, deve avere un
senso porre X uguale a zero. In molte applicazioni quando X e' zero esso perde di signicato
concreto e quindi l'interpretazione di e' ridicola. Inoltre, occorre tener conto che una
funzione lineare e' teoricamente denita per x che va da ;1 a +1, mentre nelle applicazioni
ovviamente x ha un campo di variazione limitato, che spesso non comprende lo zero. Quindi
il signicato della funzione di regressione lineare va limitato a quell'intervallo. Dunque, se il
campo di variazione della variabile non comprende lo zero, non ha senso interpretare .
Nell'esempio dell'altezza, ha poco senso interpretare il termine costante 60 come l'altezza
media quando il numero di scarpe e' zero.
Nell'esempio della spesa, il termine costante 190 ha il signicato di spesa media quando il
reddito e' zero. Pertanto corrisponde a quello che gli economisti chiamano consumo autonomo
e cioe' e' la spesa che comunque una famiglia sostiene per nutrirsi anche se il suo reddito e'
nullo. Anche se il termine costante in questo caso ha un signicato teorico (perche' in teoria
il reddito potrebbe assumere un valore zero), dal punto di vista empirico non e' giusto consi-
derare 190 come una stima precisa del consumo autonomo, perche' il campo di variazione dei
redditi osservati e' compreso tra 1 milione e 3 milioni al mese circa, senza alcuna osservazione
sulla spesa di famiglie aventi un reddito zero o prossimo allo zero.
490. Qual'e' l'unita' di misura di e ?
L'unita' di misura di e' quella di della variabile dipendente Y , dato che = E (Y j x)
e' una media di Y condizionata a X = 0.
Invece l'unita' di misura di e' il rapporto tra l'unita' di Y e l'unita' di X . Ad esempio,
se = 2:5 per la funzione di regressione dell'altezza dal numero di scarpe, signica 2.5 cm
per numero di scarpe. Infatti, la pendenza della retta e' il rapporto tra la variazione di Y
rispetto alla variazione di X .
Nell'esempio della spesa e del reddito la paendenza = 0:25 e' espressa in migliaia di lire
di spesa per ogni migliaio di lire di reddito.
SETTIMANA 11
Interpolazione
In questa lezione si parla di come si approssima una funzione di regressione con una funzione
lineare. E' il seguito naturale della lezione sulla regressione. Se si riesce a sintetizzare la
funzione di regressione con una retta, e' suciente riportare i coecienti della retta (in modo
particolare la pendenza) per riassumere sinteticamente come varia Y al variare di X . Anche in
questa lezione Y e X sono rispettivamente una variabile dipendente e una variabile esplicativa,
entrambe quantitative.
11.1 Tipi di interpolazione
491. Volendo approssimare la funzione di regressione, usando una funzione analitica f (x),
quali nalita' si devono tenere presenti?
(a) Innanzitutto si vuole riassumere la funzione di regressione, con una funzione semplice,
che dipende, cioe', da pochi coecienti. Di modo che l'intera funzione di regressione si possa
descrivere approssimativamente conoscendo questi coecienti.
(b) Talvolta l'approssimazione e' utilizzata per lisciare la funzione di regressione che
appare troppo irregolare.
(c) Una delle nalita' e' anche quella di interpolare le medie condizionate, cioe' di stimare
le medie condizionate per dei valori di x interni al campo di variazione di X per cui queste
non si conoscono.
(d) Inne talvolta una delle nalita' e' quella di estrapolare le medie condizionate, cioe'
di stimare le medie condizionate per dei valori di X esterni (ma non troppo) al campo di
variazione.
492. Il processo con cui si adatta una funzione di regressione e' chiamato interpolazione
statistica.
119
120
493. Che cos'e' l'interpolazione statistica?

Per interpolazione statistica si intende far passare una funzione tra le distribuzioni condi-
zionate di Y j X in modo che tale funzione riassuma la funzione di regressione.
494. Se f (x) e' la funzione interpolata, il valore calcolato in corrispondenza di un dato x e'
uguale al valore osservato di y ?
No, perche' la funzione non passa per tutti i punti osservati (x; y ). Infatti, con l'interpo-
lazione statistica si tollera che possa esistere una discrepanza tra il dato osservato y j x (cioe'
il dato in corrispondenza di un certo valore di x) e il dato interpolato f (x). La dierenza tra
il dato osservato e il dato interpolato e' stata indicata anche in precedenza con
" j x = y j x ; f (x):
Essa e' dunque lo scostamento tra l'osservazione relativa a una certa unita' e il dato medio
ottenuto per interpolazione. E' giusto infatti che esista un certo grado di variabilita' attorno
alla funzione interpolata dovuto alle particolarita' individuali che fanno si che il dato osservato
si discosti dalla tendenza media di fondo.
495. Si ottiene dunque la relazione base, piu' volte sottolineata
y j x = f (x) + " j x
che puo' essere illustrata gracamente come segue.
y|x
f(x)
0
0 x
Nella gura f (x) e' una funzione lineare e passa attraverso le distribuzioni condizionate. Lo
scostamento " j x e' la dierenza tra l'ordinata del punto e l'ordinata della sua proiezione
verticale sulla funzione.
496. Lo scostamento e' la lunghezza del segmento che unisce i due punti?
No, perche' una lunghezza e' sempre positiva, mentre lo scostamento puo' essere positivo
(se il punto e' sopra la funzione) o negativo (se e' sotto).
121
11.2 Interpolazione per punti

497. Perche' non si interpola una funzione sucientemente essibile che passi per tutti i
punti in modo da annullare esattamente gli scostamenti?
Interpolare una funzione in modo che passi per tutti i punti si dice interpolazione per
punti o interpolazione matematica. L'interpolazione per punti ha delle nalita' diverse dal-
l'interpolazione statistica ed e' in generale poco utile a ni statistici per vari motivi. Il caso
piu' semplice di interpolazione matematica e' l'interpolazione lineare.
498. Che cosa signica interpolazione lineare?

Facciamo un esempio. Sappiamo, dai dati degli studenti, (vedi lezione precedente) che chi
ha numero di scarpe 43 e' alto in media 177 cm mentre chi ha numero di scarpe 36 e' alto
in media 157 cm. Usando queste sole informazioni, potremmo tentare di ricostruire quanto
e' alto chi ha numero di scarpe 40? Una tecnica molto usata e' quella dell'interpolazione
lineare. Essa procede in due passi. (a) Si rappresentano i due punti (43; 177) e (36; 157)
sul piano Cartesiano e si fa passare una retta per i due punti. Cioe' si suppone che esista
una funzione lineare che passa esattamente per i due punti. (b) Conoscendo l'equazione della
retta che passa per tali punti, si sostituisce nell'equazione x = 40 e si calcola quanto vale y in
corrispondenza di tale valore. Il valore risultante si dice ottenuto per interpolazione lineare.
Il graco sotto riportato visualizza il procedimento.
180
177
170
y
160
157
150
36 38 40 42 43 44
x
La retta che passa per i due punti ha una pendenza (177 ; 157)=(43 ; 36) = 2:587. Quindi
ha una forma
y = + 2:587x:
Inoltre, deve passare per il punto (36; 157) quindi, sostituendo a x 36 e a y 157, deve risultare
una identita'. Dunque occorre che
157 = + 2:587 36
122
da cui si ricava = 63:87: La retta che passa per i due punti e'
y = 63:87 + 2:587x
e pertanto, sostituendo alla ne x = 40 si ottiene il valore interpolato di y cioe'
63:87 + 2:587 40 = 167:4:
Controllare sulla gura il risultato.
499. Che signica in generale interpolare per punti?
Signica far passare una funzione esattamente per un certo numero di punti. Come nel
caso dell'interpolazione lineare, dati due punti si fa passare per essi una retta, cosi' si puo'
generalizzare l'idea a piu' di due punti. Naturalmente, se i punti sono piu' di due non si puo'
usare una retta per fare l'interpolazione. Percio' si utilizza qualche funzione piu' essibile, ma
sempre continua (senza interruzioni) e abbastanza regolare (senza punti angolosi) che passi
esattamente attraverso i punti.
500. E' utile l'interpolazione matematica per sintetizzare una funzione di regressione?
No, non e' molto utile, perche' si puo' dimostrare che all'aumentare dei punti da interpolare
e' necessario complicare sempre di piu' la funzione introducendo un numero sempre maggiore
di coecienti. Ad esempio, per interpolare due punti, si usa una retta che ha due coecienti
e . Per interpolare 3 punti si puo' usare una funzione quadratica (equazione di una parabola)
f (x) = + x + x2
che ha 3 coecienti, tanti quanti i punti da interpolare. Percio', volendo interpolare i punti
di una funzione di regressione, si dovrebbe utilizzare una funzione con tanti coecienti quanti
sono i punti da interpolare e la nalita' di semplicare la funzione di regressione non sarebbe
ovviamente raggiunta.
Un secondo motivo per cui l'interpolazione per punti non e' conveniente e' illustrato
nell'esempio seguente.
Interpolazione di un polinomio di grado 9
400
350
Popolazione USA, milioni
300
250
227.5
200
150
100
50
0
1900 1910 1920 1930 1940 1950 1960 1970 1980 1990 2000
123
Nel graco si vede l'andamento della serie storica della popolazione (in milioni) degli Stati
Uniti, dall'inizio del secolo al 1990. Supponiamo di voler interpolare la serie per prevedere la
popolazione nel 2000.
Interpolando una funzione che passa per tutti i punti (un polinomio di nono grado) si
ottiene una curva ondeggiante con delle evoluzioni che non hanno niente a che fare con il
fenomeno, ma che sono semplicemente dovute al tipo di funzione utilizzata, e che si formano
perche' la funzione e' vincolata a passare per i punti.
Inoltre, la funzione ha un brusco cambiamento proprio dopo il 1990 e cala improvvisa-
mente. Pertando usando questa funzione a scopo estrapolativo, si prevede che la popolazione
degli Stati Uniti decresce a 227:5 milioni di abitanti.
Inne, la funzione ha di nuovo un brusco cambiamento di tendenza dopo il 2000 e comincia
a crescere a un tasso molto maggiore di prima.
La lezione e' chiara. Se si insiste a far passare una funzione esattamente per tutti i dati,
la funzione tende a seguire tutte le minime ondulazioni e non a lisciare l'andamento. Inoltre
puo' essere che produca non linearita' non coerenti con i dati, ma spurie1 .
11.3 Fasi dell'interpolazione
501. Quali sono le fasi dell'interpolazione statistica?
Ci sono tre fasi distinte.
(a) La scelta della famiglia di funzioni da interpolare.
(b) L'adattamento vero e proprio di una funzione nell'ambito della famiglia scelta, sulla
base di un criterio oggettivo.
(c) La verica del grado di accostamento tra le osservazioni vere y e le osservazioni teoriche
f (x) e la misura complessiva della bonta' di adattamento.
502. Da cosa e' caratterizzata le fase (a)?

Nella fase (a) si deve tener conto delle informazioni a priori e si deve esaminare lo scatter
per individuare che tipo di funzione utilizzare per approssimare la funzione di regressione.
Come detto, se non c'e' evidenza di curvatura, spesso viene specicata la famiglie delle rette.
503. Se c'e' evidenza di non linearita' quali sono le strategie possibili?

(a) Trasformare le variabili in modo da ottenere uno scatter piu' lineare.
(b) Limitare il campo di variazione della variabile esplicativa, in modo che su questo
intervallo ridotto l'approssimazione lineare sia suciente.
(c) Specicare una famiglia di funzioni non lineari, come le parabole, ad esempio.
504. Fare un esempio di trasformazione di variabile che migliora l'allineamento dei punti
sullo scatter.
1
Esempio tratto da Forsythe, Malcom, Moler (1977) Computer Methods for Mathematical Computations,
Prentice Hall.
124
Ad esempio, nell'esempio del consumo e della cilindrata, il consumo Y e' espresso in km

per un litro. Lo scatter mostra una certa curvatura. Se si trasforma il consumo in
Y 0 = 100 Y
si ottiene una variabile Y 0 che esprime il consumo in litri per 100 km. Il graco di X e Y 0
riportato sotto, dimostra una maggior linearita' rispetto al graco di X e Y .
25
20
Litri per 100 km
15
10
5
1000 2000 3000 4000 5000 6000
Cilindrata
Osservare che la funzione di regressione diventa crescente (con una maggior cilindrata si tende
a consumare in media piu' litri di benzina per fare 100km).
11.4 Metodo dei minimi quadrati
505. Una volta scelta la famiglia di funzioni da interpolare, diciamo la famiglia delle rette,
come si fa a trovare la retta migliore, cioe' quella, tra tutte le possibili, che approssima meglio
la funzione di regressione?
Tra tutte le rette possibili si cerca di trovare, quella che ha la distanza minore dalle
medie condizionate. Il metodo piu' usato per eettuare l'adattamento e' chiamato metodo dei
minimi quadrati ed e' dovuto a Legendre e a Gauss.
506. Spiegare i dettagli del metodo dei minimi quadrati.
Il metodo si propone di determinare la retta che rende minima la distanza globale tra
la retta e la funzione di regressione. Come distanza globale si usa la media di tutti gli
scostamenti al quadrato tra i valori osservati y j x della variabile dipendente in corrispondenza
di una determinazione x della variabile esplicativa e i valori teorici ottenuti sostituendo tale
x nell'equazione della retta, cioe' la media degli scostamenti al quadrato
fy j x ; ( + x)g2
La gura sottostante illustra il criterio. La distanza tra la retta disegnata e i valori osservati
e' la media delle lunghezze al quadrato dei segmenti verticali.
125
30
25
20
15
10
5
0
0 2 4 6 8 10
507. Se per X = x c'e' piu' di un valore osservato di Y e la frequenza relativa di coppie di

valori (x; y ) e' p(x; y ) l'indice di distanza precedente si puo' scrivere come
X
fy j x ; ( + x)g2p(x; y):
x;y
508. Come si determina la retta da interpolare?

Cercando i coecienti e che rendono minima la media la distanza quadratica appena
descritta. Tali coecienti si dicono stimati con i minimi quadrati e la retta ottenuta si dice
retta dei minimi quadrati.
509. E' possibile determinare esplicitamente i coecienti?
Si' e' possibile. La retta dei minimi quadrati ha equazione
y = a + bx
e i coecienti dei minimi quadrati a e b sono unici e si ottengono esplicitamente con le formule
seguenti
b = cov( X; Y )
var(X ) ; a = Y ; bX :
purche' la varianza var(X ) sia diversa da zero (cioe' basta che la variabile esplicativa non sia
costante). La dimostrazione e' omessa.
510. Come si chiamano i coecienti a e b?
Il coeciente b si dice coeciente di regressione di Y da X . E' un coeciente che esprime
la dipendenza di Y da X , ottenuto come rapporto tra la covarianza e la varianza della variabile
esplicativa. Per evidenziare la variabile dipendente e la variabile esplicativa il coeciente di
regressione dei minimi quadrati si denota talvolta con bY X (il primo susso e' la variabile
dipendente). Pertanto,
bY X = XY
2 :
X
Il coeciente a e' il termine costante.
126
511. Come si chiama la retta adattata?

Si dice retta di regressione o retta dei minimi quadrati.
512. Supponiamo che si voglia studiare la dipendenza del consumo di gasolio necessario per
riscaldare un ambiente e la temperatura esterna.
In 5 intervalli di tempo diversi si registra la temperature esterna (in gradi Celsius) e il
consumo di gasolio (in litri). I dati ottenuti sono i seguenti.
Temperatura Gasolio
-3 150
-1 140
1 130
-5 170
-7 210
Interpolare la retta dei minimi quadrati, calcolando il coeciente di regressione e il termine

costante.
Lo scatter plot sotto disegnato mostra un andamento decrescente approssimativamente
lineare.
220
200
180
Consumo
160
140
120
-10 -8 -6 -4 -2 0 2
Temperatura
I calcoli per determinare il coeciente di regressione si ottengono organizzando la seguente

tabellina in cui la temperatura e' X e il consumo di gasolio e' Y . La media del consumo e'
160 litri e la temperatura media e' ;3 gradi.
x y x ; X y ; Y (x ; X )(y ; Y ) (x ; X )2
;3 150 0 ;10 0 0
;1 140 2 ;20 ;40 4
1 130 4 ;30 ;120 16
;5 170 ;2 10 ;20 4
;7 210 ;4 50 ;200 16
0 0 ;380 40
127
Si deduce che la covarianza e' XY = ;380=5 = ;76 mentre la varianza di X e' X2 = 40=5 =
8: La covarianza negativa indica che vi e' discordanza tra le due variabili. Il coeciente di
regressione del consumo dalla temperatura e' dunque
bY X = ; 76
8 = ;9:5 litri per grado:
Il termine costante e'
Y ; bY X X = 160 ; (;9:5) (;3) = 160 ; 28:5 = 131:5 litri :
Pertanto, la retta interpolata e' y = 131:5 ; 9:5x.
513. Interpretare i coecienti ottenuti.

Per ogni aumento di un grado la temperatura il consumo medio teorico diminuisce di 9.5
litri.
Quando la temperatura esterna e' di zero gradi il consumo medio teorico e' di 131.5 litri.
Notare che in questo esempio, si puo' interpretare il termine costante perche' il campo di
variazione comprende lo zero.
220
220
200
200
180
180
160
160
140
140
120
120
-10 -8 -6 -4 -2 0 2 -10 -8 -6 -4 -2 0 2
distanza = 1895 distanza = 1009.87
220
220
200
200
180
180
160
160
140
140
120
120
-10 -8 -6 -4 -2 0 2 -10 -8 -6 -4 -2 0 2
distanza = 501.56 Minimi quadrati: distanza = 78
128
514. Nel graco precedente e' rappresentato l'adattamento di varie rette, tra cui (in basso
a destra) la retta dei minimi quadrati, ai dati sul consumo di gasolio. Per ogni caso e' fornito
l'indice di distanza tra i punti e la retta, cioe' la media degli scostamenti al quadrato tra i
punti e la retta.
Il valore piu' basso dell'indice e' in corrispondenza della retta dei minimi quadrati. Come
detto, non e' possibile trovare una retta, che dia luogo a un valore piu' basso di 78 dell'indice
(in questo esempio).
11.5 Valori adattati e residui
515. Una volta adattata la retta dei minimi quadrati, che cosa sono i valori adattati (o
valori teorici )?
I valori adattati sono i valori teorici che si ottengono sostituendo nell'equazione della retta
dei minimi quadrati ad x i valori osservati della variabile esplicativa X . Sono i valori che
approssimano i valori osservati della variabile Y (le medie condizionate E (Y j x) in generale).
516. Calcolare i valori adattati per i dati del consumo di gasolio.

La retta dei minimi quadrati e'
y = 131:5 ; 9:5x
percio' i valori adattati si calcolano come segue.
Temperatura Consumo teorico Consumo vero
-3 131.5 - 9.5 (-3) = 160 150
-1 131.5 - 9.5 (-1) = 141 140
1 131.5 - 9.5 ( 1) = 122 130
-5 131.5 - 9.5 (-5) = 179 170
-7 131.5 - 9.5 (-7) = 198 210
Essi indicano i valori che sono stati calcolati come approssimazioni dei valori osservati.
L'equazione che descrive i valori teorici si puo' scrivere in modo piu' comprensibile come
consumo
d = 131:5 ; 9:5 temperatura:
517. Come si indicano i valori adattati? I valori adattati sono indicati con y^ (leggere `y
cappello'), cioe'
y^ = a + bx
dove x assume come valori le determinazioni di X .
518. Dove si riconoscono sul graco i valori adattati?

Sono i valori sulla retta di regressione in corrispondenza degli x osservati.
129
519. Che cosa sono i residui dei minimi quadrati?

Sono le dierenze tra i valori osservati y e i valori adattati y^. Si indicano con e e misurano
gli errori di interpolazione. Pertanto,
e = y ; y^:
520. Calcolare i residui dei minimi quadrati dai dati sul consumo di gasolio.
Basta calcolare la dierenza tra il consumo vero di gasolio e il consumo interpolato, come
si vede nella tavola seguente
Consumo vero Consumo teorico Residui
150 160 -10
140 141 -1
130 122 8
170 179 -9
210 198 12
Totale 800 800 0
521. Che proprieta' hanno i valori adattati e i residui dei minimi quadrati?
(a) La somma dei valori adattati e' sempre uguale alla somma dei valori osservati.
(b) La somma dei residui e' sempre zero.
(c) La media dei quadrati dei residui e' la distanza (globale) esistente tra la retta dei minimi
quadrati e i dati. Tale valore non puo' essere ridotto da nessuna altra retta interpolata.
522. La media dei quadrati dei residui si chiama varianza residua o varianza non spiegata.
Si indica con var(e) e formalmente si puo' scrivere come
X
var(e) = (y j x ; y^)2 p(x; y )
x;y
dove la somma e' estesa a tutte le coppie di modalita' di X e di Y . Nel caso piu' frequente,
non esistono valori ripetuti di (x; y ) e dunque p(x; y ) = 1=(Totale osservazioni). Pertanto la
varianza residua e' semplicemente la somma di tutti i quadrati dei residui, divisa per quanti
sono.
523. Vericare che la varianza residua e' 78, nell'esempio del consumo di gasolio.
Basta impostare la tavola seguente
Residui Residui al quadrato
-10 100
-1 1
8 64
-9 81
12 144
Totale 0 390
e calcolare var(e) = 390=5 = 78:
130
524. (Esempio dell'altezza e del numero di scarpe). Le statistiche fondamentali sono le

seguenti (sqm e' lo scarto quadratico medio).
Numero di scarpe Media = 39.3 sqm = 2.69
Altezza Media = 166.9 sqm = 8.49
Covarianza = 19.54
Trovare la retta di regressione dell'altezza dal numero di scarpe.

Il coeciente di regressione e'
bY X = 19:54
2:692 = 2:7 cm / numero
a = 166:9 ; 2:7 39:3 = 60:8 cm
e dunque la retta dei minimi quadrati e'
y = 60:8 + 2:7x:
I valori adattati dell'altezza sono ottenuti come segue
d = 60:8 + 2:7 numero di scarpe
altezza
L'interpretazione e' la seguente. La covarianza e' positiva indicando che statura e numero di
scarpe sono concordanti. Per ogni aumento di 1 nel numero di scarpe la statura cresce di 2.7
cm. Il termine costante non ha un'interpretazione.
525. Calcolare il valore interpolato dell'altezza in corrispondenza del numero di scarpe 40.
E' y^ = 60:8 + 2:7 40 = 168:8 cm:
526. Calcolare il valore interpolato dell'altezza in corrispondenza del numero di scarpe

medio.
La media del numero di scarpe e' 39:3. Pertanto sostituendo nell'equazione della retta
x = 39:3 si ottiene
y^ = 60:8 + 2:7 39:3 = 166:9 cm:
Osservare che il valore interpolato e' esattamente uguale alla media aritmetica delle altezze.
527. (Esempio del reddito e della spesa). Le statistiche fondamentali sono le seguenti.
Reddito (migliaia di lire) Media = 1844.7 sqm = 512.4
Spesa (migliaia di lire) Media = 622.9 sqm = 213.1
Covarianza = 61276.5
131
Determinare la retta di regressione della spesa dal reddito.

bY X = 61276 :5
512:42 = 0:233
a = 622:9 ; 0:233 1844:7 = 193 mila lire
y = 193 + 0:233x:
I valori interpolati della spesa sono
d = 193 + 0:233 reddito
spesa
L'interpretazione e' la seguente. Ogni lira in piu' di reddito la spesa per generi alimentari
cresce di 0.233 lire. Quindi ogni 100 mila lire in piu' di reddito la spesa cresce di 23300 lire.
O meglio, la dierenza di spesa tra due gruppi di famiglie, che hanno redditi che dieriscono
di 100 mila lire, e' di 23300 lire.
La concordanza tra reddito e spesa e' evidente anche dal valore positivo della covarianza.
528. Calcolare la spesa interpolata per una famiglia che ha un reddito uguale alla media
dei redditi.
Sostituendo il valor medio del reddito si ha
d = 193 + 0:2333 1844:7 = 622:9
spesa
cioe' il valore interpolato e' uguale alla spesa media.
529. Dimostrare che il risultato precedente e' sempre vero. Cioe' il valore teorico di y^ per
X uguale alla media e' la media di Y .
Basta osservare che la retta di regressione ha la forma
y^ = a + bx = (Y ; bX ) + bx
cioe', raccogliendo a fattor comune b,
y^ = Y + b(x ; X ):
In questa forma si vede subito che se x e' uguale alla media y^ e' uguale alla media di Y (infatti
x ; X = 0 e y^ = Y ).
530. Qual'e' l'interpretazione geometrica del risultato precedente?
Signica semplicemente che la retta dei minimi quadrati passa sempre per il baricentro
dello scatter cioe' per il punto di coordinate (X ; Y ).
132
531. Dimostrare che la somma dei residui dei minimi quadrati e' sempre zero.
Infatti la somma dei residui e' la somma delle quantita' y ; y^ cioe' di
y ; fY + b(x ; X )g = (y ; Y ) ; b(x ; X ):
La somma e' zero perche' e' la somma di scarti dalla media di Y meno b volte la somma di
scarti dalla media di X (come si ricordera' la somma di scarti dalla media e' sempre nulla).
532. (Esempio del consumo e della cilindrata). Le statistiche fondamentali sono

Cilindrata (cc) Media = 2037.10 sqm = 892.26
Consumo (km con un litro) Media = 10.54 sqm = 2.95
Covarianza = -1652.44
Determinare la retta di regressione del consumo dalla cilindrata.

bY X = ; 1652 :44 = ;0:002

892:262
a = 10:54 ; (;0:002) 2037:1 = 14:6 km con un litro
y = 14:6 ; 0:002x:
I valori interpolati del consumo sono
km condun litro = 14:6 ; 0:002 cilindrata
L'interpretazione e' la seguente. Per ogni cc di cilindrata in piu' l'auto fa 0.002 km in meno
per litro di benzina. Ogni 1000 cc di cilindrata in piu', l'auto fa 2 km in meno con un litro di
benzina. Si osservi che c'e' discordanza tra le due variabili perche' la covarianza e' negativa.
533. Da che cosa e' determinato il segno del coeciente di regressione?

Il coeciente di regressione e' il rapporto tra la covarianza e la varianza della variabile
esplicativa. Percio' il denominatore e' sicuramente positivo. Il segno del coeciente di re-
gressione e' dunque il segno del numeratore, cioe' della covarianza. Conclusione, se fra X
e Y c'e' concordanza, il coeciente di regressione e' positivo e la retta e' crescente; se c'e'
discordanza, il coeciente di regressione e' negativo e la retta e' decrescente.
133
534. Si consideri, inne, ancora il problema del consumo e della cilindrata, ma con la varibile
dipendente Y trasformata in 100=Y per passare da km con un litro a litri per 100 km. Gli
indici fondamentali sono i seguenti.
Cilindrata (cc) Media = 2037.10 sqm = 892.26
Consumo (litri per 100 km) Media = 10.39 sqm = 3.59
Covarianza = 2596.36
Determinare la retta di regressione del consumo dalla cilindrata.

bY X = 2596:36 = 0:0033
892:262
a = 10:39 ; 0:0033 2037:1 = 3:7 litri per 100 km
y = 3:7 + 0:0033x:
I valori interpolati del consumo sono
litri perd100 km = 3:7 + 0:0033 cilindrata
L'interpretazione e' la seguente. Per ogni cc in piu' l'auto consuma 0.0033 litri in piu' per
fare 100 km. Ossia, per ogni 1000 cc in piu' l'auto consuma 3.3 litri in piu' per fare 100 km.
535. Si osservi che le due equazioni stimate

km condun litro = 14:6 ; 0:002 cilindrata
litri perd100 km = 3:7 + 0:0033 cilindrata
non possono essere dedotte l'una dall'altra tenendo conto del fatto che
km con un litro = 100 :

litri per 100 km
536. Le rette di regressione ricavate per gli esempi discussi in precedenza sono riportate
nella gura seguente.
134
1400
190
1200
180
1000
Altezza
Spesa
170
800 600
160
400
150
200
34 36 38 40 42 44 46 500 1000 1500 2000 2500 3000 3500
Scarpe Reddito
30
20
25
15
Litri per 100 km

km con un litro
20
10
15
5
10
5
0
0 1000 3000 5000 7000 0 1000 3000 5000 7000

Cilindrata Cilindrata
Si osservi che l'intercetta tra la retta e l'asse verticale non sempre corrisponde al valore stimato
a, perche' l'asse verticale non passa in tutti casi per x = 0. L'unico caso in cui l'intercetta e'
uguale ad a e' quello in basso a sinistra relativo alla regressione del consumo (in km con un
litro) dalla cilindrata.
537. Se il coeciente di regressione e' zero che cosa signica?
Signica che la retta ha pendenza zero cioe' e' costante. Infatti, usando la retta dei minimi
quadrati ha equazione
y = Y + bY X (x ; X )
per cui, se bY X = 0 la retta diventa
y = y
cioe' e' una retta con quota costante uguale alla media di Y . In questo caso, tutti i valori
adattati sono sempre uguali alla media di Y quale che sia x.
Si osservi, inoltre, che se il coeciente di regressione e' zero allora deve essere zero il suo
numeratore, cioe' la covarianza tra le due variabili.
Dunque se il coeciente di regressione e' nullo le variabili X e Y sono incorrelate. Vice-
versa, in caso di incorrelazione, se si adatta una retta di regressione, la pendenza stimata con
135
i minimi quadrati e' identicamente zero. Questo risultato permette di chiarire maggiormen-
te il signicato di incorrelazione lineare: in caso di incorrelazione lineare, l'adattamento di
una retta porta a interpolare una retta costante, cioe' a concludere che teoricamente Y non
dipende linearmente da X .
Come si e' gia' rilevato in precedenza, puo' accadere, tuttavia, che la retta dei minimi
quadrati abbia pendenza zero, ma che cio' nasconda in realta' una dipendenza non lineare di
Y da X .
11.6 Bonta' di adattamento
538. Dagli esempi fatti e' evidente che la retta interpolata in taluni casi e' vicina ai dati,
e quindi e' un buon riassunto degli stessi, mentre in altri casi e' lontana e quindi non da'
luogo a un buon adattamento. Fondamentalmente che cosa dobbiamo esaminare per valutare
numericamente l'adattamento?
Per valutare l'adattamento ci si basa sui residui di interpolazione e = y ; y^. Infatti, usando
i residui e' possibile fornire una nuova versione della relazione fondamentale:
dato = modello + residuo
e cioe'
y = y^ + e
da cui si deduce che quanto piu' la parte residua e e' piccola e tanto migliore e' l'adattamento.
539. Che informazioni forniscono dunque i residui?
I residui danno due tipi di indicazione. (a) La prima indicazione e' dedotta dalla dimensio-
ne dei residui. Questa permette di valutare la bonta' di adattamento perche' l'adattamento
e' tanto migliore quanto piu' i residui sono vicini a zero. (b) La seconda indicazione e' de-
dotta dalla struttura dei residui cioe' dal loro comportamento complessivo. L'idea e' che se
i residui risultano indipendenti dalla variabile esplicativa X allora possiamo concludere che
si e' riusciti a includere tutta la dipendenza di Y da X nella retta di regressione. Se invece i
residui dipendono da X la retta di regressione non e' in grado di spiegare completamente la
dipendenza di Y da X .
Pertanto, in generale, i residui vanno esaminati in due fasi diverse. Nella prima fase si
costruisce un indice globale di bonta' di adattamento tenendo conto della dimensione dei
residui. In una seconda fase si esamina se i residui sono indipendenti da X oppure risultano
ancora associati a X . Dalla prima fase si puo' concludere se, avendo scelto come modello
una funzione lineare, tale funzione adattata e' vicina ai dati oppure no. Dalla seconda fase
invece si puo' controllare se la pretesa di riassumere la funzione di regressione con una retta
e' sostenibile oppure se e' necessario rivedere la specicazione della funzione.
540. Come si costruisce un indice globale di bonta' di adattamento?
L'indice fondamentale e' chiamato indice di determinazione lineare, indicato da R2 (erre
quadro). La sua denizione e' la seguente
var(e)
R2 = 1 ; var( Y)
136
cioe' e' il complemento a uno del rapporto tra la varianza residua e la varianza della variabile
dipendente.
541. Che valore assume l'indice di determinazione lineare se l'adattamento e' esatto?
L'adattamento e' esatto se tutti i valori interpolati sono uguali ai valori osservati di Y .
Cioe' se tutti i residui sono nulli. In tal caso la varianza residua (che e' la media dei quadrati
dei residui) e' ovviamente zero e dunque l'R2 e' uguale a 1.
542. L'indice di determinazione lineare puo' essere piu' grande di 1?
No, non puo' essere piu' grande di 1. Infatti, se i residui non sono tutti nulli i loro quadrati
sono positivi e la varianza residua e' positiva. Pertanto, il rapporto var(e)=var(Y ) e ' positivo,
viene tolto da 1 e quindi lo riduce.
543. Come si interpreta l'indice di determinazione lineare?
Per interpretare l'indice occorre discutere preliminarmente un risultato fondamentale e
cioe' la scomposizione della varianza nella regressione.
544. Enunciare la scomposizione della varianza nella regressione.
Una volta adattata con i minimi quadrati una funzione
y = + x
e ottenuti i coecienti a e b, i valori interpolati Y^ e i residui e, la varianza della variabile
dipendente Y , var(Y ) e' scomponibile sempre in due parti di cui essa e' la somma: la prima
parte e' detta varianza di regressione o varianza spiegata, var(Y^ ) e la seconda parte e' la
varianza residua, o varianza non spiegata, var(e). Pertanto,
var(Y ) = var(Y^ ) + var(e)
545. Che cos'e' la varianza spiegata?
La varianza spiegata e' semplicemente la varianza dei valori adattati. Cioe' e' la varianza
dei valori interpolati y^ = a + bx con i minimi quadrati.
546. Che cos'e' la varianza non spiegata?
E' la varianza dei residui, cioe', ricordando che i residui hanno sempre somma zero e quindi
media zero, la media dei quadrati dei residui
e = y ; y^:
547. Come si dimostra la scomposizione della varianza?
Si parte dalla scomposizione fondamentale
Y = Y^ + e
e da questa si puo' dimostrare che
var(Y ) = var(Y^ + e) = var(Y^ ) + var(e):
137
548. Come si interpreta la scomposizione della varianza nella regressione?

La varianza dei dati e' ricostruibile come somma di due parti: la varianza dei valori
adattati e la varianza dei residui. La prima parte e' spiegata dal modello lineare usato. La
seconda parte e' non spiegata dal modello. Per questo la variabilita' osservata in parte e'
riconducibile alla dipendenza lineare di Y da X e in parte e' riconducibile a fattori residui
non legati linearmente a X .
549. Usando la scomposizione della varianza come si puo' scrivere l'indice di determinazione
lineare?
Si puo' scrivere come
var(Y^ ) = varianza spiegata
R2 = var(Y) varianza di Y
Infatti dividendo ambo i membri dell'identita' var(Y ) = var(Y^ ) + var(e) per var(Y ) si ottiene
^
1 = var(Y ) + var(e)
var(Y ) var(Y )
da cui
var(Y^ ) = 1 ; var(e) = R2 :
var(Y ) var(Y )
550. Come si interpreta allora l'indice di determinazione lineare?
L'R2 indica quanta parte della variabilita' di Y e' spiegata dal modello lineare interpolato
Y^ = a + bx. Spesso l'indice di determinazione lineare e' espresso in forma percentuale.
R2 = 100% implica che la variabilita' osservata e' interamente spiegata dal modello lineare
interpolato.
R2 = 0% implica che la variabilita' osservata e' interamente non spiegata dal modello
lineare, cioe' non e' dovuta in alcun modo alla dipendenza lineare di Y da X (piu' avanti
maggiori dettagli).
551. (Esempio del consumo di gasolio e della temperatura). Riprendendo i valori adattati
e i residui del modello lineare, vericare la scomposizione della varianza.
Il consumo medio Y di gasolio e' di 160 litri. Consideriamo allora la tabella seguente
y y ; Y (y ; Y )2 y^ y^ ; y (^y ; Y )2 e e2
150 ;10 100 160 0 0 ;10 100
140 ;20 400 141 ;19 361 ;1 1
130 ;30 900 122 ;38 1444 8 64
170 10 100 179 19 361 ;9 81
210 50 2500 198 38 1444 12 144
4000 3610 390
da cui si calcola che
var(Y ) = 4000=5 = 800; var(Y^ ) = 3610=5 = 722; var(e) = 390=5 = 78:
La scomposizione e' dunque vericata.
138
552. Qual'e' l'indice di determinazione lineare nell'esempio?

E' il rapporto 722=800 = 1 ; 78=800 = 0:9: Percio' l'R2 e' il 90%. Possiamo concludere che
su questi dati l'adattamento di una retta spiega il 90% della variabilita'. Cioe' la variabilita'
del consumo di gasolio si puo' spiegare per il 90% con il legame lineare con la temperatura
esterna. Per il 10% la variabilita' del consumo di gasolio e' dovuta ad altri fattori non
considerati.
553. Dimostrare che la varianza spiegata si puo' calcolare con la formula alternativa
var(Y^ ) = b2var(X )
La dimostrazione e' molto semplice. Si ha
var(Y^ ) = var(a + bX ) = var(bx) = b2 var(X )
usando le regole fondamentali del calcolo con la varianza.
554. Determinare la scomposizione della varianza e l'indice di determinazione lineare per
l'esempio dell'altezza e del numero di scarpe,
Usando la formula appena spiegata (e gli indici forniti in precedenza) risulta
var(Y^ ) = 2:72 2:692 = 52:75
mentre var(Y ) = 8:492 = 72:08: Pertanto la tavola di scomposizione della varianza e'
Variabilita' Varianza
Spiegata 52.75
Residua 19.33
Totale 72.08 Indice di determinazione = 73.2%
dove l'R2 e' ottenuto come rapporto tra 52.75 e 72.08. La variabilita' dell'altezza e' imputabile
per il 73% al modello di dipendenza lineare tra essa e il numero di scarpe.
555. Dimostrare che l'indice di determinazione lineare e' uguale al quadrato del coeciente
di correlazione lineare.
Per denizione
^
Y ) b X
R2 = var(
2 2
2 = 2
Y Y
Inoltre e' noto che il coeciente di regressione e'
b = cov( X; Y ) = XY
var(X ) X2
Sostituendo questa relazione nella precedente si ottiene
R2 = XY XY X2 = XY XY = XY 2 = 2 :
XY
X X Y X2 Y2 X Y
2 2 2
139
556. Trovare l'indice di determinazione lineare per la regressione della spesa dal reddito.
Il coeciente di correlazione tra spesa e reddito (ottenuto dai dati riportati in precedenza)
e'
XY = 51261276 :5 = 0:561
:4 213:1
e denota una certo grado di correlazione lineare positiva. L'indice di determinazione lineare
e' semplicemente il quadrato di questo valore cioe'
R2 = 0:5612 = 0:31
Pertanto il grado di adattamento e' modesto. Solo il 31% della variabilita' dei consumi e'
spiegabile dalla relazione lineare adattata con il reddito. Il 69% della variabilita' dei consumi
e' dovuto a residui non spiegati al modello.
557. Qual'e' il campo di variazione dell'indice di determinazione lineare?
L'indice R2 assume sempre valori compresi tra 0 e 1. Infatti e' un rapporto tra due
grandezze positive di cui la prima e' una parte della seconda. Alternativamente, lo si puo'
dedurre ricordando che e' il quadrato del coeciente di correlazione che varia tra ;1 e +1.
558. Qual'e' l'interpretazione del caso in cui l'indice di determinazione e' zero?
Se l'indice di determinazione e' nullo, vuol dire che le due variabili sono incorrelate. Infatti,
in caso di incorrelazione,
(a) il coeciente di correlazione e' zero e dunque anche il suo quadrato, l'R2 , e' zero;
(b) la covarianza tra le due variabili e' nulla e dunque il coeciente di regressione b e'
zero. Percio' la varianza spiegata var(Y^ ) = b2 X2 che e' il prodotto del quadrato di b per la
varianza di X e' zero e dunque, inne l'indice di determinazione che e' il rapporto tra varianza
spiegata e varianza totale, e' zero.
L'interpretazione di questo caso e' dunque la stessa del caso in cui b = 0: la variabile
dipendente non dipende linearmente dalla variabile esplicativa. Cioe' interpolando la retta i
valori adattati sono costanti e uguali alla media,
y^ = Y + 0 (x ; X ) = Y :
In questo senso l'adattamento di una retta che dipenda da X e' il peggiore possibile.
559. Consideriamo i seguenti due esempi (vedi scatter sottostanti) in cui la retta di regres-
sione ha una pendenza molto vicina a zero e l'indice di determinazione lineare e' prossimo a
zero.
(a) Il primo esempio si riferisce a dei dati meteorologici. Ogni coppia (x; y ) sullo scatter
riguarda la quantita' di neve caduta a Mineapolis (Minnesota) in un certo anno. Piu' preci-
samente, x e' la quantita' di neve (in pollici) caduta nel mese di Novembre, y e' la quantita'
di neve caduta nel resto dell'anno. Sono stati considerati gli anni dal 1950 al 1969. La retta
di regressione interpolata e'
y^ = 42:15 ; 0:021x
140
con un R2 = :00000824. L'esempio e' dovuto a Mosteller F., Fienberg S. E. e R. E. K. Rourke

(1983) Beginning statistics with data analysis, Addison-Wesley, Reading, MA. Gli autori si
sono divertiti a confutare l'opinione di un meteorologo che alla televisione sosteneva che
poteva prevedere l'ammontare di neve che sarebbe caduta nel resto dell'anno basandosi sulla
quantita' di neve caduta all'inizio dell'inverno. Dall'analisi si vede la sostanziale indipendenza
tra le due variabili.
(b) Il secondo esempio si riferisce ai dati sulla serie storica (mensile) dei tassi di natalita'
USA dal gennaio al dicembre del 1940. La retta ha un coeciente di regressione di 0.054.
L'indice di determinazione lineare e' 0.000463. La media dei tassi di natalita' e' 19.4.
21.0
100
20.5
80
Neve caduta il resto dell’anno
Tasso di natalita’ USA

20.0
60
19.5
40
19.0
20
18.5
0
0 2 4 6 8 10 12 G F M A M G L A S O N D
Neve caduta in Novembre Tempo
560. Entrambi i casi precedenti danno luogo a un R2 praticamente nullo. Si osservi che in
altri esempi abbiamo trovato il coeciente di regressione vicino a zero, ma con l'R2 ben diverso
da zero. Questo mette in luce che e' dicile valutare l'incorrelazione basandosi sul coeciente
di regressione, perche' questo dipende dall'unita' di misura dei due caratteri. Invece l'indice
di determinazione ha una interpretazione assoluta perche' e' un numero puro (come del resto
anche il coeciente di correlazione lineare).
561. Perche' l'indice di determinazione lineare e' un numero puro?
Perche' e' il rapporto di due varianze e quindi l'unita' di misura al numeratore e al
denominatore si elidono.
11.7 Analisi dei residui
562. Abbiamo osservato prima che i residui sono importanti non solo per ottenere un indice
globale di adattamento (come l'R2 ) ma anche per controllare se la specicazione della funzione
interpolante e' adeguata. Un esempio di questo secondo uso dei residui e' fornito dai due casi
(a) e (b) esaminati poco fa.
Per i dati meteorologici e' evidente che i punti sono disposti intorno alla retta senza una
struttura particolare, mentre per la serie dei tassi di natalita' i punti seguono un preciso
andamento stagionale. Pertanto, mentre nel primo caso i residui appaiono indipendenti da
X , nel secondo caso questo non e' vero. Osservando lo scatter dei tassi e' dicile sostenere che
141
siccome la retta e' orizzontale e l'R2 e' zero allora i tassi non dipendono dal tempo. In eetti
la serie mostra una dipendenza dei tassi dal tempo, solo che la dipendenza non e' lineare. Il
fatto che la retta interpolata risulti orizzontale testimonia solo che la serie e' stazionaria in
media nel periodo considerato. Ma l'andamento uttuante puo' essere spiegato con altri tipi
di funzione del tempo.
563. Qual'e' l'interpretazione se R2 = 1?
Come abbiamo gia' detto prima l'adattamento di una retta e' perfetto. Tutti i punti
sono allineati su una retta. In questo caso il coeciente di correlazione e' per forza o +1
o ;1. XY = 1 se l'allineamento avviene su una retta con pendenza positiva XY = ;1 se
l'allineamento avviene su una retta con pendenza negativa.
Se l'allineamento avviene su una retta orizzontale, il coeciente di correlazione e' inde-
terminato perche' la covarianza e' zero e la varianza di Y e' zero.
564. Un modo per studiare se i residui sono indipendenti da X o no e' quello di costruire
uno scatter ponendo in ascisse X e in ordinate i residui dei minimi quadrati e. Nel primo
scatter a sinistra riportato sotto, ogni punto (x; y ) rappresenta un anno dal 1959 al 1983, in
cui x e' il consumo aggregato per generi alimentari degli Stati Uniti in miliardi di dollari (a
valori costanti del 1971) e y e' il reddito disponibile aggregato degli Stati Uniti (sempre in
miliardi di dollari del 1971). Sopra ogni punto e' riportato l'anno di riferimento.
170
83
110 120 130 140 150 160
82
80 81
2
Consumo per generi alimentari
79
77 78
76
0
72 75
Residui
70 71 73
74
69
-2
68
67
66
65
-4
64
63
6162
60
-6
59
100
90
-8
400 500 600 700 800 900 1000 400 500 600 700 800 900 1000
Reddito disponibile Reddito disponibile
Sul graco e' sovrapposta la retta dei minimi quadrati y^ = 55:3 + 0:093x il cui indice di
determinazione lineare e' molto buono, R2 = 97:8%.
Tuttavia, dallo scatter dei residui di interpolazione, a destra, e' possibile osservare una
certa struttura dei residui dipendente da X e dal tempo. Si osservi che il graco dei residui
permette di vedere amplicati gli scostamenti rispetto alla retta.
La struttura dei residui permette di vedere dove la funzione lineare e' mal specicata e
quindi di criticare il modello proposto, nonostante il valore eventualmente elevato dell'R2 .
Gli scostamenti piu' evidenti in questo esempio sono associati agli anni della crisi petrolifera.
142
565. Che cosa dunque permette di fare l'esame graco dei residui?
Esaminando i residui e' possibile:
(a) studiare i punti che si discostano maggiormente dalla funzione interpolata;
(b) individuare i valori atipici che possono condizionare i coecienti stimati;
(c) criticare il modello se i residui risultano ancora dipendenti da X ; in particolare
rendersi conto se Y dipende da X in modo non lineare.
566. Illustrare le aermazioni appena fatte.
Si consideri l'esempio seguente dovuto a Anscombe, F. J. (1973) Graphs in statistical
analysis, American Statistician, 27, 17{21. L'autore ha inventato quattro insiemi di dati:
1 2 3 4
x y x y x y x y
10 8.04 10 9.14 10 7.46 8 6.58
8 6.95 8 8.14 8 6.77 8 5.76
13 7.58 13 8.74 13 12.74 8 7.71
9 8.81 9 8.77 9 7.11 8 8.84
11 8.33 11 9.26 11 7.81 8 8.47
14 9.96 14 8.10 14 8.84 8 7.04
6 7.24 6 6.13 6 6.08 8 5.25
4 4.26 4 3.10 4 5.39 8 5.56
12 10.84 12 9.13 12 8.15 8 7.91
7 4.82 7 7.26 7 6.42 8 6.89
5 5.68 5 4.74 5 5.73 19 12.50
per ciascuno dei quali gli indici statistici fondamentali sono gli stessi e cioe'
X = 9; X2 = 10
Y = 7:5 Y2 = 3:75
XY = 5
R2 = 0:67
y^ = 3 + 0:5x
Cio' nonostante, guardando gli scatter sotto riportati ci si rende conto che gli indici nascon-
dono delle situazioni molto diverse tra loro.
Nel graco in alto a sinistra eettivamente i residui non hanno un struttura sistematica e
dunque la retta adattata appare adeguata al ne di riassumere la dipendenza di Y da X .
Nel graco in alto a destra, invece, i residui mettono in evidenza una curvatura marcata
e suggeriscono una funzione di regressione non monotona.
Nel graco in basso a sinistra, c'e' evidenza di un unico valore atipico che fa crescere la
pendenza della retta interpolata. Pertanto, in questo caso il modello lineare e' correttamente
specicato, ma un unico dato atipico disturba l'adattamento. Rimuovendo quel solo punto
l'adattamento e' perfetto con un R2 = 1:
143
10
11
10
9
8
9
7
8
y
y
6
7
5
6
4
5
3
4
4 6 8 10 12 14 4 6 8 10 12 14
x x
14
14
12
12
10
10
y
y
8
8
6
6
4
4 6 8 10 12 14 8 10 12 14 16 18 20
x x
Inne, nel graco in basso a destra la situazione e' del tutto patologica, nel senso che la
distribuzione di X e' costante, con l'eccezione di un unico valore. Rimuovendo l'unico punto
a destra la varianza di X e' zero e dunque risulta impossibile adattare una retta ai dati.
dattare una retta ai dati.
144
SETTIMANA 12
Campioni casuali e probabilita'
Gran parte dei concetti spiegati no ad ora fanno parte della cosiddetta statistica descrittiva.
La statistica descrittiva raccoglie quel complesso di tecniche destinate a descrivere una popo-
lazione avendo a disposizione tutti i dati che la compongono. Nelle lezioni di questa e delle
prossime settimane discuteremo invece di inferenza statistica.
12.1 Introduzione
567. Che cos'e' l'inferenza statistica?
Il problema dell'inferenza statistica e' quello di descrivere la popolazione quando non si
dispone di tutti i dati che compongono la sua distribuzione, ma solo di una parte di essa. In
italiano la parola inferenza ha un signicato piu' generale. Lo Zingarelli riporta le denizioni
seguenti.
Inferenza: processo logico per il quale, da una o piu' premesse, e' possibile trarre una
conclusione.
Inferenza statistica: procedimento di generalizzazione dei risultati ottenuti mediante una
rilevazione parziale per campioni.
Pertanto, l'inferenza statistica e' collegata col processo di induzione.
Induzione: procedimento logico che consiste nel ricavare da osservazioni e esperienze
particolari i principi generali in esse impliciti.
(a) Prima delle elezioni e' d'uso sondare l'opinione di un campione di elettori per conoscere
in anticipo i risultati. Il campione raccoglie un sottoinsieme della popolazione degli elettori.
Il problema di prevedere i risultati senza disporre dei dati denitivi, ma solo di uno spoglio
parziale e' un problema di inferenza statistica.
(b) Tutti i processi produttivi moderni hanno una fase di controllo di qualita'. Ad esem-
pio, i condizionatori d'aria montati sugli aerei di linea sono prodotti in serie e sottostanno a
145
146
un certo numero di controlli. Dopo quanto tempo avviene il primo guasto? Per avere una
indicazione di questo tempo si fanno funzionare ininterrottamente un certo numero di con-
dizionatori e si registra dopo quanto tempo si guastano. E' ovvio che non e' possibile fare
una rilevazione di questo dato su tutti i condizionatori prodotti. Stimare dopo quanto tempo
(in media) avviene il primo guasto per tutti i condizionatori facendo un controllo solo su un
campione e' un problema di inferenza statistica.
(c) Il tasso di disoccupazione e' un dato economico estremamente importante. Il tasso
di disoccupazione varia continuamente in dipendenza di un gran numero di fattori. Come si
fanno ad ottenere dati continuamente aggiornati sul tasso di disoccupazione? Non e' conve-
niente procedere con dei censimenti sistematici su tutta la forza lavoro, a causa dei costi. E'
possibile tuttavia ricorrere a campioni estratti dall'intera popolazione. L'istat svolge infatti
un'indagine trimestrale sulle forze di lavoro, rilevando sia coloro che fanno parte delle forze
di lavoro sia coloro che non ne fanno parte. Inoltre, quelli che ne fanno parte vengono sud-
divisi a seconda che siano occupati, disoccupati e in cerca di prima occupazione. L'indagine
campionaria delle forze di lavoro si propone di dare una stima del tasso di disoccupazione
eettivo per tutta l'Italia al momento della rilevazione, pur disponendo di dati parziali.
(d) Il fumo e' pericoloso per la salute? La ricerca medica negli anni piu' recenti ha cercato
di dimostrare anche statisticamente che i tumori all'apparato respiratorio sono \causati"
dal fumo. La dimostrazione statistica e' basata sul ragionamento seguente. Esistono due
popolazioni, quella dei fumatori e quella dei non fumatori. Se la proporzione di tumori e'
\signicativamente" maggiore per la seconda popolazione, allora dobbiamo concludere che il
fumo e' un fattore di rischio. Come si fa a vericare che la proporzione di tumori e' maggiore
per l'intera popolazione dei fumatori? Si osservi infatti che tale popolazione e' innita perche'
comprende tutti gli esseri umani (anche coloro che devono ancora nascere). La tecnica usata
dagli statistici consiste nell'estrarre due campioni, uno dalla popolazione dei non fumatori e
uno dalla popolazione dei fumatori e quindi nel confrontare le proporzioni di tumori nei due
campioni. Il confronto viene quindi esteso opportunamente alle due popolazioni, utilizzando
le tecniche dell'inferenza statistica.
569. Che distinzione fondamentale si puo' tracciare tra popolazioni oggetto di indagini
campionarie?
Vi sono popolazioni nite e popolazioni innite. Nell'esempio del sondaggio elettorale
la popolazione e' l'insieme nito degli aventi diritto al voto. In altri esempi (quello dei
condizionatori e quello del fumo) la popolazione non e' ben identicabile perche' e' potenziale
e teoricamente innita. Nelle popolazioni nite, nei casi migliori, si ha la lista completa delle
unita' componenti.
570. Che cos'e' un campione?

Si chiama campione un qualsiasi sottoinsieme di unita' della popolazione. Si osservi che
un campione contiene piu' unita'. Non si dice: \ho estratto 100 campioni dalla popolazione",
ma \ho estratto un campione di dimensione 100 (o di numerosita' 100) dalla popolazione".
I dati del campione si chiamano dati campionari. Tutti gli indici statistici calcolati sui dati
147
del campione possono essere qualicati come campionari: ad esempio, la media campionaria
si distingue dalla media della popolazione.
571. In generale, le conclusioni ottenute dai dati campionari sono valide per l'intera popo-
lazione?
In generale, non e' possibile estendere i risultati, perche' la rilevazione campionaria e'
parziale. Ci aspettiamo percio' che le statistiche campionarie siano diverse dalle corrispondenti
statistiche a livello della popolazione di un ammontare imprecisato. Le statistiche campionarie
sono percio' aette da errore.
572. A che cosa e' dovuto l'errore?

L'errore puo' essere (a) campionario e (b) non campionario.
573. Qual'e' l'errore campionario?

E' l'errore dovuto al fatto che la rilevazione e' parziale e non completa.
574. Qual'e' l'errore non campionario?

E' l'errore che non e' dovuto al fatto che la rilevazione e' parziale, ma ad altre cause. Tale
errore, quindi, si potrebbe manifestare anche se la rilevazione fosse completa. Esempi di errori
non campionari sono gli errori dovuti alla difettosa denizione delle unita' della popolazione,
gli errori dovuti all'inesperienza dei rilevatori, gli errori materiali di scrittura dei dati. Questi
errori sono a volte molto rilevanti proprio nei censimenti.
575. L'errore si puo' misurare?

L'errore non campionario e' molto dicile da valutare.
Se il campione e' casuale l'errore campionario si puo' misurare.
Se il campione non e' casuale l'errore campionario e' ignoto.
12.2 Campioni casuali
Nel seguito supporremo di avere a che fare con rilevazioni campionarie in cui l'errore non
campionario e' assente.
In questo paragrafo vogliamo dimostrare l'aermazione fatta in precedenza secondo cui
l'errore campionario si puo' misurare solo se il campione e' estratto casualmente. In questo
caso l'inferenza statistica e' possibile.
576. Per dare un idea concreta dei concetti di campione e di popolazione si osservi la
popolazione ttizia seguente composta di 100 elettori dei quali 25 votano la sinistra e 75 la
destra.
148
D D D D D D D D D D
D D D D D D D D D D
D D D D D D D D D D
D D D D D D D D D D
D D D D D D D D D D
D D D D D D D D D D
D D D D D D D D D D
S S S S S D D D D D
S S S S S S S S S S
S S S S S S S S S S
Supponiamo di voler estrarre un campione di 34 elettori per stimare la proporzione di votanti

per la sinistra nella popolazione. La proporzione vera a livello della popolazione e' ovviamente
0.25. Il campione puo' essere estratto in modi diversi. La gura seguente illustra alcune
possibilita'.
D D D D D D D D D D D D D D D D D D D D
S S S S S D D D D D S S S S S D D D D D
S S S S S S S S S S S S S S S S S S S S
Proporzione di S = 0.76 Proporzione di S = 0
S S S S S D D D D D S S S S S D D D D D
Proporzione di S = 0.24 Proporzione di S = 0.29
Tutti i campioni hanno una dimensione n = 34. I primi due campioni in alto sono scelti
estraendo delle unita' contigue. Gli altri due in basso sono estratti casualmente. Sotto ogni
gura e' riportata la proporzione di votanti per la sinistra nel campione. In alcuni casi la
proporzione stimata e' grossolanamente errata. La scelta casuale, invece, fa in modo che
le unita' selezionate siano uniformemente distribuite nelle popolazione. Di conseguenza, la
149
proporzione di votanti per la sinistra nel campione pur essendo diversa da 0.25, e' vicina
a questo valore. Il punto importante non e' tanto che la proporzione stimata nei campioni
casuali e' vicina al vero, ma che e' possibile sapere di quanto e' errata. Esiste infatti una
relazione tra l'errore e la dimensione del campione.
Con altri metodi, per quanto intelligenti, non e' possibile sapere l'ordine di grandezza
dell'errore.
577. Un metodo, utilizzato spesso in passato, e' il campionamento per quote. L'idea e' quella
di costruire un campione che riproduca la popolazione in alcune caratteristiche importanti
che si pensano collegate al voto, assegnando agli intervistatori delle `quote' di interviste dei
vari tipi da fare, ma per il resto, lasciando ad essi liberta' di scelta.
578. Ad esempio, supponiamo di sapere che il voto e' associato all'eta': gli elettori con
un'eta' maggiore o uguale a 30 anni tendono a votare per la destra. Supponiamo che nella
popolazione vi sia la situazione seguente:
Eta'
Voto <30 30+ Totale
D 15 60 75
S 15 10 25
Totale 30 70 100
Ovviamente, non possiamo conoscere le frequenze interne alla tavola, ma e' noto che vi e'
associazione tra il voto e l'eta'. Ne' si conosce il totale di votanti per la destra e la sinistra,
perche' e' proprio cio' che si vuole stimare. Tuttavia, supponiamo di conoscere, da un recente
censimento, il numero di elettori di eta' inferiore a 30 e il numero di elettori di eta' superiore
a 30, sappiamo cioe' che il 30% della popolazione e' `giovane' e il 70% della popolazione
e' `vecchio'. Pertanto, decidiamo di costruire un campione che rispetti questa proporzione e,
siccome dobbiamo estrarre un campione di n = 34 elementi, facciamo in modo che il campione
contenga 10 `giovani' e 24 `vecchi' (10 e' circa il 30% di 34). Cio' fatto, siamo liberi di scegliere
chi vogliamo purche' nel campione alla ne compaiano 10 `giovani' e 24 `vecchi'.
Ora, questa prescrizione non e' miracolosa, perche' non impedisce che avvengano distor-
sioni a favore della destra o della sinistra. Per esempio, supponiamo che gli elettori di sinistra
siano piu' facili da trovare e che gli elettori di destra siano piu' scorbutici. L'intervistatore
scegliera' i 10 `giovani' includendo troppi votanti di sinistra e i 24 `vecchi' includendo, anche in
questo caso, troppi votanti di sinistra semplicemente perche' l'intervistatore tende a scegliere
chi (avendo le caratteristiche prescritte) consente di concludere prima le interviste.
Pertanto, il campione tende a essere composto complessivamente da una proporzione
troppo alta di votanti di sinistra, portando a una distorsione della stima. Si osservi che
l'ammontare della distorsione non e' noto e non si puo' controllare.
579. 1I candidati alle elezioni presidenziali del 1948 negli Stati Uniti erano Truman (de-
mocratico), Dewey (repubblicano), Thurmond e Wallace. I sondaggi di tre agenzie (Crossley,
L'esempio seguente e' ripreso da Freedman D., Pisani R., Purves R. e Adhikari A. (1991) Statistics, Norton,
1
New York.
150
Gallup e Roper) dettero favorito Dewey. I risultati delle elezioni assegnarono invece la vittoria
a Truman, con una percentuale nettamente diversa da quella prevista dai sondaggi.
Candidati Crossley Gallup Roper Risultati definitivi
Truman 45 44 38 50
Dewey 50 50 53 45
Thurmond 2 2 5 3
Wallace 3 4 4 2
Il metodo di campionamento usato allora era il campionamento per quota. Ogni intervista-
tore doveva rispettare delle quote sse di soggetti da intervistare a seconda del sesso, della
residenza, dell'eta', della razza e dello stato economico. In tal modo il campione nale rispec-
chiava la struttura della popolazione (nota dal censimento) per quanto riguardava i caratteri
elencati. A parte il vincolo appena spiegato ogni intervistatore era libero di scegliere i soggetti
che voleva.
La scelta soggettiva degli intervistatori e' stata la causa della distorsione del campione a
favore di Dewey, cioe' dei Repubblicani. Infatti, i Repubblicani, nel 48, avevano un grado
di istruzione piu' elevato, erano in media piu' ricchi dei Democratici era piu' probabile che
avessero un telefono e una residenza stabile. Pertanto, in conclusione, i Repubblicani erano
piu' facili da trovare e da intervistare dei Democratici. Questo fu precisamente cio' che causo'
la distorsione a favore di Dewey nei campioni per quota del 1948.
Dopo il 1948 tutte le agenzie statistiche passarono al campionamento casuale nelle loro
indagini. Questa tecnica ha permesso di eliminare la distorsione non intenzionale tipica del
campionamento per quota.
580. Che cos'e' un campione casuale?
E' un campione costruito selezionando le unita' dalla popolazione secondo una procedura
ben denita che comporta l'utilizzazione di un sorteggio. Nei campioni casuali semplici ogni
unita' della popolazione ha la stessa probabilita' di essere sorteggiata, come in una lotteria.
581. Corrisponde a includere le unita' nel campione scegliendole a caso?
L'espressione à caso' e' imprecisa se non si specica esattamente il suo signicato. Ad
esempio, un campione di studenti della facolta' costruito includendo i primi 50 studenti che
arrivano la mattina da' l'impressione di essere casuale, ma non lo e' nel senso sopra descritto.
In un campione casuale semplice deve essere possibile aermare che ogni unita' della popola-
zione (di studenti, in questo caso) ha la stessa probabilita' di far parte del campione. In questo
caso sembra dicile aermare che uno studente che non frequenta ha la stessa probabilita' di
essere scelto di uno che frequenta.
582. Come si realizza una estrazione causale?
Con un meccanismo di sorteggio tipo ùrna rotante' del Lotto, o similare. Lo strumento
tipico e' un urna piena di palline numerate, tante quante sono le unita' della popolazione,
tutte dello stessa dimensione e peso. Se l'urna e' continuamente mescolata e viene estratta
una pallina, ogni pallina ha la stessa probabilita' di essere estratta.
151
583. Se la popolazione e' composta di migliaia di unita', la tecnica dell'urna sembra scomo-
da. Come si procede allora?
Si usano le tavole dei numeri casuali oppure dei generatori di numeri pseudo-causali
simulati da un computer.
584. Che cosa sono le tavole dei numeri casuali?

E' una raccolta di milioni di numeri da 0 a 9 estratti con il procedimento dell'urna ogni
volta reinserendo il numero estratto. Con questa tecnica i numeri da 0 a 9 hanno (circa) la
stessa frequenza nella tavola. Non solo, ma anche i numeri da 0 a 99 hanno la stessa frequenza
e cosi' i numeri da 0 a 999, etc.
Volendo estrarre un numero di tre cifre, basta prima estrarre a caso una riga e una colonna
di partenza (con qualche metodo semplice) e quindi prendere tre cifre contigue.
2 7 0 9 2 7 2 9 6 7 0 9 2 9 3 6 6 2 0 8 1 8 0 1 5 4 5 0 7 1 5 4 8 2 5 4 3 8 3 4
8 5 1 0 0 9 5 3 7 9 9 7 5 2 3 8 3 3 2 7 1 2 7 3 8 7 9 0 2 0 1 5 0 8 1 3 8 2 5 4
9 6 1 6 5 0 0 0 2 4 0 3 7 3 1 3 1 7 5 0 0 8 3 3 7 7 1 5 1 3 6 5 7 1 8 7 7 3 2 3
6 5 5 1 2 7 6 7 5 8 8 9 8 8 8 1 8 9 7 6 2 9 0 0 8 0 7 1 2 3 2 0 1 8 3 3 7 7 6 4
9 2 0 7 2 6 4 2 5 3 1 9 6 3 5 3 6 6 9 1 8 4 7 4 2 7 0 8 9 9 0 1 6 3 9 9 9 2 6 3
4 9 9 3 4 7 3 3 8 7 3 2 1 6 0 5 4 3 0 1 7 5 8 8 0 0 4 9 9 6 9 4 8 1 6 7 6 8 8 7
8 3 0 1 3 2 9 6 0 3 9 0 8 9 1 5 3 3 8 0 9 2 6 3 8 3 3 7 8 3 5 3 5 8 2 8 4 1 1 1
9 1 3 0 5 6 2 2 1 2 1 2 5 6 5 8 8 2 8 2 2 4 7 7 0 3 4 2 3 5 5 5 9 6 2 6 1 3 5 7
3 0 6 1 9 1 5 5 7 2 3 4 5 1 3 1 1 3 3 9 7 7 8 3 6 1 8 7 9 2 3 1 8 9 4 2 0 5 1 9
6 8 0 6 8 9 9 9 1 2 1 3 4 4 8 6 7 2 9 6 1 5 2 9 1 8 5 3 5 8 7 1 3 1 1 7 4 5 7 2
2 9 3 2 1 0 0 0 9 6 4 7 8 4 4 8 5 3 8 6 6 5 0 0 5 3 8 5 0 0 2 5 9 9 1 0 3 3 6 8
4 4 1 0 3 6 3 4 0 5 5 0 1 1 9 8 9 7 2 4 7 5 1 6 6 7 4 3 7 6 7 2 4 4 2 2 1 1 2 4
3 9 8 2 2 0 6 7 7 3 5 7 4 5 3 1 4 3 1 6 6 1 4 3 1 2 4 4 7 3 0 6 6 9 1 7 8 5 3 0
3 8 9 0 9 6 8 9 9 5 6 0 2 3 7 6 1 8 6 7 9 0 7 9 1 5 2 3 1 9 6 0 2 5 9 9 4 7 6 6
2 6 4 1 1 8 2 2 6 1 2 1 4 3 3 3 4 9 2 9 8 4 8 2 4 5 0 6 5 6 8 2 2 6 3 6 0 7 2 1
4 5 7 0 0 7 6 1 9 3 2 1 0 6 7 8 4 7 5 9 8 5 2 9 7 9 4 3 3 0 1 3 4 6 4 2 6 4 5 7
0 3 1 3 7 1 8 9 4 7 7 8 2 2 3 4 4 5 9 1 3 7 8 2 5 3 6 0 3 6 9 1 6 4 7 5 7 3 7 3
6 2 3 8 7 8 0 8 4 6 9 7 6 5 8 8 9 5 9 5 8 2 1 7 5 8 0 7 8 8 2 0 1 7 9 9 0 7 5 2
9 7 6 9 0 4 7 3 4 0 8 0 7 8 5 0 0 8 1 4 8 6 7 2 4 9 6 9 8 3 0 2 2 8 0 0 5 6 0 6
8 2 0 3 8 7 0 2 5 3 6 7 9 0 8 5 1 5 8 4 1 4 0 9 4 1 1 7 6 9 2 5 1 5 4 0 2 4 6 0
8 3 1 4 0 2 1 3 6 6 1 9 5 5 0 8 0 5 2 6 6 7 3 0 0 1 9 1 6 0 4 2 0 5 4 9 8 5 9 4
0 8 8 7 7 8 5 0 6 1 3 7 7 7 5 7 5 4 6 2 8 8 0 3 2 9 0 4 8 6 2 3 6 1 2 6 9 5 4 1
4 0 4 9 6 5 3 8 9 9 7 7 6 4 3 2 7 2 9 1 5 7 7 3 4 5 4 1 5 8 0 1 6 8 2 0 9 2 7 2
7 8 2 6 1 8 4 7 9 3 1 8 4 6 3 2 0 0 6 3 0 8 6 8 5 1 3 5 8 7 5 0 2 3 5 6 4 3 4 9
3 1 6 9 9 5 8 5 4 3 2 6 8 7 7 3 1 3 4 4 4 5 5 7 5 2 2 2 6 2 1 1 2 0 6 0 2 3 2 7
2 7 9 7 4 7 1 5 6 5 2 0 0 1 5 6 4 4 5 5 8 9 5 3 5 1 3 5 7 1 1 5 2 8 6 4 8 4 2 6
9 5 4 2 1 3 9 0 4 5 1 9 8 7 8 7 7 4 2 0 6 6 5 3 0 2 2 3 0 0 2 1 8 0 4 0 7 3 0 1
2 7 9 8 3 4 2 1 2 9 9 3 1 5 8 0 8 8 9 2 7 1 6 9 6 6 9 1 2 2 2 1 6 1 0 3 2 4 8 4
5 5 2 0 8 0 2 8 2 2 9 3 9 9 9 9 6 5 7 5 7 4 8 9 4 2 9 0 3 7 1 6 1 6 9 3 6 3 2 5
5 1 2 8 4 0 2 4 3 1 9 6 9 6 6 3 3 9 7 8 8 8 8 6 6 7 3 8 2 6 9 1 4 0 1 2 8 9 4 5
8 0 0 3 1 1 1 0 9 6 7 9 8 0 3 0 6 2 6 6 6 5 3 1 1 9 2 6 2 5 4 5 5 5 0 6 5 0 9 1
6 4 9 0 4 7 0 6 3 1 8 4 6 7 7 1 3 4 7 3 5 3 7 1 5 4 8 1 9 4 0 1 6 8 0 3 1 9 3 6
3 4 7 5 4 8 5 3 1 7 2 4 2 0 0 7 1 9 6 0 2 1 8 5 6 0 6 3 2 4 3 4 0 6 5 1 8 0 9 5
2 1 0 1 5 5 3 5 7 0 0 7 7 2 5 1 8 1 1 9 6 0 1 1 6 1 3 0 9 0 3 6 8 2 5 8 3 2 9 0
3 1 4 9 4 1 6 1 3 9 8 8 5 0 4 8 4 1 0 5 2 8 9 8 2 4 4 2 5 0 9 0 6 1 8 3 9 7 9 8
3 9 7 7 5 0 0 8 3 9 4 1 4 3 5 2 5 5 8 0 2 9 4 8 2 0 1 5 4 6 4 7 4 8 6 8 5 0 2 7
2 5 4 4 3 8 4 0 3 9 7 5 6 0 0 9 2 0 5 9 7 7 8 3 6 7 9 5 9 7 8 0 7 4 7 9 8 1 3 4
6 9 4 0 0 4 9 9 7 6 4 2 3 5 0 2 4 7 8 4 6 5 1 5 6 9 0 7 8 5 7 9 3 9 9 9 5 1 7 5
6 0 1 1 7 2 8 5 7 9 3 7 8 4 1 5 7 9 9 2 7 9 3 1 6 2 3 8 8 4 5 7 2 0 6 3 8 1 0 1
4 1 9 8 5 8 7 7 7 7 3 2 0 2 7 5 8 2 5 4 8 5 7 2 8 4 5 3 9 1 3 1 3 6 2 6 1 8 9 7
585. Quali sono le caratteristiche fondamentali dei campioni casuali?

(a) La scelta degli elementi del campione non dipende dall'intervistatore, ma da un mec-
canismo aleatorio (cioe' casuale) controllato. (b) Ogni elemento della popolazione ha una
precisa e pressata probabilita' di entrare nel campione. (c) E' necessario possedere la lista
completa delle unita' della popolazione.
586. Quali sono gli schemi fondamentali del campionamento casuale?

Sono due. Il campionamento casuale semplice con ripetizione e il campionamento casuale
semplice senza ripetizione.
587. Che cos'e' il campionamento casuale semplice con ripetizione?

152
E' il campione di n elementi estratto da una popolazione di N elementi (N > n) ottenuto

con lo schema sequenziale seguente: si estrae casualmente dalla popolazione di N elementi
una unita', e questa viene reinserita nella popolazione; quindi si estrae nuovamente dalla
popolazione di N elementi una nuova unita' e anche questa viene reinserita, e cosi' via. In
questo modo nel campione puo' capitare la stessa unita' piu' di una volta. Inoltre, il campione
potrebbe avere una numerosita' maggiore di quella della popolazione.
Questo procedimento puo' essere realizzato con la tavola dei numeri casuali scegliendo i
primi n numeri utili a partire da un punto a caso. Per esempio, dovendo scegliere un campione
di 10 elementi da una popolazione di 410 unita' si scelgono, partendo come detto da una riga
e una colonna casuali, i primi 10 numeri di tre cifre minori o uguali a 410. La gura seguente
illustra il procedimento che porta all'estrazione delle unita' numero 96, 405, 261, 193, 340,
253, 366, 61, 45, 129.
2 7 0 9 2 7 2 9 6 7 0 9 2 9 3 6 6 2 0 8 1 8 0 1 5 4 5 0 7 1 5 4 8 2 5 4 3 8 3 4
8 5 1 0 0 9 5 3 7 9 9 7 5 2 3 8 3 3 2 7 1 2 7 3 8 7 9 0 2 0 1 5 0 8 1 3 8 2 5 4
9 6 1 6 5 0 0 0 2 4 0 3 7 3 1 3 1 7 5 0 0 8 3 3 7 7 1 5 1 3 6 5 7 1 8 7 7 3 2 3
6 5 5 1 2 7 6 7 5 8 8 9 8 8 8 1 8 9 7 6 2 9 0 0 8 0 7 1 2 3 2 0 1 8 3 3 7 7 6 4
9 2 0 7 2 6 4 2 5 3 1 9 6 3 5 3 6 6 9 1 8 4 7 4 2 7 0 8 9 9 0 1 6 3 9 9 9 2 6 3
4 9 9 3 4 7 3 3 8 7 3 2 1 6 0 5 4 3 0 1 7 5 8 8 0 0 4 9 9 6 9 4 8 1 6 7 6 8 8 7
8 3 0 1 3 2 9 6 0 3 9 0 8 9 1 5 3 3 8 0 9 2 6 3 8 3 3 7 8 3 5 3 5 8 2 8 4 1 1 1
9 1 3 0 5 6 2 2 1 2 1 2 5 6 5 8 8 2 8 2 2 4 7 7 0 3 4 2 3 5 5 5 9 6 2 6 1 3 5 7
3 0 6 1 9 1 5 5 7 2 3 4 5 1 3 1 1 3 3 9 7 7 8 3 6 1 8 7 9 2 3 1 8 9 4 2 0 5 1 9
6 8 0 6 8 9 9 9 1 2 1 3 4 4 8 6 7 2 9 6 1 5 2 9 1 8 5 3 5 8 7 1 3 1 1 7 4 5 7 2
2 9 3 2 1 0 0 0 9 6 4 7 8 4 4 8 5 3 8 6 6 5 0 0 5 3 8 5 0 0 2 5 9 9 1 0 3 3 6 8
4 4 1 0 3 6 3 4 0 5 5 0 1 1 9 8 9 7 2 4 7 5 1 6 6 7 4 3 7 6 7 2 4 4 2 2 1 1 2 4
3 9 8 2 2 0 6 7 7 3 5 7 4 5 3 1 4 3 1 6 6 1 4 3 1 2 4 4 7 3 0 6 6 9 1 7 8 5 3 0
3 8 9 0 9 6 8 9 9 5 6 0 2 3 7 6 1 8 6 7 9 0 7 9 1 5 2 3 1 9 6 0 2 5 9 9 4 7 6 6
2 6 4 1 1 8 2 2 6 1 2 1 4 3 3 3 4 9 2 9 8 4 8 2 4 5 0 6 5 6 8 2 2 6 3 6 0 7 2 1
4 5 7 0 0 7 6 1 9 3 2 1 0 6 7 8 4 7 5 9 8 5 2 9 7 9 4 3 3 0 1 3 4 6 4 2 6 4 5 7
0 3 1 3 7 1 8 9 4 7 7 8 2 2 3 4 4 5 9 1 3 7 8 2 5 3 6 0 3 6 9 1 6 4 7 5 7 3 7 3
6 2 3 8 7 8 0 8 4 6 9 7 6 5 8 8 9 5 9 5 8 2 1 7 5 8 0 7 8 8 2 0 1 7 9 9 0 7 5 2
9 7 6 9 0 4 7 3 4 0 8 0 7 8 5 0 0 8 1 4 8 6 7 2 4 9 6 9 8 3 0 2 2 8 0 0 5 6 0 6
8 2 0 3 8 7 0 2 5 3 6 7 9 0 8 5 1 5 8 4 1 4 0 9 4 1 1 7 6 9 2 5 1 5 4 0 2 4 6 0
8 3 1 4 0 2 1 3 6 6 1 9 5 5 0 8 0 5 2 6 6 7 3 0 0 1 9 1 6 0 4 2 0 5 4 9 8 5 9 4
0 8 8 7 7 8 5 0 6 1 3 7 7 7 5 7 5 4 6 2 8 8 0 3 2 9 0 4 8 6 2 3 6 1 2 6 9 5 4 1
4 0 4 9 6 5 3 8 9 9 7 7 6 4 3 2 7 2 9 1 5 7 7 3 4 5 4 1 5 8 0 1 6 8 2 0 9 2 7 2
7 8 2 6 1 8 4 7 9 3 1 8 4 6 3 2 0 0 6 3 0 8 6 8 5 1 3 5 8 7 5 0 2 3 5 6 4 3 4 9
3 1 6 9 9 5 8 5 4 3 2 6 8 7 7 3 1 3 4 4 4 5 5 7 5 2 2 2 6 2 1 1 2 0 6 0 2 3 2 7
2 7 9 7 4 7 1 5 6 5 2 0 0 1 5 6 4 4 5 5 8 9 5 3 5 1 3 5 7 1 1 5 2 8 6 4 8 4 2 6
9 5 4 2 1 3 9 0 4 5 1 9 8 7 8 7 7 4 2 0 6 6 5 3 0 2 2 3 0 0 2 1 8 0 4 0 7 3 0 1
2 7 9 8 3 4 2 1 2 9 9 3 1 5 8 0 8 8 9 2 7 1 6 9 6 6 9 1 2 2 2 1 6 1 0 3 2 4 8 4
5 5 2 0 8 0 2 8 2 2 9 3 9 9 9 9 6 5 7 5 7 4 8 9 4 2 9 0 3 7 1 6 1 6 9 3 6 3 2 5
5 1 2 8 4 0 2 4 3 1 9 6 9 6 6 3 3 9 7 8 8 8 8 6 6 7 3 8 2 6 9 1 4 0 1 2 8 9 4 5
8 0 0 3 1 1 1 0 9 6 7 9 8 0 3 0 6 2 6 6 6 5 3 1 1 9 2 6 2 5 4 5 5 5 0 6 5 0 9 1
6 4 9 0 4 7 0 6 3 1 8 4 6 7 7 1 3 4 7 3 5 3 7 1 5 4 8 1 9 4 0 1 6 8 0 3 1 9 3 6
3 4 7 5 4 8 5 3 1 7 2 4 2 0 0 7 1 9 6 0 2 1 8 5 6 0 6 3 2 4 3 4 0 6 5 1 8 0 9 5
2 1 0 1 5 5 3 5 7 0 0 7 7 2 5 1 8 1 1 9 6 0 1 1 6 1 3 0 9 0 3 6 8 2 5 8 3 2 9 0
3 1 4 9 4 1 6 1 3 9 8 8 5 0 4 8 4 1 0 5 2 8 9 8 2 4 4 2 5 0 9 0 6 1 8 3 9 7 9 8
3 9 7 7 5 0 0 8 3 9 4 1 4 3 5 2 5 5 8 0 2 9 4 8 2 0 1 5 4 6 4 7 4 8 6 8 5 0 2 7
2 5 4 4 3 8 4 0 3 9 7 5 6 0 0 9 2 0 5 9 7 7 8 3 6 7 9 5 9 7 8 0 7 4 7 9 8 1 3 4
6 9 4 0 0 4 9 9 7 6 4 2 3 5 0 2 4 7 8 4 6 5 1 5 6 9 0 7 8 5 7 9 3 9 9 9 5 1 7 5
6 0 1 1 7 2 8 5 7 9 3 7 8 4 1 5 7 9 9 2 7 9 3 1 6 2 3 8 8 4 5 7 2 0 6 3 8 1 0 1
4 1 9 8 5 8 7 7 7 7 3 2 0 2 7 5 8 2 5 4 8 5 7 2 8 4 5 3 9 1 3 1 3 6 2 6 1 8 9 7
588. Si osservi che nella tavola dei numeri casuali puo' capitare di estrarre la stessa unita'
piu' volte.
589. Come si realizza il campionamento casuale semplice senza ripetizione?
Si utilizza lo schema sequenziale seguente: si estrae casualmente dalla popolazione di N
elementi una unita' e questa viene tenuta fuori dalla popolazione; quindi si estrae casualmente
dalla popolazione degli N ; 1 elementi rimasti una nuova unita', e anche questa viene tenuta
fuori, e cosi' via. Cosi' il campione ottenuto e' composto di unita' tutte diverse. Anche
questo procedimento puo' essere realizzato con la tavola dei numeri casuali scegliendo i primi
n numeri utili senza considerare le eventuali ripetizioni.
590. Qual'e' l'insieme dei possibili campioni casuali semplici con ripetizione?
153
E' l'insieme di tutte le N -uple di numeri da 1 a N . In totale ci sono N n campioni con

ripetizione. Per esempio, se N = 4 e n = 2 ci sono 16 possibili campioni con ripetizione
elencati sotto.
1 1 1 2 1 3 1 4
2 1 2 2 2 3 2 4
3 1 3 2 3 3 3 4
4 1 4 2 4 3 4 4
591. Qual'e' l'insieme dei possibili campioni casuali senza ripetizione?

E'; l'insieme

di tutti i possibili sottoinsiemi di n elementi presi f1; 2; : : :; N g: In totale ci
sono Nn possibili campioni senza ripetizione. Per esempio, se N e' ancora uguale a 4 e n = 2,
tutti i possibili campioni senza ripetizione sono i seguenti 6.
1 2 1 3 1 4
2 3 2 4
3 4
592. Qual'e' la caratteristica dei campioni casuali semplici (con ripetizione o senza)?
Si puo' dimostrare che tutti i possibili campioni hanno la stessa probabilita' di essere
estratti.
593. Che tipi di campionamento casuale esistono oltre il campionamento casuale semplice?
Vi sono molti schemi di campionamento casuale. I piu' utilizzati sono il campionamento
straticato e il campionamento a due stadi.
594. Come si realizza un campione casuale straticato?

Si suddivide la popolazione in un certo numero di strati, cioe' in sottopopolazioni (ad
esempio, maschi e femmine), quindi da ciascuno strato si estrae un campione casuale semplice.
595. Come si realizza un campione a due stadi?

Si suddivide la popolazione in un certo numero di sottoinsiemi di unita' contigue (per
esempio, le famiglie, in un indagine sulle persone o le classi in una indagine sugli studenti;
i quartieri in una indagine sulle abitazioni). Tali sottoinsiemi si dicono grappoli. Quindi si
fanno due estrazioni: nel primo stadio si estrae un campione casuale di grappoli e nel secondo
stadio si estraggono casualmente da ogni grappolo un certo numero di unita'.
596. Quali sono i vantaggi del campionamento a due stadi?

(a) Spesso non si dispone della lista completa delle unita' elementari e per questo tipo di
campionamento basta procurarsi la lista delle unita' elementari dei grappoli. (b) La rilevazione
per le unita' estratte e' piu' facile perche' le unita' di un grappolo sono spazialmente vicine.
154
597. I campioni casuali sono stati usati nei sondaggi della Gallup a partire dal 1948 con
buoni risultati. I campioni usano una combinazione del metodo della straticazione e del
campionamento a piu' stadi.
I risultati dei sondaggi Gallup dal 1948 al 1988 sono riportati nella tabella seguente.
Anno Dimensione Vincente Previsione Risultato Errore
1952 5385 Eisenhower 51.0 55.4 +4.4%
1956 8144 Eisenhower 59.5 57.8 -1.7%
1960 8015 Kennedy 51.0 50.1 +0.9%
1964 6625 Johnson 64.0 61.3 +2.7%
1968 4414 Nixon 43.0 43.5 +0.5%
1972 3689 Nixon 62.0 61.8 -0.2%
1976 3439 Carter 49.5 51.1 -1.6%
1980 3500 Reagan 55.3 51.6 -3.7%
1984 3456 Reagan 59.0 59.2 +0.2%
1988 4089 Bush 56.0 53.9 -2.1%
La dimensione campionaria e' diminuita di quasi dieci volte. Non c'e' piu' una distorsione a
favore dei Repubblicani o dei Democratici. La precisione della stima e' migliorata sensibil-
mente: dal 1936 al 1948 gli errori erano circa del 5%, mentre dopo il 48 si sono abbassati
alquanto.
12.3 Probabilita'
Alla base dell'estrazione di un campione casuale sta il concetto di probabilita': il meccani-
smo dell'urna assegna ad ogni unita' la stessa probabilita' di venir estratta. E' importante,
pertanto, conoscere gli elementi fondamentali del calcolo delle probabilita' per valutare la
probabilita' che i risultati ottenuti dal campione si avvicinino a quelli reali, cioe' a quelli della
popolazione.
I concetti fondamentali sono quelli di esperimento casuale, di evento e di probabilita'.
598. Che cos'e' un'esperimento casuale?
E' un esperimento che produce uno tra molteplici risultati possibili che a priori non sono
prevedibili con certezza. Ad esempio,
(a) il lancio di una moneta, il lancio di un dado, l'esperimento dell'urna (prima discusso),
la roulette, il gioco del lotto;
(b) l'esito di un parto per quanto riguarda il sesso del nascituro, l'esito (laurea o no) della
carriera di un iscritto all'universita';
(c) le condizioni meteorologiche del giorno che verra'.
(d) Il numero di passeggeri che si imbarca su un volo. Il numero di clienti di un super-
mercato in un dato giorno della settimana.
(e) La durata di un governo, la durata di un dispositivo elettronico, la durata del periodo
di disoccupazione, il tempo di sopravvivenza dopo un trattamento medico.
In un esperimento casuale si conoscono prima i possibili eventi elementari che possono
capitare, ma non si sa con precisione quale di questi si verichera'.
155
599. Qual'e' l'insieme degli eventi elementari per gli esperimenti (a) e (b) descritti in
precedenza?
(a) Per il lancio di una moneta e' ftesta, croceg, per il lancio di un dado f1; 2; 3; 4; 5; 6g.
Per la roulette i numeri da 0 a 36, per il lotto i numeri da 1 a 90.
(b) Nel caso del parto gli eventi elementari sono: maschio e femmina, nel caso dell'iscritto
all'universita' sono: laurea, abbandono (oppure: laurea in questa facolta', laurea in altra
facolta', abbandono).
600. Che cos'e' in generale un evento?

Un evento elementare e' uno dei possibili risultati dell'esperimento casuale, mentre un
evento e' una collezione di possibili risultati.
Per esempio, al gioco della roulette, i numeri f28; 29; 30; 31; 32; 33; 34; 35; 36g sono gli eventi
elementari che compongono l'evento èsce un numero maggiore di 27'.
Pertanto, un evento e' una aermazione che riguarda il risultato dell'esperimento casuale,
che prima dell'esperimento e' incerta, e dopo l'esperimento o e' vera o e' falsa.
601. Descrivere gli eventi: A = èsce un numero pari' e B = èsce un numero divisibile per
3' nell'esperimento di un urna contenente palline numerate da 1 a 10.
Risulta
A = f2; 4; 6; 8; 10g e B = f3; 6; 9g:
602. L'esperimento casuale che piu' ci interessa e' l'estrazione di una singola unita' da una
popolazione (nita o innita). Qual'e' l'insieme degli eventi elementari?
Nell'estrazione di una singola unita' da una popolazione gli eventi elementari sono tutte le
unita' della popolazione. Pertanto, l'insieme degli eventi elementari e' la popolazione stessa.
603. Che cos'e' la probabilita'?

E' una misura del grado di incertezza di un evento in un certo esperimento casuale. E'
chiaro che certi eventi hanno piu' propensione a vericarsi di altri. Per esempio, l'evento èsce
un numero pari' alla roulette e' molto piu' facile che si verichi piuttosto che l'evento èsce il
numero 36'. Dunque e' ragionevole misurare l'incertezza degli eventi assegnando ad essi un
numero compreso tra 0 e 1 detto probabilita' dell'evento. Quanto piu' la probabilita' e' vicina
a zero e tanto piu' l'evento si verica raramente e quanto piu' la probabilita' e' vicina a 1 e
tanto piu' l'evento e' frequente.
Dato un evento A scriviamo la probabilita' che si verichi A con il simbolo pr(A).
Alcuni considerano la probabilita' di un evento un concetto concreto, sico, associato a un
certo evento, quindi interpretano la probabilita' come qualcosa di oggttivo, che va misurato.
Altri considerano la probabilita' come una misura del grado di plausibilita' che un in-
dividuo assegna al vericarsi di un evento. La probabilita' non esiste dunque al di fuori
dell'individuo che l'assegna, ma dipende dal soggetto.
Si distinguono percio' due scuole: quella oggettivista e quella soggettivista.
156
604. Come si fa ad assegnare probabilita' ad un evento?

Considereremo solo i due casi classici seguenti.
(a) L'insieme degli eventi elementari e' nito, di numerosita' N e si assume che tali eventi
abbiano tutti la stessa probabilita'.
In questo caso si assegna probabilita' N1 ad ogni evento elementare. Per esempio, nel-
l'esperimento del lancio di un dado si puo' assumere per le caratteristiche di omogeneita'
e simmetria del dado che ogni faccia abbia la stessa probabilita'. Quindi, ogni faccia ha
probabilita' 1/6.
(b) L'esperimento casuale e' ripetibile nelle stesse condizioni.
In questo caso si puo' pensare di ripetere l'esperimento a piacere registrando quante volte
si verica l'evento considerato sul totale di prove eettuate. E' un fatto empirico (la cosiddetta
legge empirica del caso) che la frequenza relativa di successi a favore dell'evento, man mano che
aumenta il numero di prove tende a stabilizzarsi intorno a una certa costante. Tale costante
e' la vera probabilita' dell'evento. La gura seguente illustra il concetto rappresentando la
frequenza relativa su un graco cartesiano, per un evento la cui probabilita' e' 0.3.
1.0
.
Frequenza relativa
0.8
.
0.6
.
.
.
..
...
0.4
.. . ...................
...................... ........ . ............
........... . ............................................................................................................... ...
....... .......... .................................................................................................................................................................................................................
..
0.2
0 1000 2000 3000 4000

Prove
605. Si puo' riassumere i concetti spiegati in questo paragrafo dicendo che un esperimento
casuale genera un evento con una certa probabilita'.
12.4 Operazioni con gli eventi
606. Tra tutti gli eventi che si possono considerare, ne esistono due che sono particolari.
Essi sono l'evento impossibile e l'evento certo.
607. Che cos'e' l'evento impossibile?

E' quell'evento che non puo' mai vericarsi. Ad esempio, l'evento èsce il numero 7' quando
si lancia un dado e' un evento impossibile. L'evento impossibile si indica con ;.
157
608. Che cos'e' l'evento certo?

E' quell'evento che si verica sicuramente. Ad esempio, l'evento èsce un numero compreso
tra 1 e 6' quando si lancia un dado e' l'evento certo.
609. Se A e B sono due eventi e' possibile costruire nuovi eventi combinando A e B con il
calcolo logico. Quali operazioni si possono eseguire?
Si puo' denire la negazione di un evento, l'unione di due eventi e l'intersezione di due
eventi.
610. Che cos'e' la negazione di un evento A?

E' un nuovo evento che si verica quando A non si verica e che non si verica quando A
si verica. Si indica con non A. Ad esempio l'evento `non esce un numero pari' al lancio di
un dado e' non A = f1; 3; 5g dove A = f2; 4; 6g. Nell'esperimento dello studente che si iscrive
all'universita' se l'insieme degli eventi elementari e'
U = fabbandona, si laurea in questa facolta', si laurea in altra facolta'g
e se l'evento A e' fabbandonag, l'evento non A e'
non A = fsi laurea in questa facolta', si laurea in altra facolta'g:
611. Che cos'e' l'intersezione di due eventi?

E' l'evento che si verica se entrambi A e B si vericano. Se A e B non si possono vericare
simultaneamente si dicono eventi incompatibili. L'intersezione si indichera' con A e B .
Ad esempio, se l'esperimento consiste nell'estrarre uno studente dalla popolazione degli
iscritti al quarto anno di Scienze Politiche, e A = `viene estratto un maschio' e B = `viene
estratto uno studente che ha dato almeno 10 esami', l'evento A e B e' l'evento èsce uno
studente maschio che ha dato almeno 10 esami'.
Nel lancio di un dado l'evento A e B dove A = 'esce un numero pari' e B = èsce un
numero divisibile per 3, e'
A e B = f6g:
612. Che cos'e' l'unione di due eventi?
E' quell'evento che si verica se almeno uno dei due eventi si verica e non si verica
se ambedue non si vericano. Si indica con A o B . Ad esempio, si consideri l'esperimento
casuale che consiste nel vendere un biglietto aereo a un cliente che si presenta a uno sportello.
Si considerino gli eventi A = ` il cliente ha meno di 25 anni' e B = 'il cliente parte di sabato'.
L'evento A o B e' l'evento ìl cliente ha meno di 25 anni o parte di sabato'. Se la compagnia
decide di fare un biglietto scontato quando si verica l'evento A o B , lo sconto si applica sia
quando si presenta un cliente sotto 25 anni che non parte di sabato, sia quando si presenta
un cliente sopra 25 che parte di sabato, sia quando si presenta un cliente sotto 25 anni che
parte di sabato. L'unico caso in cui l'evento non si verica e' quando si presenta un cliente
sopra 25 anni che non parte di sabato.
158
613. Le operazioni tra eventi corrispondono alle usuali operazioni tra gli insiemi.
A e non B AeB B e non A
non A e non B
Nella gura sono rappresentati due eventi A e B . Il rettangolo esterno e' l'insieme degli
eventi elementari. Questo risulta suddiviso in quattro parti: A e B , non A e B , A e non B ,
non A e non B .
614. Quando due eventi sono incompatibili?
Quando il vericarsi dell'uno esclude il vericarsi dell'altro. In tal caso l'intersezione dei
due eventi e' l'evento impossibile. Ad esempio, nell'esperimento che consiste nell'estrazione
di uno studente dall'insieme degli iscritti a Scienze Politiche. Gli eventi A = 'lo studente ha
dato meno di 10 esami' e B = 'lo studente ha dato 15 esami', sono incompatibili.
12.5 Calcolo delle probabilita'
615. Ci sono tre regole fondamentali cui la probabilita' obbedisce. Quali sono?
(a) La probabilita' di un evento e' sempre un numero compreso tra 0 e 1.
(b) La probabilita' dell'evento certo e' 1.
(c) (Regola dell'addizione) La probabilita' che si verichi almeno uno di due eventi A e B
incompatibili e' la somma delle loro probabilita':
se A e B = ;; allora pr(A o B ) = pr(A) + pr(B ):
616. Applicare la regola al calcolo della probabilita' dell'evento E = f1; 2g nell'esperimento
del lancio di un dado.
L'evento E e' l'unione dei due eventi incompatibili A = f1g e B = f2g. Questi hanno
probabilita' ciascuno 1/6 per assunzione di equiprobabilita'. Quindi
pr(E ) = pr(A o B ) = pr(A) + pr(B ) = 61 + 16 = 62 :
Da questo esempio si vede che per calcolare la probabilita' di un evento E composto da k
eventi elementari, su un totale di N eventi elementari assunti equiprobabili, si pone
pr(E ) = Nk :
159
617. La regola dell'addizione si generalizza a tre e piu' eventi incompatibili.

618. Si abbia un'urna contenente 10 palline marcate come segue
U = f2; 2; 2; 2; 2; 3; 3; 3; 4; 4g
Si consideri l'estrazione casuale di una pallina. Calcolare la probabilita' che esca una pallina
marcata 3.
E' la probabilita' che esca la sesta pallina o la settima o l'ottava. Sono tre eventi incom-
patibili, pertanto la probabilita' richiesta e' la somma delle tre probabilita' 1/10. Quindi,
pr(3) = 0:3:
619. Se p e' la probabilita' di A qual'e' la probabilita' di non A?
E' 1 ; p. Infatti l'evento A o non A e' certo percio' ha probabilita' 1. Quindi
1 = pr(A o non A)
Inoltre A e non A sono incompatibili per cui si puo' applicare la regola dell'addizione
1 = pr(A) + pr(non A)
da cui pr(non A) = 1 ; pr(A):
620. Calcolare la probabilita' che non esca il 3 nell'esperimento dall'urna U descritto il
precedenza.
La probabilita' e' 1 ; 0:3 = 0:7
621. Calcolare la probabilita' dell'evento impossibile.
Poiche' l'evento impossibile e' la negazione dell'evento certo che ha probabilita' 1, per la
regola precedente esso ha probabilita' zero.
622. Una popolazione di famiglie e' distribuita secondo il numero di gli come segue
Figli 0 1 2 3 4+
frequenza 200 800 500 300 200
frequenza relativa 0.1 0.4 0.25 0.15 0.1
Si estrae casualmente una famiglia. Qual'e' la probabilita' che abbia 3 gli?

Siccome le 2000 famiglie che compongono la popolazione sono equiprobabili, la probabilita'
e' 300/2000 cioe' 0.15. Come si vede la probabilita' e' uguale alla frequenza relativa di famiglie
con 3 gli nella popolazione.
623. Qual'e' la probabilita' di estrarre una famiglia con un numero di gli maggiore di 2?
E' la probabilita' di estrarre una famiglia con 3 gli oppure con 4 e piu' gli. I due eventi
sono incompatibili per cui la probabilita' cercata e' la somma 0:15 + 0:1 = 0:25.
160
624. Qual'e' la probabilita' di A o B in generale, quando i due eventi sono compatibili?

Si puo' dimostrare la regola
pr(A o B ) = pr(A) + pr(B ) ; pr(A e B ):
Si osservi che se A e B sono incompatibili il termine sottratto e' sempre zero. Se sono
compatibili alla somma va tolta la probabilita' dell'intersezione per non contarla due volte.
625. Si abbia una popolazione di 100 studenti distribuiti secondo il sesso e il fumo nel modo
seguente
Fumo
Sesso Si' No Tot
M 20 40 60
F 30 10 40
Tot 50 50 100
e si estragga casualmente uno studente da questa popolazione.Calcolare la probabilita' di

estrarre uno studente che fuma.
La probabilita' di estrarre uno studente che fuma e' 0.5 perche' vi sono 50 fumatori e 50
non fumatori (a prescindere dal sesso) e ognuno ha la stessa probabilita' di essere estratto.
626. Calcolare la probabilita' di estarre una femmina.

Risulta
pr(femmina) = 40=100:
627. Calcolare la probabilita' di estrarre uno studente che sia fumatore e di sesso femminile.
Ci sono 30 studentesse che fumano, pertanto la probabilita' richiesta e'
pr(femmina e fuma) = 30=100:
628. Calcolare la probabilita' di estrarre un maschio oppure un fumatore.

E' la probabilita' di estrarre un maschio piu' la probabilita' di estrarre un fumatore meno
la probabilita' di estrarre un maschio che fuma. Quindi,
60 + 50 ; 20 = 90=100:
pr(maschio o fumatore) = 100 100 100
12.6 Probabilita' condizionata
629. Talvolta e' opportuno chiedersi quale sarebbe la probabilita' di un evento se si fosse
a conoscenza di informazioni supplementari che modicano l'insieme degli eventi elementari.
Tal probabilita' e' detta probabilita' condizionata.
161
630. Che cos'e' la probabilita' condizionata (o condizionale)?

E' la probabilita' di un evento subordinatamente al vericarsi di un altro evento. Ad
esempio, consideriamo ancora l'esempio degli studenti e studentesse, fumatori e non, discusso
in precedenza. Come sappiamo, se si estrae a caso uno studente la probabilita' che fumi e'
0.5.
Supponiamo ora di sapere che lo studente estratto e' una femmina. Qual'e' la probabilita'
che tale femmina sia fumatrice? Ossia qual'e' la probabilita' di estrarre un individuo che fuma
sapendo che tale individuo e' di sesso femminile? L'informazione sul sesso dell'estratto modi-
ca l'insieme degli eventi elementari perche' ora sappiamo di sicuro che non abbiamo estratto
uno dei 60 maschi. Percio' l'insieme degli eventi elementari e' composto da 40 femmine. Di
queste, 30 fumano. Siccome i 40 casi che possono vericarsi sono equiprobabili la probabilita'
di estrarre uno studente che fuma, sapendo che si tratta di una femmina e' 30/40=0.75.
631. Qual'e' la regola generale per calcolare la probabilita' condizionata?
La probabilita' condizionata di un evento A dato un evento B , scritta pr(A j B ) e' il rap-
porto tra la probabilita' del vericarsi congiunto dei due eventi e la probabilita' del vericarsi
ell'evento condizionante
A e B) :
pr(A j B ) = pr(pr(B)
(Se la probabilita' di B e' zero anche il numeratore e' zero e la formula diventa una forma
indeterminata.)
632. Calcolare la probabilita' di estrarre un fumatore sapendo che e' stato estratto un
maschio.
Si ha
pr(fuma j maschio) = pr(maschio e fuma) = 20=100 = 1=3 = 0:33:
pr(maschio) 60=100
633. Calcolare la probabilita' di estrarre una femmina condizionata al vericarsi dell'evento
`fuma'.
Risulta
pr(femmina j fuma) = pr(femmina e fuma) = 30=100 = 3=5 = 0:60:
pr(fuma) 50=100
12.7 Indipendenza
634. Talvolta la probabilita' condizionata e' diversa dalla probabilita' non condizionata. In
tal caso si dice che gli eventi sono dipendenti. Per esempio l'evento `femmina' e l'evento 'fuma'
sono dipendenti perche'
0:5 = pr(fuma) 6= pr(fuma j femmina) = 0:75
Il fatto di conoscere che il soggetto e' femmina modica la probabilita' del vericarsi del-
l'evento `fuma'. In questo esempio e' piu' probabile che fumi se so che si tratta di una
femmina.
162
635. In altri casi il fatto di conoscere un evento non modica la probabilita' del vericarsi
dell'altro evento. Ad esempio, si consideri la popolazione di 100 laureati classicati secondo
la scuola di provenienza e il tempo impiegato per laurearsi.
Anni per laurearsi
Scuola meno di 5 5 e piu' Tot
Liceo 6 24 30
Istituti Tecnici 14 56 70
Tot 20 80 100
Si estrae casualmente uno studente. Si considerino gli eventi `laurea in meno di 5 anni' e
`studente del liceo'. Risulta
6=100 = 0:2; pr(< 5) = 20=100 = 0:2:
pr(< 5 j liceo) = 30=100
Quindi il fatto di sapere che lo studente e' un liceale non modica la probabilita' di laurearsi
in meno di 5 anni. In questo caso si dice che il primo evento non dipende dal secondo.
636. In generale A non dipende da B se pr(A j B) = pr(A).
637. Dimostrare che se A non dipende da B anche B non dipende da A.

Infatti, la denizione equivale a
pr(A e B ) = pr(A)
pr(B )
che a sua volta e' equivalente a
pr(B e A) = pr(B )
pr(A)
cioe' a pr(B j A) = pr(B ) per cui B non dipende da A.
638. Se A non dipende da B e dunque B non dipende da A risulta

pr(A e B ) = pr(A)pr(B ):
Infatti, basta riaggiustare l'identita' precedente
pr(A e B ) = pr(A)
pr(B )
163
639. Quando si dice che due eventi sono indipendenti?

Diremo che gli eventi A e B sono indipendenti se si verica una delle tre condizioni
equivalenti
pr(A j B ) = pr(A)
pr(B j A) = pr(B )
pr(A e B ) = pr(A)pr(B )
L'ultima condizione fornisce quella che si chiama regola della moltiplicazione, secondo cui due
eventi sono indipendenti se la probabilita' del loro vericarsi congiunto e' uguale al prodotto
delle loro probabilita'.
640. Si puo' dire che due eventi sono indipendenti se il vericarsi dell'uno e' indipendente
dal vericarsi dell'altro?
No. La denizione di indipendenza deve descrivere precisamente la struttura delle proba-
bilita' che e' necessaria.
641. Dire che due eventi sono indipendenti e' lo stesso che dire che sono incompatibili?
No, due eventi sono incompatibili se per costruzione, non si possono mai vericare simul-
taneamente. Percio' la probabilita' non c'entra in questa denizione. Invece, due eventi sono
indipendenti se la probabilita' che si verichino simultaneamente e' proprio uguale al prodotto
delle probabilita'.
642. Come si puo' calcolare la probabilita' del vericarsi congiunto di due eventi?
Tale probabilita' e' uguale al prodotto delle probabilita' dei due eventi se i due eventi
sono indipendenti. Se non lo sono, la probabilita' congiunta si puo' calcolare con la formula
seguente
pr(A e B ) = pr(A)pr(B j A)
che e' semplicemente una riformulazione della denizione di probabilita' condizionata. Si puo'
interpretare dicendo che la probabilita' del vericarsi di A e B e' la probabilita' del vericarsi
di A moltiplicata per la probabilita' del vericarsi di B dato che si e' vericato A.
643. Si consideri un'urna contenente 5 palline numerate f1; 2; 3; 4; 5g e l'esperimento casuale
che consiste nell'estrazione senza ripetizione di due palline. Si considerino gli eventi A = 'esce
1 alla prima estrazione', e B = ` esce 4 alla seconda estrazione'. Calcolare la probabilita' di
A e B.
L'evento A e B si realizza se esce l'1 alla prima e il 4 alla seconda estrazione. La sua
probabilita' e' il prodotto delle probabilita' di A e di B j A. Cioe'
pr(1I e 4II ) = pr(1I )pr(4II j 1I ) = 51 41 = 19 :
164
SETTIMANA 13
Campionamento da una popolazione

dicotomica
In questa lezione viene spiegato come alcune popolazioni molto frequenti nelle applicazioni,
le popolazioni dicotomiche, possono essere descritte da una semplice distribuzione di proba-
bilita'. La distribuzione di probabilita' e' completamente conosciuta se si conosce un unico
parametro che la denisce. Vedremo che il campionamento casuale consente di stimare tale
parametro e fornisce altresi' una misura del'errore dovuto al campionamento. In questa le-
zione viene considerato il caso di una popolazione dicotomica, mentre nella prossima verra'
studiato il campionamento da una popolazione avente una distribuzione detta Gaussiana o
normale.
13.1 Variabili aleatorie
644. Che cos'e' una variabile aleatoria (o variabile causuale) discreta?
Consideriamo l'insieme degli eventi elementari associati a un certo esperimento casuale.
Per semplicita' supponiamo che gli eventi elementari siano in numero nito ed equiprobabili.
Questo schema e' quello dell'estrazione casuale di una unita' da una popolazione nita.
Se si rileva una certa variabile X su ogni unita' la probabilita' di estrarre una unita' con
un valore x della variabile e'
p(x) = prfX = xg = frequenza di unita' con un valore x della variabile
numero totale di unita'
Pertanto, per ogni modalita' x della variabile resta denita la probabilita' p(x) di osservarla.
Allora, una variabile aleatoria discreta e' denita semplicemente elencando le modalita' x e
le probabilita' ad esse associate p(x).
645. Fare un esempio di variabile aleatoria.
165
166
Sia data una popolazione contenente 10 unita', marcate come segue

U = f0; 0; 0; 0; 1; 1; 2; 2; 2; 2g
La variabile X assume tre modalita': 0; 1; 2 con probabilita' associate
p(0) = 0:4; p(1) = 0:2; p(2) = 0:4
646. Quali sono le proprieta' di una variabile aleatoria discreta?
Le sue modalita' si possono elencare e le probabilita' associate p(x) hanno somma 1. La
funzione p(x) descrive la distribuzione di probabilita' della variabile aleatoria X .
647. Supponiamo che una popolazione di famiglie abbia la seguente distribuzione secondo
il numero di componenti.
Componenti 2 3 4 5 Totale
Frequenza 300 400 200 100 1000
Qual'e' la distribuzione di probabilita' del numero di componenti di una famiglia estratta

casualmente?
Le probabilita' sono esattamente uguali alle frequenze relative. La variabile aleatoria e'
X con distribuzione
x : 2 3 4 5
p(x) : 0:3 0:4 0:2 0:1
13.2 Variabile di Bernoulli
648. Qual'e' il caso piu' semplice di variabile aleatoria discreta?
La variabile aleatoria che assume due soli valori, denominati convenzionalmente successo
e insuccesso. Tale variabile e' detta dicotomica o binaria. Tutti i fenomeni sui quali si osserva
la presenza o l'assenza di una certa caratteristica possono essere rappresentati teoricamente
in questo modo. Alcuni esempi sono i seguenti.
E' favorevole al federalismo? (si', no)
E' laureato? (si', no)
Qualita' del pezzo prodotto (buono, difettoso)
Ha un eta' superiore a 18 anni? (si', no)
649. Come vengono indicate le modalita' di una variabile dicotomica?
Solitamente si indica il successo con 1 e l'insuccesso con 0. Pertanto, per denire una
variabile aleatoria dicotomica occorre conoscere le due probabilita' p(0) e p(1). Poiche' X = 0
e X = 1 sono due eventi complementari, la loro somma deve essere 1. Dunque basta conoscere
la probabilita' di uno dei due eventi e l'altra e' calcolata facendo il complemento a uno.
167
650. Fare degli esempi di variabili aleatorie dicotomiche.

(a) Consideriamo un urna
U = f0; 0; 0; 1g
La variabile X = `viene estratto un 1' ha la distribuzione
x : 0 1
p(x) : 0:75 0:25
(b) Attualmente ci sono 1246 iscritti alla facolta' di Scienze Politiche di Sassari. Di questi
296 sono matricole. Se estraiamo uno studente a caso in segreteria dalla lista degli iscritti
a Scienze Politiche la probabilita' di estrarre una matricola e' 296=1246 = 0:237: Percio' la
variabile X = `viene estratta una matricola' ha la distribuzione
x : no si'
p(x) : 0:763 0:237
651. Scrivere la distribuzione di una variabile dicotomica in generale.
Si usa indicare con la probabilita' di successo. Pertanto, la variabile aleatoria dicotomica
e' la seguente
x : 0 1
p(x) : 1 ;
La variabile aleatoria dicotomica si dice anche variabile di Bernoulli. La sua distribuzione
dipende dal parametro che rappresenta la probabilita' di successo.
652. Che cosa descrive la distribuzione di Bernoulli?

Formalmente la distribuzione di Bernoulli descrive la popolazione allorche' il carattere
rilevato e' dicotomico anche nel caso in cui la proporzione di successi nella popolazione stessa
non e' noto. Per questo, tale proporzione nella popolazione (che e' identica alla probabilita'
di estrarre un successo facendo una estrazione casuale) e' indicata con il parametro generico
. Di conseguenza possiamo usare la distribuzione di Bernoulli come modello teorico della
popolazione dicotomica da cui si vuole estrarre un campione.
653. Si puo' utilizzare la distribuzione di Bernoulli per descrivere una popolazione innita
su cui si rileva un carattere dicotomico? Fare degli esempi di popolazioni di questo tipo.
In certi casi la popolazione oggetto di studio e' innita e il carattere che si osserva e'
binario. Si considerino gli esempi seguenti.
La popolazione dei pezzi prodotti da una macchina che possono essere buoni o difettosi
La popolazione di individui che e' allergica o non allergica a un farmaco
La popolazione di donne che faranno nella loro vita un glio o piu' di un glio
La popolazione di bambini che nasceranno secondo il sesso.
168
In tutti gli esempi non si conosce la lista completa delle unita' della popolazione (che non si
e' ancora realizzata) e la popolazione ha la caratteristica di essere idealmente innita. Uno
dei motivi per cui le popolazioni sopra elencate sono innite e' perche' si estendendono nel
tempo.
Se e' ragionevole pensare che la popolazione sia stabile nel tempo si puo' denire lo stesso
la popolazione come una variabile aleatoria di Bernoulli in cui esiste una certa probabilita'
di successo e una probabilita' 1 ; di insuccesso. Tali probabilita' possono essere pensate
come limite delle frequenze relative di successo ed insuccesso in successive estrazioni di unita'
dalla popolazione. Cosi' possiamo parlare della probabilita' che una macchina produca un
pezzo difettoso, della probabilita' che un individuo sia allergico a un certo farmaco, della
probabilita' che una donna abbia un solo glio, della probabilita' che nasca un maschio. In
tutti questi casi la popolazione di riferimento e' innita, ma la descrizione della popolazione
puo' essere ottenuta con una variabile di Bernoulli.
654. Qual'e' la media di una variabile di Bernoulli?

Ogni variabile aleatoria discreta X ammette un valor medio E (X ) che e' calcolato come
nel caso delle variabili statistiche, cioe'
X
= E (X ) = xp(x):
x
La distribuzione di Bernoulli ha dunque una media
E (X ) = 0 (1 ; ) + 1 =
uguale alla probabilita' di successo. La media si puo' interpretare come la media degli uno e
degli zero nella popolazione che, infatti, e' uguale alla proporzione di uno nella popolazione.
655. Qual'e' la varianza della distribuzione di Bernoulli?

In analogia alle variabili statistiche si puo' calcolare la varianza di una varaibile aleatoria
discreta, cioe' X
2 = var(X ) = (x ; )2p(x):
x
Nel caso della Bernoulli si dimostra che la varianza e'
var(X ) = (1 ; )
il prodotto della probabilita' di successo per la probabilita' di insuccesso.
656. Quando e' massima la variabilita' di una popolazione dicotomica?

Quando = 0:5. In questo caso la varianza e' 0.025. In ogni altro caso la varianza e'
minore. Per esempio, se = 0:25 la varianza e' 0:18, se = 0:9 la varianza e' 0:09.
169
13.3 Campionamento e universo dei campioni

657. Consideriamo i due schemi di campionamento casuale semplice: con ripetizione e senza
ripetizione, applicati al caso di una popolazione dicotomica. Quali sono le principali dierenze
tra i due schemi?
Consideriamo prima il caso di una popolazione nita. Nel campionamento casuale semplice
con ripetizione le successive estrazioni sono indipendenti e ad in ogni estrazione vi e' la
stessa probabilita' di successo. Infatti, ad ogni estrazione la popolazione e' sempre la stessa
(perche' l'unita' estratta viene reinserita) e due qualsiasi eventi in due estrazioni diverse sono
indipendenti. Invece, nel campionamento senza ripetizione, le successive estrazioni non sono
indipendenti e la probabilita' di successo cambia man mano che vengono estratte le unita' del
campione.
Consideriamo ora il caso di una popolazione innita. I due schemi di campionamento
sono equivalenti, perche' il fatto di non reinserire l'unita' estratta dopo l'estrazione non puo'
modicare la popolazione innita. Quindi, se la popolazione innita e' stabile nel tempo,
(e cioe' non si modica per conto suo), un campione senza ripetizione e' equivalente a un
campione con ripetizione. Si osservi pero' che la stabilita' nel tempo della probabilita' di
successo e' molto piu' dicile da vericare se la popolazione e' innita. Per esempio la
probabilita' di produrre pezzi difettosi per una macchina non e' sempre la stessa se si considera
un lungo periodo di tempo.
658. Se le osservazioni raccolte dalla popolazione possono essere ritenute indipendenti, e

in certi casi (il campionamento casuale semplice con ripetizione da una popolazione nita)
cio' e' garantito, e' possibile calcolare con relativa semplicita' le probabilita' di qualsiasi
evento che si possa vericare campionando dalla popolazione. Ricordiamo che se due eventi
sono indipendenti la probabilita' del vericarsi di ambedue e' il prodotto delle probabilita'.
Pertanto, ad esempio, se la popolazione e'
U = f0; 0; 0; 1g
qual'e' la probabilita' di estrarre il campione casuale con ripetizione (0; 1)?
Abbiamo
prf0 alla prima e1 alla secondag = prf0 alla primag prf alla secondag = 3=4 1=4 = 3=16:
Il calcolo della probabilita' di estarre lo stesso campione, in estrazioni senza ripetizione e' un
po' piu' dicile. Nel seguito, pertanto supporremo per semplicita' di estrarre sempre campioni
casuali con ripetizione. E' vero che nei casi usuali di campionamento da popolazione nita
si usa invece il campionamento senza ripetizione, che tra l'altro impedisce che si verichi
l'eventualita' di riestrarre la stessa unita' dalla popolazione, ma qui per evitare calcoli dicili
daremo la preferenza al campionamento casuale semplice con ripetizione. Tra l'altro se la
popolazione oggetto di studio e' molto grande le dierenze tra i due tipi di campionamento
scompaiono.
170
659. Prima di eettuare il campionamento vero e proprio, una volta stabilita' la numerosita'
del campione da estrarre, e' di fondamentale importanza calcolare la probabilita' di tutti i
possibili risultati. L'insieme di tutti i possibili campioni con ripetizione di n unita' da una
popolazione si chiama universo dei campioni di dimensione n. Se la popolazione e' nita e
ha dimensione N l'universo dei campioni contiene N n campioni con ripetizione.
Per esempio, l'universo dei campioni di dimensione 2 dalla popolazione dicotomica U =
f0; 0; 0; 1g e' il seguente (nella prima riga e nella prima colonna sono riportate rispettivamente
tutti i possibili primi risultati e tutti i possibili secondi risultati)
0 0 0 1
0 (0; 0) (0; 0) (0; 0) (0; 1)
0 (0; 0) (0; 0) (0; 0) (0; 1)
0 (0; 0) (0; 0) (0; 0) (0; 1)
1 (1; 0) (1; 0) (1; 0) (1; 1)
L'universo dei campioni contiene 42 = 16 campioni. Come sappiamo, tutti i singoli campioni
ottenibili hanno la stessa probabilita' di essere estratti. Tuttavia, poiche' alcuni campioni
danno gli stessi risultati, alcuni risultati sono piu' probabili di altri. Per esempio, il risultato
piu' probabile estraendo dalla popolazione U e' (0; 0).
660. Calcolare le probabilita' di tutti i possibili risultati nell'universo dei campioni descritto
nel problema precedente.
I possibili risultati sono (0; 0); (0; 1); (1; 0) e (1; 1). Il risultato (0; 0) si puo' ottenere in
9 modi ciascuno dei quali ha probabilita' 1=16 di accadere. Poiche' si tratta di 9 modi
incompatibili perche sono ottenuti con coppie di unita' diverse, la probabilita' di ottenere
(0; 0) e 9=16. Allo stesso modo si calcolano gli altri casi.
Risultato Probabilita
(0; 0) 9=16
(0; 1) 3=16
(1; 0) 3=16
(1; 1) 1=16
Si osservi come i campioni che assomigliano alla popolazione sono relativamente piu' probabili
dei campioni, come (1; 1), che sono molto diversi dalla popoalzione. Secondo questo risultato,
il campionamento casuale fa in modo che sia piu' probabile ottenere un campione somigliante
che non somigliante alla popolazione.
661. Che cos'e' la frazione di campionamento?
E' il rapporto tra la numerosita' del campione e la numerosita' della popolazione: n=N .
Si osservi la frazione di campionamento nell'esempio precedente e' 0.5. Di solito la frazione di
campionamento e' molto piu' piccola. Tuttavia la frazione di campionamento non in uenza
le probabilita' dei possibili risultati sopra calcolate. Esse dipendono solo dalla dimensione
del campione. Sarebbero state identiche anche se la popolazione fosse stata di 100 unita' di
25 con valore 1 e 75 con valore 0. L'essenziale e' che il campione e' stato estratto da una
popolazione dicotomica con probabilita' di successo = 1=4.
171
662. Studiare le probabilita' di tutti i possibili risultati nell'universo dei campioni di dimen-
sione 3.
I possibili risultati diversi sono i seguenti.
(0; 0; 0)
(1; 0; 0)
(0; 1; 0)
(0; 0; 1)
(0; 1; 1)
(1; 0; 1)
(1; 1; 0)
(1; 1; 1)
Essi sono in totale 2n perche' la popolazione ha 2 possibili modalita'. La probabilita' di ogni
risultato si calcola facilmente perche' sappiamo che le estrazioni sono indipendenti e ciascuna
con probabilita' di successo = 1=4: Per denizione tre eventi sono indipendenti se la pro-
babilita' che si verichino contemporaneamente e' uguale al prodotto delle loro probabilita'.
Pertanto otteniamo
Risultato Calcolo Probabilita'
(0; 0; 0) 3=4 3=4 3=4 27=64
(1; 0; 0) 1=4 3=4 3=4 9=64
(0; 1; 0) 3=4 1=4 3=4 9=64
(0; 0; 1) 3=4 3=4 1=4 9=64
(0; 1; 1) 3=4 1=4 1=4 3=64
(1; 0; 1) 1=4 3=4 1=4 3=64
(1; 1; 0) 1=4 1=4 3=4 3=64
(1; 1; 1) 1=4 1=4 1=4 1=64
Anche in questo caso si puo' notare che i campioni piu' probabili sono quelli che somigliano
di pu' alla popolazione.
663. Calcolare le probabilita' di tutti i possibili risultati in campioni di dimensione 2 e 3 da
una popolazione dicotomica con probabilita' di successo .
Ripetendo il procedimento di calcolo delineato sopra, sostituendo a 1=4 un generico
parametro e a 3=4 il complemento 1 ; , otteniamo
Risultato Calcolo Probabilita'
(0; 0; 0) (1 ; )(1 ; )(1 ; ) (1 ; )3
Risultato Calcolo Probabilita (1; 0; 0) (1 ; )(1 ; ) (1 ; )2
(0; 0) (1 ; )(1 ; ) (1 ; ) 2 (0; 1; 0) (1 ; ) (1 ; ) (1 ; )2
(0; 1) (1 ; ) (1 ; ) (0; 0; 1) (1 ; )(1 ; ) (1 ; )2
(1; 0) (1 ; ) (1 ; ) (0; 1; 1) (1 ; ) 2 (1 ; )
(1; 1) 2
(1; 0; 1) (1 ; ) 2 (1 ; )
(1; 1; 0) (1 ; ) 2 (1 ; )
(1; 1; 1) 3
Pertanto possiamo calcolare prima di estrarre il campione la probabilita' di ogni risultato, e
queste probabilita' dipendono da ,cioe' dalla proporzione di successi nella popolazione.
172
664. Qual'e' la probabilita' di estrarre il campione

(1; 0; 0; 0; 1; 0)
da una popolazione dicotomica con probabilita' di successo ?
Generalizzando il ragionamento precedente, la probabilita' cercata e'
(1 ; )(1 ; )(1 ; ) (1 ; ) = 2(1 ; )4:
In generale, se nel campione ci sono a successi e b insuccessi, la probabilita' di quel campione
e'
a(1 ; )b:
13.4 Distribuzione campionaria di una proporzione
665. Di solito per stimare la proporzione di successi nella popolazione si calcola la propor-
zione di successi nel campione. Ci si puo' chiedere allora: qual'e' la probabilita' di ottenere
una proporzione nel campione vicina a quella della popolazione? Calcolare la probabilita'
per ogni possibile proporzione ottenibile estraendo casualmente due unita' dalla popolazione
U = f0; 0; 0; 1g.
Ci sono, come sappiamo, 4 possibili risultati
Risultato Probabilita
(0; 0) 9=16
(0; 1) 3=16
(1; 0) 3=16
(1; 1) 1=16
Percio' le possibili proporzioni ottenibili in ciascun di essi sono
Risultato Proporzione Probabilita
(0; 0) 0=2 9=16
(0; 1) 1=2 3=16
(1; 0) 1=2 3=16
(1; 1) 2=2 1=16
La proporzione 1=2 si puo' ottenere in due eventualita': se il campione e' (0; 1) oppure se
e' (1; 0). Le due eventualita' non sono compatibili e dunque la probabilita' di ottenere una
proporzione 1=2, cioe' di ottenere un successo in due prove indipendenti e' la somma delle
probabilita' dei due eventi, cioe' 3=16 + 3=16. Si ottiene la tabella seguente
Proporzione di successi in 2 prove Probabilita
0=2 9=16
1=2 6=16
2=2 1=16
Il calcolo precedente si riassume in questo modo: se estraiamo un campione di due elementi
da una popolazione che contiene una proporzione 1=4 di successi, otteniamo campioni tutti
composti da insuccessi 9=16 delle volte, campioni composta da meta' successi e da meta'
insuccessi 6=16 delle volte e campioni composti tutti da successi solo 1=16 delle volte.
La distribuzione di probabilita' precedente e' chiamata distribuzione campionaria della
proporzione di successi in due prove indipendenti da una popolazione dicotomica.
173
666. Che cos'e' una distribuzione campionaria di una proporzione?

Una distribuzione campionaria di una proporzione descrive la distribuzione della propor-
zione di successi nell'universo dei campioni. Essa elenca tutte le possibili proporzioni che si
possono ottenere estraendo campioni di una certa dimensione dalla popolazione e a ciascu-
na associa la rispettiva probabilita', cioe' la frequenza relativa di campioni dell'universo dei
campioni che danno luogo a quel risultato.
667. Quando e' completamente nota una distribuzione campionaria?

Naturalmente, la distribuzione campionaria e' interamente nota solo se si conosce la com-
posizione della popolazione, cioe' se e' noto il parametro (nell'esempio precedente = 1=4).
Pertanto, nel caso concreto in cui si estrae un campione da una popolazione di composizione
ignota, la distribuzione campionaria della proporzione si puo' descrivere solo in teoria.
668. Descrivere la distribuzione campionaria di una proporzione in due prove indipendenti

da una popolazione dicotomica in cui la probabilita' di successo e' incognita ed uguale a .
Seguendo il procedimento spiegato sopra avremo
Risultato Proporzione Probabilita
(0; 0) 0=2 (1 ; )2
(0; 1) 1=2 (1 ; )
(1; 0) 1=2 (1 ; )
(1; 1) 2=2 2
e quindi, notando che la proporzione 1=2 si puo' ottenere in due modi,
Proporzione di successi su 2 prove Probabilita
0=2 (1 ; )2
1=2 2 (1 ; )
2=2 2
Se si sostituisce un valore (compreso tra 0 e 1) a si ottiene la distribuzione campionaria
corrsipondente senza bisogno di ricalcolarla.
669. Dimostrare che la somma delle probabilita' e' 1.

La somma delle probabilita' e' uguale allo sviluppo del binomio
[(1 ; ) + ]2 = (1 ; )2 + 2 (1 ; ) + 2
e quindi risulta [(1 ; ) + ]2 = 12 = 1.
670. Costruire la distribuzione campionaria della proporzione di successi in tre prove in-
dipendenti da una popolazione dicotomica caratterizzata da una proporzione di successi
incognita .
174
La costruzione non presenta dicolta' particolari, e' solo piu' lunga. Si parte dalla
distribuzione di tutti i possibili campioni distinti
Risultato Proporzione di successi su 3 prove Probabilita'
(0; 0; 0) 0=3 (1 ; )3
(1; 0; 0) 1=3 (1 ; )2
(0; 1; 0) 1=3 (1 ; )2
(0; 0; 1) 1=3 (1 ; )2
(0; 1; 1) 2=3 2(1 ; )
(1; 0; 1) 2=3 2(1 ; )
(1; 1; 0) 2=3 2(1 ; )
(1; 1; 1) 3=4 3
e quindi si costruisce la distribuzione campionaria notando che 1=3 e 2=3 si possono ciascuno
ottenere in tre modi (incompatibili) diversi e sommando le relative probabilita'.
Proporzione di successi su 3 prove Probabilita'
0=3 (1 ; )3
1=3 3 (1 ; )2
2=3 3 2(1 ; )
3=3 3
671. Anche in questo caso la somma delle probabilita e' uguale all'unita' ed e' lo sviluppo
del binomio
[(1 ; ) + ]3
Per questo la distribuzione precedente si dice distribuzione binomiale.
672. Che cos'e' la distribuzione binomiale?
E' la distribuzione della proporzione di successi in n prove indipendenti da una popolazione
dicotomica in cui la probabilita' di successo e' uguale a . In generale, ha n + 1 modalita',
cioe'
0=n 1=n 2=n 3=n n=n
da zero successi su n, a n successi su n. Le probabilita' associate sono date dagli elementi
dello sviluppo del binomio
[(1 ; ) + ]n
673. Nei casi n = 2 ed n = 3 e' relativamente semplice calcolare le probabilita' binomiali.
Per numerosita' maggiori il calcolo e' piu' pesante e richiede un elaboratore. Tuttavia, come
vedremo in una prossima lezione, le probabilita' binomiali possono essere calcolate, in modo
approssimato, usando le tavole della normale.
La gura seguente illustra gracamente la distribuzione di probabilita' binomiale. Come
sempre, i segmenti verticali hanno lunghezze uguali alle probabilita'. Ogni graco rappresenta
una distribuzioni campionaria di una proporzione, per campioni di dimensione 30, estratti da
popolazioni aventi una certa probabilita' di successo.
175
0.25
0.25
0.20
0.20
0.15
0.15
Probabilita’
Probabilita’
0.10
0.10
0.05
0.05
0.0
0.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
Proporzione di successi in 30 prove. Prob = 0.1 Proporzione di successi in 30 prove. Prob = 0.9
0.25
0.25
0.20
0.20
0.15
0.15
Probabilita’
Probabilita’
0.10
0.10
0.05
0.05
0.0
0.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
0.25
0.25
0.20
0.20
0.15
0.15
Probabilita’
Probabilita’
0.10
0.10
0.05
0.05
0.0
0.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
0.25
0.25
0.20
0.20
0.15
0.15
Probabilita’
Probabilita’
0.10
0.10
0.05
0.05
0.0
0.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
Scorrendo i graci da sinistra dall'alto in basso e quindi a destra in senso opposto, si passa
da probabilita' di successo piccole a probabilita' di successo grandi.
Si nota che la distribuzione e' simmetrica per = 0:5 e che e' asimmetrica negli altri casi.
Se la probabilita' di successo e' minore di 0.5 la distribuzione ha una coda lunga a destra
176
(asimmetria positiva). Se la probabilita' di successo e' maggiore di 0.5, la distribuzione ha

una coda lunga a sinistra (asimmetria negativa). Inoltre, le distribuzione sono speculari se le
rispettive probabilita' di successo sommano a 1.
Il fatto importante da notare e' che ci sono alcune proporzioni che sono assolutamente
improbabili e altre che sono (relativamente) molto piu' probabili. Per esempio, se nella
popolazione vi e' una proporzione = 0:1 di successi, nell'universo dei campioni di dimensione
30, sono relativamente pochi i campioni che danno una proporzione si successi superiore a
0:3. Cioe', la probabilita' di ottenere una proporzione campionaria uguale a 0:3 o superiore
e' molto piccola. Invece, la probabilita' di ottenere una proporzione intorno al vero valore 0.1
e' in confronto molto piu' alta. Quindi estraendo un campione casuale c'e' una probabilita'
elevata di fornire una stima vicina al vero valore.
Osservare che la dimensione della popolazione e' irrilevante, ai ni della valutazione prece-
dente. La probabilita' di avvicinarsi al vero valore della probabilita' di successo dipende dalla
dimensione del campione, e non da quello della popolazione, che potrebbe essere innita.
674. Qual'e' la media di una distribuzione binomiale?
La media di una binomiale e' uguale esattamente a . Se indichiamo con P la proporzione
di successi, abbiamo che E (P ) = .
675. Vericarlo per n = 2.
Infatti, sia P la proporzione di successi in un campione di 2 elementi. Allora P puo'
assumere i valori 0; 1=2 e 1 con probabilita' (1 ; )2, 2 (1 ; ) e 2. Percio'
E (P ) = 0 (1 ; )2 + 21 2(1 ; ) + 1 2 = ; 2 + 2 = :
L'aspetto importante del risultato precedente e' il fatto che non dipende dal particolare va-
lore assunto da nella popolazione, ne' dalla numerosita' del campione. Cio' signica che
estraendo un campione di due elementi da una popolazione dicotomica con una probabilita' di
successo di ignota, la media delle proporzioni calcolate nell'universo dei campioni e' uguale
alla proporzione di successi nella popolazione.
676. Vericare gracamente osservando la gura precedente che in ogni caso, quale che sia
il valore di la distribuzione binomiale e' sempre `centrata' su (cioe' ha media) .
Ad esempio la prima binomiale ha media 0:1 e l'ultima ha media 0:9.
677. Come si interpreta la media della distribuzione campionaria di una proporzione?
La media di una distribuzione campionaria puo' essere interpretata come la media di tutte
le proporzioni ottenibili nell'universo dei campioni.
Alternativamente, si puo' pensare come la media delle proporzioni nel campionamen-
to ripetuto cioe' immaginando di continuare ad estrarre campioni di dimensione n dalla
popolazione.
L'interpretazione statistica del risultato secondo cui la media delle proporzioni campio-
narie e' uguale alla proporzione vera di successi nella popolazione e' legata al concetto di
stimatore corretto che verra' ripreso in una lezione seguente.
177
678. Qual'e' la varianza della distribuzione binomiale?

La varianza della binomiale e' (1 ; )=n. Se P e' la proporzione di successi nel campione,
abbiamo var(P ) = P2 = (1 ; )=n.
679. La gura seguente illustra sei distribuzioni binomiali tutte con probabilita' di successo
= 0:1 e con numero di prove che va da n = 10 a n = 500.
0.14
0.4
0.12
0.3
0.10
Probabilita’
Probabilita’
0.08
0.2
0.06
0.04
0.1
0.02
0.0
0.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
0.25
0.10
0.20
0.08
0.15
0.06
Probabilita’
Probabilita’
0.10
0.04
0.05
0.02
0.0
0.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
0.20
0.06
0.05
0.15
0.04
Probabilita’
Probabilita’
0.10
0.03
0.02
0.05
0.01
0.0
0.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
Si osservi come all'aumentare del numero di prove la distribuzione binomiale tende a concen-
trarsi intorno alla sua media.
680. Come si interpreta la varianza della distribuzione campionaria di una proporzione?
E' la variabilita' delle proporzioni calcolate su campioni di dimensione n, nell'universo dei
campioni. Alternativamente, e' la variabilita' delle proporzioni stimate nel campionamento
ripetuto.
178
681. Che relazione c'e' tra la varianza della binomiale e il numero di prove?
La varianza delle proporzioni e' inversamente proporzionale al numero di prove, perche la
varianza ha al denominatore il numero di prove. Usando come misura di variabilita' lo scarto
quadratico medio, questo e' uguale a
q
P = (1 ; )=n:
Pertanto, se il campione e' grande, la variabilita' delle proporzioni campionarie nell'universo
dei campioni e' piccola. Ad esempio, se = 0:1, e il campione ha dimensione n = 100 la
proporzione P stimata nel campione ha una variabilita' di
q
(0:1 0:9)=100 = 0:03 = 3%
cioe' tre punti percentuali. Se n = 400 cioe' il campione e' 4 volte piu' grande, la variabilita'
delle proporzioni e' q
(0:1 0:9)=400 = 0:015 = 1:5%
la meta' di prima.
682. Si puo' usare la regola dei tre scarti quadratici medi per interpretare lo scarto quadra-
tico medio della binomiale?
Si'. Applicando a questo caso la regola dei tre sigma, piu' di 8/9 dei campioni dell'universo
dei campioni hanno una proporzione stimata compresa tra la media meno tre scarti quadratici
medi e la media piu' tre scarti quadratici medi:
q q
; 3 (1 ; )=n; e + 3 (1 ; )=n:
Quindi, negli esempi precedenti, piu di 8/9 dei campioni di dimensione 100 hanno una
proporzione stimata compresa tra
0:1 ; 3 0:03 e 0:1 + 3 0:03
ossia tra 0.01 e 0.19. Invece, piu' degli 8/9 dei campioni di 400 elementi danno una proporzione
stimata compresa tra
0:1 ; 3 0:015 e 0:1 + 3 0:015
cioe' tra 0.055 e 0.145. Questo intervallo ha una ampiezza che e' la meta' della precedente.
Si osservi che in questo caso il campione ha una dimensione che e' quattro volte piu' grande
di prima.
Quadruplicando ancora la dimensione del campione no a n = 1600 possiamo dimezzare
ancora l'intervallo dei tre sigma arrivando a (0:0775; 0:1225).
683. Che relazione c'e' tra l'intervallo dei tre sigma per una proporzione e la numerosita'
campionaria?
All'aumentare della numerosita' campionaria l'intervallo dei tre sigma ha una
p
ampiezza
che diminuisce. L'ampiezza e' evidentemente uguale a sei sigma cioe' a 6 (1 ; )=n:
Raddoppiando la dimensione del campione si dimezza l'ampiezza dell'intervallo dei tre sigma.
179
684. Alla luce delle osservazioni precedenti qual'e' l'interpretazione dello scarto quadratico
medio di P ?
Per prima cosa si deve osservare che la media dei P nell'universo dei campioni e' uguale
alla proporzione incognita di successi nella popolazione. Allora, lo scarto quadratico medio di
P permette di valutare le uttuazioni (cioe' gli scostamenti) della proporzione campionaria
rispetto valore della proporzione nella popolazione, nell'universo dei campioni. E' pertanto
un indice dell'errore di campionamento che si commette calcolando P sul campione anziche'
sulla popolazione.
Aumentando sucientemente la numerosita' del campione si puo' ottenere un errore di
campionamento soddisfacente in relazione al problema considerato.
685. Calcolare gli errori di campionamento p per la proporzione di successi P per vari
valori di e di n.
Nella tavola seguente le righe sono relative a diverse dimensioni campionarie e le colonne
a diverse probabilita' di successo nella popolazione. All'incrocio di riga e colonna e' riportato
lo scarto qudratico medio della proporzione di successi nel campione di quella numerosita'
estratto da una popolazione con quella percentuale di successi. Tale scarto quadratico medio
e' espresso in forma percentuale.
Probabilita' di successo
Dimensione del campione 0.05 0.1 0.2 0.3 0.4 0.5
30 3.98 5.48 7.3 8.37 8.94 9.13
50 3.08 4.24 5.66 6.48 6.93 7.07
100 2.18 3.00 4.00 4.58 4.90 5.00
200 1.54 2.12 2.83 3.24 3.46 3.54
500 0.97 1.34 1.79 2.05 2.19 2.24
1000 0.69 0.95 1.26 1.45 1.55 1.58
2000 0.49 0.67 0.89 1.02 1.10 1.12
Si osservi che per maggiore di 0.5, lo scarto quadratico medio e' uguale a quello corri-
spondente
p
a 1 ; . Per esempio lo scarto quadratico medio per n = 100 e = 0:8 e'
(0:8 0:2)=100 = 0:04 = 4% ed e' uguale a quello corrispondente a n = 100 e = 0:2.
686. Ad esempio, supponiamo di voler stimare la proporzione di studenti che sono favore-
voli a semestralizzare i corsi di Scienze Politiche. Se progettiamo di estrarre un campione
casuale semplice con ripetizione di 500 studenti sappiamo a priori che l'errore che possia-
mo commettere calcolando la proporzione di favorevoli nel campione va da 0.97% a 2.24%
a seconda della probabilita' incognita di favorevoli nella popolazione. Quindi l'errore e' al
massimo circa 2 punti percentuali. L'intervallo della regola dei tre sigma ha una ampiezza
percio' di 2 3 2 = 12%. A seconda dei casi questo scarto puo' essere giudicato troppo
grande e si puo' allora decidere di estrarre una campione piu' grande.
180
SETTIMANA 14
Campionamento da una popolazione

Gaussiana
In questa lezione introduciamo una delle distribuzioni di probabilita' piu' famose della stati-
stica, la distribuzione di Gauss. Questa distribuzione va anche sotto il nome di distribuzione
normale. Si tratta di un modello di probabilita' per le variabili continue con una distribuzione
simmetrica rispetto alla media e con le code non troppo lunghe.
14.1 Variabili aleatorie continue
687. Che cos'e' una variabile aleatoria continua?
Alcuni popolazioni sono innite e su ogni unita' e' rilevata una variabile continua. Percio'
la variabile ha innite modalita', tante quanti sono i numeri reali appartenenti a un segmento
(ha la potenza del continuo ). E' importante allora avere un modo per descrivere l'esperimento
casuale che consiste nell'estrarre una unita' da queste popolazioni, misurando la variabile
continua. Per questo si deve subito abbandonare l'idea di elencare le modalita' della variabile
assegnando a ciascuna una probabilita', perche' le modalita' della variabile hanno la potenza
del continuo; cosi' come e' impossibile ottenere la lunghezza di un segmento sommando le
lunghezze degli inniti punti componenti. Il problema si puo' risolvere introducendo l'idea
di densita' di probabilita'. Una densita' di probabilita' e' simile a una densita' di frequenza,
infatti e' una probabilita' per unita' di misura della variabile. Per esempio, se la probabilita'
di ottenere un risultato X compreso in un intervallo (x; x + x) e'
pr(x < X < x + x)
la densita' di probabilita' di questo intervallo e'
pr(x < X < x + x) :
x
181
182
Pertanto e' il rapporto tra la probabilita' e la lunghezza del segmento su cui quella probabilita'
e' distribuita. Piu' in generale si puo' pensare di calcolare la densita' di probabilita' in un
punto anziche' in un intervallo, facendo tendere a zero l'ampiezza x dell'intervallo. Pertanto
per ogni valore x della variabile resta denita' una densita' di probabilita'. Questa varia da
punto a punto e cresce, resta costante o decresce a seconda dei casi.
Una variabile aleatoria continua e' allora una variabile X che assume come modalita'
tutti i possibili valori x compresi in un intervallo e e' caratterizzata da una sua funzione di
densita' di probabilita', positiva, che stabilisce quant'e l'addensamento della probabilita' in
ogni modalita' x della variabile. Questa funzione e' analoga all'istogramma per una variabile
statistica continua, ma, in generale, non e' una funzione a scalini come l'istogramma, ma una
funzione continua.
688. Come si calcola una probabilita' di estrarre un valore x della variabile compresa in un
intervallo (a; b)?
La probabilita pr(a < X < b) e' uguale all'area sotto alla curva della funzione di densita'
compresa tra a e b esattamente come, per una variabile statistica, la frequenza relativa di casi
compresa in un intervallo e' l'area della parte di istogramma compresa in quell'intervallo. La
gura seguente illustra il concetto. 0.20
0.20
0.15
0.15
Densita’ di probabilita’
Densita’ di frequenza
0.10
0.10
0.05
0.05
0.0
0.0
0 5 10 15 20 0 5 10 15 20
X X
Naturalmente se la funzione di densita' e' incognita quest'area non si puo' calcolare. Tuttavia
se la funzione e' conosciuta, l'area si puo' calcolare, almeno come approssimazione.
689. Al gioco della roulette la pallina si ferma in una di trentasette caselle. Supponiamo di
eliminare le caselle e lasciare la pallina libera di fermarsi in un punto qualsiasi della ruota.
L'insieme degli eventi elementari di quest esperimento casuale e' l'insieme dei punti della
circonferenza. Ognuno di questi punti puo' essere individuato da un angolo compreso tra 0 e
360 gradi. Calcolare la probabilita' che la pallina si fermi nell'intervallo (0; 90).
Intuitivamente, la probabilita' che un la pallina si fermi nel settore compreso tra 0 e 90
gradi e' 1=4, come pure in un qualsiasi altro settore avente un'ampiezza di 90 gradi. In
generale, la probabilita' che la pallina si fermi in un certo settore e' uguale al rapporto tra
183
l'ampiezza di quel settore e 360 gradi. Questo signica che la densita' di probabilita' e'
distribuit ain modo uniforme sulla circonferenza (cfr. la gura seguente).
1/360
0 90 180 270 360

Angolo
690. A quanto e' uguale l'area totale sotto la funzione di densita', compresa tra il minimo
e il massimo valore che puo' assumere X ?
Poiche' essa e' uguale alla probabilita' che X sia compresa tra il suo minimo e il suo
massimo, risulta uguale alla probabilita' dell'evento certo e, quindi, e' 1. Questo fatto e'
analogo a quanto avviene per l'area di un istogramma.
691. Qual'e' la probabilita' che una variabile aleatoria continua X coincida esattamente con
uno specico valore x?
E' zero, perche' e' uguale all'area sotto la funzione di densita' tra x e x+x facendo tendere
x a zero. Quindi l'evento X = x ha probabilita' zero ed e', dunque, quasi impossibile.
14.2 Variabile aleatoria Gaussiana
692. Che cos'e' una variabile aleatoria Gaussiana?
La variabile aleatoria Gaussiana e' una variabile aleatoria X continua denita per ;1 <
x < +1 con una specica funzione di densita', la cui forma dipende solo da due parametri,
la media , in corrispondenza della quale sta l'unico massimo della funzione, e lo scarto
quadratico medio . La variabile aleatoria Gaussiana e' chiamata anche normale.
Nella gura seguente e' riportato un istogramma della distribuzione di 5000 studentesse
universitari secondo l'altezza.
0.08
0.08
0.06
0.06
Densita’ di frequenza
0.04
0.04
0.02
0.02
0.0
0.0
140 150 160 170 180 190 140 150 160 170 180 190
Altezza Altezza
184
Accanto all'istogramma e' disegnata una funzione di densita' Gaussiana avente la stessa media
(165 cm) e lo stesso scarto quadratico medio (5 cm) della distribuzione delle altezze.
In questo esempio, la distribuzione normale si presta bene a modellare la popolazione
di altezze. In questo senso si puo' pensare come una rappresentazione teorica, ideale, della
popolazione, innita, di tutte le altezze delle studentesse.
Come si vede, la normale e' una funzione di densita' simmetrica rispetto all'asse che
l'attraversa verticalmente, passando per la media. La forma della ditribuzione e' campanulare
a indicare che la densita' di probabilita' e' massima nel centro della distribuzione e va calando
simmetricamente a destra e a sinistra della media. La distribuzione normale ha due code
innite.
Come per tutte le funzioni di densita', l'area sotto tutta la funzione, e' uguale all'unita'.
Questo fatto puo' sorprendere, visto che la funzione si estende da ;1 a +1, ma bisogna
tener conto del fatto che l'area contenuta nelle code e' praticamente trascurabile.
Poiche' l'asse di simmetria che passa per la media divide l'area sotto la curva in due parti
uguali, il munto medio coincide con la mediana. Inoltre esso coincide anche con la moda della
distribuzione, perche' e' il valore di X che ha la massima densita' di probabilita'.
693. Che cos'e' la normale standardizzata?

E' quella distribuzione normale che ha media 0 e scarto quadratico medio 1. Il graco
della funzione e' riportato nella gura sottostante.
0.4
0.3
0.2
0.1
0.0
-4 -3 -2 -1 0 1 2 3 4
X
Si puo' osservare che la funzione ha la massima pendenza (rispettivamente positiva e negativa)

nei punti ;1 e +1. Questi sono anche i cosiddetti punti di esso della funzione (cioe' i punti
in cui la curva cambia concavita').
Da notare anche che le code, esternamente all'intervallo (;3; +3), sono praticamente
coincidenti con l'asse delle ascisse.
694. Come si disegna una normale con media e scarto quadratico 1?

Basta traslare la normale standardizzata sull'asse orizzontale, no a far coincidere il suo
asse di simmetria con il punto . Si noti che i punti di massima pendenza sono ora collocati
in corrispondenza di ; 1 e + 1.
185
695. Come si disegna approssimativamente una normale con media e scarto quadratico
?
Si disegna l'asse orizzontale nell'intervallo dei tre sigma, cioe' ; 3 , + r . Quindi si
pone il massimo in corrispondenza di e i due punti di massima pendenza in corrispondenza
di ; e + . Inne si traccia una curva campanulare simmetrica facendola passare per i
punti segnati e estendendo le code no agli estremi.
696. Disegnare tre distribuzioni di Gauss, con medie nulle e scarti quadratici medi rispetti-
vamente 0:5; 1 e 2.
Il graco seguente illustra le tre distribuzioni. Quella piu' alta e ripida e' quella con
varianza minore. Quella nel mezzo e' la normale standardizzata.
0.8
0.6
0.4
0.2
0.0
-10 -5 0 5 10
X
14.3 Probabilita' per la normale

697. Supponiamo di estrarre una osservazione da una popolazione normale standardizzata.
Qual'e' la probabilita' che l'osservazione cada in un intervallo prestabilito?
E' uguale all'area sottostante la normale standardizzata tra i due estremi dell'intervallo.
698. Come si calcola tale area?

Le aree sotto la normale standardizzata comprese in un intervallo (;z; z ) avente centro
nell'origine sono tabulate, di solito per tutti i valori di z compresi tra 0 e 3:3, con un passo
di 0:01. Nell'appendice B e' riportata una versione ridotta della tavola, con un passo di 0:05.
699. Se Z e' una osservazione da una normale standardizzata, calcolare le probabilita'

prf;1 Z +1g e prf;1:2 Z +1:2g
La tavola della normale fornisce direttamente le probabilita' richieste, cioe' rispettivamen-
te, 68:27% e 76:99%.
700. Calcolare le probabilita' che Z , normale standardizzata, sia compresa negli intervalli
(;1; +1), (;2; +2) e (;3; +3). Il graco sottostante illustra le tre aree richieste.
186
0.4
0.4
0.4
0.3
0.3
0.3
0.2
0.2
0.2
0.1
0.1
0.1
0.0
0.0
0.0
-4 -2 0 1 2 3 4 -4 -2 0 1 2 3 4 -4 -2 0 1 2 3 4
Z Z Z
Consultando la tavola, si ottengono le tre probabilita' seguenti

prf;1 Z +1g = 68:27%
prf;2 Z +2g = 95:45%
prf;3 Z +3g = 99:73%
Quindi, per la normale standardizzata, circa il 68%, circa il 95% e circa il 99% dei casi e'
compreso entro 1, 2, 3 scarti dalla media. Si noti che l'ultimo risultato precisa la regola dei
tre sigma per la normale.
701. Trovare l'intervallo (;z; z) che contiene il 50% dell'area sotto la normale standardiz-
zata.
Bisogna scorrere le colonne corrispondenti all'area nella tavola della normale standardiz-
zata. Si trova che in corrispondenza dell'area tipica 50% vi e' un valore di z pari a 0:674.
Quindi l'intervallo che contiene il 50% centrale della distribuzione normale standardizzata e'
(;0:674; +0:674).
702. Usando le tavole, con po' di abilita' si possono calcolare le probabilita' relative ad ogni
intervallo, nito o innito. Per esempio, calcolare la probabilita' che Z normale standardizzata
sia maggiore di 1.
Poiche' prf;1 Z +1g = 68:27% la probabilita' dell'evento complementare e' prfZ <
;1 o Z > +1g = 100% ; 68:27% = 31:73%. Questa e' la somma delle due aree uguali delle
due code a sinistra di ;1 e a destra di +1. Percio' l'area cercata e' la meta' di 31:73% cioe'
15:865%.
703. Calcolare la probabilita' che Z normale standardizzata sia compresa tra ;0:5 e +1.
La probabilita' cercata e' uguale a
prf;0:5 Z 0g + prf0 Z +1g
e dunque, a causa della simmetria della normale, e' anche uguale a
1
2 prf;0:5 Z +0:5g + 21 prf;1 Z +1g:
187
Queste probabilita' si trovano facilmente sulla tavola della normale e permettono di calcolare
2 38:29% + 2 68:27% = 53:3%
1 1
La gura seguente illustra il procedimento.

0.4
0.4
0.4
0.3
0.3
0.3
0.2
0.2
0.2
0.1
0.1
0.1
0.0
0.0
0.0
-4 -2 0 1 2 3 4 -4 -2 0 1 2 3 4 -4 -2 0 1 2 3 4
Z Z Z
L'area cercata e' disegnata sotto la prima normale a sinistra. Questa e' la somma della meta'
delle aree disegnate nelle altre due normali, che si determinano facilmente dalla tavola.
704. Come si calcola la probabilita' che una normale X di media qualsiasi e di scarto
quadratico sia compresa in uno specico intervallo?
Si dimostra un risultato generale, secondo il quale l'area compresa sotto una normale
qualsiasi, in un intervallo centrato sulla media di semiampiezza x cioe' ( ; x; + x), e'
uguale all'area sotto la normale standardizzata, tra ;x= e +x= . La gura seguente illustra
il concetto.
0.4
0.3
0.2
Normale(0, 1) Normale(10, 2)
0.1
0.0
-5 -1 0 1 5 8 10 12 15 20
X
La normale di sinistra e' standardizzata, mentre la normale di destra ha media = 10 e

scarto = 2. L'area compresa tra 10 ; 2 e 10 + 2 sotto la normale di destra e' uguale all'area
sotto la normale standardizzata tra ;2=2 = ;1 e 2=2 = +1.
Piu' in generale, l'area compresa sotto una normale qualsiasi, in un intervallo (a; b) e'
uguale all'area sotto la normale standardizzata, tra (a ; )= e (b ; )= , cioe' tra i due
valori a e b standardizzati. Pertanto, in generale, se X e' normale con media e scarto
mentre Z e' normale standardizzata
prfa X bg = prf(a ; )= Z (b ; )= g:
188
Percio', per calcolare la prima probabilita' (a) si standardizzano gli estremi dell'intervallo e
(b) si usa la tavola della normale standardizzata.
705. Una popolazione ha una distribuzione di probabilita' teorica normale con una media
= 160 e scarto quadratico medio = 6. Qual'e' la probabilita' che un individuo estratto
da questa popolazione abbia un'altezza compresa tra 154 e 166 cm?
Si deve calcolare la probabilita' teorica (X e' l'altezza)
prf154 X 166g = prf(154 ; 160)=6 Z (166 ; 160)=6)g
e quindi si ottiene prf;1 Z +1g 68%:
706. Calcolare la probabilita' che l'altezza sia compresa tra 157 e 166.
Con la stessa tecnica
prf157 X 166g = prf(157 ; 160)=6 Z (166 ; 160)=6)g
e quindi si ottiene prf;0:5 Z +1g 53%:
707. Il voto all'esame di statistica e' una variabile aleatoria avente media 24:5 e varianza
6:25. Qual'e' la probabilita' di prendere 28 o piu'?
Poiche' = 2:5, si calcola
prf28 X g = prf(28 ; 24:5)=2:5g
dove X e' il voto. Pertanto la probabilita' da calcolare e' prf1:4 Z g: Questa probabilita'
si puo' determinare ragionando come segue. L'area fornita dalle tavole in corrispondenza di
1:4, cioe' 83:85% e' l'area di un intervallo centrale. Quindi 100% ; 83:85% = 16:15% e' l'area
nelle due code prima di ;1:4 e dopo 1:4. L'area richiesta e' dunque la meta' di 16:15%, cioe'
8%.
708. Come si puo' precisare la regola dei tre sigma per la normale?
In una normale qualsiasi c'e il 99% di probabilita' di estrarre una osservazione compresa
tra la media meno tre scarti quadratici e la media piu' 3 scarti quadratici.
14.4 Modelli Gaussiani
709. Si osservi che, sapendo che una popolazione si distribuisce teoricamente come una
normale, e' possibile dedurre le probabilita' teoriche corrispondenti a tutti gli intervalli. Si
confronti questa situazione con quella empirica in cui si conosce una distribuzione di frequenza.
In tal caso occorre specicare l'elenco delle modalita' o delle classi con le loro frequenze relative
associate. Nel caso della normale, basta fornire la media e lo scarto quadratico.
189
710. Quando e' appropriato descrivere una popolazione con una variabile aleatoria Gaus-
siana?
E' dicile stabilire a priori se una popolazione si distribuisce normalmente. Tuttavia,
cio' si deve escludere quando e' noto che la distribuzione e' sicuramente asimmetrica. Per
esempio una distribuzione dei redditi relativa a piu' categorie, da le meno abbienti a quelle
benestanti, e' asimmetrica. Non e' ragionevole, infatti, presumere che vi sia la stessa densita'
di probabilita' di estrarre un reddito di 1 milione sotto la media e un reddito di 1 milione
sopra la media. Inoltre, la distribuzione avra' presumibilmente una coda lunga a destra e
breve a sinistra, e cio' e' segno di asimmetria positiva.
Tuttavia, la distribuzione dei redditi di una sola categoria, per esempio quella degli im-
piegati in un dato settore, e' verosimile che abbia una distribuzione simmetrica e quindi la
normale potrebbe essere una scelta ammissibile.
711. Avendo a disposizione l'intera distribuzione di frequenza di una popolazione, la si
puo' confrontare con una normale avente la stessa media e la stessa varianza. La normale si
puo' sovrapporre all'istogramma per fare confronti. Questa tecnica non permette tuttavia di
distinguere bene le dierenze nelle code della distribuzione.
0.08
0.20
0.04 0.06
Densita’
Densita’
0.10
0.02
0.0
0.0
0 2 4 6 8 10 12 14 35 40 45 50 55 60 65 70
X X
Nella gura precedente si possono osservare due istogrammi, a ciascuno dei quali e' sovrappo-
sta la curva Gaussiana avente la stessa media e la stessa varianza. La distribuzione di sinistra
presenta un adattamento migliore.
14.5 Campionamento da una popolazione normale
712. La distribuzione normale e' un modello teorico di probabilita' per una popolazione
innita su cui si e' rilevato un carattere continuo, a un certo tempo. Che cos'e un campione
casuale da una popolazione normale?
Per denizione, e' un insieme di n osservazioni indipendenti estratte da una variabile
aleatoria normale. Per dichiarare che n osservazioni provenienti da una popolazione sono un
campione casuale da una normale e' necessario
che si possa assumere che la popolazione e' Gaussiana
che le n osservazioni provengano tutte da tale singola popolazione
e inne che si possa assumere che ogni osservazione sia completamente indipendente dalle
altre, intendendo con questo che i dati si possono assimilare a un estrazione casuale con
ripetizione da una urna.
190
L'ultima assunzione e' dicile da vericare concretamente. Un caso tipico in cui questa
assunzione non e' giusticata si ha quando le n osservazioni non sono relative ad unita'
diverse allo stesso tempo, ma a medesime unita' in tempi diversi. Pertanto, se si possiedono
misure ripetute sugli stessi individui, tali osservazioni non si possono assumere indipendenti.
713. La gura seguente mostra un campione casuale di dimensione n = 50 da una nor-
male di media 10 e scarto quadratico medio 2. Le ascisse dei punti rappresentano le os-
servazioni estratte. I punti sono leggermente perturbati verticalmente per evitare la troppa
sovrapposizione.
4 6 8 10 12 14 16
Media = 10, sqm = 2
714. Che cos'e' l'universo dei campioni estratti da una distribuzione normale?
E' l'insieme (innito) delle possibili n-uple di osservazioni ottenibili come campioni casuali
dalla normale in questione. (Per n-upla si intende un insieme ordinato di n numeri.)
Esso si puo' pensare come l'insieme dei possibili campioni che si possono ottenere ripe-
tendo indenitamente il processo di campionamento. L'universo dei campioni permette di
descrivere astrattamento il processo del campionamento ripetuto. Ovviamente, il campiona-
mento ripetuto e' una astrazione che, nondimeno, puo' essere formalmente descritta con gli
strumenti del calcolo delle probabilita'.
715. A cosa serve l'idea del campionamento ripetuto?
Come e' stato gia' detto nel caso del campionamento da una popolazione dicotomica, es-
so serve a descrivere cio' che potrebbe avvenire estraendo casualmente un campione da una
popolazione. Prima ancora di avere estratto il campione si vuol conoscere la (densita' di)
probabilita' di una particolare n-upla di osservazioni. Cio' consentira' di valutare il com-
portamento delle stime calcolate sui dati campionari, e, piu' importante ancora, di valutare
l'errore di campionamento.
191
716. Per dare un'idea dell'universo dei campioni si consideri la gura seguente. Essa rap-
presenta due processi campionamento casuale, il primo, a sinistra, da una normale con media
0 e scarto 1 e il secondo, a destra, da una normale con media 0 e scarto 0.5. Per ciascuna
distribuzione sono stati estratti 11 campioni di dimensione n = 30.
o o oo ooo oooo ooooooooo o ooo o o oooooooooo

o oooo ooo ooooooo
oo ooooooooo
ooo ooo ooooooo o o o oooooooo o o
ooo ooo
o o oooo
o ooooooo oo o
ooo o oooo ooooo o oo o o oooooooooooooooo
oo o o o
oooooooooooo o oooo o o
ooooooo oo
o oooooooooo oooooo oo
ooooo
o o o oo oooo oooo
oooooo oo ooooo o oooo oooo
oooooooooo oooo
oooo oo ooo ooo ooooooo oooooooo o oo oooo

oooooo
o oooooo o
oo
o oooooo
o ooooo oooo oo oo o o o oooooo oo o
o oooooooooooo
o oo
ooooo oooo ooo oooo oo o oo o o ooooooooo o
o o oo ooooooo
ooo
oooooo oooo oooooooooo oooo oo oooooooooo

oooo ooo o
oooooo ooooooooooooo oo o o o o o o oo oooooooo ooooooooo
o ooo ooooo oooo oooooooo ooooo o oooooooooooooooooooo

oooooo
-4 -2 0 2 4 -4 -2 0 2 4
Media = 0, sqm = 1 Media = 0, sqm = 1/2
Si puo' osservare come i campioni rispecchino la popolazione, ossia siano rappresentativi. E'
importante notare che essi non sono rappresentativi perche' costruiti in modo da `riprodurre in
piccolo' la popolazione relativamente a un certo numero di caratteri, ma perche' le assunzioni
che riguardano il processo di campionamento casuale sono vere, cioe' perche' le osservazioni
sono indipendenti e provengono tutte casualmente da quella distribuzione normale.
Ad esempio, e' evidente che tutti i campioni hanno una media vicina a quella della popola-
zione (che e' zero in questo esempio). Inoltre la variabilita' dei campioni estratti dalla normale
con = 1 e' maggiore della variabilita' dei campioni estratti dalla normale con = 0:5.
14.6 Distribuzione campionaria della media
717. Supponiamo ora di voler stimare la media della popolazione normale, cioe' . La cosa
piu' semplice da fare e' calcolare lo stesso indice sul campione. Chiameremo la media del
campione media campionaria e la denoteremo con X .
718. Perche' si fa una distinzione di simboli tra e X se sono entrambi delle medie
aritmetiche?
E' importante tenere distinto il concetto di media della popolazione, che non dipende dal
processo di campionamento causale, da quello di media campionaria che invece dipende dal
campione. La media compionaria infatti e' il risultato di un esperimento casuale e quindi
192
prima di estrarre il campione e' una quantita' aleatoria. Quindi, in linea di principio, X e'
una variabile aleatoria che ha una sua distribuzione di probabilita'.
719. Che cos'e' la distribuzione campionaria della media ?

E' la distribuzione di probabilita' della variabile aleatoria media campionaria, cioe' di X
nell'universo dei campioni. Si tenga presente quanto e' stato spiegato per la distribuzione
campionaria di una proporzione P in campioni da una popolazione dicotomica. In questo
caso si applicano gli stessi concetti, tenendo presente che l'universo dei campioni e' costruito
per una popolazione normale e che la stima calcolata sul campione e' la media aritmetica.
720. Che cosa descrive la distribuzione campionaria della media?

La distribuzione campionaria della media fornisce la (densita' di) probabilita' di ottenere
una certa media in campioni di dimensione n. L'idea di distribuzione campionaria di una
media si puo' applicare a popolazioni aventi una distribuzione qualunque. In particolare, qui
facciamo riferimento al caso specico di una popolazione normale.
721. Rappresentare sul graco precedente le medie dei campioni e studiare la distribuzione
delle medie campionarie.
• •• • •• • • •• • • • •• • •• • •••• •• • • ••••• ••• • ••• • •

• • • • • •• • •• • • • •
• • •
•
•• • • • • •• •• •••• •••••• •• •• • • • • • ••••• •• ••• •••• ••••••• •••• • •
• • • • •• • •• • • • • •• • • • •••• • •• •• • • •
• • • • ••• • • • •• •
•• •• • • •• • •• • • •
• • • • •• • ••
•• • • ••
• •• ••
•• • •
• ••
• • • • • • •• • •• ••• •• •• • •••• ••• • • •• •
• • • •• ••• •••••• •• • • ••• ••• • •• •• •••

• ••• •• • ••••• •• • •••• •• •• • •
•• • • •• • •• • ••• • •• •••• • • • • •• • • •
•• • ••• • •
• • ••• ••• • • •••••• •
•
• • • • • •• ••• • •• •••• • • •• • •• • • • • •• • • •••••• ••• •••• •• • • • • •• •
• •• • •• • ••••
• • • •• • ••• • • • •••• • ••
• •• • •• •• • • • •• ••• • •••••• •• •
• • • • • • • •• ••••• • • •• • •• • • •••• • ••• •••• •

• • •• • • • •• • • •• •• •••
•• • • •
• • ••• ••• • • • • •• • • • • • •••• • • •••

• •••
• • • •• • •• • • • • • • •• • ••••• • ••
• •• • • • • •• ••• • • ••••• ••• • • • ••

•
•
•• •
• •• •• •• •• • •••••• • •••
••• • •
• •
-4 -2 0 2 4 -4 -2 0 2 4
Media = 0, sqm = 1 Media = 0, sqm = 1/2
Nella gura, le medie sono rappresentate da cerchietti, mentre i valori campionari sono rap-
presentati da puntini. Le medie oscillano attorno al valore = 0 cioe' attorno alla media
della popolazione, in entrambe i casi.
Le oscillazioni sono piu' marcate nel graco di sinistra (che e' relativo alla normale con
varianza maggiore tra le due).
193
Inne, le medie oscillano meno delle singole osservazioni. Cioe' una singola osservazione
X , nel campionamento ripetuto, oscilla attorno a = 0 con scarti dell'ordine di . Invece, X
oscilla attorno alla propria media con scarti di ordine inferiore a .
722. Quali sono le proprieta' teoriche della distribuzione campionaria della media?
Si dimostrano i risultati fondamentali seguenti.
(a) La variabile aleatoria media campionaria, cioe' X , ha una media nell'universo dei cam-
pioni, uguale alla media della popolazione. Cioe', la media delle medie campionarie e'
uguale alla media della popolazione. In simboli,
E (X ) = :
Questo risultato e' sempre vero, quale che sia la distribuzione della popolazione, purche'
siano estratti campioni casuali dalla stessa popolazione avente media .
(b) La variabile aleatoria X ha una varianza nell'universo dei campioni di dimensione n,
piu' piccola della varianza della popolazione. Piu' precisamente, la varianza delle medie
campionarie e' uguale alla varianza della popolazione divisa per n, la numerosita' del
campione. Formalmente,
var(X ) = 2=n:
Questo risultato e' vero anche se la popolazione non ha una distribuzione normale,
purche' le osservazioni siano estratte indipendentemente da una popolazione avente una
varianza costante 2.
(c) Inne, se la popolazione e' normale, di media e varianza 2, la distribuzione campio-
naria della media e', a sua volta, esattamente normale. Quindi, per i risultati (a) e (b)
precedenti,
p X e' normale, con media e varianza 2=n, ossia scarto quadratico medio
= n.
723. Commentare il risultato (a) precedente.
(a) esprime esattamente cio' che avevamo notato dalle gure precedenti. Cioe' che le
medie campionarie oscillano nel campionamento ripetuto attorno alla media della popolazione.
Anche se la singola stima puo' dierire dalla media della popolazione, in media le stime sono
uguali a . Questa e' una proprieta' della media campionaria, secondo cui tale indice non
tende a sovrastimare o sottostimare sistematicamente la media della popolazione.
724. Commentare il risultato (b).
Il risultato (b) fornisce una misura degli scostamenti ptra X e (che e' la sua media).
Sappiamo che lo scostamento quadratico medio di X e' = n, e quindi dipende da due cose:
dal della popolazione e dalla numerosita' del campione. Gli scarti tra X e tendono
a crescere quanto piu' e' variabile la X nella popolazione ( e' al numeratore)
a decrescere quanto piu' e' grande la numerosita' del campione (n sta al denominatore)
194
Quindi le medie campionarie variano meno di quanto varino le singole osservazioni, nel cam-
pionamento ripetuto. Questo si puo' capire osservando che le medie attenuano le dierenze
esistenti tra valori bassi e valori alti e quindi sono suscettibili di minore oscillazione rispetto
ai dati.
Inoltre, aumentando la numerosita' del campione si puo' far diminuire la variabilita' delle
medie campionarie attorno a ossia l'errore di campionamento.
725. Supponiamo che il reddito mensile X di una certa categoria di lavoratori, sia distribuito
teoricamente in modo normale, con media 2 200 000 lire e scarto quadratico = 250 000.
Qual'e la variabilita' delle medie campionarie in campioni casuali di dimensione 10 da questa
popolazione?
Per i risultati teorici precedenti, le medie campionarie, nel campionamento ripetuto, si
distribuiscono attorno a 2 200 000 lire con una variabilita' di
p p
= n = 250 000= 10 = 79 056 lire:
Quindi, in campioni di dimensione 10, le medie campionarie hanno oscillazioni dell'ordine
delle 80 000 lire rispetto alla media, contro le oscillazioni dell'ordine delle 250 000 lire, nella
popolazione.
Aumentando la dimensione del campione a n = 100, le possibili oscillazioni di X nel
campionamento ripetuto sono solo
p p
= n = 250 000= 100 = 25 000 lire:
726. Interpretare lo scarto quadratico medio di X in campioni da popolazioni normali
tenendo conto che X ha a sua volta una distribuzione normale.
Usando la regola dei tre sigma per la normale, nell'esempio precedente, possiamo conclu-
dere che il 99% dei campioni di dimensione 100 ha una media compresa tra
2 200 000 ; 3 25 000 e 2 200 000 + 3 25 000
cioe' tra 1 975 000 e 2 425 000. Per questo motivo, sappiamo che a meno di estrarre un
campione veramente particolare, otterremo quasi sicuramente una media che e' compresa in
quell'intervallo. Questo consente di prevedere il margine di errore dovuto al campionamento.
In generale, estraendo campioni casuali di dimensione n da una normale, c'e' il 99% di
probabilita' di ottenere una media campionaria compresa tra
p p
; 3= n e + 3= n:
SETTIMANA 15
Introduzione alla stima
In quest'ultima lezione siamo in grado di trarre alcune conclusioni sui metodi di stima basati su
campioni casuali. Il punto fondamentale e' il fatto che con i campioni casuali si costruiscono
dei dati con un meccanismo generatore che segue le regole del calcolo delle probabilita'.
Pertanto possiamo prevedere in anticipo le distribuzioni di probabilita' delle stime e valutare
l'errore di campionamento.
Vedremo che l'errore di campionamento, in campioni di dimensione suciente, e' piccolo
e quindi e' ragionevole aspettarsi buoni risultati usando metodi campionari.
Inne, parleremo di come valutare le stime. A volte infatti ci si puo' trovare di fronte a
metodi alternativi di stima di uno stesso parametro. Avremo tempo di parlare soltanto delle
valutazioni delle stime nel campionamento ripetuto.
15.1 Problemi di stima
727. Che cosa si intende per stima statistica?
Si intende l'assegnazione di uno specico valore a un parametro che caratterizza la po-
polazione oggetto di studio, basandosi su un campione estratto da qualla popolazione. For-
malmente, la popolazione e' descritta da una particolare variabile aleatoria X , che si assume
nota, nella sua forma, a meno di un parametro che, invece, e' incognito. La stima statistica
si propone di dare un valore numerico a questo parametro incognito, in modo da rendere
completamente scoperto il meccanismo (aleatorio) che genera i dati.
Per esempio, assumiamo di sapere che la popolazione dei redditi che stiamo studiando e'
in teoria una normale con una varianza = 250 000 lire, ma ammettiamo di non conoscerne la
media che quindi ci e' ignota. Pertanto, estraendo a caso un individuo da questa popolazione
sappiamo che il reddito avra' una densita' di probabilita' di forma normale, ma non sappiamo
dove questa normale e' localizzata. Potrebbe avere una media = 1 900 000 o = 2 500 000.
Il problema e' trovare una stima di , spesso viene denotata con ^ ( `cappello'), che per
qualche motivo si giudica la piu' plausibile, alla luce dei dati.
195
196
Sostituendo a la sua stima, la popolazione che se ne ottiene e' una sola e i campioni
casuali che essa potrebbe generare sono simili al campione che eettivamente si e' estratto.
728. Quali sono i principali problemi di stima studiati?
(a) La stima di (la probabilita' di successo) in una popolazione dicotomica e (b) la
stima di in una popolazione normale. Nel primo caso la popolazione (ossia il meccanismo
generatore dei dati) e' una variabile aleatoria di Bernoulli. Nel secondo caso e' una Gaussiana.
729. Come si stima la probabilita' di successo ?
Con la proporzione di successi nel campione P . Per denizione, poiche' le osservazioni
possono essere solo 0 (insuccesso) o 1 (successo), la proporzione di successi e' semplicemente
la media aritmetica degli 1 e degli 0 nel campione.
730. Come si stima la media di una popolazione normale?
Con la media aritmetica X dei dati campionari. Tuttavia, poiche' la media delle normale
e' uguale anche alla mediana, si potrebbe usare la mediana Xmed per stimare .
731. In ogni caso, che cos'e' una stima?
E' un modo per sintetizzare i dati campionari in modo da fornire un unico numero che
sia un valore plausibile del parametro. Per questo diremo che la stima e' una funzione delle
osservazioni.
15.2 Come si valuta una stima?
732. Una volta che e' stato inventato un metodo per stimare un parametro, e' importante
domandarsi se questa sintesi e' una buona stima del parametro oppure no. Come si fa a
giudicare questo aspetto?
Per valutare la bonta' di una stima occore stabilire dei criteri. Qui parleremo dei criteri
basati sul campionamento ripetuto. Supporremo sempre che il campione abbia una numerosi-
ta' ssata n. I criteri basati sul campionamento ripetuto valutano non tanto la singola stima
ottenuta una volta estratto il campione, ma le stime che si possono ottenere nell'universo dei
campioni. In altri termini, valutiamo non una stima, ma la distribuzione campionaria delle
stime. Questo permette di conoscere il comportamento di una stima nel lungo andare.
733. Poiche una stima e' una funzione delle osservazioni e queste sono aleatorie, perche'
dipendono dal campione, anche la stima e' una variabile aleatoria. Quando si vuol fare
riferimento alla stima nell'universo dei campioni, cioe' alla stima come variabile aleatoria, si
parla di stimatore.
734. Qual'e' la dierenza tra stima e stimatore?
Lo stimatore e' una variabile aleatoria che descrive le stime nel campionamento ripetuto.
Una stima e' un singolo numero ottenuto in un particolare campione. Lo stimatore ha una
distribuzione campionaria, mentre la stima e' un numero solo. Talvolta e' utile distinguere
197
anche formalmente lo stimatore, indicato con una lettera maiuscola, dalla stima, indicata
con la stessa lettera minuscola. Per esempio si parlera' di stimatore proporzione campionaria
P distinguendolo dalla singola proporzione stimata p che e' una realizzazione della variabile
aleatoria precedente.
Si puo' proporre una analogia intuitiva secondo cui lo stimatore sta al fucile come la stima
sta al colpo sparato. Il fucile, ossia la rosa dei colpi potenziali che esso puo' sparare, una volta
puntato verso il bersaglio, corrisponde allo stimatore ossia alla distribuzione campionaria delle
stime nell'universo dei campioni. Invece, un particolare colpo, tra tutti i possibili della rosa,
corrisponde a una stima ottenuta da uno specico campione.
735. Quali sono le proprieta' principali di una stima, basate sul campionamento ripetuto?
Per quanto detto sopra le proprieta' riguardano gli stimatori e non le stime. Le proprieta'
fondamentali sono due
la non distorsione (o correttezza )
la precisione.
736. Quando si dice che uno stimatore e' non distorto?
Uno stimatore e' non distorto, o corretto, se la sua distribuzione campionaria e' centrata
sul parametro che si vuol stimare. Cioe' uno stimatore e' non distorto se la media delle stime
nell'universo dei campioni e' uguale al parametro ignoto, quale che sia il parametro ignoto.
Ad esempio, la media campionaria X e' uno stimatore corretto di , perche' E (X ) = .
Analogamente, la proporzione campionaria di successi P e' uno stimatore corretto di perche'
E (P ) = . Notare che e' possibile stabilire la correttezza, anche senza conoscere il valore del
parametro, perche' i conti vengono fatti colcalcolo delle probabilita' nell'universo dei campioni.
Proseguendo l'analogia gurata con il fucile, un fucile e' non distorto se la sua rosa dei
colpi e' centrata sul bersaglio (cfr. la gura seguente).
Nella gura, a sinistra e' rappresentata una rosa centrata sul bersaglio e a destra una rosa
sistematicamente spostata.
La non distorsione signica assenza di errore sistematico. Pertanto, se uno stimatore e'
non distorto siamo certi che non otterremo sistematicamente sovrastime o sottostime.
198
737. Che cos'e' la distorsione?

E' la dierenza tra la media dello stimatore e il parametro incognito.
738. Ci sono stimatori distorti?

Certamente, molti stimatori (anche buoni, per altro verso), sono distorti, nonostante il
processo di campionamento casuale tenda a eliminare le distorsioni da selezione (vedi cam-
pionamento per quota). In alcuni casi, cio' non costituisce un problema perche' la distorsione
e' un ammontare noto e, quindi, puo' essere eliminata. In altri casi il problema e' piu' serio
perche' non si conosce l'esatto valore della distorsione.
Un esempio di stimatore distorto e' la varianza campionaria, come stimatore di 2.
739. Come si misura la precisione di uno stimatore?

Con il suo errore quadratico medio. Quanto piu' e' grande l'errore quadratico medio e
minore e' la precisione dello stimatore.
740. Che cos'e' l'errore quadratico medio di uno stimatore?

E' la media degli scarti al quadrato tra le stime e il valore incognito del parametro. E' un
indice dell'errore dovuto al campionamento casuale.
Ad esempio, l'errore quadratico medio di X stimatore di e'
E f(X ; )2 g
Siccome e' la media di X , in questo caso l'errore quadratico medio e' semplicemente la
varianza dello stimatore, che e' 2=n. Notare che l'errore quadratico medio non dipende da
, ma solo da 2 ed n. Se la varianza della popolazione e' nota, e' un indice che si puo'
calcolare. Se non e' nota, e' a sua volta un parametro da stimare.
741. Trovare l'errore quadratico medio della proporzione di successi P .

L'errore quadratico medio di P stimatore della probabilita' di successo e'
E f(P ; )2g = (1 ; )=n
poiche', anche in questo caso, coincide con la varianza dello stimatore. Tuttavia, stavolta
l'errore quadratico medio di P dipende da che e' incognito e quindi non si puo' conoscere
direttamente, ma deve essere stimato a sua volta.
742. Che cos'e' l'errore standard ?

E' lo scarto quadratico medio della distribuzione campionaria dello stimatore. E' una
misura della variabilita' dello stimatore espressa nella stessa unita' di misura della variabile.
199
743. Quali sono l'errore standard della media e l'errore standard di una proporzione?
Possiamo calcolarli facilmente consocendo la varianza di X e di P , Risulta subito
p q
e.s.(X ) = = n e e.s.(P ) = (1 ; )=n
Entrambi indicano l'ordine di grandezza dell'errore di campionamento, ossia la precisione
della stima. Purtroppo non si possono calcolare esattamente se non sono noti nel primo
caso e nel secondo. Ovviamente la numerosita' del campione e' nota perche' e' scelta dal
ricercatore.
744. Come si puo' fare se l'errore standard dei due stimatori precedenti non e' noto?
Prima di aver ottenuto il campione, si puo' calcolare o l'errore standard nel caso peggiore,
cioe' il massimo errore standard ottenibile. Nel caso della media campionaria occorre sostiture
a un valore stimato per eccesso, eventualmente basato su analoghe indagini precedenti. Nel
caso della proporzione
p il caso peggiore e' quando = 0:5. Percio' l'errore standard del caso
peggiore e' 0:5= n.
Dopo aver estratto il campione, si puo' calcolare un errore standard stimato. Nel caso
della media, si sostituisce a una sua stima s ottenuta dai dati campionari. Nel caso di
una proporzione si sostituisce a la sua stima campionaria p (realizzazione della variabile
aleatoria P nel campione).
745. Quali sono gli errori standard stimati di X e di P ?
Per quanto detto sopra otterremo
ed
p
.s.(X ) = s= n e ed
q
.s.(P ) = p(1 ; p)=n
dove il cappello sopra e.s. indica che si sta utilizzando una stima dell'errore standard.
746. Un sondaggio basato su un campione casuale con ripetizione da una popolazione nita
di elettori ha dato i seguenti risultati dei favorevoli e contrari all'attuale governo (dati ttizi)
Favorevoli 220
Contrari 280
Totale 500
Qual'e' la stima dei favorevoli al governo nella popolazione? Qual'e' l'errore standard della
stima?
La stima di favorevoli e'
220 = 44%:
p = 500
Il suo errore standard e'
r
.s.(P ) = 220 280 1 = 2:21%:
ed
500 500 500
p
L'errore standard del caso peggiore e' 0:5= 500 = 2:23%: L'errore di campionamnto e' circa
di due punti percentuali.
200
747. Sono state provate venti auto della stessa marca e dello stesso modello su un percorso
urbano ed e' stato misurato il consumo (in litri di benzina per 100 km) ottenendo i risultati
seguenti (campione ordinato)
6.6 7.7 8.0 8.1 8.2
8.3 8.3 8.6 8.7 8.8
8.9 9.0 9.3 9.3 9.6
9.8 10.0 10.2 10.7 11.3
Supponendo che il consumo nella popolazione (potenziale) di auto di quel tipo sia una variabile
aleatoria normale di media incognita , stimare la mediap e il suo errore standard.
La media e' x = 8:97 litri. L'errore standard e' = 20 dove e' lo scarto quadratico medio
del consumo nella popolazione. Se si conoscesse tale scarto quadratico medio si potrebbe avere
un valore esatto dell'errore standard. Una stima dell'errore standard si ottiene calcolando una
stima s di dai dati campionari. Questa si puo' calcolare come radice della media degli scarti
al quadrato tra i pdati e la loro media 8.97. Si ottiene s = 1:071. Pertanto l'errore standard
stimato e' 1:071= 20 = 0:24 litri.
748. L'errore standard di P e di X varia inversamente alla radice quadrata della numerosita'
campionaria. Come si interpreta questo risultato?
Si interpreta dicendo che per dimezzare l'errore standard della stima occorre quadruplicare
la dimensione del campione.
749. La gura seguente illustra la distribuzione campionaria di X in campioni di dimensione
10 e di dimensione 40 dalla popolazione normale dei redditi avente media = 2:2 milioni di
lire e = 250 000 lire.
• • • • • •• • • • • •• • •• • • •• • • ••••••• • • • •• • • •• • •• • •
• • • •• •• • • • • • • • •• •• • • • •• • •• •• • •• • • • ••• • •
• •• • • • • •• • • • •• • • • •• •••• •• • • • • • • • • •• • •• • • •• • •
• • • • • •• • •• •• •• •• • • • • • ••••• • ••••• • • • • • •
• • •• ••• •• •
• • • •• • • •• • •• • • •• • ••• • •• • •• •• • • ••••• • ••••• •••
• • •• • • • • • • •• • • • •••• • ••• • • • •• • • •• • • • •••• • • • •
• • • •• • • • • • • • • • • ••• •• • •••• ••• •• • • • ••• • •

•• •• • • ••
• • • ••• • • • • • • • •• • • ••• • • ••• ••• • • • • ••••• ••• • • • • •• •• •
• • • • •• • • • • • • ••• •• • •• • •• •• •• •• ••• • • •• •• • • •• • •• •
•• • • •• • • • •• • • •••• • • ••• ••• • • ••••• • •••• • • •• • • •
• • •• • • • • • • • • • • ••• • ••• ••••• •••• • •• • • ••• •• ••
1.4 1.8 2.2 2.6 3.0 1.4 1.8 2.2 2.6 3.0
n = 10 n = 40
201
Le osservazioni campionarie sono riportate con puntini e la loro media e' il cerchietto nel
mezzo. Osservare come la precisione della media raddoppia quando il campione quadruplica.
750. Supponiamo che i voti alla maturita' degli iscritti a Scienze Politiche abbiano una
distribuzione teorica normale con media incognita. Si stima la media con un campione casuale
di 100 studenti, ottenendo un voto medio x = 41. Qual'e' il suo errore standard se la stima
di e' s = 5? p p
L'errore standard stimato e' s= n = 5= 100 = 0:5
751. Si estrae un campione casuale di 1500 abbonati alla televisione. La percentuale di
coloro che dichiarano di aver visto un tal programma e' il 22%. Qual'e' l'errore standard della
stima?
L'errore standard stimato
q
e'
0:22 (1 ; 0:22)=1500 = 0:0107 1
752. Da quanto precede, risulta che si puo' scegliere la dimensione del campione in modo
da ottenere una precisione prestabilita. Infatti, se si vuole ottenere un errore standard e
pressato per la media campionaria, si ha
p
e = = n e quindi n = 2=e2 :
Se non si conosce , si puo' stimare con un indagine pilota, su un campione ridotto.
753. Si voglia conoscere il consumo medio pro capite di latte (all'anno), con un errore
standard di 2 litri. Che numerosita' campionaria dobbiamo ssare, sapendo che lo scarto
quadratico medio nella popolazione e' circa 20 litri?
Si imposta l'equazione
p
2 = 20= n da cui n = 400=4 = 100:
p
754. Il caso di una proporzione e' analogo. Poiche' l'errore standard e' e = (1 ; )=n si
ottiene
n = (1 ; )=e2:
Siccome non si conosce , ne' si puo' stimare, perche' non si e' ancora estratto il campione,
si sostituisce a il valore 0:5 che corrisponde al caso peggiore, ottenendo
n = 0:5 0:5=e2:
755. Si vuole estrarre un campione casuale da una popolazione dicotomica e si vuol stimare
con un errore standard di mezzo punto percentuale. Di quanti elementi deve essere il
campione?
Si imposta l'equazione
q
0:005 = 0:5 0:5=n da cui 0:000025 = 0:25=n
e, quindi, n = 10 000.
202
Appendice A
Dati
A.1 Dati sui frequentanti di un corso di Statistica

I dati delle tabelle A.1 e A.2 sono stati rilevati con un questionario all'inizio dell'anno ac-
cademico 1995{1996 sugli studenti del corso di Statistica della facolta' di Scienze Politiche
di Sassari. Alle 11 domande hanno risposto 94 studenti. Gli asterischi indicano le risposte
mancanti.
1. X1 : sesso (m = maschio, f = femmina)
2. X2 : numero di componenti della famiglia
3. X3 : scuola di provenienza (L = liceo, I = istituto tecnico, A = altro)
4. X4 : voto alla maturita'
5. X5 : almeno uno dei genitori ha un diploma di scuola superiore? (s, no)
6. X6 : numero di auto possedute in famiglia
7. X7 : abiti a Sassari? (si, no)
8. X8 : quanti minuti impieghi per raggiungere l'universita'?
9. X9 : quanti cm sei alto?
10. X10: fumi? (s, no)
11. X11: i tuoi genitori fumano? (0 = nessuno, 1 = uno, 2 = entrambi).
203
204
Studente X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11

1 m I 46 s 3 s 5 170 s 0
2 f 4 L 54 s 2 s 10 170 s 1
3 f 3 L 57 no 1 no 45 162 no 0
4 f 3 L 48 s 2 no 40 160 s 1
5 f 5 L 58 s 2 no 60 157 s 1
6 m 5 L 49 s 2 no 45 169 no 1
7 f 5 L 50 no 1 s 15 170 no 1
8 f 1 L 52 no 1 s 15 154 no 0
9 f I 40 no 2 no 20 158 s 0
10 f 4 L 36 s 2 s 25 164 s 0
11 f 5 I 60 no 2 s 20 163 no 0
12 f 3 I 48 s 2 s 7 175 no 0
13 f 5 I 44 no 1 no 45 167 no 0
14 f 4 L 36 s 4 s 15 165 no 0
15 m 4 L 53 s 1 s 10 178 no 0
16 f 4 L 36 no 1 no 30 170 s 2
17 m 4 I 42 s 2 s 10 178 s 1
18 f 8 I 54 no 1 no 10 150 no 0
19 f 4 A 42 s 2 s 15 160 s 0
20 f 5 I 48 no 2 no 35 160 no 0
21 f 4 I 52 s 2 no 30 164 s 0
22 m 3 A 42 no 2 no 35 180 no 1
23 m 6 I 50 s 2 s 30 175 no 1
24 f 4 I 57 no 3 s 10 153 no 0
25 m 3 L 36 s 2 s 10 182 no 1
26 m 5 I 40 s 2 s 10 170 s 0
27 m 4 I 52 s 2 s 5 170 s 0
28 f 6 L 42 s 2 s 30 165 s 1
29 m 4 L 37 no 1 no 60 175 no 0
30 m 5 I 45 no 2 s 10 178 no 1
31 m 3 I 38 s 3 s 20 173 no 0
32 m 5 L 43 s 2 s 10 173 no 1
33 m 4 I 44 no 2 s 10 175 s 2
34 m 4 L 43 s 2 s 10 179 no 0
35 m 4 L 58 no 1 s 25 171 s 1
36 f 4 I 56 no 1 s 20 163 no 0
37 m 4 L 36 no 2 no 60 165 s 0
38 f 4 A 52 no 1 no 40 163 no 0
39 f 8 I 46 no 1 s 20 150 no 0
40 m 4 L 48 s 1 s 10 172 no 0
41 f 5 A 45 s 2 s 2 162 s 2
42 f 5 A 43 no 1 no 15 163 no 1
43 f 4 A 52 s 2 s 10 170 no 1
44 f 5 L 51 s 2 s 15 155 no 1
45 m 4 I 44 s 1 s 10 179 s 1
46 f 7 I 46 no 6 s 15 170 no 0
47 m 4 A 36 no 2 no 30 175 s 1
Tabella A.1: Risposte al questionario per gli studenti da 1 a 47.
205
Studente X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11

48 f 7 I 48 no 1 s 15 165 no 0
49 f 5 L 38 s 2 s 5 173 no 1
50 f 2 I 52 no 1 s 30 162 no 0
51 f 4 L 60 s 2 s 20 170 no 0
52 m 3 I 45 s 2 s 5 170 s 1
53 m 3 L 36 no 3 s 13 176 s 2
54 f 5 L 50 s 3 s 10 166 s 0
55 f 3 L 45 s 3 s 10 160 s 0
56 f 3 I 44 no 1 no 40 166 no 0
57 m 4 I 42 s 2 s 10 180 s 2
58 m 4 L 45 no 2 s 15 174 no 1
59 m 4 I 44 no 1 no 30 185 no 0
60 f 4 L 52 no 1 no 12.5 160 no 0
61 m 6 L 40 s 2 s 173 no 1
62 f 5 I 43 no 4 s 5 159 no 1
63 m 4 L 46 s 2 no 40 166 no 0
64 m 4 I 36 s 1 no 60 176 s 0
65 m 4 I 36 no 2 no 40 180 s 0
66 f 3 L 50 s 2 no 50 165 s 1
67 f 4 L 42 no 2 no 55 165 s 0
68 f 5 A 42 no 1 no 25 160 no 1
69 f 4 I 48 s 2 no 25 150 no 1
70 f 4 L 56 no 2 no 25 150 no 0
71 f 3 L 50 no 2 no 25 172 no 0
72 f 4 L 46 no 2 no 10 162 no 0
73 f 4 L 52 s 2 s 10 164 no 1
74 f 4 I 53 no 2 no 40 165 no 2
75 f 6 I 44 no 1 s 15 165 no 0
76 f 4 I 56 no 2 s 15 156 no 0
77 f 5 I 38 no 2 s 50 160 no 2
78 f 6 I 56 s 2 no 40 163 no 1
79 f 5 I 48 no 1 no 60 152 no 1
80 f 4 I 60 no 1 no 60 164 no 0
81 f 3 I 44 s 1 s 25 161 no 2
82 f 4 L 52 s 3 s 20 165 s 0
83 m 4 I 36 s 1 no 10 180 s 0
84 m 4 L 42 no 2 no 30 173 no 0
85 f 3 I 45 no 1 s 5 160 no 1
86 f 6 L 54 s 2 s 6 170 no 0
87 f 4 I 44 s 2 s 15 150 s 1
88 m 5 L 44 s 3 s 20 173 s 0
89 f 4 L 48 s 2 s 152 s 1
90 m 6 L 54 s 2 s 10 175 no 0
91 m 4 L 45 s 2 s 10 187 no 1
92 m 4 I 45 s 6 s 10 170 s 1
93 m 3 I 40 s 1 s 10 170 no 0
94 f 6 I 40 no 5 s 20 160 s 0
Tabella A.2: Risposte al questionario per gli studenti da 48 a 94.
206
Appendice B
Tavola della distribuzione normale
Area, in percentuale, sotto la normale standardizzata compresa tra due valori ;z e +z . I

valori in grassetto indicano valori di z che corrispondono ad alcune aree tipiche.
z Area z Area z Area z Area
0.00 0.00 0.80 57.63 1.645 90 2.50 98.76
0.05 3.99 0.842 60 1.65 90.11 2.55 98.92
0.10 7.97 0.85 60.47 1.70 91.09 2.576 99
0.120 10 0.90 63.19 1.75 91.99 2.60 99.07

0.15 11.92 0.95 65.79 1.80 92.81 2.65 99.20
0.20 15.85 1.00 68.27 1.85 93.57 2.70 99.31
0.25 19.74 1.036 70 1.90 94.26 2.75 99.40
0.253 20 1.05 70.63 1.95 94.88 2.80 99.49
0.30 23.58 1.10 72.87 1.960 95 2.813 99.5
0.35 27.37 1.15 74.99 2.00 95.45 2.85 99.56

0.385 30 1.20 76.99 2.05 95.96 2.90 99.63
0.40 31.08 1.25 78.87 2.10 96.43 2.95 99.68
0.45 34.73 1.282 80 2.15 96.84 3.00 99.73
0.50 38.29 1.30 80.64 2.20 97.22 3.05 99.77
0.524 40 1.35 82.30 2.242 97.5 3.090 99.8
0.55 41.77 1.40 83.85 2.25 97.56 3.10 99.81

0.60 45.15 1.440 85 2.30 97.86 3.15 99.84
0.65 48.43 1.45 85.29 2.326 98 3.20 99.86
0.674 50 1.50 86.64 2.35 98.12 3.25 99.88
0.70 51.61 1.55 87.89 2.40 98.36 3.291 99.9
0.75 54.67 1.60 89.04 2.45 98.57 3.30 99.90

207

Dispensa Statistica

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Dispensa Statistica

Caricato da

Copyright:

Formati disponibili

Lezioni di Statistica

Universita di Sassari, Facolta di Scienze Politiche, Anno accademico 1996{1997

2.6 La struttura del fenomeno collettivo . . . . . . . . . . . . . . . . . . . . . . . 15

4.23 Unita' di misura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

10.4 Funzione di regressione lineare . . . . . . . . . . . . . . . . . . . . . . . . . . 114

1.1 Fenomeni collettivi

2. Che cosa sono i fenomeni collettivi?

Vi sono tre concetti, intimamente legati, che permettono di de nire quantitativamente

21. Quante sono le determinazioni del sesso in questo esempio?

24. Che cos'e' un campione?

26. Qual'e' l'obbiettivo delle indagini campionarie?

28. Esempi rilevanti?

30. Quali sono i vantaggi e gli svantaggi?

31. Quali tipi di errori sono rilevanti nelle indagini campionarie?

32. Quali tipi di errori sono rilevanti nei censimenti?

33. E'possibile stimare l'ordine di grandezza degli errori?

35. Quali scienze utilizzano dati osservazionali?

37. Come e' e ettuato un esperimento?

46. Fare un esempio di unita' individuale.

57. Fare un esempio.

58. Che cosa si intende per modalita' teoriche di un carattere continuo?

60. Quante sono le modalita' e ettive di un carattere?

61. Come si interpretano le modalita' e ettive di un carattere continuo?

65. Fare esempi di caratteri ordinali.

66. Si possono interpretare le di erenze tra modalita' di caratteri ordinali?

68. I caratteri continui e quantitativi discreti sono ordinali?

70. Quali sono i caratteri dicotomici?

81. Fare esempi di dati di stato e di usso.

82. Qual'e' il processo temporale sottostante all'esempio dei nati?

83. Fare altri esempi di dati di usso.

86. Fare esempi di fenomeni che debbono essere riferiti a zone.

88. Che cosa e' una rilevazione dinamica?

89. Che cosa e' una indagine longitudinale?

90. Fare degli esempi di indagine statica.

95. Che cos'e' la successione delle determinazioni?

96. La successione puo' essere compattata?

98. Che cos'e' una frequenza?

106. Costruire la distribuzione di frequenza secondo il numero di componenti della famiglia.

107. Perche' il totale e' 92 e non 94?

111. Qual'e' il modo migliore per evidenziare la struttura della popolazione?

112. Che cos'e' una frequenza relativa?

2.7 Calcoli per le frequenze relative

123. Come e' stata ottenuta la percentuale 44:6%?

129. Le frequenze possono essere uguali a zero?

2.14 Distribuzioni in classi

2.15 Ampiezza delle classi

141. Come si calcola l'ampiezza?

142. Le classi devono essere tutte della stessa ampiezza?

144. Come si elimina l'e etto delle diverse ampiezze?

145. Come si chiama la frequenza per unita' di del carattere?

147. Confrontare le frequenze delle ultime due classi.

149. Qual'e' la classe con maggiore densita'?

151. Se si cambiano le classi di un carattere continuo le densita' restano le stesse?

152. E' possibile risalire dalle densita' alle frequenze?

Rappresentazioni gra che

155. Esiste una classi cazione dei gra ci per distribuzioni?

157. Rappresentare la seguente successione di voti alla maturita'

158. Quando e' utile lo scatter?

159. Come si visualizzano i caratteri continui raggruppati in classi?

162. Come si rappresentano le densita' delle classi?

163. Rappresentare l'istogramma della distribuzione del problema 146.

165. L'istogramma de nisce una successione di rettangoli di base uguale all'ampiezza di

166. L'area totale sotto l'istogramma a cosa e' uguale?

Universita di Sassari, Facolta di Scienze Politiche, Anno accademico 1996{1997

Vi sono tre concetti, intimamente legati, che permettono di denire quantitativamente

37. Come e' eettuato un esperimento?

60. Quante sono le modalita' eettive di un carattere?

61. Come si interpretano le modalita' eettive di un carattere continuo?

66. Si possono interpretare le dierenze tra modalita' di caratteri ordinali?

144. Come si elimina l'eetto delle diverse ampiezze?

Rappresentazioni grache

155. Esiste una classicazione dei graci per distribuzioni?

165. L'istogramma denisce una successione di rettangoli di base uguale all'ampiezza di

167. Rappresentare l'istogramma della supercie degli alberghi.

171. Che cosa signica istogramma?

207. La dierenza di pressione puo' essere attribuita al sesso?

Dimostrare l'aermazione.

255. Esemplicare.

257. Esemplicare.

261. Quali rappresentazioni grache si usano per le serie storiche?