Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Giovanni M. Marchetti
1 Concetti introduttivi 1
1.1 Fenomeni collettivi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Unita' . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.3 Caratteri . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.4 Processo di rilevazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.5 Osservazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.6 Tipi di indagine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.7 Campioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.8 Censimenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.9 Confronti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.10 Studi osservazionali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.11 Esperimenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.12 Confronti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.13 Denizione delle unita' . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.14 Dati individuali e aggregati . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.15 Tipi di caratteri . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.16 Caratteri continui . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.17 Caratteri discreti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.18 Modalita' di un carattere continuo . . . . . . . . . . . . . . . . . . . . . . . . 8
1.19 Discretezza delle misurazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.20 Caratteri ordinali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.21 Caratteri sconnessi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.22 Tempo e spazio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.23 Spazio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.24 Rilevazioni statiche e dinamiche . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.25 Serie storiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2 Distribuzioni di frequenza 13
2.1 Successioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2 Frequenze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.3 Presentazioni tabulari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.4 Distribuzione di frequenze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.5 Costruzione delle distribuzioni di frequenza . . . . . . . . . . . . . . . . . . . 15
i
ii
Concetti introduttivi
1.5 Osservazioni
11. Come possono essere le modalita' teoriche di un carattere?
Per alcuni caratteri le modalita' sono numeriche mentre per altri sono categorie.
12. Tutti i caratteri hanno una unita' di misura?
Alcuni caratteri (es. la durata) hanno una unita' di misura ed e' necessario sceglierla.
Altri caratteri hanno una unita' di misura naturale (es. il numero di componenti). Altri
caratteri non hanno unita' di misura (il sesso).
13. Che cos'e' il raggruppamento in classi?
Quando le modalita' di un carattere sono molte (es. tipo di scuola) puo' essere utile
raggrupparle in un numero minore di classi (sottoinsiemi di modalita').
14. Che cos'e' lo strumento di misura usato nel processo di rilevazione?
E' il mezzo tecnico con cui il dato statistico viene rilevato. Nell'esempio e' il questionario.
15. Che cosa sono gli errori di misura?
Sono gli errori che si commettono nel rilevare il dato a causa di una imperfezione sistema-
tica dello strumento di misura. Ad esempio se il questionario e' mal realizzato o distribuito i
dati rilevati sono presumibilmente aetti da errori di misura
16. Che associazione produce il processo di rilevazione?
Esso realizza l'associazione di una e una sola modalita' di ciascun carattere a ciascuna
unita'.
17. Che cosa sono i dati mancanti?
Si hanno dati mancanti quando, per vari motivi, non e' possibile rilevare il dato relativo
a un carattere su una particolare unita'. Nel caso di indagini tramite questionario essi sono
associati a non risposte
18. Come si chiama il dato osservato su ogni unita'?
Si dice determinazione o realizzazione del carattere.
19. Risultati dei primi 5 questionari relativi all'anno accademico 95{96 e per i due caratteri
sesso e voto.
studente 1 2 3 4 5
sesso m f f f f
voto 46 54 57 48 58
20. Quante sono le modalita' del sesso?
Due.
4
25. Come si chiama la branca della statistica che si occupa della progettazione delle indagini
campionarie?
Campionamento statistico.
1.9 Confronti
29. Qual'e' la dierenza essenziale tra indagini campionarie e censimenti?
Nelle prime si opera una rilevazione parziale, mentre nei secondi si opera una rilevazione
completa.
54. Un medico e' interessato a studiare un gruppo di pazienti aetti da disturbi cardiaci.
Per ciascun paziente rileva i seguenti caratteri.
Carattere Modalita' teoriche
pressione sanguigna (mm) x reale tale che 80 x 250
numero di battiti al minuto f20, 21, 22, . . . , 200g
altezza (cm) x reale tale che 150 x 200
55. Classicare i caratteri precedenti.
La pressione e' un carattere continuo misurato con un strumento chiamato sgmomano-
metro. L'unita' di misura e' in mm di mercurio.
Il numero di battiti e' un carattere discreto perche' e' un conteggio.
L'altezza e' anch'essa un carattere continuo perche' si assume che essa vari in uno stesso
individuo con continuita' e non a salti.
1.18 Modalita' di un carattere continuo
56. Che cosa si intende per unita' minima di misurazione?
Si intende quella tollarenza posseduta da ogni strumento di misura al di la' della quale
esso non riesce a distinguere.
62. Quante sono le modalita' eettive dell'altezza se e' misurata in cm ed e' compresa tra
150 e 200 cm?
Il carattere rilevato ha solo 51 possibili modalita' contro le innite possibili.
9
63. Se l'altezza di un individuo e' misurata in 175 cm qual'e' l'intervallo di misure corri-
spondente?
L'intervallo di misure che vanno da 174.5 cm a 175.5 cm.
1.20 Caratteri ordinali
64. Quali sono i caratteri ordinali?
I caratteri ordinali (o ordinabili), sono quelli che hanno delle modalita' che possono essere
ordinate.
67. Se si associano dei punteggi numerici alle modalita' di un carattere ordinale, si possono
interpretare le dierenze tra punteggi?
No non e' possibile.
71. La segreteria dell'Universita' rileva per tutti gli studenti iscritti all'Ateneo vari caratteri
tra cui i seguenti
10
Carattere Modalita'
sesso fm,fg
e' in regola? fsi', nog
facolta' (elenco di tutte le facolta')
anno di iscrizione f1, 2, 3, 4, 4o ripetente, fuori corsog
72. Classicare i caratteri dell'esempio.
Il carattere sesso e' dicotomico, perche' le mod unita'.
73. Classicare i caratteri X2; X3; X4; X8 e X10.
Il carattere X2 , numero di componenti della famiglia e' quantitativo discreto.
Il carattere X3 , scuola di provenienza e' sconnesso.
Il carattere X4 , voto alla maturita' e' ordinabile.
Il carattere X8 , quanti minuti impieghi a raggiungere l'universita'?, e' continuo.
Il carattere X10, fumi?, e' binario.
74. Il carattere voto alla maturita' e' quantitativo discreto?
A rigore no, perche' non e' possibile interpretare le dierenze tra punteggi dicendo, ad
esempio che la dierenza tra un punteggio di 60 e uno di 54 e' la stessa esistente tra 42 e 36.
E' possibile invece ordinare gli studenti dai meno bravi ai piu' bravi.
75. Il carattere religione che tipo di carattere e'?
Sconnesso.
76. Il carattere numero di gli che tipo di carattere e'?
Quantitativo discreto.
77. Qual'e' l'unita' statistica cui va riferito il carattere precedente?
La famiglia.
1.22 Tempo e spazio
78. E' importante il tempo in un indagine statistica?
Si e' importante. Su ogni unita' statistica e' possibile rilevare il tempo al quale la
rilevazione e' avvenuta.
79. Come si distinguono i fenomeni in relazione alla rilevazione nel tempo?
Certi fenomeni si possono rilevare in un preciso istante di tempo e vengono detti fenomeni
di stato, mentre per altri la rilevazione deve avvenire necessariamente in un intervallo di tempo
e vengono detti fenomeni di movimento o di
usso.
80. Quando si ottengono tipicamente i dati di
usso?
Quando si contano eventi che avvengono secondo un processo temporale.
11
85. Fare degli esempi di fenomeni che possono essere riferiti a un punto geograco.
Ad ogni famiglia si puo' associare la residenza mediante la posizione su un arco di strada
della mappa del comune.
In ogni punto geograco si puo' rilevare un carattere come la temperatura o la pressione.
Distribuzioni di frequenza
2.1 Successioni
In quello che segue si considera il caso piu' semplice in cui si dispone di una popolazione di
unita' osservata a un certo tempo, e su cui viene rilevato un solo carattere.
99. Qual'e' la successione delle determinazioni della Scuola di provenienza per i dati sui
frequentanti?
E' composta delle 94 osservazioni seguenti
13
14
I L L L L L L L I L I I I L L L I I A I
I A I I L I I L L I I L I L L I L A I L
A A A L I I A I L I L I L L L I I L I L
L I L I I L L A I L L L L I I I I I I I
I L I L I L I L L L L I I I
dove L = Liceo, I = Istituti tecnici, e A = Altre scuole.
100. Quali sono le frequenze?
Una semplice operazione di spoglio permette di riassumere l'insieme delle osservazioni
nella tabella seguente
Modalita' Frequenza
L 42
I 44
A 8
2.3 Presentazioni tabulari
101. Come si presentano le frequenze?
La tabella e' migliorata aggiungendo il totale delle osservazioni e scrivendo per esteso le
modalita', per esempio
Tipo di scuola Studenti
Liceo 42
Istituti tecnici 44
Altre scuole 8
Totale 94
102. Si possono mettere le frequenze per colonne?
Ovviamente si'. Per esempio,
Tipo di scuola Liceo Istituti tecnici Altre scuole Totale
Studenti 42 44 8 94
2.4 Distribuzione di frequenze
103. Che cos'e' una distribuzione di frequenze?
E' la tabella che si ottiene associando ad ogni modalita' teorica le frequenze osservate,
alludendo al fatto che le unita' vengono distribuite ossia classicate secondo le modalita' del
carattere.
104. Che signica distribuzione di frequenze semplice?
Distribuzione di frequenze di un solo carattere.
105. Che cosa si perde passando dalla successione alla distribuzione?
Non si puo' piu' conoscere il dato relativo a ciascuna unita'.
15
109. Quali sono i passi necessari per costruire una buona tabella?
(a) La successione delle osservazione deve essere registrata in modo opportuno su un ar-
chivio elettronico (le), (b) deve essere scritto un opportuno programma che usi un algoritmo
per classicare le osservazioni, (c) il programma deve essere fatto girare con i dati registrati
e, inne, (d) i risultati forniti dall'elaboratore debbono essere riscritti in forma leggibile.
110. Dati della World Fertility Survey, anno 1974 per le isole Figi. La popolazione e'
costituita da donne sposate di eta' tra 15 e 49 anni. Il carattere rilevato e' la residenza con
modalita': Suva (la capitale), Altre zone urbane, Zona rurale, Non precisata. La distribuzione
di frequenza e' la seguente
Residenza Numero di donne
Suva 800
Altre zone urbane 964
Zona Rurale 3146
Non precisata 18
Totale 4928
2.6 La struttura del fenomeno collettivo
La distribuzione di frequenza non e' soltanto un modo per compattare la successione delle
osservazioni, ma e' anche un modo per fare emergere la struttura del fenomeno collettivo.
132. I dati seguenti sono le intensita' (in gradi Richter) dei principali terremoti avvenuti
nel mondo dal 1966 al 1976.
6:9 7:4 7:4 7:7 6:5 6:9 6:2 6:3 6:8 7:5 6:5
E' utile costruire una distribuzione di frequenza?
No in quanto il numero di modalita' e' molto elevato e le frequenze sono molto piccole.
2.12 Aggregazione
133. E' possibile diminuire il numero delle modalita'?
Si'. Basta aggregare le modalita' in classi, denendo una partizione delle modalita'.
134. L'aggregazione e' arbitraria?
Il numero di classi e la loro denizione puo' essere scelto arbitrariamente, ma esistono
modi piu' o meno buoni di farlo.
135. Le classi [151; 155]; [156; 160]; [161; 165]; [166; 170] indicano degli intervalli di altezze,
estremi inclusi. Sono delle classi corrette?
Si', se le altezze sono rilevate in cm, perche' ogni determinazione puo' essere asseganata a
una e una sola classe.
2.13 Classi per caratteri continui
136. Come si fanno le classi per i caratteri continui?
Si costruiscono delle successioni di intervalli in modo che ogni unita' possa essere attribuita
a uno e un solo intervallo.
137. Come possono essere le classi?
Possono essere
intervalli contenenti entrambi gli estremi, es. [151; 155] indicato con 151 - 155
intervalli contenenti solo un estremo, es. [151; 155) indicato con 151 - 155| oppure
(151; 155] indicato con 151 - 155|.
19
139. Trovare la distribuzione di frequenza dei terremoti, con delle classi di intensita' (6; 6:5],
(6:5; 7], (7; 7:5], (7:5; 8].
La distribuzione e'
6 -| 6.5 6.5 -| 7.0 7.0 -| 7.5 7.5 -| 8.0 Totale
4 3 3 1 11
146. Si confrontino le frequenze della distribuzione seguente di una popolazione classicata
secondo l'eta'.
20
Eta' Frequenza %
0 -| 10 10
10 -| 20 10
20 -| 40 20
40 -| 60 30
60 -| 100 30
Totale 100
E' possibile fare il confronto tra le frequenze delle due prime classi, che hanno la stessa
ampiezza, ma sarebbe errato confrontare ad esempio le frequenze delle ultime due perche'
hanno ampiezze diverse.
150. Perche' la seconda e la terza classe hanno uguale densita' pur avendo frequenze diverse?
La classe da 20 a 40 anni ha una frequenza doppia della classe da 10 a 20 anni ma anche
un'ampiezza doppia.
153. La distribuzione seguente riguarda gli alberghi di un comprensorio, classicati secondo
la supercie. Trovare le densita'.
Superficie Alberghi % Densita'
200 |- 400 23 31.9 0.16
400 |- 800 15 20.8 0.05
800 |- 1600 22 30.6 0.03
1600 |- 3000 12 16.7 0.01
Totale 72 100.0
22
SETTIMANA 3
3.1 Visualizzazione
154. Si possono fare dei graci per rappresentare le distribuzioni?
Le tecniche appropriate che dipendono dal tipo di carattere studiato. Si da' la preferenza
a rappresentazioni delle frequenze o delle densita' su un graco in coordinate Cartesiane.
o
o
o o
o o o o o o
+-----------+-----------+-----------+-----------+
36 42 48 54 60
160. Disegnare gli scatter per la distribuzione degli studenti frequentanti relativamente al
voto alla maturita' e al tempo impiegato per raggiungere l'universita'.
5 40 45 50 55 60
Voto alla maturita'
0 10 20 30 40 50 60
Tempo per arrivare all'Universita'
3.3 Istogrammi
161. Cosa sono gli istogrammi?
Sono rappresentazioni grache della densita' delle classi di una distribuzione continua
raggruppata.
164. E' necessario che l'unita' di misura sia la stessa per le ascisse e per le ordinate?
No, non e' necessario.
170. Nell'ultimo istogramma la prima classe ha densita' 0:16 e la seconda ha densita' 0:05.
Come si interpreta questo fatto?
La prima classe ha una densita' tripla della seconda.
L I A
Scuola
Esistono i diagrammi a settori circolari (le cosiddette `torte') tipici dei programmi automa-
tici. Sono da evitare perche' la percezione delle lunghezze e' molto migliore della percezione
degli angoli.
In particolare sono da evitare le torte in prospettiva e tridimensionali, che oltre che di
cattivo gusto peggiorano ulteriormente la percezione della struttura della distribuzione.
Medico
r.
Ag
i
Scien lom
t. Dip
Lett.
. In
Giur g.
Eco.
28
200000
150000
Numero di iscritti
100000 50000
0
Il diagramma a barre e' preferibile perche' la percezione delle lunghezze e' migliore della
precezione degli angoli. Ogni abbellimento del graco a torta (torte in prospettiva, tridimen-
sionali, con fette che escono) sono da sconsigliare perche' aggiungono elementi inutili e in
genere fuorvianti.
SETTIMANA 4
4.1 Rapporti
176. Sono stati utilizzati due tipi di rapporti nora. Quali?
Il rapporto tra frequenza di una modalita' e frequenza totale per costruire le frequenze
relative e il rapporto tra frequenza di una classe e l'ampiezza della classe per costruire le
densita'.
Il primo rapporto (di una parte al tutto) si dice di composizione il secondo si dice di
densita.
4.3 Mutabili
Una distribuzione di frequenza di un carattere sconnesso si dice mutabile.
181. Trovare la moda della distribuzione degli studenti per scuola di provenienza.
La moda e' rappresentata dagli Istituti tecnici.
182. E' vero che la moda della distribuzione del problema 146 e' 196344?
No, la moda non e' la frequenza piu' alta, ma la modalita' ad essa associata, cioe' il gruppo
letterario.
183. La seguente distribuzione mostra gli alberghi del comprensorio di Assisi secondo la
categoria (30-6-1987).
31
Categoria n. alberghi
1 stella 23
2 stelle 37
3 stelle 14
4 stelle 4
Totale 78
Qual'e' il valore modale della distribuzione?
La seconda categoria.
4.5 Caratteri ordinali
Per caratteri ordinali si usa spesso un valore rappresentativo detto mediana.
199. Qual'e' il numero medio di stanze per abitazione per la Sardegna e per l'Italia?
Sono due collettivi di abitazioni su cui si e' rilevato il carattere numero di stanze. Gli
ammontari totali sono gia' calcolati. Le medie sono
m1 = 1955978
393622 = 4 : 9 m 2=
61059498 = 4:5
13419121
34
Il numero totale di gli e' 100 che diviso per 80 famiglie da' una media di 1:25 gli.
202. Far vedere che si puo' usare anche la formula della media aritmetica per una variabile
discreta.
Infatti
m = 0 10 + 1 8040 + 2 30
10 + 1 40 + 2 30
= 0 80 80 80
= 0 0:125 + 1 0:5 + 2 0:375 = 1:25
4.8 Media e mediana
203. Supponiamo che per sbaglio i dati
1; 2; 3; 4; 5; 6; 7
siano stati trascritti come
1; 2; 3; 4; 5; 6; 700:
Come si trasformano la media e la mediana?
La mediana resta invariata, mentre la media diventa 103. La mediana e' piu' resistente
quando un solo valore della successione viene alterato, mentre la media e' molto sensibile.
204. Che cos'e' un valore atipico?
E' un dato che e' molto diverso dal resto della distribuzione. (Ad esempio, 700 nel
problema precedente.)
205. Come si comportano la media e la mediana in presenza di dati atipici?
La mediana ne e' scarsamente aetta in confronto alla media che invece ne risente sensi-
bilmente.
35
211. Gli impiegati di una ditta hanno uno stipendio medio mensile di 1:6 milioni. La
direzione decide di dare a tutti una gratica di 200 mila lire. Qual'e' lo stipendio medio alla
ne?
E' di 1.8 milioni.
36
La media ottenuta direttamente e' 25:75. Questa si puo' ottenere anche con la formula
2 3 + 40 5 = 25:75:
3+5
218. La tabella seguente rissume la distribuzione del voto alla maturita' per il gruppo dei
maschi e delle femmine dei frequentanti.
Voto medio Studenti
Maschi 43:28 36
Femmine 48:36 58
Qual'e' il voto medio per tutto il collettivo?
E'
36 43:28 + 58 48:36 = 46:41:
94
4.16 Medie ponderate
219. Uno studente supera gli esami di Sociologia con 30, Statistica con 25 e Inglese con 27.
Calcolare il voto medio tenendo conto della dicolta' degli esami: la dicolta' di Statistica
e' doppia di quella di Sociologia e la dicolta' di Inglese e' 2:5 volte quella di Sociologia.
In questo caso e' opportuno calcolare una media aritmetica ponderata dei punteggi con
pesi 1; 2 e 2:5. Percio'
m = 30 1 +1 25 2 + 27 2:5 = 26:82
+ 2 + 2:5
220. Che cos'e' una media aritmetica ponderata?
E' una media per dati che non hanno ciascuno peso uguale a 1, ma pesi diversi. Per
esempio, se le determinazioni sono x1 ; x2; x3 e hanno pesi w1; w2; w3 la media e'
m = x1 ww1 ++xw2w2++wx3w3
1 2 3
221. Che succede alla media ponderata se i pesi sono tutti uguali?
Si ottiene la usuale media aritmetica.
4.17 Medie di medie
222. Supponiamo di avere i voti medi di laurea per tre gruppi di laureati in Scienze Politiche,
distinti a seconda della scuola superiore di provenienza, come segue
Scuola Voto medio Numero
Licei 105:9 200
Istituti Tecnici 102:8 300
Altro 100:2 100
Trovare il voto medio di laurea.
38
La somma dei voti per ciascuna scuola e', rispettivamente, 105:9 200 = 21180, 102:8
300 = 30840 e 100:2 100 = 10020. Quindi la media e' il totale voti 62040 ripartito su 600
studenti, cioe' 103:4.
224. Calcolare la media ponderata di 0 e 1 con pesi 25 e 75. Il risultato e' piu' vicino a 0 o
a 1?
Il risultato e' 0:75, piu' vicino a 1 perche' il valore 1 pesa di piu'.
225. Quali proprieta' della media aritmetica valgono anche per la mediana?
La mediana si trasforma come la media quando i dati vengono trasformati per aggiunta
di una costante o per moltiplicazione per una costante. Invece, dati due collettivi di cui si
conoscono le mediane non e' possibile calcolare la mediana dei due collettivi combinati con
una regola semplice.
4.18 Ogni media e' imprecisa
Una media e' una sintesi imperfetta di una distribuzione. Assieme alla media occorre avere
una misura di questa imprecisione.
226. Fare degli esempi di distribuzioni diverse che hanno la stessa media.
Per esempio X = (1; 2; 3; 4; 5) e Y = (3; 3; 3; 3; 3) hanno la stessa media e anche Z =
(0; 0; 0; 0; 15) o U = (2:6; 2:8; 3; 3:2; 3:4).
227. Dire nei casi precedenti quando la media e' una buona sintesi e quando e' meno buona.
Si possono ordinare dal caso peggiore al caso migliore Z , X , U , Y .
4.19 Equazione base
Immaginando di sostituire a ogni osservazione, la media si commette un errore pari al dato
meno la media. Chiamiamo l'errore scarto oppure residuo.
La media e' 100=80 = 1:25. I residui al quadrato sono i seguenti con accanto la frequenza con
cui sono ripetuti.
Numero di gli N. di donne
(0 ; 1:25)2 = 1:5625 20
(1 ; 1:25)2 = 0:0625 30
(2 ; 1:25)2 = 0:5625 20
(3 ; 1:25)2 = 3:0625 10
4.27 Calcoli
246. Calcolare lo sqm dell'esercizio precedente.
La varianza si ottiene facendo la media dei residui al quadrato ottenuta tenendo conto
delle frequenze:
s2 = 1:5625 20 + 0:0625 30 + 0:5625 20 + 3:0625 10
20 + 30 + 20 + 10
= 1:007
p
Lo sqm e', pertanto, di 1:007 1 glio.
4.28 Varianza di una variabile discreta
247. Scrivere formalmente la varianza di una variabile discreta X con modalita' xi e fre-
quenze relative fi , (i = 1; 2; 3; : : :).
Risulta
s2 = (x1 ; m)2f1 + (x2 ; m)2f2 + (x3 ; m)2f3 +
248. Qual'e' lo sqm di X = (0; 1; 2) con frequenze relative (0:2; 0:3; 0:5)?
La media e' m = 1 0:3 + 2 0:5 = 1:3. La varianza e'
s2 = (0 ; 1:3)2 0:2 + (1 ; 1:3)2 0:3 + (3 ; 1:3)2 0:5 = 1:81
Lo sqm e' s = 1:3.
4.29 Intervalli intorno alla media
249. Come si interpretano congiuntamente media e sqm?
La media e' un valore tipico che indica il centro della distribuzione. Lo sqm e' una misura
dell'imprecisione della media, cioe' della variabilita' dei dati attorno alla media.
250. E' possibile utilizzare media e sqm per ottenere una sintesi ulteriore?
Si' si usa calcolare un intervallo con estremo inferiore
m;3s
ed estremo superiore
m+3s
a delimitare la distribuzione.
42
253. I voti all'esame di statistica sono in media 25 con una varianza di 1:44. Interpretare.
Gli 8=9 degli studenti che danno l'esame prendono voti compresi tra
25 ; 3 1:2 = 21:4; 25 + 3 1:2 = 28:6:
4.31 Trasformazioni
254. Se si trasforma una variabile X aggiungendo ad ogni modalita' una costante come si
trasforma lo sqm della variabile?
La varianza resta la stessa e quindi lo sqm resta uguale a prima.
256. Se si trasforma una variabile X moltiplicando la variabile per una costante, come si
trasforma la varianza della variabile?
La varianza risulta moltiplicata per quella costante elevata al quadrato.
258. Se si moltiplica una variabile per una costante (positiva) come si trasforma lo sqm?
Lo sqm risulta moltiplicato per tale costante.
43
Serie storiche
5.1 Introduzione
260. Fare alcuni esempi di serie storiche.
La popolazione residente a Sassari dal 1989 al 1994.
Anni Popolazione
1989 119717
1990 120011
1991 120556
1992 121961
1993 122010
1994 121889
Numero di abbonati alla Televisione a Sassari dal 1988 al 1993. In assoluto e rapporto ogni
1000 abitanti
Anni abbonati abbonati per 1000 abitanti
1988 107292 237
1989 108328 239
1990 110206 242
1991 222224 322
1992 113610 249
1993 117110 256
300
280
260
240
Anni
262. Quali aspetti si possono vedere dall'esame analitico e graco di una serie storica?
I tassi di variazione
L'andamento di fondo (trend ).
La variabilita' attorno all'andamento di fondo.
La stagionalita'.
263. Un esempio di curva dell'andamento di fondo. Numero di morti per AIDS in Australia
per i trimestri da Gennaio-Marzo 1983 a Aprile-Giugno 1986. La curva passa nel tra i punti.
40
N. di morti per AIDS
30
20
10
2 4 6 8 10 12 14
Anni
264. Un esempio di serie storica con un marcato andamento stagionale. Numero di morti
per malattie polmonari nel Regno Unito. Dati mensili dal Gennaio 1974 al Dicembre 1980.
47
2500
Morti per malattie polmonari
2000
1500
1000
500
Anni
VA -121 -1827
48
La variazione assoluta e' maggiore a Cagliari, ma il confronto e' distorto dal diverso livello
delle due serie. Percio' si calcola quanto e' in percentuale la variazione assoluta rispetto al
livello del tempo base. Ad esempio,
Comune di Sassari Comune di Cagliari
-121/122010 = -0.1% -1827/178063 = -1.03%
Percio' a Sassari c'e' stato nel 94 un calo della popolazione di 0:1% rispetto al 93, mentre a
Cagliari c'e' stato un calo di circa un punto percentuale.
Pertanto, nella notazione prima introdotta
VR = x1 x; x0
0
273. Calcolare il numero indice tra il numero di abbonamenti TV del 1989 e il 1989, a
Sassari.
107292 = 1:01.
Si ha NI = 108328
49
VR = NI ; 1 = xx1 ; 1 = x1 x; x0
0 0
275. Si osservi che spesso anche i numeri indici sono espressi in forma percentuale.
Ad esempio, il numero indice tra il numero di abbonamenti TV del 1989 e il 1988, a Sassari
e' 101, (1989 = 100). Questo signica che c'e' stato un aumento dell'1%.
276. Che cosa signica un NI maggiore di 100? Se il NI e' maggiore di 100 signica che c'e'
stato un incremento, cioe' la VR e' positiva. Al contrario, se e' minore di 100 signica che
c'e' stata una diminuzione, cioe' la VR e' negativa.
278. Calcolare i NI a base mobile e a base ssa (basi 1989 e 1992) per la serie storica della
popolazione a Sassari.
Anni Popolazione Base mobile Base 1989=100 Base 1992=100
1989 119717 * 100 98.16
1990 120011 100.2 100.2 98.40
1991 120556 100.5 100.7 98.85
1992 121961 101.2 101.9 * 100
1993 122010 100.0 101.9 100.04
1994 121889 99.9 101.8 99.94
279. Interpretare i risultati della tabella precedente. Dai NI a base mobile si deduce che i
tassi di variazione percentuali annuali sono stati 0:2%; 0:5%; 1:2%; 0%; ;0:1%. Quindi, vi
sono stati prima tassi di crescita in aumento e quindi una
essione. Il tasso di variazione tra
l'89 e il 94 (quinquennale) e' dell'1:8%.
50
280. Talvolta non si hanno i dati grezzi, ma si richiede di trasformare una serie di NI a base
ssa in una serie di NI a base mobile. Come si procede?
Si prendono i NI a base ssa e si costruiscono i rapporti tra ogni NI e il precedente.
Pertanto, sui NI precedenti in base 1989 = 100, si lavora come segue
Anni Base 1989=100 Base mobile
1989 100
1990 100.2 100.2 / 100 = 1.002 = 100.2 %
1991 100.7 100.7 / 100.2 = 1.005 = 100.5 %
1992 101.9 101.9 / 100.7 = 1.012 = 101.2 %
1993 101.9 101.9 / 101.9 = 1.000 = 100.0 %
1994 101.8 101.8 / 101.9 = 0.999 = 99.9 %
281. Si puo' calcolare la VR per il periodo 89{92, senza fare riferimento ne' ai dati grezzi,
usando i NI a base ssa 1992?
Si' si calcola il NI partendo dalla serie dei NI a base ssa a base 1992. Il NI per quel
periodo e' 98100:16 = 1:019, per cui la VR e' 0:019, cioe' l'1:9%. Guardando i NI a base ssa
1989, si puo' fare la riprova.
282. Si puo' passare da una serie di NI a base mobile alla serie corrispondente a base ssa?
Si', per trovare un NI a base ssa basta moltiplicare fra loro tutti i numeri indici a
base mobile esistenti tra il tempo base e il tempo studiato. Per esempio, se si ha una serie
x1; x2; x3; x4, il prodotto dei numeri indice a base mobile
6 x2 6 x3 x4 = x4
x1 6 x2 6 x3 x1
e' uguale al NI a base ssa tra x4 e x1 .
283. Calcolare la serie dei numeri indice a base ssa 1988 = 100 dalla seguente serie di
numeri indice a base mobile (tratta dalla serie degli abbonati alla TV).
Anni NI a base mobile
1988
1989 100.97
1990 101.73
1991 201.64
1992 51.12
1993 103.08
e alla ne dell'anno la VR e' appunto quella osservata di 46:1%. Il tasso stimato di variazione
trimestrale e' pertanto del 10%. Si osservi che non si ottiene tale valore dividendo 46:1 per 4
(il numero di trimestri).
290. Un prezzo di un bene aumenta del 10% in un anno. Qual'e' il tasso di variazione
stimatopsemestrale?
E' 2 1:1 ; 1 = 0:0488 = 4:88%:
291. Se si hanno due VR e' possibile farne la media?
Si', ma non conviene farne la media aritmetica. Si ragiona come segue. Si denisce la VR
media quella variazione relativa costante che sostituita a quelle osservate produce la stessa
variazione relativa complessiva.
Ad esempio supponiamo di avere un prezzo di un bene con due VR del 2% e del 10% per
due semestri consecutivi. Allora la VR complessiva annuale e' del 1:02 1:10 ; 1 = 12:2%.
Pertanto, la VR semestrale media si puo' ottenere con la regola spiegata in precedenza, cioe'
(trattandosi di due periodi)
p2
1:122 ; 1 = 1:059 ; 1 = 5:9%:
L'interpretazione e' la seguente: se il tasso di variazione semestrale fosse stato del 5:9%,
alla ne dell'anno il tasso di variazione complessivo sarebbe stato uguale a quello osservato
ottenuto combinando quello del 2% e del 10%.
292. Un bene ha i seguenti tassi di variazione annuali dal 1990 al 1993
4%; 7%; 2%; 1%
Qual'e' la variazione relativa media?
Il tasso medio di variazione e'
p4 p
1:04 1:07 1:02 1:01 ; 1 = 4 1:146 ; 1 = 1:034 ; 1 = 3:4%
Si osservi che la media aritmetica 3:5% non sarebbe una media corretta, benche' non molto
diversa numericamente.
Il tasso medio di variazione e' detto anche tasso medio composto di variazione.
293. Scrivere in modo teorico la formula del tasso medio di variazione di tre VR r1; r2 e r3.
Si ha q
Tasso medio di variazione = 3 (1 + r1)(1 + r2)(1 + r3 ) ; 1:
294. Si puo' calcolare la media di una serie di NI a base mobile?
Si', poiche' ogni numero indice e' uguale a VR + 1 risulta che il numero indice medio e'
ottenuto facendo il prodotto dei numeri indici a base mobile ed estraendo quindi la radice di
ordine uguale al numero degli indici. Per esempio, i NI a base mobile degli abbonati alla TV
a Sassari dal 1989 al 1992 sono
Anni NI base mobile
1989 100.97
1990 101.73
1991 201.64
1992 51.12
54
Se si calcolasse la media aritmetica dei due NI della benzina e del pane per ogni anno si
otterrebbe in eetti una serie media di NI. Tuttavia, con la media aritmetica semplice si da'
un peso uguale ai due beni. Cio' non sembra corretto in quanto i due beni hanno un peso
diverso nel bilancio di una famiglia.
Pertanto, se nel bilancio di una famiglia ogni 10 lire in pane si spendono 90 lire in benzina
(cioe' l'importanza relativa dei due beni e' 0:9 per la benzina e 0:1 per il pane, e' opportuno
calcolare una media ponderata dei due NI per ogni anno, con pesi 0:9 e 0:1. Si ottiene
Anni NI composto
1993 103 * 0.9 + 101 * 0.1 = 92.7 + 10.1 = 102.8
1994 104 * 0.9 + 101 * 0.1 = 93.6 + 10.1 = 103.7
1995 106 * 0.9 + 105 * 0.1 = 95.4 + 10.5 = 105.9
1996 108 * 0.9 + 110 * 0.1 = 97.2 + 11.0 = 108.2
NI di quel titolo o di quel bene. Per calcolare la spesa occorre dunque conoscere le quantita'
acquistate dei beni, q e i loro prezzi p dai quali si puo' desumere le spese sostenute pq . I pesi
sono in proporzione di tali spese.
Si osservi che se si usano le spese di una anno base, calcolate come prezzi dell'anno base
per quantita' dell'anno base, si ottiene un sistema di pesi sso.
Per esempio, dati due beni A e B, e i rispettivi prezzi e quantita' scambiate
Bene A Bene B
Anni Prezzo Quantita' Prezzo Quantita'
1994 28 750 200 1250
1995 30 900 235 1300
1996 31 920 250 1100
per calcolare i pesi ssi bisogna trovare una anno base, per esempio il 1994. La spesa per i
due beni in quell'anno e' stata 28 750 = 21000 e 200 1250 = 250000. Le proporzioni di
spesa sono percio'
21000 = 0:078; 250000 = 0:922
271000 271000
Quindi, si calcolano i NI a base ssa e la media ponderata nel modo seguente
Anni Bene A (Peso = 0.078) Bene B (peso = 0.922) Media
1994 100 % 100 % 100.00
1995 30/28 = 1.071 = 107.1 % 235/200 = 1.175 = 117.5 % 116.68
1996 31/28 = 1.107 = 110.7 % 250/200 = 1.250 = 125.0 % 123.88
I pesi deniti nel modo precedente sono stati proposti da Laspeyres. I NI composti ottenuti
si dicono ottenuti con la formula di Laspeyres. Esistono altri modi piu' complessi di denire
il sistema dei pesi, facendolo variare da periodo a periodo.
298. Quali sono i principali numeri indici calcolati dall'istat?
NI dei prezzi alla produzione dei prodotti industriali. Misurano l'evoluzione dei prezzi
dei prodotti industriali al primo stadio della commercializzazione.
NI dei prezzi all'ingrosso. Servono per misurare le variazioni dei prezzi che si formano
nelle vendite eettuate nell'ambito del settore delle imprese.
NI dei prezzi al consumo per tutta la collettivita' nazionale. Servono per misurare le
variazioni nei prezzi che si riferiscono alle vendite eettuate dal settore delle imprese al
settore delle famiglie.
NI dei prezzi al consumo per le famiglie di operai e impiegati. Forniscuno una misura
delle variazione dei prezzi al dettaglio di beni e servizi acquistati da una famiglia tipo.
I beni e servizi considerati nel bilancio sono raggruppati in 5 capitoli (alimentazione,
abbigliamento, elettricita' e combustibili, abitazione, beni e servizi vari). Il tasso di
variazione in questa serie di NI e' una misura dell'in
azione.
NI della produzione industriale. Misurano l'evoluzione delle quantita' siche di beni
prodotte dalle industrie.
56
299. Che tipo di medie ponderate vengono usate nel calcolo dei NI precedenti?
Vengono sempre usate le formule di Laspeyres. Ad esempio, alcuni coecienti di ponde-
razione (in %) dei capitoli di spesa nei NI dei prezzi al consumo, sono, per gli anni 1938, 1980
e 1985,
Base
Capitoli 1938=100 1980=100 1985=100
Alimentazione 66.40 34.97 30.92
Abbigliamento 5.30 10.46 8.67
Elettr. e combustibili 7.20 3.39 4.72
Abitazione 14.30 4.82 4.97
Beni e servizi vari 6.8 46.36 50.72
301. Siano dati i seguenti fatturati (in migliaia di lire) di un azienda in tre anni
Anni Fatturati NI base=1994
1994 1.5 100
1995 2.0 110
1996 3.0 120
dove i NI sono indici composti dei prezzi all'ingrosso. Trovare la serie storica del fatturato a
prezzi costanti del 1994.
Per risolvere il problema si ragiona in questo modo: nel primo periodo i prezzi sono
aumentati del 10%, quindi il dato del fatturato del secondo anno e' gonato del 10%. Quindi,
se x95 e' il fatturato del secondo anno, in realta' tale valore e' x95 = x95 1:1 dove x95 e' lo
stesso dato de
azionato. Pertanto, il dato de
azionato e' il dato in moneta corrente diviso
per il NI: 2=1:1 = 1:82. Quindi passando al terzo periodo il dato del fatturato si de
aziona
calcolando 3=1:2 = 2:5. La serie dei fatturati in lire del 1994 e'
Fatturati
Anni in lire correnti in lire costanti del 1994
1994 1.5 1.5
1995 2.0 1.82
1996 3.0 2.5
57
Nel prospetto sono riportati i NI a base mobile della serie, e la serie dei NI dei prezzi al
consumo per le famiglie di operai e impiegati in base 1980 = 100. La serie dei redditi in
termini reali, in lire del 1980 e i corrispondenti NI a base mobile sono riportati nella tavola
sottostante.
Anni Reddito a prezzi 1980 NI base mobile
1980 12396
1981 12732 102.7
1982 12836 100.8
La serie presenta aumenti contenuti. nel 1981 il reddito medio per occupato dipendente e'
aumentato solo del 2:7% in termini eettivi, contro un aumento del 21:9% in termini monetari
(cioe' nominali o apparenti).
58
SETTIMANA 6
f & no: 40
Nel diagramma l'insieme a sinistra e' l'insieme dei maschi e l'insieme di destra e' quello dei
fumatori. L'intersezione contiene i 17 studenti maschi fumatori. Al di fuori dei due insiemi
stanno le 40 femmine non fumatrici.
61
310. E' possibile determinare le frequenze separate dei due caratteri, dalla distribuzione
doppia?
Si'. Ad esempio, per trovare la frequenza di studenti maschi si somma il numero di studenti
maschi e fumatori piu' il numero di studenti maschi e non fumatori, cioe' 17 + 19 = 36: In
generale per trovare la frequenza di una certa modalita' di un carattere, si sommano tutte le
frequenze congiunte che contengono quella modalita'.
Le frequenze di ciascun carattere si dicono frequenze marginali del carattere.
311. Perche' si chiamano frequenze marginali?
Perche' si calcolano facilmente dalla tavola di contingenza, determinando i totali di riga
e di colonna della tavola. Le somme si riportano al margine della tavola e pertanto si dicono
marginali. E' importante distinguerle dalle frequenze congiunte che stanno all'interno della
tabella.
312. Calcolare le frequenze marginali nell'esempio precedente. Si ottiene subito
Fuma?
Sesso si' no Totale
m 17 19 36
f 18 40 58
Totale 35 59 94
Nella tavola si e' calcolato anche il numero totale di osservazioni che e' riportato in basso a
destra.
313. La distribuzione doppia di due caratteri si puo' dedurre dalle distribuzioni marginali?
No, in generale almeno non e' possibile, perche' distribuzioni doppie diverse possono avere
gli stessi totali marginali.
314. Estendere il concetto di frequenza relativa alle distribuzioni doppie.
Una frequenza relativa e' una frequenza assoluta divisa per il totale delle osservazioni.
Pertanto, ad esempio la frequenza relativa di maschi che fumano e' di 17=94 = 0:18 = 18%:
315. Calcolare le frequenze relative nell'esempio precedente.
La tabella seguente riporta le frequenze relative percentuali. Anche le frequenze marginali
sono espresse in percentuale rispetto al numero totale delle osservazioni.
Fuma?
Sesso si' no Totale
m 18.09 20.21 38.30
f 19.15 42.55 61.70
Totale 37.24 62.76 100.00
Quindi, il 20:2% degli studenti sono maschi e non fumano, il 19:1 sono femmine che fumano
e il 42:5 sono femmine che non fumano.
62
316. Per quale tipo di analisi si utilizza una distribuzione doppia di frequenza?
Per l'analisi congiunta dei due caratteri, ossia per lo studio dell'interdipendenza, quando
i due caratteri sono posti sullo stesso piano.
317. Come si indicano le frequenze relative congiunte?
Se indichiamo con X e Y i due caratteri e con x e y due modalita' generiche dei due
caratteri, possiamo indicare con
p(X = x; Y = y ) = # di unita' che possiedono la modalita' x di X e y di Y
# totale di unita'
la frequenza relativa congiunta (p() sta qui per proporzione). A volte, per semplicita' si
scrivera' p(x; y ) invece di p(X = x; Y = y ).
318. Come si calcola dunque una frequenza relativa marginale partendo dalle frequenza
congiunte?
Per calcolare la frequenza relativa marginale p(X = x) (che indicheremo anche piu' bre-
vemente con p(x)) basta sommare tutte le frequenze relative congiunte p(X = x; Y = y ) per
tutte le modalita' y di Y , cioe' X
p(x) = p(x; y)
y
P
dove il simbolo y (detto di sommatoria) indica che si stanno sommando tutte le frequenze
p(x; y ) rispetto a y , cioe' facendo assumere a y via via tutte le modalita'.
6.2 Esempi
319. Dai dati sugli studenti (vedi appendice) costruire la distribuzione doppia per i caratteri
Numero di auto possedute in famiglia (con modalita' da 1 a 6) e Residenza a Sassari (si', no).
Si ottiene una tabella 62 che incrocia un carattere quantitativo e un carattere dicotomico.
Riportiamo la tavola con le frequenze assolute.
Residenza a Sassari?
Numero di auto si' no Totale
1 14 15 29
2 32 20 52
3 8 0 8
4 2 0 2
5 1 0 1
6 2 0 2
Totale 59 35 94
Si nota che solo i ragazzi residenti a Sassari hanno in famiglia un numero di auto superiore a
2. Questa informazione non si poteva desumere dalla distribuzione marginale degli studenti
secondo il numero di auto. E' un primo esempio di relazione trovata osservando la tavola
doppia.
63
320. Ancora dai dati sugli studenti costruire la distribuzione doppia per i caratteri Tipo di
scuola (con modalita' Licei, Istituti tecnici, Altro) e Residenza a Sassari (con modalita' si',
no).
Risiede a Sassari?
Scuola si' no Totale
Liceo 27 15 42
Istituto tecnico 29 15 44
Altro 3 5 8
Totale 59 35 94
321. I dati seguenti riguardano sei modelli di auto Alfa Romeo a benzina a trazione ante-
riore. Si sono rilevati i cavalli e il prezzo (marzo 1990).
Auto Cavalli Prezzo
33 1.7 ie 107 20638
33 1.7 ie 16V 133 22126
164 2.0 i ts 145 32967
164 2.0 i turbo 171 42606
164 3.0 i v6 179 54680
164 3.0 i aut. 179 57495
30000
20000
Cavalli
Il graco riporta sull'asse delle ascisse le determinazioni della variabile Cavalli e sull'asse delle
ordinate le determinazioni della variabile Prezzo. I punti sul graco rappresentano le unita'
statistiche osservate, individuate da una coppia di coordinate. Il graco si chiama graco
di dispersione (scatterplot ) o scatter. Il fatto abbastanza naturale che il prezzo aumenta
all'aumentare dei cavalli si traduce sul graco nell'andamento tendenzialmente crescente dei
punti.
64
322. Nello scatter sottostante sono rappresentate le variabili Prezzo e Cilindrata per un
campione di auto (con la cilindrata sotto 2000 cc). I dati sono tratti da Quattroruote (marzo,
1996). Interpretare il graco.
100
80
60
prezzo
40
20
cil
Si osserva che c'e' un andamento crescente del prezzo medio all'aumentare della cilindrata.
Anche la variabilita' del prezzo tende a crescere con la cilindrata (osservare la variabilita' dei
punti in verticale).
323. Nello scatter sottostante sono rappresentati per gli studenti del corso di Statistica
(vedi appendice). Sul graco sono distinti gli studenti per sesso (m=maschi, f=femmine).
Interpretare il graco.
m m m
44
m mm m m
m m m
m m
42
m m m m m
mm m mmm m
Scarpe
40
f f m
f m
f
f f f f f m
f f f
38
f f f f f f f f
f f f f f f f f
f
36
f f f f f f f
f f f f
Altezza
Si osserva una associazione tra altezza e numero di scarpe. La taglia media delle scarpe crsce
al crescere dell'altezza. La variabilita' della taglia e' stabile. I maschi sono nella parte alta
dello scatter, come ci si poteva attendere. Si osservi che sul graco sono riportati tre caratteri:
altezza, scarpe e sesso.
65
324. E' possibile costruire delle tavole doppie di frequenza per due variabili continue?
Si', basta raggruppare le variabili in classi. Ad esempio, la tabella seguente incrocia per
un collettivo di 246 sposi, l'eta' della sposa al matrimonio e l'eta' dello sposo al matrimonio.
Eta' Sposo
Sposa -| 22 22 -| 26 26 -| 30 30 - Totale
-| 22 32 3 1 0 36
22 -| 26 35 20 10 2 67
26 -| 30 23 33 27 12 95
30 - 8 13 15 12 48
Totale 98 69 53 26 246
325. Si osservi la dierenza tra una successione doppia e la distribuzione doppia corrispon-
dente. Ad esempio sia X il numero di gli e Y il numero di auto possedute relativi a un
collettivo di famiglie.
Successione Distribuzione
Unita' X Y Y
1 1 2 X 1 2 Totale
2 0 1
3 1 1 0 1 0 1
4 2 2 1 1 2 3
5 1 2 2 0 2 2
6 2 2 Totale 2 4 6
326. Sia Y = voto alla laurea, e A = facolta' (Lettere, Ingegneria, Economia e Commercio).
Y A
104 Ec
98 Ec
102 Lett
90 Ing
110 Lett
108 Ing
110L Lett
Si costruisca la distribuzione doppia dopo aver formato due classi di voto: < 105 e 105+.
Si ottiene
Voto
Facolta' < 105 105+ Totale
Ec 2 0 2
Lett 1 2 3
Ing 1 1 2
Totale 4 3 7
66
Le medie sono rispettivamente 9 e 7:5, il graco e' riportato nella gura sottostante.
10
8
Y
6
4
4 6 8 10 12 14
Il graco e' stato diviso in quattro parti facendo passare due rette perpendicolari nel punto
di coordinate (9; 7:5). Tale punto e' detto baricentro della distribuzione. Si osservi infatti che
il punto e' situato circa a meta' della nuvola di punti. In generale, il baricentro e' denito da
una coppia di coordinate uguali rispettivamente alla media di X e alla media di Y .
6.4 Associazione tra due caratteri quantitativi
331. Su ogni unita' statistica su cui si sono rilevati i caratteri X e Y e' possibile rilevare
se x e' piu' grande o piu' piccolo della propria media X e se y e' piu' grande o piu' piccolo
della propria media Y . Possiamo avere i casi seguenti
x
y minore della media maggiore della media
maggiore della media discordi concordi
minore della media concordi discordi
Se x e y sono entrambi sopra le rispettive medie o entrambi sotto, diremo che sono concordi,
altrimenti diremo che sono discordi. Si osservi che x e y sono concordi se gli scarti dalle medie
x ; X e y ; Y hanno lo stesso segno e sono discordi se hanno segni opposti.
332. Se due caratteri sono entrambi quantitativi, diremo che sono associati positivamente, o
che c'e' concordanza, se in media osservazioni sopra la media di X sono associate a osservazioni
sopra la media di Y e osservazioni sotto la media di X sono associate a osservazioni sotto la
media di Y .
333. Fare esempi di caratteri concordanti.
Ad esempio, le spese alimentari e il reddito di una famiglia, l'altezza e il numero di scarpe
di un individuo, l'eta' della sposa e l'eta' dello sposo al matrimonio.
334. I dati ttizi seguenti riguardano l'eta' e lo stipendio mensile di dieci impiegati di una
azienda.
68
Unita' Eta' Stipendio
1 27 1.26
2 29 1.58
3 34 1.87
4 35 1.41
5 35 2.19
6 37 1.67
7 44 2.09
8 44 1.47
9 45 1.87
10 50 2.37
Vericare se c'e' concordanza.
Si calcolano gli scarti di X (l'eta') dalla media e gli scarti di Y (lo stipendio) dalla media
e si controlla quelli che hanno segni concordi e quelli che hanno segni discordi. L'eta' media
e' 38 anni e lo stipendio medio e' 1 milione e 780 mila lire al mese. Gli scarti dalla media
sono i seguenti.
Unita' x ; 38 y ; 1:78
1 ;11 ;0:518
2 ;9 ;0:198
3 ;4 0:092 *
4 ;3 ;0:368
5 ;3 0:412 *
6 ;1 ;0:108
7 6 0:312
8 6 ;0:308 *
9 7 0:092
10 12 0:592
Nella tavola solo tre individui (indicati con un asterisco) hanno segni discordi. Pertanto c'e'
evidenza di una certa concordanza tra stipendio ed eta'.
335. Disegnare il graco di dispersione e segnare le unita' concordi e quelle discordi.
2.4
•
2.2
2.0
Stipendio
•
1.8
1.6
•
1.4
30 35 40 45 50
Eta’
69
Nel graco seguente le unita' concordi sono indicate con un cerchietto vuoto e quelle discordi
con un cerchietto pieno. Si osservi che le unita' concordi stanno nel primo e terzo quadrante e
che quelle discordi stanno nel secondo e quarto quadrante (sono le unita' 3, 5 e 8). Pertanto, se
lo scatterplot presenta una nuvola di punti che copre in prevalenza il primo e terzo quadrante
c'e' concordanza tra i caratteri (all'aumentare dell'uno aumenta l'altro e al diminuire dell'uno
diminuisce l'altro). Se invece i punti sono in prevalenza nel secondo e quarto quadrante c'e'
discordanza (all'aumentare di un carattere l'altro diminuisce e al diminuire di un carattere
l'altro aumenta).
336. Si osservi in generale la regola:
1. Se la maggior parte dei punti sta nel I e III quadrante
la covarianza e' positiva
a scarti di un certo segno dalla media di X corrispondono scarti dello stesso segno
dalla media di Y ,
concordanza positiva
2. Se la maggior parte dei punti sta nel II e IV quadrante
la covarianza e' negativa
a scarti di un certo segno dalla media di X corrispondono scarti del segno opposto
dalla media di Y ,
concordanza negativa
337. Si osservi la gura sottostante in cui sono rappresentate tre distribuzioni doppie: A in
cui i caratteri sono discordanti, C in cui i caratteri sono concordanti. Il caso B e' un caso
incerto , intermedio fra i due.
-2 -1 0 1 2
A B C
•
2 • • •
• • •••• •
• •• • •
• • •
1 •• • • • • •
•
•
• •• •
•
•• • • • • • •• • • •• •
• • • •• •
• •• ••• •
Y
0 • • • ••• •• ••
• • •• •
• ••
• • •• • •• • ••
• • •• • • •• • •• • ••
• • •
-1 • • •• •
• •
• •
-2 • • • •
-2 -1 0 1 2 -2 -1 0 1 2
6.5 Covarianza
338. Per misurare la concordanza e la discordanza si calcola un indice sintetico chiamato
covarianza tra X e Y che si calcola facendo la media dei prodotti degli scarti (X ; X ) e
(Y ; Y ). Calcolare i prodotti degli scarti e la loro media per i dati sull'eta' e lo stipendio.
Gli scarti e il loro prodotto sono riporati nella tavola seguente
70
Unita' X ; X Y ; Y Prodotto
1 ;11 ;0:518 5:70
2 ;9 ;0:198 1:78
3 ;4 0:092 ;0:37
4 ;3 ;0:368 1:10
5 ;3 0:412 ;1:24
6 ;1 ;0:108 0:11
7 6 0:312 1:87
8 6 ;0:308 ;1:85
9 7 0:092 0:64
10 12 0:592 7:10
Media 0 0:000 1:49
Pertanto la covarianza e' 1:49.
341. La covarianza si puo' calcolare per una distribuzione doppia di frequenze relative?
Si', si calcola la media dei prodotti degli scarti ponderati con le frequenze relative p(x; y ).
Pertanto,
XY = E f(X ; X )(Y ; Y )g:
342. Sia data la seguente distribuzione di frequenze relative (ttizia) dell'altezza e del
numero di scarpe.
Scarpe
Altezza 38 40 42 Totale
160 0.2 0.1 0 0.3
170 0.1 0.3 0.2 0.6
180 0 0 0.1 0.1
Totale 0.3 0.4 0.3 1.0
Calcolare la covarianza.
71
-8 16 0 -16
2 -4 0 4
12 -24 0 24
353. I due diagrammi di dispersione seguenti sono relativi a due collettivi di studenti lau-
reatisi nella facolta' A e nella facolta' B. Entrambi i collettivi hanno numerosita' 200. Si sono
rilevate le variabili X , voto medio al termine degli esami e Y , voto di laurea.
Facolta’ A sxy = 3.4 sx = 1.5 sy = 2.5 Facolta’ B sxy = 3.4 sx = 1.8 sy = 2.9
110
110
105
105
Voto di laurea
Voto di laurea
100
100
95
95
90
90
18 20 22 24 26 28 30 18 20 22 24 26 28 30
La covarianza tra X e Y e' la stessa nei due collettivi: XY = 3:4. I due scarti quadratici
medi sono nella facolta' A: X = 1:5 e Y = 2:5 e nella facolta' B: X = 1:8 e Y = 2:9. In
quale facolta' le due variabili sono maggiormente associate linearmente?
Nella facolta' A, come si vede anche dallo scatterplot. Infatti, nella facolta' A la covarianza
puo' variare nell'intervallo (;3:75; 3:75) (dove 3:75 e' il prodotto degli scarti quardatici medi),
mentre nella facolta' B la covarianza puo' variare in un intervallo maggiore (;5:22; 5:22):
Pertanto il valore osservato della covarianza e' molto piu' vicino all'estremo 3:75 per la Facolta'
A che all'estremo 5:22 per la facolta' B.
354. Se i punti (x; y) sono sono allineati su una retta crescente o decrescente, che tipo di
relazione esiste tra X e Y ?
Una relazione lineare, del tipo
Y = a + bX
dove b e' positivo se la retta e' crescente e b e' negativo se la retta e' decrescente. Se a e'
uguale a zero la retta passa per l'origine.
355. Se tra le variabili X e Y esiste una relazione non lineare esatta per esempio
Y = a + bX + cX 2 (equazione di una parabola)
la covarianza e' uguale a uno dei due estremi del suo campo di variazione?
No, perche' la covarianza e' uguale a uno degli estremi solo in caso di esatto allineamento
su una retta.
74
SETTIMANA 7
362. La distinzione tra carattere esplicativo e carattere dipendente e' di natura stratistica?
No, tale distinzione e' extra statistica, ma dipende dal campo di studio e dalla specica
applicazione.
7.2 Misure di interdipendenza
363. Come si misura tipicamente l'interdipendenza di due caratteri X e Y quantitativi?
Si misura tramite il coeciente di correlazione tra X e Y . Esso misura l'associazione
lineare tra le variabili, ossia indica quanto e' forte il grado di allineamento tra X e Y .
77
366. La gura seguente rappresenta 6 scatter ciascuno con un grado di allineamento diverso.
Sotto lo scatter e' indicato il coeciente di correlazione.
3
• •
•
••
2
• •
•
• • • ••
• • •
• •
• ••
1
• •• •• •• • •
•• • • • • •
••
•• ••
• •• •• • • • •• • • •• •• • •
• • ••• • •• • •• • •
0
• •• • • ••• • • •
• ••• • •• • ••• • •
•• •••• • •
• •
-1
-1
-1
• • • ••• •• •
• •• •
• •
• • • •
-2
-2
-2
•
-3
-3
-3
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
•
3
• •
•
•
2
•
•• •
• • • •
• •• • • • •
• • •
1
••• • • • • •• ••
• •• • • • • •
• • •• •••• • • • • •
•• • • • •
•• • • • • • • • •
0
•
• • • • ••• •••
• • • •• •• • •••• • • ••
•• •
•
• • • •• • • • • • • • ••
• • • • •• ••
-1
-1
-1
•
• •• • • •
••
• •
•
• •
• • •
• •
-2
-2
-2
•
-3
-3
-3
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
368. Calcolare il coeciente di correlazione tra voto medio e voto di laurea dai dati del
problema 343.
Nella facolta' A il coeciente di correlazione e' 3:4=(1:5 2:5) = 0:9, mentre nella facolta'
B e' 3:4=(1:8 2:9) = 0:65. Pertanto c'e' maggiore associazione lineare tra le variabili nella
facolta' A.
10
0
5
-10
0 50 100 0 20 40 60
25
4
20
3
15
2
10
1
5
0
0
0 10 20 30 40 4 6 8 10 14
denominatore vi e' il prodotto degli scarti q. medi che e' anch'esso espresso nel prodotto delle
unita' di misura dei due caratteri.
7.3 Standardizzazione
373. Data una variabile X con media X , la variabile si dice espressa in scarti dalla media
se viene trasformata in
X 0 = X ; X :
374. Uno studente ha fatto 5 esami prendendo i voti
22; 28; 27; 30; 28:
Esprimere la variabile in scarti dalla media.
La media e' 27. Pertanto la variabile espressa in scarti dalla media e'
;5; +1; 0; +3; +1
L'interpretazione e' semplice: il primo esame ha un voto che e' 5 punti sotto la media, il
secondo e' un punto sopra, il terzo e' uguale alla media, etc.
375. A cosa e' uguale la media di una variabile espressa in scarti dalla media?
La media e' sempre uguale a zero, perche' la somma degli scostamenti dalla media di una
variabile qualsiasi e' sempre zero.
376. Si osservi che la covarianza e' la media dei prodotti delle variabili espresse in sacrti
dalla media.
377. Data una variabile X con media X e scostamento quadratico medio X , la varia-
bile si dice espressa in scarti standardizzati o, piu' semplicemente, standardizzata se viene
trasformata in
ZX = X ; X :
X
378. Uno studente ha fatto 5 esami prendendo i voti
23; 20; 26; 22; 24:
Standardizzare la variabile.
La media e' 23 e la varianza e' 4. Pertanto, la variabile espressa in scarti dalla media e'
0; ;3; +3; ;1; +1
e, dividendo questi valori per lo scarto quadratico medio che e' 2, si hanno i punteggi
standardizzati
0; ;1:5; +1:5; ;0:5; +0:5
80
385. Calcolare il coeciente di correlazione tra eta' e stipendio (vedi problema 325), in
modo diretto e come covarianza tra le variabili standardizzate.
Posto X = eta' e Y = stipendio, risulta che X = 38, y = 1:778, X = 7:085 e Y = 0:34.
Dai calcoli fatti in precedenza risulta anche che XY = 1:49. Direttamente risulta dunque
che XY = 1:49=(7:085 0:34) = 0:61. L'eta' e lo stipendio standardizzati sono riportati nella
tabella sottostante
ZX ZY ZX ZY
;1:553 ;1:524 2:365
;1:270 ;0:582 0:740
;0:565 0:271 ;0:153
;0:423 ;1:082 0:458
;0:423 1:212 ;0:513
;0:141 ;0:318 0:045
0:847 0:918 0:777
0:847 ;0:906 ;0:767
0:988 0:271 0:267
1:694 1:741 2:949
Nella terza colonna sono calcolati i prodotti tra ZX eZY necessari per calcolare la covarianza
(La covarianza e' la media dei prodotti delle variabili espresse in scarti dalla media, ma qui le
medie sono zero perche' si tratta di punteggi standardizzati.) La media dell'ultima colonna
e' appunto 0:61.
82
SETTIMANA 8
Dipendenza e indipendenza
Per ogni valore possibile di cilindrata si puo' individuare la sottopopolazione di auto che
hanno quella cilindrata e descriverle con la loro distribuzione di frequenza.
Dato un collettivo di individui si puo' misurare la pressione sanguigna e l'eta' e quindi
ottenere, per ogni eta', le relative distribuzioni condizionate della pressione.
393. Si consideri l'esempio seguente (ttizio). X e' il titolo di studio e Y e' il reddito di un
individuo. Si abbia la seguente tavola di contingenza
Reddito
Titolo di studio Basso Medio Alto Totale
Elementari 88 143 120 351
Medie 9 38 38 85
Superiori 3 19 42 64
Totale 100 200 200 500
Qual'e' la frequenza di quelli che hanno il reddito medio, condizionata a: titolo = elementari?
Utilizzando la formula generale, risulta
p(Y = medio j X = elementari) = p(X =p(elementari ; Y = medio) = 143=500 = 0:408:
X = elementari) 351=500
Cioe' il 40.8% di coloro che hanno il titolo delle elementari ha un reddito medio. Inoltre le
tre distribuzioni di Y condizionate a X = elementari, X = medie e X = superiori sono le
seguenti
Reddito
Titolo di studio Basso Medio Alto Totale
Elementari 26.0 40.8 34.2 100
Medie 10.6 44.7 29.7 100
Superiori 4.7 29.7 65.6 100
Totale 20.0 40.0 40.0 100
cioe' il 3% di coloro che hanno il reddito basso hanno il titolo delle superiori. Inoltre le tre
distribuzioni di X condizionate a Y = basso, Y = medio e Y = alto sono le seguenti
Reddito
Titolo di studio Basso Medio Alto Totale
Elementari 88.0 71.5 60.0 70.2
Medie 9.0 19.0 19.0 17.0
Superiori 3.0 9.5 21.0 12.8
Totale 100.0 100.0 100.0 100.0
Nella tavola, l'ultima colonna e' la distribuzione marginale del titolo di studio.
395. Se X e Y sono caratteri discreti, e' possibile costruire una tavola di contingenza in cui
le righe sono le modalita' di X e le colonne sono le modalita' di Y . In tal caso le distribuzioni
condizionate di Y j X sono le righe della tabella divise per i rispettivi. Invece, le distribuzioni
condizionate di X j Y sono le colonne divise per i rispettivi totali.
396. Se i caratteri sono continui non e' possibile rappresentare le distribuzioni congiunte
in tavole di contingenza. Tuttavia e' semplice individuare le distribuzioni condizionate sullo
scatter. Per esempio, consideriamo di nuovo i dati sulle altezze e il numero di scarpe degli
studenti di Statistica. Nel graco si vede la distribuzione congiunta delle due variabili.
180
170
altezza
160
150
36 38 40 42 44
scarpe
Nel graco seguente, invece sono state selezionate le distribuzioni condizionate dell'altezza
dato il numero di scarpe X = 36; X = 38; e X = 44: Le distribuzioni delle altezze condizionate
al numero di scarpe sono delimitate dalle strisce verticali centrate su 36; 38 e 44.
87
180
170
altezza
160
150
36 38 40 42 44
scarpe
8.2 Indipendenza
Le distribuzioni condizionate permettono di denire esattamente il concetto di dipendenza e
di indipendenza.
399. Quando si puo' aermare che un carattere dipendente Y e' indipendente da un carattere
esplicativo X ?
Un carattere Y e' indipendente (in distribuzione) da un carattere Y quando tutte le di-
stribuzioni condizionate di Y j (X = x) sono identiche, quale che sia il livello x. In tal caso,
comunque sia ssata X , la distribuzione di Y j X non cambia. Questo permette di concludere
che conoscere X non fornisce un aiuto per prevedere Y .
400. Fare un esempio.
Il gruppo sanguigno (Rh+ e Rh-) e' indipendente dal sesso? Se la distribuzione teorica
relativa a una certa popolazione e' la seguente
Gruppo
Sesso Rh+ Rh- Totale
Maschi 120 30 150
Femmine 80 20 100
Totale 210 40 250
Si ottengono le seguenti distribuzioni condizionate del gruppo sangugno dato il sesso.
Gruppo
Sesso Rh+ Rh- Totale
Maschi 0.8 0.2 1.0
Femmine 0.8 0.2 1.0
Come si vede, una volta relativizzate per il totale di riga le frequenze condizionate sono
uguali. Quindi sia tra i maschi che tra le femmine c'e' la stessa proporzione di Rh positivi
e Rh negativi. Questo signica che il fatto di conoscere il sesso non aiuta nel prevedere il
gruppo sanguigno, perche' la distribuzione del gruppo sanguigno e' la stessa per i due sessi.
Conclusione: il gruppo sanguigno e' indipendente dal sesso.
401. La tavola seguente riporta la distribuzione degli studenti secondo la facolta' (Scienze
politiche, Economia, Lettere) e la sede (citta' A, citta' B).
Facolta'
Sede S. Politiche Economia Lettere Totale
A 25 50 75 150
B 50 100 150 300
Totale 75 250 225 450
La facolta' e' indipendente dalla sede?
Le distribuzioni condizionate della facolta' data la sede sono uguali:
Facolta'
Sede S. Politiche Economia Lettere Totale
A 1/6 1/3 1/2 1
B 1/6 1/3 1/2 1
Pertanto, la facolta' e' indipendente dalla sede. Interpretazione: sia nella sede A che nella
sede B vi sono le stesse proporzioni di studenti delle tre facolta'.
89
Risultano dunque tre distribuzioni condizionate identiche. Pertanto, vi e' indipendenza della
sede dalla facolta'. Interpretazione: gli studenti delle tre facolta' si distribuiscono sempre per
un terzo nella sede A e per due terzi nella sede B.
403. L'esempio precedente suggerisce che se Y e' indipendente da X , anche X e' indipen-
dente da Y . Questa aermazione e' sempre vera?
Si', e' vero che Y e' indipendente da X se e solo se X e' indipendente da Y . Per questo
si dice semplicemente che X e Y sono indipendenti fra loro.
8.3 Relazione tra le distribuzioni condizionate e la distribuzione marginale
404. Sia data la seguente distribuzione di votanti secondo il partito scelto (Destra, Sinistra)
e il comune di residenza (comuni A, B e C).
Partito
Comune Destra Sinistra Totale
A 600 1800 2400
B 1190 510 1700
C 450 450 900
Totale 2240 2760 5000
Tale distribuzione si puo' completamente ricavare dalla tavola delle distribuzioni condizionate
del partito dato il comune piu' la distribuzione marginale dei votanti per comune
Partito
Comune Destra Sinistra Totale Comune Votanti
A 0.25 0.75 1.0 A 2400
B 0.70 0.30 1.0 B 1700
C 0.50 0.50 1.0 C 900
Totale 5000
Infatti per trovare per esempio nel comune A i 600 votanti per la Destra, basta moltiplicare
2400 per 0.25. Analogamente, per trovare per esempio i 450 votanti per la sinistra nel comune
C basta moltiplicare 900 per 0.5.
Le frequenze congiunte sono percio' le seguenti
Partito
Comune Destra Sinistra
90
405. Esprimere la frequenza relativa marginale delle sinistre come media ponderata delle
frequenze condizionate.
Risulta
2760 = 0:75 0:48 + 0:30 0:34 + 0:50 0:18:
5000
406. Si abbia la seguente distribuzione di laureati a un anno dalla laurea secondo il tipo di
laurea (Scienze politiche, Economia, Letter) e la posizione sul lavoro (In cerca di occupazione,
Occupato).
Occupato?
Laurea No Si' Totale
S. politiche 0.5 0.5 1.0
Economia 0.3 0.7 1.0
Lettere 0.8 0.2 1.0
Qual'e' la percentuale di disoccupati nel complesso? E' noto che la distribuzione dei laureati
e' la seguente
Laurea Frequenza
S. politiche 0.4
Economia 0.2
Lettere 0.6
Totale 1.0
La percentuale dei disoccupati nel complesso non e' la media aritmetica delle percentuali
di disoccupati provenienti dalle tre facolta', a meno che la proporzione di laureati sia la stessa.
La percentuale di disoccupati nel complesso e' una media ponderata delle tre percentuali
con pesi uguali a 0.4, 0.2 e 0.6, cioe'
0:5 0:4 + 0:3 0:2 + 0:8 0:6 = 0:74 = 74%:
Notare che la percentuale e' alta a causa di Lettere che ha un peso elevato e un tasso di
disoccupazione elevato (dati ipotetici!).
91
408. Dimostrare che se tutte le distribuzioni condizionate sono uguali (caso di indipendenza
in distribuzione) allora la distribuzione marginale e' uguale ad esse.
In caso di indipendenza di Y da X tutte le proporzioni p(y j x) sono uguali fra loro.
Allora la distribuzione marginale denita da p(y ) e' una media ponderata di p(y j x) (che
sono eguali) con pesi uguali a p(x). Ora una media ponderata di quantita' identiche e' per
forza uguale ad esse.
Pertanto, se Y e' indipendente in distribuzione da X tutte le frequenze condizionate p(y jx)
non variano al variare di x e sono uguali alle frequenze marginali p(y ). In simboli, per ogni x,
p(y j x) = p(y )
equazione che esprime bene il fatto che la distribuzione condizionata di Y j (X = x) non
dipende da x.
410. Si osservi che dalla relazione precedente segue immediatamente che se Y e' indipen-
dente da X anche X e' indipendente da Y e viceversa.
92
411. La distribuzione congiunta del sesso e del gruppo sanguigno e' la seguente
Gruppo
Sesso Rh+ Rh- Totale
Maschi 0.48 0.12 0.6
Femmine 0.32 0.08 0.4
Totale 0.80 0.20 1.0
Come si e' visto prima, vi e' indipendenza tra i due caratteri. Vericare che la distribuzione
congiunta e' il prodotto delle due distribuzioni marginali.
Si ha infatti la seguente tabella
0.48 = 0.8 x 0.6 0.12 = 0.2 x 0.6
0.32 = 0.8 x 0.4 0.08 = 0.2 x 0.4
412. In una popolazione ci sono il 10% di disoccupati. La stessa popolazione e' per il 30%
composta da individui di razza nera e per il 70% da individui di razza bianca. Costruire la
distribuzione doppia congiunta secondo la posizione sul lavoro e la razza, nell'ipotesi che i
due caratteri siano indipendenti.
La distribuzione doppia si presenta come segue
Situazione
Razza Occupato Disoccupato Totale
Bianca 0.7
Nera 0.3
Totale 0.90 0.10 1.0
Le frequenze delle quattro celle sono incognite. Ma se vi e' indipendenza tra i due caratteri,
e' possibile ricostruirle come prodotto delle frequenze marginali. Si ottiene
Situazione
Razza Occupato Disoccupato Totale
Bianca 0.9 x 0.7 0.1 x 0.7 0.7
Nera 0.9 x 0.3 0.1 x 0.3 0.3
Totale 0.90 0.10 1.0
cioe'
Situazione
Razza Occupato Disoccupato Totale
Bianca 0.63 0.07 0.7
Nera 0.27 0.03 0.3
Totale 0.90 0.10 1.0
Si oosservi che i totali riga e colonna della tavola di indipendeza cosi' costruita corrispondono
perfettamente ai totali marginali dati.
93
413. Talvolta e' opportuno confrontare una distribuzione data con una distribuzione teorica
che e' uguale a quella data per quanto riguarda i totali marginali, ma costruita (con la regola
spiegata sopra) in modo che vi sia indipendenza. Tale tabella e' detta tavola teorica in
caso di indipendenza. Ad esempio, trovare la tavola teorica in caso di indipendenza per la
distribuzione seguente relativa a un collettivo classicato secondo il sesso e il partito preferito
(dati della General Social Survey, USA, 1991)
Partito
Sesso Democratici Indipendenti Repubblicani Totale
Femmine 0.28 0.08 0.23 0.59
Maschi 0.17 0.05 0.19 0.41
Totale 0.45 0.13 0.42 1.00
Moltiplicando quest'ultima tavola per il totale di osservazioni 1207, si ottiene la tavola delle
frequenze assolute teoriche in caso di indipendenza:
Malformazioni
Stato della madre Nessuna Una o piu' Totale
Non diabetica 750.5 34.5 785
Pre-diabetica 358.5 16.5 375
Diabetica 44.9 2.0 47
Totale 1154.0 53.0 1207
Le frequenze assolute teoriche possono essere numeri con la virgola. Osservando le contingenze
si vede che la tavola presenta delle frequenze teoriche molto vicine a quelle osservate tranne
per una cella, quella relativa alle donne diabetiche con gli con malformazioni. Le frequenze
teoriche in caso di indipendenza sono molto piu' basse di quelle osservate.
417. Quando di studiano due variabili continue e' bene dare un occhiata allo scatter per
rendersi conto se vi e' o meno indipendenza. Le tre gure sottostanti rappresentano due
situazioni (a sinistra e al centro) in cui vi e' indipendenza e una (a destra) in cui non vi e'
indipendenza.
• •
10
10
10
•
• ••
••• • • • •
••• • •••• •
8
• • •
••
• • • •• • • •• •• •••• ••••• • ••
• • •• • ••• • • • • •
• • •
••••••• ••• •• • • •••••••••• • • •• ••• •• •
•••• •• ••••••••••••• • • •• • •
6
• • • •• • • •
•• • • •
••••••••• • •• •••••• • •••••• •• ••••• • •••• ••• •• • • • ••• • •
•••• ••••• • ••••• •••• • •• •••• •• • ••••••• • •• • •••• ••••••• •
y
• ••
•••• • •••••• ••• ••••• • •••••••••• • ••• • •••• • • ••• • •• •••• • •••••• • •
•• ••••••••• •••• ••••••••• • • • • •• ••
4
• •
•• • •• •
• • • • • • • •
• • • ••••• • ••
••• • • • • • • •• • • •• •••• • •• • •••
•
2
•
••••• •• • •• •• •• •• • •• • •• •• ••••• • • •
••• ••••••••••••• •••••• ••••••••••••••••••••••••••••••• ••••• •••••• ••••••• •
• • •••••• • • ••• • • •••• • •• • • ••
0
5 6 7 8 9 10 5 6 7 8 9 10 5 6 7 8 9 10
x x x
95
Infatti nei primi due casi le distribuzioni condizionate di Y j X sono uguali (approssimati-
vamente) mentre nel secondo caso tali distribuzioni condizionate hanno delle medie e delle
varianze diverse fra loro. Maggiori dettagli verranno dati nella prossima lezione.
96
SETTIMANA 9
Confronti di medie
In questa lezione supporremo sempre che Y sia un carattere quantitativo e che X sia un
carattere qualitativo o quantitativo discreto, cioe' con un certo numero di classi. Pertanto,
la popolazione risulta suddivisa in gruppi dal carattere X , dove ciascun gruppo comprende
tutte le unita' che hanno la stessa modalita' di X .
9.1 Medie condizionate
Se c'e' dipendenza tra una variabile numerica Y e un carattere qualsiasi X le distribuzioni
condizionate Y j X non sono uguali fra loro. Poiche' Y e' quantitativa, si possono calcolare
le medie delle distribuzioni condizionate e confrontarle.
418. Ogni distribuzione condizionata di una variabile quantitativa Y dato un carattere
qualsiasi X ha una media e una varianza. Come si chiamano?
Si chiamano media condizionata e varianza condizionata.
419. Come si indicano?
La media condizionata di Y j (X = x) si indica con E (Y j x) o anche con Y (x) e la
varianza condizionata si indica con var(Y j x) o anche con Y2 (x).
420. Fare degli esempi.
Consideriamo l'altezza Y degli studenti di statistica e il sesso X . La tavola seguente
riporta le medie e le varianze condizionate dell'altezza dato il sesso.
Media Varianza Numero
Maschi 174.9 24.06 36
Femmine 162.0 38.36 58
97
98
190
180
Altezza
170
160
150
maschi femmine
Sesso
La distribuzione della altezza per i maschi ha una media maggiore e una varianza minore
come appare anche dallo scatter in cui si e' riportato il sesso in ascisse e l'altezza in ordinate.
Le distribuzioni condizionate sono rappresentate come strisce verticali di punti (questi sono
stati un po' perturbati orizzontalmente per evitare le sovrapposizioni).
421. Consideriamo un secondo esempio. Siano Y il consumo di benzina (a 120 km/h in
autostrada, in litri per 100 km) e X la cilindrata suddivisa in classi: sotto 1200 cc, da 1200
a 1600, da 1600 a 2000, oltre 2000 cc. I dati di Quattroruote su 193 auto, italiane ed estere
possono essere sintetizzati nella tavola e nello scatter seguenti.
Cilindrata Numero Media Varianza
sotto 1200 14 6.579 1.013
da 1200 a 1600 54 6.933 0.551
da 1600 a 2000 76 7.417 1.751
oltre 2000 49 9.314 3.522
10
8
6
4
Classi di cilindrata
99
Lo scatter evidenzia la dipendenza delle medie condizionate del consumo dalla cilindrata.
Il consumo medio aumenta all'aumentare della cilindrata. Si osserva che anche le varianze
condizionate non sono costanti, ma tendono ad aumentare con la cilindrata.
Gli esempi precedenti evidenziano una dipendenza di Y da X riscontrabile nel fatto che
le medie e le varianze condizionate dipendono da X . Se ci fosse indipendenza le medie e le
varianze condizionate dovrebbero essere invece uguali.
422. Dagli esempi fatti, e' semplice vericare che la media della variabile dipendente e' una
media ponderata delle medie condizionate. Ad esempio, per i dati sul consumo,
14 + 6:933 54 + 7:417 76 + 9:314 49
7:703 = 6:579 193 193 193 193
I pesi sono le frequenze relative della variabile esplicativa (cioe' le proporzioni dei gruppi).
423. Talvolta le medie condizionate sono uguali fra loro. E' utile dare un nome a questa
situazione particolare. Quando le medie condizionate E (Y j x) sono tutte uguali (e quindi
non dipendono da x) si dice che Y e' indipendente in media da X .
424. Se Y e' indipendente in media da X allora la media di Y e' uguale a tutte le medie
condizionate.
Infatti, poiche' la media di Y e' la media ponderata delle medie condizionate, essendo
queste uguali fra loro, la media di Y risulta ad esse uguale.
20
15
Y
10
5
451. Esprimere il rapporto di correlazione in funzione della varianza interna e della varianza
marginale.
Ovviamente risulta
Y2 X = 1 ; varianza interna :
var(Y )
452. Qual'e' il campo di variazione del rapporto di correlazione?
Il rapporto di correlazione, essendo un rapporto di una parte a tutta la varianza, e' una
proporzione sempre compresa tra 0 e 1.
si ottiene un rapporto di correlazione del 34.4%. Pertanto, si conclude che la variabilita' dei
consumi e' imputabile per circa il 35% alle diverse classi di cilindrata delle auto e per il 65%
ad altri fattori.
458. Si osservi il graco seguente. Esso rappresenta due scatter. Nel primo a sinistra ci sono
due gruppi: le medie condizionate sono 5 e 10 e le varianze condizionate sono uguali a 1. Nel
secondo ci sono ancora due gruppi: le distribuzioni hanno sempre medie condizionate 5 e 10,
ma le varianze condizionate sono uguali a 4. I gruppi sono tutti composti da 50 osservazioni.
sqm=1 sqm=2
15
15
10
10
Y
Y
5
5
0
1.0 1.2 1.4 1.6 1.8 2.0 1.0 1.2 1.4 1.6 1.8 2.0
X X
Percio', in entrambi i casi, le medie dieriscono di 5 e la media generale e' 7.5, quindi le
varianze esterne sono eguali. Tuttavia, le varianze interne sono diverse: nel primo esempio la
varianza interna e' piu' bassa, mentre nel secondo e' piu' alta. Quindi anche se la dierenza
tra le medie e' la stessa, nel secondo esempio la separazione tra i gruppi e' piu' netta. Questo
porta a concludere che la dipendenza in media di Y da X e' piu' marcata. Le considerazioni
precedenti suggeriscono che non e' opportuno usare la varianza tra gruppi come misura della
dipendenza in media.
Invece il rapporto di correlazione ri
ette la situazione. Infatti, la varianza tra gruppi e',
in entrambi i casi,
(5 ; 7:5)2 50 + (10 ; 7:5)2 50 = 6:25
100 100
mentre le varianze interne sono, rispettivamente 1 100
50 + 1 50 = 1 e 4 50 + 4 50 = 4. Percio' i
100 100 100
rapporti di correlazione sono, rispettivamente, = 6:25=(1+6:25) = 0:8621 e 2 = 6:25=(4+
2
6:25) = 0:6098: Quindi, nel primo caso, i due gruppi spiegano circa l'86% della variabilita',
mentre nel secondo essi spiegano solo il 60%.
106
459. Gli esempi e la discussione precedente mettono in luce vari aspetti legati al rapporto di
correlazione. (a) Si tratta di un numero adimensionale (e' una percentuale). (b) Permette di
misurare il grado di dipendenza di Y da X determinando la parte di variabilita' spiegata dalle
classi del carattere esplicativo. (c) Ovviamente, per poterlo calcolare occorre che la variabile
dipendente sia quantitativa e il carattere esplicativo sia suddiviso in classi.
SETTIMANA 10
Regressione
107
108
Se si calcola, per ogni riga, la media condizionata delle altezze si ottiene il prospetto
seguente,
Scarpe Altezza media
35 154.0
36 157.0
36.5 165.0
37 161.2
38 162.2
39 167.1
40 168.9
41 171.8
42 174.8
42.5 173.0
43 177.0
44 181.0
45 178.8
2
1
0
0 5 10 15 20 25
464. Anche la funzione di regressione puo' essere rappresentata su un sistema di assi car-
tesiani e, spesso, viene riportata sullo stesso scatter. Disegnare la funzione di regressione
dell'altezza rispetto al numero di scarpe.
Riportando i punti (x; E (Y j x)) sul diagramma, si ottiene il graco seguente.
Funzione di regressione dell’altezza dal numero di scarpe
180
Altezza
170
160
150
36 38 40 42 44
Scarpe
I punti sono stati uniti da segmenti per evidenziare l'andamento della funzione.
465. Se le variabili X e Y sono continue, e' possibile che ad ogni determinazione x di X
sia associata una determinazione di Y . Pertanto ogni distribuzione condizionata ha una sola
osservazione. In teoria, la media condizionata E (Y j x) e' uguale a quell'unico valore. La
funzione di regressione e' pertanto lo stesso scatter.
Tuttavia, spesso e' opportuno suddividere in classi il carattere X e calcolare le media
condizionate per ogni classe, al ne di \lisciare" l'andamento della funzione di regressione.
Ad esempio, si considerino i dati seguenti rilevati su un collettivo di 40 famiglie, tutte composte
da 3 componenti. Le variabili sono X , il reddito mensile, e Y , la spesa per generi alimentari
(entrambe in migliaia di lire).
Reddito Spesa Reddito Spesa Reddito Spesa Reddito Spesa
1 761.1 249.7 11 1490.5 513.7 21 1900.3 469.1 31 2180.0 807.3
2 905.8 278.8 12 1553.1 470.7 22 1900.8 592.4 32 2200.0 1085.6
3 1122.0 391.0 13 1561.0 866.2 23 1906.9 603.8 33 2202.0 406.0
4 1234.2 573.1 14 1603.3 584.2 24 1906.9 700.1 34 2424.0 471.8
5 1274.9 601.7 15 1613.6 619.3 25 1938.8 554.4 35 2424.0 674.3
6 1287.5 480.2 16 1665.8 443.8 26 1960.2 990.5 36 2454.0 1029.6
7 1310.8 580.8 17 1741.3 563.6 27 1974.0 572.6 37 2512.0 539.6
8 1371.2 478.4 18 1753.0 392.6 28 2015.0 723.4 38 2677.0 794.6
9 1434.3 610.6 19 1859.1 871.2 29 2139.0 810.2 39 3013.0 551.8
10 1448.6 501.6 20 1860.7 665.0 30 2161.0 516.4 40 3048.0 1285.9
Scegliendo delle classi di reddito, ad esempio, meno di 1 milione, [1000; 1500), [1500; 2000),
[2000; 2500), 2 milioni e mezzo e oltre al mese, si ottengono le medie condizionate
Classi < 1000 1000 - 1500 1500 - 2000 2000 - 2500 2500+
Punti centrali 850 1250 1750 2250 2750
Medie 264.2 525.7 622.5 725 793
110
La funzione di regressione si puo' disegnare riportando sullo scatter i punti aventi come
coordinate i punti centrali delle classi e le medie ed inne unendoli con dei segmenti.
Funzione di regressione della spesa dato il reddito
1200
Spesa
Reddito
466. La funzione di regressione permette di studiare come varia la media della variabile
dipendente per valori ssati della variabile esplicativa. In tal senso e' utile per studiare la
dipendenza in media. Dato che X e' quantitativa, la funzione di regressione suggerisce una
legge di variazione di Y in funzione di X .
Ad esempio, i due esempi precedenti suggeriscono che l'altezza media e' una funzione
crescente del numero di scarpe. Analogamente la spesa e' una funzione crescente del reddito.
L'origine del termine regressione risale alle prime applicazioni di questa tecnica allo studio
della dipendenza dell'altezza dei gli dall'altezza dei padri (Galton, 1986). Galton osservo'
che la statura media dei gli tendeva a crescere con la statura del padre, ma non allo stesso
livello (padri piu' alti tendono ad avere gli alti, ma un po' piu' bassi di loro; padri piu' bassi
tendono ad avere gli bassi ma piu' alti di loro). Egli chiamo' questo fenomeno regressione
verso la mediocrita'.
467. La funzione di regressione di X da Y e' uguale alla funzione di regressione di Y dato
X?
No, e' diversa, in generale. Questo fatto e' opportuno perche' lo studio della dipendenza
e' per sua natura asimmetrico.
468. A conferma delle considerazioni precedenti, si studi la funzione di regressione del
numero di scarpe dall'altezza.
L'altezza ha un numero troppo elevato di modalita', per cui e' opportuno suddividerla in
classi. Ad esempio,
Classi < 155 155 - 160 160 - 165 165 - 170 170 - 175 175 - 180 180+
Punti centrali 151.5 157.5 162.5 167.5 172.5 177.5 183.5
Medie 36.2 36.92 38.15 39.47 41.31 43.23 44.5
111
Il graco di (y; E (X j y )) e' stato riportato sullo stesso scatter, visto sopra, con in ascisse il
numero di scarpe e in ordinate l'altezza. Per questo si sono rappresentati i punti (E (X j y ); y )
con le coordinate scambiate.
Funzione di regressione del numero di scarpe dall’altezza
180
170
Altezza
160
150
36 38 40 42 44
Scarpe
10
5
470. Spesso, come negli esempi fatti n qui, la funzione di regressione e' monotona, cioe' o
crescente, o decrescente. Talvolta essa non e' monotona nel senso che per certi valori di x e'
crescente e per altri e' decrescente.
112
Esempi tipici di questo comportamento sono certe serie storiche. Ad esempio, nel graco
seguente e' rappresentata la serie storica (mensile) dei tassi di natalita' cioe' del numero di
nati ogni 1000 abitanti per gli Stati Uniti dal 1940 al 1947. (U. S. Department of Health,
Education and Welfare, National Center for Health Statistics, series 21, no. 9).
Tasso di natalita’ in USA
30
25
20
15
Nelle serie storiche, la variabile X e' particolare perche' rappresenta il tempo a cui e' stata fatta
la rilevazione. Di solito, inoltre, per ogni tempo, esiste un solo valore di Y , come nell'esempio
dei tassi di natalita'. Spesso, anche se non sempre, il dato rilevato di Y e' aggregato e quindi
puo' essere pensato come un dato medio.
La funzione di regressione nel caso delle serie e' chiamata comunemente trend della serie,
cioe' andamento di fondo tendenziale. Nella serie esemplicata il trend non e' monotono, ma
segue delle
uttuazioni, in parte stagionali entro l'anno (il minimo e' all'inizio dell'estate e
il massimo in autunno), in parte dovute a fatti congiunturali (la rapida crescita del tasso di
natalita' inizia circa 9 mesi dopo il rientro delle truppe americane dopo la seconda guerra
mondiale).
10.2 Varianze condizionate
471. La funzione di regressione e' il luogo delle medie condizionate. Le medie condizionate
non sono i soli aspetti delle distribuzioni condizionate che cambiano al variare di X . Spesso
anche le varianze condizionate var(Y j x) cambiano. Questo si puo' vedere facilmente dagli
scatter degli esempi precedenti.
Se dispersione verticale dei punti attorno alla funzione di regressione e' piu' o meno co-
stante, vuol dire che le varianze condizionate sono costanti. Questo e' il caso, per esempio,
delle distribuzioni condizionate dell'altezza dato il numero di scarpe.
Se, al contrario, i punti hanno una dispersione che varia al variare di x (dando luogo
tipicamente a delle forme `a megafono') cio' signica che le varianze condizionate sono diver-
se. Ad esempio, le distribuzioni condizionate della spesa dato il reddito hanno varianze che
crescono al crescere del reddito. Cio' signica che la variabilita' della spesa e' minore per le
famiglie con i redditi bassi e va via via crescendo per le famiglie con i redditi piu' alti.
472. Come si comportano le varianze condizionate nell'esempio del consumo e della cilin-
drata?
113
475. Viste le considerazioni precedenti, spesso si cerca di sostituire alla funzione di regres-
sione vera una funzione analitica approssimata f (x). La funzione analitica e' un modo per
riassumere la funzione di regressione.
114
476. Talvolta la funzione analitica viene usata per denire la relazione teorica tra una
variabile statistica Y e una variabile esplicativa X .
Dal punto di vista statistico, la relazione tra due variabili non viene concepita come una
relazione matematica funzionale del tipo
y = f (x)
ma come una relazione funzionale perturbata del tipo
y = f (x) + ":
dove f (x) e' appunto la funzione di regressione teorica e " e' la dierenza tra i dati e la
funzione stessa.
10.4 Funzione di regressione lineare
477. Osservando l'andamento della funzione di regressione su esempi concreti si osserva che
esso somiglia spesso a quello di funzioni analitiche semplici, ad esempio spesso e' lineare. In
quasi tutti gli esempi fatti in precedenza, salvo il caso della serie storica dei tassi di natalita',
la funzione di regressione non si discosta molto da una retta. Pertanto e' naturale sostiture
alla funzione di regressione vera una funzione lineare.
479. Che cosa bisogna conoscere per denire l'equazione di una retta?
L'equazione della retta e' completamente determinata dai due coecienti e .
480. Qual'e' il signicato dei due coecienti e nell'equazione di una retta?
Facciamo un esempio. Supponiamo che = 2 e = 1 e che dunque l'equazione della
retta sia
y = 2+x
Il graco della funzione e' disegnato nella gura sottostante, in alto a sinistra.
115
10 10
6 6
y 4 4
y
2 2
-2 2 4 6 8 10 -2 2 4 6 8 10
-2 -2
x x
10 10
6 6
4 4
y
2 2
-2 2 4 6 8 10 -2 2 4 6 8 10
-2 -2
x x
Il coeciente 2, detto anche termine costante, indica l'ordinata del punto in cui la retta
incontra l'asse verticale e cioe' e' il valore di y quando x vale zero.
Il coeciente denota la pendenza (o coeciente angolare ) della retta che indica di
quanto varia y se x varia di 1. In questo esempio, = 1 indica che se si fa crescere un x
qualsiasi di 1, la funzione aumenta di 1. In altri termini se si considerano due valori qualsiasi
x e x0 la cui dierenza e' 1, i valori corrispondenti 2 + x e 2 + x0 dieriscono di 1 (vericare
prendendo per esempio x = 11 e x0 = 10). Si osservi che la retta si alza di 1 ogni volta che x
si sposta a destra di 1.
Nella gura, in alto a destra e' rappresentata la retta
y = 0 + 0:5x
La pendenza di questa retta e' 0:5 cioe' ad ogni aumento unitario di x, corrisponde un aumento
di 0:5 di y . Ovvero, se si considerano due valori qualsiasi x e x0 la cui dierenza e' 1, i valori
corrispondenti 0:5x e 0:5x0 dieriscono di 0.5 (vericare prendendo per esempio x = 11 e
x0 = 10). Si osservi che sul graco la retta si alza di 1=2 ogni volta che x si sposta a destra
di 1.
La pendenza puo' essere positiva, negativa o nulla. E' negativa se il coeciente e'
negativo, e' nulla se e' zero. Nella gura a sinistra in basso e' disegnata una retta con la
116
pendenza negativa
y = 8 ; 1:5x:
Ogni incremento unitario di x da' luogo a una variazione negativa, cioe' a una diminuzione di
;1:5 in y. Si osservi che sul graco la retta scende di 1 21 ogni volta che x si sposta a destra
di 1.
La retta passa inoltre per il punto (0; 8), cioe' y e' 8 quando x = 0.
Nell'ultima gura a destra in basso e' disegnata una retta con pendenza zero
y = 4+0x
La retta e' parallela all'asse delle ascisse. Ogni incremento di 1 in x non comporta alcuna
variazione in y .
485. Quando e perche' viene usata una funzione di regressione approssimata lineare?
(a) Quando la funzione di regressione e' monotona e non evidenzia una curvatura notevole.
(b) Quando la funzione di regressione e' non lineare, ma viene ridotto il campo di variazione
di X . In questo caso, delle approssimazioni lineari sono spesso adeguate.
(c) Perche' e' una funzione semplice. Supponiamo infatti di poter determinare una fun-
zione di regressione lineare che non si discosta molto dalla vera funzione di regressione. In tal
caso possiamo disporre di un modo estremamente sintetico per descrivere l'andamento della
media di Y j x in funzione di x. Infatti, sarebbe suciente ricordare i due valori e per
cogliere l'intera funzione di regressione.
(d) Perche' e' facile da capire e da comunicare.
(e) Perche' talvolta e' possibile ottenere una funzione di regressione lineare trasformando
le variabili.
Interpolazione
In questa lezione si parla di come si approssima una funzione di regressione con una funzione
lineare. E' il seguito naturale della lezione sulla regressione. Se si riesce a sintetizzare la
funzione di regressione con una retta, e' suciente riportare i coecienti della retta (in modo
particolare la pendenza) per riassumere sinteticamente come varia Y al variare di X . Anche in
questa lezione Y e X sono rispettivamente una variabile dipendente e una variabile esplicativa,
entrambe quantitative.
11.1 Tipi di interpolazione
491. Volendo approssimare la funzione di regressione, usando una funzione analitica f (x),
quali nalita' si devono tenere presenti?
(a) Innanzitutto si vuole riassumere la funzione di regressione, con una funzione semplice,
che dipende, cioe', da pochi coecienti. Di modo che l'intera funzione di regressione si possa
descrivere approssimativamente conoscendo questi coecienti.
(b) Talvolta l'approssimazione e' utilizzata per lisciare la funzione di regressione che
appare troppo irregolare.
(c) Una delle nalita' e' anche quella di interpolare le medie condizionate, cioe' di stimare
le medie condizionate per dei valori di x interni al campo di variazione di X per cui queste
non si conoscono.
(d) Inne talvolta una delle nalita' e' quella di estrapolare le medie condizionate, cioe'
di stimare le medie condizionate per dei valori di X esterni (ma non troppo) al campo di
variazione.
492. Il processo con cui si adatta una funzione di regressione e' chiamato interpolazione
statistica.
119
120
y|x
f(x)
0
0 x
Nella gura f (x) e' una funzione lineare e passa attraverso le distribuzioni condizionate. Lo
scostamento " j x e' la dierenza tra l'ordinata del punto e l'ordinata della sua proiezione
verticale sulla funzione.
496. Lo scostamento e' la lunghezza del segmento che unisce i due punti?
No, perche' una lunghezza e' sempre positiva, mentre lo scostamento puo' essere positivo
(se il punto e' sopra la funzione) o negativo (se e' sotto).
121
180
177
170
y
160
157
150
36 38 40 42 43 44
x
La retta che passa per i due punti ha una pendenza (177 ; 157)=(43 ; 36) = 2:587. Quindi
ha una forma
y = + 2:587x:
Inoltre, deve passare per il punto (36; 157) quindi, sostituendo a x 36 e a y 157, deve risultare
una identita'. Dunque occorre che
157 = + 2:587 36
122
da cui si ricava = 63:87: La retta che passa per i due punti e'
y = 63:87 + 2:587x
e pertanto, sostituendo alla ne x = 40 si ottiene il valore interpolato di y cioe'
63:87 + 2:587 40 = 167:4:
Controllare sulla gura il risultato.
499. Che signica in generale interpolare per punti?
Signica far passare una funzione esattamente per un certo numero di punti. Come nel
caso dell'interpolazione lineare, dati due punti si fa passare per essi una retta, cosi' si puo'
generalizzare l'idea a piu' di due punti. Naturalmente, se i punti sono piu' di due non si puo'
usare una retta per fare l'interpolazione. Percio' si utilizza qualche funzione piu'
essibile, ma
sempre continua (senza interruzioni) e abbastanza regolare (senza punti angolosi) che passi
esattamente attraverso i punti.
500. E' utile l'interpolazione matematica per sintetizzare una funzione di regressione?
No, non e' molto utile, perche' si puo' dimostrare che all'aumentare dei punti da interpolare
e' necessario complicare sempre di piu' la funzione introducendo un numero sempre maggiore
di coecienti. Ad esempio, per interpolare due punti, si usa una retta che ha due coecienti
e . Per interpolare 3 punti si puo' usare una funzione quadratica (equazione di una parabola)
f (x) = + x +
x2
che ha 3 coecienti, tanti quanti i punti da interpolare. Percio', volendo interpolare i punti
di una funzione di regressione, si dovrebbe utilizzare una funzione con tanti coecienti quanti
sono i punti da interpolare e la nalita' di semplicare la funzione di regressione non sarebbe
ovviamente raggiunta.
Un secondo motivo per cui l'interpolazione per punti non e' conveniente e' illustrato
nell'esempio seguente.
Interpolazione di un polinomio di grado 9
400
350
Popolazione USA, milioni
300
250
227.5
200
150
100
50
0
1900 1910 1920 1930 1940 1950 1960 1970 1980 1990 2000
123
Nel graco si vede l'andamento della serie storica della popolazione (in milioni) degli Stati
Uniti, dall'inizio del secolo al 1990. Supponiamo di voler interpolare la serie per prevedere la
popolazione nel 2000.
Interpolando una funzione che passa per tutti i punti (un polinomio di nono grado) si
ottiene una curva ondeggiante con delle evoluzioni che non hanno niente a che fare con il
fenomeno, ma che sono semplicemente dovute al tipo di funzione utilizzata, e che si formano
perche' la funzione e' vincolata a passare per i punti.
Inoltre, la funzione ha un brusco cambiamento proprio dopo il 1990 e cala improvvisa-
mente. Pertando usando questa funzione a scopo estrapolativo, si prevede che la popolazione
degli Stati Uniti decresce a 227:5 milioni di abitanti.
Inne, la funzione ha di nuovo un brusco cambiamento di tendenza dopo il 2000 e comincia
a crescere a un tasso molto maggiore di prima.
La lezione e' chiara. Se si insiste a far passare una funzione esattamente per tutti i dati,
la funzione tende a seguire tutte le minime ondulazioni e non a lisciare l'andamento. Inoltre
puo' essere che produca non linearita' non coerenti con i dati, ma spurie1 .
11.3 Fasi dell'interpolazione
501. Quali sono le fasi dell'interpolazione statistica?
Ci sono tre fasi distinte.
(a) La scelta della famiglia di funzioni da interpolare.
(b) L'adattamento vero e proprio di una funzione nell'ambito della famiglia scelta, sulla
base di un criterio oggettivo.
(c) La verica del grado di accostamento tra le osservazioni vere y e le osservazioni teoriche
f (x) e la misura complessiva della bonta' di adattamento.
504. Fare un esempio di trasformazione di variabile che migliora l'allineamento dei punti
sullo scatter.
1
Esempio tratto da Forsythe, Malcom, Moler (1977) Computer Methods for Mathematical Computations,
Prentice Hall.
124
15
10
5
Cilindrata
Osservare che la funzione di regressione diventa crescente (con una maggior cilindrata si tende
a consumare in media piu' litri di benzina per fare 100km).
11.4 Metodo dei minimi quadrati
505. Una volta scelta la famiglia di funzioni da interpolare, diciamo la famiglia delle rette,
come si fa a trovare la retta migliore, cioe' quella, tra tutte le possibili, che approssima meglio
la funzione di regressione?
Tra tutte le rette possibili si cerca di trovare, quella che ha la distanza minore dalle
medie condizionate. Il metodo piu' usato per eettuare l'adattamento e' chiamato metodo dei
minimi quadrati ed e' dovuto a Legendre e a Gauss.
506. Spiegare i dettagli del metodo dei minimi quadrati.
Il metodo si propone di determinare la retta che rende minima la distanza globale tra
la retta e la funzione di regressione. Come distanza globale si usa la media di tutti gli
scostamenti al quadrato tra i valori osservati y j x della variabile dipendente in corrispondenza
di una determinazione x della variabile esplicativa e i valori teorici ottenuti sostituendo tale
x nell'equazione della retta, cioe' la media degli scostamenti al quadrato
fy j x ; ( + x)g2
La gura sottostante illustra il criterio. La distanza tra la retta disegnata e i valori osservati
e' la media delle lunghezze al quadrato dei segmenti verticali.
125
30
25
20
15
10
5
0
0 2 4 6 8 10
512. Supponiamo che si voglia studiare la dipendenza del consumo di gasolio necessario per
riscaldare un ambiente e la temperatura esterna.
In 5 intervalli di tempo diversi si registra la temperature esterna (in gradi Celsius) e il
consumo di gasolio (in litri). I dati ottenuti sono i seguenti.
Temperatura Gasolio
-3 150
-1 140
1 130
-5 170
-7 210
-10 -8 -6 -4 -2 0 2
Temperatura
Si deduce che la covarianza e' XY = ;380=5 = ;76 mentre la varianza di X e' X2 = 40=5 =
8: La covarianza negativa indica che vi e' discordanza tra le due variabili. Il coeciente di
regressione del consumo dalla temperatura e' dunque
bY X = ; 76
8 = ;9:5 litri per grado:
Il termine costante e'
Y ; bY X X = 160 ; (;9:5) (;3) = 160 ; 28:5 = 131:5 litri :
Pertanto, la retta interpolata e' y = 131:5 ; 9:5x.
220
200
200
180
180
160
160
140
140
120
120
-10 -8 -6 -4 -2 0 2 -10 -8 -6 -4 -2 0 2
distanza = 1895 distanza = 1009.87
220
220
200
200
180
180
160
160
140
140
120
120
-10 -8 -6 -4 -2 0 2 -10 -8 -6 -4 -2 0 2
distanza = 501.56 Minimi quadrati: distanza = 78
128
514. Nel graco precedente e' rappresentato l'adattamento di varie rette, tra cui (in basso
a destra) la retta dei minimi quadrati, ai dati sul consumo di gasolio. Per ogni caso e' fornito
l'indice di distanza tra i punti e la retta, cioe' la media degli scostamenti al quadrato tra i
punti e la retta.
Il valore piu' basso dell'indice e' in corrispondenza della retta dei minimi quadrati. Come
detto, non e' possibile trovare una retta, che dia luogo a un valore piu' basso di 78 dell'indice
(in questo esempio).
11.5 Valori adattati e residui
515. Una volta adattata la retta dei minimi quadrati, che cosa sono i valori adattati (o
valori teorici )?
I valori adattati sono i valori teorici che si ottengono sostituendo nell'equazione della retta
dei minimi quadrati ad x i valori osservati della variabile esplicativa X . Sono i valori che
approssimano i valori osservati della variabile Y (le medie condizionate E (Y j x) in generale).
Essi indicano i valori che sono stati calcolati come approssimazioni dei valori osservati.
L'equazione che descrive i valori teorici si puo' scrivere in modo piu' comprensibile come
consumo
d = 131:5 ; 9:5 temperatura:
517. Come si indicano i valori adattati? I valori adattati sono indicati con y^ (leggere `y
cappello'), cioe'
y^ = a + bx
dove x assume come valori le determinazioni di X .
521. Che proprieta' hanno i valori adattati e i residui dei minimi quadrati?
(a) La somma dei valori adattati e' sempre uguale alla somma dei valori osservati.
(b) La somma dei residui e' sempre zero.
(c) La media dei quadrati dei residui e' la distanza (globale) esistente tra la retta dei minimi
quadrati e i dati. Tale valore non puo' essere ridotto da nessuna altra retta interpolata.
522. La media dei quadrati dei residui si chiama varianza residua o varianza non spiegata.
Si indica con var(e) e formalmente si puo' scrivere come
X
var(e) = (y j x ; y^)2 p(x; y )
x;y
dove la somma e' estesa a tutte le coppie di modalita' di X e di Y . Nel caso piu' frequente,
non esistono valori ripetuti di (x; y ) e dunque p(x; y ) = 1=(Totale osservazioni). Pertanto la
varianza residua e' semplicemente la somma di tutti i quadrati dei residui, divisa per quanti
sono.
523. Vericare che la varianza residua e' 78, nell'esempio del consumo di gasolio.
Basta impostare la tavola seguente
Residui Residui al quadrato
-10 100
-1 1
8 64
-9 81
12 144
Totale 0 390
e calcolare var(e) = 390=5 = 78:
130
bY X = 19:54
2:692 = 2:7 cm / numero
Il termine costante e'
a = 166:9 ; 2:7 39:3 = 60:8 cm
e dunque la retta dei minimi quadrati e'
y = 60:8 + 2:7x:
I valori adattati dell'altezza sono ottenuti come segue
d = 60:8 + 2:7 numero di scarpe
altezza
L'interpretazione e' la seguente. La covarianza e' positiva indicando che statura e numero di
scarpe sono concordanti. Per ogni aumento di 1 nel numero di scarpe la statura cresce di 2.7
cm. Il termine costante non ha un'interpretazione.
525. Calcolare il valore interpolato dell'altezza in corrispondenza del numero di scarpe 40.
E' y^ = 60:8 + 2:7 40 = 168:8 cm:
527. (Esempio del reddito e della spesa). Le statistiche fondamentali sono le seguenti.
Reddito (migliaia di lire) Media = 1844.7 sqm = 512.4
Spesa (migliaia di lire) Media = 622.9 sqm = 213.1
Covarianza = 61276.5
131
531. Dimostrare che la somma dei residui dei minimi quadrati e' sempre zero.
Infatti la somma dei residui e' la somma delle quantita' y ; y^ cioe' di
y ; fY + b(x ; X )g = (y ; Y ) ; b(x ; X ):
La somma e' zero perche' e' la somma di scarti dalla media di Y meno b volte la somma di
scarti dalla media di X (come si ricordera' la somma di scarti dalla media e' sempre nulla).
534. Si consideri, inne, ancora il problema del consumo e della cilindrata, ma con la varibile
dipendente Y trasformata in 100=Y per passare da km con un litro a litri per 100 km. Gli
indici fondamentali sono i seguenti.
Cilindrata (cc) Media = 2037.10 sqm = 892.26
Consumo (litri per 100 km) Media = 10.39 sqm = 3.59
Covarianza = 2596.36
bY X = 2596:36 = 0:0033
892:262
Il termine costante e'
a = 10:39 ; 0:0033 2037:1 = 3:7 litri per 100 km
e dunque la retta dei minimi quadrati e'
y = 3:7 + 0:0033x:
I valori interpolati del consumo sono
litri perd100 km = 3:7 + 0:0033 cilindrata
L'interpretazione e' la seguente. Per ogni cc in piu' l'auto consuma 0.0033 litri in piu' per
fare 100 km. Ossia, per ogni 1000 cc in piu' l'auto consuma 3.3 litri in piu' per fare 100 km.
536. Le rette di regressione ricavate per gli esempi discussi in precedenza sono riportate
nella gura seguente.
134
1400
190
1200
180
1000
Altezza
Spesa
170
800 600
160
400
150
200
34 36 38 40 42 44 46 500 1000 1500 2000 2500 3000 3500
Scarpe Reddito
30
20
25
15
20
10
15
5
10
5
0
Si osservi che l'intercetta tra la retta e l'asse verticale non sempre corrisponde al valore stimato
a, perche' l'asse verticale non passa in tutti casi per x = 0. L'unico caso in cui l'intercetta e'
uguale ad a e' quello in basso a sinistra relativo alla regressione del consumo (in km con un
litro) dalla cilindrata.
537. Se il coeciente di regressione e' zero che cosa signica?
Signica che la retta ha pendenza zero cioe' e' costante. Infatti, usando la retta dei minimi
quadrati ha equazione
y = Y + bY X (x ; X )
per cui, se bY X = 0 la retta diventa
y = y
cioe' e' una retta con quota costante uguale alla media di Y . In questo caso, tutti i valori
adattati sono sempre uguali alla media di Y quale che sia x.
Si osservi, inoltre, che se il coeciente di regressione e' zero allora deve essere zero il suo
numeratore, cioe' la covarianza tra le due variabili.
Dunque se il coeciente di regressione e' nullo le variabili X e Y sono incorrelate. Vice-
versa, in caso di incorrelazione, se si adatta una retta di regressione, la pendenza stimata con
135
i minimi quadrati e' identicamente zero. Questo risultato permette di chiarire maggiormen-
te il signicato di incorrelazione lineare: in caso di incorrelazione lineare, l'adattamento di
una retta porta a interpolare una retta costante, cioe' a concludere che teoricamente Y non
dipende linearmente da X .
Come si e' gia' rilevato in precedenza, puo' accadere, tuttavia, che la retta dei minimi
quadrati abbia pendenza zero, ma che cio' nasconda in realta' una dipendenza non lineare di
Y da X .
11.6 Bonta' di adattamento
538. Dagli esempi fatti e' evidente che la retta interpolata in taluni casi e' vicina ai dati,
e quindi e' un buon riassunto degli stessi, mentre in altri casi e' lontana e quindi non da'
luogo a un buon adattamento. Fondamentalmente che cosa dobbiamo esaminare per valutare
numericamente l'adattamento?
Per valutare l'adattamento ci si basa sui residui di interpolazione e = y ; y^. Infatti, usando
i residui e' possibile fornire una nuova versione della relazione fondamentale:
dato = modello + residuo
e cioe'
y = y^ + e
da cui si deduce che quanto piu' la parte residua e e' piccola e tanto migliore e' l'adattamento.
539. Che informazioni forniscono dunque i residui?
I residui danno due tipi di indicazione. (a) La prima indicazione e' dedotta dalla dimensio-
ne dei residui. Questa permette di valutare la bonta' di adattamento perche' l'adattamento
e' tanto migliore quanto piu' i residui sono vicini a zero. (b) La seconda indicazione e' de-
dotta dalla struttura dei residui cioe' dal loro comportamento complessivo. L'idea e' che se
i residui risultano indipendenti dalla variabile esplicativa X allora possiamo concludere che
si e' riusciti a includere tutta la dipendenza di Y da X nella retta di regressione. Se invece i
residui dipendono da X la retta di regressione non e' in grado di spiegare completamente la
dipendenza di Y da X .
Pertanto, in generale, i residui vanno esaminati in due fasi diverse. Nella prima fase si
costruisce un indice globale di bonta' di adattamento tenendo conto della dimensione dei
residui. In una seconda fase si esamina se i residui sono indipendenti da X oppure risultano
ancora associati a X . Dalla prima fase si puo' concludere se, avendo scelto come modello
una funzione lineare, tale funzione adattata e' vicina ai dati oppure no. Dalla seconda fase
invece si puo' controllare se la pretesa di riassumere la funzione di regressione con una retta
e' sostenibile oppure se e' necessario rivedere la specicazione della funzione.
540. Come si costruisce un indice globale di bonta' di adattamento?
L'indice fondamentale e' chiamato indice di determinazione lineare, indicato da R2 (erre
quadro). La sua denizione e' la seguente
var(e)
R2 = 1 ; var( Y)
136
cioe' e' il complemento a uno del rapporto tra la varianza residua e la varianza della variabile
dipendente.
541. Che valore assume l'indice di determinazione lineare se l'adattamento e' esatto?
L'adattamento e' esatto se tutti i valori interpolati sono uguali ai valori osservati di Y .
Cioe' se tutti i residui sono nulli. In tal caso la varianza residua (che e' la media dei quadrati
dei residui) e' ovviamente zero e dunque l'R2 e' uguale a 1.
542. L'indice di determinazione lineare puo' essere piu' grande di 1?
No, non puo' essere piu' grande di 1. Infatti, se i residui non sono tutti nulli i loro quadrati
sono positivi e la varianza residua e' positiva. Pertanto, il rapporto var(e)=var(Y ) e ' positivo,
viene tolto da 1 e quindi lo riduce.
543. Come si interpreta l'indice di determinazione lineare?
Per interpretare l'indice occorre discutere preliminarmente un risultato fondamentale e
cioe' la scomposizione della varianza nella regressione.
544. Enunciare la scomposizione della varianza nella regressione.
Una volta adattata con i minimi quadrati una funzione
y = + x
e ottenuti i coecienti a e b, i valori interpolati Y^ e i residui e, la varianza della variabile
dipendente Y , var(Y ) e' scomponibile sempre in due parti di cui essa e' la somma: la prima
parte e' detta varianza di regressione o varianza spiegata, var(Y^ ) e la seconda parte e' la
varianza residua, o varianza non spiegata, var(e). Pertanto,
var(Y ) = var(Y^ ) + var(e)
545. Che cos'e' la varianza spiegata?
La varianza spiegata e' semplicemente la varianza dei valori adattati. Cioe' e' la varianza
dei valori interpolati y^ = a + bx con i minimi quadrati.
546. Che cos'e' la varianza non spiegata?
E' la varianza dei residui, cioe', ricordando che i residui hanno sempre somma zero e quindi
media zero, la media dei quadrati dei residui
e = y ; y^:
547. Come si dimostra la scomposizione della varianza?
Si parte dalla scomposizione fondamentale
Y = Y^ + e
e da questa si puo' dimostrare che
var(Y ) = var(Y^ + e) = var(Y^ ) + var(e):
137
dove l'R2 e' ottenuto come rapporto tra 52.75 e 72.08. La variabilita' dell'altezza e' imputabile
per il 73% al modello di dipendenza lineare tra essa e il numero di scarpe.
555. Dimostrare che l'indice di determinazione lineare e' uguale al quadrato del coeciente
di correlazione lineare.
Per denizione
^
Y ) b X
R2 = var(
2 2
2 = 2
Y Y
Inoltre e' noto che il coeciente di regressione e'
b = cov( X; Y ) = XY
var(X ) X2
Sostituendo questa relazione nella precedente si ottiene
R2 = XY XY X2 = XY XY = XY 2 = 2 :
XY
X X Y X2 Y2 X Y
2 2 2
139
556. Trovare l'indice di determinazione lineare per la regressione della spesa dal reddito.
Il coeciente di correlazione tra spesa e reddito (ottenuto dai dati riportati in precedenza)
e'
XY = 51261276 :5 = 0:561
:4 213:1
e denota una certo grado di correlazione lineare positiva. L'indice di determinazione lineare
e' semplicemente il quadrato di questo valore cioe'
R2 = 0:5612 = 0:31
Pertanto il grado di adattamento e' modesto. Solo il 31% della variabilita' dei consumi e'
spiegabile dalla relazione lineare adattata con il reddito. Il 69% della variabilita' dei consumi
e' dovuto a residui non spiegati al modello.
557. Qual'e' il campo di variazione dell'indice di determinazione lineare?
L'indice R2 assume sempre valori compresi tra 0 e 1. Infatti e' un rapporto tra due
grandezze positive di cui la prima e' una parte della seconda. Alternativamente, lo si puo'
dedurre ricordando che e' il quadrato del coeciente di correlazione che varia tra ;1 e +1.
558. Qual'e' l'interpretazione del caso in cui l'indice di determinazione e' zero?
Se l'indice di determinazione e' nullo, vuol dire che le due variabili sono incorrelate. Infatti,
in caso di incorrelazione,
(a) il coeciente di correlazione e' zero e dunque anche il suo quadrato, l'R2 , e' zero;
(b) la covarianza tra le due variabili e' nulla e dunque il coeciente di regressione b e'
zero. Percio' la varianza spiegata var(Y^ ) = b2 X2 che e' il prodotto del quadrato di b per la
varianza di X e' zero e dunque, inne l'indice di determinazione che e' il rapporto tra varianza
spiegata e varianza totale, e' zero.
L'interpretazione di questo caso e' dunque la stessa del caso in cui b = 0: la variabile
dipendente non dipende linearmente dalla variabile esplicativa. Cioe' interpolando la retta i
valori adattati sono costanti e uguali alla media,
y^ = Y + 0 (x ; X ) = Y :
In questo senso l'adattamento di una retta che dipenda da X e' il peggiore possibile.
559. Consideriamo i seguenti due esempi (vedi scatter sottostanti) in cui la retta di regres-
sione ha una pendenza molto vicina a zero e l'indice di determinazione lineare e' prossimo a
zero.
(a) Il primo esempio si riferisce a dei dati meteorologici. Ogni coppia (x; y ) sullo scatter
riguarda la quantita' di neve caduta a Mineapolis (Minnesota) in un certo anno. Piu' preci-
samente, x e' la quantita' di neve (in pollici) caduta nel mese di Novembre, y e' la quantita'
di neve caduta nel resto dell'anno. Sono stati considerati gli anni dal 1950 al 1969. La retta
di regressione interpolata e'
y^ = 42:15 ; 0:021x
140
21.0
100
20.5
80
Neve caduta il resto dell’anno
19.5
40
19.0
20
18.5
0
0 2 4 6 8 10 12 G F M A M G L A S O N D
Neve caduta in Novembre Tempo
560. Entrambi i casi precedenti danno luogo a un R2 praticamente nullo. Si osservi che in
altri esempi abbiamo trovato il coeciente di regressione vicino a zero, ma con l'R2 ben diverso
da zero. Questo mette in luce che e' dicile valutare l'incorrelazione basandosi sul coeciente
di regressione, perche' questo dipende dall'unita' di misura dei due caratteri. Invece l'indice
di determinazione ha una interpretazione assoluta perche' e' un numero puro (come del resto
anche il coeciente di correlazione lineare).
561. Perche' l'indice di determinazione lineare e' un numero puro?
Perche' e' il rapporto di due varianze e quindi l'unita' di misura al numeratore e al
denominatore si elidono.
11.7 Analisi dei residui
562. Abbiamo osservato prima che i residui sono importanti non solo per ottenere un indice
globale di adattamento (come l'R2 ) ma anche per controllare se la specicazione della funzione
interpolante e' adeguata. Un esempio di questo secondo uso dei residui e' fornito dai due casi
(a) e (b) esaminati poco fa.
Per i dati meteorologici e' evidente che i punti sono disposti intorno alla retta senza una
struttura particolare, mentre per la serie dei tassi di natalita' i punti seguono un preciso
andamento stagionale. Pertanto, mentre nel primo caso i residui appaiono indipendenti da
X , nel secondo caso questo non e' vero. Osservando lo scatter dei tassi e' dicile sostenere che
141
siccome la retta e' orizzontale e l'R2 e' zero allora i tassi non dipendono dal tempo. In eetti
la serie mostra una dipendenza dei tassi dal tempo, solo che la dipendenza non e' lineare. Il
fatto che la retta interpolata risulti orizzontale testimonia solo che la serie e' stazionaria in
media nel periodo considerato. Ma l'andamento
uttuante puo' essere spiegato con altri tipi
di funzione del tempo.
563. Qual'e' l'interpretazione se R2 = 1?
Come abbiamo gia' detto prima l'adattamento di una retta e' perfetto. Tutti i punti
sono allineati su una retta. In questo caso il coeciente di correlazione e' per forza o +1
o ;1. XY = 1 se l'allineamento avviene su una retta con pendenza positiva XY = ;1 se
l'allineamento avviene su una retta con pendenza negativa.
Se l'allineamento avviene su una retta orizzontale, il coeciente di correlazione e' inde-
terminato perche' la covarianza e' zero e la varianza di Y e' zero.
564. Un modo per studiare se i residui sono indipendenti da X o no e' quello di costruire
uno scatter ponendo in ascisse X e in ordinate i residui dei minimi quadrati e. Nel primo
scatter a sinistra riportato sotto, ogni punto (x; y ) rappresenta un anno dal 1959 al 1983, in
cui x e' il consumo aggregato per generi alimentari degli Stati Uniti in miliardi di dollari (a
valori costanti del 1971) e y e' il reddito disponibile aggregato degli Stati Uniti (sempre in
miliardi di dollari del 1971). Sopra ogni punto e' riportato l'anno di riferimento.
170
83
110 120 130 140 150 160
82
80 81
2
Consumo per generi alimentari
79
77 78
76
0
72 75
Residui
70 71 73
74
69
-2
68
67
66
65
-4
64
63
6162
60
-6
59
100
90
-8
400 500 600 700 800 900 1000 400 500 600 700 800 900 1000
Reddito disponibile Reddito disponibile
Sul graco e' sovrapposta la retta dei minimi quadrati y^ = 55:3 + 0:093x il cui indice di
determinazione lineare e' molto buono, R2 = 97:8%.
Tuttavia, dallo scatter dei residui di interpolazione, a destra, e' possibile osservare una
certa struttura dei residui dipendente da X e dal tempo. Si osservi che il graco dei residui
permette di vedere amplicati gli scostamenti rispetto alla retta.
La struttura dei residui permette di vedere dove la funzione lineare e' mal specicata e
quindi di criticare il modello proposto, nonostante il valore eventualmente elevato dell'R2 .
Gli scostamenti piu' evidenti in questo esempio sono associati agli anni della crisi petrolifera.
142
565. Che cosa dunque permette di fare l'esame graco dei residui?
Esaminando i residui e' possibile:
(a) studiare i punti che si discostano maggiormente dalla funzione interpolata;
(b) individuare i valori atipici che possono condizionare i coecienti stimati;
(c) criticare il modello se i residui risultano ancora dipendenti da X ; in particolare
rendersi conto se Y dipende da X in modo non lineare.
566. Illustrare le aermazioni appena fatte.
Si consideri l'esempio seguente dovuto a Anscombe, F. J. (1973) Graphs in statistical
analysis, American Statistician, 27, 17{21. L'autore ha inventato quattro insiemi di dati:
1 2 3 4
x y x y x y x y
10 8.04 10 9.14 10 7.46 8 6.58
8 6.95 8 8.14 8 6.77 8 5.76
13 7.58 13 8.74 13 12.74 8 7.71
9 8.81 9 8.77 9 7.11 8 8.84
11 8.33 11 9.26 11 7.81 8 8.47
14 9.96 14 8.10 14 8.84 8 7.04
6 7.24 6 6.13 6 6.08 8 5.25
4 4.26 4 3.10 4 5.39 8 5.56
12 10.84 12 9.13 12 8.15 8 7.91
7 4.82 7 7.26 7 6.42 8 6.89
5 5.68 5 4.74 5 5.73 19 12.50
per ciascuno dei quali gli indici statistici fondamentali sono gli stessi e cioe'
X = 9; X2 = 10
Y = 7:5 Y2 = 3:75
XY = 5
R2 = 0:67
y^ = 3 + 0:5x
Cio' nonostante, guardando gli scatter sotto riportati ci si rende conto che gli indici nascon-
dono delle situazioni molto diverse tra loro.
Nel graco in alto a sinistra eettivamente i residui non hanno un struttura sistematica e
dunque la retta adattata appare adeguata al ne di riassumere la dipendenza di Y da X .
Nel graco in alto a destra, invece, i residui mettono in evidenza una curvatura marcata
e suggeriscono una funzione di regressione non monotona.
Nel graco in basso a sinistra, c'e' evidenza di un unico valore atipico che fa crescere la
pendenza della retta interpolata. Pertanto, in questo caso il modello lineare e' correttamente
specicato, ma un unico dato atipico disturba l'adattamento. Rimuovendo quel solo punto
l'adattamento e' perfetto con un R2 = 1:
143
10
11
10
9
8
9
7
8
y
y
6
7
5
6
4
5
3
4
4 6 8 10 12 14 4 6 8 10 12 14
x x
14
14
12
12
10
10
y
y
8
8
6
6
4
4 6 8 10 12 14 8 10 12 14 16 18 20
x x
Inne, nel graco in basso a destra la situazione e' del tutto patologica, nel senso che la
distribuzione di X e' costante, con l'eccezione di un unico valore. Rimuovendo l'unico punto
a destra la varianza di X e' zero e dunque risulta impossibile adattare una retta ai dati.
dattare una retta ai dati.
144
SETTIMANA 12
Gran parte dei concetti spiegati no ad ora fanno parte della cosiddetta statistica descrittiva.
La statistica descrittiva raccoglie quel complesso di tecniche destinate a descrivere una popo-
lazione avendo a disposizione tutti i dati che la compongono. Nelle lezioni di questa e delle
prossime settimane discuteremo invece di inferenza statistica.
12.1 Introduzione
567. Che cos'e' l'inferenza statistica?
Il problema dell'inferenza statistica e' quello di descrivere la popolazione quando non si
dispone di tutti i dati che compongono la sua distribuzione, ma solo di una parte di essa. In
italiano la parola inferenza ha un signicato piu' generale. Lo Zingarelli riporta le denizioni
seguenti.
Inferenza: processo logico per il quale, da una o piu' premesse, e' possibile trarre una
conclusione.
Inferenza statistica: procedimento di generalizzazione dei risultati ottenuti mediante una
rilevazione parziale per campioni.
Pertanto, l'inferenza statistica e' collegata col processo di induzione.
Induzione: procedimento logico che consiste nel ricavare da osservazioni e esperienze
particolari i principi generali in esse impliciti.
568. Fare degli esempi.
(a) Prima delle elezioni e' d'uso sondare l'opinione di un campione di elettori per conoscere
in anticipo i risultati. Il campione raccoglie un sottoinsieme della popolazione degli elettori.
Il problema di prevedere i risultati senza disporre dei dati denitivi, ma solo di uno spoglio
parziale e' un problema di inferenza statistica.
(b) Tutti i processi produttivi moderni hanno una fase di controllo di qualita'. Ad esem-
pio, i condizionatori d'aria montati sugli aerei di linea sono prodotti in serie e sottostanno a
145
146
un certo numero di controlli. Dopo quanto tempo avviene il primo guasto? Per avere una
indicazione di questo tempo si fanno funzionare ininterrottamente un certo numero di con-
dizionatori e si registra dopo quanto tempo si guastano. E' ovvio che non e' possibile fare
una rilevazione di questo dato su tutti i condizionatori prodotti. Stimare dopo quanto tempo
(in media) avviene il primo guasto per tutti i condizionatori facendo un controllo solo su un
campione e' un problema di inferenza statistica.
(c) Il tasso di disoccupazione e' un dato economico estremamente importante. Il tasso
di disoccupazione varia continuamente in dipendenza di un gran numero di fattori. Come si
fanno ad ottenere dati continuamente aggiornati sul tasso di disoccupazione? Non e' conve-
niente procedere con dei censimenti sistematici su tutta la forza lavoro, a causa dei costi. E'
possibile tuttavia ricorrere a campioni estratti dall'intera popolazione. L'istat svolge infatti
un'indagine trimestrale sulle forze di lavoro, rilevando sia coloro che fanno parte delle forze
di lavoro sia coloro che non ne fanno parte. Inoltre, quelli che ne fanno parte vengono sud-
divisi a seconda che siano occupati, disoccupati e in cerca di prima occupazione. L'indagine
campionaria delle forze di lavoro si propone di dare una stima del tasso di disoccupazione
eettivo per tutta l'Italia al momento della rilevazione, pur disponendo di dati parziali.
(d) Il fumo e' pericoloso per la salute? La ricerca medica negli anni piu' recenti ha cercato
di dimostrare anche statisticamente che i tumori all'apparato respiratorio sono \causati"
dal fumo. La dimostrazione statistica e' basata sul ragionamento seguente. Esistono due
popolazioni, quella dei fumatori e quella dei non fumatori. Se la proporzione di tumori e'
\signicativamente" maggiore per la seconda popolazione, allora dobbiamo concludere che il
fumo e' un fattore di rischio. Come si fa a vericare che la proporzione di tumori e' maggiore
per l'intera popolazione dei fumatori? Si osservi infatti che tale popolazione e' innita perche'
comprende tutti gli esseri umani (anche coloro che devono ancora nascere). La tecnica usata
dagli statistici consiste nell'estrarre due campioni, uno dalla popolazione dei non fumatori e
uno dalla popolazione dei fumatori e quindi nel confrontare le proporzioni di tumori nei due
campioni. Il confronto viene quindi esteso opportunamente alle due popolazioni, utilizzando
le tecniche dell'inferenza statistica.
569. Che distinzione fondamentale si puo' tracciare tra popolazioni oggetto di indagini
campionarie?
Vi sono popolazioni nite e popolazioni innite. Nell'esempio del sondaggio elettorale
la popolazione e' l'insieme nito degli aventi diritto al voto. In altri esempi (quello dei
condizionatori e quello del fumo) la popolazione non e' ben identicabile perche' e' potenziale
e teoricamente innita. Nelle popolazioni nite, nei casi migliori, si ha la lista completa delle
unita' componenti.
del campione possono essere qualicati come campionari: ad esempio, la media campionaria
si distingue dalla media della popolazione.
571. In generale, le conclusioni ottenute dai dati campionari sono valide per l'intera popo-
lazione?
In generale, non e' possibile estendere i risultati, perche' la rilevazione campionaria e'
parziale. Ci aspettiamo percio' che le statistiche campionarie siano diverse dalle corrispondenti
statistiche a livello della popolazione di un ammontare imprecisato. Le statistiche campionarie
sono percio' aette da errore.
576. Per dare un idea concreta dei concetti di campione e di popolazione si osservi la
popolazione ttizia seguente composta di 100 elettori dei quali 25 votano la sinistra e 75 la
destra.
148
D D D D D D D D D D
D D D D D D D D D D
D D D D D D D D D D
D D D D D D D D D D
D D D D D D D D D D
D D D D D D D D D D
D D D D D D D D D D
S S S S S D D D D D
S S S S S S S S S S
S S S S S S S S S S
D D D D D D D D D D D D D D D D D D D D
D D D D D D D D D D D D D D D D D D D D
D D D D D D D D D D D D D D D D D D D D
D D D D D D D D D D D D D D D D D D D D
D D D D D D D D D D D D D D D D D D D D
D D D D D D D D D D D D D D D D D D D D
D D D D D D D D D D D D D D D D D D D D
S S S S S D D D D D S S S S S D D D D D
S S S S S S S S S S S S S S S S S S S S
S S S S S S S S S S S S S S S S S S S S
Tutti i campioni hanno una dimensione n = 34. I primi due campioni in alto sono scelti
estraendo delle unita' contigue. Gli altri due in basso sono estratti casualmente. Sotto ogni
gura e' riportata la proporzione di votanti per la sinistra nel campione. In alcuni casi la
proporzione stimata e' grossolanamente errata. La scelta casuale, invece, fa in modo che
le unita' selezionate siano uniformemente distribuite nelle popolazione. Di conseguenza, la
149
proporzione di votanti per la sinistra nel campione pur essendo diversa da 0.25, e' vicina
a questo valore. Il punto importante non e' tanto che la proporzione stimata nei campioni
casuali e' vicina al vero, ma che e' possibile sapere di quanto e' errata. Esiste infatti una
relazione tra l'errore e la dimensione del campione.
Con altri metodi, per quanto intelligenti, non e' possibile sapere l'ordine di grandezza
dell'errore.
577. Un metodo, utilizzato spesso in passato, e' il campionamento per quote. L'idea e' quella
di costruire un campione che riproduca la popolazione in alcune caratteristiche importanti
che si pensano collegate al voto, assegnando agli intervistatori delle `quote' di interviste dei
vari tipi da fare, ma per il resto, lasciando ad essi liberta' di scelta.
578. Ad esempio, supponiamo di sapere che il voto e' associato all'eta': gli elettori con
un'eta' maggiore o uguale a 30 anni tendono a votare per la destra. Supponiamo che nella
popolazione vi sia la situazione seguente:
Eta'
Voto <30 30+ Totale
D 15 60 75
S 15 10 25
Totale 30 70 100
Ovviamente, non possiamo conoscere le frequenze interne alla tavola, ma e' noto che vi e'
associazione tra il voto e l'eta'. Ne' si conosce il totale di votanti per la destra e la sinistra,
perche' e' proprio cio' che si vuole stimare. Tuttavia, supponiamo di conoscere, da un recente
censimento, il numero di elettori di eta' inferiore a 30 e il numero di elettori di eta' superiore
a 30, sappiamo cioe' che il 30% della popolazione e' `giovane' e il 70% della popolazione
e' `vecchio'. Pertanto, decidiamo di costruire un campione che rispetti questa proporzione e,
siccome dobbiamo estrarre un campione di n = 34 elementi, facciamo in modo che il campione
contenga 10 `giovani' e 24 `vecchi' (10 e' circa il 30% di 34). Cio' fatto, siamo liberi di scegliere
chi vogliamo purche' nel campione alla ne compaiano 10 `giovani' e 24 `vecchi'.
Ora, questa prescrizione non e' miracolosa, perche' non impedisce che avvengano distor-
sioni a favore della destra o della sinistra. Per esempio, supponiamo che gli elettori di sinistra
siano piu' facili da trovare e che gli elettori di destra siano piu' scorbutici. L'intervistatore
scegliera' i 10 `giovani' includendo troppi votanti di sinistra e i 24 `vecchi' includendo, anche in
questo caso, troppi votanti di sinistra semplicemente perche' l'intervistatore tende a scegliere
chi (avendo le caratteristiche prescritte) consente di concludere prima le interviste.
Pertanto, il campione tende a essere composto complessivamente da una proporzione
troppo alta di votanti di sinistra, portando a una distorsione della stima. Si osservi che
l'ammontare della distorsione non e' noto e non si puo' controllare.
579. 1I candidati alle elezioni presidenziali del 1948 negli Stati Uniti erano Truman (de-
mocratico), Dewey (repubblicano), Thurmond e Wallace. I sondaggi di tre agenzie (Crossley,
L'esempio seguente e' ripreso da Freedman D., Pisani R., Purves R. e Adhikari A. (1991) Statistics, Norton,
1
New York.
150
Gallup e Roper) dettero favorito Dewey. I risultati delle elezioni assegnarono invece la vittoria
a Truman, con una percentuale nettamente diversa da quella prevista dai sondaggi.
Candidati Crossley Gallup Roper Risultati definitivi
Truman 45 44 38 50
Dewey 50 50 53 45
Thurmond 2 2 5 3
Wallace 3 4 4 2
Il metodo di campionamento usato allora era il campionamento per quota. Ogni intervista-
tore doveva rispettare delle quote sse di soggetti da intervistare a seconda del sesso, della
residenza, dell'eta', della razza e dello stato economico. In tal modo il campione nale rispec-
chiava la struttura della popolazione (nota dal censimento) per quanto riguardava i caratteri
elencati. A parte il vincolo appena spiegato ogni intervistatore era libero di scegliere i soggetti
che voleva.
La scelta soggettiva degli intervistatori e' stata la causa della distorsione del campione a
favore di Dewey, cioe' dei Repubblicani. Infatti, i Repubblicani, nel 48, avevano un grado
di istruzione piu' elevato, erano in media piu' ricchi dei Democratici era piu' probabile che
avessero un telefono e una residenza stabile. Pertanto, in conclusione, i Repubblicani erano
piu' facili da trovare e da intervistare dei Democratici. Questo fu precisamente cio' che causo'
la distorsione a favore di Dewey nei campioni per quota del 1948.
Dopo il 1948 tutte le agenzie statistiche passarono al campionamento casuale nelle loro
indagini. Questa tecnica ha permesso di eliminare la distorsione non intenzionale tipica del
campionamento per quota.
580. Che cos'e' un campione casuale?
E' un campione costruito selezionando le unita' dalla popolazione secondo una procedura
ben denita che comporta l'utilizzazione di un sorteggio. Nei campioni casuali semplici ogni
unita' della popolazione ha la stessa probabilita' di essere sorteggiata, come in una lotteria.
581. Corrisponde a includere le unita' nel campione scegliendole a caso?
L'espressione `a caso' e' imprecisa se non si specica esattamente il suo signicato. Ad
esempio, un campione di studenti della facolta' costruito includendo i primi 50 studenti che
arrivano la mattina da' l'impressione di essere casuale, ma non lo e' nel senso sopra descritto.
In un campione casuale semplice deve essere possibile aermare che ogni unita' della popola-
zione (di studenti, in questo caso) ha la stessa probabilita' di far parte del campione. In questo
caso sembra dicile aermare che uno studente che non frequenta ha la stessa probabilita' di
essere scelto di uno che frequenta.
582. Come si realizza una estrazione causale?
Con un meccanismo di sorteggio tipo `urna rotante' del Lotto, o similare. Lo strumento
tipico e' un urna piena di palline numerate, tante quante sono le unita' della popolazione,
tutte dello stessa dimensione e peso. Se l'urna e' continuamente mescolata e viene estratta
una pallina, ogni pallina ha la stessa probabilita' di essere estratta.
151
583. Se la popolazione e' composta di migliaia di unita', la tecnica dell'urna sembra scomo-
da. Come si procede allora?
Si usano le tavole dei numeri casuali oppure dei generatori di numeri pseudo-causali
simulati da un computer.
588. Si osservi che nella tavola dei numeri casuali puo' capitare di estrarre la stessa unita'
piu' volte.
589. Come si realizza il campionamento casuale semplice senza ripetizione?
Si utilizza lo schema sequenziale seguente: si estrae casualmente dalla popolazione di N
elementi una unita' e questa viene tenuta fuori dalla popolazione; quindi si estrae casualmente
dalla popolazione degli N ; 1 elementi rimasti una nuova unita', e anche questa viene tenuta
fuori, e cosi' via. Cosi' il campione ottenuto e' composto di unita' tutte diverse. Anche
questo procedimento puo' essere realizzato con la tavola dei numeri casuali scegliendo i primi
n numeri utili senza considerare le eventuali ripetizioni.
590. Qual'e' l'insieme dei possibili campioni casuali semplici con ripetizione?
153
592. Qual'e' la caratteristica dei campioni casuali semplici (con ripetizione o senza)?
Si puo' dimostrare che tutti i possibili campioni hanno la stessa probabilita' di essere
estratti.
593. Che tipi di campionamento casuale esistono oltre il campionamento casuale semplice?
Vi sono molti schemi di campionamento casuale. I piu' utilizzati sono il campionamento
straticato e il campionamento a due stadi.
597. I campioni casuali sono stati usati nei sondaggi della Gallup a partire dal 1948 con
buoni risultati. I campioni usano una combinazione del metodo della straticazione e del
campionamento a piu' stadi.
I risultati dei sondaggi Gallup dal 1948 al 1988 sono riportati nella tabella seguente.
Anno Dimensione Vincente Previsione Risultato Errore
1952 5385 Eisenhower 51.0 55.4 +4.4%
1956 8144 Eisenhower 59.5 57.8 -1.7%
1960 8015 Kennedy 51.0 50.1 +0.9%
1964 6625 Johnson 64.0 61.3 +2.7%
1968 4414 Nixon 43.0 43.5 +0.5%
1972 3689 Nixon 62.0 61.8 -0.2%
1976 3439 Carter 49.5 51.1 -1.6%
1980 3500 Reagan 55.3 51.6 -3.7%
1984 3456 Reagan 59.0 59.2 +0.2%
1988 4089 Bush 56.0 53.9 -2.1%
La dimensione campionaria e' diminuita di quasi dieci volte. Non c'e' piu' una distorsione a
favore dei Repubblicani o dei Democratici. La precisione della stima e' migliorata sensibil-
mente: dal 1936 al 1948 gli errori erano circa del 5%, mentre dopo il 48 si sono abbassati
alquanto.
12.3 Probabilita'
Alla base dell'estrazione di un campione casuale sta il concetto di probabilita': il meccani-
smo dell'urna assegna ad ogni unita' la stessa probabilita' di venir estratta. E' importante,
pertanto, conoscere gli elementi fondamentali del calcolo delle probabilita' per valutare la
probabilita' che i risultati ottenuti dal campione si avvicinino a quelli reali, cioe' a quelli della
popolazione.
I concetti fondamentali sono quelli di esperimento casuale, di evento e di probabilita'.
598. Che cos'e' un'esperimento casuale?
E' un esperimento che produce uno tra molteplici risultati possibili che a priori non sono
prevedibili con certezza. Ad esempio,
(a) il lancio di una moneta, il lancio di un dado, l'esperimento dell'urna (prima discusso),
la roulette, il gioco del lotto;
(b) l'esito di un parto per quanto riguarda il sesso del nascituro, l'esito (laurea o no) della
carriera di un iscritto all'universita';
(c) le condizioni meteorologiche del giorno che verra'.
(d) Il numero di passeggeri che si imbarca su un volo. Il numero di clienti di un super-
mercato in un dato giorno della settimana.
(e) La durata di un governo, la durata di un dispositivo elettronico, la durata del periodo
di disoccupazione, il tempo di sopravvivenza dopo un trattamento medico.
In un esperimento casuale si conoscono prima i possibili eventi elementari che possono
capitare, ma non si sa con precisione quale di questi si verichera'.
155
599. Qual'e' l'insieme degli eventi elementari per gli esperimenti (a) e (b) descritti in
precedenza?
(a) Per il lancio di una moneta e' ftesta, croceg, per il lancio di un dado f1; 2; 3; 4; 5; 6g.
Per la roulette i numeri da 0 a 36, per il lotto i numeri da 1 a 90.
(b) Nel caso del parto gli eventi elementari sono: maschio e femmina, nel caso dell'iscritto
all'universita' sono: laurea, abbandono (oppure: laurea in questa facolta', laurea in altra
facolta', abbandono).
601. Descrivere gli eventi: A = `esce un numero pari' e B = `esce un numero divisibile per
3' nell'esperimento di un urna contenente palline numerate da 1 a 10.
Risulta
A = f2; 4; 6; 8; 10g e B = f3; 6; 9g:
602. L'esperimento casuale che piu' ci interessa e' l'estrazione di una singola unita' da una
popolazione (nita o innita). Qual'e' l'insieme degli eventi elementari?
Nell'estrazione di una singola unita' da una popolazione gli eventi elementari sono tutte le
unita' della popolazione. Pertanto, l'insieme degli eventi elementari e' la popolazione stessa.
.
Frequenza relativa
0.8
.
0.6
.
.
.
..
...
0.4
.. . ...................
...................... ........ . ............
........... . ............................................................................................................... ...
....... .......... .................................................................................................................................................................................................................
..
0.2
605. Si puo' riassumere i concetti spiegati in questo paragrafo dicendo che un esperimento
casuale genera un evento con una certa probabilita'.
12.4 Operazioni con gli eventi
606. Tra tutti gli eventi che si possono considerare, ne esistono due che sono particolari.
Essi sono l'evento impossibile e l'evento certo.
609. Se A e B sono due eventi e' possibile costruire nuovi eventi combinando A e B con il
calcolo logico. Quali operazioni si possono eseguire?
Si puo' denire la negazione di un evento, l'unione di due eventi e l'intersezione di due
eventi.
613. Le operazioni tra eventi corrispondono alle usuali operazioni tra gli insiemi.
non A e non B
Nella gura sono rappresentati due eventi A e B . Il rettangolo esterno e' l'insieme degli
eventi elementari. Questo risulta suddiviso in quattro parti: A e B , non A e B , A e non B ,
non A e non B .
614. Quando due eventi sono incompatibili?
Quando il vericarsi dell'uno esclude il vericarsi dell'altro. In tal caso l'intersezione dei
due eventi e' l'evento impossibile. Ad esempio, nell'esperimento che consiste nell'estrazione
di uno studente dall'insieme degli iscritti a Scienze Politiche. Gli eventi A = 'lo studente ha
dato meno di 10 esami' e B = 'lo studente ha dato 15 esami', sono incompatibili.
12.5 Calcolo delle probabilita'
615. Ci sono tre regole fondamentali cui la probabilita' obbedisce. Quali sono?
(a) La probabilita' di un evento e' sempre un numero compreso tra 0 e 1.
(b) La probabilita' dell'evento certo e' 1.
(c) (Regola dell'addizione) La probabilita' che si verichi almeno uno di due eventi A e B
incompatibili e' la somma delle loro probabilita':
se A e B = ;; allora pr(A o B ) = pr(A) + pr(B ):
616. Applicare la regola al calcolo della probabilita' dell'evento E = f1; 2g nell'esperimento
del lancio di un dado.
L'evento E e' l'unione dei due eventi incompatibili A = f1g e B = f2g. Questi hanno
probabilita' ciascuno 1/6 per assunzione di equiprobabilita'. Quindi
pr(E ) = pr(A o B ) = pr(A) + pr(B ) = 61 + 16 = 62 :
Da questo esempio si vede che per calcolare la probabilita' di un evento E composto da k
eventi elementari, su un totale di N eventi elementari assunti equiprobabili, si pone
pr(E ) = Nk :
159
625. Si abbia una popolazione di 100 studenti distribuiti secondo il sesso e il fumo nel modo
seguente
Fumo
Sesso Si' No Tot
M 20 40 60
F 30 10 40
Tot 50 50 100
627. Calcolare la probabilita' di estrarre uno studente che sia fumatore e di sesso femminile.
Ci sono 30 studentesse che fumano, pertanto la probabilita' richiesta e'
pr(femmina e fuma) = 30=100:
635. In altri casi il fatto di conoscere un evento non modica la probabilita' del vericarsi
dell'altro evento. Ad esempio, si consideri la popolazione di 100 laureati classicati secondo
la scuola di provenienza e il tempo impiegato per laurearsi.
Anni per laurearsi
Scuola meno di 5 5 e piu' Tot
Liceo 6 24 30
Istituti Tecnici 14 56 70
Tot 20 80 100
Si estrae casualmente uno studente. Si considerino gli eventi `laurea in meno di 5 anni' e
`studente del liceo'. Risulta
6=100 = 0:2; pr(< 5) = 20=100 = 0:2:
pr(< 5 j liceo) = 30=100
Quindi il fatto di sapere che lo studente e' un liceale non modica la probabilita' di laurearsi
in meno di 5 anni. In questo caso si dice che il primo evento non dipende dal secondo.
In questa lezione viene spiegato come alcune popolazioni molto frequenti nelle applicazioni,
le popolazioni dicotomiche, possono essere descritte da una semplice distribuzione di proba-
bilita'. La distribuzione di probabilita' e' completamente conosciuta se si conosce un unico
parametro che la denisce. Vedremo che il campionamento casuale consente di stimare tale
parametro e fornisce altresi' una misura del'errore dovuto al campionamento. In questa le-
zione viene considerato il caso di una popolazione dicotomica, mentre nella prossima verra'
studiato il campionamento da una popolazione avente una distribuzione detta Gaussiana o
normale.
13.1 Variabili aleatorie
644. Che cos'e' una variabile aleatoria (o variabile causuale) discreta?
Consideriamo l'insieme degli eventi elementari associati a un certo esperimento casuale.
Per semplicita' supponiamo che gli eventi elementari siano in numero nito ed equiprobabili.
Questo schema e' quello dell'estrazione casuale di una unita' da una popolazione nita.
Se si rileva una certa variabile X su ogni unita' la probabilita' di estrarre una unita' con
un valore x della variabile e'
p(x) = prfX = xg = frequenza di unita' con un valore x della variabile
numero totale di unita'
Pertanto, per ogni modalita' x della variabile resta denita la probabilita' p(x) di osservarla.
Allora, una variabile aleatoria discreta e' denita semplicemente elencando le modalita' x e
le probabilita' ad esse associate p(x).
645. Fare un esempio di variabile aleatoria.
165
166
653. Si puo' utilizzare la distribuzione di Bernoulli per descrivere una popolazione innita
su cui si rileva un carattere dicotomico? Fare degli esempi di popolazioni di questo tipo.
In certi casi la popolazione oggetto di studio e' innita e il carattere che si osserva e'
binario. Si considerino gli esempi seguenti.
La popolazione dei pezzi prodotti da una macchina che possono essere buoni o difettosi
La popolazione di individui che e' allergica o non allergica a un farmaco
La popolazione di donne che faranno nella loro vita un glio o piu' di un glio
La popolazione di bambini che nasceranno secondo il sesso.
168
In tutti gli esempi non si conosce la lista completa delle unita' della popolazione (che non si
e' ancora realizzata) e la popolazione ha la caratteristica di essere idealmente innita. Uno
dei motivi per cui le popolazioni sopra elencate sono innite e' perche' si estendendono nel
tempo.
Se e' ragionevole pensare che la popolazione sia stabile nel tempo si puo' denire lo stesso
la popolazione come una variabile aleatoria di Bernoulli in cui esiste una certa probabilita'
di successo e una probabilita' 1 ; di insuccesso. Tali probabilita' possono essere pensate
come limite delle frequenze relative di successo ed insuccesso in successive estrazioni di unita'
dalla popolazione. Cosi' possiamo parlare della probabilita' che una macchina produca un
pezzo difettoso, della probabilita' che un individuo sia allergico a un certo farmaco, della
probabilita' che una donna abbia un solo glio, della probabilita' che nasca un maschio. In
tutti questi casi la popolazione di riferimento e' innita, ma la descrizione della popolazione
puo' essere ottenuta con una variabile di Bernoulli.
659. Prima di eettuare il campionamento vero e proprio, una volta stabilita' la numerosita'
del campione da estrarre, e' di fondamentale importanza calcolare la probabilita' di tutti i
possibili risultati. L'insieme di tutti i possibili campioni con ripetizione di n unita' da una
popolazione si chiama universo dei campioni di dimensione n. Se la popolazione e' nita e
ha dimensione N l'universo dei campioni contiene N n campioni con ripetizione.
Per esempio, l'universo dei campioni di dimensione 2 dalla popolazione dicotomica U =
f0; 0; 0; 1g e' il seguente (nella prima riga e nella prima colonna sono riportate rispettivamente
tutti i possibili primi risultati e tutti i possibili secondi risultati)
0 0 0 1
0 (0; 0) (0; 0) (0; 0) (0; 1)
0 (0; 0) (0; 0) (0; 0) (0; 1)
0 (0; 0) (0; 0) (0; 0) (0; 1)
1 (1; 0) (1; 0) (1; 0) (1; 1)
L'universo dei campioni contiene 42 = 16 campioni. Come sappiamo, tutti i singoli campioni
ottenibili hanno la stessa probabilita' di essere estratti. Tuttavia, poiche' alcuni campioni
danno gli stessi risultati, alcuni risultati sono piu' probabili di altri. Per esempio, il risultato
piu' probabile estraendo dalla popolazione U e' (0; 0).
660. Calcolare le probabilita' di tutti i possibili risultati nell'universo dei campioni descritto
nel problema precedente.
I possibili risultati sono (0; 0); (0; 1); (1; 0) e (1; 1). Il risultato (0; 0) si puo' ottenere in
9 modi ciascuno dei quali ha probabilita' 1=16 di accadere. Poiche' si tratta di 9 modi
incompatibili perche sono ottenuti con coppie di unita' diverse, la probabilita' di ottenere
(0; 0) e 9=16. Allo stesso modo si calcolano gli altri casi.
Risultato Probabilita
(0; 0) 9=16
(0; 1) 3=16
(1; 0) 3=16
(1; 1) 1=16
Si osservi come i campioni che assomigliano alla popolazione sono relativamente piu' probabili
dei campioni, come (1; 1), che sono molto diversi dalla popoalzione. Secondo questo risultato,
il campionamento casuale fa in modo che sia piu' probabile ottenere un campione somigliante
che non somigliante alla popolazione.
661. Che cos'e' la frazione di campionamento?
E' il rapporto tra la numerosita' del campione e la numerosita' della popolazione: n=N .
Si osservi la frazione di campionamento nell'esempio precedente e' 0.5. Di solito la frazione di
campionamento e' molto piu' piccola. Tuttavia la frazione di campionamento non in
uenza
le probabilita' dei possibili risultati sopra calcolate. Esse dipendono solo dalla dimensione
del campione. Sarebbero state identiche anche se la popolazione fosse stata di 100 unita' di
25 con valore 1 e 75 con valore 0. L'essenziale e' che il campione e' stato estratto da una
popolazione dicotomica con probabilita' di successo = 1=4.
171
662. Studiare le probabilita' di tutti i possibili risultati nell'universo dei campioni di dimen-
sione 3.
I possibili risultati diversi sono i seguenti.
(0; 0; 0)
(1; 0; 0)
(0; 1; 0)
(0; 0; 1)
(0; 1; 1)
(1; 0; 1)
(1; 1; 0)
(1; 1; 1)
Essi sono in totale 2n perche' la popolazione ha 2 possibili modalita'. La probabilita' di ogni
risultato si calcola facilmente perche' sappiamo che le estrazioni sono indipendenti e ciascuna
con probabilita' di successo = 1=4: Per denizione tre eventi sono indipendenti se la pro-
babilita' che si verichino contemporaneamente e' uguale al prodotto delle loro probabilita'.
Pertanto otteniamo
Risultato Calcolo Probabilita'
(0; 0; 0) 3=4 3=4 3=4 27=64
(1; 0; 0) 1=4 3=4 3=4 9=64
(0; 1; 0) 3=4 1=4 3=4 9=64
(0; 0; 1) 3=4 3=4 1=4 9=64
(0; 1; 1) 3=4 1=4 1=4 3=64
(1; 0; 1) 1=4 3=4 1=4 3=64
(1; 1; 0) 1=4 1=4 3=4 3=64
(1; 1; 1) 1=4 1=4 1=4 1=64
Anche in questo caso si puo' notare che i campioni piu' probabili sono quelli che somigliano
di pu' alla popolazione.
663. Calcolare le probabilita' di tutti i possibili risultati in campioni di dimensione 2 e 3 da
una popolazione dicotomica con probabilita' di successo .
Ripetendo il procedimento di calcolo delineato sopra, sostituendo a 1=4 un generico
parametro e a 3=4 il complemento 1 ; , otteniamo
Risultato Calcolo Probabilita'
(0; 0; 0) (1 ; )(1 ; )(1 ; ) (1 ; )3
Risultato Calcolo Probabilita (1; 0; 0) (1 ; )(1 ; ) (1 ; )2
(0; 0) (1 ; )(1 ; ) (1 ; ) 2 (0; 1; 0) (1 ; ) (1 ; ) (1 ; )2
(0; 1) (1 ; ) (1 ; ) (0; 0; 1) (1 ; )(1 ; ) (1 ; )2
(1; 0) (1 ; ) (1 ; ) (0; 1; 1) (1 ; ) 2 (1 ; )
(1; 1) 2
(1; 0; 1) (1 ; ) 2 (1 ; )
(1; 1; 0) (1 ; ) 2 (1 ; )
(1; 1; 1) 3
Pertanto possiamo calcolare prima di estrarre il campione la probabilita' di ogni risultato, e
queste probabilita' dipendono da ,cioe' dalla proporzione di successi nella popolazione.
172
670. Costruire la distribuzione campionaria della proporzione di successi in tre prove in-
dipendenti da una popolazione dicotomica caratterizzata da una proporzione di successi
incognita .
174
La costruzione non presenta dicolta' particolari, e' solo piu' lunga. Si parte dalla
distribuzione di tutti i possibili campioni distinti
Risultato Proporzione di successi su 3 prove Probabilita'
(0; 0; 0) 0=3 (1 ; )3
(1; 0; 0) 1=3 (1 ; )2
(0; 1; 0) 1=3 (1 ; )2
(0; 0; 1) 1=3 (1 ; )2
(0; 1; 1) 2=3 2(1 ; )
(1; 0; 1) 2=3 2(1 ; )
(1; 1; 0) 2=3 2(1 ; )
(1; 1; 1) 3=4 3
e quindi si costruisce la distribuzione campionaria notando che 1=3 e 2=3 si possono ciascuno
ottenere in tre modi (incompatibili) diversi e sommando le relative probabilita'.
Proporzione di successi su 3 prove Probabilita'
0=3 (1 ; )3
1=3 3 (1 ; )2
2=3 3 2(1 ; )
3=3 3
671. Anche in questo caso la somma delle probabilita e' uguale all'unita' ed e' lo sviluppo
del binomio
[(1 ; ) + ]3
Per questo la distribuzione precedente si dice distribuzione binomiale.
672. Che cos'e' la distribuzione binomiale?
E' la distribuzione della proporzione di successi in n prove indipendenti da una popolazione
dicotomica in cui la probabilita' di successo e' uguale a . In generale, ha n + 1 modalita',
cioe'
0=n 1=n 2=n 3=n n=n
da zero successi su n, a n successi su n. Le probabilita' associate sono date dagli elementi
dello sviluppo del binomio
[(1 ; ) + ]n
673. Nei casi n = 2 ed n = 3 e' relativamente semplice calcolare le probabilita' binomiali.
Per numerosita' maggiori il calcolo e' piu' pesante e richiede un elaboratore. Tuttavia, come
vedremo in una prossima lezione, le probabilita' binomiali possono essere calcolate, in modo
approssimato, usando le tavole della normale.
La gura seguente illustra gracamente la distribuzione di probabilita' binomiale. Come
sempre, i segmenti verticali hanno lunghezze uguali alle probabilita'. Ogni graco rappresenta
una distribuzioni campionaria di una proporzione, per campioni di dimensione 30, estratti da
popolazioni aventi una certa probabilita' di successo.
175
0.25
0.25
0.20
0.20
0.15
0.15
Probabilita’
Probabilita’
0.10
0.10
0.05
0.05
0.0
0.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
Proporzione di successi in 30 prove. Prob = 0.1 Proporzione di successi in 30 prove. Prob = 0.9
0.25
0.25
0.20
0.20
0.15
0.15
Probabilita’
Probabilita’
0.10
0.10
0.05
0.05
0.0
0.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
Proporzione di successi in 30 prove. Prob = 0.2 Proporzione di successi in 30 prove. Prob = 0.8
0.25
0.25
0.20
0.20
0.15
0.15
Probabilita’
Probabilita’
0.10
0.10
0.05
0.05
0.0
0.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
Proporzione di successi in 30 prove. Prob = 0.3 Proporzione di successi in 30 prove. Prob = 0.7
0.25
0.25
0.20
0.20
0.15
0.15
Probabilita’
Probabilita’
0.10
0.10
0.05
0.05
0.0
0.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
Proporzione di successi in 30 prove. Prob = 0.5 Proporzione di successi in 30 prove. Prob = 0.6
Scorrendo i graci da sinistra dall'alto in basso e quindi a destra in senso opposto, si passa
da probabilita' di successo piccole a probabilita' di successo grandi.
Si nota che la distribuzione e' simmetrica per = 0:5 e che e' asimmetrica negli altri casi.
Se la probabilita' di successo e' minore di 0.5 la distribuzione ha una coda lunga a destra
176
0.14
0.4
0.12
0.3
0.10
Probabilita’
Probabilita’
0.08
0.2
0.06
0.04
0.1
0.02
0.0
0.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
Proporzione di successi in 10 prove. Prob = 0.1 Proporzione di successi in 100 prove. Prob = 0.1
0.25
0.10
0.20
0.08
0.15
0.06
Probabilita’
Probabilita’
0.10
0.04
0.05
0.02
0.0
0.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
Proporzione di successi in 30 prove. Prob = 0.1 Proporzione di successi in 200 prove. Prob = 0.1
0.20
0.06
0.05
0.15
0.04
Probabilita’
Probabilita’
0.10
0.03
0.02
0.05
0.01
0.0
0.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
Proporzione di successi in 50 prove. Prob = 0.1 Proporzione di successi in 500 prove. Prob = 0.1
Si osservi come all'aumentare del numero di prove la distribuzione binomiale tende a concen-
trarsi intorno alla sua media.
680. Come si interpreta la varianza della distribuzione campionaria di una proporzione?
E' la variabilita' delle proporzioni calcolate su campioni di dimensione n, nell'universo dei
campioni. Alternativamente, e' la variabilita' delle proporzioni stimate nel campionamento
ripetuto.
178
681. Che relazione c'e' tra la varianza della binomiale e il numero di prove?
La varianza delle proporzioni e' inversamente proporzionale al numero di prove, perche la
varianza ha al denominatore il numero di prove. Usando come misura di variabilita' lo scarto
quadratico medio, questo e' uguale a
q
P = (1 ; )=n:
Pertanto, se il campione e' grande, la variabilita' delle proporzioni campionarie nell'universo
dei campioni e' piccola. Ad esempio, se = 0:1, e il campione ha dimensione n = 100 la
proporzione P stimata nel campione ha una variabilita' di
q
(0:1 0:9)=100 = 0:03 = 3%
cioe' tre punti percentuali. Se n = 400 cioe' il campione e' 4 volte piu' grande, la variabilita'
delle proporzioni e' q
(0:1 0:9)=400 = 0:015 = 1:5%
la meta' di prima.
682. Si puo' usare la regola dei tre scarti quadratici medi per interpretare lo scarto quadra-
tico medio della binomiale?
Si'. Applicando a questo caso la regola dei tre sigma, piu' di 8/9 dei campioni dell'universo
dei campioni hanno una proporzione stimata compresa tra la media meno tre scarti quadratici
medi e la media piu' tre scarti quadratici medi:
q q
; 3 (1 ; )=n; e + 3 (1 ; )=n:
Quindi, negli esempi precedenti, piu di 8/9 dei campioni di dimensione 100 hanno una
proporzione stimata compresa tra
0:1 ; 3 0:03 e 0:1 + 3 0:03
ossia tra 0.01 e 0.19. Invece, piu' degli 8/9 dei campioni di 400 elementi danno una proporzione
stimata compresa tra
0:1 ; 3 0:015 e 0:1 + 3 0:015
cioe' tra 0.055 e 0.145. Questo intervallo ha una ampiezza che e' la meta' della precedente.
Si osservi che in questo caso il campione ha una dimensione che e' quattro volte piu' grande
di prima.
Quadruplicando ancora la dimensione del campione no a n = 1600 possiamo dimezzare
ancora l'intervallo dei tre sigma arrivando a (0:0775; 0:1225).
683. Che relazione c'e' tra l'intervallo dei tre sigma per una proporzione e la numerosita'
campionaria?
All'aumentare della numerosita' campionaria l'intervallo dei tre sigma ha una
p
ampiezza
che diminuisce. L'ampiezza e' evidentemente uguale a sei sigma cioe' a 6 (1 ; )=n:
Raddoppiando la dimensione del campione si dimezza l'ampiezza dell'intervallo dei tre sigma.
179
684. Alla luce delle osservazioni precedenti qual'e' l'interpretazione dello scarto quadratico
medio di P ?
Per prima cosa si deve osservare che la media dei P nell'universo dei campioni e' uguale
alla proporzione incognita di successi nella popolazione. Allora, lo scarto quadratico medio di
P permette di valutare le
uttuazioni (cioe' gli scostamenti) della proporzione campionaria
rispetto valore della proporzione nella popolazione, nell'universo dei campioni. E' pertanto
un indice dell'errore di campionamento che si commette calcolando P sul campione anziche'
sulla popolazione.
Aumentando sucientemente la numerosita' del campione si puo' ottenere un errore di
campionamento soddisfacente in relazione al problema considerato.
685. Calcolare gli errori di campionamento p per la proporzione di successi P per vari
valori di e di n.
Nella tavola seguente le righe sono relative a diverse dimensioni campionarie e le colonne
a diverse probabilita' di successo nella popolazione. All'incrocio di riga e colonna e' riportato
lo scarto qudratico medio della proporzione di successi nel campione di quella numerosita'
estratto da una popolazione con quella percentuale di successi. Tale scarto quadratico medio
e' espresso in forma percentuale.
Probabilita' di successo
Dimensione del campione 0.05 0.1 0.2 0.3 0.4 0.5
30 3.98 5.48 7.3 8.37 8.94 9.13
50 3.08 4.24 5.66 6.48 6.93 7.07
100 2.18 3.00 4.00 4.58 4.90 5.00
200 1.54 2.12 2.83 3.24 3.46 3.54
500 0.97 1.34 1.79 2.05 2.19 2.24
1000 0.69 0.95 1.26 1.45 1.55 1.58
2000 0.49 0.67 0.89 1.02 1.10 1.12
Si osservi che per maggiore di 0.5, lo scarto quadratico medio e' uguale a quello corri-
spondente
p
a 1 ; . Per esempio lo scarto quadratico medio per n = 100 e = 0:8 e'
(0:8 0:2)=100 = 0:04 = 4% ed e' uguale a quello corrispondente a n = 100 e = 0:2.
686. Ad esempio, supponiamo di voler stimare la proporzione di studenti che sono favore-
voli a semestralizzare i corsi di Scienze Politiche. Se progettiamo di estrarre un campione
casuale semplice con ripetizione di 500 studenti sappiamo a priori che l'errore che possia-
mo commettere calcolando la proporzione di favorevoli nel campione va da 0.97% a 2.24%
a seconda della probabilita' incognita di favorevoli nella popolazione. Quindi l'errore e' al
massimo circa 2 punti percentuali. L'intervallo della regola dei tre sigma ha una ampiezza
percio' di 2 3 2 = 12%. A seconda dei casi questo scarto puo' essere giudicato troppo
grande e si puo' allora decidere di estrarre una campione piu' grande.
180
SETTIMANA 14
In questa lezione introduciamo una delle distribuzioni di probabilita' piu' famose della stati-
stica, la distribuzione di Gauss. Questa distribuzione va anche sotto il nome di distribuzione
normale. Si tratta di un modello di probabilita' per le variabili continue con una distribuzione
simmetrica rispetto alla media e con le code non troppo lunghe.
14.1 Variabili aleatorie continue
687. Che cos'e' una variabile aleatoria continua?
Alcuni popolazioni sono innite e su ogni unita' e' rilevata una variabile continua. Percio'
la variabile ha innite modalita', tante quanti sono i numeri reali appartenenti a un segmento
(ha la potenza del continuo ). E' importante allora avere un modo per descrivere l'esperimento
casuale che consiste nell'estrarre una unita' da queste popolazioni, misurando la variabile
continua. Per questo si deve subito abbandonare l'idea di elencare le modalita' della variabile
assegnando a ciascuna una probabilita', perche' le modalita' della variabile hanno la potenza
del continuo; cosi' come e' impossibile ottenere la lunghezza di un segmento sommando le
lunghezze degli inniti punti componenti. Il problema si puo' risolvere introducendo l'idea
di densita' di probabilita'. Una densita' di probabilita' e' simile a una densita' di frequenza,
infatti e' una probabilita' per unita' di misura della variabile. Per esempio, se la probabilita'
di ottenere un risultato X compreso in un intervallo (x; x + x) e'
pr(x < X < x + x)
la densita' di probabilita' di questo intervallo e'
pr(x < X < x + x) :
x
181
182
Pertanto e' il rapporto tra la probabilita' e la lunghezza del segmento su cui quella probabilita'
e' distribuita. Piu' in generale si puo' pensare di calcolare la densita' di probabilita' in un
punto anziche' in un intervallo, facendo tendere a zero l'ampiezza x dell'intervallo. Pertanto
per ogni valore x della variabile resta denita' una densita' di probabilita'. Questa varia da
punto a punto e cresce, resta costante o decresce a seconda dei casi.
Una variabile aleatoria continua e' allora una variabile X che assume come modalita'
tutti i possibili valori x compresi in un intervallo e e' caratterizzata da una sua funzione di
densita' di probabilita', positiva, che stabilisce quant'e l'addensamento della probabilita' in
ogni modalita' x della variabile. Questa funzione e' analoga all'istogramma per una variabile
statistica continua, ma, in generale, non e' una funzione a scalini come l'istogramma, ma una
funzione continua.
688. Come si calcola una probabilita' di estrarre un valore x della variabile compresa in un
intervallo (a; b)?
La probabilita pr(a < X < b) e' uguale all'area sotto alla curva della funzione di densita'
compresa tra a e b esattamente come, per una variabile statistica, la frequenza relativa di casi
compresa in un intervallo e' l'area della parte di istogramma compresa in quell'intervallo. La
gura seguente illustra il concetto. 0.20
0.20
0.15
0.15
Densita’ di probabilita’
Densita’ di frequenza
0.10
0.10
0.05
0.05
0.0
0.0
0 5 10 15 20 0 5 10 15 20
X X
Naturalmente se la funzione di densita' e' incognita quest'area non si puo' calcolare. Tuttavia
se la funzione e' conosciuta, l'area si puo' calcolare, almeno come approssimazione.
689. Al gioco della roulette la pallina si ferma in una di trentasette caselle. Supponiamo di
eliminare le caselle e lasciare la pallina libera di fermarsi in un punto qualsiasi della ruota.
L'insieme degli eventi elementari di quest esperimento casuale e' l'insieme dei punti della
circonferenza. Ognuno di questi punti puo' essere individuato da un angolo compreso tra 0 e
360 gradi. Calcolare la probabilita' che la pallina si fermi nell'intervallo (0; 90).
Intuitivamente, la probabilita' che un la pallina si fermi nel settore compreso tra 0 e 90
gradi e' 1=4, come pure in un qualsiasi altro settore avente un'ampiezza di 90 gradi. In
generale, la probabilita' che la pallina si fermi in un certo settore e' uguale al rapporto tra
183
l'ampiezza di quel settore e 360 gradi. Questo signica che la densita' di probabilita' e'
distribuit ain modo uniforme sulla circonferenza (cfr. la gura seguente).
Densita’ di probabilita’
1/360
690. A quanto e' uguale l'area totale sotto la funzione di densita', compresa tra il minimo
e il massimo valore che puo' assumere X ?
Poiche' essa e' uguale alla probabilita' che X sia compresa tra il suo minimo e il suo
massimo, risulta uguale alla probabilita' dell'evento certo e, quindi, e' 1. Questo fatto e'
analogo a quanto avviene per l'area di un istogramma.
691. Qual'e' la probabilita' che una variabile aleatoria continua X coincida esattamente con
uno specico valore x?
E' zero, perche' e' uguale all'area sotto la funzione di densita' tra x e x+x facendo tendere
x a zero. Quindi l'evento X = x ha probabilita' zero ed e', dunque, quasi impossibile.
14.2 Variabile aleatoria Gaussiana
692. Che cos'e' una variabile aleatoria Gaussiana?
La variabile aleatoria Gaussiana e' una variabile aleatoria X continua denita per ;1 <
x < +1 con una specica funzione di densita', la cui forma dipende solo da due parametri,
la media , in corrispondenza della quale sta l'unico massimo della funzione, e lo scarto
quadratico medio . La variabile aleatoria Gaussiana e' chiamata anche normale.
Nella gura seguente e' riportato un istogramma della distribuzione di 5000 studentesse
universitari secondo l'altezza.
0.08
0.08
0.06
0.06
Densita’ di probabilita’
Densita’ di frequenza
0.04
0.04
0.02
0.02
0.0
0.0
140 150 160 170 180 190 140 150 160 170 180 190
Altezza Altezza
184
Accanto all'istogramma e' disegnata una funzione di densita' Gaussiana avente la stessa media
(165 cm) e lo stesso scarto quadratico medio (5 cm) della distribuzione delle altezze.
In questo esempio, la distribuzione normale si presta bene a modellare la popolazione
di altezze. In questo senso si puo' pensare come una rappresentazione teorica, ideale, della
popolazione, innita, di tutte le altezze delle studentesse.
Come si vede, la normale e' una funzione di densita' simmetrica rispetto all'asse che
l'attraversa verticalmente, passando per la media. La forma della ditribuzione e' campanulare
a indicare che la densita' di probabilita' e' massima nel centro della distribuzione e va calando
simmetricamente a destra e a sinistra della media. La distribuzione normale ha due code
innite.
Come per tutte le funzioni di densita', l'area sotto tutta la funzione, e' uguale all'unita'.
Questo fatto puo' sorprendere, visto che la funzione si estende da ;1 a +1, ma bisogna
tener conto del fatto che l'area contenuta nelle code e' praticamente trascurabile.
Poiche' l'asse di simmetria che passa per la media divide l'area sotto la curva in due parti
uguali, il munto medio coincide con la mediana. Inoltre esso coincide anche con la moda della
distribuzione, perche' e' il valore di X che ha la massima densita' di probabilita'.
-4 -3 -2 -1 0 1 2 3 4
X
695. Come si disegna approssimativamente una normale con media e scarto quadratico
?
Si disegna l'asse orizzontale nell'intervallo dei tre sigma, cioe' ; 3 , + r . Quindi si
pone il massimo in corrispondenza di e i due punti di massima pendenza in corrispondenza
di ; e + . Inne si traccia una curva campanulare simmetrica facendola passare per i
punti segnati e estendendo le code no agli estremi.
696. Disegnare tre distribuzioni di Gauss, con medie nulle e scarti quadratici medi rispetti-
vamente 0:5; 1 e 2.
Il graco seguente illustra le tre distribuzioni. Quella piu' alta e ripida e' quella con
varianza minore. Quella nel mezzo e' la normale standardizzata.
0.8
Densita’ di probabilita’
0.6
0.4
0.2
0.0
-10 -5 0 5 10
X
700. Calcolare le probabilita' che Z , normale standardizzata, sia compresa negli intervalli
(;1; +1), (;2; +2) e (;3; +3). Il graco sottostante illustra le tre aree richieste.
186
0.4
0.4
0.4
Densita’ di probabilita’
Densita’ di probabilita’
Densita’ di probabilita’
0.3
0.3
0.3
0.2
0.2
0.2
0.1
0.1
0.1
0.0
0.0
0.0
-4 -2 0 1 2 3 4 -4 -2 0 1 2 3 4 -4 -2 0 1 2 3 4
Z Z Z
Queste probabilita' si trovano facilmente sulla tavola della normale e permettono di calcolare
2 38:29% + 2 68:27% = 53:3%
1 1
0.4
0.4
Densita’ di probabilita’
Densita’ di probabilita’
Densita’ di probabilita’
0.3
0.3
0.3
0.2
0.2
0.2
0.1
0.1
0.1
0.0
0.0
0.0
-4 -2 0 1 2 3 4 -4 -2 0 1 2 3 4 -4 -2 0 1 2 3 4
Z Z Z
L'area cercata e' disegnata sotto la prima normale a sinistra. Questa e' la somma della meta'
delle aree disegnate nelle altre due normali, che si determinano facilmente dalla tavola.
704. Come si calcola la probabilita' che una normale X di media qualsiasi e di scarto
quadratico sia compresa in uno specico intervallo?
Si dimostra un risultato generale, secondo il quale l'area compresa sotto una normale
qualsiasi, in un intervallo centrato sulla media di semiampiezza x cioe' ( ; x; + x), e'
uguale all'area sotto la normale standardizzata, tra ;x= e +x= . La gura seguente illustra
il concetto.
0.4
Densita’ di probabilita’
0.3
0.2
Normale(0, 1) Normale(10, 2)
0.1
0.0
-5 -1 0 1 5 8 10 12 15 20
X
Percio', per calcolare la prima probabilita' (a) si standardizzano gli estremi dell'intervallo e
(b) si usa la tavola della normale standardizzata.
705. Una popolazione ha una distribuzione di probabilita' teorica normale con una media
= 160 e scarto quadratico medio = 6. Qual'e' la probabilita' che un individuo estratto
da questa popolazione abbia un'altezza compresa tra 154 e 166 cm?
Si deve calcolare la probabilita' teorica (X e' l'altezza)
prf154 X 166g = prf(154 ; 160)=6 Z (166 ; 160)=6)g
e quindi si ottiene prf;1 Z +1g 68%:
706. Calcolare la probabilita' che l'altezza sia compresa tra 157 e 166.
Con la stessa tecnica
prf157 X 166g = prf(157 ; 160)=6 Z (166 ; 160)=6)g
e quindi si ottiene prf;0:5 Z +1g 53%:
707. Il voto all'esame di statistica e' una variabile aleatoria avente media 24:5 e varianza
6:25. Qual'e' la probabilita' di prendere 28 o piu'?
Poiche' = 2:5, si calcola
prf28 X g = prf(28 ; 24:5)=2:5g
dove X e' il voto. Pertanto la probabilita' da calcolare e' prf1:4 Z g: Questa probabilita'
si puo' determinare ragionando come segue. L'area fornita dalle tavole in corrispondenza di
1:4, cioe' 83:85% e' l'area di un intervallo centrale. Quindi 100% ; 83:85% = 16:15% e' l'area
nelle due code prima di ;1:4 e dopo 1:4. L'area richiesta e' dunque la meta' di 16:15%, cioe'
8%.
708. Come si puo' precisare la regola dei tre sigma per la normale?
In una normale qualsiasi c'e il 99% di probabilita' di estrarre una osservazione compresa
tra la media meno tre scarti quadratici e la media piu' 3 scarti quadratici.
14.4 Modelli Gaussiani
709. Si osservi che, sapendo che una popolazione si distribuisce teoricamente come una
normale, e' possibile dedurre le probabilita' teoriche corrispondenti a tutti gli intervalli. Si
confronti questa situazione con quella empirica in cui si conosce una distribuzione di frequenza.
In tal caso occorre specicare l'elenco delle modalita' o delle classi con le loro frequenze relative
associate. Nel caso della normale, basta fornire la media e lo scarto quadratico.
189
710. Quando e' appropriato descrivere una popolazione con una variabile aleatoria Gaus-
siana?
E' dicile stabilire a priori se una popolazione si distribuisce normalmente. Tuttavia,
cio' si deve escludere quando e' noto che la distribuzione e' sicuramente asimmetrica. Per
esempio una distribuzione dei redditi relativa a piu' categorie, da le meno abbienti a quelle
benestanti, e' asimmetrica. Non e' ragionevole, infatti, presumere che vi sia la stessa densita'
di probabilita' di estrarre un reddito di 1 milione sotto la media e un reddito di 1 milione
sopra la media. Inoltre, la distribuzione avra' presumibilmente una coda lunga a destra e
breve a sinistra, e cio' e' segno di asimmetria positiva.
Tuttavia, la distribuzione dei redditi di una sola categoria, per esempio quella degli im-
piegati in un dato settore, e' verosimile che abbia una distribuzione simmetrica e quindi la
normale potrebbe essere una scelta ammissibile.
711. Avendo a disposizione l'intera distribuzione di frequenza di una popolazione, la si
puo' confrontare con una normale avente la stessa media e la stessa varianza. La normale si
puo' sovrapporre all'istogramma per fare confronti. Questa tecnica non permette tuttavia di
distinguere bene le dierenze nelle code della distribuzione.
0.08
0.20
0.04 0.06
Densita’
Densita’
0.10
0.02
0.0
0.0
0 2 4 6 8 10 12 14 35 40 45 50 55 60 65 70
X X
Nella gura precedente si possono osservare due istogrammi, a ciascuno dei quali e' sovrappo-
sta la curva Gaussiana avente la stessa media e la stessa varianza. La distribuzione di sinistra
presenta un adattamento migliore.
14.5 Campionamento da una popolazione normale
712. La distribuzione normale e' un modello teorico di probabilita' per una popolazione
innita su cui si e' rilevato un carattere continuo, a un certo tempo. Che cos'e un campione
casuale da una popolazione normale?
Per denizione, e' un insieme di n osservazioni indipendenti estratte da una variabile
aleatoria normale. Per dichiarare che n osservazioni provenienti da una popolazione sono un
campione casuale da una normale e' necessario
che si possa assumere che la popolazione e' Gaussiana
che le n osservazioni provengano tutte da tale singola popolazione
e inne che si possa assumere che ogni osservazione sia completamente indipendente dalle
altre, intendendo con questo che i dati si possono assimilare a un estrazione casuale con
ripetizione da una urna.
190
L'ultima assunzione e' dicile da vericare concretamente. Un caso tipico in cui questa
assunzione non e' giusticata si ha quando le n osservazioni non sono relative ad unita'
diverse allo stesso tempo, ma a medesime unita' in tempi diversi. Pertanto, se si possiedono
misure ripetute sugli stessi individui, tali osservazioni non si possono assumere indipendenti.
713. La gura seguente mostra un campione casuale di dimensione n = 50 da una nor-
male di media 10 e scarto quadratico medio 2. Le ascisse dei punti rappresentano le os-
servazioni estratte. I punti sono leggermente perturbati verticalmente per evitare la troppa
sovrapposizione.
4 6 8 10 12 14 16
Media = 10, sqm = 2
714. Che cos'e' l'universo dei campioni estratti da una distribuzione normale?
E' l'insieme (innito) delle possibili n-uple di osservazioni ottenibili come campioni casuali
dalla normale in questione. (Per n-upla si intende un insieme ordinato di n numeri.)
Esso si puo' pensare come l'insieme dei possibili campioni che si possono ottenere ripe-
tendo indenitamente il processo di campionamento. L'universo dei campioni permette di
descrivere astrattamento il processo del campionamento ripetuto. Ovviamente, il campiona-
mento ripetuto e' una astrazione che, nondimeno, puo' essere formalmente descritta con gli
strumenti del calcolo delle probabilita'.
715. A cosa serve l'idea del campionamento ripetuto?
Come e' stato gia' detto nel caso del campionamento da una popolazione dicotomica, es-
so serve a descrivere cio' che potrebbe avvenire estraendo casualmente un campione da una
popolazione. Prima ancora di avere estratto il campione si vuol conoscere la (densita' di)
probabilita' di una particolare n-upla di osservazioni. Cio' consentira' di valutare il com-
portamento delle stime calcolate sui dati campionari, e, piu' importante ancora, di valutare
l'errore di campionamento.
191
716. Per dare un'idea dell'universo dei campioni si consideri la gura seguente. Essa rap-
presenta due processi campionamento casuale, il primo, a sinistra, da una normale con media
0 e scarto 1 e il secondo, a destra, da una normale con media 0 e scarto 0.5. Per ciascuna
distribuzione sono stati estratti 11 campioni di dimensione n = 30.
oo ooooooooo
ooo ooo ooooooo o o o oooooooo o o
ooo ooo
o o oooo
o ooooooo oo o
ooo o oooo ooooo o oo o o oooooooooooooooo
oo o o o
oooooooooooo o oooo o o
ooooooo oo
o oooooooooo oooooo oo
ooooo
o o o oo oooo oooo
oooooo oo ooooo o oooo oooo
oooooooooo oooo
o oooooo
o ooooo oooo oo oo o o o oooooo oo o
o oooooooooooo
o oo
ooooo oooo ooo oooo oo o oo o o ooooooooo o
o o oo ooooooo
ooo
-4 -2 0 2 4 -4 -2 0 2 4
Media = 0, sqm = 1 Media = 0, sqm = 1/2
Si puo' osservare come i campioni rispecchino la popolazione, ossia siano rappresentativi. E'
importante notare che essi non sono rappresentativi perche' costruiti in modo da `riprodurre in
piccolo' la popolazione relativamente a un certo numero di caratteri, ma perche' le assunzioni
che riguardano il processo di campionamento casuale sono vere, cioe' perche' le osservazioni
sono indipendenti e provengono tutte casualmente da quella distribuzione normale.
Ad esempio, e' evidente che tutti i campioni hanno una media vicina a quella della popola-
zione (che e' zero in questo esempio). Inoltre la variabilita' dei campioni estratti dalla normale
con = 1 e' maggiore della variabilita' dei campioni estratti dalla normale con = 0:5.
14.6 Distribuzione campionaria della media
717. Supponiamo ora di voler stimare la media della popolazione normale, cioe' . La cosa
piu' semplice da fare e' calcolare lo stesso indice sul campione. Chiameremo la media del
campione media campionaria e la denoteremo con X .
718. Perche' si fa una distinzione di simboli tra e X se sono entrambi delle medie
aritmetiche?
E' importante tenere distinto il concetto di media della popolazione, che non dipende dal
processo di campionamento causale, da quello di media campionaria che invece dipende dal
campione. La media compionaria infatti e' il risultato di un esperimento casuale e quindi
192
prima di estrarre il campione e' una quantita' aleatoria. Quindi, in linea di principio, X e'
una variabile aleatoria che ha una sua distribuzione di probabilita'.
721. Rappresentare sul graco precedente le medie dei campioni e studiare la distribuzione
delle medie campionarie.
• • •
•
•• • • • • •• •• •••• •••••• •• •• • • • • • ••••• •• ••• •••• ••••••• •••• • •
• • • • •• • •• • • • • •• • • • •••• • •• •• • • •
• • • • ••• • • • •• •
•• •• • • •• • •• • • •
• • • • •• • ••
•• • • ••
• •• ••
•• • •
• ••
• • • • • • •• • •• ••• •• •• • •••• ••• • • •• •
•• • • •• • •• • ••• • •• •••• • • • • •• • • •
•• • ••• • •
• • ••• ••• • • •••••• •
•
• •• • •• • ••••
• • • •• • ••• • • • •••• • ••
• •• • •• •• • • • •• ••• • •••••• •• •
-4 -2 0 2 4 -4 -2 0 2 4
Media = 0, sqm = 1 Media = 0, sqm = 1/2
Nella gura, le medie sono rappresentate da cerchietti, mentre i valori campionari sono rap-
presentati da puntini. Le medie oscillano attorno al valore = 0 cioe' attorno alla media
della popolazione, in entrambe i casi.
Le oscillazioni sono piu' marcate nel graco di sinistra (che e' relativo alla normale con
varianza maggiore tra le due).
193
Inne, le medie oscillano meno delle singole osservazioni. Cioe' una singola osservazione
X , nel campionamento ripetuto, oscilla attorno a = 0 con scarti dell'ordine di . Invece, X
oscilla attorno alla propria media con scarti di ordine inferiore a .
722. Quali sono le proprieta' teoriche della distribuzione campionaria della media?
Si dimostrano i risultati fondamentali seguenti.
(a) La variabile aleatoria media campionaria, cioe' X , ha una media nell'universo dei cam-
pioni, uguale alla media della popolazione. Cioe', la media delle medie campionarie e'
uguale alla media della popolazione. In simboli,
E (X ) = :
Questo risultato e' sempre vero, quale che sia la distribuzione della popolazione, purche'
siano estratti campioni casuali dalla stessa popolazione avente media .
(b) La variabile aleatoria X ha una varianza nell'universo dei campioni di dimensione n,
piu' piccola della varianza della popolazione. Piu' precisamente, la varianza delle medie
campionarie e' uguale alla varianza della popolazione divisa per n, la numerosita' del
campione. Formalmente,
var(X ) = 2=n:
Questo risultato e' vero anche se la popolazione non ha una distribuzione normale,
purche' le osservazioni siano estratte indipendentemente da una popolazione avente una
varianza costante 2.
(c) Inne, se la popolazione e' normale, di media e varianza 2, la distribuzione campio-
naria della media e', a sua volta, esattamente normale. Quindi, per i risultati (a) e (b)
precedenti,
p X e' normale, con media e varianza 2=n, ossia scarto quadratico medio
= n.
723. Commentare il risultato (a) precedente.
(a) esprime esattamente cio' che avevamo notato dalle gure precedenti. Cioe' che le
medie campionarie oscillano nel campionamento ripetuto attorno alla media della popolazione.
Anche se la singola stima puo' dierire dalla media della popolazione, in media le stime sono
uguali a . Questa e' una proprieta' della media campionaria, secondo cui tale indice non
tende a sovrastimare o sottostimare sistematicamente la media della popolazione.
724. Commentare il risultato (b).
Il risultato (b) fornisce una misura degli scostamenti ptra X e (che e' la sua media).
Sappiamo che lo scostamento quadratico medio di X e' = n, e quindi dipende da due cose:
dal della popolazione e dalla numerosita' del campione. Gli scarti tra X e tendono
a crescere quanto piu' e' variabile la X nella popolazione ( e' al numeratore)
a decrescere quanto piu' e' grande la numerosita' del campione (n sta al denominatore)
194
Quindi le medie campionarie variano meno di quanto varino le singole osservazioni, nel cam-
pionamento ripetuto. Questo si puo' capire osservando che le medie attenuano le dierenze
esistenti tra valori bassi e valori alti e quindi sono suscettibili di minore oscillazione rispetto
ai dati.
Inoltre, aumentando la numerosita' del campione si puo' far diminuire la variabilita' delle
medie campionarie attorno a ossia l'errore di campionamento.
725. Supponiamo che il reddito mensile X di una certa categoria di lavoratori, sia distribuito
teoricamente in modo normale, con media 2 200 000 lire e scarto quadratico = 250 000.
Qual'e la variabilita' delle medie campionarie in campioni casuali di dimensione 10 da questa
popolazione?
Per i risultati teorici precedenti, le medie campionarie, nel campionamento ripetuto, si
distribuiscono attorno a 2 200 000 lire con una variabilita' di
p p
= n = 250 000= 10 = 79 056 lire:
Quindi, in campioni di dimensione 10, le medie campionarie hanno oscillazioni dell'ordine
delle 80 000 lire rispetto alla media, contro le oscillazioni dell'ordine delle 250 000 lire, nella
popolazione.
Aumentando la dimensione del campione a n = 100, le possibili oscillazioni di X nel
campionamento ripetuto sono solo
p p
= n = 250 000= 100 = 25 000 lire:
726. Interpretare lo scarto quadratico medio di X in campioni da popolazioni normali
tenendo conto che X ha a sua volta una distribuzione normale.
Usando la regola dei tre sigma per la normale, nell'esempio precedente, possiamo conclu-
dere che il 99% dei campioni di dimensione 100 ha una media compresa tra
2 200 000 ; 3 25 000 e 2 200 000 + 3 25 000
cioe' tra 1 975 000 e 2 425 000. Per questo motivo, sappiamo che a meno di estrarre un
campione veramente particolare, otterremo quasi sicuramente una media che e' compresa in
quell'intervallo. Questo consente di prevedere il margine di errore dovuto al campionamento.
In generale, estraendo campioni casuali di dimensione n da una normale, c'e' il 99% di
probabilita' di ottenere una media campionaria compresa tra
p p
; 3= n e + 3= n:
SETTIMANA 15
In quest'ultima lezione siamo in grado di trarre alcune conclusioni sui metodi di stima basati su
campioni casuali. Il punto fondamentale e' il fatto che con i campioni casuali si costruiscono
dei dati con un meccanismo generatore che segue le regole del calcolo delle probabilita'.
Pertanto possiamo prevedere in anticipo le distribuzioni di probabilita' delle stime e valutare
l'errore di campionamento.
Vedremo che l'errore di campionamento, in campioni di dimensione suciente, e' piccolo
e quindi e' ragionevole aspettarsi buoni risultati usando metodi campionari.
Inne, parleremo di come valutare le stime. A volte infatti ci si puo' trovare di fronte a
metodi alternativi di stima di uno stesso parametro. Avremo tempo di parlare soltanto delle
valutazioni delle stime nel campionamento ripetuto.
15.1 Problemi di stima
727. Che cosa si intende per stima statistica?
Si intende l'assegnazione di uno specico valore a un parametro che caratterizza la po-
polazione oggetto di studio, basandosi su un campione estratto da qualla popolazione. For-
malmente, la popolazione e' descritta da una particolare variabile aleatoria X , che si assume
nota, nella sua forma, a meno di un parametro che, invece, e' incognito. La stima statistica
si propone di dare un valore numerico a questo parametro incognito, in modo da rendere
completamente scoperto il meccanismo (aleatorio) che genera i dati.
Per esempio, assumiamo di sapere che la popolazione dei redditi che stiamo studiando e'
in teoria una normale con una varianza = 250 000 lire, ma ammettiamo di non conoscerne la
media che quindi ci e' ignota. Pertanto, estraendo a caso un individuo da questa popolazione
sappiamo che il reddito avra' una densita' di probabilita' di forma normale, ma non sappiamo
dove questa normale e' localizzata. Potrebbe avere una media = 1 900 000 o = 2 500 000.
Il problema e' trovare una stima di , spesso viene denotata con ^ ( `cappello'), che per
qualche motivo si giudica la piu' plausibile, alla luce dei dati.
195
196
Sostituendo a la sua stima, la popolazione che se ne ottiene e' una sola e i campioni
casuali che essa potrebbe generare sono simili al campione che eettivamente si e' estratto.
728. Quali sono i principali problemi di stima studiati?
(a) La stima di (la probabilita' di successo) in una popolazione dicotomica e (b) la
stima di in una popolazione normale. Nel primo caso la popolazione (ossia il meccanismo
generatore dei dati) e' una variabile aleatoria di Bernoulli. Nel secondo caso e' una Gaussiana.
729. Come si stima la probabilita' di successo ?
Con la proporzione di successi nel campione P . Per denizione, poiche' le osservazioni
possono essere solo 0 (insuccesso) o 1 (successo), la proporzione di successi e' semplicemente
la media aritmetica degli 1 e degli 0 nel campione.
730. Come si stima la media di una popolazione normale?
Con la media aritmetica X dei dati campionari. Tuttavia, poiche' la media delle normale
e' uguale anche alla mediana, si potrebbe usare la mediana Xmed per stimare .
731. In ogni caso, che cos'e' una stima?
E' un modo per sintetizzare i dati campionari in modo da fornire un unico numero che
sia un valore plausibile del parametro. Per questo diremo che la stima e' una funzione delle
osservazioni.
15.2 Come si valuta una stima?
732. Una volta che e' stato inventato un metodo per stimare un parametro, e' importante
domandarsi se questa sintesi e' una buona stima del parametro oppure no. Come si fa a
giudicare questo aspetto?
Per valutare la bonta' di una stima occore stabilire dei criteri. Qui parleremo dei criteri
basati sul campionamento ripetuto. Supporremo sempre che il campione abbia una numerosi-
ta' ssata n. I criteri basati sul campionamento ripetuto valutano non tanto la singola stima
ottenuta una volta estratto il campione, ma le stime che si possono ottenere nell'universo dei
campioni. In altri termini, valutiamo non una stima, ma la distribuzione campionaria delle
stime. Questo permette di conoscere il comportamento di una stima nel lungo andare.
733. Poiche una stima e' una funzione delle osservazioni e queste sono aleatorie, perche'
dipendono dal campione, anche la stima e' una variabile aleatoria. Quando si vuol fare
riferimento alla stima nell'universo dei campioni, cioe' alla stima come variabile aleatoria, si
parla di stimatore.
734. Qual'e' la dierenza tra stima e stimatore?
Lo stimatore e' una variabile aleatoria che descrive le stime nel campionamento ripetuto.
Una stima e' un singolo numero ottenuto in un particolare campione. Lo stimatore ha una
distribuzione campionaria, mentre la stima e' un numero solo. Talvolta e' utile distinguere
197
anche formalmente lo stimatore, indicato con una lettera maiuscola, dalla stima, indicata
con la stessa lettera minuscola. Per esempio si parlera' di stimatore proporzione campionaria
P distinguendolo dalla singola proporzione stimata p che e' una realizzazione della variabile
aleatoria precedente.
Si puo' proporre una analogia intuitiva secondo cui lo stimatore sta al fucile come la stima
sta al colpo sparato. Il fucile, ossia la rosa dei colpi potenziali che esso puo' sparare, una volta
puntato verso il bersaglio, corrisponde allo stimatore ossia alla distribuzione campionaria delle
stime nell'universo dei campioni. Invece, un particolare colpo, tra tutti i possibili della rosa,
corrisponde a una stima ottenuta da uno specico campione.
735. Quali sono le proprieta' principali di una stima, basate sul campionamento ripetuto?
Per quanto detto sopra le proprieta' riguardano gli stimatori e non le stime. Le proprieta'
fondamentali sono due
la non distorsione (o correttezza )
la precisione.
736. Quando si dice che uno stimatore e' non distorto?
Uno stimatore e' non distorto, o corretto, se la sua distribuzione campionaria e' centrata
sul parametro che si vuol stimare. Cioe' uno stimatore e' non distorto se la media delle stime
nell'universo dei campioni e' uguale al parametro ignoto, quale che sia il parametro ignoto.
Ad esempio, la media campionaria X e' uno stimatore corretto di , perche' E (X ) = .
Analogamente, la proporzione campionaria di successi P e' uno stimatore corretto di perche'
E (P ) = . Notare che e' possibile stabilire la correttezza, anche senza conoscere il valore del
parametro, perche' i conti vengono fatti colcalcolo delle probabilita' nell'universo dei campioni.
Proseguendo l'analogia gurata con il fucile, un fucile e' non distorto se la sua rosa dei
colpi e' centrata sul bersaglio (cfr. la gura seguente).
Nella gura, a sinistra e' rappresentata una rosa centrata sul bersaglio e a destra una rosa
sistematicamente spostata.
La non distorsione signica assenza di errore sistematico. Pertanto, se uno stimatore e'
non distorto siamo certi che non otterremo sistematicamente sovrastime o sottostime.
198
743. Quali sono l'errore standard della media e l'errore standard di una proporzione?
Possiamo calcolarli facilmente consocendo la varianza di X e di P , Risulta subito
p q
e.s.(X ) = = n e e.s.(P ) = (1 ; )=n
Entrambi indicano l'ordine di grandezza dell'errore di campionamento, ossia la precisione
della stima. Purtroppo non si possono calcolare esattamente se non sono noti nel primo
caso e nel secondo. Ovviamente la numerosita' del campione e' nota perche' e' scelta dal
ricercatore.
744. Come si puo' fare se l'errore standard dei due stimatori precedenti non e' noto?
Prima di aver ottenuto il campione, si puo' calcolare o l'errore standard nel caso peggiore,
cioe' il massimo errore standard ottenibile. Nel caso della media campionaria occorre sostiture
a un valore stimato per eccesso, eventualmente basato su analoghe indagini precedenti. Nel
caso della proporzione
p il caso peggiore e' quando = 0:5. Percio' l'errore standard del caso
peggiore e' 0:5= n.
Dopo aver estratto il campione, si puo' calcolare un errore standard stimato. Nel caso
della media, si sostituisce a una sua stima s ottenuta dai dati campionari. Nel caso di
una proporzione si sostituisce a la sua stima campionaria p (realizzazione della variabile
aleatoria P nel campione).
745. Quali sono gli errori standard stimati di X e di P ?
Per quanto detto sopra otterremo
ed
p
.s.(X ) = s= n e ed
q
.s.(P ) = p(1 ; p)=n
dove il cappello sopra e.s. indica che si sta utilizzando una stima dell'errore standard.
746. Un sondaggio basato su un campione casuale con ripetizione da una popolazione nita
di elettori ha dato i seguenti risultati dei favorevoli e contrari all'attuale governo (dati ttizi)
Favorevoli 220
Contrari 280
Totale 500
Qual'e' la stima dei favorevoli al governo nella popolazione? Qual'e' l'errore standard della
stima?
La stima di favorevoli e'
220 = 44%:
p = 500
Il suo errore standard e'
r
.s.(P ) = 220 280 1 = 2:21%:
ed
500 500 500
p
L'errore standard del caso peggiore e' 0:5= 500 = 2:23%: L'errore di campionamnto e' circa
di due punti percentuali.
200
747. Sono state provate venti auto della stessa marca e dello stesso modello su un percorso
urbano ed e' stato misurato il consumo (in litri di benzina per 100 km) ottenendo i risultati
seguenti (campione ordinato)
6.6 7.7 8.0 8.1 8.2
8.3 8.3 8.6 8.7 8.8
8.9 9.0 9.3 9.3 9.6
9.8 10.0 10.2 10.7 11.3
Supponendo che il consumo nella popolazione (potenziale) di auto di quel tipo sia una variabile
aleatoria normale di media incognita , stimare la mediap e il suo errore standard.
La media e' x = 8:97 litri. L'errore standard e' = 20 dove e' lo scarto quadratico medio
del consumo nella popolazione. Se si conoscesse tale scarto quadratico medio si potrebbe avere
un valore esatto dell'errore standard. Una stima dell'errore standard si ottiene calcolando una
stima s di dai dati campionari. Questa si puo' calcolare come radice della media degli scarti
al quadrato tra i pdati e la loro media 8.97. Si ottiene s = 1:071. Pertanto l'errore standard
stimato e' 1:071= 20 = 0:24 litri.
748. L'errore standard di P e di X varia inversamente alla radice quadrata della numerosita'
campionaria. Come si interpreta questo risultato?
Si interpreta dicendo che per dimezzare l'errore standard della stima occorre quadruplicare
la dimensione del campione.
749. La gura seguente illustra la distribuzione campionaria di X in campioni di dimensione
10 e di dimensione 40 dalla popolazione normale dei redditi avente media = 2:2 milioni di
lire e = 250 000 lire.
• • • • • •• • • • • •• • •• • • •• • • ••••••• • • • •• • • •• • •• • •
• • • •• •• • • • • • • • •• •• • • • •• • •• •• • •• • • • ••• • •
• •• • • • • •• • • • •• • • • •• •••• •• • • • • • • • • •• • •• • • •• • •
• • • • • •• • •• •• •• •• • • • • • ••••• • ••••• • • • • • •
• • •• ••• •• •
• • • • •• • • • • • • ••• •• • •• • •• •• •• •• ••• • • •• •• • • •• • •• •
1.4 1.8 2.2 2.6 3.0 1.4 1.8 2.2 2.6 3.0
n = 10 n = 40
201
Le osservazioni campionarie sono riportate con puntini e la loro media e' il cerchietto nel
mezzo. Osservare come la precisione della media raddoppia quando il campione quadruplica.
750. Supponiamo che i voti alla maturita' degli iscritti a Scienze Politiche abbiano una
distribuzione teorica normale con media incognita. Si stima la media con un campione casuale
di 100 studenti, ottenendo un voto medio x = 41. Qual'e' il suo errore standard se la stima
di e' s = 5? p p
L'errore standard stimato e' s= n = 5= 100 = 0:5
751. Si estrae un campione casuale di 1500 abbonati alla televisione. La percentuale di
coloro che dichiarano di aver visto un tal programma e' il 22%. Qual'e' l'errore standard della
stima?
L'errore standard stimato
q
e'
0:22 (1 ; 0:22)=1500 = 0:0107 1
752. Da quanto precede, risulta che si puo' scegliere la dimensione del campione in modo
da ottenere una precisione prestabilita. Infatti, se si vuole ottenere un errore standard e
pressato per la media campionaria, si ha
p
e = = n e quindi n = 2=e2 :
Se non si conosce , si puo' stimare con un indagine pilota, su un campione ridotto.
753. Si voglia conoscere il consumo medio pro capite di latte (all'anno), con un errore
standard di 2 litri. Che numerosita' campionaria dobbiamo ssare, sapendo che lo scarto
quadratico medio nella popolazione e' circa 20 litri?
Si imposta l'equazione
p
2 = 20= n da cui n = 400=4 = 100:
p
754. Il caso di una proporzione e' analogo. Poiche' l'errore standard e' e = (1 ; )=n si
ottiene
n = (1 ; )=e2:
Siccome non si conosce , ne' si puo' stimare, perche' non si e' ancora estratto il campione,
si sostituisce a il valore 0:5 che corrisponde al caso peggiore, ottenendo
n = 0:5 0:5=e2:
755. Si vuole estrarre un campione casuale da una popolazione dicotomica e si vuol stimare
con un errore standard di mezzo punto percentuale. Di quanti elementi deve essere il
campione?
Si imposta l'equazione
q
0:005 = 0:5 0:5=n da cui 0:000025 = 0:25=n
e, quindi, n = 10 000.
202
Appendice A
Dati
203
204