Sei sulla pagina 1di 330

i

PARTE PRIMA

PROBABILITA
CAPITOLO I - Gli assiomi della probabilit`
a
1.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . pag. 1
1.2 Definizione assiomatica di probabilit`a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2.1 Logica degli eventi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2.2 Campo di Borel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.3 Assiomi della probabilit`a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 Probabilit`a condizionata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4 Eventi indipendenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.5 Formula di Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.6 Problemi risolti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
CAPITOLO II - Variabili aleatorie
2.1 Definizioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.1.1 Funzione di distribuzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .25
2.1.2 Densit`a di probabilit`a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.2 Momenti di variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.3 Distribuzioni notevoli in Probabilit`a e Statistica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.3.1 Distribuzione uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.3.2 Distribuzione normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.3.3 Distribuzione Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.3.4 Distribuzione esponenziale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.3.5 Distribuzione di Maxwell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.3.6 Distribuzione t-Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

ii

2.3.7 Distribuzione Chi-quadrato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41


2.3.8 Distribuzione F di Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .42
2.3.9 Distribuzione binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2.3.10 Distribuzione di Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
2.3.11 Distribuzione geometrica e ipergeometrica . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
2.3.12 Distribuzione Beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
2.3.13 Distribuzione di Weibull . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
2.4 Problemi risolti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
CAPITOLO III - Variabili aleatorie multidimensionali
3.1 Coppie di variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.1.1 Momenti congiunti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
3.1.2 Coppie di v.a. indipendenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
3.1.3 Coppie di v.a. discrete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
3.2 Caso di n variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
3.3 Trasformate delle densit`a di probabilit`a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
3.3.1 Funzione caratteristica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
3.3.2 Funzione generatrice dei momenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
3.4 Problemi risolti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
CAPITOLO IV - Trasformazioni di variabili aleatorie
4.1 Generalit`a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
4.2 Funzioni di una variabile casuale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
4.2.1 Calcolo della funzione di distribuzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
4.2.2 Calcolo diretto della densit`a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
4.2.3 Trasformazioni invertibili . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
4.2.4 Momenti di Y () = g[X()] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
4.2.5 Trasformazioni lineari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
4.3 Funzioni di due o pi`
u variabili casuali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
4.4 Trasformazioni n-dimensionali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
4.5 Problemi risolti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122

iii

CAPITOLO V - Processi stocastici


5.1 Definizioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
5.1.1 Momenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
5.1.2 Processi indipendenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
5.1.3 Processi senza memoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
5.1.4 Processi stazionari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
5.2 Esempi notevoli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .130
5.3 Processi di Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
5.4 Catene di Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
5.4.1 Matrice di transizione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
5.4.2 Classificazione degli stati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .141
5.4.3 Probabilit`a invarianti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143

***********************************************

PARTE SECONDA

STATISTICA
CAPITOLO VI - Statistica descrittiva
6.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
6.2 Distribuzioni di frequenze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
6.3 Indici di tendenza centrale e di dispersione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
6.3.1 Medie, moda, mediana, quantili . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
6.3.2 Indici di dispersione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
6.3.3 Stem-and-leaf e box-plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
6.4 Distribuzioni congiunte di frequenze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
6.5 Regressione lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
6.6 Regressione multipla . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
6.7 Regressione non lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169

iv

6.8 Problemi risolti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171


CAPITOLO VII - Distribuzioni campionarie
7.1 Modelli statistici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
7.2 Teoria dei campioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
7.3 Distribuzione campionaria delle medie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
7.3.1 Campionamento con ripetizione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
7.3.2 Campionamento senza ripetizione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187
7.4 Distribuzione campionaria delle varianze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
7.4.1 Campionamento con ripetizione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
7.4.2 Campionamento senza ripetizione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
7.5 Distribuzione campionaria delle frequenze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
7.6 Problemi risolti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197
CAPITOLO VIII - Stime di parametri
8.1 Stima puntuale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
8.1.1 Stima puntuale di medie e varianze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
8.1.2 Stima di massima verosimiglianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
8.1.3 Metodo dei momenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210
8.2 Stima per intervalli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
8.2.1 Intervalli di confidenza per la media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .212
8.2.1.1 Popolazione con varianza nota . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212
8.2.1.2 Popolazione con varianza sconosciuta . . . . . . . . . . . . . . . . . . . . . . . . . 215
8.2.2 Intervalli di confidenza per la varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224
8.3 Problemi risolti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228
CAPITOLO IX - Test parametrici di ipotesi statistiche
9.1 Principi generali di un test statistico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239
9.2 Test parametrici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241
9.3 Test di Neyman-Pearson tra ipotesi semplici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242
9.4 Test parametrici con ipotesi composte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245

9.4.1 Test sul valor medio per il modello normale . . . . . . . . . . . . . . . . . . . . . . . . . 246


9.4.1.1 Modello Normale-1: popolazione con varianza nota . . . . . . . . . . . 246
9.4.1.2 Modello Normale generale: varianza sconosciuta . . . . . . . . . . . . . . 249
9.4.1.3 Popolazione con distribuzione non Normale . . . . . . . . . . . . . . . . . . . 250
9.4.2 Test sulla varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 258
9.4.3 Test di Fisher per il rapporto tra varianze . . . . . . . . . . . . . . . . . . . . . . . . . . . 263
9.4.4 Test di incorrelazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265
9.4.5 Ipotesi H0 e H1 composte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 266
9.4.6 Test del rapporto di verosimiglianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .268
9.5 Problemi risolti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269
CAPITOLO X - Test non parametrici
10.1 Test sulla legge di distribuzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279
10.1.1 Test di Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 280
10.1.2 Test Chi-quadrato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282
10.2 Test di omogeneit`a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292
10.2.1 Test dei segni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293
10.2.2 Test dei ranghi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295
10.2.3 Test di Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297
10.2.4 Test Chi-quadrato di omogeneit`a per pi`
u campioni . . . . . . . . . . . . . . . . . 298
10.3 Test di indipendenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303
10.3.1 Test Chi-quadrato di indipendenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303
10.3.2 Test di Spearman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 305
10.4 Test sulla casualit`a di un campione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 307
10.4.1 Test di correlazione seriale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 308
10.4.2 Run test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 310
BIBLIOGRAFIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313
APPENDICE
Tavole delle distribuzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315
Normale standard . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 316

vi

t-Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 317
Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 318
Chi-quadrato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 320
Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321
Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322

vii

GLI ASSIOMI DELLA


PROBABILITA
1.1

Introduzione

Nel Calcolo delle Probabilit`a si elaborano modelli matematici per la valutazione rigorosa del concetto primitivo di probabilit`
a che un esperimento casuale si concretizzi
in un determinato evento. Ma cos`e la probabilit`a di un evento? Ne esistono almeno
quattro definizioni principali, da cui si originano altrettante teorie matematiche,
elaborate dalla seconda met`a del XXVII secolo fino ai giorni nostri. Esse sono:
1) Definizione classica: la probabilit`a P (A) di un evento A `e il rapporto tra il
numero NA dei casi favorevoli e il numero N dei casi possibili:
P (A) = NA /N.
E questa una definizione aprioristica, nel senso che P (A) `e definita senza far ricorso
ad alcuna effettiva prova sperimentale. La sua applicabilit`a `e limitata allo studio di
quel fenomeni casuali in cui si pu`o assumere che il numero N dei casi possibili sia
finito, e che questi siano tutti, a priori, egualmente probabili.
2) Definizione frequentista, ovvero basata sul concetto, particolarmente familiare
ai fisici, di frequenza relativa di un evento: se un esperimento `e ripetuto n volte, e
levento A si presenta nA volte, allora la sua probabilit`a `e il limite della frequenza
relativa:
P (A) = lim nA /n
n

quando il numero delle prove tende ad infinito. Questa definizione implica lipotesi
preliminare che le prove ripetute si svolgano in condizioni identiche, il che, al pari
della definizione classica, ne restringe lapplicabilit`a a una classe piuttosto ristretta
di fenomeni casuali.
3) Definizione soggettivista, come misura di unopinione personale: la probabilit`a
di un evento `e il grado di fiducia che si ha nel verificarsi di esso. Per esempio:
1

ASSIOMI DELLA PROBABILITA

la probabilit`a che in un processo giudiziario limputato sia giudicato colpevole `e


una misura della nostra conoscenza dei fatti e della nostra abilit`a deduttiva. Tale
definizione si formalizza adottando lo schema tipico delle scommesse regolate da
condizioni di equit`a: la probabilit`a dellevento `e misurata dal prezzo che un individuo
ritiene equo pagare per ricevere 1 se levento si realizza, e 0 se non si verifica.
4) Definizione assiomatica, la cui formalizzazione matematica (che `e quella che
seguiremo) risale ad A. N. Kolmogorov (1933). Essa consiste nellintrodurre un
opportuno insieme di assiomi, verificando a posteriori il significato fisico e la validit`
a
della teoria matematica cos precisata.

1.2

Definizione assiomatica di probabilit`


a

Oggetto della teoria matematica sviluppata nel Calcolo delle Probabilit`a `e un generico esperimento casuale, la cui singola esecuzione `e chiamata prova dellesperimento.
Il risultato (o esito) della prova si indica con . Linsieme di tutti i possibili esiti
costituisce lo spazio campione associato allesperimento casuale. Un evento A
relativo al medesimo esperimento `e un certo insieme di risultati , ovvero un sottoinsieme dello spazio campione . Se un risultato A, si dice che esso realizza
levento A. Se linsieme A `e costituito da un solo elemento , allora questultimo
prende il nome di evento elementare; altrimenti A `e un evento composto.

1.2.1

Logica degli eventi

Le definizioni che seguono riguardano operazioni sugli eventi, e si possono formalmente rappresentare come indicato nello schema riassuntivo di Fig.1.1.
Dati due eventi A, B , si dice che A implica B se `e A B.
I due eventi sono incompatibili se non esiste alcun risultato che realizzi sia
A che B, ovvero se `e A B = , dove `e linsieme vuoto.
Al contrario, se A e B non sono incompatibili, linsieme non vuoto (A B) `e
costituito da tutti i risultati che realizzano sia A che B.
Linsieme (AB) indica invece la realizzazione dellevento A, oppure dellevento
B, oppure di entrambi.
Se non si realizza un evento A, allora si realizza il suo complementare in A =
\ A in , negazione dellevento A. Ne segue subito che `e levento certo e
`e levento impossibile.

1.2 Definizione assiomatica di probabilit`


a

Figura 1.1

1.2.2

Campo di Borel

Gli eventi Ai , i = 1, 2, . . . relativi ad un determinato esperimento casuale sono


sottoinsiemi dello spazio campione , sui quali effettuiamo operazioni di unione,
intersezione, differenza come indicato in Fig.1. Al fine di attribuire a ciascun evento
una misura di probabilit`a, si richiede a tali eventi di soddisfare il seguente requisito
fondamentale: qualunque operazione su di essi deve essere a sua volta un evento
definito in .
Questa propriet`a si formalizza dicendo che gli eventi devono costituire un campo C,
ovvero una classe additiva di insiemi Ai , non vuota e chiusa rispetto alla negazione
e allunione. Se esiste un insieme numerabile1 di infiniti eventi Ai , questi devono
formare un campo di Borel (o -algebra) cos definito:
Definizione 1. Un campo di Borel B `
e la classe costituita da una infinit`a numerabile
1
Ricordiamo che un insieme di infiniti elementi `e numerabile se esiste una corrispondenza unoa-uno tra gli elementi dellinsieme e tutti gli interi positivi. Ad esempio: linsieme IR dei numeri
reali non `e numerabile; linsieme {1, 2, 3, ..} `e numerabile.

ASSIOMI DELLA PROBABILITA

di insiemi Ai , tale che:


1)

Ai B

2)

Ai B

Ai = \Ai B

[
i=1

3)

B;

Ai B;

Ai B

i=1

B.

Dunque, un campo di Borel `e caratterizzato dalla propriet`a che qualsiasi operazione


sugli insiemi che lo formano d`a luogo ad un insieme nello stesso campo, anche se gli
insiemi sono una infinit`a numerabile.
Esempio 1.1: lancio di un dado

Consideriamo come singola prova di un esperimento casuale il classico esempio del


lancio di un dado, che ha come risultati (eventi) possibili luscita di un numero
intero, compreso tra 1 e 6. Lo spazio campione `e = {1, 2, 3, 4, 5, 6}, ovvero `e
costituito da un numero finito di elementi , cui si attribuisce il significato di eventi
elementari. Essi formano un insieme di eventi necessari e a due a due incompatibili, poiche {i} {j} = per ogni i 6= j = 1, .., 6. Ma esistono molti altri eventi
in questo esperimento casuale: ad esempio, luscita di un numero pari, che `e costituita dallevento E = {2, 4, 6} composto dai tre eventi elementari che lo realizzano; oppure luscita di un numero basso definita dallevento E 0 = {1, 2}; ecc.
Inoltre: lintersezione {2, 4, 6} {1, 2}, che coincide con levento elementare {2},
indica levento: uscita di un numero pari e basso. Levento: {1, 3, 5} {5, 6}
indica luscita di un numero dispari, oppure di un numero maggiore di 4, oppure
di un numero dispari e maggiore di 4 (ovvero dellintersezione dei due eventi, costituita dallevento elementare {5}). Il complementare dellinsieme A = {1, 2, 3, 5}
composto dai numeri primi minori di 7, ovvero levento \A = {4, 6}, indica luscita
di un numero che non sia primo (negazione di A).
Tutti i possibili eventi si presentano in questo esperimento come sottoinsiemi di ,
ed `e facile verificare che il loro numero complessivo `e la somma delle combinazioni
di classe k di sei elementi:
!
6
X
6
= 26 = 64,
k
k=0
compresi linsieme vuoto (per k = 0) e linsieme (per k = 6). Essi costituiscono
un campo C, perch`e soddisfano tutte le condizioni di additivit`a sopra precisate.
Se per`o siamo interessati solo ad alcuni eventi relativi a questo esperimento, `e preferibile definire una diversa classe additiva, che costituisca un campo C 0 contenente il
minor numero possibile di eventi, compresi quelli che interessano. Si pu`o costruire
questo campo C 0 con successive operazioni di unione e negazione che, a partire dagli
insiemi dati, coinvolgano tutti gli eventi che via via si aggiungono. Ad esempio, se

1.2 Definizione assiomatica di probabilit`


a

siamo interessati allevento: uscita di un numero pari, il campo C 0 da considerare


`e composto dai quattro insiemi:
C0 :

, {2, 4, 6}, {1, 3, 5},

che costituiscono rispettivamente: la negazione {1, 3, 5} dellevento numero pari;


lunione degli eventi pari e dispari, e la negazione dellevento unione . C `e
un campo, perche qualsiasi operazione sugli insiemi che lo compongono d`a luogo a
un insieme anchesso contenuto in C 0 . Al contrario, la classe:
C :

, {2, 4, 6}, {1, 3, 5}, {1, 2},

non `e un campo, perche {2, 4, 6} {1, 2} = {1, 2, 4, 6} 6 C. /


Esempio 1.2: misura di una grandezza

Il valore teorico di una generica grandezza fisica `e espresso da un numero reale, e in


tal senso alla sua misura sperimentale associamo uno spazio campione costituito
dallasse reale (o da un suo intervallo, se siamo in grado di precisarlo a priori). Per
definire una classe additiva di eventi che sia compatibile con lesperimento della misurazione, suddividiamo lasse reale in intervalli di ampiezza assegnata (ad esempio:
gli intervalli aperti a sinistra e chiusi a destra, di ampiezza unitaria e aventi per
centro tutti i numeri interi), in modo che qualsiasi risultato della misurazione possa
appartenere ad uno di tali intervalli. Quindi, con operazioni successive di unione e
negazione, aggiungiamo altrettanti insiemi agli intervalli inizialmente considerati. Il
limite a cui tende la classe degli eventi cos definiti `e il campo di Borel B associato alla misura sperimentale che effettuiamo. Si pu`o dimostrare che tale campo di
Borel si genera anche a partire da tutti gli intervalli (, x1 ] con x1 reale qualsiasi;
esso contiene anche tutti gli intervalli [x1 , x2 ], (x1 , x2 ), i punti x = x1 e linfinit`a
numerabile delle loro unioni e intersezioni. /

1.2.3

Assiomi della probabilit`


a

Siamo ora in grado di attribuire una misura di probabilit`a a ciascun evento Ai la cui
collezione, come si `e appena visto, forma nel caso pi`
u generale un campo di Borel B.
Definizione 2. La probabilit`
a `e un funzionale P : B [0, 1] che verifica i seguenti

assiomi:
I.
II.

P () = 1
i 6= j,

Ai Aj =

P (Ai Aj ) = P (Ai ) + P (Aj ).

La formulazione matematica del modello probabilistico `e cos completa: essa consiste


nellinsieme (, B, P ) chiamato spazio di probabilit`
a, e permette di assegnare un

ASSIOMI DELLA PROBABILITA

numero reale non negativo P (Ai ) che chiamiamo probabilit`


a di Ai , agli eventi che
formano un campo di Borel B, costituito da sottoinsiemi di uno spazio campione
associato allesperimento casuale.
Lassioma I attribuisce probabilit`a 1 allevento certo , senza tuttavia escludere a
priori che esistano altri eventi, diversi da , con probabilit`a 1. Se `e teoricamente
possibile un evento A 6= tale che P (A) = 1, si dice che questo evento `e quasi certo.
Lassioma II esprime la propriet`a additiva del funzionale P tra due eventi fra loro
incompatibili. Tale propriet`a si generalizza subito a un insieme finito o infinito di
eventi a due a due incompatibili, con una delle due relazioni seguenti:
0

II )
rII)

i 6= j, Ai Aj =
i 6= j, Ai Aj =

P
P

n
[

Ai

i=1

ni=1 Ai

n
X

P (Ai )

i=1

P (Ai )

i=1

lultima delle quali esprime la additivit`


a infinita, o -additivit`
a, dellinsieme {Ai , i =
1, 2, . . .} di eventi a due a due incompatibili.
Dagli assiomi I), II) della probabilit`a si deducono svariate propriet`a di P . Le pi`
u
significative sono le seguenti:
C1. P (Ai ) = 1 P (Ai )
C2. P () = 0
C3. Ai Aj :

P (Ai ) P (Aj )

C4. Ai B :

0 P (Ai ) 1

C5. Ai Aj 6= :

P (Ai Aj ) = P (Ai ) + P (Aj ) P (Ai Aj ).

La propriet`a C1 si dimostra considerando che per lassioma I si ha P () = P (Ai


Ai ) = 1, e poich`e Ai e il suo complementare sono incompatibili, si ricava per lassioma
II: P (Ai ) + P (Ai ) = 1.
La C2 si deduce dalla C1 perch`e linsieme vuoto `e il complementare di e quindi
P () = 1 P () = 0.
La C3 afferma che P `e un funzionale crescente di B in [0, 1], e si dimostra applicando
lassioma II agli eventi (incompatibili) Ai e (Aj \Ai ). Si trova: P (Aj ) = P (Ai
(Aj \Ai )) = P (Ai ) + P (Aj \Ai ) e poiche linsieme (Aj \Ai ) non `e vuoto per ipotesi,
risulta P (Aj \Ai ) 0.
La C4 si prova osservando che se Ai non `e vuoto, `e anche = Ai e per la
C3 valgono entrambe le diseguaglianze: P (Ai ) P () = 0 e P (Ai ) P () = 1.

1.2 Definizione assiomatica di probabilit`


a

Ai

Aj

Ai

Aj

Aj

Ai
Figura 1.2

La C5 `e la generalizzazione dellassioma II per eventi non incompatibili, e si dimostra


come segue. Consideriamo levento Ai Aj = Ai (Ai Aj ) che si pu`o esprimere (v.
Fig. 1.2) mediante lunione dei due eventi incompatibili Ai e (Ai Aj ). Per lassioma
II si ha allora P (Ai Aj ) = P (Ai ) + P (Ai Aj ). Ma anche Aj `e esprimibile con
lunione: (Ai Aj ) (Ai Aj ) di due eventi incompatibili, e per esso lassioma
II fornisce: P (Aj ) = P (Ai Aj ) + P (Ai Aj ). Eliminando P (Ai Aj ) dalle due
precedenti eguaglianze, si ricava la C5.
Esempio 1.3: eventi elementari equiprobabili

Si `e visto (Esempio 1.1) che nel lancio di un dado sei eventi elementari, a due a
due incompatibili, costituiscono lo spazio campione = {1, 2, 3, 4, 5, 6}. Per gli
P
assiomi I e II si ha subito: P () = P ({1} {2} . . . {6}) = i P {i} = 1 e se
ammettiamo che ciascun evento elementare abbia uguale probabilit`a di realizzarsi
(ovvero se operiamo con un dado non truccato), la probabilit`a di ciascuno vale:
i = 1, .., 6 : P (i) = 1/6.
Sempre per lassioma II, levento composto: esce un numero pari ha probabilit`a
P (2, 4, 6) = P (2) + P (4) + P (6) = 1/2
mentre luscita di un numero che non sia primo ha probabilit`a
P (4, 6) = P (4) + P (6) = 2/6 = 1/3.
Se si effettua per due volte il lancio dello stesso dado non truccato, gli eventi elementari sono 62 = 36, e la probabilit`a che esca due volte lo stesso numero vale
P (11, 22, 33, 44, 55, 66) =

X
i

P (ii) = 6/36 = 1/6. /

ASSIOMI DELLA PROBABILITA

Questo esempio esprime il seguente risultato di carattere generale:


Se lo spazio campione consiste di un numero finito N di eventi elementari equiprobabili, la probabilit`a di un evento Ai composto da NA eventi elementari vale
P (Ai ) = NA /N

(1.1)

e coincide con la definizione classica di probabilit`a, citata nella Introduzione.


Esempio 1.4

Nel lancio di una moneta, i possibili eventi elementari sono soltanto due: T = {esce
testa} e C = {esce croce}. Lo spazio campione associato ad una singola prova
`e = {T C}; se la moneta `e lanciata due volte si ha = {T T, T C, CT, CC} e per
n prove ripetute `e formato da 2n eventi elementari equiprobabili, con probabilit`a
1/2n . Sulla base del risultato espresso dalla (1.1), si verifica subito che nei lanci
ripetuti della moneta si ha:
P {C nel secondo di due lanci } = 1/2
P {C nei primi due di tre lanci } = 1/4
P {T in due qualsiasi di quattro lanci } = 3/8
P {T per la prima volta alln-esimo lancio } = 1/2n .

Esempio 1.5: distribuzione uniforme in [0, T ]

Estendiamo al caso continuo il risultato dellEsempio 1.3. Supponiamo che lo spazio


campione sia lintervallo [0, T ] IR e che gli eventi Ai relativi ad un esperimento
casuale siano una infinit`a numerabile di intervalli in [0, T ]. Supponiamo inoltre che
si richieda di assegnare uguali probabilit`
a ad eventi definiti da intervalli di uguale
ampiezza. Questa ipotesi implica la definizione di una distribuzione uniforme di
probabilit`a in [0, T ], e determina univocamente P (Ai ). Infatti, se pensiamo di suddividere in n intervalli I di eguale ampiezza T /n e senza elementi comuni, per
lassioma II la loro probabilit`a vale P (I) = 1/n. Un evento A definito dalla unione
di k intervalli I ha probabilit`a
P (A) =

kT
L(A)
k
=
=
,
n
nT
L()

uguale al rapporto tra le ampiezze L(A), L() degli intervalli A ed . In particolare,


se `e lintervallo unitario, P (A) coincide con la misura di Lebesgue di A. E poiche la
misura di Lebesgue `e una funzione continua degli intervalli, se ne deduce il seguente
risultato.

1.3 Probabilit`
a condizionata

In una distribuzione uniforme di probabilit`a nellintervallo [O, T ], la probabilit`a


del generico evento Ai di ampiezza L(Ai ) vale:
L(Ai )
.
T

P (Ai ) =

Ne segue, tra laltro, che ogni punto t di ha probabilit`a nulla: P (t) = 0, t [0, T ]
poiche t `e un insieme di misura nulla.

1.3

Probabilit`
a condizionata

Assegnato un evento Aj B con probabilit`a non nulla, la probabilit`a di un altro


evento Ai B, condizionata da Aj si indica con P (Ai | Aj ) e vale:
P (Ai | Aj ) =

P (Ai Aj )
.
P (Aj )

(1.2)

Essa indica la probabilit`a che che si realizzi Ai sapendo che Aj si `e verificato; oppure:
la probabilit`a di Ai in una prova valida solo se si verifica anche Aj . Le probabilit`a
condizionate soddisfano tutte le propriet`a che discendono dagli assiomi I, II. In
particolare:
Se Ai Aj , allora Ai Aj = Ai e quindi:
Ai Aj

P (Ai | Aj ) = P (Ai )/P (Aj ) > P (Ai ).

Se Ai Aj , allora Ai Aj = Aj e quindi:
Ai Aj

P (Ai | Aj ) = 1.

Se Ai e Aj sono incompatibili, allora Ai Aj = e quindi:


Ai Aj =

P (Ai | Aj ) = 0.

La definizione (1.2) si pu`o anche scrivere:


P(Ai Aj ) = P(Aj )P(Ai | Aj )

(1.3)

e si estende al caso di n eventi A1 , .., An B nella forma seguente


P(A1 A2 ... An ) = P(A1 )P(A2 | A1 )P(A3 | A1 A2 )
P(An | A1 A2 An1 )

(1.4)

che esprime la legge delle probabilit`


a composte, molto utile in svariate applicazioni, come mostra lesempio che segue.

10

ASSIOMI DELLA PROBABILITA

Esempio 1.6: estrazione senza reimbussolamento

Da unurna contenente 6 palline bianche e 4 nere si estrae una pallina per volta,
senza reintrodurla nellurna. Indichiamo con Bi levento: esce una pallina bianca
alla i-esima estrazione e con Ni lestrazione di una pallina nera. Levento: escono
due palline bianche nelle prime due estrazioni `e rappresentato dalla intersezione
{B1 B2 }, e la sua probabilit`a vale, per la (1.3):
P (B1 B2 ) = P (B1 )P (B2 | B1 ).
Ora, P (B1 ) vale 6/10, perche nella prima estrazione `e costituito da 10 elementi:
6 palline bianche e 4 nere. La probabilit`a condizionata P (B2 | B1 ) vale 5/9, perch`e
nella seconda estrazione se `e verificato levento B1 lo spazio campione consiste di 5
palline bianche e 4 nere. Si ricava pertanto: P (B1 B2 ) = 1/3. In modo analogo si
ha che
P (N1 N2 ) = P (N1 )P (N2 | N1 ) = (4/10) (3/9) = 4/30.
Se lesperimento consiste nellestrazione successiva di 3 palline, la probabilit`a che
queste siano tutte bianche vale, per la (1.4):
P (B1 B2 B3 ) = P (B1 )P (B2 | B1 )P (B3 | B1 B2 )
dove la probabilit`a P (B3 | B1 B2 ) si calcola supponendo che si sia verificato levento
condizionante {B1 B2 }. Lo spazio campione per questa probabilit`a condizionata
`e allora costituito da 4 palline bianche e 4 nere, per cui P (B3 | B1 B2 ) = 1/2 e
quindi: P (B1 B2 B3 ) = (1/3) (1/2) = 1/6. La probabilit`a dellestrazione di tre
palline nere `e invece:
P (N1 N2 N3 ) = P (N1 )P (N2 | N1 )P (N3 | N1 N2 ) =

1.4

1
4 3 2
= . /
10 9 8
30

Eventi indipendenti

Due eventi Ai , Aj si dicono statisticamente indipendenti se e solo se:


P (Ai Aj ) = P (Ai )P (Aj ) .

(1.5)

Tale definizione esprime il concetto intuitivo di indipendenza di un evento da un


altro, nel senso che il verificarsi di Ai non influisce sulla probabilit`
a del verificarsi
di Aj , ovvero non la condiziona. Infatti, per la definizione (1.2) di probabilit`a
condizionata, si ha che se vale la (1.5) risulta:
P (Ai | Aj ) = P (Ai )P (Aj )/P (Aj ) = P (Ai ).

1.4 Eventi indipendenti

11

e dunque la conoscenza del verificarsi di Aj non modifica la valutazione della probabilit`a dellevento Ai da esso statisticamente indipendente.
Si noti bene che il concetto di indipendenza `e del tutto differente da quello di incompatibilit`
a. In effetti, due eventi incompatibili (per i quali si ha Ai Aj = )
sono strettamente dipendenti statisticamente, poich`e il verificarsi delluno esclude il
verificarsi dellaltro. Per la propriet`a C2 del 1.2.3, la probabilit`a della loro intersezione `e nulla: P (Ai Aj ) = 0 e di conseguenza, per confronto con la (1.5), due
eventi incompatibili possono essere anche statisticamente indipendenti solo nel caso
banale in cui almeno uno di essi abbia probabilit`a nulla, ovvero sia quasi impossibile.
Se due eventi con probabilit`a non nulla sono statisticamente indipendenti, la legge
delle probabilit`a totali espressa dalla propriet`a C5 del 1.2.3 si modifica nella relazione seguente:
P (Ai Aj ) = P (Ai ) + P (Aj ) P (Ai )P (Aj ).
La definizione di indipendenza si estende al caso di un insieme finito o infinito di
eventi Ai , i quali si dicono statisticamente indipendenti se e solo se, per qualunque
sottoinsieme {A1 , . . . , An } di n eventi, si verifica la condizione:
P (A1 A2 . . . An ) = P (A1 )P (A2 ) P (An ).

(1.6)

Ci`o significa, in particolare, che tre eventi A, B, C sono statisticamente indipendenti


se lo sono a due a due, e se inoltre:
P (A B C) = P (A)P (B)P (C).
Esempio 1.7

Nel lancio di un dado non truccato, si considerino gli eventi: A = {esce un numero
minore di 3} e B = {esce un numero pari}. Questi due eventi sono statisticamente
indipendenti. Infatti, le loro probabilit`a valgono: P (A) = P (1, 2) = 1/3; P (B) =
P (2, 4, 6) = 1/2 e la probabilit`a della loro intersezione vale:
P {(1, 2) (2, 4, 6)} = P (2) = 1/6 P (A)P (B).
Come verifica, si pu`o osservare che la probabilit`a dellevento A condizionata da B
coincide con la sua probabilit`a non condizionata:
P {(1, 2) | (2, 4, 6)} =

P {(1, 2) (2, 4, 6)}


1/6
=
= 1/3 P (1, 2)
P (2, 4, 6)
1/2

Nel lancio ripetuto di una moneta (cfr. lEsempio 1.4) in cui lo spazio campione `e
= {T T, T C, CT, CC}, si considerino gli eventi composti: A1 = {T T, T C}, A2 =

12

ASSIOMI DELLA PROBABILITA

{T C, CT } e A3 = {T T, CT }, ciascuno con probabilit`a 1/2. I tre eventi non sono


statisticamente indipendenti, anche se lo sono a due a due. Infatti:
P (A1 A2 ) = P {T C} = 1/4 = P (A1 )P (A2 )
P (A1 A3 ) = P {T T } = 1/4 = P (A1 )P (A3 )
P (A2 A3 ) = P {CT } = 1/4 = P (A2 )P (A3 ),
ma si ha anche:
P (A1 A2 A3 ) = P () = 0 6= P (A1 )P (A2 )P (A3 )
e dunque non `e verificata la condizione (1.6) per n = 3.

Esempio 1.8: componenti in serie e in parallelo

Si abbia un generico sistema (ad es. una macchina, un dispositivo di controllo, un


circuito, una rete di comunicazione tra centri abitati, ecc.) costituito da n componenti con funzionamento statisticamente indipendente, che sono operativi ciascuno
con probabilit`a Pi , i = 1, . . . , n. Il collegamento `e in serie se tutti i componenti
devono essere operativi perche lo sia il sistema; `e in parallelo se `e sufficiente il funzionamento di un solo componente per rendere operativo il sistema.
Indichiamo con Ai levento: `e operativo li-esimo componente e con B levento:
il sistema `e operativo. Lintersezione degli eventi Ai , i = 1, . . . , n indica levento:
tutti i componenti sono operativi, e lintersezione delle loro negazioni Ai = \Ai
`e levento: nessun componente `e operativo.
Poich`e Ai sono indipendenti, le loro probabilit`a soddisfano la (1.6), per cui nel
collegamento in serie si ha subito:
P (B) = P (A1 A2 .. An ) = P (A1 )P (A2 )..P (An ) =

n
Y

Pi .

i=1

Nel collegamento in parallelo, P (B) `e invece eguale alla probabilit`a che almeno un
componente sia operativo, e percio vale
P (B) = 1 P (A1 A2 .. An ) = 1

n
Y

(1 Pi ).

i=1

1.5

Formula di Bayes

Si abbia una sequenza finita o numerabile di eventi Ai B con probabilit`a non


nulle, e soddisfacente alle seguenti ipotesi:

1.5 Formula di Bayes

13

1) i 6= j : Ai Aj =
2)

i=1 Ai

= .

La prima condizione stabilisce che gli eventi devono essere a due a due incompatibili;
la seconda impone che il loro insieme sia esaustivo, ossia tale che in ogni prova
dellesperimento casuale si realizza uno e uno solo tra gli eventi Ai (v. Fig. 1.3).

A2
A3
E

A1

A4
A5
Figura 1.3

Definito un arbitrario evento E con probabilit`a non nulla, `e chiaro per le ipotesi
fatte che se si verifica E, deve anche essersi verificato almeno uno degli eventi Ai ,
che in tal senso si possono considerare come possibili cause dellevento E che `e
stato registrato.
La probabilit`a condizionata P (Ai | E), detta probabilit`
a a posteriori, `e quella che
attribuiamo ad Ai sapendo che si `e verificato E, ed `e legata alla probabilit`a a priori
P (Ai ) dalla seguente formula di Bayes:
P (Ai )P (E | Ai )
P (Ai | E) = X
.
P (Aj )P (E | Aj )

(1.7)

Essa mostra che la conoscenza del verificarsi di E modifica la probabilit`a che a


priori siamo portati ad attribuire allevento Ai .
Per dimostrare la (1.7), si osservi che ricorrendo due volte alla definizione di probabilit`a condizionata, si ha anzitutto:
P (Ai E)
P (E Ai )
P (Ai )P (E | Ai )
=
=
.
P (E)
P (E)
P (E)
Inoltre, per lipotesi 2) e tenendo conto che E , si pu`o scrivere:
P (Ai | E) =

E =E=E(

Aj ) =

[
j

(E Aj ).

(1.8)

14

ASSIOMI DELLA PROBABILITA

Ma per lipotesi 1) anche gli eventi (EAj ) ed (EAk ), con j 6= k, sono incompatibili
a due a due. Quindi per lassioma II si ha:

[
X
X
P (E) = P (E Aj ) =
P (E Aj ) =
P (Aj )P (E | Aj )
j

(1.9)

che, sostituita nella (1.8), prova la (1.7).


La (1.9) `e detta Formula delle probabilit`
a totali, ed `e assai utile in molte applicazioni perch`e permette di valutare la probabilit`a dellevento E se `e nota la sua
probabilit`a condizionata dalla sequenza degli eventi Ai di cui si conoscono le probabilit`a a priori.
`
Esempio 1.9: Controllo statistico della qualita

Al montaggio di 200 apparecchiature uguali contribuiscono tre tecnici con abilit`a


differenti. Il primo tecnico monta 50 apparecchiature, che al collaudo risultano
perfette nel 90% dei casi; il secondo ne monta 85, perfette all80%, e il terzo ne
monta 65, perfette nel 70% dei casi. Si vuole determinare la probabilit`a che un
apparecchio di buona qualit`a, scelto a caso, sia stato montato del terzo tecnico.
Indichiamo con E levento rappresentato dalla buona qualit`a del montaggio, e con
A1 , A2 , A3 il montaggio effettuato da ciascuno dei tre tecnici. I tre eventi Ai sono
esaustivi (la loro unione `e lo spazio campione dei 200 apparecchi montati) ed incompatibili (il montaggio da parte di un tecnico esclude quello di un altro). Le
probabilit`a a priori di questi tre eventi sono note:
85
65
50
= 0.25,
P (A2 ) =
= 0.425,
P (A3 ) =
= 0.325.
200
200
200
La probabilit`a dellevento E nella ipotesi che lapparecchio scelto sia stato montato
dal primo tecnico, `e la probabilit`a condizionata: P (E | A1 ) = 0.90 che `e nota dal
collaudo; e cos pure risulta: P (E | A2 ) = 0.80, P (E | A3 ) = 0.70. La probabilit`a
da determinare `e quella relativa al montaggio effettuato dal terzo tecnico, sapendo
che `e stata scelta una apparecchiatura perfetta. Essa si ricava applicando la (1.7) e
vale:
P (A1 ) =

P (A3 | E) =

P (A3 )P (E | A3 )
= 0.287.
P (A1 )P (E | A1 ) + P (A2 )P (E | A2 ) + P (A3 )P (E | A3 )

Esempio 1.10: trasmissione di un segnale binario

In un sistema di comunicazione digitale, un segnale binario X `e trasmesso nella


forma 0 oppure 1, con probabilit`a di trasmissione di ciascuna delle due forme
che indichiamo rispettivamente con P (X0 ) e P (X1 ). La trasmissione `e affetta da
disturbi aleatori (rumore), per cui esiste una probabilit`a non nulla che il segnale
ricevuto, che indichiamo con Y , sia diverso da quello emesso X (v. Fig. 1.4).

1.5 Formula di Bayes

15

Figura 1.4

Canale simmetrico
Supponiamo dapprima che i due eventi (esaustivi) X0 = {X = 0} e X1 = {X = 1}
si realizzino con probabilit`a P (X0 ) = 0.4 e P (X1 ) = 0.6; e inoltre che la probabilit`a
di errore nella trasmissione del segnale 0 sia uguale alla probabilit`a di errore nella
trasmissione del segnale 1, e valga P = 0.25. Si vuole determinare le probabilit`a
di ricevere 1 e di ricevere 0.
Indichiamo con Y0 ed Y1 la ricezione del segnale nelle forme 0 ed1. Se il segnale
trasmesso `e 0 esso ha, per ipotesi, probabilit`a P di essere distorto in 1. Quindi
P (Y1 | X0 ) = P = 0.25. Se invece il segnale trasmesso `e 1, ha probabilit`a
(1 P ) di essere ricevuto inalterato: P (Y1 | X1 ) = 0.75. Applicando la (1.9) si
ricava pertanto
P (Y1 ) = P (Y1 | X0 )P (X0 ) + P (Y1 | X1 )P (X1 ) = 0.25 0.4 + 0.75 0.6 = 0.55.
La probabili`a di ricezione del segnale nella forma 0 si calcola invece come segue:
P (Y0 ) = P (Y0 | X0 )P (X0 ) + P (Y0 | X1 )P (X1 ) = 0.75 0.4 + 0.25 0.6 = 0.45
o meglio, se gi`a si conosce P (Y1 ), come probabilit`a della negazione dellevento Y1 :
P (Y0 ) = P () P (Y1 ) = 1 0.55.
Canale non simmetrico
Supponiamo ora che la probabilit`a di trasmissione del segnale in forma non distorta
vari a seconda della forma del segnale trasmesso, e precisamente:
P (X0 non distorto) = 0.8,

P (X1 non distorto) = 0.9

essendo P (X0 ) = 1/3. Si vuole determinare la probabilit`a P (E) che il segnale


ricevuto sia errato. Essa si calcola applicando ancora la (1.9) e vale:
P (E) = P (Y0 | X1 )P (X1 ) + P (Y1 | X0 )P (X0 ) = 0.1

1
2
+ 0.2 = 0.13.
3
3

16

1.6

ASSIOMI DELLA PROBABILITA

Problemi risolti

1.1. Da un mazzo di 52 carte se ne sceglie una a caso. Quanto vale la probabilit`a


di estrarre una figura o una carta di fiori? E quella di estrarre una figura e un fiori?
Soluzione. Levento {estrazione di una figura} non influisce sulla probabilit`a dellevento {estrazione di un fiori}, per cui essi sono statisticamente indipendenti. Ne
segue:
P {figura fiori} = P {figura} + P {fiori} P {figura fiori}=
P {figura fiori} = P {figura} IP{fiori} =

3
11
12 13
+

=
52 52 52
26

12 13
3

=
.
52 52
52

1.2. Se A e C sono eventi incompatibili con B, allora P (A B|C) = P (A|C). Vero


o falso?
Risposta: Vero , perche:

'$
'$

&% &%

P (A B|C) =

P [(A B) C]
P (A C)
=
= P (A|C).
P (C)
P (C)

1.3. Nel lancio ripetuto di due dadi non truccati, la somma dei risultati `e un numero
pari. Quanto vale la probabilit`a di aver totalizzato 8 ?
Risposta: La probabilit`a che la somma sia 8 `e
P {8} = P {(6 + 2) (5 + 3) (4 + 4) (3 + 5) (2 + 6)} =

5
.
36

Sapendo che `e uscito un numero pari, si ha invece


P {8|pari} =

P {8 pari}
P {8}
5
=
=
.
P {pari}
0.5
18

1.4. Gli eventi A1 , A2 sono incompatibili, esaustivi e con uguale probabilit`a. Se un


terzo evento C ha probabilit`a condizionate P (C|A1 ) = P (C|A2 ) = 0.5, allora
P (A1 |C) = 1/4. Vero o falso?

1.6 Problemi risolti

17

Risposta: Falso , perche P (A1 ) = P (A2 ) = 0.5 e se si applica la formula di Bayes


si ricava:
P (A1 |C) =

P (A1 )P (C|A1 )
0, 5 0.5
1
=
= .
P (A1 )P (C|A1 ) + P (A2 )P (C|A2 )
0.5(0.5 + 0.5)
2

1.5. Se gli eventi A, B sono incompatibili, allora P (A) P (B). Vero o falso?
Risposta: Vero , perche se sono incompatibili allora A B = B da cui si
deduce, per gli assiomi della probabilit`a, che P (A) P (B).
1.6. Lurna A contiene 2 palline bianche e 3 nere; lurna B ne contiene 4 bianche e
1 nera; lurna C ne contiene 3 bianche e 4 nere. Si sceglie a caso unurna, e si estrae
una pallina bianca. Calcolare la probabilit`a che essa provenga dallurna C.
Soluzione. Le probabilit`a di scegliere a caso una delle tre urne sono uguali: P (A) =
P (B) = P (C) = 1/3. Indichiamo con E levento {estrazione di una pallina bianca}.
Le probabilit`a che essa sia estratta dallurna A, oppure B o C sono:
P (E|A) = 2/5;

P (E|B) = 4/5;

P (E|C) = 3/7

e la probabilit`a totale di estrarre una pallina bianca da una qualsiasi delle tre urne
vale

57
1 2 4 3
+ +
=
.
P (E) =
3 5 5 7
105
La probabilit`a di averla estratta dallurna C `e data dalla formula di Bayes:
P (C|E) =

5
P (C)P (E|C)
(1/3)(3/7)
=
=
.
P (E)
57/105
19

1.7. Due ditte forniscono il medesimo prodotto. Se esso proviene dalla ditta A, la
probabilit`a che si guasti prima dellistante t vale 1 et ; se invece proviene dalla
ditta B questa probabilit`a vale 1e2t . Il prodotto pu`o essere acquistato con uguale
probabilit`a da A o da B, e non `e nota la ditta fornitrice. Tuttavia, `e stato osservato
che il prodotto si guasta in un intervallo di tempo 1 t 2. Determinare la
probabilit`a che esso sia stato acquistato dalla ditta A.
Soluzione. Indichiamo con E levento: {guasto in 1 t 2} e con P (A) = P (B) =
0.5 le probabilit`a che il prodotto provenga da A o da B. La probabilit`a di guasto
del prodotto A nellintervallo di tempo 1 t 2 vale
P (E|A) = 1 e2 [1 e1 ] = e1 e2
e quella del prodotto B nello stesso intervallo `e
P (E|B) = 1 e22 [1 e21 ] = e2 e4 .

18

ASSIOMI DELLA PROBABILITA

La probabilit`a a posteriori P (A|E) `e data dalla formula di Bayes:


P (A|E) =
=

P (A)P (E|A)
P (A)P (E|A) + P (B)P (E|B)
e2 (e 1)
e1 e2
=
' 0.6652 .
e1 e2 + e2 e4
e3 1

1.8. Abbiamo sul tavolo 9 carte coperte: due di esse sono di cuori, tre di fiori e
quattro di picche. Calcolare la probabilit`a che, scelte simultaneamente due carte a
caso, siano di seme diverso.
Soluzione. Indichiamo con {QQ}, {F F }, {P P } gli eventi: estrazione di due cuori,

oppure due fiori, o due picche. Lo spazio campione `e costituito da 92 = 36


eventi possibili (numero di combinazioni di 9 elementi a 2 a 2). Tra essi, esistono:
!

2
2

= 1 evento {QQ};

3
2

4
2

= 3 eventi {F F };

= 6 eventi {P P }.

La probabilit`a di estrarre due carte dello stesso seme vale:


P [{QQ} {F F } {P P }] = P {QQ} + P {F F } + P {P P } =

1
3
6
5
+
+
= .
36 36 36
18

La probabilit`a di estrarre due carte di seme diverso `e :


P {seme diverso} = 1 P [{QQ} {F F } {P P }] =

13
.
18

1.9. Una sorgente emette una sequenza di tre segnali binari equiprobabili nella
forma 0 e 1. Sapendo che almeno due segnali sono stati emessi nella forma 1,
calcolare la probabilit`a che sia stato emesso 0 nella prima emissione.
Soluzione. Lo spazio campione contiene 23 = 8 eventi (= numero delle disposizioni
con ripetizione di 2 elementi a 3 a 3). Questi sono:
(000) (001) (011) (100) (010) (101) (110) (111)
e la probabilit`a che sia stato emesso 1 almeno due volte vale
P (E) P ( 1 per due o tre volte) =

4
= 0.5.
8

La probabilit`a di emissione di un primo 0 condizionata da E vale:


P (primo 0|E) =

P [(primo 0) E]
1/8
=
= 0.25 .
P (E)
0.5

1.6 Problemi risolti

19

1.10. In un primo turno elettorale il polo A ha avuto il 45% dei voti, e il polo B ha
vinto con il 55% dei suffragi. Si ripetono le elezioni con i medesimi votanti, e dagli
exit-poll risulta che: 1) il 10% di colori che avevano votato A hanno spostato il voto
su B; 2) il 20% dei vecchi elettori di B hanno votato A. Chi ha vinto (secondo gli
exit-poll) il secondo turno?
Soluzione. Definiamo i seguenti eventi e le loro probabilit`a:
A1 = {voto per A al primo turno} :

P (A1 ) = 0.45

B1 = {voto per B al primo turno} :

P (B1 ) = 0.55

E = {voto cambiato} :

P (E|A1 ) = 0.10,

P (E|B1 ) = 0.20.

La probabilit`a che gli elettori abbiano votato A al secondo turno `e


P (A2 ) = P (A1 )[1 P (E|A1 )] + P (B1 )P (E|B1 ) = 0.45 0.9 + 0.55 0.20 = 0.515.
Poiche gli eventi A2 e B2 sono esaustivi, ha vinto A con il 51.5% contro B che ha
avuto il 48.5% .
1.11. Sul tavolo ci sono due mazzi di carte. Il mazzo A `e completo ed ha 52 carte
(ossia tredici per ognuno dei quattro semi). Dal mazzo B sono state tolte tutte le
figure. Si estrae una carta a caso da uno dei due mazzi, ed `e un asso. Qual`e la
probabilit`a che lasso sia stato estratto dal mazzo B ?
Soluzione. Le probabilit`a a priori di scegliere uno dei due mazzi sono uguali: P (A) =
P (B) = 0.5. Se E `e levento estrazione di un asso, le probabilit`a di estrarlo da A
o da B sono:
4
1
4
1
P (E|A) =
=
,
P (E|B) =
= .
52
13
40
10
La probabilit`a a posteriori che lasso sia stato estratto dal mazzo B vale, per la
formula di Bayes:
P (B|E) =

P (B)P (E|B)
0.5 0.1
13
=
=
' 0.5652 .
P (A)P (E|A) + P (B)P (E|B)
0.5(0.1 + 1/13)
23

1.12. Si utilizza un prodotto fornito in percentuali uguali da due ditte A e B. E


stato calcolato che, scelto a caso un esemplare difettoso, la probabilit`a che esso sia
stato fornito dalla ditta A vale IP(A|difettoso ) = 0.25. Se la produzione del prodotto
da parte della ditta A ha un difetto di qualit`a del 5%, qual`e il difetto di qualit`a
nella produzione della ditta B ?
Soluzione. Le probabilit`a a priori che la ditta fornitrice sia A oppure B sono uguali:
P (A) = P (B) = 0.5. Se D `e levento: prodotto difettoso, si sa che P (D|A) = 0.05.
Inoltre `e stato calcolato che
0.5 0.05
P (A|D) =
= 0.25.
0.5 0.05 + 0.5 P (D|B)

20

ASSIOMI DELLA PROBABILITA

Dunque risolvendo rispetto alla probabilit`a richiesta:


P (D|B) =

0.05
0.05 = 0.15 = 15% .
0.25

1.13. Tre macchine A, B, C producono, rispettivamente, il 60%, il 30% e il 10%


del numero totale dei pezzi prodotti da una fabbrica. Le percentuali di produzione
difettosa di queste macchine sono, rispettivamente, del 2%, 3% e 4%. Viene estratto
a caso un pezzo che risulta difettoso. Determinare la probabilit`a che quel pezzo sia
stato prodotto dalla macchina C.
Soluzione. Le probabilit`a che i pezzi siano prodotti dalla macchina A, B oppure C
sono:
P (A) = 0.6,
P (B) = 0.3,
P (C) = 0.1.
Se D `e levento: {pezzo difettoso}, si sa che
P (D|A) = 0.02,

P (D|B) = 0.03,

P (D|C) = 0.04

e dunque la probabilit`a totale che il pezzo sia difettoso vale


P (D) = 0.6 0.02 + 0.3 0.03 + 0.1 0.04 = 0.025.
Per la formula di Bayes la probabilit`a richiesta `e
P (C|D) =

P (C)P (D|C)
0.1 0.04
=
= 0.16 .
P (D)
0.025

1.14.Unurna contiene 1 pallina nera (N) e 2 palline bianche (B). Si estrae casualmente una pallina dallurna e, dopo averne osservato il colore, la si rimette nellurna
aggiungendo altre 2 palline del colore estratto e 3 palline del colore non estratto.
Calcolare la probabilit`a che in 4 estrazioni successive, effettuate secondo la regola
sopra stabilita, si ottenga la stringa (ordinata) BNNB.
Soluzione. Indichiamo con Bi , Ni (i = 1, . . . , 4) gli eventi: {si ha una pallina Bianca
(Nera) alla i-esima estrazione}. Dopo ogni estrazione cambia lo spazio campione, e
se gli esiti delle prime tre estrazioni seguono la sequenza voluta: B1 N2 N3 il numero
delle palline presenti nellurna quando avviene la i-esima estrazione si modifica come
segue:
i
1
2
3
4

Nere
1
4
6
8

Bianche
2
4
7
10

1.6 Problemi risolti

21

Allora si ha
2
P (B1 ) = ,
3

P (N2 |B1 ) =

P (N3 |N2 B1 ) =

6
,
13

4
1
= ,
8
2
P (B4 |N3 N2 B1 ) =

10
5
=
18
9

e di conseguenza la probabilit`a che si verifichi la sequenza BN N B vale:


P (B1 N2 N3 B4 ) =

2 1 6 5
10

=
' 0.08547 .
3 2 13 9
117

1.15. Un segnale binario X, emesso nella forma 1 con probabilit`a P (X1 ) = 0, 75,
`e inviato su un canale di trasmissione non simmetrico nel quale la probabilit`a di
errore nella trasmissione di X1 vale p = 0, 08. Il segnale X `e ricevuto nella forma
Y = 1 con probabilit`a P (Y1 ) = 0, 70. Calcolare:
a) la probabilit`a P (Y1 |X0 ) che il segnale 0 sia ricevuto nella forma 1 ;
b) la probabilit`a totale di errore nella ricezione del segnale.
Soluzione.
a) La probabilit`a che X sia emesso nella forma 0 `e P (X0 ) = 1P (X1 ) = 0.25, e la
probabilit`a di una trasmissione corretta del segnale 1 `e P (Y1 |X1 ) = 10.08 = 0.92.
Per la formula delle probabilit`a totali, la probabilit`a (nota) che il segnale sia ricevuto
nella forma 1 si pu`o scrivere:
P (Y1 ) = 0.70 = P (X0 )P (Y1 |X0 ) + P (X1 )P (Y1 |X1 ) = 0.25P (Y1 |X0 ) + 0.75 0.92
e risolvendo rispetto a P (Y1 |X0 ):
P (Y1 |X0 ) =

0.70 0.75 0.92


= 0.04 .
0.25

b) La probabilit`a di errore nella ricezione del segnale risulta:


P {errore} = P (X0 )P (Y1 |X0 ) + P (X1 )P (Y0 |X1 ) =
= 0.25 0.04 + 0.75 0.08 = 0.07 .
1.16. Due urne contengono palline bianche e nere in proporzioni diverse. Siano
p1 e p2 le probabilit`a di estrarre una pallina bianca rispettivamente dallurna U1 e
dallurna U2 . Luca vince se estraendo due palline almeno una `e bianca. Egli pu`o
scegliere tra due modalit`a di estrazione:
A) Sceglie a caso una delle due urne, estrae una pallina, la rimette nellurna da cui
`e stata estratta, quindi sceglie di nuovo a caso unurna ed estrae la seconda pallina.

22

ASSIOMI DELLA PROBABILITA

B) Sceglie a caso una delle due urne, estrae una pallina, la rimette nellurna da cui
`e stata estratta, e sempre dalla stessa urna estrae una seconda pallina.
Quale tra le due procedure `e pi`
u conveniente per la vittoria di Luca?
Soluzione. Indichiamo con Ui la scelta di una delle due urne, con Ni levento:
{pallina nera alla i-esima estrazione} e con E levento {estrazione di almeno una
pallina bianca}. Si ha anzitutto:
IP(Ui ) = 0.5 ;

IP(E) = 1 IP(N1 N2 ).

Con la procedura A le due estrazioni sono statisticamente indipendenti, con IP(N1 ) =


IP(N2 ) :
IP(N1 N2 ) = IP(N1 )IP(N2 ) = {IP(U1 )IP(N1 |U1 ) + IP(U2 )IP(N1 |U2 )}
{IP(U1 )IP(N2 |U1 ) + IP(U2 )IP(N2 |U2 )} = {0.5(1 p1 ) + 0.5(1 p2 )}2 .
In tale ipotesi si ricava:

IPA (E) = 1

1 p1 1 p2
+
2
2

= p1 + p2

(p1 + p2 )2
.
4

Con la procedura B, la probabilit`a di estrarre due Nere dalla medesima urna vale:
i = 1, 2 :

IP(N1 N2 |Ui ) = IP(N1 |Ui )IP(N2 |Ui ) = (1 pi )2 .

Quindi:
IP(N1 N2 ) = IP(U1 )IP(N1 N2 |U1 ) + IP(U2 )IP(N1 N2 |U2 )
= 0.5(1 p1 )2 + 0.5(1 p2 )2
e si ottiene:
"

(1 p1 )2 (1 p2 )2
IPB (E) = 1
+
2
2

#2

= p1 + p2

p21 + p22
.
2

La differenza tra le due probabilit`a `e


IPA (E) IPB (E) =
e quindi IPA (E) > IPB (E) .

(p1 + p2 )2 p21 + p22


(p1 p2 )2
+
=
>0
4
2
4

VARIABILI ALEATORIE
2.1

Definizioni

Il risultato di una prova di un generico esperimento casuale non `e sempre esprimibile


direttamente in termini di numeri reali (si pensi per esempio al lancio di una moneta,
o allestrazione da unurna di palline con colori diversi). Tuttavia, nello sviluppo del
Calcolo delle probabilit`a siamo interessati ad associare un numero reale x = X()
a qualsiasi risultato di ogni prova dellesperimento casuale.
Il funzionale X : IR che cos si viene a definire `e chiamato variabile aleatoria o
casuale (abbreviata nel seguito con v.a.) se soddisfa a queste due condizioni:
1. X `e una funzione a valori reali definita sullo spazio di probabilita (, B, P ) e
misurabile, nel senso che le immagini inverse di intervalli Bi IR appartengono
al campo di Borel degli eventi Ai :
X 1 (Bi ) = Ai B.
2. Per ogni numero reale x, linsieme { : X() x} `e ancora un evento in B.
La v.a. X() `e dunque una funzione che fa corrispondere a ciascun risultato
dellesperimento casuale un elemento x di IR, e ad ogni evento Ai B un
intervallo Bi IR come `e illustrato in Fig. 2.1. Lintervallo Bi appartiene a una
infinit`a numerabile di insiemi che costituiscono un campo di Borel B su X() IR.
In particolare, allevento impossibile `e associato linsieme vuoto dei numeri
reali, e allevento certo `e associato lintervallo X() IR. Inoltre, poiche il
funzionale X `e definito su uno spazio di probabilit`a, la v.a. associa alla probabilit`a P (Ai ) = P [X 1 (Bi )], definita su , una eguale probabilit`a immagine P (Bi ),
definita su X(). Questultima misura la probabilit`a che la v.a. X() assuma valori
reali x Bi , ed `e tale che
P (Bi ) = P [X 1 (Bi )] = P (Ai ).

23

24

VARIABILI ALEATORIE

x = X(w )

X
W

w
Ai

B i = X(A i )

X
P*
P

P(A i ) = P*(B i )

Figura 2.1

Nel seguito indicheremo una v.a. con la lettera maiuscola (per es. X), mentre il
generico valore reale che essa pu`o assumere sar`a indicato con la lettera minuscola
corrispondente. La v.a. X() assume un valore x IR con una ben definita probabilit`a, che `e indotta in X() IR dalla probabilit`a P () che si verifichi . In
conclusione, una variabile aleatoria `e la trasformazione
X

(, B, P ) (IR, B , P )
che associa ad ogni elemento una coppia di numeri reali (x, P (x)) = (X(),
P ()) con P (x) = P () [0, 1].
Esempio 2.1

Nel lancio di una moneta per due volte, in cui = {T T, T C, CT, CC}, definiamo la
v.a. X() che a ciascuno dei 4 possibili eventi elementari associa un guadagno 1
se esce T , e una perdita di una unit`a se esce C. La v.a. X() assume allora tre
valori discreti:
x1 = X( = CC) = 2
x2 = X( = T C) = X( = CT ) = 0
x3 = X( = T T ) = 2
e limmagine di `e il sottoinsieme: X() = {2, 0, 2} IR. Poiche i quattro eventi
elementari sono equiprobabili con probabilit`a P () = 1/4, si ha che la probabilit`a
immagine, indotta in X() per ciascuno dei tre valori di X, vale rispettivamente:
P (2) = P (T T ) = 1/4
P (0) = P (T C CT ) = 1/2
P (2) = P (CC) = 1/4. /

2.1 Definizioni

2.1.1

25

Funzione di distribuzione

Per la propriet`a 2 di X(), linsieme { : X x} `e un evento in B, che dora


in poi scriveremo pi`
u sinteticamente con (X x). Ad esso `e possibile assegnare
una probabilit`a P (X x) = P {X 1 (, x)} che al variare di x IR definisce la
funzione ordinaria di variabile reale:
FX (x) = P (X x).
Questa funzione `e chiamata funzione di distribuzione (cumulata), o funzione di ripartizione di X(). Dunque, FX (x) definisce la distribuzione delle probabilit`a di
eventi in un esperimento casuale e, con riferimento alla v.a. X() che associamo a
tale esperimento, misura la probabilit`a che X() assuma valori minori o uguali al
reale x. Sulla base degli assiomi del Calcolo delle probabilit`a, `e sempre non negativa,
monotona non decrescente tra 0 e 1, tale che:
lim FX (x) FX () = 0,

lim FX (x) FX (+) = 1

x+

ed `e continua a destra:
lim FX () FX (x+ ) = FX (x).

x+

Se X() assume un numero finito o una infinit`a numerabile di valori reali xi , i =


1, .., n,.. con probabilit`a Pi , allora `e chiamata v.a. discreta. La sua funzione di
distribuzione, illustrata in Fig. 2.2a), `e una funzione costante a tratti con punti di
discontinuit`a in xi :
xi x < xi+1 :

FX (x) =

i
X
r=1

Pr ,

con

Pi = 1.

Al contrario, se FX (x) `e continua e derivabile ovunque tranne al pi`


u in un insieme
numerabile di punti, allora X() `e una v.a. continua, definita in un insieme continuo
X() IR come illustrato in Fig. 2.2b).
Se infine limmagine di attraverso X `e un insieme continuo X() IR, ma FX (x)
ha un insieme numerabile di punti di discontinuit`
a, allora la v.a. si definisce di tipo
misto (v. Fig. 2.2c).
La probabilit`a che una v.a. X() assuma valori in un intervallo (x1 , x2 ] aperto a
sinistra, `e data da:
P (x1 < X x2 ) = FX (x2 ) FX (x1 ).

(2.1)

Infatti si ha: (, x2 ] = (, x1 ] (x1 , x2 ] e poich`e gli intervalli a secondo membro


rappresentano eventi incompatibili ne segue che
P (X x2 ) = FX (x2 ) = P (X x1 ) + P (x1 < X x2 ) = FX (x1 ) + P (x1 < X x2 )

26

VARIABILI ALEATORIE
F (x)

F (x)

F (x)

.75

.25
-2

a) v.a. discreta

b) v.a. continua

.25

.75

c) v.a. mista

Figura 2.2

da cui la (2.1). Se se per`o X() `e continua, la probabilit`a che assuma un valore


assegnato x1 `e nulla, perch`e x1 `e un insieme di misura nulla (cfr. lEsempio 1.5).
Ne segue, tenuto conto della incompatibilit`a degli eventi (X = x1 ) e (x1 < X x2 ),
che per v.a. continue la (2.1) vale anche con il doppio segno di uguaglianza:
P (x1 X x2 ) = P (X = x1 ) + P (x1 < X x2 ) = FX (x2 ) FX (x1 ).
Esempio 2.2

La v.a. definita nellEsempio 2.1 a proposito del lancio ripetuto di una moneta `e
discreta perche pu`o assumere solo i tre valori x1 = 2, x2 = 0, x3 = 2. La sua
funzione di distribuzione vale:

1/4

per
per
FX (x) = P (X x) =

3/4 per

1
per

x < 2
x [2, 0)
x [0, 2)
x2

(2.2)

ed il suo grafico `e riportato in Fig. 2.2a). Un modo pi`


u espressivo per scrivere
questa funzione costante a tratti consiste nel far uso della funzione scalino unitario
o di Heaviside, cos` definita:

U (x x ) =

1 per ogni x x
0 per ogni x < x .

(2.3)

Con essa, la (2.2) diventa


FX (x) = 14 U (x + 2) + 12 U (x) + 41 U (x 2)

(2.20 )

ed ha il vantaggio di mostrare sia i punti di discontinuit`


a di FX (x), sia lampiezza
del gradino in ognuno di tali punti.
Esempio 2.3

2.1 Definizioni

27

La funzione di variabile reale:

FX (x) = 3x2 2x3

per x < 0
per x [0, 1]
per x > 1

(2.4)

`e tale che FX (0) = 0; FX (1) = 1 e la sua derivata FX0 (x) = 6x(1 x) `e non
negativa per ogni x [0, 1]. Essa pu`o dunque essere riguardata come la funzione di
distribuzione di una v.a. X() continua nellintervallo [0, 1], il cui grafico `e riportato
in Fig. 2.2b). /
Esempio 2.4

Lesperimento consiste nellestrazione a caso di un numero x compreso tra 0 e 1.


Definiti i tre eventi composti:
A1 = { : x [0, 14 ] },

A2 = { : x ( 14 , 34 ] },

A3 = { : x ( 34 , 1] }

aventi probabilit`a P (A1 ) = P (A3 ) = 14 ; P (A2 ) = 12 , associamo ad essi la v.a.

se A1
X() = x se A2

1 se A3 .
La sua funzione di distribuzione si calcola come segue:
x<0 :
1
4
3
4

0x
1
4 <x
3
4 <x<1
x1

:
:
:
:

F (x) = P (X < 0) = 0
F (x) = P (X
F (x) = P (X
F (x) = P (X
F (x) = P (X

(2.5)
1
4

0) = P (A1 ) =
0) + P ( 14 < X x) = 14 + (x 14 ) = x
0) + P ( 14 < X 34 ) = 34
0) + P ( 41 < X 34 ) + P (X 1) = 34 +

1
4

= 1.

Questa funzione `e discontinua nei punti x = 0 ed x = 1 e continua altrove, e definisce


una v.a. mista la cui distribuzione di probabilit`a `e indicata nella Fig. 2.2c). /

2.1.2

Densit`
a di probabilit`
a

V.a. continue. Data una v.a. X() continua in X() IR e scelto un insieme
B X(), introduciamo la funzione integrabile fX (x) : IR [0, +) tale che
Z

fX (x)dx = P (X B).

(2.6)

Tale funzione fX (x) si chiama densit`a di probabilit`a o funzione di densit`a di X(),


e il suo integrale misura la probabilit`a che X() abbia valori x B. Per gli assiomi
del Calcolo delle probabilit`a, essa deve soddisfare le seguenti propriet`a:
Z

fX (x) 0;

fX (x)dx = 1

(2.7)

28

VARIABILI ALEATORIE

f (x)
X

P(X

dP(w) = f X ( x )d x

x)

dx

x
Figura 2.3

dove S `e il supporto di fX (x), ossia linsieme S = {x IR : fX (x) > 0}. Per la


definizione di funzione di distribuzione cumulata, si ha
Z x

fX (t)dt = P (X x) = FX (x)

(2.8)

e quindi anche, se B `e lintervallo elementare (x, x + dx]:


P (x < X x + dx) = FX (x + dx) FX (x) =

Z x+dx
x

fX (t)dt
= fX (x)dx.

(2.9)

La quantit`a elementare dP () = dFX (x) = fX (x)dx misura pertanto, a meno di


infinitesimi di ordine superiore, la probabilit`
a elementare che X() assuma valori in
(x, x + dx]. Da quanto esposto discende anche che
fX (x) =

dFX (x)
dx

(2.10)

quasi ovunque in X(), ovvero: la densit`a di probabilit`a `e uguale alla derivata della
funzione di distribuzione di X(), tranne al pi`
u in un insieme di punti di misura
nulla, nei quali FX (x) non `e derivabile.

2.1 Definizioni

29

f X( x)

f X( x)

f X( x)

1/2
1/4

1/4
-2

1 x

a) v.a. discreta

b) v.a. continua

0 1/4

3/4

c) v.a. mista

Figura 2.4

Esempio 2.5

La v.a. continua con funzione di distribuzione definita dalla (2.3) dellEsempio 2.3,
ha come densit`a di probabilit`a la funzione

per x < 0
fX (x) = 6x(1 x) per x [0, 1]

0
per x > 1,
che `e un arco di parabola su un supporto di ampiezza unitaria, come mostrato in
Fig. 2.4b). /
V.a. discrete e miste. Affinche le formule precedenti continuino a valere in presenza di v.a. discrete o miste, `e necessario utilizzare la funzione impulsiva o funzione
delta di Dirac. Si tratta della funzione generalizzata cos` definita:

x
Z 6= x : (x x ) = 0 ,

(x x )dx = 1 ,

(x x ) `e infinita per x = 0
Z

(x)(x x )dx = (x )

dove (x) `e una arbitraria funzione di x, continua per x = x . La primitiva di


(x x ) che si annulla per x `e la funzione gradino unitario definita nella
(2.3):

U (x x ) =

Z x

( x )d.

Per mezzo della funzione impulsiva, la densit`a di una v.a. discreta che assume valori
in x1 , x2 , . . . con probabilit`a pi , i = 1, 2, . . . si pu`o esprimere nel modo seguente:
fX (x) =

X
i

pi (x xi )

con

X
i

pi = 1

(2.11)

30

VARIABILI ALEATORIE

e si rappresenta graficamente con una successione di impulsi come indicato in Fig.


2.4a). Essa mostra la densit`a di probabilit`a della v.a. che abbiamo associato al
lancio ripetuto di una moneta, che si ricava derivando la (2.2) e vale
fX (x) = 14 (x + 2) + 21 (x) + 14 (x 2).

(2.12)

La v.a. mista considerata nellEsempio 2.4 ha invece una densit`a che si pu`o esprimere
come segue:
fX (x) = U (x 41 ) U (x 34 ) + 14 (x) + 41 (x 1)
ed `e mostrata in Fig. 2.4c). La densit`a (2.11) di una v.a. discreta si scrive anche
spesso nella seguente forma semplificata:
fX (xi ) = pi ,

i = 1, 2, . . . ;

fX (x) = 0,

x 6= xi

che non richiede lintroduzione della funzione impulsiva.

2.2

Momenti di variabili aleatorie

Si chiama momento di ordine q di una v.a. reale X(), dotata di densit`a fX (x), la
quantit`a
Z
Z
E{X q } =

xq fX (x)dx =

X q ()P ()d

(2.13)

(per q intero positivo) se esiste, finito, lintegrale |x|q fX (x)dx. Se X() `e una
v.a. discreta, tenuto conto della (2.11) e della propriet`a integrale della funzione
impulsiva, i suoi momenti valgono:
q

E{X } =

pi

xq (x xi )dx =

pi xqi .

(2.14)

I momenti sono importanti parametri indicatori di certe propriet`a di X(). Poiche


fX (x) 0, i momenti di ordine pari, se esistono, sono sempre non negativi. I pi`
u
noti sono senza dubbio quelli per q = 1 e q = 2.
Si chiama valor medio o valore atteso o ancora speranza matematica di X() il
momento del primo ordine:
E{X} =

x fX (x)dx

(2.15)

indicato anche con la notazione mX , che per v.a. discrete vale:


E{X} =

X
i

pi xi ,

i = 1, 2, . . . .

(2.150 )

2.2 Momenti di variabili aleatorie

31

Il valor medio `e un parametro di posizione, e si pu`o interpretare come il baricentro


della distribuzione di probabilit`
a definita dalla densit`
a fX (x). Lintegrale (2.15) che
lo definisce pu`o essere esteso al supporto S di fX (x), se questo `e diverso da IR. Inoltre, se il supporto `e limitato: S = [a, b], E{X} pu`o essere determinato agevolmente
anche se, invece della densit`a, si conosce la funzione di distribuzione FX (x). Infatti,
calcolando per parti lintegrale e tenendo conto che FX (a) = 0, FX (b) = 1, si ricava:
E{X} =

Z b
a

xfX (x)dx = [xFX (x)]ba

Z b
a

Fx (x)dx = b

Z b
a

FX (x)dx.

(2.15)

Osserviamo ancora che il valor medio ha propriet`a di linearit`a analoghe a quelle


dellintegrale con cui `e definito: date n v.a. X1 (), .., Xn (), la media di una loro
combinazione lineare `e uguale alla combinazione lineare delle medie:
E{a1 X1 + . . . + an Xn } = a1 E{X1 } + . . . . + an E{Xn }.
Spesso i momenti di ordine superiore al primo vengono calcolati proprio rispetto al
valor medio mx di X(), operando una traslazione x0 = x mx che individua lo
scarto dalla media. Si definiscono cos` i momenti centrali di ordine q = 2, 3, ..n:
E{(X mX )q } =

(x mX )q fX (x)dx

il pi`
u importante dei quali `e quello di ordine 2, chiamato varianza di X() e indicato
2 :
con X
2
X

= E{(X mX ) } =

(x mX )2 fX (x)dx.

(2.16)

Per v.a. discrete la varianza `e definita come la somma:


2
X
=

pi (xi mX )2 .

2.160

i
2
X

Le dimensioni di
sono ovviamente diverse da quelle della v.a. cui si riferisce;
anche per questo motivo `e spesso usata la sua radice quadrata positiva X , che
`e chiamata scarto quadratico medio o deviazione standard, la quale conserva le
dimensioni di X().
La varianza si pu`o interpretare come il momento dinerzia della distribuzione di
probabilit`
a, rispetto alla retta baricentrica x = mX e, insieme con la deviazione
standard, `e un parametro che misura la dispersione della distribuzione rispetto al
suo valor medio. Dalla sua definizione si ricava:
2
X
=

(x2 2xmX + m2X ) fX (x)dx = E{X 2 } 2mX mX + m2X

32

VARIABILI ALEATORIE

ovvero:
2
X
= E{X 2 } E 2 {X}

dove E{X 2 } `e il momento (non centrale!) del secondo ordine di X(). E poich`e
2 0, ovvero
un momento di ordine pari non pu`o essere negativo, si ha sempre X
2
2
anche: E{X } E {X}.
Il significato della varianza `e ben illustrato dalla seguente
Diseguaglianza di Tchebyshev. Si pu`o dimostrare che data una v.a. X() con varianza finita, per ogni reale k > 0 risulta:
2
IP(|X mX | k) X
/k 2 .

Questa diseguaglianza mostra che la probabilit`a che X() assuma valori al di fuori di
un intorno di raggio k del suo valor medio, non supera il rapporto x2 /k 2 . Quindi, al
2 aumenta la probabilit`
decrescere di X
a che tutti i valori di X() siano concentrati
attorno al suo valor medio.
Una v.a. X() pu`o essere priva di alcuni suoi momenti, o anche di tutti: infatti,
perche esistano E{X q } con q = 1, 2, . . . devono esistere finiti gli integrali
R
|x|q fX (x)dx. Se poi esistono questi momenti, alcuni di essi possono essere nulli.
Ad esempio, tutte le v.a. che hanno una densit`a di probabilit`a simmetrica, tale cioe
che fX (x) `e una funzione pari, hanno momenti di ordine dispari che sono nulli:
fX (x) = fX (x)

E{X q } = 0 per q = 1, 3, 5, . . .

perche definiti dallintegrale di una funzione dispari; e ci`o vale anche per le v.a.
discrete, se definite da una successione simmetrica di impulsi.
Daltra parte, accertata lesistenza dei momenti finiti di una v.a., non `e assicurato
che essi individuino la sua densita di probabilit`a fX (x). Infatti, possono esistere
variabili aleatorie che hanno tutti i loro momenti uguali, ma differenti distribuzioni di
probabilit`a. Perche una successione {E{X q }} di momenti individui univocamente
una densit`a di probabilit`a, devono essere soddisfatte ulteriori condizioni. Una di
queste `e la seguente, che citiamo senza dimostrazione.
Condizione sufficiente per lunicit`
a di fX (x). Data una successione di momenti
finiti di una v.a. X(), se esiste un k 6= 0 tale che
E{X 2q }

k 2q
0 per q +
(2q)!

(2.17)

allora la successione E{X q }, q = 1, 2, . . . individua univocamente la densit`


a di probabilit`
a di X().

2.3 Distribuzioni notevoli in Probabilit`


a e Statistica

33

Esempio 2.6

La v.a. discreta definita nellEsempio 2.1, che ha densit`a data dalla (2.12), ha
momenti di ordine dispari che sono nulli (infatti fX (x) `e simmetrica), e quelli di
ordine pari valgono:
E{X q } =

X
i

1
1
pi xqi = (2)q + 2q = 2(q1) ,
4
4

q = 2, 4, 6, . . .

La successione di questi momenti individua univocamente la densit`a (2.12), perch`e


`e soddisfatta la condizione (2.17) con k = 1/2:
E{X 2q }

2.3
2.3.1

(1/2)2q
22q (1/2)2q
1
=
=
0 per q +. /
(2q)!
2 (2q)!
2 (2q)!

Distribuzioni notevoli in Probabilit`


a e Statistica
Distribuzione uniforme

E la generalizzazione della legge di eventi equiprobabili gi`a esaminata nellEsempio


1.5. Una v.a. X() uniformemente distribuita nellintervallo [a, b] ha densit`a
fX (x) =

1
per a x b ;
ba

fX (x) = 0

altrove.

(2.18)

Si noti che fX (x) soddisfa entrambe le condizioni (2.7) richieste ad una funzione
densit`a di probabilit`a. La funzione di distribuzione cumulata `e

FX (x) =

per x < a
per a x b
per x > b

(x a)/(b a)

fX( x )

FX ( x )
1

1
b-a

Figura 2.5 - Distribuzione uniforme

34

VARIABILI ALEATORIE

ed i momenti valgono
E{X q } =

Z b
a

xq
bq+1 aq+1
dx =
.
ba
(b a)(q + 1)

In particolare, si ha subito che il valor medio di X() `e ovviamente:


mX =
e la varianza vale:
2
X
=

2.3.2

a+b
2

(b a)2
a2 + ab + b2
m2X =
.
3
12

Distribuzione normale

Una v.a. reale X() ha una distribuzione normale o gaussiana se la sua densit`a vale
"

(x mX )2
1
exp
,
fX (x) =
2
2X
2X

x IR

(2.19)

2 > 0 sono rispettivamente il valor medio e la varianza


dove i parametri mX IR e X
2 ), ha
di X(). La distribuzione normale, che si indica con la notazione N (mX , X
la seguente funzione di distribuzione:

1
FX (x) =
2X

Z x

"

x mX
(x mX )2
1
exp
dx = + erf
2
2
X
2X

(2.20)

dove erf (z) `e la funzione degli errori:


1
erf (z) =
2

Z z
0

t2

e 2 dt,

soddisfacente tra laltro le propriet`a:


erf (z) = erf (z) ;

lim erf (z) = 1/2

e nota quantitativamente attraverso i suoi valori tabulati. Ne segue che FX (x) `e


monotona crescente tra 0 e 1, e vale 1/2 per x = mX perche la densit`a (2.19) `e
simmetrica rispetto al suo valor medio (v. Fig. 2.6).
La v.a. Z() che `e distribuita con legge normale N (0, 1), ovvero ha media nulla e
varianza unitaria, prende il nome di normale standard. Si pu`o facilmente provare
(con i metodi che saranno esposti nel Capitolo 4) che la sua densit`a si ricava dalla
(2.19) mediante il cambiamento di variabile:
z=

x mX
,
X

(2.21)

2.3 Distribuzioni notevoli in Probabilit`


a e Statistica

35

1
f ( x)
X

FX ( x)

sX2 = 0.05

sX2 = 0.05

0.1
0.2

0.1

0.5

0.2

0.3

0.3

mX

mX

Figura 2.6 - Distribuzioni normali

il che significa che la densit`a e la funzione di distribuzione di Z() sono:


z2
1
fZ (z) = e 2 ,
2

FZ (z) =

1
+ erf (z).
2

(2.22)

Si noti che nella (2.21) X `e la deviazione standard di X(), e quindi z `e un numero


puro. Poiche erf (z) si ricava direttamente dalla tabella dei valori della funzione
degli errori, nel calcolo di misure di probabilit`a riguardanti distribuzioni normali
con media e varianza note, `e spesso assai pi`
u comodo effettuare la trasformazione
(2.21) e operare sulla variabile standardizzata Z() che ha legge N (0, 1). Questa
procedura `e usuale nei metodi statistici che saranno esposti in un prossimo Capitolo.
Ad esempio, dalla tabella di erf (z) che `e riportata in Appendice si ricava subito:
P (|X mX | X ) = P (|Z| 1) = FZ (1) FZ (1) = 2 erf (1) ' 0.6826
P (|X mX | 2.15 X ) = P (|Z| 2.15) = 2 erf (2.15) ' 2 0.4842 = 0.9684
P (|X mX | 3X ) = P (|Z| 3) = FZ (3) FZ (3) = 2 erf (3) ' 0.9974.
2 ) assume
Da questo calcolo si deduce, tra laltro, che ogni v.a. normale N (mX , X
valori compresi tra mX X e mX +X con probabilit`a che `e circa uguale a 0.6826, e
la probabilit`a sale a 0.9974 (avvicinandosi a quella dellevento certo) se si considera
lintervallo [mX 3X , mX + 3X ].

La grande importanza che la legge di distribuzione normale riveste nei metodi della
Statistica matematica `e dovuta al seguente Teorema, che trover`
a svariate applicazioni nelle stime campionarie di cui ci occuperemo nei Capitoli 7,8 e 9.

36

VARIABILI ALEATORIE

Teorema Limite Centrale


Si abbia una successione {Xi ()}, i IN+ di variabili aleatorie statisticamente
indipendenti, con uguali densit`a di probabilit`a fi (xi ) aventi valor medio E{Xi } =
e varianza i2 = 2 finite. Allora la densit`a di probabilit`a della loro somma:
Sn () =

n
X

Xi ()

i=1

converge, per n +, alla distribuzione normale N (n, n 2 ).


Sulla base di questo Teorema, `e possibile usare la legge normale per descrivere in termini probabilistici tutti quei fenomeni fisici che si possono considerare come prodotti
dalla sovrapposizione di un elevato numero di cause statisticamente indipendenti ed
aventi la medesima natura aleatoria. Nella Statistica, il teorema `e indispensabile
per definire le propriet`a aleatorie dei valori medi di campioni estratti casualmente
da una popolazione.

2.3.3

Distribuzione Gamma

Una v.a. che assume valori in IR+ `e distribuita con legge Gamma di parametri e
> 0 se ha densit`a di probabilit`a
fX (x) =

x 1
e
x
,
()

x 0.

(2.23)

() `e la funzione speciale cos` definita:


() =

Z
0

et t1 dt,

(2.24)

le cui propriet`a sono definite nei testi che riportano i suoi valori tabulati. Ricordiamo
in particolare che

( 12 ) =

( + 1) = () = !
per
IN+
( + 12 ) = 1 3 5 (2 1) /2 .
Questa distribuzione ha valor medio e varianza che valgono:
mX =

2
X
=

,
2

e se 1 ha un massimo per x = ( 1)/ (v Fig. 2.7).

2.3 Distribuzioni notevoli in Probabilit`


a e Statistica

37

f ( x)
X

l =4
a = 0.5

a = 1 : esponenziale
2

a=2
a=3

Figura 2.7 - Distribuzioni Gamma ed esponenziale (per

2.3.4

= 1)

Distribuzione esponenziale

Per = 1, la distribuzione Gamma si riduce a quella esponenziale definita dalla


densit`a
fX (x) = ex ,
> 0; x 0.
(2.25)
La sua funzione di distribuzione cumulata `e
FX (x) = 1 ex ,

x0

(2.26)

ed ha momenti finiti di qualsiasi ordine, che valgono


q = 1, 2, . . . :

E{X q } =

Z
0

xq ex dx =

1
q

Z
0

tq et dt =

q!
q

poiche lultimo integrale `e la funzione Gamma (q + 1) = q! definita con la (2.34).


In particolare, valor medio e varianza valgono
mX =

1
,

2
X
= E{X 2 } m2X =

1
.
2

Si noti che la successione dei momenti di X() definisce univocamente la densit`a


esponenziale: infatti essi soddisfano la condizione (2.17) per ogni reale k (0, ):
k 2q
2q)! k 2q
E{X }
= 2q
=
(2q)!

(2q)!
2q

2q

0 per q 0 : 0 < k < .

La distribuzione esponenziale `e assai utilizzata negli studi di affidabilit`a (di un dispositivo o di un materiale) con tasso di guasto costante . Se X() `e il tempo

38

VARIABILI ALEATORIE

di attesa perche si verifichi il guasto, laffidabilit`a del dispositivo, definita come la


probabilit`a di non subire guasti nellintervallo di tempo (0, t), `e data da
R(t) = 1 FX (t) = et =

1
fX (t).

La distribuzione esponenziale dei tempi di attesa ha una notevole propriet`a: per ogni
t, s IR la probabilit`a di attendere un evento per un tempo t + s, sapendo di aver
gi`a atteso il tempo s, `e uguale alla probabilit`a di attendere levento per una durata
di tempo t. Infatti, ricordando la definizione (1.2) di probabilit`a condizionata, si ha
P (X > t + s | X > s) =

P ({X > t + s} {X > s})


P (X > t + s)
=
=
P (X > s)
P (X > s)
1 FX (t + s)
=
= et = 1 FX (t) = P (X > t).
1 FX (s)

Si dice perci`o che la legge esponenziale `e senza memoria, nel senso che il tempo
s gi`a trascorso non influenza la probabilit`a che levento si verifichi in qualunque
istante successivo allistante s in cui `e iniziata losservazione.

2.3.5

Distribuzione di Maxwell

Si dimostrer`a nel Capitolo IV che il vettore V () avente come componenti cartesiane


ortogonali tre variabili aleatorie statisticamente indipendenti e con uguale distribuzione normale N (0, 2 ), `e una v.a. con densit`a di probabilit`a
r

fV (v) =

2 v2
v2
exp

3
2 2

v 0.

(2.27)

La densit`a (2.27) definisce la distribuzione di Maxwell, che ha valor medio e varianza


uguali a
q
E{V } = 2 2/ ;

V2 = 2 (3 8/)

(2.28)

dove 2 `e, come detto, la varianza delle componenti di V (). Si osservi anche che
fV (v)
non `e simmetrica rispetto al suo valor medio: infatti ha un massimo per
v = 2 6= E{V }.
La distribuzione di Maxwell `e di grande importanza nella Meccanica statistica,
perche `e il modello probabilistico della velocit`a di agitazione termica delle molecole
di un gas in equilibrio termodinamico. Se indichiamo con m la massa molecolare,
con T la sua temperatura e con k la costante di Boltzmann, allora risulta
2 =

kT
,
m

2.3 Distribuzioni notevoli in Probabilit`


a e Statistica

39

e il valor medio dellenergia cinetica T della molecola del gas in equilibrio `e uguale
a E{T } = 21 mE{V 2 }. Ma sostituendo il valore di 2 nelle (2.28) si ottiene:
kT
E{V } =
m

8
3

8kT
3kT
=
,
m
m

da cui segue il noto risultato che nel modello maxwelliano le molecole di gas in
equilibrio possiedono una energia cinetica media che vale
3
E{T } = kT.
2

f V (v )
s =1

s=2

s =3
0

Figura 2.8 - Distribuzioni di Maxwell

Assai simile alla maxwelliana `e la distribuzione di Rayleigh, riguardante le propriet`a probabilistiche di un vettore bidimensionale
q

V () =

X12 () + X22 ()

le cui componenti, statisticamente indipendenti, hanno legge normale N (0, 2 ). La


sua densit`a di probabilit`a `e la funzione

v
v2
fV (v) = 2 exp 2

v 0,

con valor medio e varianza che valgono:


q

E{V } = /2,

2.3.6

V2 = 2 (2 /2).

Distribuzione t-Student

La v.a. X() che pu`o assumere qualsiasi valore x IR ha una distribuzione chiamata
t-Student con n gradi di libert`a, n = 1, 2, 3, . . . (dallo pseudonimo dello statistico

40

VARIABILI ALEATORIE

britannico W.S. Gosset) se la sua densit`a di probabilit`a vale:

n+1

! n+1

2
x2
2
fX (x) =
1+

n
n
n
2

(2.29)

dove () `e la funzione Gamma (2.24).


Il suo valor medio `e nullo: E{X} = 0 per ogni n e la sua varianza, che `e definita
solo per n > 2, vale
n
2
X
=
.
n2
f (x )
X

N (0, 1)

n=6
n=4

n=2

x
0
Figura 2.9 - Confronto tra distribuzioni t-Student e Normale standard

Per n = 1, la distribuzione t-Student si riduce alla distribuzione di Cauchy:


fX (x) =

1
,
(1 + x2 )

che ha valor medio nullo ma `e priva dei momenti di ordine superiore, perche lintegrale
(2.13) che li definisce diverge per q 2.
Poiche n `e intero, il coefficiente di normalizzazione nella (2.29) si determina facilmente utilizzando le propriet`a della funzione Gamma, in modo che per n pari:
n = 2k, k = 1, 2, . . . la densit`a t-Student si pu`o riscrivere nella forma:
!(k+ 1 )

2
1 3 5 (2k 1)
x2

fX (x) =
1+
2k
2k 2k(k 1)!

(2.290 )

e per n dispari: n = 2k + 1, k = 1, 2, . . . si ha:

x2
2k k!

1+
fX (x) =
2k + 1
1 3 5 (2k 1) 2k + 1

!(k+1)

(2.2900 )

2.3 Distribuzioni notevoli in Probabilit`


a e Statistica

41

La distribuzione t-Student ha questa interessante propriet`a: per n essa tende


alla distribuzione normale standard N (0, 1), ma ha una dispersione pi`
u elevata per
piccoli valori di n > 2. Per questo motivo, essa trova frequenti applicazioni in
Statistica, quando la stima dei valori medi di una popolazione `e da effettuare su
piccoli campioni (v. Capitolo 8).

2.3.7

Distribuzione Chi-quadrato

Una v.a. che assume valori x IR+ ha una distribuzione Chi-quadrato con n gradi di
libert`a, che si indica con il simbolo 2n , se la sua densit`a di probabilit`a `e la funzione
n

x 2 1 e 2
fX (x) = n/2
,
2
(n/2)

x0

(2.30)

0.25
n=4

fX ( x )

n=6
n = 10

20

Figura 2.10 - Distribuzioni Chi-quadrato

Essa si ricava anche come un caso particolare della distribuzione Gamma, ponendo
nella (2.23) = n/2, = 1/2. Ha valor medio e varianza che valgono
E{X} = n,

2
X
= 2n,

e si pu`o dimostrare che `e la distribuzione di una v.a. definita come la somma


dei quadrati di n variabili aleatorie indipendenti Xi () aventi distribuzioni normali
standard:
n
2n () =

Xi2 (),

E{Xi } = 0,

2
X
= 1.
i

i=1

Per questo motivo, `e assai utile in Statistica per la valutazione delle varianze di
campioni estratti da una popolazione (v. Capitolo 8).
Per una sua notevole propriet`a asintotica, al crescere di n la distribuzione Chiquadrato tende ad assumere una forma a campana simmetrica rispetto al suo

42

VARIABILI ALEATORIE

valor medio, e si pu`o dimostrare che per n >> 1 `e ben approssimata da una legge
normale N (n, 2n) con media n e varianza 2n.

2.3.8

Distribuzione F di Fisher

Unaltra distribuzione di frequente uso nei test statistici (v. Capitolo 9) `e quella di
una v.a. X() definita come il rapporto:
X() =

n2m ()
m2n ()

tra due variabili aleatorie con distribuzione Chi-quadrato ad m e n gradi di libert`a


(e divise per il loro grado di libert`a). Questa distribuzione, che si indica con la
notazione F (m, n) ed `e anche chiamata di Snedecor, ha densit`a di probabilit`a

fX (x) =

m
n

m
2

m+n
m

x( 2 1)
2

m+m ,
n
m
2
mx

1+
2
2
n

x0

(2.31)

f X( x )

n = 4, m = 2
n = 6, m = 4
n = 8, m = 6

Figura 2.11 - Distribuzioni

F (m, n) di Fisher

dove () `e sempre la funzione Gamma (2.24). Il suo valor medio dipende solo dal
parametro n, vale
n
E{X} =
se n > 2
n2
e quindi tende a 1 per n ; la varianza vale invece
s2X =

2n2 (m + n 2)
m(n 2)2 (n 4)

se n > 4.

2.3 Distribuzioni notevoli in Probabilit`


a e Statistica

2.3.9

43

Distribuzione binomiale

Proseguiamo lillustrazione delle leggi probabilistiche pi`


u note, considerando ora due
importanti distribuzioni discrete, la binomiale e quella di Poisson, il cui interesse `e
strettamente legato allo studio degli esiti di una successione di prove ripetute ed
indipendenti di un esperimento casuale, la cui formulazione probabilistica `e dovuta
a Bernoulli. Ne esaminiamo ora i risultati fondamentali.
Consideriamo un esperimento casuale i cui esiti siano rappresentati da due soli eventi,
che definiremo con successo (S) o fallimento (F) della prova effettuata. Supponiamo
inoltre che n prove di tale esperimento siano ripetute in modo indipendente, vale
a dire in modo tale che lesito di una prova sia indipendente da qualsiasi prefissata
sequenza di esiti nelle prove precedenti. Indichiamo con p la probabilit`a di successo
e con q = 1 p la probabilit`a del fallimento. Poich`e le prove sono statisticamente
indipendenti, la probabilit`a di una assegnata sequenza di successi e fallimenti `e data
dal prodotto delle probabilit`a degli eventi S ed F . Ne segue che una sequenza di
n prove, contenente k successi e n k fallimenti, ha probabilit`a pk q nk . Daltra
parte, il numero di sequenze costituite da n esiti e contenenti k successi `e uguale
al
numero di combinazioni di classe k di n elementi, dato dal coefficiente binomiale
n
e statisticamente indipendente dalle altre, per cui
k . Inoltre, ciascuna sequenza `
la probabilit`a Pn,k di ottenere, in n prove, k successi e n-k fallimenti `e data dalla
formula di Bernoulli:
!
n k nk
Pn,k =
p q
(2.32)
k
Se poi il successo e il fallimento sono equiprobabili, allora si ha p = q =
formula diventa:
!
n 1
Pn,k =
,
k 2n

1
2,

e la
2.420

in cui la probabilit`a in oggetto `e il rapporto tra i casi favorevoli e i casi possibili


definiti in uno spazio campione costituito da 2n eventi equiprobabili.
In modo analogo, la probabilit`a Pn (k1 k k2 ) che in n prove il numero di successi
sia compreso tra k1 e k2 si valuta considerando lunione degli eventi: Ek = {S si
presenta k volte} con k1 k k2 , ciascuno dei quali ha probabilit`a espressa dalla
(2.42). Poich`e gli eventi Ek sono incompatibili a due a due, la probabilit`a della loro
unione vale, per il secondo assioma:
Pn (k1 k k2 ) =

k2
X
k=k1

P (Ek ) =

k2
X
k=k1

n k nk
p q
.
k

(2.33)

44

VARIABILI ALEATORIE

Esempio 2.7

1) Si lancia per dieci volte una moneta. In ogni lancio levento testa e levento
croce sono equiprobabili, per cui la probabilit`a che esca testa per cinque volte
vale, per la (2.42):

P10,5 =

10
5

(1/210 ) =

10!
= 0.246.
5!(10 5)! 210

Per determinare la probabilit`a che testa esca non pi`


u di cinque volte, bisogna
invece considerare come successi anche tutte le sequenze che contengono k =
0, 1, .., 4 volte testa. Ne segue che la probabilit`a totale `e data dalla (2.33) e vale
10

P10,k5 = (1/2 )

5
X
k=0

10
k

5
10! X
1
= 10
= 0.623. /
2 k=0 k!(10 k)!

2) Da unurna contenente 5 palline bianche e 15 nere si fanno n estrazioni, con


reimbussolamento della pallina estratta in ogni prova. La probabilit`a di estrarre
tutte le palline bianche si determina considerando che in ogni prova, la probabilit`a
di estrarre una pallina bianca vale p = 1/4, e quella di estrarre una pallina nera `e
q = 3/4. Applicando la (2.32) si ottiene:

Pn,5 =

n
5

(1/4)5 (3/4)n5 =

n
5

n5
3

4n

Dunque, dopo n = 5 estrazioni la probabilit`a cercata vale 1/45 = 9.76 104 ; dopo
6 estrazioni cresce al valore 6 3/46 = 4.39 103 , ecc. /
Primo principio delle prove ripetute.
Per la formula di Bernoulli la probabilit`a di non avere alcun successo dopo n prove
di un esperimento casuale in cui p > 0 vale
!

Pn,0 =

n 0 n0
p q
= qn
0

e quella di ottenere almeno un successo `e Pn,k>0 = 1 q n . Poich`e 0 < q < 1,


ripetendo allinfinito le prove si ottiene
lim Pn,k>0 = 1

ovvero: continuando le prove allinfinito, prima o poi si avr`


a certamente almeno un
successo.

2.3 Distribuzioni notevoli in Probabilit`


a e Statistica

45

Secondo principio delle prove ripetute.


Chiediamoci ora quale `e il numero medio delle prove che si dovranno eseguire per
ottenere il primo successo. Definiamo a tale scopo il tempo di attesa T (), o numero dordine delle prima prova in cui si verifica il successo. T () `e una variabile
aleatoria discreta, che assume valori interi positivi k = 1, 2, .., n,.. aventi ciascuno la
probabilit`a Pk = pq k1 con cui si realizza una sequenza di (k 1) fallimenti seguiti
dal primo successo. Se si ripetono le prove allinfinito, e se p > 0, si sa per il Primo
P
principio che le Pk soddisfano la condizione k Pk = 1. Dalla definizione di valor
medio di T () si ricava allora

E{T } =

X
k=1

kPk =

kpqk1 = p +

k=1

=p+q

kpqk1 = p + q

k=2

(r + 1)pq r1 =

r=1
r1

rpq

r=1

Pr

= p + q(E{T } + 1).

r=1

Da questa si ottiene: p E{T } = p + q = 1, e quindi


1
E{T } = .
p

(2.34)

Resta cos provato il seguente risultato: il numero medio delle prove che occorre
eseguire per ottenere il primo successo `e il reciproco della probabilita di successo.
La variabile aleatoria discreta X() che assume un numero finito di valori x =
k = 0, 1, 2.., n con una probabilita data dalla (2.32) si dice dotata di distribuzione
binomiale ed `e indicata con la notazione B(n, p). La sua densit`a di probabilit`a `e la
successione di n + 1 impulsi:

fX (x) =

n
X
k=0

n k nk
p q
(x k),
k

p+q =1

e la corrispondente funzione di distribuzione `e la funzione a gradini

FX (x) =

n
X
k=0

n k nk
p q
U (x k)
k

(2.35)

46

VARIABILI ALEATORIE

fX ( x )

N (10, 6)

0.1

10

20

15

Figura 2.12 - Approssimazione di una distribuzione binomiale con

n = 25, p = 0.4.

dove U (x k) `e la funzione di Heaviside (2.3), primitiva della funzione impulsiva.


Il valor medio della distribuzione binomiale vale:
Z

E{x} =

n
X
k=0

n
X
n k nk
n k nk
p q
(x k)dx =
k
p q
=
k
k
k=0

n
X

n1
X n1
k(n 1)! k1 nk
= np
p q
= np
pr q n1r = np(p + q)n1 = np
k!(n

k)!
r
r=0
k=1
2 = npq.
e in modo analogo si pu`o calcolare che la sua varianza `e X

Se n = 1, la (2.45) si riduce alla distribuzione di Bernoulli, la cui densit`a


fX (x) = qx + p(x 1)
`e semplicemente la somma di due impulsi che rappresentano la probabilit`a di avere
un fallimento o un successo in una singola prova dellesperimento casuale.
Lapplicazione delle formule (2.32),(2.33) pu`o comportare difficolt`a pratiche per valori elevati di n e di k. Esistono per`o formule asintotiche che permettono un rapido
calcolo approssimato di Pn,k e Pn (k1 k k2 ), con una accuratezza che cresce con
il numero n delle prove. Queste formule approssimate si basano su due teoremi, che
ora enunciamo senza dimostrazione.
Teorema locale di asintoticit`a (di Moivre - Laplace)
Se p > 0 `e la probabilit`a di un successo, la probabilit`a che in n prove indipendenti
si abbiano k successi `e tale che:
"

lim Pn,k

1
(k np)2
=
exp
2npq
2npq

(2.36)

2.3 Distribuzioni notevoli in Probabilit`


a e Statistica

47

uniformemente per tutti gli interi k per i quali il rapporto z = (k np)/npq assume
valori in un intervallo finito.
Il secondo membro della (2.36) `e la densit`a di una v.a. normale N (np, npq) con media
np e varianza npq. Dunque il Teorema ci assicura che se n e npq sono sufficientemente
grandi, la distribuzione binomiale `e approssimabile nel continuo dalla legge normale:
B(n, p) N (np, npq)

(2.360 )

n, npq >> 1.

e a parit`a di n lapprossimazione `e migliore quando p = q = 0.5. La Fig. 2.12


mostra il confronto tra la distribuzione binomiale con n = 25, p = 0.4 e quella
normale definita dalla densit`a (2.19) con mX = np = 10, x2 = npq = 6. La
binomiale B(25, 0.4) non `e simmetrica rispetto al suo valor medio, perche ci`o si
verifica solo se p = q = 12 . Inoltre, n `e ben lontano dai valori elevati che garantiscono
una buona approssimazione della probabilit`a Pn,k . Tuttavia, un controllo numerico
mostra che il massimo valore assoluto della differenza tra Pn,k e i valori fX (k) della
densit`a normale per x = k (che si verifica per k = 11) rimane comunque inferiore a
3.34 103 .
Teorema integrale di asintoticit`a
Se p > 0 `e la probabilit`a di un successo, la probabilit`a che in n prove indipendenti
il numero dei successi sia compreso tra k1 e k2 soddisfa la condizione
1
lim Pn (k1 k k2 ) =
n
2npq

Z k2
k1

"

(x np)2
dx
exp
2npq

(2.37)

uniformemente in [k1 , k2 ].
Usando la funzione degli errori erf (z) per il calcolo dellintegrale definito, la (2.37)
mostra che se n `e grande e npq >> 1 la probabilit`a in oggetto si pu`o calcolare con
buona approssimazione mediante la formula asintotica:
"

"

k2 np
k1 np
Pn (k1 k k2 )
erf
.
= erf
npq
npq

(2.38)

Applichiamo questultimo teorema per calcolare la probabilit`a che, dato un > 0


piccolo a piacere, sia verificata la diseguaglianza: |k/n p| . Per la (2.38) con n
grande si ha
P {|k/n p| } = Pn [n(p
q ) k n(p +
q )]
q

= erf ( n/pq) erf ( n/pq) = 2erf ( n/pq) (2.39)


e passando al limite per n :
q

lim P {|k/n p| } = 2 lim erf ( n/pq) = 1.

48

VARIABILI ALEATORIE

Il risultato ottenuto esprime limportante


Legge dei grandi numeri (o Teorema di Bernoulli) :
Dato un > 0 piccolo a piacere, la probabilit`a dellevento {|k/n p| } tende ad
1 col crescere del numero delle prove indipendenti.
In altre parole, se il numero delle prove `e sufficientemente grande, allora il rapporto
tra il numero dei successi e quello delle prove `e quasi certamente prossimo alla
probabilit`a p che si attribuisce al singolo successo.
Allo stesso tempo, bisogna anche tenere conto che se X() ha una distribuzione
binomiale, lo scarto assoluto V () = X np tra il valore di X e il suo valore atteso
`e una variabile casuale che al crescere di n tende alla Normale con media nulla e
varianza
2
V2 = E{(V 0)2 } = E{(X np)2 } = X
= npq.
Dunque, a parit`a di p la dispersione degli esiti delle prove rispetto al loro valore
atteso cresce con il numero delle prove effettuate. E questa circostanza che pu`o
causare la rovina del giocatore che dopo ogni perdita decide di ripetere la stessa
scommessa nella speranza che, prima o poi, il prossimo esito gli sia favorevole.
Esempio 2.8

1. Sapendo che la probabilit`a che un certo prodotto sia difettoso `e p = 0.005, si


vuole calcolare la probabilit`a che tra 10.000 esemplari di questo prodotto, scelti a
caso, ve ne siano 40 difettosi. Essa `e data dalla (2.32) con n = 10.000, k = 40, e
il suo valore `e ben approssimato dalla formula asintotica (2.36). Tenuto conto che
np = 50, npq = 49.75 si ottiene:
"

Pn,k

(40 50)2
1

exp
= 0.0207.
=
2 49.75
49.75 2

Il valore esatto alla quarta cifra decimale, calcolato con la (2.32), `e invece: Pn.k =
0.0197. Per calcolare la probabilit`a che tra i 10.000 esemplari scelti a caso ve ne siano
non pi`
u di 70 che risultano difettosi, bisogna valutare Pn (k 70) e per ottenerne
una buona approssimazione basta applicare la (2.38) assumendo k1 = 0 e k2 = 70.
Si ricava:

P (k 70)
= erf

70 np
erf

npq

np

npq

= erf (2.84) erf (7.09) = 0.9975.

2. Si lancia n volte una moneta. Come sappiamo, levento testa ha probabilit`a


p = 1/2. Definiamo ora levento:
E = {|k/n 1/2| 0.05}

2.3 Distribuzioni notevoli in Probabilit`


a e Statistica

49

il quale indica che il numero k di teste risultante da n prove `e compreso tra 0.45n
e 0.55n. Si chiede: quante volte dobbiamo lanciare la moneta affinche la probabilit`a
di E non sia inferiore a 0.997? Dobbiamo valutare n in modo che sia verificata la
diseguaglianza: P (E) 0.997. Applicando la (2.39) con = 0.05 si ha:
q

P (E)
= 2erf (0.05 n/pq) = 2erf (0.05 4n) 0.997

per cui n deve soddisfare la condizione: erf (0.05 4n) 0.4985. Dai valori tabulati
della funzione degli errori si desume che, arrotondando per eccesso, deve essere:

0.05 4n > 2.95, da cui: n > 871. /

f ( x)
X

l =5
l = 1.5
0.2

0.2

0 1 2 3 4 5 6

10

Figura 2.13 - Distribuzioni di Poisson

2.3.10

Distribuzione di Poisson

Si `e detto che lapprossimazione di Pn,k fornita dalla formula asintotica (2.36) peggiora al descescere del prodotto npq. Se allora p `e molto piccolo, bisogna che n sia
comunque cos grande da rendere soddisfatta la condizione: npq
= np >> 1. Ci`o si
verifica per lappunto nel caso dellEsempio 2.8 in cui, pur essendo p = 0.005, si ha
np = 50 e npq = 49.75. Se invece si ha: n >> 1, p << 1 in modo che il prodotto np
`e dellordine dellunit`a, la (2.46) non `e pi`
u valida. Si dimostra che essa pu`o essere
sostituita dalla nuova formula asintotica:
(np)k np
Pn,k
e
=
k!
che nella sua forma limite esprime il seguente

(2.40)

50

VARIABILI ALEATORIE

Teorema di Poisson (degli eventi rari):


Se n e p 0 in modo che il prodotto np 1, allora
Pn,k

k
e .
k!

(2.41)

Esempio 2.9

In un sistema costituito da 1000 componenti, la probabilit`a che ciascun componente


si guasti indipendentemente dagli altri in un certo intervallo di tempo vale p = 103 .
Si vuole conoscere la probabilit`a che il sistema sia in funzione nellintervallo di tempo
in esame. Levento che qui si considera `e E = {nessun componente si guasta}, ed il
guasto con probabilit`a p rappresenta il singolo successo nel nostro problema di prove
ripetute. Si ha pertanto: n = 1000, k = 0, np = 1 e la probabilit`a da determinare
non si approssima con la (2.36), bens con la formula di Poisson (2.40):

Pn,0 =

1000
0

(1 103 )1000
= e1 = 0.368. /

La variabile aleatoria discreta X() che assume valori k = 0, 1, 2, ..n, . . . con probabilit`a data dalla (2.41) ha densit`a costituita dalla successione di impulsi
fX (x) = e

X
k
k=0

k!

(x k)

(2.42)

che definisce una distribuzione di Poisson. Il valor medio e la varianza di X()


coincidono con il parametro . Infatti:
E{X} =

X
k=0

ke

X
X
k
r
k
= e
= e
= e e =
k!
(k

1)!
r!
r=0
k=0

2 = . La Fig. 2.13 mostra i grafici di


e con calcoli analoghi si ricava che anche X
fX (x) per due diversi valori del suo parametro .

La distribuzione di Poisson ha notevole interesse nella definizione statistica della


legge di emissione di particelle. Si consideri infatti il fenomeno costituito dalla emissione casuale di un numero n >> 1 di particelle nel tempo T . La probabilit`a di
emissione di una singola particella nellintervallo di tempo [0, t0 ) `e p = t0 /T . Se
lintervallo [0, t0 ) che si considera `e molto minore di T , risulta: p << 1 e la probabilit`a che k particelle siano emesse prima di t0 `e data con buona approssimazione
dalla formula di Poisson (2.40) con np = nt0 /T = :

P {k particelle emesse in [0, t0 )} '

(nt0 /T )k
nt0
exp
.
k!
T

2.3 Distribuzioni notevoli in Probabilit`


a e Statistica

51

Se n, T + in modo che n/T 1, allora t0 e la distribuzione del numero


di particelle emesse in [0, t0 ) tende alla densit`a di Poisson:
fX (x) = et0

k
X
t
0

k!
k=0

(x k).

Pi`
u in generale, la legge (2.42) `e anche il modello di esperimenti casuali caratterizzati
dal conteggio in un intervallo temporale [0, T ] di eventi statisticamente indipendenti
(Processi di Poisson), aventi un numero medio di realizzazioni per unit`a di tempo
uguale ad . Si dismostra infatti che il numero di tali eventi che si verificano in un
intervallo temporale di ampiezza t << T ha legge di Poisson (2.42) con parametro
= t.

2.3.11

Distribuzioni geometrica e ipergeometrica

Nello schema di Bernoulli delle prove ripetute e indipendenti di un esperimento


casuale con probabilit`a di successo p, la probabilit`a che in una sequenza di (k + 1)
prove si realizzino k fallimenti seguiti dal primo successo vale:
IP{F F F F F S} = p(1 p)k .

0.2

f (x)
X
0.1

10

30

20

Figura 2.14 - Distribuzione geometrica per

p = 0.2.

La variabile casuale X() che assume valori discreti k = 0, 1, 2, . . . con la probabilit`a ora definita, ha una distribuzione chiamata geometrica, avente come densit`a
di probabilit`a la funzione:
fX (x) =

X
k=0

p(1 p)k (x k),

0<p<1

(2.43)

52

VARIABILI ALEATORIE

mostrata in Fig. 2.14. Questa v.a. rappresenta quindi il numero di prove che occorre
fare prima che si verifichi un successo. Per tale motivo, se si misura il tempo in unit`a
coincidenti con il numero di prove effettuate, X() `e anche chiamata tempo di attesa
(discreto) del primo successo.
Si badi a non confondere questo tempo di attesa X() con la v.a. T () sopra
introdotta per ricavare il Secondo principio delle prove ripetute, la quale non pu`o
avere valore nullo. X = k con k = 0, 1, . . . indica il numero dei fallimenti F che
precedono il successo S, mentre T = k con k = 1, 2, . . . indica la prima prova in cui
si verifica un successo.
La funzione di distribuzione cumulata del tempo di attesa X() vale
FX (x) =

x
X

p(1 p)k U (x k).

k=0

Se in particolare x = n IN, essa misura la probabilit`a IP(X n) ed `e uguale al


prodotto p sn , dove
1
sn = [1 (1 p)n+1 ]
p
P

`e la ridotta n-esima della serie geometrica k (1 p)k di ragione 1 p, la quale `e


convergente perche (1 p) `e un reale positivo minore di 1. Dunque si ha:
IP(X n) = FX (n) = psn = 1 (1 p)n+1 .

(2.44)

Ricordando il risultato espresso dalla (2.34), il valor medio della distribuzione geometrica vale:
1p
1
mX = E{T } 1 = 1 =
p
p
mentre la sua varianza risulta:
1p
2
X
=
.
p2
Cos come la distribuzione esponenziale, anche la geometrica `e senza memoria. Infatti, scelti due interi positivi i, j si ricava, applicando anche la (2.44):
IP(X > i + j | X > j) =

IP({X > i + j} {X > j})


IP(X > i + j)
=
=
P (X > j)
P (X > j)
(1 p)i+j+1
=
= (1 p)i = 1 FX (i) = IP(X > i),
(1 p)j+1

e questo risultato si pu`o cos interpretare: la circostanza che gi`a si sono verificati j
insucessi consecutivi non influenza il tempo di attesa del prossimo successo.
Per quanto detto, la distribuzione geometrica `e lanalogo discreto della distribuzione
esponenziale 2.3.4, definita sullintero semiasse IR+ , e trova frequenti applicazioni
nella teoria dei giochi o negli studi di affidabilit`a riguardanti fenomeni in cui si pu`o
individuare una variabile casuale definita sullinsieme dei numeri naturali.

2.3 Distribuzioni notevoli in Probabilit`


a e Statistica

53

Esempio 2.10

Un giocatore del Totocalcio compila una colonna segnando in modo casuale per 13
volte uno dei 3 possibili risultati: 1, X, 2 e gioca la stessa colonna ad ogni concorso.
Quante giocate deve fare, in media, prima di vincere con un 13 ?
Consideriamo qui il caso teorico che `e anche il pi`
u sfavorevole. Se il giocatore segna
ciascun risultato senza conoscere le squadre di calcio coinvolte in ciascuna delle 13
partite, ognuna delle 13 previsioni ha probabilit`a 1/3 di successo. Di conseguenza,
la probabilit`a che si realizzi un insieme di 13 previsioni esatte di altrettanti risultati
indipendenti (ossia la probabilit`a di successo) `e p = 1/313 ' 6 107 .
Il numero di giocate che `e necessario effettuare prima di fare un 13 con quella sola
colonna ha una distribuzione geometrica con tale probabilit`a p, e il numero medio
di giocate da effettuare prima di avere un successo `e
mX = 313 1 = 1 594 322.
Per sollevare il giocatore dallo sconforto, si pu`o aggiungere che questo parametro
di posizione `e comunque assai poco significativo. Infatti, la varianza della stessa
distribuzione geometrica `e enormemente elevata:
2
X
= (313 1) 313 ' 2.54 1012 ,

per cui ci si pu`o aspettare che la probabilit`a di ottenere il primo successo dopo un
numero pi`
u ragionevole di tentativi, diciamo n = 50, non sia del tutto irrilevante.
Dalla (2.44) si ricava per`o: IP(X 50) = 1 [1 1/313 ]51 ' 0.000032, ed `e presumibile che questo risultato cos` poco favorevole riesca a scoraggiare definitivamente il
giocatore. /
Distribuzione ipergeometrica
Un insieme `e costituito da N elementi di cui NA sono di tipo A, e NB = N NA di
tipo B. Se da questo insieme si fanno n estrazioni in blocco (o senza ripetizione),
nel campione di n elementi cos` estratto il numero di elementi del tipo A `e una
variabile casuale discreta X(), la cui densit`a di probabilit`a `e definita dalla seguente
formula ipergeometrica:

fX (x) =

NA
x

NB
nx

N
n

per x = 0, 1, 2, . . . , n

(2.440 )

ed `e nulla altrove.
Infatti, fissato un intero x, il numeratore che compare nella (2.44) `e il numero degli
eventi favorevoli: {x elementi di tipo A su n estratti }, che si calcola come

54

VARIABILI ALEATORIE

prodotto tra il numero di combinazioni di x elementi del tipo A e il numero di


combinazioni di (n x) elementi di tipo B; il denominatore `e il numero di eventi
possibili (ed equiprobabili) che si possono verificare nella estrazione in blocco di
n elementi da un insieme di N ; e dunque per la definizione classica di Probabilit`a,
il loro rapporto definisce la probabilit`a che X() assuma il valore x.
Il valor medio e la varianza di fX (x) valgono:
E(X) =

nNA
,
N

2
X
=

nNA (N NA )(N n)
.
N 2 (N 1)

Esempio 2.11

Si effettua lestrazione simultanea di due palline da unurna che ne contiene NA = 4


rosse e NB = 3 nere. Calcolare la probabilit`a di estrarre due palline di colore diverso.
Si applica la (2.44) con n = 2, x = 1, N = 7 e si ottiene subito:
! !

IP(Rossa N era) =

2.3.12

4
1

3
1

7
2

12
' 0.57. /
21

Distribuzione Beta

Una v.a. che assume valori nellintervallo unitario [0, 1] ha una distribuzione Beta
se la sua densit`a vale

fX (x) =

Axb (1 x)c
0

per x [0, 1],


altrove

con A definito come segue:


A=

(b + c + 2)
,
(b + 1)(c + 1)

dove () `e la funzione Gamma (2.24).

b, c > 1

(2.45)

2.3 Distribuzioni notevoli in Probabilit`


a e Statistica

55

f X (x)
2.5
6

2.0
4
1.5

1.0
0.5

0.5

Figura 2.15 - Distribuzioni Beta

Questa densit`a, dipendente da due parametri b, c, ha un massimo per x = b/(b+c) se


b e c sono entrambi positivi, ma diventa infinita agli estremi dellintervallo unitario
se b e c sono entrambi negativi: b, c (1, 0). Inoltre, se b = c = 0 la (2.45)
coincide con la densit`a uniforme fX (x) = 1 nellintervallo unitario, e per b = c = 1
rappresenta la densit`a parabolica:
fX (x) = 6x(1 x),

x [0, 1].

Per la grande generalit`a con cui, modificando i due parametri, pu`o essere definita
analiticamente la distribuzione delle probabilit`a nellintervallo unitario, questa legge
`e molto utile per rappresentare le propriet`a statistiche di coefficienti aleatori che
possono essere presenti in molti modelli matematici di fenomeni reali.
Il valor medio e la varianza di fX (x) si esprimono in funzione dei parametri b e c, e
valgono:
b+1
(b + 1)(c + 1)
2
E{X} =
;
X
=
.
(2.46)
b+c+2
(b + c + 2)2 (b + c + 3)
La Fig. 2.15 mostra alcuni grafici della distribuzione Beta, ottenuti assumendo per
b e c i valori qui elencati, unitamente ai corrispondenti valori del coefficiente A,
calcolati in base alle propriet`a della funzione Gamma:
grafico 1:
2:
3:
4:
5:
6:

b = 1/2
b = 1/2
b=1
b=1
b=3
b=3

c = 1/2
c = 1/2
c=1
c=2
c=2
c=3

A = 1/
A = 8/
A=6
A = 12
A = 20
A = 140

56

VARIABILI ALEATORIE

f X(x)

a =1
a =3

b = 0.5
2

b =2
b=1
1

0.5

Figura 2.16 - Distribuzioni di Weibull

2.3.13

1.5

W (, ) al variare di e .

Distribuzione di Weibull

Una legge probabilistica che generalizza il modello esponenziale, e dipendente da


due parametri come la densit`a Beta, `e la distribuzione di Weibull W (, ) la cui
densit`a `e la funzione

fX (x) =

x1 exp(x ), 0 x < +;
0
altrove.

, IR+

(2.47)

Utilizzando la definizione della funzione Gamma (2.24), si pu`o ricavare che il valore
atteso e la varianza di fX (x) valgono:
E{X} =

1
(1 + 1/),

2
X
= 2/ [(1 + 2/) 2 (1 + 1/)].

Al pari della distribuzione Beta, la disponibilit`a di due parametri , rende questa


legge assai adatta a rappresentare il modello probabilistico di certe grandezze che
possono assumere valori casuali sullintero semiasse positivo.
Il parametro > 0 `e il pi`
u significativo, e definisce la forma della distribuzione
di Weibull. Se 0 < < 1, fX (x) ha un asintoto verticale x = 0; se = 1 la
distribuzione coincide con quella esponenziale con parametro = ; e se > 1,
fX (x) si annulla per x 0+ e presenta un massimo per

x=

1/

Il parametro > 0 `e un fattore di scala che concentra su bassi valori di x (oppure


disperde sul semiasse positivo) le masse di probabilit`a della distribuzione stessa,
come `e illustrato in Fig. 2.16.

2.4 Problemi risolti

57

Questa distribuzione ha un ruolo importante negli studi di affidabilit`a di materiali o


di sistemi per i quali si assume che il tasso di guasto non sia costante (come `e stato
fatto a proposito della distribuzione esponenziale), ma sia una assegnata funzione
(t) = (t)1
del tempo di attesa t del guasto. In tal caso, individuati i parametri e ,
laffidabilit`a del materiale diventa la seguente funzione del tempo di attesa:

R(t) = 1 FX (t) = et

dove FX (x) `e la funzione di distribuzione cumulata di W (, ), ossia la primitiva di


fX (x) che si annulla per x = 0.
Se la variabile casuale pu`o assumere soltanto valori nellintervallo x < +
con > 0, il semplice cambio di variabile y = x porta alla definizione di
una distribuzione di Weibull W (, , ) dipendente da tre parametri , , , avente
densit`a
fX (x) = (x )1 exp[(x ) ],

x < +;

, , IR+

con valor medio traslato della quantit`


a e la stessa varianza di W (, ).

2.4

Problemi risolti

2.1. Una variabile casuale X() ha densit`a di probabilit`a parabolica nellintervallo


x [0.5, 0.5] e nulla altrove. Calcolare la probabilit`a che assuma valori minori di
x = 0.3.
Soluzione. La probabilit`a richiesta `e uguale a quella che una v.a. () = X + 0.5 ,
avente la medesima distribuzione parabolica definita nellintervallo [0, 1], abbia valori
0.2.
Poiche la densit`a di probabilit`a di () `e

f () =

6(1 )
0

per [0, 1] ,
altrove

si ricava
P (x < 0.3) = P ( 0.2) = 6

Z 0.2
0

(1 )d = 3 0.4 2 0.08 = 0.104 .

2.2. Calcolare la funzione di distribuzione cumulata di una variabile casuale uniformemente distribuita nellintervallo x [0, 2].

58

VARIABILI ALEATORIE

Soluzione. Indichiamo con X() questa variabile casuale. La sua densit`a di probabilit`a `e fX (x) = 1/2 per x [0, 2] ed `e nulla altrove.
La funzione di distribuzione cumulata `e il suo integrale tra e x, ossia

FX (x) =

per x < 0

Z x

FX (0) +
dx/2 = x/2

FX (2) = 1

per 0 x 2
per x > 2.

2.3. Una variabile aleatoria X() ha media nota e varianza 2 = 2. Utilizzando la diseguaglianza di Tchebyshev, determinare un limite inferiore alla seguente
probabilit`a: IP(|X | 1.5).
Soluzione. Se si applica la diseguaglianza di Tchebyshev si ha che
IP(|X | 1.5)

2
X
8
=
2
(1.5)
9

da cui si ricava
IP(|X | < 1.5) = 1 IP(|X | 1.5) 1
2.4. Data la funzione

f (x) =

8
1
=
.
9
9

c x cos x, per 0 x /2;


0,
per x < 0; x > /2,

determinare c IR in modo che f (x) risulti la densit`a di probabilit`a di una variabile


aleatoria X() e calcolare la probabilit`a dellevento E = {X /4}.
Soluzione. f (x) deve soddisfare la propriet`a
c

Z /2
0

x cos xdx = c [x sin x +

/2
cos x]0

=c
1 =1
2

per cui deve essere: c = 2/( 2) .


La probabilit`a richiesta `e IP(X /4) = FX (/4) dove la funzione di distribuzione
cumulata FX (x) vale:
FX (x) =

2
2

Z x
0

t cos tdt =

2
2
[t sin t + cost]x0 =
(x sin x + cos x 1).
2
2

Dunque si ottiene:
2
IP(X /4) =
2


2
2
2

+
1 =
+ 1 2 ' 0.46 ,
4 2
2
2 4

2.4 Problemi risolti

59

2.5. Una variabile aleatoria X() con valori nellintervallo 1 x 2 ha legge


f (x) = /x2 . Determinare la costante IR della densit`a di probabilit`a, il valor
medio e la varianza di X().
Soluzione. Se f (x) `e una densit`a, deve soddisfare la propriet`a:

Z 2
dx

= +1 = =1
x2
2
2

per cui deve essere: = 2 . Valor medio e varianza di X si determinano come


segue:
mX
2
X

= 2

Z 2
dx
1

= 2 log 2 ' 1.386

= E{X2 }

m2X

=2

Z 2
1

dx 4 log2 2 = 2(1 2 log2 2) ' 0.078 .

2.6. La variabile aleatoria X() ha densit`a di probabilit`a


3
f (x) = (x 1)2 ,
2

0x2

e nulla altrove. Calcolare la probabilit`a che X() assuma valori in un intorno di


raggio = 0.5 del suo valor medio.
Soluzione. Il valor medio di X vale
mX

3
=
2

Z 2
0

"

3 x4 x2 2x3
+

x(x 1) dx =
2 4
2
3

#2

=1
0

(infatti nellintervallo 0 x 2 la funzione f (x) `e una parabola con vertice nel


punto (1, 0)).
Pertanto si deve calcolare la probabilit`a IP{|X 1| < 0.5}, integrando la densit`a
nellintervallo (1 0.5) x (1 + 0.5):
IP{|X 1| < 0.5} =

3
2

Z 3/2
1/2

(x 1)2 dx = 3

Z 3/2
1

(x 1)2 dx =

2.7 Una variabile casuale X ha densit`a di probabilit`a:


f (x) =

1 3

x 4x

per 0 x 2

altrove

Determinare la media, la varianza e la mediana di X.

1
.
8

60

VARIABILI ALEATORIE

Soluzione.
E(X) =
E(X 2 ) =
2
X

Z 2
0

Z 2
0

x3
x x
4

x2 x

16
15

x3

"

x3 x5
dx =

3
20

"

dx =

= 16

x4
4

1
16

12 225

#2

0
#2
6
x

24

16
15
4
3

da cui:

' 0.195 .

Per calcolare la mediana x


si deve imporre:
Z x
0

x3
x
4

"

x2 x4
dx =

2
16

#x
0

1
x
4
=
x
2
2
8

1
= .
2

x
4

Si risolve quindi lequazione biquadratica


8
x2 + 8 = 0, ricercandone lunica
radice che appartiene allintervallo 0 x 2. Posto y = x
2 si ricava:
q

4 + 22 x
1,2 = 4 + 2 2 ' 2.613 , da scartare
q
y=

3,4 = 4 2 2 ' 1.0924.


42 2 x
q

4 2 2 ' 1.0924 .

Dunque la mediana di X vale x


=

2.8 Il tempo di attesa di un guasto in un dispositivo ha legge esponenziale con valor


medio = 11 mesi. Calcolare la probabilit`a che il guasto si verifichi NON PRIMA
di 6 mesi dopo lultimo controllo.
Soluzione. La densit`a f (x) e la funzione di ripartizione F (x) della distribuzione
esponenziale con parametro = 1/ = 1/11 sono rispettivamente:
1 x/11
e
;
11
La probabilit`a richiesta vale
f (x) =

F (x) = 1 ex/11 ,

0 x < +.

IP(X 6) = 1 IP(X < 6) = 1 F (6) = e6/11 ' 0.5795 .


2.9. Il giocatore A lancia un dado non truccato per 4 volte, e vince se esce almeno
una volta il 6. Il giocatore B lo lancia 8 volte, e vince se il 6 esce almeno due volte.
Chi ha maggiore prababilit`a di vincere e perche ?
Soluzione. In ogni lancio la probabilit`a che esca il 6 vale p = 1/6 (equiprobabilit`a di
6 eventi). La probabilit`a di avere k = 0 successi in n = 4 prove indipendenti vale,
per la formula di Bernoulli:
P4,0 =

!
4
1 0 5 4

5
6

' 0.48226

2.4 Problemi risolti

61

per cui la probabilit`a di vittoria per A `e


P (A) = 1 P4,0 ' 0.51774.
Per il giocatore B, la probabilit`a di avere non pi`
u di k = 1 successo in n = 8 prove
(perdendo cos` la scommessa) `e
!
0
8

P8 (0 k 1) =

8
0

1
6

5
6

!
7

8
1

1
6

5
6

5
6

8
6

5
6

' 0.6046

per cui la sua probabilit`a di vittoria vale


P (B) = 1 P8 (0 k 1) ' 0.3936.
Poiche P (A) > P (B), il giocatore A ha la maggior probabilit`a di vittoria.
2.10. Da unurna con 4 palline bianche e 12 nere si effettuano estrazioni ripetute
con reimbussolamento. Qual`e in media il numero di prove necessarie per estrarre
la prima pallina bianca?
Risposta. La probabilit`a di estrarre una pallina bianca vale p = 4/16 = 1/4. Per il
Secondo Principio delle prove ripetute e indipendenti, il valor medio del tempo di
attesa T () del primo successo (estrazione di una pallina bianca) `e
E(T ) = 1/p = 4 .
2.11. Dieci simboli binari sono trasmessi su un canale simmetrico avente probabilit`a
di errore p = 0.01. Calcolare la probabilit`a di ricevere almeno un simbolo errato.
Soluzione. La probabilit`a di ricezione corretta `e q = 0.99. In n = 10 prove ripetute
e indipendenti (emissione di un simbolo), la probabilit`a di ricevere correttamente
tutti i 10 simboli vale
P10,0 = q 10 = (0.99)10 ' 0.9044
e dunque la probabilit`a di ricevere almeno 1 simbolo errato `e
P10,k1 = 1 P10,0 = 1 (0.99)10 ' 0.0956 .
2.12. Al giocatore di basket Joe `e attribuita una percentuale di realizzazione di
canestri del 60%, e al giocatore Nick del 45%. Joe deve effettuare 5 tiri al canestro,
e Nick ne effettua 3. Supera la prova chi fallisce non pi`
u di un canestro. Chi fra i
due ha la pi`
u alta probabilit`a di vincere?

62

VARIABILI ALEATORIE

Soluzione. Ogni tiro al canestro effettuato da Joe ha probabilit`a di successo p = 0.6.


Se k `e il numero di canestri effettuati in n tiri, la probabilit`a che Joe superi la prova
`e
!

P5 (4 k 5) =

5
5
(0.6)4 0.4 +
(0.6)5 = (0.6)4 (2 + 0.6) ' 0.337 .
4
5

Per Nick che effettua 3 tiri, ciascuno con probabilit`a di successo p = 0.45, la probablit`a di superare la prova `e
!

P3 (2 k 3) =

3
3
(0.45)2 0.55 +
(0.45)3 = (0.45)2 (3 0.55 + 0.45) ' 0.425 .
2
3

Quindi la pi`
u alta probabilit`a di vittoria spetta a Nick .
2.13. La ricezione casuale di un numero k di telefonate nellintervallo di tempo [0, t0 ]
ha legge di Poisson con parametro = t0 . Calcolare la probabilit`a IP(2 k 4) di
ricevere da due a quattro telefonate (2 incluso) entro listante t0 = 1.
Soluzione. La funzione di distribuzione cumulata della legge di Poisson con parametro
= t0 = 1 `e

1X
1
F (x; = 1) =
U (x k)
e k=0 k!
ed esprime la probabilit`a di ricevere x telefonate entro listante t0 = 1. La probabilit`a
richiesta vale:
1
IP{1 < x 4} = F (4; = 1) F (1; = 1) =
e

1
1
1
+ +
2 3! 4!

17
' 0.26 .
24e

2.14. Si effettuano 600 lanci di un dado non truccato. Calcolare un valore approssimato della probabilit`a che il 5 esca un numero di volte compreso tra 94 e
106.
Soluzione. La probabilit`a di successo (esce il 5) in ogni prova vale p = 1/6. Per
il Teorema integrale di asintoticit`a delle prove bernoulliane, in n = 600 prove la
probabilit`a richiesta si approssima con
"

"

94 100
106 100
erf p
=
P600 (94 k 106) ' erf p
600 (1/6)(5/6)
600 (1/6)(5/6)

6
= 2 erf
= 2 erf(0.657) ' 0.4844 .
9.1287
2.15. Un messaggio di 1200 simboli binari viene trasmesso su un canale simmetrico
con probabilit`a di errore p = 0.25. Determinare una approssimazione valida della
probabilit`a di ricevere da 250 a 320 simboli errati.

2.4 Problemi risolti

63

Soluzione. In n = 1200 prove bernoulliane per le quali si ha np = 300 e np(1 p) =


225, la probabilit`a richiesta si approssima con

320 300
250 300

erf
225
225
' 0.4082 + 0.4996 = 0.9078 .

Pn (250 k 320) ' erf

= erf

4
3

+ erf

10
3

2.16. Lesperimento consiste nel lancio, effettuato per due volte, di un dado non
truccato. Se si effettuano tre prove di questo esperimento, qual`e la probabilit`a che
in una delle tre prove esca due volte lo stesso numero ?
Risposta. Indichiamo con E = {11, 22, 33, 44, 55, 66} levento: esce due volte lo
stesso numero. Lo spazio campione `e costituito da 62 = 36 eventi (= numero di
disposizioni con ripetizione di 6 elementi a 2 a 2). Quindi la probabilit`a che si
realizzi levento E vale P (E) = 6/36 = 1/6 p. Per la formula di Bernoulli con
n = 3, k = 1 si trova:
!

P3,1 =

3
1

6
1

5
6

25
= 0.34722 .
72

2.17. Si sa che la probabilit`a di errore in ricezione di una sequenza di 150 segnali


trasmessi con modalit`a statisticamente indipendenti `e p = 0.01. Determinare la
probabilit`a che due dei segnali ricevuti siano errati.
Soluzione. Nella trasmissione di n = 150 segnali con probabilit`a di errore p = 0.01,
si ha np = 1.5. Per la formula di Bernoulli il valore esatto della probabilit`a richiesta
`e

!
150
P150,2 =
(0.01)2 (0.99)148 .
2
Poiche np `e prossimo allunit`a, questa si approssima con la legge di Poisson degli
eventi rari:
9
(1.5)2 1.5
e
= e3/2 ' 0.251 .
P150,2 '
2
8
2.18. Calcolare il valore atteso della variabile aleatoria Y = 1 + X 2 dove X() ha
una distribuzione binomiale B(n, p) con n = 10, p = 0.5.
Soluzione. Si deve calcolare E{1 + X 2 } = 1 + E{X 2 }, dove X() B(10, 0.5) ha
valor medio e varianza che valgono:
E{X} = np = 5 ;

2
X
= np(1 p) = 5/2.

64

VARIABILI ALEATORIE

Poiche il momento del secondo ordine di X vale


2
E{X 2 } = X
+ E 2 {x} = 5/2 + 25 = 55/2 ,

si ricava:
E{1 + X 2 } = 1 + 55/2 = 57/2 .
2.19. Si effettua per 5 volte il lancio simultaneo di due dadi non truccati. Calcolare:
1) la probabilit`a che la somma dei numeri usciti sia minore di 6 in tutti i 5 lanci; 2)
la probabilit`a che la somma sia compresa tra 6 e 7 in non pi`
u di due lanci.
Soluzione. Indichiamo con E1 = {11, 12, 13,
14, 22, 23} levento: { la somma `e minore
7
di 6 }. Lo spazio campione `e costituito da 2 = 21 eventi (= numero di combinazioni
con ripetizione di 6 elementi a 2 a 2). Quindi la probabilit`a che si realizzi levento
E1 vale
2
6
= p.
P (E1 ) =
21
7
1) Per la formula di Bernoulli con n = 5, k = 5 si trova:
5

2
7

P5,5 =

' 0.002 .

2) Anche levento E2 = {15, 24, 33, 16, 25, 34} = { la somma `e compresa tra 6 e 7 }
`e costituito da 6 eventi semplici, per cui ha una probabilit`a ancora uguale a 2/7. La
probabilit`a che E2 si realizzi 0, 1 o al massimo 2 volte su 5 lanci `e allora
P5 (0 k 2) =

2
X
k=0

!
k
5k

5
k

5
7

5
7

2
7

2
+5
7

5
7

2 3

+ 10

2
7

5
7

5
7

115
' 0.855 .
49

2.20. Nella successione di prove indipendenti di un esperimento casuale, la probabilit`a di successo `e p = 0.35. Applicando la legge dei grandi numeri, calcolare il
numero delle prove che `e necessario effettuare perche con probabilit`a non inferiore
a 0.90 si abbia un numero di successi compreso tra 0.3n e 0.4n.
Soluzione. Se p = 0.35, per il Teorema integrale di asintoticit`
a al crescere di n la
probabilit`a che il numero k di successi sia compreso tra 0.3n e 0.4n si avvicina a:

0.4n 0.35n
IP{0.3n k 0.4n} = erf p
0.35(1 0.35)n

' 2 erf(0.1048 n).

0.3n 0.35n
erf p
0.35(1 0.35)n

2.4 Problemi risolti

65

Se si vuole che questa probabilit`a sia non inferiore a 0.90, occorre che erf(0.1048 n)
0.45. Dalla tabella della funzione degli errori si ricava:

z = 0.1048 n 1.65

1.65
0.1048

= 248

ottenuto arrotondando per eccesso alle unit`a.


2.21. Nella nostra dotazione di 1200 utensili, 500 unit`a sono fornite dalla ditta
A e 700 dalla ditta B. Da controlli di qualit`a risulta che la produzione della ditta
A `e difettosa con probabilit`a pA = 0.005 e quella della ditta B con probabilit`a
pB = 0.002. Quante estrazioni casuali di utensili dalla dotazione potremo effettuare,
in media, prima di trovarne uno difettoso ?
Risposta. Calcoliamo le probabilit`a degli eventi: A = { estrazione di un utensile
prodotto da A}; B = { estrazione di un utensile prodotto da B}; E = { estrazione
di un utensile difettoso. Esse valgono:
P (A) =
P (B) =

500
5
nA
=
=
n
1200
12
nB
700
7
=
=
n
1200
12

P (E) = P (A)P (E|A) + P (B)P (E|B) =

7
5
0.005 +
0.002 ' 0.00325 .
12
12

Per il Secondo Principio delle prove ripetute, il numero medio di estrazioni che si
effettuano prima di trovare un elemento difettoso `e linverso di P (E):
E{tempo di attesa} = 1/0.00325 = 308
arrotondato per eccesso alle unit`a.
2.22. Un evento ha una probabilit`a costante p = 0, 01 di verificarsi in ogni prova di
un certo esperimento. Calcolare la probabilit`a che esso si verifichi almeno 3 volte su
100 prove indipendenti dellesperimento in questione:
a) facendone una valutazione esatta;
b) facendone una valutazione approssimata con luso della distribuzione di Poisson.
Soluzione
a) Per ottenere una valutazione esatta si applica la formula di Bernoulli:
P100 (k 3) = 1 P100 (0 k 2) =
"

100

= 1 (0.99)

99

+ 100 0.01(0.99)

100
+
(0.01)2 (0.99)98 =
2

= 1 (0.99)98 2.4651 = 1 0.9206268 = 0.0793732 .

66

VARIABILI ALEATORIE

b) Utilizzando la legge di Poisson degli eventi rari con np = 100 0.01 = 1, si ricava
P (k 2) '

2
X
e1
k=0

k!

5 1
e = 0.9196986
2

e di conseguenza:
P (k 3) = 1 P (k 2) ' 0.080 .
2.23. Si effettuano tre tiri verso un medesimo bersaglio. Le probabilit`a di colpirlo al
primo, al secondo e al terzo colpo sono, rispettivamente, uguali a p1 = 0.4, p2 = 0.5
e p3 = 0.7.
a) Qual `e la probabilit`a di aver colpito il bersaglio una sola volta dopo i tre tiri?
b) Qual `e la probabilit`a di aver colpito il bersaglio almeno una volta dopo i tre tiri?
Soluzione. Indichiamo con Sk = {successo: bersaglio colpito al k-esimo tiro} oppure
Fk = {fallimento: bersaglio mancato al k-esimo tiro} i possibili esiti di ognuno dei
tre tiri. Questi eventi hanno probabilit`a:
P (Sk ) = pk ,

P (Fk ) = 1 pk ,

k = 1, 2, 3,

a) Nella sequenza dei tre tiri (con esiti statisticamente indipendenti), gli eventi in
cui si verifica un solo successo sono tre, e le rispettive probabilit`a sono le seguenti:
P {S1 F2 F3 } = p1 (1 p2 )(1 p3 ) = 0.4 0.5 0.3 = 0.06
P {F1 S2 F3 } = (1 p1 )p2 (1 p3 ) = 0.6 0.5 0.3 = 0.09
P {F1 F2 S3 } = (1 p1 )(1 p2 )p3 = 0.6 0.5 0.7 = 0.21 .
La probabilit`a di aver colpito il bersaglio una sola volta `e la somma di queste:
P {(S1 F2 F3 ) (F1 S2 F3 ) (F1 F2 S3 )} = 0.06 + 0.09 + 0.21 = 0.36 .
b) La probabilit`a di avere avuto almeno un successo vale:
1 P {F1 F2 F3 } = 1 (1 p1 )(1 p2 )(1 p3 ) = 1 0.6 0.5 0.3 = 0.91 .
2.24. Da una recente indagine della polizia stradale risulta che il 45% degli automobilisti guida ancora in citt`a senza allacciare le cinture di sicurezza. Se un agente
controlla a caso 10 vetture in circolazione, qual`e la probabilit`a che egli riscontri
questa infrazione almeno 8 volte ?

2.4 Problemi risolti

67

Risposta. Il successo S in ognuno degli n = 10 controlli consiste nel riscontro della


infrazione, ed ha probabilit`a teorica p = 0.45. Per la formula di Bernoulli, la probabilit`a che si verifichino almeno 8 successi vale
P10 (8 k 10) =

10
X
k=8

10 k
p (1 p)10k =
k

10
(0.45)8 (0.55)2 + 10 (0.45)9 0.55 + (0.45)10 =
8
h

= (0.45)8 45 (0.55)2 + 4.5 0.55 + (0.45)2 ' 0.0274 .

68

VARIABILI ALEATORIE

VARIABILI ALEATORIE
MULTIDIMENSIONALI
Linsieme {X1 (), X2 (), . . . , Xn ()} di n variabili aleatorie, definite su un medesimo spazio di probabilit`a (, B, P ), costituisce le n componenti di un vettore aleatorio
X() ndimensionale che opera la trasformazione (, B, P ) (IRn , B , P ) associando ad lennupla (x1 , . . . , xn ) IRn , e allevento A B linsieme B = X1 (A)
IRn con probabilit`a P (B) = P (X1 (B)) = P (A).
In questo Capitolo esamineremo le principali propriet`a del vettore aleatorio X() generalizzando le definizioni ed i risultati gi`a esposti nel precedente Capitolo a proposito di una v.a. unidimensionale. Per comprendere le novit`
a che questa analisi comporta, conviene iniziare a trattare il caso n = 2.

3.1

Coppie di variabili aleatorie

Consideriamo due variabili aleatorie reali X() e Y (), componenti di un vettore


aleatorio bidimensionale X() = {X1 = X(), X2 = Y ()}, che ad ogni evento
elementare di un esperimento casuale associano rispettivamente i numeri reali
x Dx IR ed y Dy IR come illustrato nello schema di Fig. 3.1.
Lintersezione B 0 dei due eventi: (X x) e (Y y), cio`e larea ombreggiata in
figura, `e ancora un evento in B, la cui probabilit`a `e una funzione FXY (x, y) delle
due variabili reali:
FXY (x, y) = P {(X x) (Y y)}
(3.1)
che si chiama funzione di distribuzione congiunta (o mista) della coppia di variabili
aleatorie. Essa misura la probabilit`a che si verifichino entrambi gli eventi: (X x) e
(Y y); `e sempre positiva con valori compresi tra 0 e 1, non decrescente e continua
a destra rispetto a ciascuna delle variabili x, y. Le sue propriet`a sono:
FXY (, ) = FXY (, y) = FXY (x, ) = 0;
69

70

VARIABILI ALEATORIE MULTIDIMENSIONALI

FXY (+, +) = 1.

y
W

X
B'

(x,y) = X(w )

w
x

A
X

Figura 3.1

Se esiste la derivata mista di FXY (x, y), si chiama densit`


a di probabilit`a congiunta
della coppia (X(), Y ()) la funzione
fXY (x, y) =
soddisfacente le condizioni:

2 FXY (x, y)
xy

Z Z

fXY (x, y) 0 ,

(3.2)

fXY (x, y)dxdy = 1.

La Fig. 3.2 mostra il grafico qualitativo della densit`a congiunta di una coppia di
v.a. che assumono valori reali in X() = Dx (y) Dy (x) IR2 . La probabilit`a che
esse abbiano valori in un insieme B `e data dallintegrale doppio:
Z Z

P (X B) =

fXY (x, y)dxdy.

(3.3)

In particolare, se questo insieme `e lintersezione B 0 = (X x) (Y y), la


probabilit`a P (B 0 ) `e data dal volume indicato in figura, che vale
P (B 0 ) =

Z x

dx0

Z y

fXY (x0 , y 0 )dy 0 = FXY (x, y).

Il volume che nella stessa figura `e compreso tra due piani paralleli a distanza infinitesima dy, misura la probabilit`a dellevento E = {(X Dx ) (Y [y, y + dy])}
e vale:
Z
P (E) = dy
fXY (x, y)dx.
(3.4)
Dx (y)

Ma poiche (X Dx ) = (X +) `e levento certo, risulta anche


P (E) = P {Y [y, y + dy]} = FY (y + dy) FY (y) = dFY (y)

(3.40 )

3.1 Coppie di variabili aleatorie

71

f ( x,y )
XY

dF ( y )
Y

B'

P(B') = FXY( x,y )

dy

X( W )
x

Figura 3.2

dove FY (y) = FXY (+, y) `e la funzione di distribuzione della v.a. Y (), che ora
prende il nome di funzione di distribuzione marginale di Y (). Confrontando la
(3.4) con la (3.4) risulta pertanto:
Z
Dx (y)

fXY (x, y)dx =

dFY (y)
= fY (y).
dy

(3.5)

Lintegrale a primo membro ha il significato di densit`a di probabilit`a relativa alla


sola v.a. Y (), e individua la densit`a di probabilit`a marginale di Y (). Essa si
ottiene integrando la densit`a mista su tutti i valori che pu`o assumere laltra v.a. con
cui fa coppia. In modo analogo si definiscono: la funzione di distribuzione marginale
di X():
FX (x) = FXY (x, +) P {(X x) (Y y)}
e la sua densit`a di probabilit`a marginale:
Z

fX (x) =

3.1.1

Dy (x)

fXY (x, y)dy.

Momenti congiunti

Data una coppia di v.a. X(), Y () entrambe definite in (, +), si chiama


momento congiunto (o misto) di ordine (p + q) lintegrale doppio:
E{X p Y q } =

Z Z

xp y q fXY (x, y)dxdy

(p,q interi positivi.)

Il momento centrale congiunto di ordine (p + q) della coppia `e definito dallintegrale


doppio:
E{(X mX )p (Y mY )q } =

Z Z

(x mX )p (y mY )q fXY (x, y)dxdy

72

VARIABILI ALEATORIE MULTIDIMENSIONALI

in cui le realizzazioni di X ed Y sono valutate rispetto ai valori medi delle loro


distribuzioni marginali. I momenti centrali con p = 2, q = 0 e p = 0, q = 2 si
identificano rispettivamente con le varianze di X() ed Y (). Il momento centrale
congiunto del secondo ordine si chiama covarianza di X() ed Y ():
Cov (X, Y ) =

Z Z

(x mX )(y mY )fXY (x, y)dxdy

(3.6)

ed `e sicuramente il pi`
u importante dal punto di vista applicativo. Sviluppando
lintegrale a secondo membro si ricava subito limportante relazione:
Cov(X, Y ) = E{XY } mY E{X} mX E{Y } + mX mY = E{XY } mX mY (3.7)
la quale mostra che la covarianza `e la differenza tra il momento misto del secondo
ordine e il prodotto delle medie marginali. Se queste due quantit`
a sono uguali,
ovvero se la covarianza `e nulla, le v.a. si dicono non correlate.
La covarianza interviene sempre nella espressione della varianza di una combinazione
lineare di due o pi`
u variabili aleatorie. Infatti, per la propriet`a di linearit`a del valor
medio, la varianza di Z() = aX() + bY () vale:
Z2

= E{(Z mZ )2 } = E{[(aX + bY ) E{aX + bY }]2 }


= E{[a(X E{X}) + b(Y E{Y })]2 }
= E{a2 (X E{X})2 + b2 (Y E{Y })2 + 2ab(X E{X})(Y E{Y })}
2
= a2 X
+ b2 Y2 + 2ab Cov(X, Y ).

(3.8)

Se poi X() e Y () sono non correlate, allora la (3.8) si riduce alla seguente:
(X, Y ) non correlate

2
Z2 = a2 X
+ b2 Y2

e dunque la varianza di una loro combinazione lineare `e la somma delle varianze,


moltiplicate per il quadrato dei rispettivi coefficienti. La (3.8) si estende al caso di
una combinazione lineare Z() = a1 X1 () + . . . + an Xn () di n variabili aleatorie,
per la quale si ricava:
Z2 =

n
X

2
a2i X
+2
i

i=1

n1
X

n
X

ai aj Cov(Xi Xj )

i=1 j=i+1

che si riduce alla prima sommatoria se ciascuna coppia (Xi Yj ) `e non correlata.
Pur essendo un momento di ordine pari, la covarianza pu`o anche essere negativa,
come si verifica facilmente dalla definizione (3.6). Si chiama coefficiente di correlazione tra X ed Y il rapporto
(X, Y ) =

Cov(X, Y )
,
X Y

|(X, Y )| 1

(3.9)

3.1 Coppie di variabili aleatorie

73

tra la covarianza e il prodotto degli scarti quadratici medi di X() ed Y (). Vedremo
in un prossimo Capitolo, nellambito del metodi regressivi di previsione relativi
allanalisi statistica di campioni estratti da due popolazioni, che questo coefficiente
adimensionale `e una misura della interdipendenza lineare tra le due v.a., nel senso
che d`a una indicazione sulla accuratezza con cui una variabile aleatoria pu`o essere
approssimata come funzione lineare di unaltra. Se X() e Y () sono non correlate
(linearmente), si ha (x, y) = 0; se invece il modulo del coefficiente di correlazione `e
prossimo allunit`a, allora `e giustificata lapprossimazione: X() ' aY () + b che le
lega mediante una legge lineare.

3.1.2

Coppie di v.a. indipendenti

Come diretta conseguenza del concetto di indipendenza di due eventi, X() e Y ()


sono dette statisticamente indipendenti se lo sono gli eventi (X x) e (Y y), in
modo che
P {(X x) (Y y)} = P (X x) P (Y y).
(3.10)
In tale ipotesi, la funzione di distribuzione congiunta `e il prodotto delle funzioni di
distribuzione marginali:
FXY (x, y) = FX (x)FY (y)
(3.11)
da cui discende subito una analoga propriet`a per la loro densit`a mista:
fXY (x, y) = fX (x)fY (y).

(3.12)

Se X() e Y () sono statisticamente indipendenti, tenuto conto della (3.12) si ha


che il loro momento congiunto si identifica con il prodotto dei rispettivi momenti di
ordine p e q:
(X, Y ) indipendenti
E{X p Y q } =

xp fX (x)dx

(3.13)

y q fY (y)dy = E{X p }E{Y q }.

Ne segue, tenuto conto della (3.7), che due v.a. indipendenti sono anche non correlate:
(X, Y ) indipendenti

E{XY } = mX mY

Cov(X, Y ) = 0.

Si badi per`o che non `e vero il contrario: infatti lindipendenza `e una condizione
sufficiente ma non necessaria per la non correlazione. Due v.a. possono avere covarianza nulla, anche se non sono statisticamente indipendenti. Dunque, lindipendenza
statistica `e una condizione pi`
u restrittiva della non correlazione.
OSSERVAZIONE

74

VARIABILI ALEATORIE MULTIDIMENSIONALI

La statistica congiunta di una coppia di v.a. `e completamente nota solo se si conosce


la loro densit`a mista fXY (x, y), ovvero anche la funzione di ripartizione congiunta
FXY (x, y). Da essa, infatti, `e possibile dedurre le distribuzioni marginali ed i momenti di ogni ordine, semprech`e esistano. Se per`o le v.a. sono statisticamente
indipendenti, per quanto si `e visto in questo paragrafo la conoscenza delle singole
distribuzioni marginali `e sufficiente a descrivere compiutamente la loro statistica
congiunta.
Esempio 3.1

Si assuma che la traccia di un oggetto su uno schermo radar circolare, di raggio a, si possa trovare con eguale probabilit`a in qualsiasi punto P dello schermo.
Allesperimento consistente nella ricezione casuale di una traccia sullo schermo, `e
naturale associare le variabili aleatorie R(), (), coordinate polari del punto P. Si
vuole determinare la loro densit`a di probabilit`a congiunta fR (r, ), le due densit`a
marginali ed i momenti misti.
fXY ( x,y )

1/ p a

R
0

Q
a

2p

a
x

Figura 3.3

La probabilit`a che la traccia P si trovi nellelemento di superficie d = rdrd vale:


dP () = P {(R, ) d} =

d
r
=
drd
2
a
a2

e ricordando la (3.3) si pu`o scrivere


dP () = fR (r, )drd.
Eguagliando si ricava la densit`a mista:

fR (r, ) =

r/(a2 ), 0 r a;
0,
altrove

il cui grafico `e mostrato in Fig. 3.3.

0 2;

(3.14)

3.1 Coppie di variabili aleatorie

75

Le densit`a marginali si ricavano applicando la (3.5):


fR (r) =
f () =

Z 2
r
Z0 a
0

2r
,
a2
1
r
dr =
,
2
a
2
a2

d =

0ra
0 2

e sono nulle al di fuori dei rispettivi intervalli. Dunque, la densit`a di probabilit`a di


R() per 0 r a `e un segmento di retta, e quella di () `e uniforme in [0, 2].
Il prodotto delle due densit`a marginali `e uguale alla densit`a mista: fR (r)f () =
fR (r, ), per cui si pu`o concludere che le due v.a. sono statisticamente indipendenti.
Il loro momento del secondo ordine `e uguale al prodotto dei rispettivi valori medi:
E{R} =

Z a Z 2
0

r
2
drd = a = mR m ,
a2
3

e ovviamente la covarianza tra R e `e nulla, perche essendo indipendenti sono anche


non correlate.
La probabilit`a che la traccia si trovi nel centro dello schermo in un cerchio di raggio
r0 << a (oppure anche: nel centro di un bersaglio circolare, nella ipotesi che la traccia cada comunque sul bersaglio) si pu`o facilmente calcolare utilizzando la densit`a
congiunta (3.14), e vale:
P {R r) ; 0 2} = 2

Z r0
r
0

dr =
2

r0
a

Esempio 3.2

E nota la densit`a congiunta di una coppia di variabili aleatorie. Essa vale

fXY (x, y) =

8xy, per 0 x 1;
0
altrove

0y<x

ed assume valori maggiori di zero nel dominio D = DX (y) DY (x) = [0, x) (y, 1].
Si vuole determinare le densit`a e i momenti marginali, e il loro momento congiunto
di ordine due.
Le densit`a marginali si calcolano come segue:
Z

fX (x) =

DX (y)

fXY (x, y)dy = 8

fY (y) =

DY (x)

fXY (x, y)dy = 8

Z 1
y

Z x
0

xydy = 4x3 ,

xydx = 4y(1 y 2 ),

x [0, 1]

y [0, 1],

76

VARIABILI ALEATORIE MULTIDIMENSIONALI

e il loro grafico `e mostrato, insieme con la densit`a mista, in Fig. 3.4. I valori medi e
le varianze delle distribuzioni marginali si calcolano, come di consueto, applicando
le loro definizioni:
E{X} = 4

Z 1
Z01

x4 dx =

4
5

8
15
Z01
2 16
2
5
2
= 4
x dx E {X} =
=
3
25
75
Z01
1
64
11
= 4
y 3 (1 y 2 )dy E 2 {Y } =
=
.
3 225
225
0

E{Y } = 4
2
X

Y2

y 2 (1 y 2 )dy =

Il prodotto delle densit`a marginali non `e uguale alla densit`a congiunta: ci`o significa
che la coppia X(), Y ()) non `e statisticamente indipendente. Calcoliamo perci`o il
loro momento misto:
E{XY } =

Z 1
0

dx

Z x
0

xyfXY (x, y)dy = 8

Z 1
0

x2 dx

Z x
0

y 2 dy =

4
9

f XY( x,y )
4
f (x)
X

1
x

DX( y) DY ( x)

x=

f ( y)
Y

y
0

Figura 3.4

dal quale si deduce la seguente covarianza:


Cov (X, Y ) = E{XY } E{X}E{Y } =

4
.
225

Il coefficiente di correlazione della coppia, definito dalla (3.9), nel caso in esame vale
(X, Y ) =

225

4
' 0.492366
2 11

75 225

e il suo valore sensibilmente minore dellunit`a mostra che le due variabili aleatorie
sono poco correlate statisticamente, nel senso precisato alla fine del 3.1.2.

3.1 Coppie di variabili aleatorie

3.1.3

77

Coppie di v.a. discrete

Se X() e Y () assumono rispettivamente valori reali xi ed yj con i = 1, 2, . . . , n,


j = 1, 2, . . . m, indichiamo con Pij = P {(X = xi ) (Y = yj )} la probabilit`a che la
coppia (X, Y ) assuma i valori (xi , yj ). Ovviamente, per gli assiomi della probabilit`a
le Pij devono soddisfare la condizione:
n X
m
X

Pij = 1.

i=1 j=1

La distribuzione mista, i momenti e le distribuzioni marginali della coppia discreta


si esprimono, sulla base delle definizioni date nei paragrafi precedenti, facendo uso
della funzione scalino unitario (2.3) e della funzione impulsiva. Cos , la loro funzione
di distribuzione congiunta `e data da
FXY (x, y) =

n X
m
X

Pij U (x xi )U (y yj )

(3.15)

i=1 j=1

e la corrispondente densit`a di probabilit`a congiunta `e linsieme bidimensionale di


impulsi:
fXY (x, y) =

n X
m
X

Pij (x xi )(y yj ).

(3.16)

i=1 j=1

Le rispettive funzioni di distribuzione marginali si ottengono sommando rispetto a


tutti i valori assunti dallaltra v.a.:
FX (x) =
FY (y) =

n X
m
X
i=1 j=1
m X
n
X

Pij U (x xi ),

x Dx

Pij U (y yj ),

y Dy

j=1 i=1

mentre le densit`a marginali valgono rispettivamente:


fX (x) =
fY (y) =

m
n X
X
i=1 j=1
m X
n
X

Pij (x xi ),

x Dx

Pij (y yj ),

y Dy .

j=1 i=1

I loro momenti congiunti sono definiti dalle somme:


E{X p Y q } =

n X
m
X
i=1 j=1

Pij xpi yjq

(3.17)

78

VARIABILI ALEATORIE MULTIDIMENSIONALI


n X
m
X

E{(X mX )p (Y mY )q } =

Pij (xi mX )p (yj mY )q

(3.18)

i=1 j=1

e in particolare la loro covarianza vale


n X
m
X

Cov (X, Y ) =

Pij (xi mX )(yj mY ).

(3.19)

i=1 j=1

Esempio 3.3

In una coppia di v.a. discrete, X() pu`o assumere i valori (2, 0, 2) e Y () i valori
(1, 0, 1). Le probabilit`a miste Pij , con i, j = 1, 2, 3 hanno i valori riportati nella
tabella di Fig. 3.5 e danno luogo, ricordando la (3.16), a una densit`a mista FXY (x, y)
che `e rappresentata dalla distribuzione di impulsi di Fig. 3.6. Si vuole calcolare le
densit`a marginali, la covarianza e il coefficiente di correlazione della coppia.
j

j Pij

y1 = - 1

y2 = 0

y3 = 1

x1 = - 2

1/8

1/3

1/8

7/12

x 2= 0

1/12

1/12

x 3= 2

1/4

1/12

1/3

i Pij

3/8

5/12

5/24

ij Pij =

Figura 3.5

Nella colonna a destra della tabella di Fig. 3.5 sono indicate le probabilit`a che si
ottengono sommando, per ogni i, rispetto a tutti i valori dellindice j. I risultati delle
somme forniscono le probabilit`a marginali di X(), che per la prima delle (3.17) ha
densit`a
1
1
7
fX (x) = (x + 2) + (x) + (x 2).
12
12
3
Allo stesso modo, le probabilit`a marginali di Y () sono ricavate nella riga sottostante
la stessa tabella, e forniscono la densit`a marginale:
3
5
5
fY (y) = (y + 1) + (y) + (y 1).
8
12
24
Queste distribuzioni marginali hanno i seguenti momenti del primo e secondo ordine:
mX

= 2

7
1
1
+2 = ;
12
3
2

E{X 2 } =

7 4
11
+ = ;
3 3
3

2
X
=

11 1
41
=
3
4
12

3.2 Caso di n variabili aleatorie

mY

3
5
1
= +
= ;
8 24
6

79

E{Y 2 } =

3
5
7
+
= ;
8 24
12

Y2 =

7
1
5

= .
12 36
9

Poiche il prodotto delle densit`a marginali non `e uguale alla densit`a mista assegnata,
le due variabili aleatorie non sono statisticamente indipendenti. La loro covarianza
si pu`o calcolare applicando la (3.19), ma `e pi`
u comodo determinarla ricordando la
(3.7):
Cov (X, Y ) = E{XY } mX mY =

2 2 2
2
1
1
5
+
mX mY =
= .
8 8 4 12
3 12
12

Siamo ora in grado di determinare il coefficiente di correlazione della coppia, che per
la (3.9) risulta:
5
(X, Y ) = r
' 0.3024.
41 5
12

12 9
fXY ( x,y )

f X ( x)
-2
-2

-1

fY ( y)

2
x

-1

Figura 3.6

3.2

Caso di n variabili aleatorie

Lestensione formale ad n dimensioni delle definizioni e dei risultati ottenuti nei


precedenti paragrafi si effettua senza particolari difficolt`a. Se in uno spazio di probabilit`a (, B, P ) si definiscono le n v.a. X1 (), X2 (), .., Xn (), il vettore aleatorio
X() = [X1 (), X2 (), . . . , Xn ()]T ,
dove T indica la trasposta, ha una funzione di distribuzione FX (x) : IRn [0, 1]
la quale misura la probabilit`a che si verifichino simultaneamente gli eventi (Xi
xi ), i = 1, .., n:
FX (x1 , x2 , . . . , xn ) = P {(X1 x1 ) (X2 x2 ) . . . (Xn xn )}.

(3.20)

80

VARIABILI ALEATORIE MULTIDIMENSIONALI

La (3.20) ha il significato di funzione di distribuzione congiunta delle n v.a. Xi (),


mentre la funzione di distribuzione marginale di una tra le Xi () si deduce da questa
mandando a + tutte le sue variabili indipendenti, tranne xi :
FXi (xi ) = FX (+, . . . , +, xi , +, . . . , +).
La derivata parziale mista di ordine n di FX (x1 , .., xn ), se esiste, `e la densit`a di
probabilit`a fX (x) : IRn IR del vettore X(), ovvero la densit`
a di probabilit`a
congiunta delle v.a. Xi ():
fX (x1 , x2 , .., xn ) =

n FX (x1 , . . . , xn )
x1 . . . xn

e il suo integrale di ordine (n 1), fatto rispetto a tutte le variabili indipendenti


tranne una xi , `e la densit`a marginale della v.a. Xi ():
fXi (xi ) =

...

fX (x1 , . . . , xn )dx1 dxi1 dxi+1 dxn .

(3.21)

Se le Xi () sono statisticamente indipendenti, allora la densit`a congiunta `e il prodotto


delle n densit`a marginali:
fX (x1 , . . . , xn ) = fX1 (x1 ) fX2 (x2 ) fXn (xn )
e questa propriet`a implica che le Xi () siano anche indipendenti a due a due.
Il valor medio del vettore aleatorio X() `e il vettore n-dimensionale:
mX = E{X} = [mX1 , mX2 , . . . , mXn ]T .
che ha per componenti i valori medi di ciascuna distribuzione marginale:
i = 1, .., n :

mXi =

xi fXi (xi )dxi .

Nel caso n-dimensionale si possono definire svariati momenti congiunti, a seconda


delle componenti del vettore X() che vi sono coinvolte. Particolare importanza
hanno i momenti centrali del secondo ordine relativi a ciascuna coppia (Xi , Xj ), che
sono gli elementi della matrice di covarianza:
CX = [Cov(Xi , Xj )]

i, j = 1, 2, . . . , n.

Si tratta di una matrice simmetrica n n, definita non negativa: det(CX ) 0, in


cui gli elementi della diagonale principale coincidono con la varianza di ciascuna
componente Xi (). Ricordando la definizione (3.9) del coefficiente di correlazione
ij = (Xi , Xj ), la matrice di covarianza si pu`o scrivere:

12
21 2 1
CX =
...
n1 n 1

12 1 2
22
...
n2 n 2

. . . 1n 1 n
. . . 2n 2 n

...
...
...
n2

(3.22)

3.2 Caso di n variabili aleatorie

81

ed `e anche il prodotto di matrici:


(3.220 )

CX = DX RX DX

dove DX `e la matrice diagonale delle deviazioni standard i , e RX `e la matrice di


correlazione:

1
12 . . . 1n
21
1 . . . 2n

RX =
... ... ... ... .
n1 n2 . . . 1
Il suo determinante ha propriet`a che richiamano quelle del coefficiente di correlazione
(3.9) tra due v.a. Infatti, poich`e anche RX `e simmetrica, si vede subito che 0
det(RX ) 1, e questo determinante vale 1 nel caso in cui le Xi () sono tutte a due
a due non correlate, perche allora la matrice di correlazione si riduce alla matrice
identica, e la matrice di covarianza degenera nella matrice diagonale delle varianze:
2

(Xi , Xj ) non correlate :

...
CX = . . . . . .
0 ...
1

RX = I;

0
...;
n2

det CX = i i2 .

Nel caso limite opposto, si pu`o invece dimostrare che lannullarsi del determinante
della matrice di covarianza e quindi per la (3.22) anche di det(RX ) `e condizione
necessaria e sufficiente perch`e almeno una delle Xi () sia una combinazione lineare
delle altre (n 1) variabili aleatorie:
Xi () = a0 + a1 X1 () + . . . + ai1 Xi1 () + ai+1 Xi+1 () + . . .
. . . + an Xn ()

Det (CX ) = 0,

Det (RX ) = 0

con a1 , .., ai1 , ai+1 , .., an costanti non nulle. Si osservi che la condizione ora enunciata non implica affatto (tranne nel caso banale n = 2) che ciascuna coppia (Xi , Xj ) sia
legata da una relazione lineare del tipo Xi () = aXj () + b. Come vedremo subito
nellEsempio che segue, `e possibile definire sistemi di tre (o pi`
u) v.a. che non sono
linearmente dipendenti a due a due, in cui tuttavia almeno una Xi () `e combinazione
lineare delle rimanenti. Il caso che tratteremo riguarda un insieme di tre variabili
aleatorie discrete, per il quale `e immediato applicare i risultati appena ottenuti,
che sono validi per un generico vettore aleatorio con componenti sia continue che
discrete.
Esempio 3.4

Lesperimento consiste nella estrazione casuale di una pallina da unurna che ne


contiene 10 di cui 3 bianche, 2 nere e 5 rosse. Definiamo tre v.a. X(), Y (), Z(),
e decidiamo di assegnare ad esse il valore 0 oppure 1 a seconda che si realizzino
determinati eventi. Precisamente:

se si estrae una pallina

bianca
nera o rossa

X=1
X=0

82

VARIABILI ALEATORIE MULTIDIMENSIONALI

se si estrae una pallina

se si estrae una pallina

nera
bianca o rossa

Y =1
Y =0

rossa
bianca o nera

Z=1
Z = 0.

Si vuole studiare la statistica mista del vettore aleatorio: X() = [X, Y, Z]T . A tal
fine calcoliamo dapprima le probabilit`a
Pijk = P {(X = i) (Y = j) (Z = k)},

i, j, k = 0, 1

dellintersezione di tre degli eventi sopra definiti. Tenuto conto della equiprobabilit`a
dellestrazione di una pallina di colore bianco, nero o rosso, le Pijk valgono:
P100 =

3
;
10

1
P010 = ;
5

1
P001 = ;
2

P000 = P011 = P101 = P110 = P111 = 0.

La densit`a di probabilit`a congiunta `e la sequenza di impulsi:


fX (x, y, z) =

1
X

Pijk (x i)(y j)(z k)

i,j,k=0

e le densit`a marginali di ciascuna v.a. valgono:


fX (x) =

1
X
i=0

fY (y) =
fZ (z) =

1
X
j=0
1
X

1
X

(x i)
(y j)

Pijk =

j,k=0
1
X

(z k)

k=0

3
7
(x) + (x 1)
10
10

4
1
Pijk = (y) + (y 1)
5
5
i,k=0
1
X

1
1
Pijk = (z) + (z 1).
2
2
i,j=0

Calcoliamone ora i valori medi:


mX =

X
i,j,k

i Pijk =

3
,
10

mY =

1
j Pijk = ,
5
i,j,k

mZ =

k Pijk =

i,j,k

1
2

che utilizziamo per determinare le covarianze di ciascuna coppia:


X

3 1
3
=
10
5
50
i,j,k
X
3 1
3
Cov(X, Z) = E{XZ} mX mZ =
ik Pijk mX mZ = 0
=
10 2
20
i,j,k
X
1 1
1
Cov(Y, Z) = E{Y Z} mY mZ =
jk Pijk mY mZ = 0 =
5 2
10
i,j,k

Cov(X, Y ) = E{XY } mX mY =

ij Pijk mX mY = 0

3.3 Trasformate della densit`


a di probabilit`
a

83

poiche i loro momenti del secondo ordine (non centrali) sono tutti nulli. Dunque le
tre variabili aleatorie sono correlate a due a due. Calcoliamo anche le loro varianze:
2
X

X
i,j,k

Z2

21
;
100
1
= ,
4

(i mX )2 Pijk =
2

(k mZ ) Pijk

i,j,k

Y2 =

(j mY )2 Pijk =

i,j,k

4
25

da cui ricaviamo subito i rispettivi scarti quadratici medi: X


= 0.458, Y =
0.4, Z = 0.5. Siamo ora in grado di calcolare i coefficienti di correlazione i quali,
applicando la (3.9) a ciascuna coppia, valgono:
(X, Y )
= 0.327,

(X.Z)
= 0.654,

(Y, Z) = 0.5

e ci indicano che X, Y, Z non formano coppie di v.a. linearmente dipendenti. Tuttavia, la matrice di covarianza di X() = [X, Y, Z]T `e la seguente:

21/100 3/50 3/20

CX = 3/50
4/25 1/10
3/20 1/10
1/4
e ha determinante nullo, cos come RX . Il rango di queste matrici `e 2: ci`o significa
che una delle tre v.a. `e combinazione lineare delle altre due. Precisamente, `e facile
vedere che sussiste la relazione: Z() = X() + Y (). Infatti, dai calcoli svolti si
pu`o verificare che il valor medio di Z() `e la somma di mX ed mY , mentre la sua
varianza soddisfa la propriet`a (3.8) con a = b = 1:
2
Z2 = X
+ Y2 + 2 Cov(X, Y ) =

4
3
1
21
+
2
= ,
100 25
50
4

che vale per una combinazione lineare di v.a. X() e Y () tra loro correlate.

3.3
3.3.1

Trasformate della densit`


a di probabilit`
a
Funzione caratteristica

La funzione caratteristica X (u) : IR C di una variabile aleatoria X() `e la


trasformata di Fourier (a meno del fattore 1/2) della sua densit`a di probabilit`a
fX (x):
Z
X (u) = E{eiuX } =

eiux fX (x)dx.

(3.23)

Per la definizione di momento di una v.a., essa rappresenta il valor medio della
funzione complessa
g(X) = eiuX = cos(uX) + i sin(uX)

84

VARIABILI ALEATORIE MULTIDIMENSIONALI

della v.a. X(), per cui si pu`o anche scrivere:


X (u) = E{cos(uX)} + i E{sin(uX)}.
La definizione (3.23) `e valida per qualsiasi variabile aleatoria: continua, discreta o
mista. Se per`o la v.a. `e discreta e assume valori in xk con probabilit`a pk , la sua
funzione caratteristica pu`o anche essere espressa nella forma equivalente:
X (u) =

eiuxk pk =

cos(uxk )pk + i

sin(uxk )pk .

(3.230 )

Le principali propriet`a di X (u) sono le seguenti.


1. Dalla sua definizione (3.23) si deduce subito che X (0) = 1.
2. |X (u)| 1, dove il segno di uguaglianza vale, salvo casi eccezionali, solo per
u = 0.
Dimostrazione: tenuto conto che |eiux | = [cos2 (ux) + sin2 (ux)]1/2 = 1, si ricava:
Z
Z
Z

iux
iux

|X (u)| =
e fX (x)dx
|e |fX (x)dx =
fX (x)dx = 1.

3. Se Y () `e una funzione lineare Y = aX + b della variabile casuale X() che ha


funzione caratteristica X (u), allora:
Y (u) = eiub X (au).
Dimostrazione: basta osservare che si pu`o scrivere
Y (u) = E{eiuY } = E{eiu(aX+b) } = E{eiuaX eiub } = eiub E{eiuaX }
e per la (3.23) `e appunto: E{eiuaX } = X (au).
4. Se X1 , X2 sono v.a. statisticamente indipendenti e hanno rispettivamente funzioni
caratteristiche 1 (u) e 2 (u), allora la funzione caratteristica della loro somma Y =
X1 + X2 `e uguale al prodotto delle rispettive funzioni caratteristiche:
Y (u) = X1 +X2 (u) = 1 (u) 2 (u).
Dimostrazione: poich`e per la (3.12) la densit`a mista f12 (x1 , x2 ) di due v.a. indipendenti `e uguale al prodotto delle rispettive densit`a marginali, si ha:
X1 +X2 (u) = E{eiu(X1 +X2 ) } =
=

eiu(X1 +X2 ) f12 (x1 , x2 ) =

eiuX1 f1 (x1 )dx1

eiuX2 )f2 (x2 )dx2 = 1 (u)2 (u).

3.3 Trasformate della densit`


a di probabilit`
a

85

5. Una funzione caratteristica X (u) `e legata ai momenti della variabile casuale


X() da una relazione assai importante che `e spesso utile nelle applicazioni. Questa
sua propriet`a, che riportiamo senza dimostrazione, si pu`o enunciare come segue.
Se esiste, finito, il momento E{X q } di ordine q della variabile casuale X(), allora
esiste, ed `e continua, la derivata di ordine q della sua funzione caratteristica:
(q)
X (u)

(ix)q eiux fX (x)dx

la quale per u = 0 vale:


(q)

X (0) = iq E{X q }.
Se esiste
Se esiste

(r)
X (0)
(r)
X (0)

(3.24)

con r pari, allora esiste finito il momento E{X r } e vale la (3.24).


ed r `e dispari, allora esiste E{X (r1) }.

Ne segue anzitutto che la (3.24) permette il calcolo dei momenti di ordine pari di
X(), che si possono ottenere per derivazione della sua funzione caratteristica. Se
poi X (u) ammette uno sviluppo in serie di Mc Laurin, allora per la (3.24) si ricava
anche:
X (u) =

X
uq (q)
q=0

q!

X (0) =

X
(iu)q
q=0

q!

E{X q }

(3.25)

che pu`o essere utilizzata per la determinazione di X (u) qualora non si conosca la
densit`a ma siano noti, ed esistano finiti, tutti i momenti della variabile aleatoria.
6. Dalla teoria delle trasformate di Fourier si ha che, sotto la condizione di assoluta
integrabilit`a della funzione caratteristica, vale la formula di inversione:
1
fX (x) =
2

eiux X (u)du

(3.26)

la quale permette di determinare fX (x) se `e nota la funzione caratteristica X (u).


Combinandola con la (3.25), la formula di inversione permette anche di calcolare la
densit`a di probabilit`a di una variabile aleatoria, a partire dalla conoscenza di tutti i
suoi momenti (supposto che esistano finiti).
7. La definizione (3.23) si estende senza difficolt`a al caso di variabili aleatorie multidimensionali. Precisamente, data la v.a. vettoriale X = {X1 , . . . , Xn } con densit`a
fx (x1 , . . . , xn ), la sua funzione caratteristica x (u1 , .., un ) : IRn C `e la funzione di
n variabili:
x (u1 , .., un ) = E{ei(u1 X1 +...+un Xn ) } =
=

ei(u1 X1 +...+un Xn ) fx (x1 , . . . , xn )dx1 . . . .dxn .

86

VARIABILI ALEATORIE MULTIDIMENSIONALI

In particolare, per n = 2 la funzione caratteristica `e la trasformata di Fourier della


densit`a mista delle due componenti di X = {X1 , X2 }, e se queste sono statisticamente indipendenti vale la relazione:
x (u1 , u2 ) = x1 (u1 )x2 (u2 ).
Anche la formula di inversione si estende facilmente al caso multidimensionale; per
esempio, per n = 2 si ha:
fx (x1 , x2 ) =

1
4 2

Z Z

exp[i(u1 x1 + u2 x2 )]x (u1 , u2 )du1 du2 .

Esempio 3.5

Si conoscono i momenti di una v.a. X() che `e definita nellintervallo [0,1], ma di


cui non si conosce la densit`a. Questi momenti valgono:
q = 1, 2, . . . : E{X q } = 1/(q + 1).
Si vuole determinare la distribuzione e la funzione di densit`a di X(). Per la (3.25)
la funzione caratteristica di X() `e data da

X
(iu)s1
1 X
(iu)s
(iu)q
=
=
.
X (u) =
q!(q + 1) s=1 s!
iu s=1 s!
q=0

Me se si tiene conto dello sviluppo in serie della funzione esponenziale:


ex =

X
xs
s=0

s!

=1+

X
xs
s=1

s!

si ottiene:

eiu 1
sin u
cos u 1
=
i
.
iu
u
u
La funzione trovata `e la trasformata di Fourier della funzione:
X (u) =

fX (x) =

1 se x [0, 1]
0 altrove

come si pu`o facilmente verificare sostituendola nella definizione (3.23). Infatti


Z 1
0

1 eiux dx =

1 h iux i1 eiu 1
e
=
= X (u).
0
iu
iu

Pertanto, X() `e uniformemente distribuita nellintervallo [0, 1].


Esempio 3.6

3.3 Trasformate della densit`


a di probabilit`
a

87

La variabile casuale discreta X() con densit`a di probabilit`a


1
1
FX (x) = (x 1) + (x + 1)
2
2
assume valori per x = 1 con probabilit`a p(1) = 1/2 (v. Fig. 3.7a). Applichiamo
la (3.23) per calcolarne la funzione caratteristica, sostituendo ad xk (con k = 1, 2)
i valori 1 e le corrispondenti probabilit`a pk = 1/2. Si ottiene subito:
X (u) =

1 iu
1
e + eiu = [(cos u + i sin u) + (cos u i sin u)] = cos u.
2
2

-1 0

(u)

f X (x)

(u)

-a

-1

c
X

(u)

a/2

(u)

f X (x)

f X (x)

Figura 3.7 - Funzioni caratteristiche e loro antitrasformate di Fourier

Esempio 3.7

Calcoliamo la funzione caratteristica di una v.a. uniformemente distribuita nellintervallo a x a, che ha densit`a

fX (x) =

1/2a, per |x| a


0
altrove.

(3.27)

Per la definizione (3.23) si ha:


Z a

"

1
1 eiux
X (u) =
eiux dx =
2a
2a iu
a

#a

=
a

eiua eiua
2i sin(ua)
sin(ua)
=
=
2iua
2iua
ua

il cui grafico, insieme a quello di fX (x), `e mostrato in Fig. 3.7b).

88

VARIABILI ALEATORIE MULTIDIMENSIONALI

Esistono tutti i momenti E{X q } della densit`a uniforme (2.18): per la definizione
(2.13) quelli di ordine dispari sono tutti nulli, e quelli di ordine pari valgono:
E{X 2k } =

k = 1, 2, . . . :

Z a

x2k

1
1
dx =
2a
a

Z a
0

a2k
.
2k + 1

x2k dx =

La loro conoscenza permette di sfruttare unaltra via per la determinazione della


funzione caratteristica: infatti se si applica la (3.25) anzich`e la definizione (3.23) si
ritrova:
X (u) =

X
(iu)2k
k=0

2k+1
X
a2k
1 X
(ua)2k+1
sin(ua)
2k (ua)
=
i
=
(1)k
=
(2k)! 2k + 1 k=0 ua(2k + 1)!
ua k=0
(2k + 1)!
ua

poich`e lultima sommatoria `e lo sviluppo in serie della funzione sin(ua).


Esempio 3.8

Calcoliamo ancora la funzione caratteristica della v.a. con densit`a


a
con a > 0, x IR
fX (x) = ea|x|
2
mostrata in Fig. 3.7c). Dalla definizione (3.23) si ricava:
X (u) =
"

a
2

Z 0

eiux eax dx +

a ex(iu+a)
=
2 iu + a

#0

"

a
2

Z
0

eiux eax dx =

a ex(iua)
+
2 iu a

=
0

a
2

1
1

iu + a iu a

a2
.
a2 + u2

Esempio 3.9

Calcoliamo infine la funzione caratteristica di una variabile casuale X() che ha


legge normale N (, 2 ), applicando ancora la (3.23). Conviene anzitutto introdurre
la variabile ausiliaria Y = X che `e anchessa normale, ma con media nulla e
la stessa varianza 2 . Per la propriet`a 3) la funzione caratteristica di X `e legata a
quella di Y dalla relazione
X (u) = E{eiu(Y +) } = eiu Y (u).

(3.28)

Determiniamo ora questultima:


1
Y (u) =
2

"

iuy

y2
1
exp 2 dy =
2
2

Lultimo integrale si calcola con la formula:


Z

ey(py+q) dy =

q2 /2p
e
p

y
exp y
iu
2 2

dove p =

1
,
2 2

q = iu

dy.

3.3 Trasformate della densit`


a di probabilit`
a

e fornisce

89

u2 2
Y (u) = exp
2

Dalla (3.28) si deduce quindi la funzione caratteristica di X() N (, 2 ), che `e la


seguente funzione complessa:

u2 2
X (u) = exp iu
2

Si noti, come caso particolare, che se X() `e normale standard ( = 0, = 1) la sua


funzione caratteristica, mostrata in Fig. 3.7d), `e la funzione esponenziale gaussiana
con valori reali:
X() N (0, 1) :

3.3.2

2 /2

X (u) = eu

(0, 1].

Funzione generatrice dei momenti

La funzione generatrice dei momenti X (u) : IR IR di una variabile casuale X()


`e la trasformata di Laplace della sua densit`a di probabilit`a fX (x):
X (u) = E{euX } =

eux fX (x)

(3.27)

ed esiste se lintegrale che la definisce `e finito in un intorno di u = 0. Le sue principali


propriet`a, in parte simili a quelle della funzione caratteristica, sono le seguenti.
1. X (0) = 1.
2. Se Y () `e una funzione lineare Y = aX + b della v.a. X(), dotata di funzione
generatrice dei momenti X (u), allora:
Y (u) = eub X (au).
3. Se X1 , X2 sono v.a. statisticamente indipendenti con funzioni generatrici 1 (u) e
2 (u), allora la funzione generatrice dei momenti della loro somma Y () = X1 + X2
`e il prodotto delle rispettive funzioni generatrici:
Y (u) = x1 +x2 (u) = 1 (u) 2 (u).
4. Se la v.a. X() ha funzione generatrice dei momenti in un intorno |u| uo di
u = 0, allora i suoi momenti E{X q } esistono finiti, e sono uguali alla derivata di
ordine q di X (u) calcolata nellorigine:
(q)

X (0) = E{xq }.

(3.28)

90

VARIABILI ALEATORIE MULTIDIMENSIONALI

Inoltre, nellintorno |u| uo la funzione generatrice dei momenti ammette lo sviluppo


in serie:

X
X
uq (q)
uq
X (0) =
E{X q }.
(3.29)
X (u) =
q!
q!
q=0
q=0
Si noti che, a differenza della funzione caratteristica X (u), lesistenza di X (u)
garantisce lesistenza di tutti i momenti di X(), i quali sono calcolabili utilizzando
le formule precedenti che non coinvolgono lunit`a immaginaria.
Esempio 3.10

La funzione generatrice dei momenti di una v.a. X() con distribuzione esponenziale
fX (x) = ex , > 0, x IR+ vale
X (u) =

Z
0

eux ex dx =

Z
0

e(u)x dx =

h (u)x i

e
=
0
u
u

ed `e mostrata in Fig. 3.8. Lesistenza di X (u) finita in un intorno |u| uo < di


u = 0 garantisce lesistenza dei momenti di fX (x). Utilizzando la (3.28), si possono
calcolare questi momenti verificando un risultato gi`a ottenuto per altra via nel 2.3.4.

m ( u)
X

f (x)
X

Figura 3.8 Generatrice dei momenti di una distribuzione esponenziale

Infatti:
q = 1, 2, 3, . . . :

(q)
X (u)

dq
= q
du

e queste derivate, calcolate per u = 0, forniscono:


(q)

X (0) = E{X q } =

q!
.
q

q!
( u)q+1

3.4 Problemi risolti

91

Al contrario, a partire dalla conoscenza dei momenti si pu`o determinare univocamente la legge di X(). Infatti, `e soddisfatta la condizione (2.17) per lunicit`a di
fX (x):
k 2q
(2q)! k 2q
E{X }
= 2q
=
(2q)!

(2q)!
2q

2q
k

per q +, 0 < k < .

La serie (3.29) determina la funzione generatrice dei momenti:

X
uq
q=0

X
u
q!
q =
q!

q=0

=
= X (u)
1 u/
u

perch`e la serie geometrica di ragione u/ converge per |u| < . Una volta ricavata
X (u), da questa si ottiene, con una antitrasformata, la densit`a esponenziale fX (x).

3.4

Problemi risolti

3.1. La variabile aleatoria Z = 3X Y con X e Y non correlate ha varianza


2 2 . Vero o falso?
Z2 = 9X
Y
2 + 2 .
Risposta: E Falso perche Z2 = 9X
Y

3.2. Una coppia di variabili aleatorie discrete X, Y con valori xi = 0, 1 e yj = 0, 1, 2


ha probabilit`a congiunte Pij che valgono:
P00 = P02 = 1/12;

P01 = P10 = P11 = 1/6;

P12 = 1/3.

Determinare: le densit`a marginali, i loro valori medi e la covarianza della coppia.


Soluzione:
fX (0) =

2
X

P0j = 1/12+1/6+1/12 = 1/3

fX (1) =

j=0

fY (0) =
fY (2) =

2
X

P1j = 1/6+1/6+1/3 = 2/3

j=0

1
X
i=0
1
X

Pi0 = 1/12 + 1/6 = 1/4

fY (1) =

1
X

Pi1 = 1/6 + 1/6 = 1/3

i=0

Pi2 = 1/12 + 1/3 = 5/12

i=0

E{X} = 1 (2/3) = 2/3

E{Y } = 1 (1/3) + 2 (5/12) = 7/6

92

VARIABILI ALEATORIE MULTIDIMENSIONALI

sxy =

1 X
2
X

Pij xi yj E{X}E{Y } = 1/6+(1/3)2(2/3)(7/6) = 5/67/9 = 1/18

i=0 j=0

3.3. Una coppia (X, Y ) di variabili aleatorie ha densit`a congiunta


f (x, y) = 8xy,

0 x 1; 0 y x

e nulla altrove. a) Determinare le densit`a marginali di X e Y ; b) dire se sono statisticamente indipendenti giustificando la risposta; c) calcolare il momento congiunto
E{XY }.
Soluzione.
a) Il supporto della densit`a congiunta `e il triangolo del piano (x, y) delimitato dalle
rette y = x; y = 0 e x = 1. La densit`a marginale di X si ottiene integrando f (x, y)
rispetto ad y sullintervallo Dy (x) = [0, x] ; quella di Y integrando f (x, y) rispetto
ad x sullintervallo Dx (y) = [y, 1] :
fX (x) = 8x
fY (y) = 8y

Z x
0
Z 1
y

ydy = 4x3 ,

0x1

xdx = 4y(1 y 2 ) ,

0 y 1.

b) X e Y non sono indipendenti perche


fX (x)fY (y) = 16x3 y(1 y 2 ) 6= f (x, y).
c) Il momento congiunto vale
Z Z

E{XY } =

xyf (x, y)dxdy = 8

Z 1
0

x dx

Z x
0

8
y dy =
3
2

Z 1
0

x5 dx =

4
.
9

3.4. Calcolare la covarianza della coppia (X, Y ) di variabili casuali discrete che
hanno valori xi = 0, 1 e 2 ed yj = 0 e 2 con probabilit`a congiunte P00 = P20 = P22 =
1/6; P10 = 1/3; P02 = P12 = 1/12.
Soluzione. Occorre dapprima calcolare le densit`a marginali e i valori medi di X e
Y:
fX (0) =

2
X
j=0

fX (2) =

2
X
j=0

P0j

1 1
1
= + = ,
6 2
4

P2j =

1 1
1
+ =
6 6
3

fX (1) =

2
X
j=0

P1j =

1
1
5
+
=
3 12
12

3.4 Problemi risolti

fY (0) =

2
X
i=0

E{X} =

Pi0 =

93

1 1 1
2
+ + = ,
6 3 6
3

1
13
5
+2 =
,
12
3
12

fY (2) =

2
X
i=0

Pi2 =

1
1
1
1
+
+ =
12 12 6
3

1
2
E{Y } = 2 =
3
3

da cui si ottiene:
sxy =

2 X
2
X
i=0 j=0

Pij xi yj E{X}E{Y } = 2

1 13 2
5 13
1
1
+4
=
==
12
6 12 3
6 18
9

94

VARIABILI ALEATORIE MULTIDIMENSIONALI

3.5. Date due variabili aleatorie X, Y e due costanti non nulle a, b, vale lidentit`
a:
Cov(aX, bY ) = (a + b)Cov(X, Y ). Vero o Falso, e perch`e ?
Risposta: `e Falso , perch`e vale a b Cov(X, Y ).
3.6. X e Y sono due variabili aleatorie indipendenti aventi distribuzione di Poisson
con parametri rispettivamente X = 2 e Y = 3. Calcolare la probabilit`a IP[(X
1) (Y 1)] e il momento E{XY }.
Soluzione. Le densit`a di probabilit`a marginali di X e Y sono:
fX (x) = e2

k
X
2
k=0

k!

fY (y) = e3

(x k) ;

X
3h
h=0

h!

(y h)

dove () sono funzioni impulsive nei punti xi , yj = 0, 1, 2, . . .


Poiche X e Y sono indipendenti, la loro densit`a congiunta `e il prodotto delle densit`a
marginali, e cos` per la loro funzione di distribuzione congiunta che vale:
F (x, y) = FX (x)FY (y) = e5

X
i j
X
23
i=0 j=0

i!j!

U (x xi )U (y yj )

dove U () `e la funzione a gradino unitario nei punti xi e yj . La probabilit`a richiesta


`e uguale a F (1, 1) e perci`o vale:
IP[(X 1) (Y 1)] = e5

1 X
1
X
2i 3j
i=0 j=0

= e

i!j!

20 30 20 3 2 30 2 3
+
+
+
0!0!
0!1!
1!0!
1!1!

= 12e5 ' 0.0808 .

I valori medi marginali coincidono con i ripettivi parametri di Poisson X , Y , e


sempre per la loro indipendenza statistica si ricava subito che
E{XY } = mX mY = 2 3 = 6 .
3.7. Due variabili aleatorie X, Y sono distribuite con legge normale, rispettivamente
N (2, 2) e N (1, 4) e hanno momento congiunto E{XY } = 0.6. Calcolare il loro
coefficiente di correlazione.
Soluzione. La covarianza della coppia `e
sxy = E{XY } mX mY = 0.6 + 1 2 = 6.2
e quindi il coefficiente di correlazione vale
(X, Y ) =

sxy
2.6
= ' 0.9192 .
X Y
2 2

TRASFORMAZIONI DI
VARIABILI ALEATORIE
4.1

Generalit`
a

Si presenta di frequente il problema di determinare le propriet`a statistiche di una


variabile casuale Y () che `e il risultato della trasformazione subita da un altra
variabile casuale X() con distribuzione nota. Ad esempio, Y () pu`o essere luscita
di un sistema con caratteristica di funzionamento nota ed espressa matematicamente
dalla funzione di variabile reale g(x), al quale sia stato applicato un ingresso casuale
X() secondo lo schema indicato in Fig. 4.1. La variabile casuale X() associa
ad ogni evento di un esperimento casuale il numero reale x Dx , realizzazione
dellingresso aleatorio. Questo ingresso `e trasformato dal sistema secondo la legge
deterministica g(x), ed in uscita si presenta nella forma y = g(x). Dunque la funzione
g(x), definita in Dx , fa corrispondere allevento il numero reale y DY , generica
realizzazione della funzione di variabile aleatoria:
Y () = g[X()].

(4.1)

Laleatoriet`a di Y () pu`o anche essere dovuta a disturbi aleatori nella trasformazione


di un ingresso deterministico X, oppure ad imperfezioni nelle componenti costitutive del sistema stesso. In tal caso, il modello prababilistico della funzione di
trasferimento che caratterizza il sistema `e del tipo: g((); x) dove () `e una
variabile casuale reale con statistica nota, e luscita del sistema sar`a la funzione
Y (; x) = g[(); x] della variabile casuale (), che `e ora definita da una trasformazione in cui x ha il ruolo di un parametro deterministico.
Le due forme di aleatoriet`a possono anche essere presenti simultaneamente. Si consideri un ingresso aleatorio X() che `e trasformato da un sistema con caratteristica
di funzionamento g(x, ()). Luscita Y () sar`a allora aleatoria per leffetto combinato di X() e di (), ossia una funzione di due variabili casuali:
Y () = g[Z()],

Z() = {X(), ()} : IR2


95

96

TRASFORMAZIONI DI VARIABILI ALEATORIE

g(x)
W

X( w)

g(x)

Y( w)

Y( w)
w

X( w)
x

Figura 4.1

che sono le componenti di un vettore aleatorio bidimensionale con statistica che si


suppone conosciuta.
Generalizzando la formulazione di queste trasformazioni a sistemi pi`
u complessi,
si pu`o infine definire un vettore aleatorio m-dimensionale Y() = g[Z()], che con
legge definita dalla funzione vettoriale g si pu`o esprimere come funzione di un vettore
aleatorio n-dimensionale Z() avente densit`a di probabilit`a nota.
Nel paragrafo che segue studieremo anzitutto la trasformazione (4.1), e mostreremo
come si determina la legge probabilistica della funzione di variabile casuale Y (), se
sono note: la funzione caratteristica g(x) e la densit`a di probabilit`a fX (x) dellingresso aleatorio.

4.2

Funzioni di una variabile casuale

4.2.1

Calcolo della funzione di distribuzione

Un metodo generale per ottenere la statistica della funzione di variabile casuale


definita nella (4.1), per il quale non si richiedono ipotesi restrittive sulla funzione
caratteristica g(x), consiste nel determinare la sua funzione di distribuzione FY (y)
mediante una opportuna integrazione della densit`a in ingresso fX (x), che per ipotesi
`e nota e definita sul supporto Dx . Per la definizione di funzione di distribuzione di
una variabile casuale, e tenuto conto della (4.1), si ha:
FY (y) = P (Y y) = P [g(X) y].
Se ora indichiamo con Ex (y) = {x Dx : g(x) y} linsieme dei valori di x
appartenenti a Dx e tali da verificare la condizione: g(x) y, si pu`o dire che
P [g(X) y] `e la probabilit`a che X() assuma valori in Ex (y). Dunque, per la

4.2 Funzioni di una variabile casuale

97

definizione di densit`a di probabilit`a risulta


Z

FY (y) = P [X Ex (y)] =

Ex (y)

fX (x)dx.

(4.2)

g(x)
fY (y)

-y

f X (x)

g(x)
f Y (y)
y

b
f X (x)
y

f Y (0)
0

Figura 4.2 - Casi

a,b

La densit`a di probabilit`a fY (y) si ottiene quindi, come ci `e noto, per derivazione:


fY (y) = dF (y)/dy.
Esempio 4.1: dispositivi elettronici

a) Un dispositivo raddrizzatore a doppia semionda con funzione di trasferimento:


g(x) = |x| `e sottoposto a un ingresso aleatorio X() con distribuzione normale
N (1, 1/2). Per valutare la funzione di distribuzione FY (y) in uscita, osserviamo che

Ex (y) =

{x IR : |x| < y} = [y, y], se y > 0,


0
se y 0.

Pertanto la (4.2) fornisce:


FY (y) =
dove

Z y
y

fX (x)dx = FX (y) FX (y),

1
2
fX (x) = e(x1) ,

y>0

FX (x) = 1/2 + erf [ 2(x 1)]

sono la densit`a e la funzione di distribuzione dellingresso normale con media 1 e


varianza 1/2. Per y 0 si ha invece FY (y) = 0.

98

TRASFORMAZIONI DI VARIABILI ALEATORIE

La densit`a in uscita si ricava per derivazione:


fY (y) =

i
dFX (y) dFX (y)
1 h
2
2

= fX (y) + fX (y) = e(y1) + e(y+1)


dy
dy

se y > 0, mentre fY (y) = 0 per y 0. Il dispositivo trasforma i segnali negativi


restituendoli, con una eguale misura di probabilit`a, in valori positivi nel segnale di
uscita (v. Fig. 4.2a).
b) Il raddrizzatore a semionda con caratteristica:
x + |x|
g(x) =
=
2

x se x 0,
0 se x < 0

e ingresso con la medesima legge normale N (1, 12 ), sopprime invece i segnali negativi
e trasmette inalterati quelli positivi. Infatti il dominio di integrazione nella (4.2)
vale:
y<0:

Ex (y) = 0

y0:

Ex (y) = (, y]

FY (y) = 0
=

FY (y) =

Z y

fX (x)dx = FX (y).

Dunque FY (y) ha una discontinuit`a per y = 0, e si pu`o scrivere


FY (y) = FX (y)U (y)
dove U (y) `e la funzione a gradino unitario in y = 0. Per derivazione rispetto ad y
otteniamo quindi la seguente densit`a:
fY (y) = fX (y)U (y) + FX (0)(y)
che `e illustrata in Fig. 4.2b). Luscita del dispositivo `e dunque una variabile casuale
mista, perche dotata di una distribuzione continua in [0, +) che riproduce il segnale
di ingresso in tale intervallo, alla quale si aggiunge limpulso FX (0) per y = 0. Si
osservi che lentit`a di tale impulso `e uguale alla misura di probabilit`a da attribuire
allinsieme dei segnali negativi che sono stati soppressi.
c) Il dispositivo con caratteristica

g(x) =

1, x 0
1,
x>0

che ha un ingresso aleatorio con distribuzione normale N (1, 1), lo trasforma in una
variabile casuale discreta con valori 1. Infatti la funzione di distribuzione in uscita
FY (y) si determina come segue:
y < 1 :

Ex (y) = 0

FY (y) = 0

4.2 Funzioni di una variabile casuale

1 y < 1 :

Ex (y) = (, 0]

y1:

Ex (y) = IR

99

Z 0

FY (y) =

FY (y) =

Z +

fX (x)dx = FX (0)

fX (x)dx = 1.

Dunque FY (y) `e la funzione costante a tratti:


FY (y) = FX (0)U (y + 1) + [1 FX (0)]U (y 1)
g(x)
1

fY (y)

f X (x)

-1
0

-1

g(x)
1

F (x)
X

-1
0

f Y (y)

FY (y)

f X (x)

-1

-1
Figura 4.2 - Casi

c,d

dove FX (0) `e la funzione di distribuzione della normale in ingresso, calcolata per


x = 0:
FX (0) = 0.5 + erf[(0 mx )/] = 0.5 erf(1) ' 0.16.
La distribuzione in uscita ha pertanto due gradini, di altezza rispettivamente 0.16
per y = 1 ed 1 0.16 = 0.84 per y = 1. Per derivazione rispetto ad y si ricava
subito la densit`a in uscita:
fY (y) = FX (0)(y + 1) + [1 FX (0)](y 1)
che `e quella di una v.a. discreta (v. Fig. 4.2c) che assume valori 1 con probabilit`a
p(1) = 0.84 e p(1) = 0.16.
d) Un ingresso normale standard N (0, 1) `e applicato a un limitatore di segnale la
cui caratteristica:

x < 1
1,
1 x 1
g(x) = x,

+1,
x>1

100

TRASFORMAZIONI DI VARIABILI ALEATORIE

`e mostrata in Fig. 4.2d). Calcoliamo la distribuzione in uscita FY (y) suddividendo


DY = IR in tre intervalli:
y < 1 :
1 y < 1 :
y1:

Ex (y) = 0

FY (y) = 0

Ex (y) = (, y]

Ex (y) = IR

FY (y) =

Z y

FY (y) =

Z +

fX (x)dx = FX (y)

fX (x)dx = 1.

Pertanto FY (y) `e la funzione


FY (y) = FX (y)U (y + 1) + [1 FX (y)]U (y 1),
dove FX (y) = 0.5+ erf(y) `e la distribuzione normale in ingresso, calcolata per x = y.
Nellintervallo 1 y < +1 la distribuzione in uscita riproduce quella in ingresso
ed ha due discontinuit`a agli estremi di questo intervallo, con gradini di ampiezza
FX (1) = 0.5 + erf(1) = 0.1587 (v. Fig. 4.2d).
Per derivazione di FY (y) che in questo caso deve essere effettuata derivando opportunamente i prodotti di due funzioni di y si ottiene la seguente densit`a di
probabilit`a:
fY (y) = fX (y)U (y + 1) + FX (1)(y + 1) fX (y)U (y 1)+

+[1 FX (1)](y 1) =

1
1
2
+ erf(1) [(y + 1) + (y 1)].
= ey /2 [U (y + 1) U (y 1)] +
2
2
Questa `e una densit`a mista che ha ancora legge normale standard per y [1, 1],
`e nulla allesterno di tale intervallo, e presenta due impulsi uguali per y = 1
di intensit`a p(1) = 0.1587, che `e uguale alla massa di probabilit`a contenuta in
ciascuna delle due code della distribuzione di ingresso che sono state eliminate
nella risposta del sistema (v. Fig. 4.2d).

4.2.2

Calcolo diretto della densit`


a

Se `e nota fX (x) e se g(x) `e continua e derivabile in Dx , si pu`o ottenere direttamente


la densit`a di probabilit`a fY (y) applicando il seguente
TEOREMA
Se {x(j) (y)}, j = 1, .., N `e linsieme numerabile delle radici reali dellequazione
g(x) y = 0

4.2 Funzioni di una variabile casuale

101

nella variabile x, allora la densit`a di probabilit`a della variabile casuale Y () definita


dalla (4.1) vale:
N
X
fX (x(j) (y))
fY (y) =
(4.3)
|g 0 (x(j) (y))|
j=1
dove con g 0 (x(j) (y)) si indica la derivata di g, calcolata per x = x(j) (y). Qualora
esistano valori y per cui lequazione: g(x) y = 0 non ammette soluzioni reali, si ha
fY (y) = 0.

g(x)
dy
y
dx 1

dx 2

E x (y)
x(1)

x ( 2)

Figura 4.3

Dimostrazione. Con riferimento alla Fig. 4.3, la probabilit`a elementare dP che Y ()


assuma valori compresi tra y e y + dy vale
fY (y)dy = P (y < Y y + dy) = P [y < g(X) y + dy] =
= P [x(1) |dx1 | < X x(1) ]+
+P [x(2) < X x(2) + dx2 ] = fX (x(1) )|dx1 | + fX (x(2) )dx2
dove x(1,2) sono le due radici reali che si ricavano dallequazione g(x) y = 0, e
inoltre:
dy
dxj = 0 (j) ,
j = 1, 2
g (x )
sono gli incrementi elementari subiti dalla variabile reale x a seguito di un incremento
positivo dy della variabile dipendente. Pertanto:
(

fY (y)dy =

fX (x(1) )
fX (x(2) )
+
|g 0 (x(1) )| |g 0 (x(2) )|

che, dividendo per dy, dimostra la (4.3) con N = 2.


Esempio 4.2: Caratteristica con legge quadratica

dy

102

TRASFORMAZIONI DI VARIABILI ALEATORIE

Un dispositivo trasforma un ingresso casuale che ha distribuzione uniforme in Dx =


[1, 1], con la legge quadratica:
g(x) = x2 .
Scelto un generico y IR, i valori di x Dx che soddisfano la condizione: x2 y

appartengono al dominio Ex (y) = [ y, y] se 0 y 1, e per la formula (4.2) si
ricava
Z y

FY (y) = fX (x)dx = FX ( y) FX ( y).


y

Se la distribuzione in ingresso `e uniforme in 1 x 1, si ha in tale intervallo:


fX (x) = 1/2; FX (x) = (x + 1)/2 e quindi:

y+1 y+1
FY (y) =

= y,
0 y 1.
(4.4)
2
2

g( x)

f ( y)
Y
f X (x )

0.5

E x ( y)
0

- y

-1

Figura 4.4 - Trasformazione con legge quadratica

La densit`a fY (y) si pu`o calcolare per derivazione, oppure applicando direttamente


la (4.3) come segue. Assegnato y IR, le radici dellequazione g(x) y = x2 y = 0
sono:

x(1) (y) = y;
x(2) (y) = y
e sono reali solo se y 0. Poich`e Dx = [1, 1], si hanno due soluzioni distinte per
0 y 1. Dunque il dominio Dy `e lintervallo [0, 1] e in esso, tenuto conto che

g 0 (x(1) ) = 2x(1) = 2 y;
g 0 (x(2) ) = 2x(2) = 2 y,
la densit`a incognita vale:
1
1

fY (y) = [fX ( y) + fX ( y)] =


2 y
2 y
che coincide con la derivata della (4.4).

1 1
+
2 2

1
=
2 y

4.2 Funzioni di una variabile casuale

4.2.3

103

Trasformazioni invertibili

La (4.3) si modifica in una formula assai notevole quando la caratteristica del sistema
`e una funzione g(x) che, oltre ad essere continua e derivabile, `e anche invertibile in
Dx . In tale ipotesi, lequazione g(x) y = 0 ha al pi`
u una sola radice reale x(1) =
g 1 (y) coincidente con la funzione inversa di g(x). Per il teorema di derivazione
delle funzioni inverse, vale lidentit`
a
1
g 0 (x(1) (y))

dg 1 (y)
dy

che, sostituita nella (4.3) con N = 1, porta alla formula seguente:


fY (y) = fX [x = g

dg 1 (y)

(y)]
.
dy

(4.5)

che prende il nome di Teorema del cambio di variabile.


Anche la determinazione diretta della funzione di distribuzione FY (y) si risolve, nel
caso di trasformazioni invertibili, applicando formule notevoli. Per la loro deduzione
`e per`o necessario distinguere i due casi seguenti.
g(x) invertibile e crescente in Dx : il dominio Ex (y) `e lintervallo aperto a sinistra:
Ex (y) = {x Dx : g(x) y} = (, g 1 (y)]
per cui si ricava
FY (y) =

Z g1 (y)

fX (x)dx = FX [g 1 (y)].

(4.6)

g(x) invertibile e decrescente in Dx : il dominio Ex (y) `e laperto a destra


Ex (y) = {x Dx : g(x) y} = [g 1 (y), +)
e di conseguenza:
FY (y) =

Z
g 1 (y)

fX (x)dx = 1 FX [g 1 (y)].

(4.60 )

Esempio 4.3: Generazione di numeri casuali

Applicando la teoria delle trasformazioni invertibili, `e possibile determinare la caratteristica che deve avere un dispositivo da utilizzare per trasformare un ingresso casuale in una uscita avente prescritte propriet`a statistiche. Si assuma che lingresso
sia dotato di densit`a continua in DX IR. La sua funzione di distribuzione FX (x) `e
allora una funzione continua, monotona crescente in IR. Se la funzione caratteristica

104

TRASFORMAZIONI DI VARIABILI ALEATORIE

g(x) del dispositivo in cui `e immesso il segnale coincide con FX (x), in uscita si ricava
per la (4.6):
FY (y) =

Z g1 (y)

fX (x)dx = FX [g 1 (y)] = FX [F 1 (y)] = y

con y [0, 1]. Inoltre, si constata subito che per y < 0 `e FY (y) = 0, e per y > 1
si ha FY (y) = 1. Dunque, la funzione di distribuzione in uscita `e quella di una
variabile casuale con distribuzione uniforme in DY = [0, 1], per cui il dispositivo
genera numeri casuali equiprobabili in tale intervallo.
Inversamente, proponiamoci di generare una uscita casuale continua Y () con una
assegnata funzione di distribuzione FY (y) anchessa, ovviamente, monotona crescente e quindi invertibile in DY IR. Allo scopo, `e sufficiente trasformare un
ingresso uniformemente distribuito in DX = [0, 1] con un dispositivo avente caratteristica g(x) = FY1 (x) uguale alla inversa della funzione caratteristica richiesta in
uscita. Infatti per tale trasformazione si ha:
Ex (y) = {x [0, 1] : g 1 (x) < y} = [0, FY (y)].
Quindi, tenuto conto che fX (x) = 1 in [0, 1], la funzione di distribuzione in uscita,
che si calcola ancora con la (4.6), vale:
Z FY (y)
0

1 dx = FY (y)

fX( x )

g( x )

f Y( y )
1

FX ( x )

E ( y)

g( x )

F -1
(y)
X

F -1 ( x )
Y

fX( x )

f Y( y )

E ( y)
X

F ( y)
Y

4.2 Funzioni di una variabile casuale

105

Figura 4.5 - Generazione di numeri casuali

che `e la distribuzione desiderata. Ad esempio, per generare numeri casuali distribuiti


con continuit`a nellintervallo DY = [0, 2] con densit`a fY (y) = y/2, si calcola anzitutto la corrispondente funzione di distribuzione FY (y) = y 2 /4, e si determina la
caratteristica

g(x) = FY1 (x) = 2 x.


Il dispositivo che trasforma un segnale uniformemente distribuito in [0,1] secondo

la legge g(x) = 2 x ha in uscita segnali casuali con la distribuzione probabilistica


richiesta. Infatti
g

4.2.4

y2
(y) = ;
4

FY (y) =

Z g1 (y)

dx =

y2
;
4

fY (y) =

dFY (y)
y
= .
dy
2

Momenti di Y () = g[X()]

Una volta determinata la densit`a della funzione di variabile aleatoria, i suoi momenti
di ordine q = 1, 2, . . . si possono calcolare mediante la loro definizione:
Z
q

E{Y } =

DY

y q fY (y)dy.

(4.7)

Tuttavia, qualora non interessi calcolare esplicitamente la densit`a fY (y) ma solo


alcuni suoi momenti, `e possibile determinarli direttamente utilizzando la conoscenza
della densit`a del segnale di ingresso. A tal fine si utilizza la formula seguente:
Z
q

E{Y } =

Dx

g q (x)fX (x)dx

(4.8)

che definisce il momento di ordine q di una generica funzione g della variabile casuale
dotata di densit`a fX (x). Si pu`o facilmente dimostrare la (4.8) nellipotesi che g(x)
sia invertibile. Infatti, utilizzando infatti la (4.5) e integrando per sostituzione si ha:

dg 1 (y)

E{Y q }) =
y q fY (y)dy =
y q fX (x = g 1 (y))
dy =

dy
Dy
Dy

Z
Z
dg 1 dy


q
g q (x)fX (x)dx.
=
g (x)fX (x)
dx =

dy
dx
Dx
Dx
Z

In particolare, il valor medio mY si pu`o calcolare come segue:


Z

mY = E{Y } =

DX

g(x)fX (x)dx

e la varianza con la nota formula:


Y2 = E{Y 2 } m2Y

(4.9)

106

TRASFORMAZIONI DI VARIABILI ALEATORIE

dove il momento di ordine q = 2 `e dato da


Z

E{Y 2 } =

4.2.5

Dx

g 2 (x)fX (x)dx.

Trasformazioni lineari

Un sistema lineare opera la trasformazione dellingresso X() con legge: g(x) =


ax + b dove a, b IR sono costanti ed a 6= 0. Si tratta dunque di una particolare
trasformazione invertibile in DX (, +), in cui
g 1 (y) =

dg 1 (y)
1
= = cost.
dy
a

yb
;
a

Per la (4.5) la densit`a di probabilit`a in uscita vale:

fY (y) = fX

yb
x=
a

1
|a|

(4.10)

e, a meno di un fattore costante, ha la medesima legge probabilistica dellingresso


X(). Questo risultato mostra una rilevante propriet`a dei sistemi lineari: essi non
alterano la legge probabilistica del segnale di ingresso: Se ad esempio X() `e un
segnale gaussiano, essi restituiscono in uscita un segnale che `e ancora gaussiano,
sebbene con momenti diversi.
Il valor medio del segnale di uscita da un sistema lineare vale, per la (4.9):
Z

mY =

Dx

(ax + b)fX (x)dx = a mX + b

ed `e perci`o calcolabile immediatamente, come funzione lineare del valor medio mX


della variabile aleatoria di ingresso. Il momento del secondo ordine risulta:
Z

E{Y 2 } =

DX

(a2 x2 + 2abx + b2 )fX (x)dx = a2 E{X 2 } + 2abmX + b2 ,

per cui la varianza di Y () vale:


2
Y2 = E{Y 2 } m2Y = a2 [E{X 2 } m2X ] = a2 X
.

(4.11)

Essa `e uguale alla varianza del segnale di ingresso nel sistema lineare, moltiplicata
per a2 .
Esempio 4.4: Distribuzione parabolica in [a, b].

Si `e visto nel 2.3.12 che la distribuzione parabolica sul supporto {x [0, 1]} `e una
particolare distribuzione Beta con densit`a fX (x) = 6x(1 x). Per determinare una

4.2 Funzioni di una variabile casuale

107

densit`a di probabilit`a parabolica FY (y) su un supporto limitato generico [a, b], `e


sufficiente operare la trasformazione lineare:
y = g(x) = a + (b a)x,

y [a, b]

la cui inversa vale


x = g 1 (y) =

dg 1 (y)
1
=
.
dy
ba

ya
,
ba

Applichiamo quindi la (4.10) per ottenere:

fY (y) =

f [x = g 1 (y)]
0

altrove.

1
6
=
(y a)(b y), y [a, b]
|b a|
(b a)3

f d (d)

v
q
0

Dd

3A
2

Figura 4.6 - Moto aleatorio di un grave

Esempio 4.5: traiettoria di un grave

Si consideri la traiettoria parabolica di un grave, lanciato (in assenza di resistenza


dellaria) con una velocit`a iniziale v nella direzione individuata dallangolo indicato
in Fig. 4.6. Se () `e una variabile aleatoria uniformemente distribuita in D =
[/6, /3], la distanza d del punto di caduta `e la funzione di variabile aleatoria
d() = g[()] = A sin 2()
con A = v 2 /g, dove g `e laccelerazione di gravit`
a. Poiche g() non `e invertibile in
D , cerchiamo le radici dellequazione: A sin 2 d = 0 appartenenti a D . Esse
sono:
1
d
1
d
(1) (d) = arcsin ;
(2) (d) = arcsin
2
A
2 2
A

108

TRASFORMAZIONI DI VARIABILI ALEATORIE

e sono reali, non coincidenti, se

3A/2 d < A. In tale intervallo si ha


p

g 0 ((1) ) = 2A cos 2(1) = 2 A2 d2 ;

g 0 ((2) ) = g 0 ((1) )

e quindi, per la (4.3):


1
fd (d) =
[f ((1) (d)) + f ((2) (d))].
2
2 A d2
Poiche f () = 6/ = cost, si ottiene
6
fd (d) =
,
A2 d2

3
d<A
A

per

mentre fd (d) = 0 al di fuori di tale intervallo. Il valor medio di d() si calcola


agevolmente applicando la (4.9):
md =

Z /3
/6

A sin 2

3A
6
d =

e per la sua varianza si ottiene:


d2 = E{d2 } m2d =

4.3

6A2

Z /3

sin2 2d m2d =

!
!

3 3
9
3A2
3
2
2 1
+
md = A
+
2 .
=
2 3
2
2
4

/6

Funzioni di due o pi`


u variabili casuali

Supponiamo ora che Y () sia il risultato della trasformazione g(x1 , x2 , . . . , xn ) subita


da n variabili casuali X1 (), X2 (), . . . , Xn () di cui si conosce la densit`a di probabilit`a congiunta f (x1 , x2 , . . . , xn ), definita in DX IRn . La funzione di distribuzione
di
Y () = g[X1 (), X2 (), . . . , Xn ()]
si calcola con una facile estensione della formula (4.2). Precisamente, definito il
dominio
EX (y) = {(x1 , x2 , . . . , xn ) DX : g(x1 , x2 , . . . , xn ) y},
si ha ora:
FY (y) = P (Y y) = P [g(X1 , .., Xn ) y] =

Z
EX (y)

f (x1 , .., xn )dx1 dxn .

(4.12)

La densit`a di probabilit`a di Y () si ottiene poi come derivata della funzione di distribuzione calcolata con la (4.12), e in casi particolari si pu`o anche determinare

4.3 Funzioni di due o pi`


u variabili casuali

109

direttamente dalle densit`a marginali di X1 (), . . . , Xn (), come mostra lEsempio


che segue.
Anche per i momenti di Y () vale una formula analoga alla (4.8). Infatti, se sono
note g(x1 , . . . , xn ) e la densit`a congiunta f (x1 , . . . , xn ), essi si possono determinare
calcolando lintegrale
Z

E{Y q } =

DX

g q (x1 , . . . , xn )f (x1 , . . . , xn )dx1 dxn .

(4.13)

110

TRASFORMAZIONI DI VARIABILI ALEATORIE

Esempio 4.6: somma di due variabili casuali

Consideriamo la funzione somma:


Y () = X1 () + X2 ()
di due variabili aleatorie con densit`a mista nota e definita in D12 = IR2 . Il dominio
di integrazione nella (4.12) `e il semipiano:
E12 (y) = {(x1 , x2 ) IR2 : < x1 y x2 ; < x2 < +}
x2

y = x1 + x 2

E (y)
12

x1

Figura 4.7

indicato in Fig. 4.7. Si ricava allora:


FY (y) =

Z +

dx2

Z yx2

f (x1 , x2 )dx1

(4.14)

e derivando rispetto ad y:
fY (y) =

Z +

f (y x2 , x2 )dx2 .

(4.15)

Un caso notevole si ha nellipotesi che X1 () e X2 () siano statisticamente indipendenti, con densit`a che indichiamo con f1 (x1 ) e f2 (x2 ) in IR. Poich`e la loro densit`a
congiunta `e uguale al prodotto di queste due densit`a marginali, le (4.13) e (4.14)
diventano:
Z
Z
FY (y) =
fY (y) =

Z +

f2 (x2 )dx2

yx2

f1 (x1 )dx1

f1 (y x2 )f2 (x2 )dx2 = f1 (y) f2 (y)

(4.130 )
(4.140 )

dove lasterisco indica il prodotto di convoluzione delle densit`a f1 (x1 ), f2 (x2 ) e si


pu`o anche scrivere nella forma equivalente:
f1 (y) f2 (y) =

Z +

f1 (x1 )f2 (y x1 )dx1 .

4.3 Funzioni di due o pi`


u variabili casuali

111

La (4.14) esprime il seguente


TEOREMA DI CONVOLUZIONE
Se due variabili casuali sono statisticamente indipendenti, la densit`a della loro
somma `e uguale alla convoluzione delle rispettive densit`a.
Se in particolare le due densit`a marginali hanno come supporto IR+ , vale a dire:
f1 (x1 ) = f2 (x2 ) = 0 per x1 , x2 < 0, allora f1 (y x2 ) = 0 per x2 > y, per cui la
(4.14) si pu`o riscrivere nella forma:
fY (y) =

Z
0

f1 (y x2 )f2 (x2 )dx2 =

Z y
0

f1 (y x2 )f2 (x2 )dx2 .

(4.16)

x2
1

y = x1 + x 2
C22
C1

x1

Figura 4.8

Supponiamo ad esempio che le variabili casuali X1 (), X2 () siano indipendenti e


uniformemente distribuite nellintervallo fondamentale [0, 1]. Le loro densit`a valgono: f1 (x1 ) = f2 (x2 ) = 1 in tale intervallo, e sono nulle altrove. Per determinare
la funzione di distribuzione della loro somma, basta osservare che per la (4.14) essa
`e uguale allarea del dominio di integrazione E12 (y) da definirsi come segue (v. Fig.
4.8):

per y < 0
0,

C ,
per 0 y < 1
1
E12 (y) =
C ,
per 1 y < 2

2
[0, 1] [0, 1], per y 2.
Pertanto, indicando con m(Ci ) la misura degli insiemi Ci , si ricava:

0,

per y < 0
m(C1 ) = y 2 /2,
per 0 y < 1
FY (y) =

m(C2 ) = 2y 1 y 2 /2, per 1 y < 2

1,
per y 2

112

TRASFORMAZIONI DI VARIABILI ALEATORIE

e per derivazione nei vari intervalli di DY = [0, 2]:

fY (y) =

y,
per 0 y < 1
2 y, per 1 y < 2.

Dunque la v.a. Y () = X1 () + X2 () somma di distribuzioni uniformi indipendenti, ha la distribuzione triangolare di Fig. 4.9. Essa si poteva anche calcolare
direttamente usando il Teorema di convoluzione. Dalla (4.16), tenuto conto che f1
ed f2 sono nulle al di fuori dellintervallo [0,1], si ricava infatti:
0y<1:

fY (y) =

1y<2:

fY (y) =
=

Z y
Z01
Z 0y

f1 (y x2 ) 1 dx2 =
f1 (y x2 ) 1 dx2 +

y1

f1 (x1 )dx1 =

Z 1
y1

Z y
Z 0y
1

f1 (x1 )dx1 = y
f1 (y x2 )f2 (x2 )dx2 =

dx1 = 2 y.

F Y (y)
1

f Y (y)

Figura 4.9 - Distribuzione triangolare

Il valor medio di Y () vale ovviamente mY = 1, come si verifica subito dal calcolo


dellintegrale:
Z

mY =

D12

(x1 + x2 )f (x1 )f (x2 )dx1 dx2 = E{X1 } + E{X2 } = 1.

Il momento del secondo ordine di Y () vale:


Z
2

E{Y } =

D12

(x1 + x2 )2 f (x1 )f (x2 )dx1 dx2 = E{X12 } + E{X22 } + 2E{X1 X2 }

dove E{X12 } = E{X22 } = 1/3 ed inoltre: E{X1 X2 } = E{X1 }E{X2 } = 1/4, perche
lindipendenza statistica implica una covarianza nulla. Pertanto si ricava:
E{Y 2 } =

2 1
7
+ = ,
3 2
6

Y2 = E{Y 2 } m2Y =

7
1
1=
6
6

4.3 Funzioni di due o pi`


u variabili casuali

113

e la varianza di Y () `e uguale alla somma delle varianze di X1 () e X2 (), in accordo


con la (3.8) usata per variabili casuali indipendenti.
Somma o differenza di distribuzioni normali indipendenti
Usando il Teorema di convoluzione si pu`o anche dimostrare un risultato notevole
assai utile, per esempio, nei problemi di induzione statistica:
la somma (o differenza) di due v.a. normali e indipendenti `e ancora una v.a.
normale, con media uguale alla somma (o differenza) delle medie e varianza uguale
alla somma delle varianze.
Infatti, se X1 , X2 sono indipendenti ed hanno legge normale, rispettivamente con
medie e varianze m1 , m2 e 12 , 22 la loro somma (o differenza) Y = X1 X2 ha una
densit`a data dalla (4.14):
fY (y) =

Z +

f1 (y x2 )f2 (x2 )dx2 =

1
=
21 2

Z +

"

"

(y x2 m1 )2
(x2 m2 )2
exp
exp

dx2 =
212
222

"

(y m1 )2
m22

"
!#
exp

212
222 Z +
12 + 22
y m1 m2
exp x2
=
dx2 .
x2
2
21 2
212 22
12
2

Lultimo integrale si pu`o calcolare usando la formula:


Z +

ex2 (px2 +q) dx2 =

q2 /4p
e
p

con p =

12 + 22
y m1 m2
, q=
2,
2
2
21 2
12
2

e dopo alcuni ulteriori calcoli si perviene al risultato


"

(y m1 m2 )2
fY (y) = q
exp
2(12 + 22 )
2(12 + 22 )
1

che `e appunto una funzione di densit`a normale, con media mY = m1 m2 e varianza


Y2 = 12 + 22 .
Esempio 4.7: modulo di un vettore aleatorio

~ = X1~i + X2~j le cui componenti X1 (), X2 () secondo


Cosideriamo un vettore V
una coppia di assi cartesiani ortogonali sono variabili casuali statisticamente indipendenti, ciascuna con distribuzione normale N (0, 2 ). Il suo modulo
q

V = g(X1 , X2 ) =

X12 + X22

114

TRASFORMAZIONI DI VARIABILI ALEATORIE

`e una variabile aleatoria la cui funzione di distribuzione si pu`o determinare applicando la (4.12) con

1
x21 + x22
f (x1 , x2 ) = f1 (x1 )f2 (x2 ) =
exp

2 2
2 2

Passando a coordinate polari nel piano (x1 = cos , x2 = sin ) il dominio di


integrazione nella (4.12) si scrive:
E12 (v) = {(, ) D :

0 v; 0 2}

per cui la funzione di distribuzione di V vale:


FV (v) =

Z 2
0

Z v
0

1 2 /22
1
e
d = 2
2
2

Z v
0

2 /2 2

(4.17)

se 0, ed `e nulla per v < 0. Derivando rispetto a v sotto il segno di integrale, si


ricava la seguente densit`a di probabilit`a di V ():
fV (v) =

v
dF (v)
2
2
= 2 ev /2 ,
dv

v0

che `e una distribuzione di Rayleigh (cfr. 2.3.5) con parametro uguale alla deviazione standard delle densit`a normali delle due componenti.
Il metodo di calcolo appena applicato si pu`o agevolmente estendere allo studio del
modulo di un vettore aleatorio in IR3 :
q

V () =

X12 () + X22 () + X22 ()

le cui componenti sono variabili casuali indipendenti, ancora distribuite con legge
normale N (0, 2 ) e densit`a congiunta

x21 + x22 + x23


1
f (x1 , x2 , x3 ) = f1 (x1 )f2 (x2 )f3 (x3 ) = 3
exp

2 2
(2)3/2

Se passiamo a un sistema di coordinate sferiche ( 0, [0, ], [0, 2]) la


funzione di distribuzione di V () `e definita dallintegrale triplo:
Z

FV (v) =

EX (v)

f (x1 = cos cos , x2 = cos sin , x3 = sin ) 2 sin ddd

da calcolarsi sul dominio:


EX (v) = {(, , ) D :
Si ricava allora, per v 0:

0 v; 0 ; 0 2}.

4.3 Funzioni di due o pi`


u variabili casuali

FV (v) =

Z 2
0

Z
0

Z v
0

115

Z
v
1
2
2
2
2 /2 2 2
send = 3
e
2 e /2 d
3/2
3
0
(2)

la cui derivata prima fornisce la seguente densit`a di probabilit`a di V ():

!
2
dF (v)
2v
v2
fV (v) =
= 3 exp 2 ,
v 0.
dv

2
Si ricava cos la distribuzione di Maxwell gi`a presentata nel 2.3.5 del Capitolo II.
` di un guasto
Esempio 4.8: Probabilita

Nella teoria della previsione dei guasti, il tempo che intercorre tra listante in cui un
sistema inizia il suo funzionamento e quello in cui cessa di funzionare `e una variabile
aleatoria con la distribuzione esponenziale definita nel 2.3.4. Consideriamo ora
un sistema S costituito da due componenti S1 , S2 e indichiamo con X1 (), X2 ()
gli istanti in cui ciascuno di questi cessa il suo funzionamento. Assumendo come
modello di probabilit`a dei guasti due leggi esponenziali:
f1 (x1 ) = c1 ec1 x1 ,

f2 (x2 ) = c2 ec2 x2 ,

x1 , x2 0

(4.18)

x2

A
t

x1

Figura 4.10

e supponendo che X1 (), X2 () siano statisticamente indipendenti, determiniamo


la legge probabilistica della variabile casuale T () che rappresenta listante in cui
cessa di funzionare il sistema complessivo S. Allo scopo, facciamo una delle seguenti
ipotesi:
1. S si guasta se si guasta almeno uno dei suoi componenti (che in tal caso sono
collegati in serie);
2. S si guasta solo se si guastano entrambi i componenti (collegamento in parallelo);

116

TRASFORMAZIONI DI VARIABILI ALEATORIE

3. Il componente S1 funziona dallistante t = 0, e quando si guasta entra in


funzione S2 (collegamento ausiliario: S si guasta solo quando si guasta S2 ).
1. Nel caso di componenti collegati in serie, T () `e la funzione:
T () = g(X1 , X2 ) = min[X1 (), X2 ()]
e il calcolo di FT (t) `e da effettuare con la (4.12), integrando sul dominio EX (t) =
{(x1 , x2 ) : min(x1 , x2 ) t} = A(t) B(t) mostrato in Fig. 4.10, dove A, B sono gli
insiemi:
A(t)
B(t)

= {(x1 , x2 ) : (0 x1 t) (0 x2 t)}
= {(x1 , x2 ) : (0 x1 t) (0 x2 t)}.

Ne segue la funzione di distribuzione


FT (t) =

Z t
0

f1 (x1 )dx1 +

Z t
0

f2 (x2 )dx2

Z t
0

f1 (x1 )dx

Z t
0

f2 (x2 )dx2 =

= F1 (t) + F2 (t) F1 (t)F2 (t)


e la densit`a di probabilit`a
fT (t) =

dF (t)
= [1 F2 (t)]f1 (t) + [1 F1 (t)]f2 (t).
dt

Sostituendo le espressioni (4.18) e le relative funzioni di distribuzione note, si ricava:


fT (t) = (c1 + c2 )e(c1 +c2 )t ,

t 0.

Dunque, nel sistema con componenti in serie il tempo di attesa del guasto ha ancora
legge esponenziale. Il suo valor medio (e quindi la vita media del sistema complessivo)
`e mT = 1/(c1 + c2 ), minore della vita media dei singoli componenti, e la varianza
vale T2 = 1/(c1 + c2 )2 .
2. Esaminiamo ora la statistica del sistema con componenti che funzionano in parallelo. Per esso listante del guasto `e la variabile casuale
T () = g(X1 , X2 ) = max[X1 (), X2 ()]
e il dominio di integrazione nella (4.12) diventa
EX (t) = {(x1 , x2 ) : (0 x t) (0 x t)} B(t).
Si ricava perci`o
FT (t) =

Z t
0

f1 (x1 )dx

Z t
0

f2 (x2 )dx2 = F1 (t)F2 (t)

4.3 Funzioni di due o pi`


u variabili casuali

117

e la densit`a di probabilit`a
fT (t) = F2 (t)f1 (t) + F1 (t)f2 (t)
la quale, usando le (4.18), si riscrive:
fT (t) = c1 ec1 t + c2 ec2 t (c1 + c2 )e(c1 +c2 )t .
Il valor medio e la varianza di questa distribuzione valgono:
Z

1
1
1
+

c1 c2 c1 + c2
Z0
1
1
1
2
=
t fT (t)dt m2T = 2 + 2
c1 c2 (c1 + c2 )2
0

mT

T2

fT (t)tdt =

per cui il sistema in esame ha vita media maggiore di quella del sistema con componenti in serie; tuttavia cresce anche la dispersione di fT (t) rispetto al suo valor
medio.
3

f T (t)
2

in serie

in parallelo
1
ausiliario

Figura 4.11 - Probabilit`


a di un guasto

3. Consideriamo infine il sistema con collegamento ausiliario. Poich`e S2 entra in


funzione solo quando ha smesso di funzionare S1 , listante del guasto del sistema `e
la somma
T () = g(X1 , X2 ) = X1 () + X2 ()
delle variabili casuali che rappresentano gli istanti del guasto di S1 ed S2 . Quindi
(si veda lEsempio 4.6) la densit`a di T () `e il prodotto di convoluzione delle densit`a
esponenziali di X1 () ed X2 (w). Essa si pu`o determinare direttamente applicando
la (4.16):
fT (t) = c1 c2

Z t
0

ec1 (tx2 ) ec2 x2 dx2 =


= c1 c2

Z t
0

ec1 t ex2 (c2 c1 ) dx2 = c1 c2 ec1 t

Z t
0

ex2 (c2 c1 ) dx2

118

TRASFORMAZIONI DI VARIABILI ALEATORIE

da cui risulta:
c1 6= c2 :

fT (t)

c1 = c2 = c :

fT (t)

c1 c2 c1 t
e
ec2 t
c2 c1
= c2 tect .

La vita media del sistema e la varianza di T () sono quelle proprie di una somma
di variabili casuali indipendenti, e risultano quindi uguali alla somma delle medie e
delle varianze di X1 (), X2 ():
mT =

1
1
+ ;
c1 c2

T2 =

1
1
+ 2.
2
c1 c2

La Fig. 4.11 mostra le densit`a che si ricavano assumendo c1 = 1, c2 = 2 nei tre casi
ora considerati.

4.4

Transformazioni n-dimensionali

Il metodo di calcolo della funzione di distribuzione di Y () = g(X1 , X2 , . . . , Xn (),


esplicitato dalla formula (4.12), non `e pi`
u applicabile se g : IRn IRm con m >
1, ovvero se `e una applicazione da DX IRn a DY IRm che definisce le m
trasformazioni:
Yj () = gj [X()]
j = 1, . . . ., m > 1
(4.19)
dal vettore aleatorio n-dimensionale X() nel vettore aleatorio m-dimensionale Y()
= {Yj ()}.
Se m = n, si pu`o per`o estendere al caso multidimensionale il metodo di calcolo
diretto della densit`a fY (y), gi`a introdotto nel 4.2.2, servendosi del seguente
TEOREMA I
Sia g(x) = {gi (x1 , .., xn )} : IRn IRn continua e derivabile in DX , e Y() =
g[X()] : IRn . Se {x(k) (y)}, k = 1, .., N `e linsieme numerabile di N radici reali
del sistema: g(x) y = 0 nelle n incognite xi , allora la densit`a di probabilit`a del
vettore n-dimensionale Y() `e data da:
fY (y) =

N
X
fX (x(k) (y))
k=1

|J(x(k) (y))|

(4.20)

dove fX (x) `e la densit`a nota del vettore X(), e J(x) `e il determinante jacobiano
della trasformazione (4.19) con m = n, entrambi da calcolare per x = x(k) (y). Se
esistono valori y per cui il sistema g(x) y = 0 non ammette soluzioni reali, allora
fY (y) = 0.

4.4 Transformazioni n-dimensionali

119

Trasformazione invertibile. Un caso particolare si ha quando g(x), oltre al essere


continua e dotata di derivate parziali continue, `e anche invertibile in DX . In tal caso
g : DX DY `e un diffeomorfismo, ed `e possibile applicare il seguente Teorema, che
generalizza al caso n-dimensionale la formula (4.5).
TEOREMA II
Siano DX , DY due aperti di IRn , e g : DX DY un diffeomorfismo. Allora la
densit`a di probabilit`a di Y() = g[X()] `e data da:
fY (y) = fX [x = g1 (y)] |J 1 (y)|

(4.21)

dove g1 (y) `e la inversa di g(x), e J 1 (y) `e lo Jacobiano della trasformazione inversa


Y X:

g1
(y) = det
y

xi
= det
yj

i, j = 1, 2, . . . , n.

Infatti, se g `e invertibile il sistema: g(x) y = 0 ha al pi`


u una sola radice reale
(1)
1
1
x = g (y) e dal Teorema I, tenuto conto che J (y) = 1/J(x(1) ) dove J(x) `e lo
Jacobiano della trasformazione diretta X Y, si ricava la (4.21).
Trasformazione lineare. Se infine g(x) `e lineare:
gi (x1 , . . . , xn ) = ai1 x1 + . . . + ain xn + bi ,

i = 1, .., n

allora, detta A = [aij ] la matrice n n dei coefficienti della trasformazione Y() =


AX() + b, si ha: J(x) = det(A); J 1 (y) = det(A1 ) e la densit`a di Y() vale, per
i Teoremi precedenti:
fY (y) =

fX [x = A1 (y b)]
= fX [x = A1 (y b)] | det(A1 )|,
| det(A)|

che generalizza la (4.10) al caso n-dimensionale.

(4.22)

120

TRASFORMAZIONI DI VARIABILI ALEATORIE

Momenti del vettore Y = g(x)


Per quanto riguarda i momenti di Y(), indichiamo con E{Yq } il vettore colonna
le cui n componenti sono i valori attesi di ciascuna componente Yi () del vettore
aleatorio Y() = g[X()]. Se `e nota la densit`a di probabilit`a di X(), il vettore
E{Yq } si pu`o calcolare nel modo seguente:
Z

E{Yq } =

DX

gq (x) fX (x)dx,

x DX IRn

che estende al caso n-dimensionale la formula (4.8).


Esempio 4.9

X1 () e X2 () sono due variabili casuali note e indipendenti, con densit`a


f1 (x1 ) = 4x31 ,

0 x1 1;

2
f2 (x2 ) = x2 ,
3

1 x2 2

e nulle al di fuori degli intervalli sopra definiti. Queste sono le densit`a marginali del
vettore aleatorio X() : DX IR2 che ha densit`a di probabilit`a
8
fX (x) = f1 (x1 )f2 (x2 ) = x31 x2
3
sul dominio DX = {(x1 , x2 ) : 0 x1 1; 0 x2 2}. Un dispositivo con
caratteristica
g(x) = {g1 (x), g2 (x)},

g1 (x) = a(x1 + x2 );

g2 (x1 ) = bx1

con a, b > 0, trasforma X() in un vettore aleatorio Y() : IR2 di componenti


Y1 () = g1 [(X()] e Y2 () = g2 [X()], avente valori nel dominio
DY = {(y1 , y2 ) : a(1 y2 /b) y1 a(2 y2 /b); b y2 0}.
che `e mostrato in Fig. 4.12. Si vuole determinare la densit`a congiunta e le densit`a
marginali di Y(). Poiche `e generato da una trasformazione lineare, Y() si pu`o
scrivere:

a a
Y() = AX(),
con
A=
b 0
e la sua densit`a si ricava dalla (4.22). Con semplici calcoli si ottiene:

det(A) = ab;

A1 =

0
1/b
1/a 1/b

4.4 Transformazioni n-dimensionali

121

x2
2

g:D

3a

2a

y1

0
C1

1
C2
-b
0

x1

Figura 4.12

e la trasformazione inversa x = A1 y `e definita da


x1
x2

= y2 /b
+y1 /a + y2 /b.

Pertanto, per ogni (y1 , y2 ) DY la densit`a mista vale

8
1
8 3 y1 y2
fY (y) = f1 (x1 = y2 /b)f2 (x2 = y1 /a + y2 /b)
=
+
.
y
3
ab
3ab4 2 a
b
Le densit`a marginali di ciascuna componente si possono determinare integrando
fY (y) rispetto allaltra variabile (si ricordi la (3.5)). Cos , per ottenere la densit`a
marginale f (y1 ) di Y1 () si deve integrare per verticali sui due sottoinsiemi C1 , C2
di Fig. 4.12, tali che C1 C2 = DY , e si ricava:
a y1 2a :

f (y1 ) =

Z 0
b(1y
"1 /a)

fY (y)dy2 =

y1
2
=
5y1 1
2
15a
a
2a y1 3a :

f (y1 ) =

Z b(2y1 /a)
b

2
=
15a2

y1
1 2
a

4 #

Z 0
b(1y1 /a)
#
y1 5

+ 4a 1

fY (y)dy2 =

"

5y1

8
3ab4

a
"

y23

y1 y2
+
dy2
a
b

y1
4a 1 + 2
a

5 #)

Per determinare la densit`a marginale di Y2 () si integra invece rispetto a y1 per


orizzontali e si ricava:
f (y2 ) =

Z a(2y2 /b)
a(1y2 /b)

8
fY (y)dy1 =
3ab4

Z a(2y2 /b)
a(1y2 /b)

y23 (y1 /a + y2 /b)dy2 =

4y23
b4

122

TRASFORMAZIONI DI VARIABILI ALEATORIE

a=2
b=4

f(y1 )

f(y2 )

-4

Figura 4.13

per y2 [b, 0], mentre f (y2 ) = 0 al di fuori di questo intervallo.


Il prodotto delle due densit`a marginali, che sono riportate in Fig. 4.13, non `e uguale
alla densit`a congiunta fY (y). Ci`o indica che le due componenti del vettore Y()
prodotto dalla trasformazione non sono statisticamente indipendenti, come invece
accade per le componenti del vettore trasformato X().
Se le dimensioni di Y() IRm e X() IRn non sono uguali (per esempio m < n),
conviene spesso usare, al posto di Y(), un vettore incrementato Z() IRn , che si
costruisce assegnandogli un numero n m di componenti aleatorie fittizie. Questo
accorgimento permette di studiare la trasformazione X Z con i metodi forniti dai
Teoremi I e II sopra citati (si veda al riguardo il Problema 4.2 che segue).

4.5

Problemi risolti

4.1. Nel circuito di Fig. 4.14, che `e percorso da una corrente I di 0.02 Ampere, le
resistenze valgono ro = 500 Ohm e r1 = 1000 10% Ohm. La tolleranza con cui
si conosce il valore di r1 suggerisce di considerare questultima come una variabile
casuale distribuita nellintervallo 900 r1 1100 con legge parabolica. Calcolare
il valor medio, la varianza e la densit`a di probabilit`a della differenza di potenziale
V () e della conduttanza () = 1/r1 .
Soluzione. La densit`a di probabilit`a della resistenza r1 si determina applicando la
formula ricavata nelEsempio 4.4:
fR (r1 ) =

6
3
(r1 900)(1100 r1 ) =
3
200
400

La differenza di potenziale `e la funzione:

r1
9
100

11

r1
, r1 [900, 1100].
100

4.5 Problemi risolti

123

r0
V
I

r1
Figura 4.14

V () = g(r1 ) = I(ro + r1 ) = 10 + 0.02r1 (),


anchessa definita da una trasformazione lineare, la cui densit`a di probabilit`a, tenuto
conto che
dg 1
= 50,
r1 = g 1 (V ) = 50(V 10);
dV
si ricava applicando la (4.10):
fV (V ) = fR [r1 = 50(V 10)] 50 =

f( G )

f(V )

28

3
(V 28)(32 V )
32

32 V

1
1100

1
900

Figura 4.15

e rappresenta una distribuzione parabolica nellintervallo 28 V 32 Volt. Il suo


valor medio `e mV = 28 + 4mX = 30 Volt, e la sua varianza vale, per la (4.11):
2 .
V2 = 16X
La conduttanza `e definita dalla trasformazione
() = g[X()] =

1
900 + 200x

124

TRASFORMAZIONI DI VARIABILI ALEATORIE

che `e invertibile in DX = [0, 1]. La trasformazione inversa `e


x = g 1 () =

dg 1 ()
1
=
d
2002

1
9
;
200 2

e applicando la (4.5) conduce alla seguente densit`a di ():

f () = 6

1
9

200 2

1
9
+
200 2

1
=
2002
=

3
(200)2

1
900

1100

che ha come supporto lintervallo D = [1/1100, 1/900]. Per la non-linearit`a della


trasformazione, questa distribuzione non `e pi`
u simmetrica in D (v. Fig. 4.15).
Infatti il suo valor medio si pu`o ottenere applicando la (4.9):
m = 6

Z 1
x(1 x)

3
99
9
dx =
5+
log
900 + 200x
100
4
11

' 0.001002

ed `e minore del punto medio dellintervallo D . In modo analogo si calcola la


varianza di (), che risulta:
2 = E{2 } m2 = 6

Z 1
0

x(1 x)
dx m2 =
(900 + 200x)2

11
6
10
log

2
m2 ' 2.0393 109 .
=
(200)2
9

4.2. Lo spazio percorso da un corpo che si muove di moto rettilineo e uniforme


con velocit`a aleatoria V0 (), a partire da una posizione iniziale pure aleatoria e
rappresentata da Y0 (), `e definito da
Y (; t) = Y0 () + V0 ()t,

0t1

(4.23)

dove Y0 () e V0 () sono due variabili casuali indipendenti aventi, rispettivamente,


distribuzioni uniforme e parabolica in [0,1]:
f1 (y0 ) = 1,
y0 [0, 1]
f2 (v0 ) = 6v0 (1 v0 ),
v0 [0, 1]
e il parametro t [0, 1] `e il tempo (adimensionalizzato). Calcolare, al variare del
tempo t, la funzione di densit`a di Y(, t) dato dalla (4.23).
Soluzione. Per calcolare fY (y; t) si pu`o definire i due vettori aleatori:
Z(; t) = {Y (; t), V0 ()} DZ (t)
X() = {Y0 (), V0 ()} DX = DZ (t = 0)

4.5 Problemi risolti

125

z 2 = v0

DX

D Z (t)

y
v0 = t
v0 =

y-1
t

1+t

z 1= y

Figura 4.16

dove il dominio
DZ (t) = {(z1 , z2 ) : z2 t z1 1 + z2 t; 0 z2 1}
`e mostrato in Fig. 4.16. Studiamo la trasformazione z = g(x; t) con t parametro,
definita da
z1 = g1 (x; t) = y0 + v0 t
z2 = g2 (x2 ) = v0 .
La trasformazione inversa `e
x1 = y0 = g11 (z; t) = z1 z2 t
x2 = v0 = g21 (z) = z2
ed ha determinante jacobiano che vale:

det(A

dg1
1 t
)=
=
= 1.
0 1
dz

Quindi la densit`a di Z(; t) `e, per la (4.22):


fZ (z; t) = f1 (y0 = z1 z2 t)f2 (v0 = z2 ) = 6z2 (1 z2 )
se z DZ (t), ed `e nulla altrove.
La densit`a Y (; t) si ricava come densit`a marginale della distribuzione del vettore
Z(; t), e si ottiene integrando fZ (z; t) rispetto alla sua componente fittizia z2 = v0 :
Z

fY (y; t) = 6

DY (t)

v0 (1 v0 )dv0

126

TRASFORMAZIONI DI VARIABILI ALEATORIE

dove il dominio di integrazione, come risulta dalla Fig. 4.16, vale

[0, y/t],

DY (t) =

fY (y ; t)

per 0 y t
[0, 1],
per t y 1

[(y 1)/t, 1], per 1 y 1 + t.

t=0
t = 0.5

t=1

Figura 4.17 - Densit`


a di probabilit`
a al variare di

t [0, 1]

Effettuando lintegrazione si ricava:


2
3
y (3t 2y)/t ,

fY (y; t) =

per 0 y t
1,
per t y 1

1 (y 1)2 (3t 2y + 2)/t3 , per 1 y 1 + t.

La Fig. 4.17 mostra il grafico di tale densit`a per alcuni valori di t. Nella applicazione
meccanica, da essa si pu`o ricavare, per esempio, la probabilit`a che in un istante
generico del moto il sistema abbia percorso uno spazio non superiore ad un assegnato
valore y.

PROCESSI STOCASTICI
5.1

Definizioni

Si chiama processo stocastico X(, t) una famiglia {X()}t di variabili aleatorie


definite su uno stesso spazio di probabilit`a (, B, P ) con t variabile indipendente in
un sottoinsieme T IR+ .
I processi stocastici sono modelli matematici di grandezze aleatorie che evolvono nel
tempo. In quanto tali, possono essere interpretate in due modi differenti:
1. come un insieme di variabili aleatorie X(, t1 ), . . . X(, tn ) definite in una successione di istanti t1 , . . . tn IR+ prefissati, oppure
2. come un insieme di funzioni del tempo t, dette realizzazioni di X, ciascuna
delle quali `e originata da un evento casuale.
Una conoscenza completa della natura di un processo stocastico richiede la definizione
delle distribuzioni congiunte di un qualsiasi insieme di variabili casuali X(, tk ), k =
1, . . . , n appartenenti alla famiglia. Se indichiamo con
X1 = X(, t1 ), . . . Xn = X(, tn )
le n variabili aleatorie con cui si identifica il processo negli istanti t1 , . . . , tn , la
statistica di ordine n del processo `e dunque nota se si conosce la sua funzione di
distribuzione di ordine n, che per definizione `e la funzione di n variabili:
Fn (x1 , . . . , xn ; t1 , . . . , tn ) = P [(X1 x1 ) (Xn xn )],

n = 1, 2, . . .

(5.1)

Se esiste la sua derivata mista di ordine n, si chiama densit`a di probabilit`a di ordine


n del processo la funzione:
fn (x1 , . . . , xn ; t1 , . . . , tn ) =

n Fn (x1 , . . . , xn ; t1 , . . . , tn )
.
x1 . . . xn

127

(5.2)

128

PROCESSI STOCASTICI

Ad esempio, la statistica del secondo ordine di un processo stocastico `e nota se,


fissati due istanti t1 , t2 , `e definita la densit`a di probabilit`a congiunta (o la funzione
di distribuzione congiunta) della coppia di variabili aleatorie X1 () = X(, t1 ) e
X2 () = X(, t2 ). Come noto, la conoscenza di f2 (x1 , x2 ; t1 , t2 ) permette tra laltro
di determinare le densit`a marginali di X1 e X2 , i loro valori medi, e il grado di
correlazione esistente tra gli stati del medesimo processo in due istanti di tempo.
Fissato invece un istante t1 = t, la statistica del primo ordine del processo `e definita
dalla densit`a f (x; t) della variabile aleatoria X(, t = t1 ), la quale coincide con la
densit`a marginale
Z
f (x; t) =

f2 (x1 , x2 ; t1 , t2 )dx2

(5.3)

della distribuzione del secondo ordine.


Se ne deduce che la conoscenza della statistica di ordine n del processo implica la
conoscenza di tutte le statistiche di ordine inferiore. Tuttavia, `e di solito assai arduo
disporre della densit`a di qualsivoglia ordine n di un processo: spesso ci si limita
a studiare la sua statistica del primo e del secondo ordine, nella quale rientrano i
momenti del processo che sono qui elencati.

5.1.1

Momenti

Il valore atteso di X(, t) `e il valore atteso della variabile casuale X() in un assegnato istante t:
Z
m(t) = E(X)t = xf1 (x, t)dx
(5.4)
ed `e dunque, in generale, una funzione ordinaria della variabile reale t.
Fissati due istanti t1 , t2 , il momento congiunto del secondo ordine delle variabili
casuali X1 , X2 `e chiamato autocorrelazione R(t1 , t2 ) del processo:
Z Z

R(t1 , t2 ) = E(X1 X2 ) =

x1 x2 f2 (x1 , x2 ; t1 , t2 )dx1 dx2 ,

(5.5)

ed `e una funzione degli istanti considerati.


Lautocovarianza C(t1 , t2 ) del processo `e la covarianza della coppia X1 , X2 che vale:
C(t1 , t2 ) = E[(X1 m(t1 ))(X2 m(T2 ))] = R(t1 , t2 ) m(t1 )m(t2 ).
La varianza 2 (t) del processo `e lautocovarianza per t1 = t2 = t:
2 (t) = C(t, t) = R(t, t) m2 (t)
ed `e pure essa, in generale, funzione del tempo t.

(5.6)

5.1 Definizioni

5.1.2

129

Processi indipendenti

Due processi X(, t), Y (, t) si dicono statisticamente indipendenti se, date le successioni di istanti {t1 , . . . , tn }, {t01 , . . . , t0m } linsieme di variabili aleatorie X(, tk ), k =
1, . . . , n `e indipendente dallinsieme delle Y (, t0h ), h = 1, . . . , m ovvero se la loro
densit`a congiunta di ordine n + m soddisfa:
fn+m (x1 , . . . , xn ; t1 , . . . tn ; y1 , . . . , ym ; t01 , . . . t0m ) = fn (x1 , . . . , tn )fm (y1 . . . , t0m )
per ogni intero n ed m.

5.1.3

Processi senza memoria

Fissato un istante t = t1 IR+ , le propriet`a di X(, t1 ) dipendono in generale da


quelle che ha avuto il processo in istanti precedenti, ed influiscono su quelle che avr`
a
negli istanti futuri.
Un processo `e chiamato senza memoria se la variabile aleatoria X(, t1 ) `e statisticamente indipendente dalle variabili aleatorie X(, th ) per ogni h 6= 1 intero.
Ci`o significa che lo stato del processo nellistante che si considera `e indipendente dal
suo passato e dal suo futuro: la sua densit`a di probabilit`a di ordine n vale
fn (x1 , . . . , tn ) = f1 (x1 , t1 )f1 (x2 , t2 ) f1 (xn , tn )
ed `e quindi nota in base alla sola statistica del primo ordine del processo. Il pi`
u
classico esempio di processo senza memoria `e il rumore bianco citato nel paragrafo
che segue.

5.1.4

Processi stazionari

a) Stazionariet`a in senso stretto


Un processo stocastico `e stazionario in senso stretto se le propriet`a dei due processi
X(, t), X(, t + ) sono invarianti rispetto a una traslazione dei tempi, in modo che
fn (x1 , . . . , xn ; t1 , . . . , tn ) = fn (x1 , . . . , xn ; t1+ , . . . , tn+ )
per ogni IR e ogni intero n.
Per questa definizione la stazionariet`a in senso stretto implica:
densita del primo ordine indipendente dal tempo:
f1 (x, t) = f1 (x, t + ) = f1 (x);

130

PROCESSI STOCASTICI

valore atteso costante rispetto a t:


Z

E(X) =

xf1 (x)dx = mX ;

densit`a del secondo ordine e autocorrelazione che dipendono solo dalla differenza = t2 t1 tra gli istanti considerati:
Z Z

R(t1 , t2 ) =

x1 x2 f2 (x1 , x2 , )dx1 dx2 = R( ).

(5.6)

b) Stazionariet`a in senso lato


Un processo stocastico X(, t) `e stazionario in senso lato (o debolmente stazionario)
se ha momenti tale che
|E(X)|
E(X 2 )

= cost < +
< +,
R(t1 , t2 ) = R( ).

(5.7)

La stazionariet`a debole riguarda dunque solo i momenti del primo e secondo ordine
del processo, e non le corrispondenti densit`a, come avviene nella definizione in senso
stretto: questultima implica la stazionariet`a in senso lato ma non viceversa.

5.2

Esempi notevoli

Nel definire il modello matematico di un fenomeno fisico mediante un processo stocastico, si usa spesso esprimerlo in termini analitici come una funzione ordinaria di
t contenente una o pi`
u variabili casuali i () come parametri:
X(, t) = X(i (), t).
In tal caso le statistiche del processo dipendono dalla distribuzione di probabilit`a
congiunta che si assegna allinsieme delle variabili casuali i (), e si ricavano con
i metodi noti descritti dalla teoria della trasformazione di variabili casuali, che ora
sono da applicare trattando il tempo t come un parametro della trasformazione.
In altre applicazioni si definiscono invece processi stocastici speciali, che sono il
risultato di una modellizzazione del fenomeno reale basata su opportune ipotesi di
natura probabilistica.
Esempio 5.1

Date le variabili casuali indipendenti a(), b(), formiamo il processo


X(, t) = a + bt.

5.2 Esempi notevoli

131

Esso `e costituito da una famiglia di rette, che sono le realizzazioni del processo, e la
sua media nellistante t `e la funzione lineare del tempo che si ricava in termini delle
medie di a(), b():
E(X) = E(a) + E(b)t.
Fissati gli istanti t1 , t2 , lautocorrelazione del processo vale
R(t1 , t2 ) = E(a + bt1 )E(a + bt2 ) = E(a2 ) + E(ab)(t1 + t2 ) + E(b2 )t1 t2
e la sua autocovarianza `e
C(t1 , t2 ) = a2 + b2 t1 t1 + Cov(a, b)(t1 + t2 ).
La varianza del processo al tempo t `e perci`o
2 (t) = a2 + b2 t2 + 2tCov(a, b)
e poich`e a(), b() sono indipendenti si riduce a
2 (t) = a2 + b2 t2 .
Si tratta di un processo non stazionario, nemmeno in senso debole.
5.2. Rumore di Rice

Un modello di rumore aleatorio in circuiti elettrici `e rappresentato dal processo:


X(, t) =

n
X

Aj cos(j t + j )

j=1

con Aj , j , j variabili aleatorie note. La statistica di X(, t) `e completamente


definita dalle distribuzioni di probabilit`a congiunte di queste 3n variabili casuali.
Una sua versione molto semplificata pu`o essere descritta dal processo
X(, t) = a cos(t + ())

(5.8)

con fase aleatoria uniformemente distribuita in [0, 2], ed a, costanti reali deterministiche. Le realizzazioni di questo processo sono funzioni cosinusoidali del tempo,
con eguale ampiezza e frequenza ma con fasi differenti, probabilisticamente definite
da una densit`a uniforme in [0, 2]. Si ottiene facilmente:
E(x) = E[a cos(t + )] =

a
2

Z 2
0

cos(t + )d = 0

1
R(t1 , t2 ) = a2 E[cos(t1 + ) cos(t2 + )] = a2 cos (t2 t1 );
2
Dunque il processo (5.8) `e debolmente stazionario.

2
X
=

a2
.
2

132

PROCESSI STOCASTICI

5.3. Trasmissione binaria semicasuale

In relazione alla emissione di un segnale in forma binaria equiprobabile ad intervalli


regolari di tempo T , definiamo il processo
X(, t) = Xn (),

(n 1)T t nT

(5.9)

dove n = . . . , 1, 0, 1, 2, . . . e le Xn sono variabili casuali statisticamente indipendenti con eguali densit`a


1
f (xn ) = [(xn + 1) + (xn 1)].
2

Y(t)

X(t)
1

1
A(w )
t

-1

-1

trasmissione binaria semicasuale

rumore binario

Figura 5.1

X(, t) e un processo debolmente stazionario che si chiama trasmissione binaria


semicasuale: le sue realizzazioni assumono casualmente valori 1 ad intervalli di
tempo T ed i valori che assume sono indipendenti da quelli che assume in ogni altro
intervallo. Si ricava facilmente:
E(X) = 0 Z
1
E(X 2 ) =
x2n [(xn + 1) + (xn 1)]dxn = 1
2
e inoltre si sa che E(Xn Xm ) = 0 per n 6= m perche le Xn sono indipendenti. Quindi:
2
X

=
1

R(t1 , t2 ) =

1
0

se
(n 1)T t1 , t2 < nT
altrimenti.

5.2 Esempi notevoli

133

5.4. Rumore binario

E una generalizzazione della trasmissione binaria semicasuale, in cui ciascuna realizzazione `e traslata nel tempo di una quantit`
a aleatoria A() indipendente dalle Xn
e avente densit`a uniforme nellintervallo [0, T ]. La sua rappresentazione analitica `e
perci`o
Y (, t) = X(, t)[t A()]

(5.10)

dove X(, t) `e la trasmissione binaria semicasuale. Una generica traiettoria del


processo `e indicata in Fig. 5.1, insieme con quella del processo semicasuale X(, t).
Il valore atteso e la varianza del rumore binario Y (, t) sono uguali a quelli di X(, t)
perche la traslazione rispetto al tempo non modifica i momenti a t prefissato; la sua
autocorrelazione `e invece diversa se = t2 t1 T , perche lappartenenza di t1 , t2
al medesimo intervallo dipende dai valori che assume A(). Si ha in tal caso:
R(t1 , t2 ) = P (A T | |) =

Z T | |
0

dA = 1

| |
= R( )
T

se | | T , mentre R = 0 se | | > T . Dunque anche il rumore binario `e un processo


debolmente stazionario. Per come `e stato costruito, esso `e il modello probabilistico
che si associa a prove ripetute ed indipendenti di un esperimento casuale, che avvengono con eguale probabilit`a di successo o di fallimento, ad uguali intervalli di tempo
T.
5.5. Rumore bianco

E uno speciale caso limite del rumore binario, che si definisce quando T 0 e
2 in modo che il prodotto 2 T tende a un valore finito. Per le sue particolari propriet`a e per la semplicit`a della sua descrizione in termini matematici, `e
ampiamente usato per approssimare un gran numero di fenomeni fisici aleatori.
5.6. Passeggiate a caso

Consideriamo ancora le successioni di infinite prove ripetute a intervalli uguali di


tempo T di un generico esperimento casuale con eguale probabilit`a di successo o
di fallimento. Associamo alla successione una funzione del tempo a gradino che
in corrispondenza di ciascuna prova ha un incremento della quantit`
a s se lesito
`e un successo e decresce della quantit`
a s se `e un fallimento. Questa funzione a
gradino (v. Fig. 5.2) `e una realizzazione di un processo stocastico X(, t) chiamato
passeggiate a caso.
Se nelle prime n prove si sono avuti k successi, il valore della generica realizzazione
del processo al tempo t = nT `e
x(nT ) = ks (n k)s = (2k n)s.

134

PROCESSI STOCASTICI

Per la formula di Bernoulli (2.42), la probabilit`a dellevento {X(nT ) = (2k n)s}


vale:
!
n 1
P [X(nT ) = (2k n)s] =
k 2n
e il valor medio del processo X(, t) per (n 1)T < t nT risulta:
E(X) =

n
X

k=0

n (2k n)s
= 0.
k
2n

La varianza `e uguale al momento del secondo ordine del processo al tempo t, e


nellistante t = nT vale:
2

(t) = s

n
X
k=0

n (2k n)2
ts2
= ns2 =
.
n
2
T
k

Se n `e sufficientemente grande, per il Teorema di asintoticit`


a di MoivreLaplace
(2.46) la probabilit`a dellevento {X(nT ) = (2kn)s} `e approssimata dalla gaussiana:
r

P [X(nT ) = (2k n)s] '

"

(2k n)2
2
exp
.
n
2n

X(t)

s
0

Figura 5.2 - Passeggiate a caso

Se infine a t costante
effettuiamo un passaggio al limite per s, T 0, e se s tende

a zero come T , si ottiene un nuovo processo stocastico chiamato moto browniano o processo di WienerLevy, che rappresenta il modello matematico del moto
irregolare di particelle libere di muoversi in un mezzo fluido.

5.2 Esempi notevoli

135

5.7. Processo di Poisson

Consideriamo una scelta casuale di istanti ti in IR+ , e definiamo il processo X(, t)


tale che X(, 0) = 0 e la differenza X(, t2 ) X(, t1 ) sia uguale al numero di
punti ti in [t1 , t2 ]. La famiglia di funzioni cos definita si chiama processo di Poisson.
Ogni sua realizzazione `e una funzione a scala con gradino unitario nei punti casuali
ti , come indicato in Fig. 5.3. Se invece fissiamo listante t, allora X(, t) `e una
variabile aleatoria il cui valore coincide con il numero k di punti nellintervallo [0, t].
Per la legge degli eventi rari (2.51) la probabilit`a dellevento E = {k punti in [0, t]}
`e approssimata da
(t)k t
Pk,t '
e ,
k!
per cui X(, t) per ogni fissato t `e distribuita con legge di Poisson con parametro t.

10
X(t)
5

1
0

ti
Figura 5.3 - Processo di Poisson

La statistica del primo ordine del processo `e quella della distribuzione di Poisson:
2
X
(t) = t.

mX (t) = t,

Scelti poi due istanti generici t1 , t2 > 0, si pu`o calcolare che

R(t1 , t2 ) = E(X1 X2 ) =

t2 + 2 t1 t2
t1 + 2 t1 t2

se t1 t2
se t1 t2

e quindi
C(t1 , t2 ) = R(t1 , t2 ) mX (t1 )mX (t2 ) = min(t1 , t2 ).
Il processo di Poisson non `e stazionario; `e per`o un processo con incrementi stazionari
in senso lato. Si definisce incremento di Poisson il processo
Y (, t) =

X(, t + ) X(, t)

(5.11)

136

PROCESSI STOCASTICI

che per ogni t fissato ha valori uguali al rapporto k/, dove k `e il numero di punti
nellintervallo [t, t + ]. Il valor medio degli incrementi di Poisson `e costante e vale:
E(Y ) =

E(X(t + )) E(X(t))
= ,

e lautocorrelazione risulta:
(

R(t1 , t2 ) =

2
2 +

| |
2

se
se

| | >
| | <

dove = t2 t1 .
Facendo tendere a zero, si ottiene un nuovo processo stocastico debolmente stazionario Z(, t), che definisce gli impulsi di Poisson:
Z(, t) = lim Y (, t) =
0

dX(, t) X
=
(t ti ).
dt
i

(5.13)

Questo processo consiste nella successione di infiniti impulsi unitari negli istanti
casuali ti , ed `e facile verificare che ha media ed autocorrelazione date da
E(Z) =
R(t1 , t2 ) = 2 + (t1 t2 ) = [ + ( )].

5.3

Processi di Markov

X(, t) `e chiamato processo di Markov se per ogni n e per t1 < t2 < ... < tn IR+
si ha:
P [X(, tn ) xn |xn1 , tn1 , . . . , x1 , t1 ] = P [X(, tn ) xn |xn1 , tn1 ].
In tale processo la distribuzione in probabilit`a allistante tn `e condizionata soltanto
dalle propriet`a statistiche che ha avuto nellistante immediatamente precedente tn1 ,
e ha perso la memoria della sua storia prima di tn1 . Ne segue che la densit`a di
probabilit`a di ordine n del processo vale:
fn (x1 , t1 , . . . , xn , tn ) = f1 (x1 , t1 )f (x2 , t2 |x1 , t1 ) f (xn , tn |xn1 , tn1 )
e per la definizione di probabilit`a condizionata si pu`o calcolare come:
fn (x1 , t1 , . . . , xn , tn ) =

f2 (x1 , t1 ; x2 , t2 ) f2 (xn , tn ; xn1 , tn1 )


.
f1 (x1 , t1 ) . . . f1 (xn1 , tn1 )

5.4 Catene di Markov

137

Questultima formula mostra che le propriet`a di un processo di Markov sono note


se si conosce la sua statistica fino al secondo ordine, che `e definita dalle densit`a
congiunte delle coppie (xi , xj ), i, j = 1, . . . n.
Fissati tre istanti t1 < t2 < t3 (e tralasciando di indicarli tra gli argomenti delle
varie densit`a, per semplicit`a di scrittura), si ha in particolare che:
f (x1 , x2 , x3 ) =

f2 (x1 , x2 )f2 (x2 , x3 )


f1 (x2 )

e poiche per definizione di probabiit`a condizionata si ha


f2 (x1 , x2 ) = f (x1 |x2 )f1 (x2 ), f2 (x2 , x3 ) = f (x3 |x2 )f1 (x2 ),
sostituendo si ricava:
f (x1 , x2 , x3 ) = f (x1 |x2 )f (x3 |x2 )f1 (x2 ).
Se ora interessa valutare la probabilit`a condizionata:
f (x1 , x3 |x2 ) =

f (x1 , x2 , x3 )
,
f1 (x2 )

questultima per la formula precedente risulta uguale a:


f (x1 , x3 |x2 ) = f (x1 |x2 )f (x3 |x2 ).
Il risultato mostra che le variabili casuali X1 , X3 , condizionate da X2 , sono indipendenti. Questo significa che sotto la condizione che sia noto lo stato presente X2 ,
il passato del processo markoviano `e indipendente dal suo futuro. In questo senso
si pu`o affermare che lipotesi markoviana `e lanalogo probabilistico dei problemi ai
valori iniziali della Meccanica, che sono descritti da equazioni differenziali la cui
soluzione al tempo t2 > t1 `e univocamente determinata se si assegna lo stato iniziale
x(t1 ) del sistema dinamico, e tale soluzione non dipende dal valore che essa assume
in qualche istante t3 > t2 .

5.4

Catene di Markov

Di solito nel processo di Markov il tempo t varia in un insieme continuo T IR+ . Se


linsieme dei tempi `e discreto, ossia T IN dove IN `e linsieme dei numeri naturali,
il processo discreto che ne risulta si chiama catena di Markov. Precisamente, si ha
la seguente
DEFINIZIONE. Si chiama catena di Markov il processo stocastico tale che:

138

PROCESSI STOCASTICI

t T IN;
le variabili casuali Xn assumono tutte valori nello stesso insieme numerabile
discreto E IN, chiamato spazio degli stati;
esistono reali non negativi pij (n) con i, j E, n N tali da soddisfare la
propriet`a di Markov:
pij (n)=P (Xn+1 = j|Xn = i, Xn1 = in1 , . . . , X1 = i1 ) = P (Xn+1 = j|Xn = i).
Se pij non dipendono da n, la catena `e omogenea.

5.4.1

Matrice di transizione

Se linsieme E degli stati `e finito, i numeri pij sono gli elementi di una matrice
quadrata P il cui ordine `e uguale alla cardinalit`a di E. Questa matrice si chiama
matrice di transizione ed ha le seguenti propriet`a:
pij 0;
la somma degli elementi di ogni sua riga vale 1. Infatti, in conseguenza degli
assiomi della probabilit`a per ogni i si deve avere:
X
j

pij =

P (Xn+1 = j|Xn = i) = P (Xn+1 E|Xn = i) = 1.

La matrice di transizione definisce univocamente gli stati j di Xn+1 qualora siano


noti gli stati i di Xn . Inoltre, la sua conoscenza permette di determinare anche
probabilit`a congiunte del tipo:
(m)

Pij

(m)

= P (Xn+m = j|Xn = i) = pij ,

cio`e la probabilit`a che dopo m passi successivi allistante t = n (nel quale la catena si
(m)
trova nello stato i) essa si trovi nello stato j. Infatti, se definiamo con Pm = [pij ] la
matrice di transizione dopo m passi successivi allnesimo, sfruttando la definizione
(m)
di pij si ricava che essa `e il risultato del prodotto matriciale
Pm = Pm1 P
da cui ponendo m = 2, 3, . . . si ottiene: P2 = PP = P2 , P3 = P2 P = P3 , . . . e per
ricorrenza:
Pm = Pm .

5.4 Catene di Markov

139

Poiche la variabile aleatoria Xn assume valori in E, la sua legge probabilistica `e descritta da un vettore riga con dimensioni uguali alla cardinalit`a di E, che indichiamo
con
w = (w1 , w2 , . . . , wk , . . .);
wk = P (Xn = k)
e tale da soddisfare per ogni valore intero dellindice k:
X

wk 0;

wk = 1

in modo che w sia una densit`a discreta su E. Indichiamo in particolare con


v = (v1 , v2 , . . . , vh , . . .),

vh = P (X0 = h)

lo stato probabilistico della catena nellistante iniziale t0 . Dopo n passi della catena,
la legge degli stati `e definita dal vettore w avente le componenti:
wk =

P (Xn = k|X0 = h)P (X0 = h) =

X (n)

phk vh .

Pertanto le leggi dei due stati (quello iniziale e quello della catena dopo n passi)
sono legate dalla relazione:
w = vPn .
Se ne conclude che le leggi congiunte degli stati n = 1, 2, . . . sono determinate univocamente dalla matrice di transizione P e dalla legge iniziale v. Infatti, si pu`o
dimostrare che data una matrice di transizione P e una legge su E, esiste sempre
una catena di Markov associata a P e con legge iniziale v.
Esempio 5.8

2
0.8
0.3
0.4

0.5
0.3
0.2

1
0.5
Figura 5.4

Consideriamo tre nodi (i, j = 1, 2, 3) di un generico grafo i quali per esempio


a seguito di indagini statistiche effettuate su determinati campioni rappresentativi
degli stati di un sistema risultano collegati fra loro con le probabilit`a di transizione
indicate in Fig. 54.

140

PROCESSI STOCASTICI

Supponiamo di dover studiare una successione di transizioni tra questi stati, che
avviene in successivi istanti t1 , t2 , . . . tn , . . . sempre con le medesime probabilit`a di
transizione, e a partire dallistante t0 nel quale lo stato del sistema si trova nel
nodo 2 con probabilit`a 1. Si ha un problema di questo tipo, per esempio, quando
si studia il flusso di abitanti tra centri urbani limitrofi, oppure le variazioni della
concentrazione di un elemento inquinante in ambienti collegati, ecc. Il suo modello
matematico naturale `e una catena di Markov omogenea definita sullo spazio degli
stati E = (1, 2, 3) in cui le variabili casuali Xn = X(tn ) possono assumere i valori di
E con probabilit`a da determinare. E nota la legge iniziale perche per t = t0 si ha
P (X0 = 1) = 0, P (X0 = 2) = 1, P (X0 = 3) = 0, e quindi
v = (v1 , v2 , v3 ) = (0, 1, 0).
Se pij `e la probabilit`a di transizione dallo stato i allo stato j, essa si trova sulla
iesima riga e jesima colonna della matrice di transizione della catena, che vale

P = 0.4

0.8 0.2
0.3

0.5 0.5

0.3 .

Se vogliamo conoscere la legge w(1) dello stato X1 = X(t1 ) basta applicare a v questa
matrice di transizione. Si scrive allora
(1)

(1)

(1)

(w1 , w2 , w3 ) = (0, 1, 0)P


e si ottiene:
w(1) = (0.4, 0.3, 0.3)
ossia: dopo un passo della catena il sistema si trova nello stato 1 con probabilit`a 0.4
e negli stati 2 o 3 con probabilit`a 0.3. Si noti che il risultato `e conforme agli assiomi
della probabilit`a totale, perche in t = t1 la somma delle probabilit`a degli stati deve
essere uguale allunit`a.
Se ora vogliamo conoscere la legge dello stato X2 = X(t2 ) si pu`o applicare la matrice
di transizione al vettore riga w(1) appena trovato; ma `e anche possibile calcolare
subito w(2) a partire dallo stato iniziale, scrivendo:
(2)

(2)

(2)

(w1 , w2 , w3 ) = (0, 1, 0)P2


dove

0.42 0.34

0.24

P = PP = 0.27

0.56

0.17 .

0.2

0.55

0.25

5.4 Catene di Markov

141

Si ricava in ogni caso:


w(2) = (0.27, 0.56, 0.17)
che definisce univocamente la legge della catena dopo due passi, e cos si pu`o proseguire per n = 3, 4, . . . . /

5.4.2

Classificazione degli stati

Nella teoria delle catene di Markov, dati due stati i, j E si dice che i comunica
(n)
con j se esiste un intero n > 0 tale che pij > 0, e si scrive in tal caso: i j.
Ci`o significa che nella catena `e possibile passare dallo stato i allo stato j in n passi.
Si badi che i j non implica necessariamente linverso: j i; si pu`o tuttal pi`
u
affermare che:
i j, j h
ih
(n)

(m)

perche se esistono n, m tali che pij > 0, pjh > 0, allora


(n+m)

pih

X (n) (m)

(n) (m)

pik pkh pij pjh > 0

e quindi i comunica con h (attraverso j).


Due stati (i, j) comunicano se esistono due interi n, m (anche diversi) tali che
(n)
(m)
pij > 0 e pji > 0, ovvero se `e possibile passare da i a j in n passi e la j ad i in m
passi.
Un sottoinsieme C E `e una classe chiusa se gli stati di C non comunicano con
gli stati appartenenti allinsieme complementare di C in E. Se Xk C, allora per
qualsiasi n k si avr`a Xn C, e pertanto se la catena raggiunge una classe chiusa
vi rester`a per sempre.
Una classe chiusa C `e irriducibile se e solo se tutte le coppie dei suoi stati
comunicano fra loro. Se lunica classe irriducibile `e E, allora la stessa catena di
Markov si dice irriducibile, perche tutti i suoi stati comunicano.
Se invece uno stato costituisce da solo una classe irriducibile, questo stato si
chiama assorbente.
(m)

Se esiste un intero m > 0 tale che pij > 0 per ogni coppia (i, j), la matrice di
transizione P si dice regolare e tale `e la catena di Markov associata a tale matrice
regolare. Una catena regolare `e irriducibile, ma non vale sempre linverso: esistono
catene irriducibili che non sono regolari. Un criterio sufficiente per la regolarit`a della
catena `e il seguente:
Se la catena `e irriducibile e inoltre esiste un h E tale che phh > 0, allora la
catena `e regolare.

142

PROCESSI STOCASTICI

Stati transitori e ricorrenti. Indichiamo con j () = min[n : Xn () = j] la


variabile aleatoria che definisce il primo istante in cui la catena di Markov visita lo
stato j. Il numero ij = P (j < +|Xn = i) `e la probabilit`a che la catena visiti
prima o poi lo stato j partendo dallo stato i. Uno stato si dice transitorio se ii < 1,
vale a dire se con probabilit`a maggiore di zero la catena che parte dallo stato i non
vi ritorna pi`
u. Si dice ricorrente (o anche persistente) se ii = 1, ovvero prima o poi
vi ritorna con probabilit`a 1.
In una catena irriducibile tutti gli stati sono ricorrenti. Se linsieme E degli stati
`e finito, uno stato i `e transitorio se e solo se esiste uno stato j tale che i j ma j
non comunica con i.
Nella catena dellEsempio 5.8 (e illustrata dal grafo di Fig. 5.4) tutti gli stati comunicano, perche P2 ha elementi che sono tutti > 0. Quindi la catena `e irriducibile
e non ci sono stati assorbenti. Inoltre, poiche nella matrice di transizione esiste un
h = 2 tale che p22 > 0, `e soddisfatta la condizione sufficiente per affermare che la
catena `e anche regolare. Tutti gli stati sono ricorrenti perche prima o poi la catena
ritorna in ciascuno di essi; non esistono stati transitori.
Esempio 5.9

Consideriamo il grafo di Fig. 5.5 nel quale cinque nodi, numerati progressivamente,
sono tra loro variamente collegati e supponiamo che il passaggio tra i nodi avvenga
nel verso indicato e con le probabilit`a indicate.
0.5

1
0.5

1
0.5

2
0.25

0.25

5
3

4
1
Figura 5.5

A questo grafo si pu`o associare una catena di Markov costituita da cinque stati,
identificati dal vettore E = {1, 2, 3, 4, 5} con matrice di transizione

5.4 Catene di Markov

143

1/2
1/2

P= 0

1
0

0 0
0 1/4
0
1
0
0
1
0

1/2
0
0
0
0

0
1/4

0
0

i cui elementi pij coincidono con le probabilit`a di transizione assegnate in figura. Si


noti anzitutto che la somma degli elementi su ogni riga vale 1 (probabilit`a dellevento
certo). Inoltre:
Poich`e p3,3 = 1, una volta che la catena entra nello stato 3 non vi esce pi`
u. Lo
stato 3 `e assorbente e quindi ricorrente.
Gli stati 1 e 4 comunicano tra loro ma non con gli altri stati. La classe {1, 4}
`e chiusa e irriducibile.
Gli stati 2 e 5 sono transitori poiche la catena che parte da uno di essi, con
probabilit`a maggiore di zero non vi ritorner`a pi`
u andando a finire o nella classe
irriducibile {1, 4} o nello stato assorbente.
In conclusione la catena `e lunione di due classi irriducibili I1 = {3}, I2 = {1, 4} e
di un insieme T = {2, 5} di stati transitori:
E = I1 I2 T.

5.4.3

Probabilit`
a invarianti

Supponiamo che linsieme E degli stati sia finito, con cardinalit`a N . Una probabilit`a
v = (v1 , v2 , . . . , vN ) si dice invariante o stazionaria se
v = vP ,

(5.12)

ovvero se la transizione da uno stato con legge v riproduce uno stato con la medesima
legge. Se gli stati iniziali di X0 hanno una legge stazionaria, allora Xn ha legge
w = vPn = vPPn1 = vPn1 = . . . = v,
per cui se la legge iniziale `e stazionaria, tutte le Xn hanno la stessa legge.
Si pu`o dimostrare (Teorema di MarkovKakutani) che una matrice di transizione su
un insieme finito di stati ha sempre almeno una probabilit`a invariante. Per la sua
unicit`
a `e per`o necessario che la matrice di transizione sia anche regolare nel senso
definito nel paragrafo precedente. Vale infatti a tale proposito il

144

PROCESSI STOCASTICI

TEOREMA DI MARKOV. Se P `e una matrice di transizione regolare si ha


(n)
lim p
n ij

= j

dove = (1 , . . . , N ) `e lunica probabilit`a invariante di P.


Una importante conseguenza del Teorema di Markov `e la seguente. Se v `e la legge iniziale degli stati della catena, sappiamo che la legge di Xn `e w = vPn . La probabilit`a
che Xn assuma il valore j si pu`o scrivere
P (Xn = j) =

(n)

vi pij

iE

che per n tende a


lim P (Xn = j) =

vi j = j .

iE

Questo mostra che qualunque sia la legge iniziale degli stati della catena, la legge di
Xn converge alla distribuzione invariante .
Per la definizione espressa con la (5.13), questa distribuzione invariante soddisfa
lequazione matriciale:
[P I] = 0
dove I `e la matrice identica. Perche essa abbia soluzioni non banali occorre che
det[P I] = 0, ovvero che = 1 sia un autovalore di P. Dunque `e lautovettore
riga associato allautovalore unitario della matrice regolare di transizione, e le sue
componenti j si possono ricavare risolvendo il seguente sistema lineare di N equazioni:
j = 1, . . . , N :

j =

N
X

pij i

(5.13)

i=1

in modo che siano soddisfatte le condizioni


j 0;

N
X

j = 1

(5.140 )

j=1

stabilite dagli assiomi della probabilit`a.


La catena dellEsempio 5.8 `e regolare: quindi per il Teorema di Markov i suoi stati
convergono ad ununica probabilit`a invariante che si pu`o determinare applicando le
(5.13) le quali richiedono unicamente la conoscenza della matrice di transizione. Si
ha cos il sistema lineare:
1 = 0.42 + 0.53

5.4 Catene di Markov

145

2 = 0.81 + 0.32 + 0.53


3 = 0.21 + 0.32
il quale, tenuto conto della condizione (5.14), ha questa unica soluzione:
= (0.30054, 0.4918, 0.20766).

(5.14)

Si pu`o dunque affermare che la catena, con il trascorrere del tempo (ovvero in una
successione di infinite transizioni che avvengono con le probabilit`a indicate) cadr`a
in uno dei tre stati rispettivamente con le probabilit`a invarianti date dalla (ref5e15).
Esempio 5.10

Nel grafo di Fig. 5.6 sia E = {1, 2, 3, 4, 5} linsieme dei suoi nodi. Assumiamo che dal
nodo i = 1, 2, . . . , 5 avvengano transizioni casuali ad un nodo adiacente, con eguale
probabilit`a di passaggio a tutti i nodi contigui. Se indichiamo con ki il numero dei

5
3

4
Figura 5.6

nodi adiacenti alliesimo, con questa ipotesi si definisce su E una catena di Markov
con le seguenti probabilit`a di transizione:

pij =

1/ki
0

se j `e adiacente a i
altrimenti.

Pertanto la matrice di transizione della catena vale

0 1/3 0
1/3 1/3
1/3
0 1/3 0 1/3

P = 0 1/3 0
1/3 1/3 .

1/3
0 1/3 0 1/3
1/4 1/4 1/4 1/4 0
Questa `e una matrice regolare: infatti, qualunque sia lo stato iniziale della catena,
dopo un passo il processo si pu`o trovare con probabilit`a non nulla in ciascuno degli
altri stati. Ci`o ci assicura che P2 `e composta da elementi tutti positivi, e soddisfa
la definizione di regolarit`a con m = 2. Per il Teorema di Markov esiste dunque una
unica probabilit`a invariante = {1 , . . . , 5 } per gli stati della catena. Questa si
determina cercando la soluzione del sistema (5.13) che nel nostro caso si scrive:
1 =

1
1
(2 + 4 ) + 5
3
4

146

PROCESSI STOCASTICI

1
1
(1 + 3 ) + 5
3
4
1
1
(2 + 4 ) + 5
3
4
1
1
(1 + 3 ) + 5
3
4
1
(1 + 2 + 3 + 4 ).
3

2 =
3 =
4 =
5 =

La sua soluzione soddisfacente la (5.14) `e:

3 3 3 3 1
, , , ,
.
16 16 16 16 4

Qualunque sia la legge iniziale degli stati della catena, per n essa tende alla
legge ora calcolata. Ad esempio, se supponiamo di partire dal centro del grafo,
assumeremo la legge iniziale v = {0, 0, 0, 0, 1}. Dopo un passo gli stati della catena
hanno legge:

1 1 1 1
w(1) = vP =
, , , ,0 ;
4 4 4 4
dopo due passi:

(2)

=w

(1)

P=

1 1 1 1 1
, , , ,
6 6 6 6 3

e al crescere del numero n di passi le componenti di w(n) tendono a j , j = 1, 2, . . . , 5.

STATISTICA DESCRITTIVA
6.1

Introduzione

Una valutazione approssimata della misura di probabilit`a da assegnare a un evento


casuale si pu`o effettuare in modo empirico se, sulla base della definizione frequentista di probabilit`a gi`a accennata nella Introduzione del Capitolo I, si determina
la frequenza degli esiti favorevoli di un esperimento casuale ripetuto n volte. Se
lesperimento ripetuto consiste nella rilevazione di certe caratteristiche di una popolazione (o universo), ovvero di un generico insieme di N oggetti o individui (con
N che pu`o anche essere infinito), il risultato di n prove `e una serie di dati, la cui
analisi porta a determinare una legge di probabilit`
a empirica per la caratteristica
della popolazione che vogliamo studiare.
E bene precisare subito che le serie di dati da esaminare statisticamente sono quelle
che si deducono dalla osservazione di un campione della popolazione, ossia di un numero n limitato (e possibilmente piccolo) dei suoi N elementi. Per ottenere risultati
attendibili sulle caratteristiche dellintera popolazione, occorre perci`o che i campioni siano adeguatamente scelti in modo da essere effettivamente rappresentativi
delluniverso dal quale sono stati estratti. In secondo luogo, occorre sviluppare
i metodi che attraverso lanalisi dei campioni consentano di stimare in modo attendibile le caratteristiche o parametri della popolazione che si intende esaminare.
Il campionamento e i metodi di stima dei parametri sono oggetto della Statistica
inferenziale, di cui ci occuperemo nei Capitoli che seguono. In questo Capitolo ci
limiteremo, in via preliminare, ad esporre le tecniche in uso per lorganizzazione
degli n dati raccolti, e per la rappresentazione delle probabilit`a empiriche che da
essi si deducono.
Le n osservazioni effettuate possono avere come obiettivo la definizione di caratteri
qualitativi della popolazione, consistenti in certe caratteristiche di natura non numerica (come ad esempio il colore, il grado di istruzione, lattivit`a professionale, la
preferenza per un candidato,...) oppure di caratteri quantitativi (ad es. il peso, la
lunghezza, il reddito,...) che si riferiscono invece a qualsiasi grandezza misurabile.
A loro volta, i caratteri quantitativi possono essere discreti se assumono solo un
147

148

STATISTICA DESCRITTIVA

numero limitato di valori, oppure continui con valori in un assegnato intervallo di


IR.
Nei riguardi dei possibili risultati dellesame di un carattere qualitativo, che sono
chiamati modalit`a, osserviamo che in certi casi essi sono comunque suscettibili di un
ordinamento (come ad esempio il grado di istruzione sopra citato), mentre spesso
non hanno alcun ordinamento rispetto alle altre modalit`a (il colore, il sesso,...). In
entrambi i casi, `e sempre possibile associare a ciascuna modalit`a un numero reale,
in modo che la serie di dati risultante dalle osservazioni sia ancora riconducibile ad
un insieme di numeri reali, definito su un sottoinsieme (discreto) di IR.
Nel seguito illustreremo le tecniche che si utilizzano per descrivere serie di dati
relativi a tutti quei caratteri di una popolazione che siano comunque rappresentabili
con punti discreti dellasse reale, oppure appartenenti ad uno o pi`
u intervalli di IR.

6.2

Distribuzioni di frequenze

Consideriamo dunque una serie di n dati numerici {x1 , x2 , . . . , xn } ricavati da altrettante osservazioni fatte sugli elementi di una popolazione, e relativi ad un suo
carattere quantitativo X continuo, oppure discreto ma con un numero elevato di
modalit`a. Questi dati si chiamano determinazioni di X oppure realizzazioni o valori
empirici. Indicato con IR linsieme delle modalit`a del carattere, definiamone
una partizione {i }, i = 1, . . . , m in m classi tra loro disgiunte, tale che la loro
unione coincida con , e con intervalli i aperti a destra:
i = [ai , bi ),

i ,

i j = ,

i 6= j = 1, 2, .., m.

Ad ogni classe i , avente ai e bi come confini inferiore e superiore, si associa poi la


sua ampiezza bi ai (non necessariamente uguale per ogni indice i) e il suo valore
centrale xi che `e la semisomma dei suoi confini.
La scelta delle classi i `e arbitraria, ma deve essere fatta in modo da ottenere una
rappresentazione significativa dei dati raccolti sul carattere da studiare: `e preferibile
che il loro numero sia elevato, ma nello stesso tempo occorre evitare di definire
intervalli parziali che contengano pochi dati della serie. Di regola, `e bene che i dati
in ciascuna classe siano maggiori o uguali a 5, e si sceglie un numero di classi che
non si scosti troppo dalla parte intera di m0 = 1 + (10/3) log10 n.
Se la serie si riferisce a un carattere discreto con modalit`a appartenenti allinsieme
IN dei numeri naturali, si pu`o assumere queste modalit`a come valori centrali di
altrettante classi di ampiezza uguale e unitaria.
Poiche per definizione ogni dato raccolto appartiene ad una ed una sola classe i
della partizione, si pu`o procedere al calcolo delle seguenti quantit`
a:

6.2 Distribuzioni di frequenze

149

la frequenza assoluta ni di ciascuna classe (a volte chiamata anche incidenza)


che `e il numero di elementi della serie che appartengono alla classe i . Si noti
che si avr`a: n1 + n2 + . . . + nm = n;
la frequenza relativa fi = ni /n di ciascuna classe, detta anche probabilit`a
empirica, e tale che f1 + f2 + . . . + fm = 1.
la frequenza cumulata Ni , somma delle prime i frequenze assolute:
Ni = n1 + n2 + .. + ni =

i
X

nj ;

j=1

la frequenza cumulata relativa Fi , somma delle prime i probabilit`a empiriche:


Fi = f1 + f2 + . . . + fi =

i
Ni
1X
=
nj .
n
n j=1

Con i dati raccolti si pu`o costruire un istogramma che rappresenta la distribuzione


delle frequenze per ciascuna classe del campione. Questa si ottiene riportando sulle
ascisse le varie classi i , e sulle ordinate i valori della funzione costante a tratti:
ni
,
x i , i = 1, .., m
n (x) =
i
che misura la frequenza assoluta per unit`a di ampiezza della classe i . Per semplicit`a
di scrittura, in questa formula e in quelle che seguono indichiamo con il simbolo i
sia la i-esima classe, sia la misura della sua ampiezza bi ai . In tal modo ciascun
rettangolo dellistogramma ha unarea proporzionale alla frequenza assoluta ni , e la
sua area totale `e proporzionale alla numerosit`
a n della serie di dati.
In modo analogo si pu`o costruire listogramma delle frequenze relative, chiamato anche distribuzione delle probabilit`a empiriche. Esso si ottiene riportando la funzione
costante a tratti:
fi
ni
fn (x) =

,
x i , i = 1, .., m
ni
i
e la sua area complessiva `e uguale ad 1 (ovvero alla probabilit`a dellevento certo).
Una distribuzione di frequenze relative, riguardante il campione esaminato nellEsempio
6.1 che segue, `e mostrata in Fig. 6.1. Al crescere della numerosit`
a n del campione e
per intervalli parziali i sufficientemente piccoli, la funzione fn (x) sar`a una buona
approssimazione della densit`a di probabilit`a fX (x) di quel particolare carattere X
della popolazione da cui `e stato estratto il campione. Se la popolazione `e composta
da infiniti elementi, nel passaggio al limite si ha:
Z
ni
lim
lim fi = IP(X i ) =
fX (x)dx.
n n
n
i
Agli istogrammi delle frequenze si possono associare:

150

STATISTICA DESCRITTIVA

il poligono delle frequenze relative, che unisce le ordinate fn (xi ) calcolate in


corrispondenza dei valori centrali xi delle singole classi (v. Fig. 6.1). Se si
effettua il doppio passaggio al limite di fn (xi ) per n e i 0, i,
il poligono delle frequenze relative tende al grafico della densit`a fX (x) del
carattere X dellintera popolazione;
il grafico delle frequenze cumulate Ni e delle frequenze cumulate relative Fi .
Un esempio di questultimo `e mostrato in Fig. 6.2. Al crescere di n e per i sufficientemente piccoli, esso approssima il grafico della funzione di distribuzione
cumulata FX (x) della variabile casuale X() che rappresenta il carattere della
popolazione oggetto di studio.
Alla distribuzione delle frequenze cumulate si associa spesso un grafico chiamato ogiva, il quale `e la spezzata che unisce i punti (sup i , Ni ) di ogni classe, a
partire dal punto (a1 , 0) coincidente con lestremo inferiore della prima classe.
Con lo stesso criterio, si costruisce anche logiva percentuale che unisce i punti
(sup i , Fi ) nella distribuzione delle frequenze cumulate relative. Logiva percentuale (v. Fig. 6.2) fornisce una immediata valutazione approssimata (per
difetto) della percentuale di elementi del campione che hanno un valore minore
o uguale a una quantit`a prefissata.

6.3

Indici di tendenza centrale e di dispersione

6.3.1

Medie, moda, mediana, quantili

Cos come nel calcolo delle probabilit`a si usano i momenti per individuare alcune
propriet`a rappresentative della distribuzione probabilistica di una variabile aleatoria,
nella Statistica descrittiva si definiscono i seguenti parametri di posizione per le
distribuzioni di frequenze.
La media pesata
x=

m
1X
ni xi
n i=1

(6.1)

dove xi `e il valore centrale delle classi. Se la serie di dati non `e raggruppata in


classi, in modo che m n e ni = 1 per ogni i, allora x `e la media aritmetica,
che in generale non `e uguale alla media pesata.
La media spuntata xt (trimmed mean), che `e la media dei dati calcolata considerando solo il 90% (o qualche altra percentuale) dei dati centrali. Essa si
determina ordinando anzitutto la serie dei dati secondo la sequenza crescente:
x1 x2 x3 . . . xn

(6.2)

6.3 Indici di tendenza centrale e di dispersione

151

Si eliminano il primo 5% e lultimo 5% dei dati della serie cos ordinata, e si


effettua la media (6.1) dei rimanenti.
La moda (Mo), che `e il valore centrale della classe con la frequenza pi`
u elevata. Se esiste pi`
u di una classe con un valore massimo delle frequenze, la
distribuzione `e detta multimodale e questo parametro perde il suo significato
di indice di posizione centrale.
La mediana x
, che si pu`o definire come il valore di x che divide in parti uguali
la superficie coperta dallistogramma delle frequenze relative. Se i dati xi sono
n determinazioni del carattere X(), la mediana `e tale che
IP(X x
) = IP(X > x
) = 1/2.
Per calcolare la mediana bisogna fare riferimento alla serie di dati ordinata come
nella (6.2), e si determina la classe k = [ak , bk ) con indice k = 1, 2, . . . , m alla
quale appartiene l(n/2)-esimo dato nella serie cos ordinata, se n `e pari, oppure
l(n + 1)/2-esimo dato della serie, se n `e dispari.
Se nk , fk sono la frequenza assoluta e relativa di questa classe e Nk1 , Fk1 sono le
frequenze cumulate della classe che la precede, allora per la definizione di mediana
deve essere:
Z x
Nk1
nk
Nk1
nk
1
=
+
dx =
+
(
x ak )
2
n
n
nk
ak nk
per cui il valore delle mediana risulta:
k
x
= ak +
nk

n
k
Nk1 = ak +
2
fk

1
Fk1 .
2

(6.3)

Quando la serie di dati non `e raggruppata in classi, allora si procede some segue.
se n `e dispari, la mediana x
coincide con il dato che occupa la (n + 1)/2-esima
posizione nella serie ordinata;
se n `e pari, la mediana `e la media aritmetica tra i due dati della serie ordinata
che occupano la (n/2)-esima posizione e quella successiva.
Per distribuzioni unimodali (in cui listogramma delle frequenze ha un solo massimo)
e simmetriche, i quattro parametri di posizione ora definiti coincidono, ma in generale
ci`o non avviene.
Quantile. In modo analogo alla mediana, si definiscono in Statistica altri indici
di posizione chiamati quantili o frattili, i quali suddividono lasse reale (sul
quale si riportano le modalit`a del carattere) in due intervalli con probabilit`a

152

STATISTICA DESCRITTIVA

assegnata. Precisamente, dato il reale q [0, 1], si chiama quantile q-esimo del
carattere X() il valore xq IR tale che
IP(X xq ) = FX (xq ) = q
ovvero: `e il valore massimo delle modalit`a per cui la frequenza cumulata relativa non supera il valore q.
Se la funzione di distribuzione cumulata FX (x) di X() `e continua e invertibile,
allora si deduce subito che xq = FX1 (q). Se espressi in percentuale, i quantili
vengono chiamati percentili, e inoltre in casi particolari assumono anche nomi affini.
Ad esempio: il decimo quantile x0,1 `e chiamato primo decile; il quantile x0,25 `e il
primo quartile; il quinto decile x0,5 non `e altro che la mediana x
, e cos via.
Quando i dati della serie ordinata sono raggruppati in classi, il suo quantile di ordine
q si determina come per la mediana. Precisamente, indicata con k la classe cui
appartiene l(n q)-esimo dato, se n `e pari, oppure l(n + 1) q-esimo dato, se n `e
dispari, allora ripetendo il calcolo gi`a fatto per la mediana risulta:
xq = ak +

k
k
(nq Nk1 ) = ak +
(q Fk1 )
nk
fk

(6.30 )

che si riduce alla (6.3) per q = 0.5.


Quando invece i dati non sono raggruppati in classi, il suo quantile di ordine q si
definisce come quel dato che `e preceduto da (n q) dati della serie ordinata. Quindi
si trova nella (n + 1) q-esima posizione della sequenza x1 < x2 < . . . < xk < . . . xn ,
e si calcola come segue.
- se (n + 1)q `e un numero intero, allora xq coincide con l(n + 1)q-esimo dato xk
con k = (n + 1)q;
- se (n + 1)q non `e intero ed `e compreso tra gli interi k e k + 1, si assume come
quantile xq la media aritmetica tra i dati xk e xk+1 della serie ordinata.
Media mobile. Si usa di frequente per analizzare le serie temporali che si ottengono nel rilevamento di dati su fenomeni caratterizzati da una qualche periodicit`a (settimanale, mensile o stagionale, come ad esempio il traffico urbano
o aeroportuale, la vendita di quotidiani,...) per evitare che le fluttuazioni periodiche dei dati raccolti impediscano di mettere in evidenza le tendenze a medio
e lungo termine che interessa rilevare. Data la serie temporale {x1 , x2 , . . . , xn },
la sua media mobile x
t+h su ogni sequenza di k dati consecutivi `e definita da
x
M (t + h) =

k
X
j=1

pj xt+j ,

con t = 0, 1, 2, . . . , n k ;

X
j

pj = 1

6.3

6.3 Indici di tendenza centrale e di dispersione

153

serie temporale
15
media
mobile

10

28

21

14

Figura 6.0

dove: k indica la periodicit`a delle rilevazioni; h (compreso tra 1 e k) `e un indice


che determina la collocazione delle medie mobili allinterno dellintervallo di k
dati della serie (di solito: h = 1; h = (k + 1)/2 se k `e dispari; oppure h = k);
e infine pj sono pesi che di solito si scelgono costanti (pj = 1/k, j) ma che
possono anche essere scelti arbitrariamente per rappresentare nel modo pi`
u
adeguato il particolare fenomeno rilevato con la serie statistica.
Ad esempio, si abbia la serie temporale raccolta in quattro settimane di osservazioni
giornaliere xi che `e riportata nella seconda colonna della Tabella che segue.
i

xi

1
2
3
4
5
6
7
8
9
10
11
12
13
14

4
5
3
6
8
12
10
5
7
6
9
12
13
11

0
1
2
3
4
5
6
7
8
9
10

media
mobile

6,43
7,00
7,28
7,71
8,14
8,71
8,86
9,00
9,43
9,14
8,57

xi

media
mobile

15
16
17
18
19
20
21
22
23
24
25
26
27
28

8
5
2
7
8
11
14
8
5
9
12
16
14
13

11
12
13
14
15
16
17
18
19
20
21

8,28
7,71
7,43
7,86
7,51
7,86
8,86
9,57
10,71
11,14
11,00

La media mobile settimanale (k = 7) dei dati, calcolata in modo che ogni valore
sia collocato al centro dellintervallo di dati di riferimento (h = (k + 1)/2 = 4), e
assumendo pesi costanti pj = 1/7, ha il valore indicato nella quarta colonna e il suo
grafico `e mostrato in Figura 6.0.

154

6.3.2

STATISTICA DESCRITTIVA

Indici di dispersione

Quando i dati sono raggruppati in classi, lindice di dispersione centrale della distribuzione di frequenze `e la varianza:
2 =

m
1X
ni (xi x)2
n i=1

(6.4)

ovvero la somma dei quadrati degli scarti xi x tra ogni valore centrale e la media
pesata della distribuzione. La sua radice quadrata positiva `e lo scarto quadratico
medio o deviazione standard della distribuzione.
Si chiama inoltre coefficiente di variazione il numero puro Cv = /x, rapporto tra
la deviazione standard e la media dei dati.
Se gli n dati xi non sono raggruppati in classi, la loro varianza `e diversa dalla (6.4),
e vale:
n
1X
2 =
(xi x)2 .
(6.40 )
n i=1
Una interessante propriet`a di questultima varianza (6.4) `e la seguente. Supponiamo
che i dati osservati si riferiscano a un miscuglio di m gruppi Ai , i = 1, . . . , m (come
caso molto speciale, questo miscuglio pu`o anche identificarsi con linsieme delle classi
i prima definite). Se ogni gruppo contiene ni dati xri con ri = 1, . . . , ni , la media
aritmetica e la varianza dei dati appartenenti a ciascun gruppo sono rispettivamente:
xAi

ni
1 X
=
xr ,
ni r =1 i

i2

fi
1 X
=
(xr xAi )2 .
fi r =1 i

(6.4)

Il parametro:
2
W
=

m
1X
ni i2
n i=1

`e la media pesata delle varianze calcolate allinterno (within) dei singoli gruppi,
e si avvicina alla varianza (6.4) se tutti i gruppi riproducono in modo omogeneo la
dispersione che caratterizza gli n dati osservati. Il parametro:
2
B
=

m
1X
ni (xAi x)2
n i=1

`e la varianza delle singole medie rispetto alla media aritmetica, ed `e un indice della
eterogeneit`a tra (between) i vari gruppi. Con alcuni calcoli si pu`o dimostrare che
la varianza (6.4) si pu`o scomporre nella somma delle due precedenti:
2
2
2 = W
+ B
,

6.3 Indici di tendenza centrale e di dispersione

155

per cui si pu`o sinteticamente esprimere come la somma tra la media delle varianze
2 e 2 pu`
e la varianza delle medie. Il confronto tra i valori di W
o essere utile per
B
effettuare una scelta corretta di un campione della popolazione, secondo le procedure
che verranno illustrate nel prossimo Capitolo.
Il momento centrale di ordine 3 di una distribuzione `e, per definizione:

m3 =

m
1X
ni (xi x)3 .
n i=1

(6.5)

Questultimo `e utile per calcolare il coefficiente di asimmetria della distribuzione di


frequenze, il quale `e il numero puro:

3 =

m3
3

(6.6)

dove `e lo scarto quadratico medio della distribuzione. Questo coefficiente `e nullo


se la distribuzione `e simmetrica; `e negativo se `e asimmetrica a sinistra (ci`o si
verifica quando la moda `e minore della mediana e della media); ed `e positivo se la
distribuzione di frequenze `e asimmetrica a destra.
Esempio 6.1

Si misura il peso X, espresso in Kg, di un campione di 100 individui estratti a caso


da una popolazione. La sequenza degli n = 100 valori osservati xi , ordinata come
nella (6.2), `e la seguente:
59.6, 59.8, 60.2, 60.3, 61.8, 62.5, 62.7, 62.95, 63.3, 64.1, 64.15, 64.3, 64.4, 64.9, 65.02,
65.1, 65.15, 65.25, 65.28, 65.3, 65.35, 65.4, 65.45, 65.55, 65.6, 65.6, 65.66, 65.75, 65.9,
66, 66.1, 66.24, 66.35, 66.55, 66.6, 66.65, 66.76, 66.78, 66.9, 67, 67.1, 67.24, 67.35,
67.55, 67.6, 67.6, 67.66, 67.75, 67.79, 67.8, 67.81, 67.82, 67.85, 67.95, 68, 68.1, 68.17,
68.2, 68.29, 68.3, 68.31, 68.34, 68.35, 68.4, 68.48, 68.55, 68.6, 68.65, 68.76, 68.78,
68.9, 69, 69.1, 69.2, 69.3, 69.55, 69.6, 69.6, 69.66, 69.75, 69.79, 69.8, 69.8, 69.8, 70.8,
70.9, 71, 71.1, 71.17, 71.2, 71.29, 71.3, 71.5, 71.8, 72, 72.2, 73, 73.2, 73.8, 74.2.
Poich`e il minimo vale 59.6 Kg e il massimo `e 74.2 Kg, scegliamo un intervallo =
[59.5, 74.5) che contenga tutti i valori registrati, e suddividiamolo in 5 classi di eguale
ampiezza i = 3 (sebbene per la regola citata in precedenza il numero di classi pi`
u
0
adeguato sarebbe 8 perch`e m = 1 + (10/3) 2 = 7.6). Utilizzando le osservazioni
fatte si pu`o costruire la seguente tabella di contingenza:

156

STATISTICA DESCRITTIVA

classe D i

xi

ni

fi

Ni

Fi

fi
Di

[59.5 , 62.5)

61

0,05

0,05

0,0166

[62.5 , 65.5)

64

18

0,18

23

0,23

0,06

[65.5 , 68.5)

67

42

0,42

65

0,65

0,14

[68.5 , 71.5)

70

27

0,27

92

0,92

0,09

[71.5 , 74.5)

73

0,08

100

1,00

0,0266

la quale riporta: i valori centrali, le frequenze assolute e relative e quelle cumulate,


P
per ognuna delle classi scelte. Dalla tabella si pu`o notare subito che i ni = 100 = n
P
e i fi = 1. Lultima colonna serve per costruire listogramma delle frequenze
relative che `e mostrato in Fig. 6.1. Logiva percentuale `e invece mostrata in Fig.
6.2. Valutando la sua ordinata per x = 70, si ricava che almeno l80% degli individui
del campione ha un peso non superiore a 70 Kg (il dato esatto, rilevato dalla serie
ordinata, `e 84%).
La moda della distribuzione di frequenze `e x
= 67 (il valore centrale della classe in
cui ni `e massima). La media pesata vale:
x=

1
(61 5 + 64 18 + 67 42 + 70 27 + 73 8) = 67.45,
100

mentre la media aritmetica dei dati `e 67.5275. La media spuntata `e pi`


u vicina alla
media aritmetica: si calcola su 90 dati raggruppati nelle quattro classi superiori,
perche si ottiene tagliando le code della serie, ossia sopprimendo i primi 5 dati e
gli ultimi 5 dati della serie ordinata secondo valori crescenti. Essa vale:
xt =

1
[64 18 + 67 42 + 70 27 + 73 (8 5)] = 67.50.
90

La mediana cade nella terza classe, e applicando la (6.3) con k = 3 si ricava:


x
= 65.5 +

3
(50 23) = 67.42.
42

La varianza definita dalla (6.4) vale:


2 =

5
1 X
ni (xi 67.45)2 = 8.5275,
100 i=1

6.3 Indici di tendenza centrale e di dispersione

157

0.15

fi
Di
0.10

Di
0.05

xx
0

61

64

67

70

73

Kg

Figura 6.1

Fi
0.75
ogiva percentuale
0.50
0.25

61

64

67

70

73

Kg

Figura 6.2

mentre quella relativa ai 100 dati non raggruppati, definita dalla (6.4), vale 8.7092.
Se ora consideriamo separatamente i gruppi di dati appartenenti a ciascuna classe
i , le loro medie aritmetiche e varianze, fornite dalla (6.4), valgono:
x1 = 60.34
12 = 0.5984

x2 = 64.477
22 = 0.9364

x3 = 67.233
32 = 0.85716

x4 = 69.831
42 = 0.8446

x5 = 72.71
52 = 0.8486.

Si noti, in particolare, che le medie xi non sono i valori centrali xi delle classi. Si
ricavano le seguenti varianze parziali del miscuglio:
2
W
= 0.8547,

2
B
= 7.8545

la cui somma: 0.8547 + 7.8545 = 8.7092 `e appunto uguale alla varianza dei dati
2 >> 2 si deduce, come daltra parte `
e ovvio, che le
non raggruppati. Poiche B
W

158

STATISTICA DESCRITTIVA

cinque classi sono molto eterogenee, ossia che non `e possibile assumerne una sola per
rappresentare adeguatamente la sequenza dei dati osservati. Il momento centrale di
ordine 3 si calcola applicando la (6.5):
m3 =

5
1 X
ni (xi 67.45)3 = 2.6932,
100 i=1

per cui il coefficiente di asimmetria (6.6) della distribuzione di frequenze vale:


2.6932
= 0.14.
(8.5275)3

3 = p

Esso indica che la frequenza dei dati nelle classi inferiori alla terza (contenente la
moda) `e minore della frequenza dei dati nelle classi superiori (la quarta e la quinta). /

6.3.3

Stem-and-leaf e box-plot

Ci sono altri modi per avere una rappresentazione sbrigativa, anche se grossolana,
dei dati di una serie statistica. Uno di essi `e il diagramma stem-and-leaf (a ramo e
foglia) il quale si basa, come per gli istogrammi, su una preventiva suddivisione in m
classi di uguale ampiezza delle modalit`a di un carattere quantitativo. Si dispongono
su una colonna (il ramo) le prime cifre significative (le centinaia, o le decine
o le unit`a,...) dellestremo inferiore di ogni classe, e alla destra di ogni numero
incolonnato si riportano le foglie, ovvero la cifra successiva (le decine, o le unit`a,
o i decimi,...) di ciascun dato xi che appartiene a quella classe. Ne risulta un
diagramma di m righe si completa scrivendo in una prima colonna, posta a sinistra
del ramo, le frequenze cumulate a partire dalle due classi estreme, in modo che
risultino incolonnati i seguenti valori: N1 , N2 , . . . , 1 Nm2 , 1 Nm1 . Fa eccezione
la riga della classe che contiene la mediana, nella quale si scrive (tra parentesi) la
sua frequenza assoluta anzich`e quella cumulata.
Ad esempio, data la serie statistica degli n = 11 dati seguenti:
1.7 1.9 1.95

2.11

2.2 2.25

2.4 2.52 2.85 3.1 3.35

e suddiviso linsieme dei dati in m = 3 classi di ampiezza unitaria, questo risulta


rappresentato dal seguente diagramma stem-and-leaf:
unit`
a decimi

799

(6)

122458

13.

6.3 Indici di tendenza centrale e di dispersione

159

Ovviamente si pu`o costruire pi`


u di un diagramma per ciascuna serie di dati, e
la scelta pi`
u conveniente `e quella che meglio illustra la disposizione dei dati nella
serie ordinata, in modo che il diagramma si presenti come una struttura a barre la
cui lunghezza ricorda, almeno grossolanamente, listogramma delle frequenze che si
ricava con le modalit`a precisate nel 6.2.
Se, come ulteriore esempio, riconsideriamo le serie di 100 dati esaminata nellEsempio
6.1, suddivisa in m = 8 classi di ampiezza 0.2, il suo diagramma stem-and-leaf che
ha come ramo le decine `e il seguente:
decine unit`
a

99

5
9
29
(25)
46
16

6
6
6
6
6
7

001
2223
44444555555555555555
6666666666777777777777777
888888888888888889999999999999
0011111111

223334.

Se per`o costruiamo il diagramma a partire da un ramo che rappresenti le unit`a,


allora si deve considerare un numero doppio di classi (m = 16) e si ottiene uno
stem-and-leaf plot molto pi`
u dettagliato, ma anche pi`
u complicato da determinare:
unit`
a decimi

59

68

4
5
8
9
14
29
39
(15)
46
29
16
14
6
4

60
61
62
63
64
65
66
67
68
69
70
71
72
73

23
8
579
3
11349
011223344566679
0123566779
012356667788889
01122333344566779
0123566677888
89
01122358
02
028

74

2.

160

STATISTICA DESCRITTIVA

Entrambi i diagrammi rappresentano con efficacia laddensarsi dei dati nellintervallo


(65, 70) Kg. e la loro scarsa dispersione rispetto al valore centrale.
Box-plot. Un altro grafico di semplice esecuzione che si traccia per avere una
sommaria indicazione sulla distribuzione dei dati di una serie statistica `e il box-plot
o diagramma a scatola.
In una cornice, con base graduata sui valori del carattere rappresentato, si disegna
una scatola rettangolare che si estende dal primo quartile x0.25 al terzo quartile
x0.75 . La differenza x0.75 x0.25 `e chiamata escursione interquartile. Si suddivide
poi la scatola in due rettangoli riportando anche il valore della mediana x0.5 , e si
tracciano due segmenti esterni che collegano le parti laterali della scatola ai valori
estremi x1 ed xn della serie statistica ordinata (v. Fig. 6.3).
Il grafico che ne risulta indica in modo efficace la dislocazione della met`a centrale
dei dati della serie (cioe di quel 50% dei dati che sono contenuti nella scatola) e la
eventuale asimmetria della loro distribuzione, che si riconosce subito nel caso in cui
la posizione della mediana suddivida la scatola in due parti fortemente disuguali.
a

1.5

2.0

2.5

3.0

3.5

58 60 62 64 66 68 70 72 74 76

Figura 6.3 - Esempi di diagrammi a scatola

La Fig. 6.3a) mostra il box-plot che rappresenta gli 11 dati della serie statistica
sopra introdotta. Poiche (n + 1)/4 = 12/4 = 3 `e intero, il suo primo quartile `e il
terzo dato della serie ordinata, e il terzo quartile `e il nono dato:
x0.25 = 1.95 ;

x0.75 = 2.85.

Quindi la scatola ha una ampiezza uguale allescursione interquartile 2.851.95 = 0.9


ed `e suddivisa in due parti disuguali dal valore della mediana x0.5 = 2.25, che `e il
sesto dato della serie ordinata.
La Fig. 6.3b) riporta invece il box-plot relativo alla serie di 100 dati dellEsempio
6.1. Poiche (n + 1)/2 non `e intero, il suo primo quartile `e la media aritmetica
tra il 25-esimo e il 26-esimo dato della serie, ovvero x0.25 = 65.6 (questi due dati
sono addirittura uguali); e il terzo quartile `e la media aritmetica tra il 75-esimo e il
76-esimo:
69.55 + 69.6
= 69.575.
x0.75 =
2
La mediana della serie di dati non raggruppati, che `e diversa da quella prima calco-

6.4 Distribuzioni congiunte di frequenze

161

lata applicando la (6.3), `e la media aritmetica tra il 50-esimo dato e il 51-esimo:


67.8 + 67.81
= 67.805.
2
Il diagramma a scatola che ne risulta rivela con buona evidenza una bassa escursione
interquartile e una moderata asimmetria della distribuzione dei dati.
x0.5 =

6.4

Distribuzioni congiunte di frequenze

I metodi di analisi dei dati raccolti che sono stati illustrati nei paragrafi precedenti
si possono impiegare anche quando il campione `e la collezione di n dati riguardanti
due caratteri differenti di una medesima popolazione, che indichiamo con X e Y . In
tal caso il campione si presenta come un insieme di n coppie
(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )

(6.7)

in cui i numeri reali xk e yk , k = 1, . . . , n, sono le determinazioni di X e di Y .


Indicati con x , y IR gli insiemi delle modalit`a dei due caratteri, suddividiamo
x in m intervalli, y in ` intervalli, e definiamo una arbitraria partizione di =
x y IR2 in m ` classi disgiunte, costituite dai rettangoli
ij = [ai , bi ) [cj , dj ),

i = 1, 2, . . . , m;

j = 1, 2, . . . , `

aventi come valore centrale il punto


(xi , y j ) = ((ai + bi )/2, (cj + dj )/2).
Lanalisi delle coppie di dati (6.7) porta allora alla valutazione empirica approssimata
delle quantit`a gi`a definite nel Capitolo 3. Precisamente, si pu`o determinare:
il numero nij di coppie in cui la modalit`a di X appartiene allintervallo [ai , bi ) e
quella di Y appartiene allintervallo [cj , dj ). Questo numero nij `e la frequenza
assoluta congiunta della classe ij ;
la frequenza relativa congiunta fij = nij /n che, se divisa per larea della classe
ij , porta alla costruzione di un istogramma tridimensionale rappresentante
la distribuzione delle probabilit`a empiriche congiunte;
la frequenza cumulata congiunta Nij , che `e la somma delle frequenze assolute
congiunte delle classi rs con r i ed s j ;
la frequenza cumulata relativa congiunta Fij = Nij /n, che `e la somma delle
probabilit`a empiriche congiunte frs con r i, s j ;
le probabilit`a empiriche marginali dei caratteri X e Y , che sono rispettivamente:
i = 1, . . . , m :

`
1X
fi =
nij ;
n j=1

j = 1, . . . , ` :

m
1X
fj =
nij .
n i=1

162

STATISTICA DESCRITTIVA

Lorganizzazione dei dati raccolti nel campione (6.7) si pu`o effettuare costruendo
tabelle a doppia entrata analoghe a quella di Fig. 3.5. che riportano per ogni classe
ij i valori di una delle grandezze sopra elencate.
Covarianza
Il pi`
u importante momento centrale di una distribuzione empirica congiunta `e la
covarianza dei dati su X e Y rilevati nel campione. In Statistica si usa indicarla con
sxy e, in analogia con le (3.19), (3.7) vale:
sxy

m X
`
m X
`
1X
1X
=
nij (xi x)(y j y)
nij xi y j x y
n i=1 j=1
n i=1 j=1

(6.8)

dove xi , y j sono i valori centrali di X e Y nella classe ij , e x, y sono le medie


delle distribuzioni empiriche marginali di X e Y , definite come nella (6.1). Se le
modalit`a delle n coppie di dati (xk , yk ) non sono state raggruppate in classi, allora
la covarianza dei dati si pu`o calcolare con la somma:
sxy =

n
n
1X
1X
(xk x)(yk y) =
xk yk x y,
n k=1
n k=1

(6.80 )

dove x, y sono le medie aritmetiche dei dati xk e yk . Nel paragrafo che segue vedremo
come, insieme con le varianze marginali di X e Y , la covarianza (6.8) sia di fondamentale importanza per definire, attraverso lanalisi del campione (6.7), il grado di
correlazione lineare esistente tra le modalit`a dei due caratteri della popolazione che
sono stati esaminati.
Contingenza e indice di connessione
Supponiamo ora che i due caratteri X, Y siano statisticamente indipendenti. In tale
ipotesi, ogni realizzazione di X non `e condizionata dalle realizzazioni di Y o viceversa, e ricordando la propriet`a (3.12) del Capitolo 3 le frequenze relative congiunte
fij = nij /n rilevate dal campione dovrebbero teoricamente essere uguali al prodotto:
fi fj = (ni /n)(nj /n) delle probabilit`a empiriche marginali, per ogni i = 1, . . . , m e
j = 1, . . . , `. E assai raro che ci`o si verifichi in una generica coppia del campione
esaminato, e per valutare in che misura sia rispettata nel campione questa legge di
indipendenza si pu`o determinare la differenza tra queste due quantit`
a, moltiplicate
per n. Il parametro statistico che ne risulta `e
cij = nij

ni nj
n

e si chiama contingenza della coppia (i, j). Poich`e coinvolge unicamente le frequenze
assolute (miste e marginali) delle varie classi, essa si pu`o impiegare anche quando si
`e in presenza di caratteri qualitativi di una popolazione (mentre invece la covarianza
si riferisce esclusivamente a caratteri quantitativi).
Pi`
u utile ai fini pratici `e un indice che si basa sulla media quadratica delle contingenze
rilevate per ogni coppia del campione, che prende il nome di indice di connessione

6.5 Regressione lineare

163

2 di Pearson ed `e cos definito:


2 = n

m X
`
X
(nij ni nj /n)2

ni nj

i=1 j=1

m X
`
X
n2ij
= n
1 .
i=1 j=1

ni nj

Questo indice, che `e nullo solo quando tutti i dati del campione soddisfano rigorosamente la gi`a citata legge di indipendenza (3.12), `e usato nei tests che saranno
trattati nel 10.3 del Capitolo 10, atti a verificare ipotesi di indipendenza statistica
tra due caratteri qualsiasi di una popolazione.

6.5

Regressione lineare

Supponiamo di essere interessati a scoprire se e come il carattere Y della popolazione


`e in qualche modo legato al carattere X. Se riportiamo sul piano (x, y) i punti con
coordinate (xk , yk ) forniti dal campione (6.7), si ottiene un cosiddetto diagramma
di dispersione (del tipo che verr`
a mostrato in Fig. 6.4), dal quale si pu`o in certi
casi intuire che il carattere X influenza il carattere Y . Una valutazione statistica
quantitativa di come ci`o avviene si ha solo se si ipotizza una relazione analitica
y = f (x) in cui le modalit`a di Y sono espresse in funzione di quelle del carattere X,
pensato come una variabile indipendente. La stima di questa funzione `e chiamata
regressione di Y su X.
La scelta della legge f dipende ovviamente da caso a caso, ma quella che si usa di
solito `e anche la pi`
u semplice: la funzione lineare. In altre parole, si effettua una
regressione lineare quando si ipotizza che i dati yk forniti dal campione (6.1) siano
deducibili dai dati xk secondo la legge:
y = f (x) = a + bx

(6.9)

e si determinano i coefficienti a, b in modo che la stessa descriva nel miglior modo


possibile il legame tra i dati osservati nel campione.
La determinazione di a, b viene fatta minimizzando lo scarto quadratico medio tra
tutti i valori yk osservati e quelli che si ottengono in funzione di xk dalla relazione
lineare (6.9). Questo scarto quadratico medio vale:
S(a, b) =

n
n
1X
1X
[yk f (xk )]2 =
(yk a bxk )2
n k=1
n k=1

(6.10)

e, interpretato come funzione dei coefficienti incogniti a, b, ha derivate parziali


S
a

S
b

n
2X
(a yk + bxk )
n k=1

n
2X
(bx2 xk yk + axk )
n k=1 k

164

STATISTICA DESCRITTIVA

le quali si annullano per


bX
1X
yk +
xk = 0
n k
n k
bX 2 1X
aX
xk
xk yk +
xk = 0.
n k
n k
n k

(6.11)

Ricerchiamo i punti di stazionariet`a di S(a, b). Dal sistema (6.11) si ricava:


bX
1X
yk
xk = y bx
n k
n k
bX 2 1X
x
xk yk + x(y bx) = 0
n k k n k

a=

dove x, y sono i valori medi di X, Y . Usando ora lespressione (6.8) della covarianza
dei dati, si ottiene:
sxy
sxy
a = y 2 x,
b= 2
(6.12)
x
x
dove x2 `e la varianza della distribuzione marginale di X.
Il punto di stazionariet`a (6.12) `e un minimo per S(a, b). Infatti, sia le derivate
seconde di S(a, b) che il determinante della matrice Hessiana sono positivi:
2S
a2

= 2;

det(H) =

2S
2X 2
x > 0;
=
2
b
n k k

2S 2S

a2 b2

2S
ab

!2

2S
= 2x
ab

1X 2
=4
x x2
n k k

= 4x2 > 0.

Se ne conclude che la stima migliore dei valori del carattere Y , fatta sulla base delle
osservazioni del carattere X secondo la legge lineare (6.9), `e fornita dalla retta di
regressione:
sxy
y = y + 2 (x x)
(6.13)
x
il cui coefficiente angolare `e direttamente proporzionale alla covarianza dei dati
(xk , yk ). Se indichiamo con
= x x,

=yy

(6.14)

gli scarti delle due modalit`a rispetto alle loro medie aritmetiche, la (6.13) si scrive
pi`
u semplicemente:
= b
(6.130 )
che nel piano traslato (, ) con origine in (x, y) `e lequazione della retta di regressione
per gli scarti (di Y su X) rispetto alle loro medie. Il coefficiente b, definito nella
(6.12), si chiama coefficiente di regressione lineare di Y su X, ed `e il parametro pi`
u

6.5 Regressione lineare

165

importante nella stima della regressione che abbiamo effettuato: esso `e una misura
della variazione del carattere Y per una assegnata variazione del carattere X.
La legge lineare (6.13) non `e esatta: esiste una differenza tra f (xk ) = a + bxk e i
dati yk effettivamente osservati. Questa differenza si chiama residuo:
rk = yk f (xk ) = yk a bxk
ed in generale `e diversa da zero per ogni k. Tuttavia, la somma dei residui `e nulla:
infatti ricordando il risultato (6.12) si ha sempre:
X

rk =

(yk a bxk ) = n(y a bx) = 0.

Se valutiamo lerrore commesso, calcolando il minimo dello scarto quadratico medio


S(a, b), che si ha per a, b definiti dalla (6.12), questo errore minimo fornisce una
indicazione quantitativa sulla validit`
a della ipotesi fatta sulla dipendenza lineare di
Y da X. Sostituiamo nella (6.10) le espressioni (6.12) di a, b, usando le definizioni
(??) degli scarti , . Si trova che lerrore quadratico medio di cui sono affette le
(6.13), (6.13) vale:

1X
sxy
k 2 k
n k
x

s2xy X 2 2sxy X
1X 2
k +

k k =
n k
nx4 k k
nx2 k

y2

s2xy
s2xy
s2xy
+ 2 2 2 = y2 1 2 2
x
x
x y

=
dove:

(X, Y ) =

= y2 [1 2 (X, Y )]

sxy
[1, 1]
x y

`e il coefficiente di correlazione tra i dati delle coppie (cfr. la 3.9), detto anche
coefficiente di determinazione lineare.
Dunque, la stima effettuata mediante la relazione lineare (6.13) `e esatta se || = 1 e
in tal caso si dice che esiste una perfetta correlazione tra X ed Y . La stima `e valida
se || `e molto prossimo a 1, e non `e efficace per piccoli valori di ||, perche allora
i caratteri X e Y sono scarsamente correlati e lerrore quadratico medio cresce,
avvicinandosi al valore y2 della varianza dei dati yk , che pu`o anche essere elevata.
Al limite per 0, la covarianza sxy e il coefficiente di regressione b tendono a
zero, con la conseguenza che i valori stimati di yk tendono alla loro media aritmetica
y. In questo caso limite i caratteri X e Y sono non correlati, nel senso che non si
pu`o dire che esista una relazione lineare che lega le loro realizzazioni.
Dobbiamo per`o anche osservare che la non correlazione non esclude la possibilit`a di
una loro dipendenza con legge diversa da quella lineare (per esempio: quadratica,
come descritto nel 6.7 che segue). A conferma di questa affermazione basta ricordare
che la non correlazione `e una propriet`a pi`
u debole della indipendenza statistica
(3.1.1, 3.1.2).

166

STATISTICA DESCRITTIVA

La radice quadrata positiva dellerrore sopra calcolato si chiama errore standard


xy della regressione lineare, e vale:
q

xy = y 1 2 (X, Y ).

(6.14)

Esempio 6.2

Da n = 12 osservazioni dei caratteri X e Y di una popolazione si ricavano le seguente


coppie di dati (xk , yk ):
(65, 68)
(68, 69)
(68, 71)

(63, 66)
(62, 66)
(67, 67)

(67, 68)
(70, 68)
(69, 68)

(64, 65)
(66, 65)
(71, 70)

che in Fig. 6.4 sono rappresentate da 12 punti del piano (x, y). Si vuole verificare
se, e con quale errore standard, si pu`o affermare che le modalit`a di Y dipendono da
quelle di X con una legge di regressione lineare del tipo (6.13).
y

sxy

72

70
68

. .

.
.

. .

66

64
62

y = a + bx

x
60

62

64

66

68

70

72

74

Figura 6.4 - Regressione lineare

Le medie aritmetiche e le varianze marginali valgono:


x =
y =
x2 =
y2 =

1 X
800
xk =
= 66.6
12 k
12
1 X
811
yk =
= 67.583
12 k
12
1 X 2
53418
4444.44 = 7.056
x x2 =
12 k k
12
54849
1 X 2
4567.5 = 3.243.
y y2 =
12 k k
12

La covarianza della coppie di dati, da calcolare applicando la (6.8), vale:


sxy =

1 X
54107
4505.55 = 4508.916 4505.55 = 3.36117.
xk yk 66.6 67.583 =
12 k
12

6.6 Regressione multipla

167

Ne segue, applicando la (6.12), che i coefficienti a, b della retta di regressione di Y


su X valgono:
3.36117
= 0.4763
7.056
a = 67.583 0.4763 66.6 = 35.826.
b =

Sulla base dei valori osservati, la migliore stima dei valori di Y `e dunque fornita
dalla retta di regressione:
y = 35.826 + 0.4763 x
che `e indicata in Fig. 6.4, e nel piano traslato degli scarti (, ) con origine nel punto
(x = 66.6, y = 67.583) ha equazione
= 0.4763 .
Per valutare lerrore quadratico medio della regressione effettuata, `e sufficiente
calcolare ancora il coefficiente di correlazione delle coppie di dati, che vale:
(X, Y ) =

3.36117
sxy
=
= 0.7027.
x y
2.656 1.8

Il suo valore ragionevolmente vicino allunit`a indica che la legge di dipendenza


lineare di Y da X pu`o essere sostenuta, almeno in un modello di previsione statistica
di prima approssimazione. Da questo calcolo si ricava:
= y2 [1 2 (X, Y )] = 3.243(1 0.49378) = 1.6416
la cui radice quadrata `e lerrore standard della regressione lineare:

xy = = 1.28125.
Se si riportano in Fig. 6.4 le rette di equazione y = a + bx xy , si pu`o osservare
che nella regione compresa tra queste due rette cadono 8 dei 12 punti campionari:
dunque internamente alle due rette si trova il 66.6% delle osservazioni registrate
nel campione con numerosit`a n = 12. Questo risultato percentuale d`a una indicazione approssimata sulla significativit`a della regressione effettuata. Nellambito
della teoria dei campioni, che sar`a sviluppata nei prossimi Capitoli, si vedr`
a che al
crescere di n le distribuzioni dei dati xk e yk tendono teoricamente a leggi normali
con medie rispettivamente uguali a x e y. Ci`o significa che al crescere di n anche
la distribuzione dei punti del piano (x, y) attorno alla retta di regressione tende alla
legge normale, e in tale circostanza il calcolo delle probabilit`a per leggi normali (cfr.
2.3.2) prevede che il 68.27% (anzich`e il 66.6%) dei punti campionari siano interni
alle rette y = a + bx xy /.

6.6

Regressione multipla

Il metodo di regressione lineare visto nel precedente paragrafo si pu`o estendere allo
studio della dipendenza di un carattere Y da pi`
u caratteri X, Z, . . . della medesima

168

STATISTICA DESCRITTIVA

popolazione. Consideriamo in particolare il caso in cui, avendo a disposizione una


serie di n terne (xk , yk , zk ) riguardanti tre caratteri X, Y, Z della popolazione, si
voglia studiare la regressione lineare di Y sui due regressori X e Z, che si suppone
non siano linearmente dipendenti luno dallaltro. Introdotti allora gli scarti dei dati
rispetto alle loro medie aritmetiche:
= x x,

= y y,

= z z,

si pone
= f (, ) = b1 + b2

(6.15)

che generalizza la (6.13) e si determinano i coefficienti di regressione parziale b1 , b2


che rendono minima la media dei quadrati delle differenze tra k e f (k , k ):
S(b1 , b2 ) =

1X
(k b1 k b2 k )2 .
n k

(6.16)

Annullando le derivate parziali di S(b1 , b2 ), che valgono:


S
b1

S
b2

n
2X
(b1 k2 + b2 k k k k )
n k=1

n
2X
(b2 k2 + b1 k k k k ),
n k=1

si ottiene il sistema
b1
n
b2
n

b2 X
1X
k k =
k k
n k
n k
k
X
b1 X
1X
k2 +
k k =
k k .
n
n
k
k
k
k2 +

(6.17)

Se teniamo conto che per definizione le varianze marginali e le covarianze tra i dati
delle coppie (xk , yk ), (xk , zk ), (yk , zk ) sono rispettivamente:
x2 =
sxy =

1X 2
,
n k k
1X
k k ,
n k

1X 2
1X 2
k ,
z2 =

n k
n k k
1X
1X
sxz =
k k ,
syz =
k k ,
n k
n k

y2 =

si ottiene la seguente soluzione del sistema (6.17):


b1 =

sxy z2 sxz syz


x2 z2 s2xz

b2 =

syz x2 sxz sxy


.
x2 z2 s2xz

(6.18)

Questi sono i valori dei coefficienti parziali di regressione che, introdotti nella (6.15),
determinano lequazione del piano di regressione di Y sui due caratteri X e Z,
stimata in modo da rendere minimo lerrore quadratico medio (6.16).

6.7 Regressione non lineare

169

Questa regressione multipla perde significato se i caratteri X, Z sono legati da una


relazione rigorosamente lineare, in modo che per ogni k risulti xk = c1 +c2 zk . Infatti,
si noti che i denominatori comuni ai due coefficienti (6.18) si possono anche scrivere:
x2 z2 s2xz = x2 z2 [1 2 (X, Z)],
e si annullano per |(X, Z)| = 1, ossia quando X e Z sono legati da una relazione
lineare. Al contrario, quando X e Z sono completamente scorrelati si ha (X, Z) = 0,
e in tal caso b1 e b2 si identificano con i coefficienti delle regressioni semplici di Y ,
effettuate separatamente su X e su Z.
Ripristinando nella (6.15) le variabili originarie al posto degli scarti, si ricava subito
che lequazione di questa regressione multipla nel sistema di riferimento (x, y, z) `e
y = f (x, z) = a + b1 x + b2 z

(6.160 )

con a = y b1 x b2 z , e b1 , b2 dati dalle (6.18).

6.7

Regressione non lineare

Se la regressione semplice lineare di Y su X, trattata nel 6.5, non ha un esito


soddisfacente perche il suo errore standard (6.14) `e troppo elevato, si deve cercare
una legge f (x), non pi`
u lineare, che meglio approssimi la relazione esistente tra i
dati del campione (sempreche, naturalmente, questa relazione esista). Si pu`o per
esempio effettuare una regressione quadratica:
= f () = b1 + b2 2

(6.19)

per scarti tra i dati di Y su X, oppure scegliere altre leggi (esponenziale, logaritmica,
iperbolica,..) che pensiamo siano pi`
u adatte a rappresentare la relazione cercata.
Nel caso della regressione (6.19), i coefficienti b1 , b2 si possono ancora calcolare minimizzando lo scarto quadratico medio tra k e f (k ), ma `e pi`
u comodo determinarli utilizzando i risultati della regressione multipla appena effettuata nel paragrafo
precedente.
A tal fine, si introduce la definizione di un carattere fittizio Z = X 2 e si sostituisce
il suo scarto = z z al posto di 2 nella (6.19). Con tale posizione, la regressione quadratica (6.19) `e equivalente alla regressione lineare multipla (6.15), che `e
certamente non singolare perche , pur essendo una funzione di , non dipende linearmente da questultima. I coefficienti parziali di questa regressione multipla, gi`a
determinati nella (6.18), sono anche quelli che rendono minimo lerrore quadratico
medio nella regressione (6.19). Pertanto, in termini delle variabili originarie x, y, la
regressione quadratica di Y su X risulta definita da
y = f (x) = a + b1 x + b2 x2

(6.200 )

con b1 , b2 dati ancora dalle (6.18), e inoltre


a = y b1 x b2 z = y b1 x

b2 X 2
x .
n k k

(6.20)

170

STATISTICA DESCRITTIVA

Il medesimo artificio, consistente nellintrodurre uno o pi`


u caratteri fittizi, `e generalmente usato, in Statistica, per effettuare altre speciali regressioni non lineari che si
possono rendere formalmente equivalenti a regressioni lineari multiple.
Esempio 6.3

Si ha motivo di ritenere che le modalit`a del carattere Y di una popolazione abbiano


un minimo per un certo valore (incognito) di un secondo carattere X della medesima
popolazione. Si vuole ricercare questo minimo mediante lanalisi di 10 coppie di dati
(xk , yk ), ricavate da osservazioni fatte ad intervalli costanti di X. Dalla serie di dati,
che `e la seguente:
(10, 37)
(35, 44)

(15, 27)
(40, 45)

(20, 31)
(45, 51)

(25, 27)
(50, 62)

(30, 36)
(55, 66) ,

80
y

60

. .
.

40

y = 39.209 - 0.9433 x + 0.0269 x 2

20
0

10 20 30 40 50 60 70
Figura 6.5 - Regressione quadratica

si ricava che x = 32.5, y = 42.6. Calcolati gli scarti di xk e yk rispetto a queste


medie, effettuiamo la regressione quadratica (6.19) di Y su X, ricavando dapprima
le modalit`a zk del carattere fittizio Z = X 2 . Esse sono:
100,

225,

400,

625,

900,

1225,

1600,

2025,

2500,

3025

ed hanno media aritmetica z = 1262.5. Calcolando quindi anche gli scarti k =


zk z, siamo in grado di effettuare la regressione lineare multipla (6.61) di Y sui
due regressori X e Z = X 2 . Procedendo con i seguenti calcoli:
x2 =
z2 =
sxz =

1 X 2
1 X 2
k = 206.25
y2 =
= 169.84
10 k
10 k k
1 X 2
1 X
k = 904406.30
sxy =
k k = 167
10 k
10 k
1 X
1 X
k k = 13406.25
syz =
k k = 11745
10 k
10 k

si ricava dalle (6.18):


b1 = 0.9433 ,

b2 = 0.0269

6.8 Problemi risolti

171

e dalla (6.20):
a = 39.209.
La parabola che rende minimo lerrore quadratico medio della regressione (6.20) `e
pertanto:
y = 39.209 0.9433x + 0.0269x2
e il suo grafico `e mostrato in Fig. 6.5. Il minimo della parabola di regressione si
trova nel punto
!

b21 4ab2
b1
,
= (17.4887, 30.96)

2b2
4b2
del piano (x, y) e fornisce una risposta al nostro problema, che ovviamente non
sarebbe stato possibile ottenere attraverso una regressione lineare. /

6.8

Problemi risolti

6.1. Da un campione con numerosit`


a n = 16 si estrae la seguente serie statistica di
dati (non raggruppati in classi):
10, 14, 8, 11, 11, 15, 12, 9, 12, 17, 10, 5, 6, 14, 12, 13.
Calcolare: la media aritmetica, la media pesata, la media spuntata, la moda e la
mediana della serie.
Soluzione: La serie ordinata per valori crescenti `e
5, 6, 8, 9, 10, 10, 11, 11, 12, 12, 12, 13, 14, 14, 15, 17.
La media aritmetica `e uguale alla media pesata e vale
x=

179
1
[5 + 6 + 8 + 9 + 2 10 + 2 11 + 3 12 + 13 + 2 14 + 15 + 17] =
= 11.1875 .
16
16

La media spuntata vale


xt =

1
157
[6 + 8 + 9 + 2 10 + 2 11 + 3 12 + 13 + 2 14 + 15] =
= 11.214286 .
14
14

La moda `e la determinazione che ha la maggiore frequenza, ossia 12 .


La mediana `e la media aritmetica tra lottavo e il nono dato della serie ordinata:
x
=

x8 + x9
11 + 12
=
= 11.5 .
2
2

6.2. Da 10 osservazioni del carattere di una popolazione si ricavano questi valori:

172

STATISTICA DESCRITTIVA

5.8, 7, 4.7, 5, 5.2, 6.1, 6.5, 7.6, 4.1, 6.3.


Rappruppati questi dati in 4 classi di ampiezza unitaria, calcolare: la media delle
2 , la varianza delle medie 2 e la varianza delle osservazioni effettuate.
varianze W
B
Soluzione: Dai dati della serie ordinata:
4.1, 4.7, 5, 5.2, 5.8, 6.1, 6.3, 6.5, 7, 7.6
si ricava questa tabella per le frequenze e le varianze dei dati in ciacuna classe:
classe
[4, 5)
[5, 6)
[6, 7)
[7, 8)

xAi
4.4
5.3
6.3
7.3

ni
2
3
3
2

i2
0.09
0.115
0.02666
0.09

La media aritmetica dei dati non raggruppati vale


x=

1
[4.1 + 4.7 + 5 + 5.2 + 5.8 + 6.1 + 6.3 + 6.5 + 7 + 7.6] = 5.83.
10

La media delle varianze i2 vale:


2
W
=

4
1 X
ni i2 = 0.0787
10 i=1

e la varianza delle medie `e


2
B
=

4
1 X
ni (xAi 5.83)2 = 0.9814 .
10 i=1

La loro somma `e uguale alla varianza dei dati non raggruppati:


2 =

10
1 X
2
2
(xk 5.83)2 = W
+ B
= 0.0787 + 0.9814 = 1.0601 .
10 k=1

6.3. Dalle osservazioni effettuate su due caratteri X, Y di una popolazione si ricavano questi campioni:
A : (5, 124) (9, 300) (4, 112) (7, 160)

B : (4, 112) (5, 124) (5, 120) (4, 124).

Quale dei due mostra un maggior grado di dipendenza statistica tra i caratteri
osservati?

6.8 Problemi risolti

173

Soluzione. Indichiamo con (xi , yj ), i, j = 1, . . . , 4 i dati delle quattro coppie campionarie. Nel campione A nessun dato si ripete, per cui la frequenza congiunta di
ciascuna coppia e quelle marginali valgono:
n11 = n22 = n33 = n44 = 1,
ni = nj = 1.

nij = 0 per i 6= j

Con queste frequenze si calcola lindice di connessione di Pearson per il campione A:

2A = n

1 1 = 4(4 1) = 12.

i=j

Nel campione B i dati sono:


x1 = 4, x2 = 5
y1 = 112, y2 = 120, y3 = 124
e le relative frequenze si possono disporre nella seguente tabella a doppia entrata:
nij
4
5
ni

112
1
0
1

120
0
1
1

124
1
1
2

nj
2
2
4

Ne segue che lindice di connessione per il campione B vale:

2B

1
1
1
1
=4
+
+
+
1 = 2.
21 22 21 22

Quindi i due caratteri hanno il maggior grado di dipendenza statistica nel campione A ,
perch`e il suo indice 2 `e maggiore di quello di B.
6.4. Determinare la mediana dei seguenti insiemi di dati campionari, non raggruppati in classi:
A = {10 5

11

9}

B = {11 8

17

9 11

C = {12

11

10

12

7}

15

8}

174

STATISTICA DESCRITTIVA

Soluzione. Ordiniamo i dati dei campioni per valori crescenti:


A = {3 5 9 10 11} (n = 5)
B = {8 8 8 9 11 11 15 17} (n = 8)
C = {4 7 10 11 12 12} (n = 6).
Nel campione A (n dispari) la mediana `e il terzo dato: x
(A) = 9 .
Nei campioni B e C (n pari) le mediane sono la media aritmetica dei due valori
centrali:
x
(B) = (9 + 11)/2 = 10 ;

x
(C) = (10 + 11)/2 = 10.5 .

6.5. Determinare la retta di regressione per i seguenti dati sperimentali (xk , yk ):


(10, 121) (20, 98) (30, 75) (40, 59)

(50, 38)

ricavati in 5 prove sui caratteri X e Y di una popolazione, e calcolare lerrore standard della regressione effettuata.
Soluzione.
x =
y =
x2 =
y2 =
sxy =
a =

1
(10 + 20 + . . . + 50) = 30
5
1
(121 + 98 + . . . + 38) = 78.2
5
1
[(10 30)2 + . . . + (50 30)2 ] = 200
5
1
[(121 78.2)2 + . . . + (38 78.2)2 ] = 843.76
5
1
[(10 30)(121 78.2) + . . . + (50 30)(38 78.2)] = 410
5
410
410
78.2 +
30 = 139.7 ;
b=
= 2.05.
200
200

La retta di regressione `e quindi: y = 139.7 2.05x .


Il coefficiente di correlazione tra i dati delle coppie vale:
410
(X, Y ) =
= 0.99807,
200 843.76
per cui lerrore standard della regressione risulta:
q

xy =

843.76[1 (0.99807)2 ] ' 1.80 .

6.6. Calcolare la mediana, il secondo decile e il terzo quartile di questi due insiemi
di dati campionari non raggruppati:
A = {8 22 23 12 29 15 11 7 31 8};

B = {18 15 6 21 19.}

6.8 Problemi risolti

175

Soluzione. Nel campione A in cui n = 10, ordinato per valori crescenti {xk } con
k = 1, . . . , 10:
7 8 8 11 12 15 22 23 29 31,
la mediana x
, il secondo decile x0.2 e il terzo quartile x0.75 valgono:
x
= (x5 + x6 )/2 = (12 + 15)/2 = 13.5
(n + 1) 0.2 = 2.2
(n + 1) 0.75 = 8.25

x0.2 = (x2 + x3 )/2 = (8 + 8)/2 = 8

x0.75 = (x8 + x9 )/2 = (23 + 29)/2 = 26 .

Nel campione B in cui n = 5, ordinato per valori crescenti {xk } con k = 1, . . . , 5:


6

15

18

19 21,

la mediana x
e i quantili x0.2 , x0.75 valgono:
x
x3 = 18
(n + 1) 0.2 = 1.2
(n + 1) 0.75 = 4.5

x0.2 = (x1 + x2 )/2 = (6 + 15)/2 = 10.5


x0.75 = (x4 + x5 )/2 = (19 + 21)/2 = 20 .

6.7. E dato il campione


(2, 5) (5, 31)

(2, 22) (1, 12) (6, 45)

ricavato da 5 osservazioni (xk , yk ) dei caratteri (X, Y ). Dopo aver operato la regressione lineare di Y su X determinando la stima y, calcolare i residui rk = yk yk .
Soluzione. Con lo stesso procedimento seguito nel Problema 6.5 si calcola anzitutto:
x = 2;

y = 23;

x2 = 10;

sxy = 43.4

da cui si ottiene:
a = 23

43.4
2 = 14, 32;
10

b=

43.4
= 4.34.
10

Dunque la regressione lineare di Y su X consiste nella stima: y = 14.32 + 4.34x .


I residui valgono:
r1 = 5 (14.32 4.34 2) = -0.64
r2 = 31 (14.32 + 4.34 5) = -5.02
r3 = 22 (14.32 + 4.34 2) = -1
r4 = 12 (14.32 4.34) = 2.02
r5 = 45 (14.32 + 4.34 6) = 4.64 .
Verifica: la somma dei residui `e zero.

176

STATISTICA DESCRITTIVA

6.8. Le frequenze assolute n(i) dei voti riportati da 50 studenti in una prova scritta
desame sono le seguenti:
n(< 18) = 15, n(18) = 4, n(19) = 1, n(20) = 4, n(21) = 2, n(23) = 3, n(24) =
4, n(25) = 5, n(26) = 1, n(27) = 5, n(28) = 2, n(29) = 1, n(30) = 3
e la media aritmetica dei voti `e 20.98. Si vuole costruire un istogramma delle frequenze dei voti, composto da 7 classi (aperte a destra): la prima comprendente le
insufficienze, e le altre sei di ampiezza x = 2, centrate sui voti 19, 21, . . . , 29. Quale
deve essere lampiezza della prima classe (insufficienze) perche la media pesata che
ne risulta sia uguale a quella aritmetica?
Soluzione. Con i dati del problema si costruisce la seguente tabella di contingenza:
i
1
2
3
4
5
6
7

classe i
?
[18,20)
[20,22)
[22,24)
[24,26)
[26,28)
[28,30]

xi
?
19
21
23
25
27
29

ni
15
5
6
3
9
6
6

Se la media ponderata `e uguale a quella aritmetica nota, deve essere


20.98 =

1
(15x1 + 5 19 + 6 21 + 3 23 + 9 25 + 6 27 + 6 29)
50

da cui si ricava:

198
= 13.2.
15
Poiche x1 `e il valore centrale della classe 1 , questa deve avere ampiezza uguale a
x1 =

2(18 13.2) = 9.6

1 = [8.4, 18).

6.9. Calcolare laltezza di ciascuna barra dellistogramma delle frequenze relative


f (i) dei voti nel Problema 6.8, in modo che la sua area complessiva sia uguale ad 1.
Soluzione. Se indichiamo con i lampiezza delle 7 classi del Problema 6.8 e con hi
le altezze delle barre dellistogramma, deve essere
h1 =

n1
;
501

i = 2, . . . , 7 :

hi =

ni
ni
=
= 0.01 ni
50i
50 2

per cui si ricava


h1 =
h2 =

15
= 0.03125
50 9.6
0.05 h3 = 0.06 h4 = 0.03

h5 = 0.09

h6 = 0.06

h7 = 0.06 .

6.8 Problemi risolti

177

Verifica:
7
X

i hi = 9.6 0.03125 + 2(0.05 + 3 0.06 + 0.03 + 0.09) = 0.3 + 0.7 = 1.

i=1

6.10. (a) Determinare la retta di regressione di Y su X per la seguente serie statistica


di 5 coppie (xk , yk ) di osservazioni: (1, 8) (2, 12) (3, 22) (4, 28) (5, 30).
(b) Calcolare il coefficiente di correlazione (X, Y ).
(c) Si pu`o affermare che la stima lineare `e valida? Perche?
(d) Calcolare lerrore standard xy della regressione effettuata.
Soluzione.
(a) Con calcoli analoghi a quelli del Problema 6.5 si ricava:
x = 15/5 = 3 ; y = 100/5 = 20
1
x2 =
(1 + 4 + 9 + 16 + 25) 9 = 2
5
1
y2 =
(64 + 144 + 484 + 784 + 900) 400 = 75.2
5
1
(8 + 2 12 + 3 22 + 4 28 + 5 30) 3 20 = 12
sxy =
5
da cui:
b = 12/2 = 6 ;

a = 20 6 3 = 2 .

Dunque la retta di regressione `e: y = 2 + 6x .


12
(b) coefficiente di correlazione: (X, Y ) =
' 0.9785 .
2 75.2
(c) SI , perche il coefficiente di correlazione `e molto prossimo ad 1.
(d) errore standard: xy =

75.2[1 (0.9785)2 ] ' 1.7888 .

6.11. In una indagine su 180 famiglie si rileva la spesa annuale X sostenuta per
lacquisto di quotidiani e quella annuale Y effettuata per lacquisto di CD musicali.
Limporto delle spese `e espresso in migliaia di lire e raggruppato in 3 classi xi per
i quotidiani e 4 classi yj per i CD. La tabella riporta il numero nij di famiglie che
hanno sostenuto spese appartenenti alle classi xi e yj .

X [50 250)
[250 450)
[450 650)

Y [0 200)
15
12
6

[200 400)
35
22
12

[400 600)
26
10
24

[600 800)
10
8
0

178

STATISTICA DESCRITTIVA

(a) Calcolare la media pesata della spesa totale Z = X + Y ;


(b) dire se i caratteri X e Y sono correlati, giustificando la risposta;
(c) calcolare la deviazione standard di Z.
Soluzione.
(a) La media pesata di Z `e la somma delle medie pesate di X e Y . I valori centrali
e le frequenze marginali di X nelle tre classi sono:
x1 = 150, n1 = 86;

x2 = 350, n2 = 52;

x3 = 550, n3 = 42.

Per le spese Y , suddivise in 4 classi, si ha:


y 1 = 100, n1 = 33;

y 2 = 300, n2 = 69;

y 3 = 500, n3 = 60;

y 4 = 700, n4 = 18.

Quindi le medie pesate di X e Y valgono:


X =
y =

1
(150 86 + 350 52 + 550 42) = 301.1
180
1
(3300 + 20700 + 30000 + 12600) = 370
180

da cui si ottiene Z = 301.1 + 370 = 671.1 .


(b) La covarianza dei due caratteri vale
1
(15 150 100 + 35 150 300 +
180
+ . . . + 24 550 700) 301.1 370 = 114694.44 111407 = 3287.44

sxy = E(XY ) X Y =

e poiche `e diversa da zero, i due caratteri sono correlati .


q

(c) La deviazione standard di Z vale Z =


2
X
Y2

2 + 2 + 2s
X
xy dove:
Y

= (1502 + 3502 + 5502 )/180 (301.1)2 = 26061.01


= (1002 + 3002 + 5002 + 7002 )/180 3702 = 31766.67

e sostituendo si ottiene:
Z =

64402.56 = 253.776 .

6.12. (a) Determinare la retta di regressione y = f (x) per la seguente serie statistica
di 5 coppie (xk , yk ) di osservazioni: (2, 2) (1, 0) (2, 2) (3, 1) (6, 4).
(b) Calcolare la varianza dei residui rk = yk f (xk ).
Soluzione (a):

6.8 Problemi risolti

x = 2;

179

x2 =

y = 1;

sxy =
b=5

4 + 1 + 9 + 4 + 36
34
4=
5
5

4 + 3 + 4 + 24
xy =72=5
5

5
25
= ;
34
34

a=1

25
25
2=1 .
34
17

La retta di regressione `e:


y =1

25 25
+
x ' -0.47 + 0.7353 x .
17 34

(b) La varianza dei residui `e uguale al valore minimo dello scarto quadratico medio,
ovvero al quadrato dellerrore standard xy . Infatti, poiche la variabile residuo
r = yk (a + bxk ),

k = 1, . . . , 5

ha media nulla, si ha
r2 = E{[r E{r}]2 } = E{r2 } =

5
s2xy
1X
[yk a bxk ]2 = y2 2 = (xy )2 .
5 k=1
x

Allora `e sufficiente calcolare ancora


y2 =

4 + 1 + 4 + 16
1=4
5

per ottenere:
r2 = 4 52

5
11
=
' 0.3235 .
34
34

180

STATISTICA DESCRITTIVA

DISTRIBUZIONI
CAMPIONARIE
7.1

Modelli statistici

I primi tre Capitoli di questo libro hanno trattato la formulazione matematica di un


modello probabilistico per un generico esperimento casuale. Si `e visto che un modello
probabilistico `e definito in modo completo quando si precisa lo spazio di probabilit`a
(, B, P ) da associare allesperimento in studio, ovvero lo spazio campione dei
possibili esiti, il campo di Borel B degli eventi Ai , e il funzionale P : B [0, 1]. In
tale modello la probabilit`a P che si assegna al generico evento Ai B `e univocamente
definita, e si calcola sulla base della distribuzione probabilistica che si assume nota,
ed adeguata a descrivere il fenomeno aleatorio oggetto di studio.
Tuttavia, nellanalisi di un fenomeno reale cui si attribuisce natura casuale, o di
una popolazione di individui o di oggetti dotati di caratteri aventi anchessi natura
casuale, la legge di probabilit`a cui questi obbediscono `e raramente nota in forma
completa. Pi
u spesso si pu`o soltanto affermare a priori che P appartiene a una
famiglia P di leggi probabilistiche (per esempio: alla famiglia delle leggi normali,
o binomiali, ....) che `e la collezione delle leggi di probabilit`a ammissibili nella descrizione matematica di quel particolare carattere aleatorio. Ci si trova cos di fronte
a un problema che per certi aspetti `e linverso di quello affrontato nel Calcolo delle
probabilit`a, ovvero: determinare la legge P P del carattere, sulla base di informazioni relative a probabilit`a empiriche ricavate da un campione estratto dalla
popolazione.
Di questo problema si occupa la Statistica inferenziale la quale, attraverso lanalisi
dei dati forniti dal campione, ha lo scopo di definire univocamente, e nel miglior
modo possibile, la legge probabilistica incognita P che descrive la natura aleatoria
di quel particolare carattere della popolazione.
Una volta assegnata la famiglia delle leggi probabilistiche che riteniamo ammissibili,
linsieme (, B, P) costituisce il modello statistico per il fenomeno casuale (o per il
carattere della popolazione) che si sta studiando. Nel seguito supporremo di esaminare un carattere quantitativo di una popolazione o, al pi
u, un carattere in qualche
modo suscettibile di un ordinamento. In tal caso, ogni elemento P P dipender`a
in generale da un insieme di parametri incogniti i IR, che varia a seconda
181

182

DISTRIBUZIONI CAMPIONARIE

della famiglia P che caratterizza il modello statistico.


I modelli che pi`
u frequentemente si adottano nella Statistica inferenziale fanno riferimento a note leggi di distribuzione di probabilit`a, tra cui quelle citate nel 2.3. Se
ad esempio stiamo studiando un carattere che pu`o assumere casualmente qualsiasi
modalit`a in un intervallo limitato ma incognito, il modello statistico pi`
u pertinente
`e quello uniforme con due parametri, che si indica con R(1 , 2 ) ed `e definito dalla
famiglia di densit`a:
1
,
x [1 , 2 ],
f (x, 1 , 2 ) =
2 1
i cui parametri incogniti sono da ricercarsi nel dominio
= {(1 , 2 ) : < 1 < 2 < +}.
Se si suppone che il carattere sia distribuito normalmente, con valor medio da determinarsi, si ricorre al seguente modello Normale-1:
"

N (, ) :

= IR,

1
(x )2
f (x, ) =
exp

.
2 2
(2)1/2

Se invece della distribuzione normale teorica si conosce il valor medio e si vuole


determinare la varianza, si definisce il modello Normale-2:
#

"

N (, ) :

= IR+ ,

1
(x )2
f (x, ) =
,
exp

2
(2)1/2

e se si vuole determinare sia il valor medio che la varianza, il modello statistico di


riferimento `e quello Normale generale:
"

N (1 , 2 ) :

1
(x 1 )2
f (x, 1 , 2 ) =
exp
22
(22 )1/2

nel quale i due parametri incogniti sono da ricercare nel dominio


= {(1 , 2 ) : < 1 < +, 2 > 0}.
Il modello che si assume per effettuare la statistica dei dati risultanti da una sequenza
di n prove ripetute e indipendenti, con probabilit`a di successo incognita, `e quello
Binomiale:
Bi(n, ) :

= (0, 1),

f (x, ) =

n
X
k=0

n k
(1 )nk (x k),
k

e se la probabilit`a di successo teorica `e molto piccola si usa, come prescritto dalla


legge degli eventi rari, il modello di Poisson:
() :

= IR+ ,

f (x, ) = e

k
X

k=0

k!

(x k).

Infine, negli studi di affidabilit`a e per la previsione statistica dei guasti si pu`o ricorrere al modello esponenziale:
E() :

= IR+ ,

f (x, ) = ex ,

x 0.

7.2 Teoria dei campioni

7.2

183

Teoria dei campioni

La valutazione dei parametri incogniti che sono presenti in un modello statistico


del tipo, per esempio, di quelli appena citati, si effettua con lesame di una piccola
parte della popolazione, opportunamente scelta con criteri di casualit`a mediante
estrazione di n elementi della popolazione. Questa parte della popolazione, sulla
quale si concentrano le osservazioni atte a fornire le informazioni mancanti al modello
statistico, `e il campione di grandezza (o numerosit`
a) n.
La scelta degli elementi di popolazione che vanno a costituire il campione pu`o essere effettuata in molti modi diversi, ma deve comunque seguire regole precise con
lobiettivo di riprodurre nel miglior modo possibile tutte le propriet`a di quel carattere della popolazione che si vuole studiare. I metodi di campionamento pi`
u noti
sono:
il campionamento casuale, che si ottiene effettuando estrazioni statisticamente
indipendenti da un insieme di individui che hanno tutti la medesima probabilit`a di essere estratti ;
il campionamento stratificato, nel quale la popolazione `e anzitutto suddivisa in
gruppi di individui con caratteristiche omogenee. Da ciascuno di questi strati
di popolazione si estrae quindi un numero di individui che `e proporzionale alla
numerosit`a del gruppo stesso;
il campionamento a grappoli, il cui metodo consiste invece nella suddivisione
della popolazione in tanti gruppi di individui eterogenei, ognuno dei quali sia
rappresentativo delle caratteristiche dellintera popolazione. Il campione da
esaminare `e in tal caso uno qualsiasi di questi gruppi, che pu`o essere scelto per
estrazione o per comodit`a di elaborazione dei dati.
Si utilizzano anche metodi di campionamento pi`
u raffinati, che con tecniche diverse
combinano tra loro quelli ora citati. Tuttavia, nel seguito ci limiteremo a trattare
unicamente le tecniche da sviluppare quando si effettua un campionamento casuale.
In questo contesto, la condizione di equiprobabilit`a delle estrazioni implica teoricamente che nella definizione del campione, lestrazione di ciascuno degli n elementi da
una popolazione finita debba essere effettuata con ripetizione, ovvero assicurando la
possibilit`a che lelemento scelto possa ripresentarsi ad una qualsiasi estrazione successiva. Questa condizione si verifica, per esempio, quando nella estrazione di n
palline da unurna, ogni pallina estratta viene reimbussolata, al fine di non modificare la popolazione da cui si effettua ogni estrazione successiva.
Se questa condizione non si verifica, lestrazione `e chiamata senza ripetizione o
in blocco, e modifica le probabilit`a teoriche delle successive estrazioni, perch`e condizionate da quella gi`a effettuata che non pu`o pi`
u ripetersi. I risultati che ricaveremo
nellipotesi di equiprobabilit`a delle estrazioni, dovranno pertanto essere corretti, se
esse avvengono senza ripetizione. Tuttavia, questa correzione `e significativa solo
se la popolazione `e costituita da pochi individui, mentre diventa trascurabile se la

184

DISTRIBUZIONI CAMPIONARIE

numerosit`a N degli individui della popolazione `e elevata, ed `e teoricamente nulla


per N , ossia per popolazioni di infiniti elementi.
In ogni caso, un campione casuale di grandezza (numerosit`
a) n, scelto per effettuare
la statistica su un carattere quantitativo X della popolazione, sar`a descritto da
un insieme X = {X1 , X2 , . . . , Xn } di n elementi, al quale corrisponde linsieme
x = {x1 , x2 , . . . , xn } degli n valori osservati.
Teoricamente, se facessimo tendere a + la numerosit`
a del campione che estraiamo
da una popolazione infinita, allora il campione coinciderebbe con la popolazione
stessa, e la distribuzione delle probabilit`a empiriche che si potrebbe ricavare secondo
la tecnica spiegata nel Capitolo precedente si identificherebbe con la densit`a di probabilit`a del carattere X della popolazione. Ma i metodi della indagine statistica si
basano proprio sullipotesi opposta: quella di avere a disposizione un campione con
numerosit`a n molto minore degli N individui della popolazione.
Se la collezione degli n elementi del campione `e casuale, in generale a ciascuna
possibile scelta corrisponder`a un valore diverso della osservazione xi fatta a proposito delli-esimo elemento del campione estratto dalla popolazione. Di conseguenza,
linsieme X che descrive il generico campione di grandezza n deve essere riguardato
come un vettore aleatorio, insieme di n variabili casuali Xi , i = 1, .., n, le quali sono
statisticamente indipendenti nel caso che il campione sia stato estratto casualmente
e con ripetizione.
Si chiama statistica campionaria, o anche riassunto campionario, qualsiasi quantit`
a
g(X) che si esprime per mezzo delle n variabili casuali Xi , e che interessa valutare in
vista della stima dei parametri del modello statistico. Una statistica campionaria `e
anchessa una variabile casuale Gn = g(X), e come tale `e dotata di una distribuzione
di probabilit`a che chiameremo distribuzione campionaria della statistica Gn .
Un esempio di statistica di un campione di ordine n `e la variabile casuale
Gn =

1 q
(X + X2q + . . . .. + Xnq )
n 1

(7.1)

che ha il significato di momento campionario di ordine q, e per q = 1 diventa la


media campionaria cos definita:
n =

1
(X1 + X2 + . . . . + Xn ).
n

(7.2)

Lindice n introdotto nella notazione sta ad indicare che tale media risulta dallesame
di un campione di grandezza n del carattere X della popolazione, e serve per distinguere tale media campionaria dal valor medio (eventualmente incognito) della
distribuzione teorica del carattere X, che `e stata definita nel modello statistico.
La varianza campionaria `e la variabile aleatoria definita dalla seguente statistica:
Sn2 =

n
1X
(Xi n )2
n i=1

(7.3)

7.3 Distribuzione campionaria delle medie

185

che in generale potr`a assumere valori diversi dalla varianza teorica 2 (eventualmente
incognita) della distribuzione probabilistica dal carattere X. La sua radice quadrata
positiva Sn `e la deviazione standard campionaria.
Se dalla medesima popolazione si estraggono diversi campioni di grandezza n, allora
i valori che assumono le loro statistiche e in particolare la media campionaria
(7.2) e la varianza campionaria (7.3) saranno in generale diversi e distribuiti con
leggi probabilistiche che sono definite dalle rispettive distribuzioni campionarie. Nei
due paragrafi che seguono ricaveremo in dettaglio le propriet`a delle distribuzioni
campionarie di queste due statistiche.

7.3

Distribuzione campionaria delle medie

Per valutare il valore atteso della distribuzione campionaria delle medie n definita
dalla (7.2), dobbiamo prendere in considerazione tutti i possibili campioni di grandezza n che possono essere estratti dalla popolazione, e fissare lattenzione sulliesimo elemento Xi di questi campioni. Questo `e una variabile casuale con la medesima distribuzione teorica del carattere X della popolazione, poiche `e il risultato di
estrazioni casuali dalla popolazione stessa. Indichiamo con fX (x) tale distribuzione
teorica del carattere, con la sua media e con 2 la sua varianza, eventualmente
sconosciute. Si ricava:
(

E{n } = E

1X
Xi
n i

1X
1
1
E{Xi } = nE{X} = n =
n i
n
n

(7.4)

Dunque, il valor medio della distribuzione campionaria della statistica n coincide


con il valor medio della distribuzione teorica del carattere X.
La varianza della distribuzione campionaria delle medie (che `e diversa dalla statistica
(7.3), di cui ci occuperemo nel paragrafo che segue) `e per definizione la quantit`
a
n2 = E{[n E{n }]2 } = E{2n + 2 2n } = E{2n } 2
1
=
E{(X1 + . . . + Xn )2 } 2 ,
n2

(7.40 )

e per ricavarne una espressione significativa, occorre distinguere a seconda della


procedura che `e stata seguita per estrarre il campione.

7.3.1

Campionamento con ripetizione

Se il campione `e stato estratto con ripetizione da una popolazione finita di N elementi, oppure se N , allora le variabili casuali Xi sono statisticamente indipendenti, con uguali densit`a di probabilit`a f (xi ) = fX (x). Si ha in tal caso:
Z

E{(X1 + . . . + Xn )2 } =

(x1 + . . . + xn )2 f (x1 )f (x2 ) f (xn )dx1 dxn =

186

DISTRIBUZIONI CAMPIONARIE

(x21 + . . . + x2n + 2x1 x2 + 2x1 x3 + . . . + 2xn1 xn )f (x1 )f (x2 ) f (xn )dx1 dxn =
= E{X12 } + . . . + E{Xn2 } + 2

n
X

E{Xi }E{Xj }.

i,j=1

Ma poich`e le distribuzioni di tutte le Xi hanno momenti uguali a quelli della densit`a


teorica fX (x), e inoltre il numero di combinazioni di n elementi a due a due vale
n(n 1)/2 , risulta:
E{(X1 + . . . + Xn )2 } = n E{X 2 } + n(n 1)2 .
Sostituendo questo risultato nella (7.4) si ottiene:
n2 =

E{X 2 } n 1 2
1
2
+
2 = [E{X 2 } 2 ] =
.
n
n
n
n

(7.5)

Dunque, la varianza della distribuzione campionaria delle medie `e uguale alla varianza teorica della distribuzione del carattere X, divisa per la numerosit`
a del campione.
La radice quadrata positiva della quantit`
a (7.5):

n =
n

(7.50 )

`e chiamata errore standard della media campionaria.


Dalla (7.5) si deduce anche che, nella ipotesi di una distribuzione teorica della popolazione con varianza 2 non nulla, valgono le seguenti notevoli propriet`a di convergenza della media campionaria:
Convergenza in media quadratica della statistica n al valor medio della
distribuzione teorica fX (x). Infatti:
lim n2 = lim E{(n )2 } = 0.

Legge debole dei grandi numeri. Fissato un > 0 arbitrario, per la


diseguaglianza di Chebyshev (v. 2.2) si ha:
IP{|n | }

n2
2
=
2
n2

per cui, passando al limite:


lim IP{|n | } = 0.

(7.6)

E cos dimostrato che la statistica n converge in probabilit`a al valor medio


teorico , quando la numerosit`
a del campione tende ad infinito.

7.3 Distribuzione campionaria delle medie

187

Infine, `e di grande importanza il fatto che per grandi campioni `e possibile determinare non solo i momenti del primo e del secondo ordine, ma anche la densit`a stessa
della distribuzione campionaria delle medie. Precisamente, basandosi sul Teorema
Limite Centrale enunciato nel 2.3.2, si pu`o dimostrare che:
al crescere di n la distribuzione campionaria delle medie approssima la legge normale N (, 2 /n) che ha media e varianza data dalla (7.5).
Dimostrazione. La media campionaria (7.2) relativa a campioni estratti con ripetizione da una popolazione finita (oppure da una popolazione infinita) si pu`o anche
esprimere come n = Sn /n, dove Sn `e la somma di n variabili casuali indipendenti che hanno la medesima densit`a di probabilit`a. Quindi, per il Teorema Limite
Centrale, la sua densit`a converge, per n , alla distribuzione normale con media
E{n } =
e varianza
n2 =

1
1
E{Sn } = n =
n
n

1 2
1
2
2
,

(S
)
=

n
=
n
n2
n2
n

ossia converge alla legge N (, 2 /n).


Per facilitare i calcoli relativi ai test statistici, al posto della media campionaria n
si usa spesso la variabile media campionaria standardizzata gi`a introdotta nel 2.3.2,
e definita dal rapporto
n
Zn =
.
(7.60 )
n
In base al Teorema Limite Centrale, si pu`o affermare che per n sufficientemente
grande la distribuzione di Zn `e ben approssimata dalla legge normale standard
N (0, 1) con media nulla e varianza uguale ad 1.

7.3.2

Campionamento senza ripetizione

Se il campione `e estratto senza ripetizione (in blocco) da una popolazione con un


numero finito N di elementi, le n variabili aleatorie Xi non sono pi`
u indipendenti,
perche ogni estrazione modifica la composizione della popolazione da cui devono essere scelti i successivi elementi del campione. Ne segue, per la legge delle probabilit`a
composte (1.4), che la densit`a di probabilit`a congiunta del campione X non `e pi`
u il
prodotto delle densit`a f (xi ), bens il seguente prodotto di densit`a condizionate:
f (x1 , . . . , xn ) = f (x1 )f (x2 |x1 )f (x3 |x1 , x2 ) f (xn |x1 , x2 , . . . , xn1 ).
Si pu`o dimostrare che in tal caso il valor medio della distribuzione campionaria della
statistica n `e ancora uguale alla media teorica , ma la sua varianza vale:
n2 =

2 N n

.
n N 1

(7.7)

188

DISTRIBUZIONI CAMPIONARIE

A parit`a di grandezza n del campione, se N > n non `e molto elevato essa `e dunque
minore della (7.5) che `e valida per un campionamento con ripetizione, ma tende al
valore (7.5) quando N .
Esempio 7.1

Illustriamo i risultati precedenti con il seguente esempio. In una popolazione costituita da N = 5 elementi, il carattere X oggetto di studio assume rispettivamente i
valori: 2, 3, 6, 8, 11. Da essa si estraggono tutti i possibili campioni di grandezza
n = 2, allo scopo di valutare la media del carattere, che evidentemente ha il valore
teorico = 6.
Campionamento con ripetizione. Il numero di campioni con numerosit`
a 2 che possiamo casualmente estrarre con ripetizione dalla popolazione `e uguale al numero delle
disposizioni con ripetizione di 5 elementi a due a due, ossia 52 = 25. In dettaglio, i
possibili campioni sono i seguenti:
2, 2
3, 2
6, 2
8, 2
11, 2

2, 3 2, 6
2, 8
3, 3 3, 6 3, 8
6, 3 6, 6 6, 8
8, 3 8, 6 8, 8
11, 3 11, 6 11, 8

2, 11
3, 11
6, 11
8, 11
11, 11.

(7.8)

Ciascuno di questi campioni ha una media campionaria n che vale, rispettivamente:


2
2.5
4
5
6.5

2.5
3
4.5
5.5
7

4
4.5
6
7
8.5

5
5.5
7
8
9.5

6.5
7
8.5
9.5
11

(7.9)

e se valutiamo le frequenze relative di ciascuna di queste medie campionarie, possiamo costruire il grafico a) di Fig. 7.1. Esso rappresenta una densit`a di probabilit`a
discreta che definisce la distribuzione campionaria delle medie relativa alla statistica
in oggetto. Il valor medio di questa distribuzione vale:
E{n } =

1
[2 + 3 + 6 + 8 + 11 + 2(2.5 + 4 + 5 + 5.5 + 6.5 + 8.5 + 9.5) + 4.7] = 6
25

e, in accordo con la (7.4), coincide con il valore teorico prima citato.


Se ci proponiamo di valutare attraverso il valore della statistica n che ricaviamo
da un solo campione estratto casualmente, `e assai probabile che il risultato non
sia uguale a 6. Lerrore medio che possiamo compiere `e legato alla dispersione della
distribuzione di figura rispetto al suo valor medio, e si valuta calcolandone la varianza
n2 definita dalla (7.4). Si trova:
n2 =

135
1
[(2 6)2 + 2(2.5 6)2 + . . . + 2(9.5 6)2 + (11 6)2 ] =
= 5.4.
25
25

7.3 Distribuzione campionaria delle medie


f (m n )
25

189

4/20

f (m n )
20

4/25

2/20

2/25
1/25
0

1 2 3 4 5 6 7 8 9 10 11

mn

a) campionamento con ripetizione

1 2 3 4 5 6 7 8 9 10 11

mn

b) campionamento senza ripetizione


Figura 7.1

Questa varianza della distribuzione delle medie campionarie `e legata alla varianza
teorica del carattere X, Infatti si verifica subito che, come previsto dalla (7.5) con
n = 2, `e la met`a della varianza teorica 2 che vale:
1
2 = [(2 6)2 + (3 6)2 + . . . + (11 6)2 ] = 10.8 .
5
La radice quadrata di n2 vale n = 2.32379. Questo `e lerrore standard che si
commette nel valutare il valor medio del carattere, attraverso lanalisi della statistica
n effettuata su un suo campione di grandezza n = 2.
Campionamento senza ripetizione. In tal caso, il numero totale di campioni che
possiamo estrarre `e uguale alle disposizioni senza ripetizione di 5 elementi a due a
due, e vale
5!
= 20.
(5 2)!
I campioni sono quelli dellinsieme (7.8) privato degli elementi sulla diagonale principale, che contengono valori ripetuti. Le 20 possibili medie campionarie sono ancora
indicate nella (7.9), con esclusione dei valori 2, 3, 6, 8, 11 che si trovano sulla diagonale principale. La distribuzione delle frequenze relative di queste medie campionarie
`e mostrata nel grafico b) di Fig. 7.1. Questa distribuzione ha ancora valor medio
E{n } = 6 ma varianza minore che, in accordo con la (7.7), vale:
n2 =

2
3 2
[(2.5 6)2 + (4 6)2 + . . . + (9.5 6)2 ] = 4.05 .
20
4 2

Lerrore standard nella valutazione della media del carattere `e quindi leggermente
inferiore, e vale n = 2.01.
Esempio 7.2: Distribuzione della differenza di medie campionarie

Le lampadine prodotte dallazienda A hanno una vita media A di 1400 ore, con
deviazione standard A = 200 ore; quelle dellazienda B hanno vita media B = 1200
ore, con deviazione standard B = 100 ore. Si prova un campione casuale di n = 125
lampadine estratte dalla produzione dellazienda A, e un campione di m = 100

190

DISTRIBUZIONI CAMPIONARIE

lampadine provenienti dalla produzione dellazienda B. Calcolare la probabilit`a che


le lampadine fornite dal produttore A abbiano una vita media:
1) di almeno 160 ore maggiore di quelle fornite da B;
2) che differisce per meno di 150 ore dalla vita media di quelle prodotte da B.
Le distribuzioni campionarie delle medie n e m dei due campioni sono entrambe
approssimabili con leggi normali, aventi valore atteso uguale a quello della popolazione da cui sono estratti:
E{n } = A = 1400,

E{m } = B = 1200.

Le loro deviazioni standard, per la (7.5), sono rispettivamente:


A
B
n =
= 17.888 ;
m =
= 10.
125
100
Definiamo la variabile casuale d() che denota la differenza tra le medie campionarie:
d() = n m .
Essa ha una distribuzione con valor medio
E{d} = E{n } E{m } = 1400 1200 = 200 ore,
e la sua varianza si determina applicando la (3.8) del Capitolo III, dopo aver posto:
a = 1, b = 1, X n , Y m :
2
2 (d) = n2 + m
2 Cov (n , m ).

Se i due campioni estratti sono statisticamente indipendenti, la loro covarianza `e


nulla e anche d() ha legge normale, come dimostrato nellEsempio 4.6 del capitolo
4, con deviazione standard
q

(d) =

2 =
n2 + m

(17.888)2 + 102 ' 20.49 ore.

Per calcolare le probabilit`a richieste, usiamo la variabile casuale standardizzata:


Z() =

d 200
d E{d}
=
(d)
20.49

che ha una distribuzione normale N (0, 1) e calcoliamo i valori z che essa assume per
d = 160 e per d = 150. Si trova subito:
d = 160 :
d = 150 :
d = 150 :

z0 = 1.952
z1 = 17.08
z2 = 2.44 .

Le probabilit`a cercate si ricavano allora utilizzando la (2.32) e la Tabella dei valori


di erf(z) che si trova in Appendice:
1
+ erf (1.952) = 0.9744
2
IP(|d| < 150) = IP(z1 < Z < z2 ) = erf (2.44) erf (17.08) =
1
' erf (2.44) = 0.5 0.4927 = 0.0073 .
2
IP(d 160) = P (Z z0 ) =

7.4 Distribuzione campionaria delle varianze

7.4
7.4.1

191

Distribuzione campionaria delle varianze


Campionamento con ripetizione

Se il modello statistico che si assume per studiare la popolazione `e quello normale,


e se il campione `e estratto con ripetizione da una popolazione finita, oppure se la
popolazione `e infinita, la statistica (7.3), chiamata varianza campionaria, ha una
distribuzione che si pu`o dedurre applicando il seguente, importante:
TEOREMA (Chi-quadrato)
Se da una popolazione normalmente distribuita con varianza 2 si estraggono campioni casuali di numerosit`a n, la variabile aleatoria
Qn () =

1 X
nSn2
2
(Xi n )2
2

(7.10)

ha una distribuzione 2n1 con (n 1) gradi di liberta.


Ricordando le propriet`a della distribuzione Chi-quadrato, gi`a presentata nel Capitolo
2, la variabile Qn ha dunque la densit`a (2.40) con n 1 al posto di n, ha valor medio
E{Qn } = n 1 e varianza 2 {Qn } = 2(n 1).
1.5

s2 = 1
f ( S 2n )
2
f (^
Sn )

n = 21

1
n = 11
0.5

2
E{ ^
Sn }

E{S 2n }
0

Figura 7.2 - Distribuzioni campionarie della varianza

La varianza campionaria Sn2 `e definita, per la (7.10), dalla trasformazione lineare


Sn2 = g(Qn ) =

2
Qn ,
n

e usando le formule di trasformazione per funzioni di variabili casuali la sua distribuzione campionaria ha una densit`a di probabilit`a che si ricava applicando la (4.5)
o la (4.10) del Capitolo 4. Poiche si ha
g 1 (Sn2 ) =

nSn2
;
2

dg 1
n
= 2 ,
2
dSn

192

DISTRIBUZIONI CAMPIONARIE

si ricava:

f (Sn2 )

= f2

n1

nS 2
Qn = 2n

!
dg 1
nSn2
n

Qn = 2 2 .
= f2
n1
dSn2

(7.11)

In Fig. 7.2 sono riportate con linea continua due distribuzioni campionarie di Sn2 ,
calcolate assumendo 2 = 1 e n = 11 e 21. Il loro valor medio vale:
E{Sn2 } =

2
n1 2
E{Qn } =

n
n

(7.12)

e la sua varianza si pu`o calcolare come segue:

(Sn2 )

E{(Sn2 )2 }

4 (n 1)2

=
n2

2
n

!2

E{Q2n }

4 (n 1)2
=
n2

4
4
4 2
2(n 1) 4
2
2
2
2
[E{Q
}

(n

1)
]
=
[E{Q
}

E
{Q
}]
=
{Qn } =

n
n
n
2
2
2
n
n
n
n2

dove 2 `e la varianza teorica della popolazione con distribuzione normale. Per


n >> 1, si pu`o accettare il risultato: 2 (Sn2 )
= 2 4 /n, e di conseguenza la deviazione
standard della distribuzione campionaria delle varianze `e ben approssimata da:
q

(Sn2 )
= 2 2/n.

(7.13)

La (7.12) mostra un risultato degno di nota:


il valor medio della statistica Sn2 non coincide con la varianza teorica 2 della
popolazione.
Questa propriet`a, che come vedremo `e assai importante ai fini della stima della
varianza sconosciuta di un carattere della popolazione, `e invece soddisfatta dalla
seguente statistica:
Sn2 =

n
1 X
Sn2
(Xi n )2
n1
n1 i

(7.14)

che chiameremo varianza campionaria corretta, la quale ha evidentemente valor medio


E{Sn2 } =

n
E{Sn2 } = 2 .
n1

(7.15)

La distribuzione campionaria di questa varianza corretta Sn2 si ricava facilmente


invertendo la trasformazione (7.14) e usando la (7.11). Anche essa si esprime in
termini della densit`a Chi-quadrato della variabile
Qn =

n
n 1 2
Sn2 =
Sn ,
2

7.4 Distribuzione campionaria delle varianze

193

e vale:

n1
n 1 2
n1
n 1 2
= f2
Sn
.
f (Sn2 ) = f Sn2 =
Sn
Qn =
2
n1
n
n

(7.16)

Le distribuzioni (7.16) che si ottengono per n = 11 e n = 21 sono riportate con linea


tratteggiata in Fig. 7.2, e sono confrontate con le distribuzioni campionarie (7.11)
della statistica Sn2 . La varianza della distribuzione corretta (7.16) vale:
"

(Sn2 )

E{(Sn2 )2 }

E{Q2n }
4
2

1
=
2 (Qn ) =
4.
2
2
(n 1)
(n 1)
n1

La sua deviazione standard `e perci`o


s

(Sn2 )

2
n1

(7.17)

e per n >> 1 `e assai vicina a quella della distribuzione delle varianze campionarie
Sn2 .

7.4.2

Campionamento senza ripetizione

Se il campione `e estratto in blocco da una popolazione con un numero finito N


di elementi, tenuto conto delle osservazioni fatte nel 7.3.2 la distribuzione campionaria di Sn2 non `e pi`
u quella definita con la (7.11). Calcoli pi`
u laboriosi mostrano,
in particolare, che anche il suo valor medio `e diverso dal valore (7.12), e deve essere
modificato in:
N
n1 2
E{Sn2 } =

.
(7.18)
N 1
n
Da questultima segue che la varianza campionaria corretta Sn2 con valor medio
uguale alla varianza teorica, si modifica in tal caso nella statistica:
n
N 1
1 X
N 1

Sn2 =

(Xi n )2 ,
Sn2 =
N
n1
N
n1 i
da usare al posto della statistica (7.14).

(7.19)

194

DISTRIBUZIONI CAMPIONARIE

Esempio 7.3

Riprendiamo lo studio dei 25 campioni (7.8) che si possono estrarre con ripetizione
dalla popolazione costituita da 5 elementi con valore 2, 3, 6, 8, 11, che come si `e gi`a
visto ha varianza teorica 2 = 10.8. Ciascuno di essi ha una statistica Sn2 (con n =
2) che vale:
0
0.25
4
9
20.25
0.25
0
2.25
6.25
16
4
2.25
0
1
6.25
(7.20)
9
6.25
1
0
2.25
20.25
16
6.25
2.25
0
e il calcolo delle frequenze relative porta alla definizione di una distribuzione campionaria discreta, che `e mostrata nel grafico a) di Fig. 7.3. Il valor medio di tale
distribuzione vale:
E{Sn2 } =

1
27
[4(2.25 + 6.25) + 2(0.25 + 4 + 9 + 1 + 16 + 20.25)] =
= 5.4
25
5

e, in accordo con il risultato (7.12), `e la met`a della varianza teorica 2 . Ne segue che
la varianza campionaria corretta, il cui valor medio coincide con 2 , `e la statistica
Sn2 = 2Sn2 i cui valori possibili sono il doppio di quelli riportati nella (7.20).
f (S 2n )
25

f (S 2n )
20
4/20

5/25
4/25

2/20

2/25
E{S 2n }

E{S 2n }

s2
S 2n

2 4 6 8 10 12 14 16 18 20 22

a) campionamento con ripetizione

s2

2 4 6 8 10 12 14 16 18 20 22

S 2n

b) campionamento senza ripetizione

Figura 7.3

Campionamento senza ripetizione. I 20 possibili campioni estratti senza ripetizione


dalla stessa popolazione hanno tutti varianze Sn2 non nulle, definite nella (7.20) con
esclusione dei valori sulla diagonale principale. La distribuzione delle loro frequenze
relative `e mostrata nel grafico b) di Fig. 7.3, ed ha valor medio
E{Sn2 } =

1
27
[4(2.25 + 6.25) + 2(0.25 + 4 + 9 + 1 + 16 + 20.25)] =
= 6.75.
20
4

Osservando che

5 27
5 1
27
=
= 2 ,
4
4 5
4 2
si riconosce che il risultato ottenuto verifica la (7.18), valida per campioni senza
ripetizione. Inoltre, in tal caso la varianza campionaria corretta `e definita, per la

7.5 Distribuzione campionaria delle frequenze

195

(7.19), dalla statistica

4
8
Sn2 = 2 Sn2 = Sn2 ,
5
5
il cui valor medio coincide con la varianza teorica della popolazione. Infatti:
8
8 27
54
E{Sn2 } = E{Sn2 } =
=
= 2.
5
5 4
5

7.5

Distribuzione campionaria delle frequenze

Supponiamo che il carattere X della popolazione da cui si estrae il campione abbia


due sole modalit`a, il cui esame pu`o dar luogo a realizzazioni di due soli eventi casuali
incompatibili ed esaustivi (vero/falso, bianco/nero,....). In tale ipotesi il modello
statistico per X `e quello Binomiale, in cui p `e la probabilit`a teorica di successo
(X `e vero, bianco,...) e q = 1 p `e la probabilit`a di fallimento.
Indichiamo ora con ns il numero (ossia anche la frequenza assoluta) di successi rilevati in un campione casuale estratto da questa popolazione con n prove indipendenti.
La distribuzione campionaria f (ns ) di queste frequenze `e definita dalla probabilit`a
di osservare ns successi, la quale `e data dalla formula di Bernoulli (2.42). Dunque
anche f (ns ) `e binomiale, descritta dalla densit`a discreta (2.45) del Capitolo 2 e
definita sullinsieme dei numeri interi positivi. Se n `e sufficientemente grande, essa
si approssima nel continuo con una legge normale (v. Fig. 7.4) con media e varianza
che valgono:
E{ns } = np ,
2 (ns ) = npq .
(7.21)
Ne segue, ad esempio, che le probabilit`a di osservare un numero di successi maggiore
di k0 oppure compreso tra k1 e k2 si approssimano, per un campione di numerosit`
a
n sufficientemente grande, con
1
erf (z0 )
2
IP(k1 ns k2 ) ' IP(z1 Z z2 ) = erf (z2 ) erf (z1 )

IP(ns > k0 ) ' IP(Z > z0 ) =


dove si `e posto:

ki np
zi =
.
npq

La frequenza relativa dei successi: Y = ns /n, `e invece una variabile aleatoria con
valori in IR+ , la cui distribuzione `e definita dalla densit`a
fY (y) = f (ns = ny) n

n N (p, pq/n).

Per n sufficientemente grande, essa si approssima con una distribuzione normale


avente valor medio e varianza che valgono:
E{Y } =

np
E{ns }
=
= p,
n
n

196

DISTRIBUZIONI CAMPIONARIE

N (8, 7.84)

f(n s)

10

12

14

ns

Figura 7.4 - Distribuzione campionaria delle frequenze nellEsempio 7.4

Y2

2 (ns )
npq
p(1 p)
= 2 =
.
2
n
n
n

(7.22)

Esempio 7.4

Dallanalisi della produzione di un utensile, risulta che il 2% del prodotto di fabbricazione `e difettoso. Si vuole calcolare la probabilit`a che in un lotto di 400 utensili
appena consegnati a un cliente quelli difettosi siano almeno 12.
Il lotto in questione si pu`o considerare un campione estratto con n = 400 prove
ripetute e indipendenti da una popolazione di infiniti elementi. Durante la scelta
del campione, ciascuna estrazione avviene con una probabilit`a teorica p = 0.02 di
avere un prodotto difettoso (nel nostro caso, la scelta di un utensile difettoso `e il
successo).
La distribuzione campionaria delle frequenze ns di utensili difettosi, mostrata in Fig.
7.4, `e approssimabile con una curva normale con media e deviazione standard che
valgono:
E{ns } = q
np = 400 0.02 = 8

(ns ) =
np(1 p) = 400 0.02 0.98 = 2.8.
Si deve determinare la probabilit`a IP(ns 12), rappresentata dallarea ombreggiata
in figura. Per calcolarla, utilizziamo la variabile standardizzata
Z=

ns E{ns }
,
(ns )

che per ns = 12 vale z = 1.428. Ricordando quindi la (2.32) e usando la Tabella di


erf(z) in Appendice, si ricava:
IP(ns 12) = 1 IP(Z < 1.428) '

1
1
erf (1.43) = 0.4236 = 0.0764.
2
2

7.6 Problemi risolti

197

In Fig. 7.4 sono anche disegnati i rettangoli con base unitaria e altezza uguale alle
probabilit`a (2.42) di avere un campione con ns successi. La probabilit`a ora calcolata
`e approssimata dallarea di questi rettangoli che si trova a destra di ns = 12.
Si badi per`o che linsieme di questi rettangoli non deve essere confuso con listogramma delle frequenze empiriche delle modalit`a di un carattere X, che `e stato
definito del Capitolo precedente. Infatti, se le osservazioni da rilevare nel campione riguardano due possibili modalit`a (successo o fallimento) di un carattere,
listogramma delle loro frequenze sar`a costituito da due soli rettangoli, con altezza
proporzionale rispettivamente al numero dei successi e dei fallimenti che si osservano
in quel particolare campione esaminato. I rettangoli di Fig. 7.4 hanno invece base
unitaria, centrata sulle possibili frequenze ns della modalit`a successo, e altezza
uguale alla probabilit`a bernoulliana di osservare queste frequenze di successo.

7.6

Problemi risolti

7.1. Si estrae un campione di numerosit`


a n = 64 da una popolazione con varianza
2 = 121. Calcolare la probabilit`a di avere una media campionaria che differisce per
pi`
u di 2 unit`a da quella incognita della popolazione.
Soluzione. La distribuzione campionaria delle medie si approssima con una legge
normale avente media E{n } uguale alla media teorica e varianza n2 = 2 /n =
121/64 = (11/8)2 . Se introduciamo la variabile standardizzata
Zn =

n
n

la probabilit`a richiesta si calcola nel modo seguente:


P (|n | > 2) = P (n |Zn | > 2) = P (|Zn | > 2 8/11 = 1.4545) = 1 2 erf(1.4545)
e dalla Tabella di erf(z) si ricava:
P (|n | > 2) ' 1 2 0.427 = 0.146 .
7.2. Si estrae un campione {Xi } da 50 osservazioni di un carattere avente un modello
statistico normale N (2, 1), ma `e noto soltanto il numero Z di osservazioni dalle quali
risulta Xi 0, i = 1, . . . , 50. Determinare la legge di Z().
Soluzione. Le 50 osservazioni sono altrettante prove ripetute e indipendenti di un
esperimento casuale. Se chiamiamo successo levento S = {Xi 0}, esso si verifica
con probabilit`a

p = IP{X 0} =

0
1
+ erf
2

1
1
erf(2) = 0.4772 = 0.0228.
2
2

La variabile casuale Z che rappresenta il numero di eventi S che si verificano in 50


prove ha pertanto distribuzione binomiale con parametri n = 50, p = 0.0228:
Z B(50, 0.0228) .

198

DISTRIBUZIONI CAMPIONARIE

7.3. Si dispone di un campione di 100 osservazioni del carattere X di una popolazione, la cui deviazione standard `e nota e vale = 120. Qual`e la probabilit`a che
la media campionaria differisca per pi`
u di 3 unit`a da quella incognita del carattere
X ?
Risposta. La distribuzione campionaria delle medie si approssima con una legge
normaleavente media E{n } uguale alla media teorica e deviazione standard
n = / 100 = 12.
Se Zn `e la corrispondente variabile standardizzata, la probabilit`a richiesta vale
P (|n | > 3) = P (n |Zn | > 3) = P (|Zn | > 0.25) = 1 2 erf(0.25)
e dalla Tabella di erf(z) si ricava:
P (|n | > 3) ' 1 2 0.0987 = 0.9026 .
7.4. In un lotto di 50 pile, la loro tensione in uscita ha una deviazione standard
di 25V . Se da questo lotto ne estraiamo senza ripetizione n = 25, qual`e la probabilit`a che la media delle pile estratte differisca per pi`
u di 1 Volt dalla media teorica
dichiarata dal costruttore ?
Risposta. Poiche il campione di n = 25 pile `e estratto in blocco da una popolazione
di N = 50 elementi, la distribuzione campionaria della tensione media ha legge
normale con deviazione standard
s

n =

N n
=2
n(N 1)

50 25
2
=
25(50 1)
7

e per renderla normale standard si pu`o definire la variabile campionaria


Zn =

7
n
= (n ).
n
2

La probabilit`a rischiesta vale quindi:


P (|n | > 1) = P (|Zn | > 3.5) = 1 2 erf(3.5)
e dalla Tabella di erf(z) si ricava:
P (|n | > 1) ' 1 2 0.4998 = 4 104 .
7.5. La lunghezza di 3000 lamine `e distribuita normalmente con media = 68 mm
e scarto quadratico medio = 3 mm. Si estraggono, con ripetizione, 80 campioni di
25 lamine ciascuno. Determinare in quanti campioni ci si deve aspettare una media
compresa tra 66, 8 e 68, 3 mm.
Soluzione. La distribuzione campionaria delle medie ricavate dai campioni di numerosit`
a n = 25 `e normale, con media n = = 68 e deviazione standard n =
3/ 25 = 0.6 mm.

7.6 Problemi risolti

199

Introdotta la variabile standardizzata Zn = (n 68)/0.6, la probabilit`a che la media


campionaria sia compresa tra 66.8 e 68.3 mm. si calcola come segue:
P (66.8 n 68.3) = P [(66.8 68)/0.6 Zn (68.3 68)/0.6] =
= P (2 Zn 0.5) = erf(0.5) + erf(+2)
e dalla Tabella di erf(z) si ricava:
P (66.8 n 68.3) = 0.1915 + 0.4772 = 0.6687 = p.
Per la legge dei grandi numeri, p `e il valore del rapporto tra il numero Nx di campioni
in cui P (66.8 n 68.3) e il numero totale dei campioni estratti. Quindi
Nx
80
arrotondato allunit`a per difetto.
0.6687 =

Nx = 80 0.6687 ' 53

7.6. Data la popolazione dei numeri 0, 2, 4, 6, 8:


a) calcolare la media e la varianza 2 della popolazione;
b) elencare i possibili campioni di numerosit`
a n = 2 estraibili con ripetizione da tale
popolazione;
e le relative probabilit`a;
c) elencare i possibili valori della media campionaria X
d) sulla base dei dati ricavati al punto precedente, calcolare la media X e la varianza
2 della media campionaria X,
verificando che valgono le uguaglianze: = ;
X

X
2
2
X = /n.
Soluzione.
a) Media e varianza valgono
=

20
= 4 ,
5

2 =

16 + 4 + 4 + 16
= 8 .
5

b) I campioni di numerosit`a 2 estraibili con ripetizione sono 52 = 25, e precisamente:


0,0
2,0
4,0
6,0
8,0

0,2
2,2
4,2
6,2
8,2

0,4
2,4
4,4
6,4
8,4

0,6
2,6
4,6
6,6
8,6

0,8
2,8
4,8
6,8
8,8 .

c) Le medie di ciascun campione valgono rispettivamente:


0
1
2
3
4

1
2
3
4
5

2
3
4
5
6

3
4
5
6
7

4
5
6
7
8

200

DISTRIBUZIONI CAMPIONARIE

hanno queste probabilit`a:


e quindi i possibili valori di X
p(0) = 1/25,
p(5) = 4/25,
d)

2
X

p(1) = 2/25,
p(6) = 3/25,

p(2) = 3/25,
p(7) = 2/25,

p(3) = 4/25,
p(8) = 1/25.

p(4) = 1/25,

1
100
(2 + 3 2 + 4 3 + 5 4 + 4 5 + 3 6 + 2 7 + 8) =
= 4
25
25
1
100
(16 + 2 9 + 3 4 + 4 + 4 + 3 4 + 2 9 + 16) =
= 4 2 /2 .
25
25

7.7. I pacchi da sei bottiglie di acqua minerale confezionati da uno stabilimento


hanno un peso medio di 9, 3 Kg., con varianza 2 = 0, 4 Kg2 . Calcolare la probabilit`a
che un campione di n = 20 pacchi proveniente dallo stabilimento abbia un peso totale
maggiore di 184 Kg.
Soluzione. La distribuzione campionaria del peso medio di ogni pacco ha valor medio
E{n } = = 9.3 Kg e varianza
n2 = 2 /n = 0.4/20 = 0.02 Kg2 .
La probabilit`a richiesta `e uguale a quella che un singolo pacco abbia un peso maggiore
di 184/20 = 9.2 Kg. e si calcola come

9.2 E{n }
IP Zn
n

= IP(Zn 0.7071) =

1
1
+ erf(0.7071) ' + 0.26 = 0.76 .
2
2

7.8. Due fornitori riforniscono lo stesso negozio di CD; il primo ne fornisce il 70%,
e il secondo il 30% del totale. Da unindagine campionaria della ditta acquirente
risulta che il 94% dei CD del primo fornitore ha un diametro maggiore di 12.45 cm.
e il 10% maggiore di 12.58 cm. Inoltre, l8% dei CD del secondo fornitore ha un
diametro minore di 12.45 cm. e il 95% `e minore di 12.6 cm. Assumendo che la
distribuzione dei diametri dei CD sia normale,
a) determinare la percentuale dei CD ricevuti dal negozio con diametro compreso
tra 12.4 e 12.6 cm.
b) avendo venduto un CD con un diametro non compreso tra 12.4 e 12.6 cm., qual`e
la probabilit`a che quel CD provenga dal secondo fornitore?
Soluzione.
a) Occorre anzitutto determinare la media e la varianza delle distribuzioni campionarie normali dei CD ricevuti dai due fornitori. Se X `e la variabile casuale che
indica il diametro, e Z quella standardizzata, dai dati del problema si ha che per
quelli del primo fornitore:

12.45 1
12.45 1
= 0.5 erf
1
1

12.58 1
12.58 1
= 0.5 erf
0.10 = IP(X 12.58) = IP Z
1
1
0.94 = IP(X 12.45) = IP Z

7.6 Problemi risolti

ossia:

201

1 12.45
= 0.44 ;
1
Dalla Tabella di erf (z) si trova:
erf

erf

12.58 1
1

= 0.40.

1 12.45 = 1.56 1
12.58 1 = 1.285 1
e risolvendo il sistema si ricava: 1 = 12.5213 , 1 = 0.0457.
Analogamente, dai dati campionari sui CD del secondo fornitore, si ricava:

12.45 2
12.45 2
0.08 = IP(X 12.45) = IP Z
= 0.5 + erf
2
2

12.6 2
12.6 2
0.95 = IP(X 12.6) = IP Z
= 0.5 + erf
2
2
ossia:

12.6 2
2 12.45
= 0.42 ;
erf
= 0.45.
erf
2
2
Dalla Tabella di erf (z) si trova:

2 12.45 = 1.41 2
12.6 2 = 1.645 2
e risolvendo il sistema si ricava: 2 = 12.519 , 1 = 0.049.
Definiamo ora gli eventi: E = {12.4 cm. X 12.6 cm.}; F1 = {CD del primo f ornitore};
F2 = {CD del secondo f ornitore} e calcoliamo:

12.6 1
12.4 1
IP(E|F1 ) = erf
erf
1
1
= erf(1.7221) + erf(2.654) ' 0.4575 + 0.496 = 0.9535
12.6 2
12.4 2
erf
2
2
= erf(1.653) + erf(2.4285) ' 0.45 + 0.4924 = 0.9424.

IP(E|F2 ) = erf

La probabilit`a totale che i CD abbiano diametro compreso tra 12.4 e 12.6 cm. `e
IP(E) = IP(F1 )IP(E|F1 )+IP(F2 )IP(E|F2 ) = 0.70.9537+0.30.9424 = 0.95017 ' 95% .
b) Levento E 0 = {X 6 (12.4, 12.6)} ha probabilit`a IP(E 0 ) = 1 IP(E) = 0.05, e
inoltre:
IP(E 0 |F1 ) = 1 IP(E|F1 ) = 0.0465 ;

IP(E 0 |F2 ) = 1 IP(E|F2 ) = 0.0576.

La probabilit`a a posteriori che `e richiesta vale dunque:


IP(F2 |E 0 ) =

0.30 IP(E 0 |F2 )


= 0.3467 .
0.70 IP(E 0 |F1 ) + 0.30 IP(E 0 |F2 )

202

DISTRIBUZIONI CAMPIONARIE

STIME DI PARAMETRI
Dopo aver precisato le propriet`a di due tra le statistiche campionarie pi`
u importanti, ossia la media (7.2) e la varianza (7.3), in questo Capitolo ci occupiamo
delle metodologie che, utilizzando i dati desunti dalla osservazione di un campione
della popolazione, consentono di determinare i valori pi`
u attendibili da attribuire
ai parametri incogniti i presenti nel modello statistico che `e stato adottato per la
popolazione stessa. I metodi di stima che possiamo sviluppare sono di due tipi:
stima puntuale, se si utilizza una statistica campionaria Gn = g(X1 , . . . , Xn )
con lobiettivo di determinare il valore corretto di un parametro incognito
della popolazione;
stima per intervalli di confidenza se, oltre al valore approssimato del parametro
incognito da stimare, si precisa anche il grado di approssimazione della stima
puntuale effettuata, determinando la probabilit`a che il valore stimato appartenga a un prefissato intervallo.
Nei due paragrafi che seguono sono illustrate le modalit`a con cui si perviene a questi
due tipi di stima parametrica.

8.1

Stima puntuale

Una statistica campionaria Gn = g(X1 , . . . , Xn ), utilizzata per stimare il valore incognito di un parametro del modello statistico della popolazione, si chiama stimatore
puntuale di .
Avendo a disposizione le realizzazioni (x1 , . . . , xn ) di un campione, sono molti gli
stimatori puntuali che possiamo definire. Per esempio: se `e un valor medio,
possiamo scegliere come suo stimatore il riassunto (7.2), oppure la mediana (6.3)
della distribuzione di frequenze nel campione esaminato. Se `e una varianza, due
suoi stimatori possono essere la statistica (7.3), oppure quella corretta (7.14).
Quale statistica scegliere, per avere i risultati pi`
u attendibili? Il criterio da seguire
nella scelta si basa sulla verifica che lo stimatore abbia ben definite propriet`a, che
sono precisate dalle definizioni che seguono.
203

204

STIME DI PARAMETRI

Stimatore corretto. La statistica Gn `e uno stimatore corretto, o imparziale,


o non distorto (unbiased) di se il suo valore atteso coincide con il valore
teorico del parametro da stimare, per qualsiasi legge probabilistica compatibile
con il modello statistico della popolazione:
E{Gn } = ,

P (x, ) P.

(8.1)

Stimatore consistente. La statistica Gn `e uno stimatore consistente in probabilit`a se, per qualsiasi compatibile con il modello statistico, esso converge
al valore teorico con probabilit`a 1 quando la numerosit`
a del campione tende
ad infinito:
lim IP(|Gn | ) = 1,
> 0.
(8.2)
n

Gn `e invece consistente in media quadratica se per n si annulla il suo


errore quadratico medio:
lim E{(Gn )2 } = 0

(8.20 )

e in tal caso `e anche consistente in probabilit`a.


Se Gn `e uno stimatore corretto, il suo errore quadratico medio coincide con
la varianza 2 (Gn ). Pertanto `e anche consistente (in media quadratica e in
probabilit`a) se la varianza della sua distribuzione campionaria tende a zero
per n :
lim 2 (Gn ) = 0.
(8.200 )
n

(1)

(2)

Stimatore efficiente. Scelti due stimatori Gn e Gn entrambi corretti,


(1)
diciamo che Gn `e lo stimatore pi`
u efficiente tra i due se ha una distribuzione
campionaria con una varianza minore di quella della distribuzione campionaria
(2)
di GN :
2
(2)
2 (G(1)
n ) (Gn )

(8.3)

per ogni numerosit`a n del campione e per ogni valore teorico del parametro
da stimare.
Tenuto conto delle precedenti propriet`a di una statistica campionaria, siamo ora in
grado di enunciare il seguente:
CRITERIO DI STIMA PUNTUALE: Una statistica Gn (X1 , . . . , Xn ) `e il miglior
stimatore di se `e il pi`
u efficiente nellinsieme degli stimatori corretti e consistenti.
Il valore = gn (x1 , . . . , xn ) del miglior stimatore, calcolato utilizzando le n determinazioni xi del campione, `e la stima ottima del parametro .

8.1 Stima puntuale

8.1.1

205

Stima puntuale di medie e di varianze

Sulla base del criterio appena enunciato, non `e difficile definire la stima ottima per
le medie e per le varianze di una popolazione di infiniti elementi, descritta da un
modello statistico normale.
Riguardo al valor medio, i risultati ricavati nel Capitolo precedente ed espressi dalle
(7.4) e (7.6) mostrano che la media campionaria n definita dalla (7.2) `e uno stimatore corretto e consistente (sia in probabilit`a che in media quadratica) della media
teorica . Ma essa `e anche il pi`
u efficiente tra gli stimatori corretti e consistenti.
Limitiamoci a chiarire questultima affermazione con due esempi.
1). Dato un campione estratto da una popolazione con media e varianza 2 ,
consideriamo come statistica Gn una generica combinazione lineare delle variabili
casuali indipendenti X1 , . . . , Xn :
Gn =

n
X

ai Xi

n
X

in cui

i=1

ai = 1

(8.4)

i=1

e con almeno due coefficienti ai che siano diversi da 1/n (perche altrimenti Gn
coinciderebbe con la media campionaria n ). Il valore atteso della statistica (8.4)
vale:
n
n
E{Gn } =

ai E{Xi } =

i=1

ai =

i=1

e quindi anche Gn `e uno stimatore non distorto della media . Ricordando i calcoli
gi`a effettuati nel 3.1.1, la sua varianza vale
2 (Gn ) =

n
X

a2i 2 (Xi ) =

i=1

n
X

a2i 2

i=1

e si pu`o anche scrivere


2 (Gn ) = 2

n
X

ai

i=1

1
1
+
n n

= 2

n
X

ai

i=1

1
n

2
> n2
n

perche per almeno due coefficienti ai la differenza ai 1/n `e diversa da zero. Dunque
la varianza di Gn `e sempre maggiore della varianza n2 della media campionaria n ,
e per la (8.3) si deduce che n `e pi`
u efficiente della statistica (8.4). Inoltre, 2 (Gn )
`e maggiore di zero per qualsiasi numerosit`
a del campione, e tale che
lim 2 (Gn ) = 2

a2i > 0.

i=1

Quindi Gn non `e nemmeno uno stimatore consistente della media . /


2). La mediana x
di una distribuzione campionaria di frequenze, definita nella (6.3),
`e anchessa uno stimatore non distorto di , e si pu`o calcolare che per n >> 1 ha
una varianza che vale:
2
.
2 (
x) =
2n

206

STIME DI PARAMETRI

Dunque x
`e anche uno stimatore consistente, perch`e la sua varianza tende a zero
per n . Tuttavia, per n finito questultima `e maggiore della varianza (7.5) della
distribuzione campionaria di n , e quindi n `e pi`
u efficiente di x
. /
Poiche si pu`o dimostrare che n `e pi`
u efficiente di qualsiasi stimatore della media,
si pu`o concludere che la statistica (7.2) `e il miglior stimatore di , e di conseguenza
la stima ottima del valor medio vale :

n
1X
xi .
n i=1

(8.5)

Riguardo alla stima puntuale della varianza di una popolazione normale, nel 7.4
si `e ricavato che il valor medio della distribuzione campionaria di Sn2 , definita nella
(7.3), non soddisfa la condizione (8.1). Pertanto, la statistica Sn2 `e uno stimatore
distorto della varianza 2 della popolazione.
Al contrario, in un campionamento con ripetizione la statistica corretta (7.14)
soddisfa entrambe le propriet`a di non distorsione e di consistenza perche, ricordando
i risultati gi`a ottenuti nel 7.4.1, `e tale che
2
2
E{Qn } =
(n 1) = 2
n1
n1
2
lim 2 (Sn2 ) = lim
4 = 0.
n
n n 1

E{Sn2 } =

Inoltre, anche per Sn2 si pu`o dimostrare che `e il pi`


u efficiente tra gli stimatori corretti
e consistenti della varianza. Si pu`o pertanto concludere che la statistica (7.14) `e il
miglior stimatore della varianza 2 della popolazione, e che la sua stima ottima
effettuata con campioni estratti con ripetizione vale:
n
1 X

=
(xi n )2 .
n 1 i=1
2

(8.50 )

E proprio questo valore che viene restituito dalla maggior parte dei software di
elaborazioni statistiche, quando si chiede la varianza di una assegnata serie di dati.
Se il campione `e estratto in blocco da un numero N non elevato di elementi, ricordando la (7.19) la stima (8.5) si corregge moltiplicandola per il coefficiente
(N 1)/N .

8.1.2

Stima di massima verosimiglianza

E un metodo di stima puntuale assai efficace e attendibile, che spesso pu`o essere
applicato con successo per valutare qualsiasi parametro incognito (non necessariamente coincidente con le medie o le varianze) presente nel modello statistico che
si adotta per studiare una popolazione. Il procedimento per ottenere una stima di
massima verosimiglianza `e il seguente.

8.1 Stima puntuale

207

Supponiamo che la popolazione sia descritta da un modello statistico con densit`a


f (x, ) dipendente da un parametro incognito IR, ed occorra stimare
con lanalisi di una statistica campionaria Gn , di cui sono note n osservazioni
indipendenti x1 , x2 , . . . , xn . Queste osservazioni sono le realizzazioni di n variabili
casuali indipendenti: Xi , i = 1, . . . , n, ciascuna con densit`a f (xi , ). Poich`e sono
indipendenti, la loro densit`a di probabilit`a congiunta vale, come detto nel Capitolo
3:
L(; x1 , . . . , xn ) = f (x1 , )f (x2 , ) f (xn , ).
(8.6)
Questa densit`a, interpretata come una funzione ordinaria della variabile reale e
dipendente dagli n parametri xi , `e detta verosimiglianza per la realizzazione x =
{x1 , .., xn } del campione.
Si chiama stima di massima verosimiglianza per il parametro quel valore (se esiste) della variabile indipendente, per cui la funzione L(; x1 , . . . , xn ) ha un massimo
nel dominio di interesse del parametro da stimare. Questo valore si indica con
M LE() (Maximum Likelihood Estimation), e deve soddisfare la condizione:
L[ = M LE(); x1 , . . . , xn ] = sup L(; x1 , . . . , xn ).

Se per qualsiasi realizzazione del campione la verosimiglianza L(; x1 , . . . , xn ) ha


un massimo in , e se L(; x1 , . . . , xn ) `e derivabile rispetto a , allora la stima
di massima verosimiglianza M LE() `e un suo punto di stazionariet`a che soddisfa
lequazione: dL(; x)/d = 0. Poiche L(; x) non `e identicamente nulla in ,
questultima equazione si pu`o anche scrivere:
n
d
d
d X
log L(; x) =
log[f (; x1 ) f (; xn )] =
log f (; xi ) = 0
d
d
d i=1

ed effettuando la derivata si ricava la seguente equazione di verosimiglianza:


n
X
f (, xi )
i=1

1
= 0.
f (, xi )

(8.7)

Per la maggior parte dei modelli statistici di uso pi`


u frequente non `e difficile verificare
che i punti di stazionariet`a che soddisfano la (8.7) corrispondono effettivamente a un
massimo di L(; x), per cui la soluzione della equazione di verosimiglianza (supposto
che esista e sia unica in ) fornisce la stima M LE(), espressa in termini delle
osservazioni xi rilevate nel campione.
Se il parametro incognito `e il valor medio di una popolazione di infiniti elementi,
si pu`o anche dimostrare che la stima di massima verosimiglianza del valor medio
coincide con la media campionaria n e di conseguenza, per quanto si `e visto nel
paragrafo precedente, fornisce la stima ottima del valor medio della popolazione.
Verifichiamo questa sua propriet`a nellipotesi che siano state fatte n osservazioni
su una popolazione cui si attribuisce un modello statistico normale N (, 2 ). Ogni
osservazione ha una distribuzione
"

(xi )2
1
,
f (xi , ) = exp
2 2
2

i = 1, . . . , n

208

STIME DI PARAMETRI

e la funzione di verosimiglianza vale:


#

"

n
Y

"

n
X
1
1
(xi )2
(x )2
exp i 2
L(; x) =
=
exp

.
2
2 2
(2 2 )n/2
i=1 2
i=1

Per determinare il suo punto di massimo calcoliamo le derivate prime:


"

(xi )2
df (xi , )
1
xk
xk
exp

f (xi , )
=
=
2
2
d

2
2
2
per cui lequazione di verosimiglianza (8.7) si scrive:
n
1 X
(xi ) = 0.
2 i=1

Poich`e 2 > 0, si ricava: x1 + x2 + . . . + xn n = 0, da cui


M LE() =

1
(x1 + x2 + . . . + xn ) = n .
n

Al contrario, con calcoli del tutto analoghi si pu`o mostrare che in un modello N (, )
Normale-2, la stima di massima verosimiglianza per non concide con la stima
ottima della varianza che si ottiene invece con la statistica (7.14). Infatti, tenuto
conto che le densit`a di ciascuna osservazione Xi del campione sono
#

"

1
(xi )2
f (xi , ) =
,
exp
2
2
le loro derivate valgono:
"

1
(xi )2
df (xi , )
=
exp
d
2
2

#"

(xi )2
(xi )2
1

=
f (xi , )
22
2
22

e lequazione di verosimiglianza per `e in tal caso:


"

n
n
1 X
1 X
2
[(x

]
=
(xi )2 n = 0.
i
22 i=1
22 i=1

La sua soluzione `e:


M LE() =

n
1X
(xi )2
n i=1

e coincide con la varianza campionaria (7.2) che `e una stima distorta della varianza
teorica 2 .
Questo metodo di stima puntuale `e comunque particolarmente efficace quando si
devono determinare parametri incogniti che non siano la media o la varianza della

8.1 Stima puntuale

209

distribuzione teorica ipotizzata nel modello statistico. I due esempi che seguono
illustrano la sua applicazione per questo tipo di stime.
Esempio 8.1

Si vuole stimare il valore del parametro c IR nel modello statistico esponenziale


del tipo
E( + c) f (x, c) = ( + c)e(+c)x ,
x0
che si attribuisce a una popolazione dalla quale `e stato estratto, con ripetizioni, un
campione di numerosit`a n. Definita la funzione di verosimiglianza (8.6) con = c,
le derivate delle densit`a f (xi , c) valgono:
df (xi , c)
= e(+c)xi xi ( + c)e(+c)xi =
dc
e di conseguenza lequazione di verosimiglianza `e
n
X
i=1

1
xi f (xi , c)
+c

n
X
1
n
1
xi =

xi = n
n = 0.
+c
+ c i=1
+c

La stima di massima verosimiglianza per il parametro c `e pertanto:


1
M LE(c) =
.
n
Si noti che M LE(c) = 0 implica: n = 1/, e questo risultato verifica che la stima di
massima verosimiglianza per il valor medio = 1/ di una popolazione con modello
esponenziale E() coincide con la media campionaria n /.
Esempio 8.2

Si estrae con ripetizioni un campione di numerosit`


a n da una popolazione avente un
carattere X con valori in (0, 1], al quale si decide di assegnare un modello statistico
descritto dalla densit`a

(1 + b)xb per x (0, 1]


fX (x, b) =
0
altrove,
con b IR parametro incognito. Per stimarlo, osserviamo che ogni elemento Xi del
campione ha densit`a
f (xi , b) = (1 + b)xbi
la cui derivata vale

df (xi , b)
1
= xbi [1 + (1 + b) log xi ] =
+ log xi f (xi , b).
db
1+b
Lequazione di verosimiglianza (8.7) si scrive:
n
X
i=1

n
X
1
n
n
+ log xi =
+
log xi =
+ log(x1 x2 xn ) = 0,
1+b
1 + b i=1
1+b

e risolvendola rispetto a b si ottiene:


M LE(b) = 1

n
./
log(x1 x2 xn )

210

8.1.3

STIME DI PARAMETRI

Metodo dei momenti

Si tratta di un metodo di stima puntuale che `e concettualmente assai semplice, e


sebbene in generale non fornisca risultati molto precisi, `e molto utile per ottenere
simultaneamente la stima di pi`
u di un parametro incognito presente nel modello
statistico.
Precisamente, assumiamo che il modello di popolazione sia descritto da una densit`a
fX (x; 1 , 2 , . . . , M ) dipendente da M parametri incogniti, e che questa sia dotata
dei suoi primi M momenti:
E{X q }(1 , 2 , . . . , M ),

q = 1, . . . , M

noti come assegnate funzioni degli M parametri incogniti.


Estratto dalla popolazione un campione di numerosit`
a n, consideriamo gli M mo(q)
menti campionari di ordine q, gi`a definiti nella (7.0). Indichiamo con gn (x1 , . . . , xn )
le realizzazioni di questi M momenti campionari, che possiamo calcolare utilizzando
i dati xi . Imponendo che ciascuna realizzazione uguagli il corrispondente momento
della densit`a teorica, si perviene al seguente sistema di M equazioni nelle M incognite q :
q = 1, . . . , M :

E{X q }(1 , 2 , . . . , M ) = gn(q) (x1 , . . . , xn )

(8.8)

la cui soluzione (se esiste, e se `e unica in ) fornisce la stima degli M parametri


incogniti, espressa in termini degli n dati osservati. Al posto di qualche momento
campionario del tipo (7.1) si pu`o anche utilizzare, per migliorare lapprossimazione
dei risultati, i corrispondenti momenti campionari centrali, come per esempio la
stima ottima (8.5) della varianza.
Esempio 8.3

Si assume che il carattere X di una popolazione possa avere valori uniformemente


distribuiti in un intervallo di IR da determinare. Il modello statistico per X `e perci`o
quello uniforme R(1 , 2 ) avente come parametri incogniti gli estremi di tale intervallo, ed `e descritto dalla densit`a costante (2.28) con momenti del primo e secondo
ordine che valgono:
1
E{X} = (1 + 2 ),
2

1
E{X 2 } = (21 + 1 2 + 22 ).
3

Per stimare i due estremi incogniti, si estrae un campione casuale con numerosit`
a
n = 10 dal quale si ricavano i seguenti dati xi :
1.4,

3.05,

1.9,

0.45,

2.2,

4.1,

3.5,

2.7,

4.25,

0.95.

La media campionaria e il momento campionario di ordine 2 risultano rispettivamente:


gn(1) n =

1 X
xi = 2.45,
10 i

gn(2) =

1 X 2
x = 7.523.
10 i i

8.2 Stima per intervalli

211

Applichiamo il metodo dei momenti, scrivendo la (8.8) per q = 1, 2. Si ricava il


sistema:
1 + 2 = 2 2.45
21 + 1 2 + 22 = 3 7.523
la cui soluzione fornisce:
1 = 0.3143 ,

2 = 4.8857. /

Esempio 8.4

Si ha motivo di ritenere che un parametro X, presente nel modello matematico di un


fenomeno fisico aleatorio, possa assumere casualmente valori compresi nellintervallo
[0, 1], con legge non uniforme, bens soddisfacente un modello statistico Beta B(b, c),
descritto dalla densit`a che `e definita nella (2.53) del Capitolo II. Essa dipende dai
due parametri incogniti b, c > 1, che ci proponiamo di stimare mediante lanalisi di
un campione costituito, per esempio, dai risultati xi di n osservazioni indipendenti
del fenomeno fisico oggetto di studio.
Poich`e il valor medio e la varianza della distribuzione teorica sono funzioni note dei
due parametri incogniti definite nella (2.54), conviene usare i dati del campione per
calcolare le stime ottime
,
2 della media e della varianza, e uguagliarle alle loro
espressioni teoriche. Si ricava in tal modo il seguente sistema:

b+1
b+c+2

(b + 1)(c + 1)
(b + c + 2)2 (b + c + 3)

che ha come soluzione:

2 (1
)
(1 +
)

2
2

(1
)
c =
2+
2

b =

con
e
2 definite rispettivamente dalle (8.5) e (8.5) /.

8.2

Stima per intervalli

La stima ottima di un parametro che abbiamo ricavato nel paragrafo precedente,


si determina esaminando i dati forniti da uno dei tanti campioni che casualmente
`e possibile estrarre dalla popolazione. Ci`o significa che il valore empirico ottenuto
`e da considerare approssimato, perche assai raramente esso coincider`a con il vero
valore del parametro.

212

STIME DI PARAMETRI

Se per`o si conosce la distribuzione campionaria della statistica usata per stimare


questo parametro, siamo in grado di valutare lerrore commesso, e di definire lintervallo [min max ] che, con probabilit`a [0, 1] molto prossima ad 1, contiene
il vero valore del parametro in questione.
Questo metodo di stima, che evidentemente migliora e completa i risultati che si ottengono con una semplice stima puntuale, si chiama stima per intervalli. Lintervallo
[min , max ] tale che
IP(min max )

si chiama intervallo di confidenza o intervallo fiduciario, i suoi estremi sono i limiti


fiduciari, e `e il livello fiduciario o probabilit`
a fiduciaria, che si sceglie in anticipo
e quantifica, per cos dire, il nostro grado di accettazione dellerrore commesso
nella stima. Espressa in percentuale, la probabilit`a esprime anche il livello di
significativit`a della stima effettuata. Fissato , quanto pi`
u piccolo `e lintervallo di
confidenza, tanto migliore `e lapprossimazione della stima puntuale effettuata.
La stima intervallare pi`
u frequente usa un intervallo fiduciario simmetrico, centrato

sul valore empirico calcolato, e prende anche il nome di stima a due code se la
condizione:
IP( + )

implica lesclusione delle regioni pi`


u esterne (le code) di una distribuzione di tipo
normale.
In altri casi, `e invece preferibile effettuare stime a una coda, che sono definite da
condizioni del tipo:
IP( max ) ,

IP(min )

in cui gli intervalli di confidenza sono limitati solo a destra o a sinistra.


La definizione delle distribuzioni campionarie delle medie e delle varianze che `e
stata effettuata nei 7.3 e 7.4 del Capitolo precedente, ci permette di determinare
per questi due parametri le stime intervallari che seguono.

8.2.1

Intervalli di confidenza per la media

8.2.1.1. Popolazione con varianza nota.


Supponiamo dapprima che la popolazione da cui `e stato estratto il campione abbia
una distribuzione teorica con media incognita da determinare, e varianza nota 2 .
Se la popolazione ha un modello statistico Normale N (, 2 ), anche la media campionaria n ha una distribuzione
normale, che per le (7.4) e (7.5) ha media e

a n del campione.
deviazione standard / n, per qualunque valore della numerosit`
Se la popolazione ha una distribuzione teorica che non `e normale, per il Teorema
Limite Centrale la distribuzione campionaria delle medie ha ancora legge normale
N (, 2 /n) se la numerosit`a del campione `e sufficientemente elevata (in pratica, se
n 30).

8.2 Stima per intervalli

213

In entrambi i casi, fissato il livello fiduciario e introdotta la variabile normale


standard
n
N (0, 1),
Zn =
(8.9)
/ n
si pu`o determinare un intervallo di confidenza simmetrico, centrato sul valore empirico n della media campionaria, calcolando il valore di z per cui si ha:

IP n z n + z
n
n

= IP |n | z
n
= IP(|Zn | z) = 2 erf (z) = . (8.10)

Questo valore di z che soddisfa la (8.10), e che indichiamo con zq z(1+)/2 (v.
il grafico a) di Fig. 8.1) `e il quantile di ordine q = (1 + )/2 della legge Normale
standard, e viene chiamato coefficiente fiduciario. Ricordando che il quantile zq di
ordine q della distribuzione N (0, 1) `e quel valore di Z tale che
FZ (zq ) =

1
+ erf(zq ) = q ,
2

esso si pu`o ricavare dalla Tabella di erf(z) riportata in Appendice, ricercando nelle
sue colonne il numero pi`
u prossimo al valore q 0.5 (ovvero al valore /2), eventualmente interpolando tra due valori vicini.

N (0,1)

N (0,1)
g

1 g
2

1 g
2
-z 1+ g
2

z 1+ g

1 g

a) stima con intervallo simmetrico

zg

b) stima a una coda

Figura 8.1 - Intervalli di confidenza

Calcolati il valore empirico n e il coefficiente fiduciario z , lintervallo di confidenza


simmetrico per una stima al livello fiduciario risulta pertanto:

n z(1+)/2 n + z(1+)/2
n
n

(8.11)

ed ha come estremi i limiti fiduciari:

n z(1+)/2 .
n

(8.110 )

In modo analogo si pu`o procedere per determinare i limiti superiori o inferiori di


intervalli di confidenza per le stime a una coda. Ad esempio, il valore z di z che

214

STIME DI PARAMETRI

soddisfa la seguente condizione:

IP n + z = IP n z
= IP(Zn z) =
n
n
= 1 IP(Zn z) = 1 [1/2 + erf (z)] = 1/2 + erf (z) =
`e il quantile di ordine q = della legge N (0, 1) e definisce il limite fiduciario superiore
per il seguente intervallo di confidenza a una coda:

< n + z
(8.12)
n
che `e mostrato nel grafico b) di Fig. 8.1. Esso si determina ricercando nella Tabella
di erf(z) il valore di z che corrisponde a una probabilit`a uguale a 1/2. Allo stesso
modo si determina il limite fiduciario inferiore dellintervallo di confidenza:

n z < + ,
(8.13)
n
dove z `e ancora il quantile di ordine di N (0, 1), soddisfacente la condizione:

IP n z = IP n z
n
n

= IP(Zn z) = 1/2 + erf (z) = .

OSSERVAZIONE 8.1
I limiti fiduciari ora determinati si prestano anche alla risoluzione dei seguenti problemi di stima, collegati a quello della determinazione di un intervallo di confidenza
simmetrico.
Determinazione del livello fiduciario. Fissato lo scarto

= |n | = z(1+)/2
n
nella stima del valor medio attraverso il risultato empirico n , la probabilit`a
fiduciaria con cui si pu`o affermare che = n `e data dal valore di che
soddisfa la condizione:

n
z(1+)/2 =
,

il quale per la (8.10) vale:

!
n
= 2 erf z =
.
(8.14)

a del campione. Fissato il livello fiduciario ,


Determinazione della numerosit`
la numerosit`a del campione che `e necessaria per sostenere che il valor medio
stimato vale = n si calcola imponendo la condizione:

z(1+)/2
n

8.2 Stima per intervalli

215

con z(1+)/2 che soddisfa la (8.10). Da questa si ottiene:

n z(1+)/2

(8.15)

8.2.1.2 Popolazione con varianza sconosciuta.


Supponiamo ora che la popolazione da cui `e stato estratto il campione abbia una
distribuzione teorica in cui anche la varianza 2 , in aggiunta alla media da determinare, sia sconosciuta.
In tal caso, per effettuare una stima intervallare di ci si basa sulla densit`a t-Student
illustrata nel 2.3.6 del Capitolo II, alla quale fa riferimento il seguente:
TEOREMA 8.1 (t-Student)
Se da una popolazione normalmente distribuita si estraggono campioni casuali di
numerosit`a n con media campionaria n e varianza campionaria corretta Sn2 , allora
la variabile casuale

(n ) n
(8.16)
Tn =
Sn
ha una distribuzione t-Student con = n 1 gradi di libert`a.
Ne segue che se la popolazione ha una distribuzione teorica normale, una volta determinate le realizzazioni delle due statistiche campionarie (7.2) e (7.14) con numerosit`
a
n qualsiasi, una stima intervallare simmetrica per con livello fiduciario si potr`a
effettuare determinando quel valore tq di t che soddisfa la condizione:

Sn
Sn
IP n t n + t
n
n

Sn
= IP |n | t
n
= IP(|Tn | t) = .

=
(8.17)

Il coefficiente fiduciario tq per questa stima a due code `e il quantile della distribuzione t-Student con = n 1 gradi di libert`a, che lascia alla sua destra unarea uguale
alla probabilit`a (1 )/2. Esso si pu`o ricavare da una apposita Tabella dei quantili
delle distribuzioni t-Student che `e riportata in Appendice, e per un prefissato grado
di libert`a `e il valore che si trova nella colonna del quantile
q =1

1
1+
=
.
2
2

(8.170 )

Lintervallo di confidenza simmetrico per una stima di al livello fiduciario `e


pertanto:
Sn
Sn
n tq n + tq .
(8.18)
n
n
Si noti che i suoi limiti fiduciari si ottengono dalla (8.11) sostituendo , ora incognito, con Sn (n qualsiasi), e il coefficiente zq con tq . In modo simile, si ricavano i

216

STIME DI PARAMETRI

seguenti intervalli di confidenza a una coda:


Sn
< n + tq ,
n

Sn
n tq < + ,
n

(8.19)

i cui limiti fiduciari superiore o inferiore sono da determinare calcolando il coefficiente


tq che `e ora il quantile della distribuzione t-Student con = n 1 gradi di libert`a,
con q = .
Le formule (8.17)-(8.19) sono state ricavate nella ipotesi che la popolazione sia normalmente distribuita, e valgono anche per piccoli campioni (n < 30) estratti casualmente da questa. Se invece la popolazione non `e normalmente distribuita, non sono
soddisfatte le ipotesi del precedente Teorema. In tal caso si pu`o per`o dimostrare che
il Teorema 8.1 vale ancora per n sufficientemente grande, circostanza in cui, come
si `e detto nel 3.2.6, la distribuzione t-Student tende alla legge Normale standard
identificandosi con la variabile aleatoria Zn definita con la (8.9).
Ne segue che le stime intervallari per la media di una popolazione con distribuzione
diversa da quella normale si ottengono ancora, se la numerosit`
a del campione `e
sufficientemente elevata (n 30), calcolando i coefficienti fiduciari z che compaiono
nelle (8.11)-(8.15), dopo aver sostituito in queste formule la deviazione standard
incognita con il valore empirico della statistica campionaria Sn .
Riportiamo qui, per comodit`a, le espressioni di Sn che si deducono dallanalisi della
distribuzione campionaria delle varianze effettuata nel 7.4 del Capitolo VII.
Se il campione di numerosit`a n `e estratto con ripetizione da una popolazione finita,
oppure se la popolazione `e infinita, si ha
r

Sn =

n
Sn .
n1

(8.20)

Se il campione `e estratto senza ripetizione da una popolazione con un numero finito


di N elementi, allora
s
N 1 n
Sn =
Sn ,
(8.21)
N n1
dove Sn `e la radice quadrata positiva della varianza campionaria (7.2):
v
u
n
u1 X
Sn = t
(Xi n )2 .

i=1

Esempio 8.5

La media e la deviazione standard del diametro di un campione di 200 utensili


prodotti da una fabbrica sono rispettivamente n = 0.824 cm e Sn = 0.042 cm.
Nellipotesi che il campione sia stato estratto con ripetizione da un numero elevato
di pezzi fabbricati, determinare: 1) i limiti fiduciari al 95% e al 99% per il diametro

8.2 Stima per intervalli

217

medio dei tondini in produzione; 2) la numerosit`


a n del campione che si dovrebbe
esaminare per poter concludere, al livello fiduciario = 0.95, che lerrore nella stima
della media `e inferiore a 0.001 cm.
1) Il campione `e estratto da una popolazione avente distribuzione non nota, con
media e varianza pure sconosciute. La numerosit`
a n `e sufficiente per asserire che i
limiti fiduciari sono dati da
Sn
n
zq
200
con Sn che per la (8.20) vale
r

Sn =

200
0.042 = 0.04210 cm
199

e zq con q = (1 + )/2 si ricava dalla Tabella di erf(z).


Al livello fiduciario = 0.95, si trova dalla Tabella che /2 = 0.475 = erf (1.96),
e quindi zq = 1.96. Al livello = 0.99, si ha invece zq = 2.575, interpolando tra i
valori pi`
u vicini a /2 = 0.495. Si ottengono pertanto i seguenti risultati:
0.0421
1.96 = 0.824 0.00583 cm.
= 0.824
200
0.0421
2.575 = 0.824 0.00766 cm.
= 0.824
200

al livello = 0.95 :
al livello = 0.99 :

2) Per stimare il valor medio con un errore inferiore a = 0.001, occorre che n
soddisfi la condizione (8.15) con Sn = 0.0421 al posto di incognita. Al livello di
fiducia del 95% si deve perci`o avere (arrotondando per eccesso perche n `e intero):

0.0421
n 1.96
0.001

= 6778. /

esempio 8.6

Dieci misurazioni della lunghezza di un oggetto danno come risultato una media
n = 4.38 cm e una deviazione standard Sn = 0.0036 cm. Si vuole determinare i
limiti fiduciari al 95% e al 99% della lunghezza effettiva delloggetto.
Il campione `e linsieme di dieci prove ripetute e indipendenti consistenti nella misurazione della lunghezza delloggetto, e si pu`o considerare estratto con ripetizione
dalla popolazione delle infinite misurazioni teoricamente possibili. In accordo con il
Teorema di asintoticit`a per prove ripetute e indipendenti (v. 2.3.9 del Capitolo II), il
modello statistico da adottare `e quello Normale-2, con media e varianza sconosciute.
Poich`e abbiamo a disposizione un piccolo campione (n = 10), i limiti fiduciari per
la media si calcolano usando la distribuzione t-Student con = n 1 = 9 gradi
di libert`a, e sono definiti dalla (8.18) con
r

Sn =

10
0.0036 ' 0.0632 cm
9

218

STIME DI PARAMETRI

calcolato applicando la (8.20). Al livello fiduciario = 0.95 il quantile q dato dalla


(8.17) vale
1 + 0.95
q=
= 0.975
2
e al livello fiduciario = 0.99:
q=

1 + 0.99
= 0.995 .
2

La Tabella dei quantili della distribuzione t-Student con 9 gradi di libert`a (v. Appendice) fornisce rispettivamente i seguenti coefficienti fiduciari: tq = 2.262 e tq = 3.25.
Pertanto, in applicazione della (8.18) si ricava che i limiti fiduciari per il valor medio
della lunghezza delloggetto sono:
al livello = 0.95 :
al livello = 0.99 :

0.0632
= 4.38
2.262 = 4.38 0.04516 cm.
10
0.0632
3.25 = 4.38 0.06495 cm. /
= 4.38
10

Esempio 8.7

Da una popolazione di 200 voti in centesimi di un esame scolastico si estrae un


campione casuale di 50 voti che ha media n = 75 e varianza Sn2 = 100. Calcolare:
1) i limiti fiduciari al 95% per la stima della media dei voti; 2) il livello fiduciario
con cui potremo affermare che tale media vale 75 1.
1) Il campione `e estratto senza ripetizione da una popolazione finita con N = 200
elementi, con media e varianza sconosciute. Poiche n > 30, possiamo calcolare i
limiti fiduciari applicando la (8.11) dopo aver sostituito, al posto di incognita, la
stima corretta di Sn che questa volta `e data dalla (8.21). Il suo valore `e prossimo a
quello della deviazione standard campionaria, e vale
s

Sn =

50
200 1

S2 =
200
50 1 n

199
100 = 10.0762.
196

Il coefficiente fiduciario z per = 0.95 vale z = 1.96 (v. lEsempio 8.5 precedente).
Pertanto i limiti fiduciari per la stima della media dei voti sono:
= 75

10.0762

1.96 == 75 2.793.
50

2) Per valutare il livello fiduciario di una stima intervallare del valor medio con un
errore non superiore a 1, si applica la (8.14) con = 1 e Sn = 10.0762 al posto di
. Si ricava allora:

!
50
= 2 erf
' 2 erf (0.70) = 2 0.258 = 0.516 .
10.0762

8.2 Stima per intervalli

219

Ci`o significa che una stima in cui si afferma che `e uguale al valore empirico con lo
scarto massimo di una unit`a, ha soltanto il 51.6% di probabilit`a di essere vera. /
Esempio 8.8

Con un montacarichi che ha un limite di sicurezza di 8200 kg si devono trasportare


25 casse, scelte a caso da un lotto ricevuto in ditta. Si sa che il peso medio di
ciascuna cassa `e = 300 kg, con deviazione standard = 50 kg. Si vuole calcolare:
1) la probabilit`a che il peso delle 25 casse non superi il limite di sicurezza del montacarichi;
2) il numero massimo di casse che `e possibile caricare, se si vuole rimanere al di
sotto del limite di sicurezza di 8200 kg. con una probabilit`a del 99.9%.
1) In questo problema si assume di conoscere i parametri e 2 del modello statistico
per la popolazione delle casse, e poiche non conosciamo il numero N di elementi della
popolazione da cui `e stato estratto il campione di n = 25 casse, si intende che questo
`e stato scelto da una popolazione infinita.
La distribuzione campionaria delle medie dei pesi ha valor
medio E(n ) = = 300
kg e deviazione standard che per la (7.5) vale n = / 25 = 10 kg.
Si deve determinare la probabilit`a fiduciaria per un test a una coda sul peso delle
25 casse del campione, al quale si richiede di non superare il limite di sicurezza di
8200 kg. Questo limite di sicurezza `e raggiunto se ciascuna cassa ha un peso medio
di n = 8200/25 = 328 kg. Quindi, la probabilit`a da calcolare `e = IP(n < 328).
Introducendo, al solito, la variabile standardizzata
Zn =

n 300
n E(n )
=
,
n
10

al peso limite n di ciascuna cassa corrisponde il valore standardizzato z = 2.8. Si


ricava dunque:
= IP(n < 328) = IP(Zn < 2.8) =

1
1
+ erf(2.8) = + 0.4974 = 0.9974.
2
2

2) Nella seconda domanda `e invece fissato il livello fiduciario = 0.999, e si richiede


il numero n di casse che soddisfa la condizione:

8200
P n
n

= 0.999

ovvero anche il valore z di Zn che soddisfa:


IP(Zn z ) =

1
+ erf(z ) = 0.999 .
2

Dallesame della Tabella dei valori di erf(z) risulta: z = 3.1 per cui, ricordando
lespressione della variabile stardardizzata Zn , si ricava che deve essere:
z = 3.1 =

8200/n 300

.
50/ n

220

STIME DI PARAMETRI

Si ottiene perci`o la seguente equazione nella incognita n:

60n + 31 n 1640 = 0
che ha soluzione n = 24, 76. Da essa si deduce che per non superare il limite
di sicurezza con probabilit`a fiduciaria = 0.999, `e necessario caricare un numero
massimo di 24 casse. /
Esempio 8.9

Dallanalisi di 500 sferette da cuscinetto prodotte in uno stabilimento, si ricava che


esse hanno un peso medio di 5.02 grammi, con deviazione standard = 0.30 gr.
1) Determinare la probabilit`a fiduciaria con cui si pu`o affermare che il peso medio
delle sferette in produzione vale = 5.02 0.02 gr.
2) Dai 500 elementi esaminati si estrae senza ripetizione un campione di n = 100
sferette. Calcolare la probabilit`a che questo campione abbia un peso complessivo
compreso tra 496 e 500 gr., oppure maggiore di 510 gr.
1) Per il primo problema, si assume che il modello statistico per il peso delle sferette abbia varianza nota 2 = (0.3)2 = 0.09 gr2 , e media da stimare mediante
i dati forniti da un campione di numerosit`
a n = 500 estratto con ripetizione dalla
popolazione degli elementi in produzione. Si richiede la probabilit`a fiduciaria per
una stima intervallare di con uno scarto massimo = 0.02 gr. Essa si determina
applicando la (8.14), e dalla Tabella di erf(z) si ricava:

!
500 0.02
= 2 erf
= 2erf (1.49) = 2 0.4319 = 0.8638.
0.30
2) Nel secondo problema, occorre determinare la distribuzione campionaria delle
medie dei pesi, che risulta da un generico campione di n = 100 sferette estratto
senza ripetizione da una popolazione di N = 500 elementi. Per il Teorema Limite
Centrale, questa distribuzione campionaria `e ben approssimata dalla legge normale
con valor medio E{n } = = 5.02, e varianza da calcolare applicando la (7.7):
n2 =

2 500 100

= 7.2144 104 gr2 .


100
499

Si chiede di determinare le probabilit`a IP(4.96 n 5) e IP(n 5.10) che sono


rappresentate dalle aree evidenziate in Fig. 8.2. La variabile casuale standardizzata
Zn =

n E{n }
n 5.02
p
=
2
0.027
n

assume, in corrispondenza degli estremi richiesti per n , i seguenti valori:


n = 4.96 :
n = 5 :
n = 5.10 :

z1 = 2.22
z2 = 0.74
z3 = 2.96

8.2 Stima per intervalli

221

E{ m n }
4.9

4.96

5.1

5 5.02

mn

Figura 8.2

per cui le probabilit`a cercate sono:


IP(4.96 n 5) = IP(2.22 Zn 0.74) = erf (2.22) erf (0.74) = 0.2164
IP(n 5.10) = IP(Zn 2.96) =

1
erf (2.96) = 0.0015. /
2

Esempio 8.10

Da un campione di n = 100 votanti intervistati alluscita dai seggi in un ballottaggio


elettorale risulta che il 55% di essi si `e espresso a favore del candidato A. Si vuole
determinare:
1) i limiti fiduciari al 95% e al 99% sulla percentuale di voti favorevoli al candidato
A;
2) Il numero n di interviste necessarie per affermare, al livello fiduciario = 0.95,
che il candidato sar`a eletto.
Luniverso costituito dallelettorato attivo si suddivide in elettori favorevoli o contrari al nostro candidato A. Se indichiamo con p la probabilit`a (incognita) che
lelettore sia a lui favorevole, la popolazione degli elettori che hanno votato A
`e distribuita con legge binomiale, avente una media E{ns } = 100p e varianza
2 (ns ) = 100p(1 p), dove ns `e il numero di successi (voti a favore) riscontrati nel campione di elettori intervistati. Consideriamo tutti i possibili campioni
di grandezza n = 100 estratti da questa popolazione, e valutiamo la distribuzione
campionaria delle frequenze relative Y = ns /100. Nel 7.5 `e stato ricavato che anche
Y ha una distribuzione binomiale, che si pu`o approssimare con una legge normale
avente valor medio e deviazione standard date dalla (7.22):
E{Y } =
Y

E(ns )
=p
100
s
p(1 p)
(ns )
=
.
100
100

1) La prima domanda richiede una stima intervallare per la frequenza relativa Y di


voti favorevoli, che effettuiamo introducendo la variabile standardizzata:
Z=

Y p
Y p
=p
.
Y
p(1 p)/n

222

STIME DI PARAMETRI

Si deve determinare lintervallo di confidenza:


p zq Y p p + zq Y
con zq da calcolare per i livelli fiduciari richiesti usando la Tabella di erf(z), e precisamente: zq = 1.96 al livello = 0.95; zq = 2.58 al livello = 0.99.
Dalle osservazioni sul campione ricaviamo che il valor medio della distribuzione delle
frequenze relative di voti favorevoli `e E{Y } = p = 0.55, e la sua deviazione standard
vale:
r
0.55 0.45
Y =
= 0.04975.
100
Si ottengono cos i seguenti limiti fiduciari:
al livello = 0.95 :
al livello = 0.99 :

p = 0.55 1.95 0.04975 = 0.55 0.0975


p = 0.55 2.58 0.04975 = 0.55 0.128.

Dunque, arrotondando gli scarti alla seconda decimale, si conclude che al livello
fiduciario = 0.95 il candidato avr`
a una percentuale di voti che va dal 45% al 65%;
al livello fiduciario = 0.99 avr`a una percentuale compresa tra il 42% e il 68%.
2) Il candidato sar`a eletto se Y > 0.50, e per stimare al livello di fiducia = 0.95 la
probabilit`a che venga eletto, bisogna imporre che
IP(Y > 0.50) = IP(Z > z0 ) =

1
erf (z0 ) = 0.95 ,
2

dove z0 `e il valore della variabile standardizzata per Y = 0.5, che scriviamo in


funzione di n:

0.5 0.55
z0 = p
= 0.1005 n.
(8.22)
0.55 0.45/n
Ricercando nella Tabella di erf(z) il valore z0 che soddisfa: erf (z0 ) = 0.45 e
ricordando che erf (z) = erf (z), si ricava: z0 = 1.645. Se sostituiamo questo
valore nella (8.22) si ottiene, arrotondando per eccesso:

n=

1.645
0.1005

= 268.

Occorrerebbero pertanto 268 interviste per affermare, con un rischio di sbagliare


limitato al 5%, che il candidato A vincer`a il ballottaggio. /
Esempio 8.11

Un campione Auditel di 1000 spettatori di un programma televisivo `e costituito da


na = 700 adulti e nb = 300 bambini. Dal rilevamento dei dati di ascolto di un
programma di nuova produzione risulta che questo `e gradito da 280 adulti e da 240
bambini. Si vuole conoscere, ai livelli di fiducia = 0.95 e 0.99, i limiti fiduciari
per il maggior gradimento del programma da parte dei bambini, rispetto a quello
mostrato dagli adulti.

8.2 Stima per intervalli

223

Si considerino due campioni che supponiamo statisticamente indipendenti: quello costituito dagli spettatori adulti e quello dei bambini. Le frequenze relative Ya e Yb con
cui si riscontra il gradimento dello spettacolo nei due campioni sono rispettivamente:
Ya =

280
= 0.4 = pa ;
700

Yb =

240
= 0.8 = pb .
300

Le distribuzioni campionarie di queste due frequenze relative, che indicano anche


la percentuale pa , pb di gradimento del programma da parte dei due campioni, sono
approssimabili (cfr. 7.5) con leggi normali aventi hanno valori medi E{Ya } = pa =
0.4 e E{Yb } = pb = 0.8. Le rispettive varianze valgono, per la (7.22):
a2 =
b2 =

pa (1 pa )
0.4 0.6
=
= 0.000343
na
700
pb (1 pb )
0.8 0.2
=
= 0.000533.
nb
300

Definiamo ora la variabile casuale


d() = Yb Ya
che rappresenta la differenza tra la frequenza relativa di gradimento da parte dei
bambini, e quella riscontrata negli adulti. Se d() ha realizzazioni maggiori di
zero, significa che il programma ha un maggior gradimento da parte dei bambini, e
viceversa se d < 0. Dalle osservazioni sul campione si ha che il suo valor medio `e
ovviamente
E{d} = E{Yb } E{Ya } = 0.4 ,
e la deviazione standard di questa distribuzione campionaria vale, per la (3.8) del
Capitolo III:
q

d = a2 + b2 = 0.000343 0.000533 = 0.0296.


Una stima per intervalli del maggior gradimento da parte dei bambini si effettua
calcolando il seguente intervallo di confidenza:
E{d} zq d d E{d} + zq d
dove, al solito, zq `e il coefficiente fiduciario per la differenza standardizzata Z =
(d 0.4)/d , e vale zq = 1.96 al livello = 0.95; zq = 2.58 al livello = 0.99.
I limiti fiduciari per la differenza di gradimento ai livelli di fiducia richiesti sono
allora:
al livello = 0.95 :
al livello = 0.99 :

d = 0.4 1.96 0.0296 = 0.4 0.058


d = 0.4 2.58 0.0296 = 0.4 0.076.

In termini percentuali, il risultato `e il seguente:


al livello fiduciario del 95%, il maggior gradimento del programma da parte dei
bambini (rispetto a quello dimostrato dagli adulti) `e da valutare tra il 34.2% e il
45.8%;
al livello fiduciario del 99%, si stima invece compreso tra il 32.4% e il 47.6% /.

224

8.2.2

STIME DI PARAMETRI

Intervalli di confidenza per la varianza

Se si conosce la distribuzione campionaria delle varianze, `e possibile determinare un


intervallo di confidenza per la varianza 2 della popolazione da cui `e stato estratto
il campione di numerosit`a n.
Nel 7.4 si `e visto che ci`o `e possibile se il modello statistico della popolazione ha
legge normale, perche in tal caso dal Teorema Chi-quadrato si deduce che la stima
ottima della varianza:
2
Sn2 =
Qn
(8.23)
n1
`e distribuita con la densit`a (7.16), la quale a sua volta `e calcolabile attraverso la
legge Chi-quadrato con = n 1 gradi di libert`a della variabile aleatoria Qn .
Non `e facile determinare i valori della distribuzione Chi-quadrato definita nella (2.20)
e, come per la legge t-Student, si ricorre di solito ai valori tabulati dei suoi quantili
q , che sono riportati per diversi gradi di libert`a in una Tabella della Appendice.
Denotiamo allora per comodit`a con j = q=qj il quantile della distribuzione Chiquadrato che, per definizione, `e tale da soddisfare la condizione:
IP(Qn j ) = qj [0, 1].
Se si impone che Qn assuma valori in un intervallo [1 , 2 ] con un assegnato livello
fiduciario , tenendo conto della (8.23) si ha

n 1 2
Sn 2 =
2

n 1 2
n 1 2
= IP
Sn 2
Sn = .
2
1

IP(1 Qn 2 ) = IP 1

(8.24)

f ( Qn )

1 g
2

g
2

g
2

c1

E{Qn }

1 g
2
c2

Figura 8.3

Un intervallo di confidenza per la varianza 2 si ricava perci`o, al livello fiduciario


, determinando due quantili 1 , 2 che soddisfano la (8.24). La scelta non `e unica,
ma di solito si determinano quelli che escludono due code della distribuzione Chiquadrato, aventi la medesima area uguale a (1 )/2. Con tale scelta (v. Fig. 8.3)

8.2 Stima per intervalli

225

i due quantili sono tali che:


q1 =

1
;
2

q2 =

1+
2

(8.25)

e definiscono un intervallo fiduciario che, pur non essendo centrato sul valor medio
della distribuzione campionaria di Sn2 , la suddivide in due parti con uguale area
/2, a destra e a sinistra del valor medio il quale, come si `e visto nel 7.4, coincide
proprio con la varianza teorica della popolazione. La probabilit`a che 2 assuma
valori in questo intervallo `e uguale alla probabilit`a fiduciaria assegnata. La stima
intervallare al livello fiduciario , per la varianza di una popolazione distribuita con
legge normale, `e dunque:
n 1 2
n 1 2
Sn 2
Sn
2
1

(8.26)

con quantili dati dalla (8.25) e dove Sn2 `e una realizzazione della varianza campionaria
corretta (7.14).
In modo analogo si possono effettuare stime a una coda della varianza, tali da
soddisfare condizioni del tipo:

n 1 2
IP(Qn 1 ) = IP
S =
1 n

n 1 2
IP(Qn 2 ) = IP 2
S =
2 n
2

(8.27)

nelle quali 1 , 2 sono i quantili della Chi-quadrato per cui


q1 = 1 ;

q2 = ,

e tagliano unarea della distribuzione campionaria che `e uguale a 1 , rispettivamente a sinistra di 1 e a destra di 2 .
Caso di grandi campioni
Nel 2.3.7 si `e detto che per n >> 1 la distribuzione Chi-quadrato `e ben approssimata
dalla legge Normale con media n e varianza 2n. Di conseguenza, se il campione usato
per una stima intervallare della varianza ha numerosit`
a n elevata (almeno maggiore
di 30), la variabile aleatoria Qn ha una distribuzione prossima ad N (n, 2n), e la
variabile
(n 1)Sn2
n
Qn n
2

Zn =
=
(8.28)
2n
2n
`e prossima alla Normale standard. In tal caso, la stima intervallare di 2 al livello
fiduciario si pu`o effettuare imponendo che sia IP(|Zn | zq ) = , dove Zn `e dato
dalla posizione (8.28) e zq `e, al solito, il quantile della Normale standard di ordine
q = (1 + )/2 = q2 che soddisfa
erf (zq ) = /2.

226

STIME DI PARAMETRI

Se ricaviamo 2 dalla (8.28) e, tenuto conto che n >> 1, assegnamo un valore


unitario al rapporto (n 1)/n, si deduce allora che lintervallo di confidenza (8.26)
pu`o essere ben approssimato dal seguente:
S2
S2
rn
2
2
2
1+
1
zq
zq
n
n
rn

(8.260 )

che `e pi`
u comodo da calcolare perche richiede solo la determinazione di zq anziche
quella di 1 e 2 .
Esempio 8.12

Per stimare la varianza di un coefficiente di resistenza aerodinamica Cx , si effettuano


12 prove in una galleria del vento sul medesimo modello della struttura in esame. Dai
risultati delle prove si ricava che il valor medio empirico del coefficiente di resistenza
`e circa 0.3, con varianza campionaria Sn2 = 0.015. Si vuole determinare: 1) i limiti
fiduciari per la varianza teorica 2 (Cx ) del coefficiente di resistenza, al livello di
fiducia = 0.9 ; 2) il livello fiduciario con cui si pu`o affermare che 2 (Cx ) 0.03.
Teoricamente, non sarebbe possibile assumere per Cx un modello statistico normale,
perche N (, 2 ) `e definito sullinsieme dei numeri reali, mentre Cx > 0. Tuttavia, si
pu`o facilmente verificare che la curva gaussiana (2.29) con un valor medio X ' 0.3
e varianza di unordine di grandezza inferiore, ha valori trascurabili al di fuori di un
intervallo non negativo 0 < x < 0.6). Di conseguenza, il modello statistico normale
si pu`o ritenere compatibile con il nostro Cx e una stima intervallare di 2 (Cx ) si pu`o
effettuare applicando le precedenti formule (8.24)-(8.27).
1) Per una distribuzione Chi-quadrato con = n 1 = 11 gradi di libert`a, i quantili
calcolati con la (8.25) sono:
q1 =

1
= 0.05 ;
2

q2 =

1+
= 0.95
2

e la Tabella dei quantili q in Appendice fornisce: 1 = 4.57; 2 = 19.7. Il valore


empirico della varianza campionaria corretta `e:
12 2
Sn2 =
S = 0.01636
11 n
e applicando la (8.26) si ottiene, al livello fiduciario = 0.9, la seguente stima
intervallare della varianza teorica:
0.0091 =

11 0.01636
11 0.01636
2 (Cx )
= 0.0393.
19.7
4.57

2) per determinare il livello fiduciario per una stima a una coda tale che 2 (Cx )
0.03, usiamo la prima delle (8.27) ricercando il valore del quantile 1 che soddisfa
la condizione:
n 1 2
11 0.01636
Sn =
= 0.03 ,
1
1

8.2 Stima per intervalli

227

ossia: 1 = 5.998. Per = 11, la Tabella dei quantili fornisce i valori = 5.58
per q = 0.1, e = 7.58 per q = 0.25. Interpolando linearmente tra questi dati per
ottenere il valore di q corrispondente al quantile 5.998, ricaviamo:
q = 0.1 +

0.25 0.1
(5.998 5.58) ' 0.13
7.58 5.58

da cui = 1 q = 0.87 . Questo `e il livello fiduciario con cui si pu`o affermare che
2 (Cx ) 0.03.
Esempio 8.13

Da una popolazione di N = 300 elementi avente un carattere X distribuito con


legge normale N (, 2 = 150) si estraggono senza ripetizione n = 101 esemplari.
Si desidera effettuare, al livello fiduciario = 0.98, una stima intervallare per la
varianza del carattere X risultante nei 101 elementi del campione.
In questo problema la varianza teorica `e nota, e il suo valore `e da utilizzare per
effettuare una stima sulla varianza campionaria Sn2 . Si riscrive la (8.24) nella forma
seguente:

n 1 2
IP(1 Qn 2 ) = IP 1
Sn 2 =
2

!
2
2

2
= IP
1 Sn
2 = 0.98
n1
n1
e si ricavano dalla Tabella in Appendice i quantili della distribuzione Chi-quadrato
con = 100 gradi di libert`a, corrispondenti a
q1 =

1 0.98
= 0.01 ;
2

q2 =

1 + 0.98
= 0.99 ,
2

che valgono: 1 = 70.1 ; 2 = 136. Si deducono i seguenti limiti fiduciari per la


stima ottima della varianza campionaria:
105.15 =

150 70.1
150 136
Sn2
= 204.
100
100

Ricordando poi che il campione `e stato estratto senza ripetizione, questa statistica
`e legata alla varianza campionaria Sn2 dalla relazione (7.19):
N 1
n
299 101 2
Sn2 =

Sn2 =

S = 1.00663 Sn2 ,
N
n1
300 100 n
per cui la stima intervallare richiesta `e
105.84 Sn2 205.35 .

(8.29)

I limiti fiduciari per Sn2 sono molto vicini a quelli calcolati per Sn2 , perche la numerosit`a del campione `e superiore a 30.

228

STIME DI PARAMETRI

Per lo stesso motivo, `e anche possibile approssimare il risultato richiesto effettuando


una stima intervallare sulla variabile normale standard (8.28). Nel nostro caso, per
avere risultati coerenti con i precedenti non `e per`o lecito approssimare allunit`a il
rapporto (n 1)/n, perche il suo valore esatto `e stato usato nel ricavare la (8.29).
Risolvendo la posizione (8.28) rispetto a Sn2 ricaviamo il seguente intervallo di confidenza approssimato:

n
2
zq 2
Sn2 1 +
n
n1

n
2
zq 2
.
n
n1

Se sostituiamo zq = 2.33 risulta:


101.81 Sn2 201.17
e dividendo i limiti fiduciari per 1.00663, si ottiene la seguente approssimazione
dellintervallo di confidenza per Sn2 :
102.48 Sn2 202.50,
da confrontare con il risultato esatto (8.29) che `e stato ottenuto usando i coefficienti fiduciari della distribuzione Chi-quadrato.

8.3

Problemi risolti

8.1. La connessione a un sito Internet `e ogni volta accettata con probabilit`a , 0


1. Se X() `e la variabile aleatoria che rappresenta il numero di tentativi
necessari per avere il collegamento, qual`e il modello statistico da assumere per la
variabile Y () = X 1 ? In n giorni diversi si osserva il numero di tentativi che sono
stati necessari per la connessione, e se ne calcola la media campionaria n . Questa
statistica `e uno stimatore non distorto di E{Y } ?
Soluzione. Se X = k, k = 1, 2, . . . definisce il numero dordine della prima prova
in cui si `e verificato un successo, Yk = Xk 1 indica il numero dei fallimenti che
precedono il primo successo. Il modello statistico di Y `e quello della distribuzione
geometrica :
f (Y = k) = (1 )k ,

k = 0, 1, 2, . . .

che ha media

1
1
= 1.

Per il Secondo Principio delle prove bernoulliane, la distribuzione delle medie campionarie di X `e linverso della probabilit`a :
E{Y } =

E{n } = E

X1 + . . . + Xn
n

1
= E{Y } + 1 = E{X}.

8.3 Problemi risolti

229

Quindi n non `e uno stimatore corretto di E{Y }, ma lo `e di E{X}.


8.2. Consideriamo la funzione
f (x, ) = x + 1 /2

per 0 x 1

e nulla altrove, dipendente dal parametro reale .


a) Per quali valori di la funzione `e una densit`a di probabilit`a ?
b) Calcolare, in funzione di questi valori, la media della variabile aleatoria che ha
una densit`a di probabilit`a f (x, ).
c) Sia ora {Xk }, k = 1, . . . , n un campione di numerosit`
a n del carattere X. Definite
le due statistiche:

n
1
6X
Sn =

Xk ,
12 n k=1

n
1X
1
Tn = 12
Xk
,
n k=1
2

quale delle due `e uno stimatore non distorto di ?


Soluzione.
a) Lintegrale di f (x, ) vale 1 e non dipende da :
Z 1
0

x + 1

dx = + 1 = 1.
2
2
2

Quindi f (x, ) `e una densit`a per qualsiasi valore reale di .


b)

E{X} =

Z 1
0

"

x3 x2 x2
x x + 1
dx =
+

2
3
2
4

#1

=
0

+
.
2 12

c) Calcoliamo i valori medi delle due statistiche:


E{Sn } =

1
6
E
12 n

1
E
E{Tn } = 12
n

( n
X

Xk

k=1

( n
X

k=1

Xk

=
1

1
6
1
1

nE{X} =
6
+
12 n
12
2 12

1
1
= 12
nE{X}
n
2

35

12 2

1
= 12
+

2 12 2

= .

Lo stimatore corretto di `e Tn perche il suo valor medio coincide con il parametro


da stimare.
8.3. Da una popolazione di N = 1000 sbarre metalliche si estrae in blocco un
campione di n = 200 elementi. Stimare la lunghezza media delle sbarre e lo scarto
quadratico medio n della distribuzione campionaria delle medie, sapendo che la
lunghezza media del q
campione `e x = 21 cm e che la radice quadrata della varianza
P
campionaria `e Sn = n1 ni=1 (xi x
)2 = 0.5 cm.

230

STIME DI PARAMETRI

Soluzione.
Poiche la media campionaria `e una stima corretta del valor medio della popolazione,
= 21 cm.
si ha subito che
Il campione `e estratto senza ripetizione da N elementi, per cui la distribuzione
campionaria delle medie ha uno scarto quadratico medio che vale
s

n =
n

N n
N 1

e per calcolarlo bisogna stimare la varianza 2 incognita della popolazione. La stima


ottima della varianza `e
N 1
n
999

2 =

Sn2 =
0.25 ' 0.251
N
n1
5 199
e sostituendo la sua radice quadrata si ricava:
s

n =

200

1000 200
=
1000 1

0.251 4
' 0.0317 cm.
999

8.4. Da una popolazione di N = 3000 studenti universitari maschi si `e estratto un


campione di n = 100 elementi, i cui pesi sono raccolti nella seguente tabella:
pesi
[60, 65)
[65, 70)
[70, 75)
[75, 80)
[80, 85)
[85, 90)
[90, 95)

numero studenti
10
14
16
20
18
12
20

Stimare il peso medio di tutta la popolazione e lo scarto quadratico medio della


media nei due casi: a) di estrazione bernoulliana e b) di estrazione in blocco. (Si
assuma come valore del peso di ogni classe il valore centrale).
Soluzione. Per ognuna delle sette classi calcoliamo: i valori centrali, gli scarti rispetto
alla media e i loro quadrati. Ne risulta la seguente tabella:
i
[60, 65)
[65, 70)
[70, 75)
[75, 80)
[80, 85)
[85, 90)
[90, 95)

ni
10
14
16
20
18
12
20

xi
62.5
67.5
72.5
77.5
82.5
87.5
92.5

xi x
-14.9
-9.9
-4.9
0.1
5.1
10.1
15.1

(xi x)2
222.01
98.01
24.01
0.01
26.01
102.01
228.01

8.3 Problemi risolti

231

per completare la quale si `e gi`a utilizzato il primo risultato:


x=

1
(62.510+67.514+72.516+77.520+82.518+87.512+92.510) = 77.4 .
100

La stima ottima della varianza incognita della popolazione, effettuata con un campione estratto con ripetizione, `e

2 =

1
(222.01 10 + 98.01 14 + 24.01 16 + 0.01 20 +
99
+26.01 18 + 102.01 12 + 228.01 10) =

7949
99

Pertanto nel caso di estrazione bernoulliana (con ripetizione) lo scarto quadratico


medio della media vale

n = =
n

7949
' 0.896 .
9900

Nel caso di estrazione in blocco (senza ripetizione), la precedente stima della


varianza deve essere moltiplicata per il coefficiente correttivo (N 1)/N , che per`o
si pu`o trascurare perche 2999/3000 ' 1. Allora per estrazioni in blocco risulta:
s

n =
n

N n
=
N 1

7949

9900

2900
' 0.896 0.983 ' 0.880 .
2999

8.5. La durata di cinque valvole di una certa popolazione fornisce il campione:


{ 637, 632, 636, 637, 633 } ore.
Ricavare la stima corretta della vita media delle valvole e della sua varianza.
Soluzione:

2 =

637 + 636 + 637 + 633 + 632


= 635 ore
5
4+1+4+9+4
11
=
= 5.5 (ore)2 .
4
2

8.6. Sia X una variabile casuale normale di media e varianza 2 . Siano X1 , X2 ,


X3 le variabili casuali indipendenti descritte dalle tre determinazioni x1 , x2 , x3 di un
campione da essa estratto con ripetizione. Per stimare il parametro si considerano
3 e S3 definiti, rispettivamente, da:
i due stimatori X
3 = X1 + X2 + X3 , S3 = 1 X1 + 1 X2 + 3 X3 .
X
3
5
5
5
3 e S3 generano stime corrette di ? Perche ?
1) Gli stimatori X

232

STIME DI PARAMETRI

2) Confrontando le rispettive varianze, stabilire quale tra i due stimatori `e il pi`


u
efficiente.
Soluzione. 1) I valori medi delle due statistiche valgono:
3} =
E{X
E{S3 } =

E{X1 } + E{X2 } + E{X3 }


3
=
=
3
3
E{S1 } + E{S2 } + 3E{S3 }
5
=
=
5
5

e poiche sono uguali a , entrambe le statistiche generano stime corrette di .


3 e S3 valgono:
2) Tenuto conto che Xi sono indipendenti, le varianze di X
3} =
2 {X
2 {S3 } =

i
1h 2
1
2
(X1 ) + 2 (X2 ) + 2 (X3 ) = 3 2 =
9
9
3
i
1 h 2
11 2
2
2
(X1 ) + (X2 ) + 9 (X3 ) =

25
25

3 `e il pi`
3 ) < 2 (S3 ), ne segue che X
u efficiente .
e poiche 2 (X
8.7. Da una popolazione molto grande di sfere si estraggono n = 50 sfere il cui
peso medio `e x
= 195 g. Sapendo che la varianza delluniverso `e 2 = 156.25 g 2 ,
determinare lintervallo di confidenza per la stima della media al livello = 1 =
0.95.
Soluzione. La popolazione `e molto grande, e la numerosit`
a del campione `e maggiore
di 30. Qualunque sia il modello statistico della popolazione, si pu`o approssimare la
distribuzione campionaria delle medie con una Normale con media x = = 195 g.
e deviazione standard

n = =
n

156.25
= 3.125 ' 1.7677 g .
50

Lintervallo di confidenza I per la media `e tale che: 195 n z < < 195 + n z ,
dove z `e il coefficiente fiduciario per la variabile standardizzata Zn = (n )/n
al livello fiduciario = 0.95. Si determina z usando la Tabella di erf(z) :
erf(z ) =

= 0.475
2

z = 1.96.

e sostituendo si ricava:
1.95 1.7677 1.96 < < 1.95 + 1.7677 1.96

I = (191.53, 198.46) .

8.8. Le ripetute e numerose misurazioni di un certo angolo, effettuate mediante un


teodolite assai preciso, descrivono una variabile casuale normale, incentrata sulla
vera misura dellangolo e di scarto quadratico medio = 0.100 . Stimare, mediante

8.3 Problemi risolti

233

un intervallo di confidenza di livello 0.99, il valore incognito attraverso un campione


di 9 misure la cui media risulta essere x
= 4800 .
Soluzione. La popolazione ha legge normale con varianza nota, per cui la distribuzione campionaria delle medie `e una normale N (, 2 /n) per qualunque n,
ed `e descritta dalla variabile standardizzata
Zn =

= 30(48 ).
/ n

Il suo coefficiente fiduciario z al livello = 0.99 vale:


erf(z ) =

= 0.495
2

z = 2.58

per cui si ricava:


48

z
z
< < 48 +
30
30

I = (47.914, 48.086) .

8.9. Da una popolazione di 3000 studenti universitari si estrae un campione (senza


ripetizione) di 200 studenti. Sia x
= 170 cm laltezza media del campione e s2 =
2
20, 25 cm la varianza del campione. Determinare lintervallo di confidenza della
media al livello di fiducia del 98%.
Soluzione. La popolazione ha varianza teorica sconosciuta, per cui bisogna stimarla.
Il campione `e estratto in blocco da un numero elevato di elementi: la stima di 2 `e

2 =

n
200
s2 =
20.25 = 20.35176
n1
199

= 4.511.

La distribuzione campionaria delle medie ha quindi deviazione standard


s

n =

N n
= 4.511
n(N 1)

14
' 0.308.
2999

Al livello di fiducia = 1 = 0.98, la variabile standardizzata Zn = (170)/0.308


ha un coefficiente fiduciario z che vale:
erf(z ) =

= 0.49
2

z = 2.33

per cui si ricava:


170 0.308z < < 48 + 0.308z

I = (169.28, 170.72) .

8.10. Nel misurare il coefficiente di dilatazione lineare di un metallo, uno sperimentatore stima che la deviazione standard `e di 0.05 mm. Quanto deve essere grande il

234

STIME DI PARAMETRI

campione delle misure affinche egli abbia la fiducia del 99% che lerrore, nello stimare
il coefficiente medio, non sia superiore a 0.01 mm ?
Risposta. La variabile standardizzata per la distribuzione campionaria dei coefficienti medi n `e

n
n
Zn =
=
(n )
n
0.55
e il suo coefficiente fiduciario al livello = 0.99 (lo stesso dellesercizio VI.2) `e
z = 2.58.
Affinche lerrore n nella stima di sia minore o uguale a 0.01 mm, deve essere:
0.05
z = n 0.01
n

ossia

0.05 2.58
0.01

= (12.9)2 = 166.41

e quindi, arrotondando allunit`a per eccesso: n 167 .


8.11. Da una popolazione normalmente distribuita si estrae un campione di 10
anelli di diametro medio x
= 28.2 cm, con scarto quadratico medio del campione
pari a s = 5.29 cm. Determinare lintervallo di confidenza per la stima del diametro
medio della popolazione con livello di fiducia = 1 = 0.95.
Soluzione. E stato estratto (si sottintende: con ripetizione) un piccolo campione
(n < 30) da una popolazione normale con varianza sconosciuta. Si usa quindi la
statistica

(
x ) n
n
Tn =
= (28.2 )

Sn
Sn
in cui

r
1
s
Sn
n
5.29
= s
=
= 1.763 cm.
=
n
n
n1
3
n1

Lintervallo richiesto `e
28.2 1.763 t < < 28.2 + 1.763 t ,
dove t `e il quantile di ordine q = (1+)/2 della distribuzione t-Student con n1 = 9
gradi di libert`a.
Al livello di fiducia = 0.95, si ha: q = 0.975 ; t = 2.262 e sostituendo si ottiene
lintervallo fiduciario:
I = (28.2 1.763 2.262, 28.2 + 1.763 2.262) ' (24.21, 32.19) cm.
8.12. Vengono effettuate in tempi diversi 20 misurazioni della concentrazione di un
certo elemento in un materiale, e si osserva una media n = 1.23 e una varianza
corretta Sn2 = 0.4. Nellipotesi che questa concentrazione abbia un modello statistico
normale con parametri sconosciuti, determinare lintervallo fiduciario al livello 0.95

8.3 Problemi risolti

235

per la sua media e la sua varianza. Quale sarebbe invece lintervallo fiduciario per
la media, se si supponesse che il modello normale avesse varianza nota 2 = 0.4 ?
Soluzione. Se la popolazione normale ha varianza sconosciuta, la distribuzione campionaria delle medie ha legge t-Student con n 1 = 19 gradi di libert`a. In una stima
intervallare della media si ha:
Sn
Sn
n tq < < n + tq
n
n
con tq = quantile di ordine q = (1 + )/2 = 0.975 della t-Student con 19 gradi di
libert`a, che vale tq = 2.093. Sostituendo si ottiene:
r

1.23

0.4
2.093 < < 1.23 +
20

0.4
2.093
20

I ' (0.934, 1.526) .

La distribuzione campionaria delle varianze ha legge 2 con 19 gradi di libert`a, e la


stima intervallare della varianza sconosciuta della popolazione `e
n 1 2
n 1 2
Sn < 2 <
Sn
2
1
dove 2 `e il quantile di ordine q = (1 + )/2 = 0.975, e 1 `e il quantile di ordine
q = (1 )/2 = 0.025 della legge 219 .
Dalle Tavole risulta: 1 0.025 = 8.91, 2 0.975 = 32.9 e sostituendo:
19
19
< 2 <
32.9
8.91

0.231 < 2 < 0.853 .

Se il modello normale avesse varianza nota 2 = 0.4, si dovrebbe assumere una distribuzione
campionaria delle medie con legge normale e deviazione standard n =

/ n = 0.02. La stima intervallare della media sarebbe

1.23 0.02 z < < 1.23 + 0.02 z


dove: erf(z ) = /2 = 0.475, ovvero: z = 1.96. Sostituendo si ottiene:
0.953 < < 1.507 .
8.13. In 10 prove su strada un motore di autoveicolo ha consumato in media 12.75
litri di carburante per 100 Km. e la varianza campionaria `e risultata Sn2 = 3.5.
Nellipotesi che la distribuzione dei consumi segua una legge normale, stimare al
livello fiduciario del 99% il massimo della media dei consumi di quel motore.
Soluzione. Si tratta di determinare un intervallo di confidenza unilaterale inferiore
per la media di una popolazione normale con varianza incognita. Questo intervallo
di confidenza `e
Sn
< < n + t0.99
n

236

dove

STIME DI PARAMETRI
r
Sn
1
n
=
S2 =
n
n
n1 n

3.5
' 0.6236
9

e t0.99 `e il quantile di ordine = 0.99 della distribuzione t-Student con n 1 = 9


gradi di libert`a.
Dalle Tavole risulta: t0.99 = 2.821, e sostituendo si ricava la stima:
< 12.75 + 0.6236 2.821 ' 14.51 litri .
8.14. Si esamina un campione di 100 pile prodotte dalla ditta A e un secondo
campione di 150 pile messe in commercio dalla ditta B. La media campionaria della
tensione in uscita delle pile prodotte dalla ditta A risulta A = 12.2 Volt; quella
della ditta B `e B = 11.7 Volt. Si suppone inoltre che i due campioni siano stati
prelevati da popolazioni distribuite normalmente e con uguali varianze 2 = 0.12.
Determinare, al livello di fiducia del 90%, lintervallo di confidenza per la differenza
tra le tensioni medie delle pile prodotte dalle due ditte.
Soluzione. La distribuzione campionaria della differenza = A B tra le medie
ha legge normale, con media = 12.2 11.7 = 0.5 Volts e varianza
2 =

2
A
2
0.12 0.12
+ B =
+
= 0.002 (Volt)2 .
nA nB
100
150

Il valor medio di ha la seguente stima intervallare:


z < < + z ,
con z tale che erf(z ) = /2 = 0.45. Dalle Tavole di erf(z) si ricava: z = 1.645 e
sostituendo:

0.5 0.002 1.645 < < 0.5 0.002 1.645


I ' (0.426, 0.573) Volts .
8.15. Un campione di n = 16 elementi di una popolazione con legge normale avente
media e varianza 2 incognite, ha mostrato una media campionaria x
n = 68 ed
una varianza campionaria corretta s2n = 9.
a) Determinare lintervallo di confidenza per la stima della media al livello di
confidenza del 95%.
b) Calcolare la probabilit`a fiduciaria con cui si pu`o affermare che `e compreso
nellintervallo 68 1.31475.
Soluzione.
a) Si dispone di un piccolo campione, estratto da una popolazione normale con
varianza sconosciuta. Al livello = 0.95, la stima intervallare di `e la seguente:
sn
sn
+ tq
x
tq < < x
n
n

8.3 Problemi risolti

237

in cui tq `e il quantile di ordine q = (1 + )/2 = 0.975 della distribuzione t-Student


con 16 1 = 15 gradi di libert`a, e vale: t0.975 = 2.131. Sostituendo si ricava:
68

3
3
2.131 < < 68 + 2.131
4
4

I ' (66.40, 69.60) .

b) Se si vuole affermare che:


3
sn
|
x | = tq = tq = 1.31475,
n
4
allora deve essere: tq = 1.31475 4/3 = 1.753. Nella distribuzione t-Student con 15
gradi di libert`a, questo `e il valore del quantile di ordine
q=

1+
= 0.95
2

da cui:

= 0.90 .

8.16. Un campione di n = 25 elementi estratto da una popolazione con legge


normale ha una media campionaria n = 10 e varianza campionaria corretta Sn2 = 2.
Determinare gli intervalli di confidenza per la stima della media e della varianza
2 della popolazione, al livello fiduciario del 95%.
Soluzione. La distribuzione campionaria delle medie ha legge t-Student con 24 gradi
di libert`a. Al livello = 0.95, la stima intervallare per `e
Sn
Sn
n tq < < n + tq
n
n
dove tq `e il quantile di ordine q = (1 + )/2 = 0.975 della t-Student con 24 gradi di
libert`a, che vale t0.975 = 2.064. Sostituendo si trova:

2
2
10
2.064 < < 10 +
2.064

I ' (9.42, 10.58) .


5
5
La distribuzione campionaria delle varianze ha legge 2 sempre con 24 gradi di
libert`a, e la stima intervallare per 2 `e:
24 2
24 2
Sn < 2 <
S .
2
1 n
Se = 0.95, 1 e 2 sono rispettivamente i quantili di ordine q1 = 0.025 e q2 = 0.975
della distribuzione 2 , e valgono: 1 = 12.4, 2 = 39.4. Sostituendo si ricava:
24
24
2 < 2 <
2
39.4
12.4

I( 2 ) ' (1.22, 3.87) .

8.17. Da una popolazione normale con varianza sconosciuta si estrae un campione


di 9 elementi che ha una media xn = 100 e varianza campionaria corretta Sn2 = 0, 65.

238

STIME DI PARAMETRI

Determinare la probabilit`a fiduciaria con cui si pu`o affermare che la media della
popolazione `e compresa in un intervallo di estremi 100 0, 5.
Soluzione. La probabilit`a si definisce come segue:

Sn
= IP(|Tn | tq ) = IP |xn | = tq 0.5
n

dove tq `e il coefficiente fiduciario per una variabile Tn che ha legge t-Student con 8
gradi di libert`a. Esso deve soddisfare la condizione
r

tq 0.5

9
' 1.861,
0.65

e dalla tavola della distribuzione t-Student con = 8 si ricava che il quantile che
soddisfa tale condizione con il segno di uguaglianza vale q = 0.95. Si ricava perci`o
q

1+
= 0.95
2

= 0.9 .

8.18. Si estrae un campione da una popolazione il cui carattere X ha media incognita e varianza 2 = 9. Qual`e la numerosit`
a minima che deve avere il campione per
poter affermare, con probabilit`a almeno del 90%, che la media campionaria si scosta
per non pi`
u di 2 da quella incognita di X ?
Risposta. La probabilit`a richiesta si calcola imponendo:

z = z
n

9
2
n

dove z , coefficiente fiduciario della variabile standardizzata Zn = (


x )/n , `e tale
che erf(z ) = /2 = 0.45.
Dalla Tabella di erf(z) risulta: z = 1.65 e quindi, sostituendo e arrotondando
allunit`a per eccesso, si ricava:
3
1.65 2
n

3
n 1.65
2

= 6.125 ' 7 .

TEST PARAMETRICI DI
IPOTESI STATISTICHE
9.4

Principi generali di un test statistico

Si chiama ipotesi statistica qualsiasi ipotesi fatta sulla forma o sulle propriet`a della
distribuzione probabilistica osservata in un esperimento che coinvolge una variabile
aleatoria.
Uno degli scopi fondamentali della Statistica Matematica consiste nella definizione
dei metodi per verificare la validit`
a di ipotesi fatte riguardo a questa variabile aleatoria, sulla base sia di considerazioni teoriche, sia della analisi dei dati osservati in un
campione.
Lipotesi formulata su un generico fenomeno aleatorio `e usualmente chiamata ipotesi
nulla, e indicata con H0 . Possiamo suddividere le ipotesi statistiche in due grandi
categorie:
Ipotesi parametriche, che si riferiscono a certi parametri della distribuzione
teorica di una o pi`
u popolazioni, la quale si assume gi`a definita nella famiglia
delle funzioni di distribuzione FX (x) compatibili con il modello statistico adottato per ciascuna popolazione. In generale, una ipotesi parametrica `e specificata da una ipotesi nulla del tipo:
H0 :

(9.28)

per un parametro incognito (eventualmente multidimensionale) che si assume


appartenente ad un determinato sottoinsieme 0 del dominio compatibile
con il modello statistico. Il test ha come obiettivo la verifica della validit`
a
della ipotesi (9.28).
Ipotesi non parametriche, fatte per esempio sulla forma o sulla natura
stessa della funzione di distribuzione FX (x) del carattere aleatorio da studiare, oppure riguardanti propriet`a aleatorie congiunte di pi`
u caratteri delle
medesima popolazione, oppure ancora relativi a popolazioni differenti.
239

240

TEST PARAMETRICI

Una ipotesi non parametrica `e specificata da una ipotesi nulla del tipo:
H0 :

FX (x) F0 F

(9.29)

in cui F0 `e una classe appropriata di funzioni appartenente alla famiglia F delle


funzioni di distribuzione compatibili con il modello statistico che si assume contenga la vera funzione di distribuzione FX (x) carattere X (eventualmente multidimensionale) che esaminiamo con il campione.
Le ipotesi nulle del tipo (9.28) o (9.29) si chiamano semplici se 0 oppure F0 contengono solo un elemento; si dicono composte in caso contrario.
Si chiama test statistico la regola che ci permette di decidere se, e in quale misura,
accettare o respingere una ipotesi nulla del tipo (9.1) o (9.2), esaminando le osservazioni fatte su una statistica campionaria.
Limpostazione di un test statistico si effettua nel modo seguente.
1. Si definisce una legge probabilistica per il carattere aleatorio X, compatibile
con il modello statistico della popolazione su cui si effettua il test.
2. Si definisce lipotesi nulla H0 da verificare.
3. Si definisce una ipotesi alternativa H1 che `e una ipotesi da considerare valida
quando si rifiuta H0 , e nei due casi sopra esaminati `e rispettivamente del tipo:
H1 :

con 1 = \ 0

(9.10 )

H1 :

FX (x) F1 con F1 = F \ F0 .

(9.20 )

4. Si definisce una statistica campionaria Gn (X1 , . . . , Xn ) con distribuzione nota


quando lipotesi nulla H0 `e vera.
5. Si suddivide lo spazio G delle possibili osservazioni campionarie in due insiemi
disgiunti: linsieme A detto regione di accettazione di H0 , e il suo complementare C = G \ A detto regione di rifiuto o regione critica.
6. Si assume come criterio decisionale la regola di accettare lipotesi nulla H0 se
la realizzazione osservata della statistica Gn appartiene ad A, e di rifiutarla se
appartiene alla regione critica.
La decisione di accettare o rifiutare lipotesi nulla in seguito alle osservazioni del
campione `e sempre affetta da due tipi di errore, che sono definiti come segue.
Lerrore di prima specie `e quello che commettiamo se rigettiamo lipotesi nulla
H0 quando essa `e vera:
= IP(H1 |H0 ) IP(Gn C | H0 vera).

(9.30)

Lerrore di seconda specie `e quello che commettiamo se accettiamo H0 mentre


invece `e vera lipotesi alternativa:
= IP(H0 |H1 ) IP(Gn A | H1 vera).

(9.31)

9.5 Test parametrici

241

Il livello di significativit`
a del test `e la massima probabilit`a con la quale siamo
disposti a rischiare di commettere un errore di prima specie.
Sulla base della ipotesi fatta sulla legge della distribuzione campionaria, possiamo
definire la probabilit`a di commettere un errore di prima specie, e quindi riconoscere
il livello di significativit`a del test ovvero, in modo equivalente, il livello di fiducia
del test che `e specificato dalla quantit`
a 1 .
Le probabilit`a , di errore variano, ovviamente, al variare degli insiemi A e C
con cui abbiamo scelto la regione di accettazione e quella di rifiuto. Daltra parte,
sono possibili infinite suddivisioni dello spazio delle osservazioni campionarie, e di
regola si opera in modo da scegliere la regione di accettazione A in modo da rendere
piccolo lerrore di prima specie (solitamente, = 0.05 oppure 0.01). Tuttavia, mantenendo fissa la numerosit`a n dei campioni, al decrescere di cresce la probabilit`a
dellerrore di seconda specie. Fissato , si deve pertanto ricercare la suddivisione
dello spazio G che rende minimo lerrore .
Si definisce potenza di un test la quantit`
a W = 1 [0, 1] che misura la
probabilit`a di respingere lipotesi nulla H0 quando `e vera lipotesi alternativa H1 .
La determinazione della potenza di un test `e spesso difficile, perche per il suo calcolo
esplicito occorre conoscere anche la distribuzione campionaria di Gn quando `e vera
lipotesi alternativa H1 la quale, per giunta, spesso non `e semplice ma composta.
Nei casi in cui ci`o `e possibile, il test (se esiste) in cui fissato lerrore `e minimo
si chiama il test pi`
u potente tra quelli con assegnato.
A sua volta, la potenza di un test con assegnato cresce al crescere della numerosit`
a
dei campioni, che `e comunque limitata per motivi di ordine pratico. Fissato anche
n, se lipotesi alternativa `e composta, il grafico della potenza W (gn ) in funzione dei
possibili valori empirici gn che pu`o assumere la statistica campionaria Gn si chiama
curva di potenza del test. Se invece di riportare la potenza W (gn ) si riporta lerrore
di seconda specie , si ha la curva caratteristica operativa (gn ) del test.
In questo Capitolo tratteremo pi`
u in dettaglio alcune tecniche in uso per effettuare
la verifica di ipotesi parametriche per le quali, come vedremo, esiste sotto certe
condizioni un criterio per la definizione di un test di massima potenza. Nel Capitolo
seguente tratteremo infine i metodi pi`
u comuni per effettuare test di ipotesi non
parametriche.

9.5

Test parametrici

In un test statistico sul parametro di una distribuzione FX (x; ) compatibile con


il modello statistico della popolazione, lipotesi nulla e quella alternativa sono del
tipo (9.28), (9.1). Tre esempi molto particolari sono i seguenti. Se si assume:
H0 : = 0 ;

H1 : = 1 ,

(9.32)

si imposta un test fra due ipotesi semplici, perche queste sono definite su due insiemi
0 e 1 costituiti entrambi da un solo elemento. Se invece si assume:
H0 : = 0 ;

H1 : > 0

oppure 6= 0 ,

(9.33)

242

TEST PARAMETRICI

lipotesi alternativa `e composta, perche 1 = (0 , +) oppure 1 = (, 0 )


(0 , +). E ancora: se per un modello Normale-2 N (1 , 2 ) si fa lipotesi nulla:
H0 :

1 = 10 , 2 = 20 ;

0 IR2 = {10 , 20 },

questa `e una ipotesi semplice per i due parametri incogniti (media e varianza); se
invece lipotesi nulla `e H0 : 1 = 10 e si lascia la varianza indeterminata, allora
H0 `e composta.
Nei test parametrici anche le ipotesi alternative, come quelle nulle, sono sempre
ristrette alla classe delle distribuzioni FX (x; ) ammissibili dal modello statistico,
le quali si suppone abbiano legge nota anche se dipendente da certi parametri da
stimare. Questa circostanza consente almeno in certi casi in cui le ipotesi alternative sono soggette ad opportune restrizioni di valutare anche i rischi di seconda
specie e quindi la potenza del test parametrico effettuato.
Accettato un livello di significativit`a , per riconoscere il test parametrico di massima potenza tra quelli ammissibili occorre definire la regione di rifiuto C in modo
da avere un rischio di seconda specie che sia il minore possibile. La soluzione di
questo problema esiste sempre nel caso del test parametrico tra ipotesi semplici che
consideriamo nel paragrafo che segue.

9.6

Test di Neyman-Pearson tra ipotesi semplici

Assumiamo le due ipotesi semplici (9.32) per il parametro IR di una distribuzione


FX (x, ) assolutamente continua con densit`a fX (x, ). La regione critica per il
test pi`
u potente tra quelli che hanno un prefissato livello di significativit`a si pu`o
determinare applicando un Teorema che si pu`o cos enunciare.
TEOREMA (di Neyman-Pearson, 1933)
Sia Gn (X) una statistica campionaria, con valore empirico noto attraverso le n
osservazioni (x1 , . . . , xn ) = x su un campione X estratto da una popolazione con
funzione di distribuzione assolutamente continua. Scelto arbitrariamente un reale
positivo c, il test pi`
u potente, tra quelli per cui si ha = IP(Gn (X) C |H0 ), esiste
ed `e quello per cui la regione critica C `e linsieme

L(0 , x)
C = x : `(x) =
<c
L(1 , x)

c IR+

dove `(x) `e il rapporto di verosimiglianza tra le funzioni (8.6), calcolate per = 0


e = 1 .
Ad ogni c > 0 corrisponde dunque in questo test una partizione ottimale dello spazio
campionario. Reciprocamente, scelto un livello di significativit`a , la condizione
(9.6) definisce la regione critica C che rende minimo lerrore di seconda specie .
Illustriamo questo Teorema con lesempio che segue.

9.6 Test di Neyman-Pearson tra ipotesi semplici

243

Esempio 9.1

Assumiamo un modello statistico Normale-1 N (, 2 ) con varianza nota e media da


determinare, scegliendo tra lipotesi nulla che essa valga 0 = 0 e lipotesi alternativa
che il suo valore sia 1 = 2. Nelle due ipotesi che ci interessano, le funzioni di
verosimiglianza per le realizzazioni di un campione di numerosit`
a n sotto lipotesi
nulla e quella alternativa, sono (cfr. 8.1.2):
"

n
Y

"

n
X
1
x2
1
x2i
exp i2 =
L(0 ; x) =
.
exp

2
2 2
(2 2 )n/2
i=1 2
i=1
#
#
"
" n
n
Y
X (xi 2)2
1
(xi 2)2
1
exp
L(1 ; x) =
=
exp
2 2
2 2
(2 2 )n/2
i=1 2
i=1

e il rapporto di verosimiglianza vale:


"

`(x) =

"

1 X 2
x
exp 2
2 i i

1
exp 2
2

x2i

+ 4n 4

!# =

xi

exp

2n
= exp (n 1) ,
2nn
2

2n
exp 2
2

dove `e stata introdotta la realizzazione n della statistica campionaria da usare nel


test, che `e la media campionaria (7.2).
Secondo il teorema di Neyman-Pearson, per ogni arbitrario c > 0 il test pi`
u potente
`e quello per cui `(x) < c. Nel nostro caso, ci`o comporta che nella distribuzione campionaria delle medie la regione ottimale di rifiuto `e quella definita dalla condizione:
n > 1

2
log c h.
2n

(9.34)

Scelto ora un rischio di prima specie , si determina il valore di h tenendo conto che
la distribuzione campionaria delle medie ha legge normale N (n , 2 /n). Infatti, se
H0 `e vera, il valor medio di questa distribuzione `e nullo e dunque:

!
!
Z
n2n
1
h n
n
= IP(n > h |H0 ) =
exp 2 dn = erf
. (9.35)
2
2

2 h
Una volta valutato h, tenuto conto che se `e vera H1 la distribuzione campionaria ha
media E{n } = 2, si determina anche lerrore di seconda specie :
= IP(n h |H1 ) =

!
"
Z h
#
n
n(n 2)2
1
(h 2) n

=
exp
dn = + erf
, (9.36)
2 2
2

244

TEST PARAMETRICI

H 0 : N ( q 0 ,1)

H 1 : N ( q1 ,1)

0
1
A : accetto H 0

mn

C : rifiuto H 0

Figura 9.1 - Test di Neyman-Pearson per ipotesi semplici

dal quale si ricava la potenza W = (1 ) del test.


Scelto invece un arbitrario c > 0, la (9.34) definisce la regione di rifiuto per il test
pi`
u potente tra quelli che hanno rischi di prima e seconda specie definiti dalle (9.35)
e (9.36).
La Fig. 9.1 illustra le distribuzioni campionarie delle medie n per le due ipotesi
semplici, nel caso in cui la varianza nota del modello statistico vale 2 = 16, e
si effettua un test tra le ipotesi semplici sopra precisate, al livello di significativit`a
= 0.1, disponendo di un campione di numerosit`
a n = 16. Dalla (9.35) si ha subito:
erf(h) = 0.4 da cui si ricava, usando la Tabella in Appendice, che h
= 1.3. A questo
valore di h corrisponde, ancora per la (9.34), un valore di c uguale a

2n(1 h)
c = exp
= e0.57 ' 0.565 .
2
Dalla (9.36) si ricava allora:
= 0.5 + erf (0.7) ' 0.24
e la potenza del test vale W ' 0.76.
Le conclusioni da trarre sono allora le seguenti. Accettato un livello di significativit`a
= 0.01,
se la media empirica osservata da un campione di 16 elementi `e minore di n =
h = 1.3, si accetta lipotesi nulla dichiarando che la media teorica della distribuzione
normale nel modello N (, 16) `e = 0;
se la media empirica `e maggiore di n = 1.3, si rifiuta lipotesi nulla e si accetta
lipotesi alternativa, dichiarando che = 2.
Per definire la regione critica C, si pu`o anche fissare un valore positivo di c, per
esempio c = 1. Con tale scelta, in base al Teorema di Neyman-Pearson la regione
ottimale di rifiuto definita dalla (9.34) `e n > h = 1, per un test con rischi di prima

9.7 Test parametrici con ipotesi composte

245

e seconda specie che valgono:


= IP(n > 1 |H0 ) = 1/2 erf(1) ' 0.1587
= P (n < 1 |H1 ) = 1/2 + erf(1) =
e in tal caso risultano uguali. Sebbene la potenza di questo test cresca al valore
W = 0.8413, bisogna tener conto che essa `e determinata per linsieme dei test in cui
si accetta un rischio di prima specie = 0.1587 che `e ben maggiore del precedente.
Si osservi infatti, pi`
u in generale, che:
al diminuire di , aumenta h e quindi si restringe la regione di rifiuto; in tal caso
per`o cresce e quindi diminuisce la potenza del test;
fissato un h < 2, al crescere della grandezza n del campione decrescono sia che
(infatti largomento della funzione degli errori nella (9.36) `e negativo). Ne consegue
che, una volta definito il livello di significativit`a , al crescere della grandezza del
campione aumenta la potenza del test.

9.7

Test parametrici con ipotesi composte

Un test con entrambe le ipotesi semplici, del tipo che abbiamo appena studiato,
si incontra raramente nelle applicazioni. E invece assai pi`
u frequente il caso in
cui entrambe le ipotesi H0 , H1 (o almeno una di esse) sono composte. In questo
paragrafo tratteremo questi tipi di test parametrici, assumendo dapprima che solo
lipotesi alternativa sia composta.
Data una ipotesi nulla del tipo (9.28), le ipotesi alternative che si usano pi`
u spesso
sono:
1) H1 : 6= 0
2) H1 : > 0
3) H1 : < 0 .
(9.37)
Nel caso 1) il test si chiama bidirezionale; nel caso 2) `e unidirezionale superiore
o concon coda a destra, e nel caso 3) `e unidirezionale inferiore o con coda a
sinistra.
C`e una stretta relazione tra un test con ipotesi di questo tipo e la determinazione di
un intervallo di confidenza per , gi`a trattato nel Capitolo 8. Infatti, consideriamo
un test bidirezionale per H0 al livello di significativit`a . Una volta definita la distribuzione campionaria della statistica Gn , da usare quando `e vera lipotesi nulla su
, una regione A di accettazione di H0 `e un intervallo delle realizzazioni campionarie
contenente gn = 0 (v. Fig. 9.2). Larea sottesa dalla distribuzione campionaria in
questo intervallo deve essere uguale ad 1 , perch`e `e il rischio di prima specie
definito dalla (9.30) e misura la somma delle due aree della distribuzione che sono
esterne alla regione di accettazione. Dunque, la regione di accettazione del test bidirezionale al livello di significativit`a `e un intervallo I soddisfacente la condizione:
IP(Gn A |H0 vera) = IP(gn I ) = 1 ,

(9.38)

ossia `e un intervallo di confidenza per una stima di al livello fiduciario = 1 .


Questo intervallo non `e unico: esiste, in generale, una famiglia I, = {I } di insiemi

246

TEST PARAMETRICI

H0

H1

H1
H1

1 -a= g
b
C

q0
A = Ig

gn

Figura 9.2

che soddisfano la (9.11). Il test pi`


u potente (se esiste) `e quello in cui la regione di
accettazione A dellipotesi nulla `e lintervallo I I, che ha ampiezza minore.
Questo risultato vale anche per i test unidirezionali definiti dalle ipotesi alternative 2)
e 3) nella (9.37), ai quali corrispondono intervalli di confidenza aperti rispettivamente
a sinistra o a destra.
Per la valutazione dellerrore di seconda specie del test, che `e definito dalla (9.31),
occorre tenere presente che nelle ipotesi alternative composte si ammette che il
parametro possa assumere qualsiasi altro valore 1 IR 0 , e quindi a ciascuna
realizzazione campionaria gn = 1 corrisponde un differente errore di seconda specie.
Esso `e dunque una funzione (1 ) del valore empirico 1 osservato nella statistica
campionaria, e la potenza del test `e la funzione W (1 ) = 1 (1 ).
Stabilito il rischio di prima specie che si `e disposti ad accettare, la valutazione
esplicita della regione di accettazione di H0 si effettua applicando i metodi per la
determinazione degli intervalli di confidenza che sono stati esposti nel Capitolo 8,
e per tale motivo dipende dal parametro su cui si deve effettuare il test, dalla numerosit`a del campione di cui disponiamo, e dal modello statistico della popolazione
da cui tale campione `e stato estratto.

9.7.1

Test sul valor medio per il modello normale

Consideriamo in dettaglio il caso di pi`


u frequente interesse nelle applicazioni: quello
in cui la popolazione ha un modello statistico normale e quindi le distribuzioni
campionarie sono anche esse normali con media 0 = 0 se H0 `e vera, oppure 1 =
1 IR0 se `e vera lipotesi alternativa H1 . Per procedere nel test occorre anzitutto
distinguere il caso in cui la varianza della popolazione `e nota (in cui si applicheranno
i metodi del 8.2.2.1) da quello in cui `e incognita (ed `e quindi necessario usare le
distribuzioni t-Student come spiegato nel 8.2.2.2).
9.4.1.1 Modello Normale-1: popolazione con varianza 2 nota

9.7 Test parametrici con ipotesi composte

247

In tal caso le distribuzioni campionarie normali associate alle ipotesi H0 ed H1 hanno


uguale varianza n2 = 2 /n e non devono essere stimate. Per qualunque numerosit`
a
n del campione, si pu`o determinare la regione di accettazione del test e lerrore di
seconda specie usando la Tabella di erf(z) come segue.
Test bidirezionale. Il test bidirezionale pi`
u potente per il valor medio, al livello
di significativit`a , `e quello in cui si assume come regione di accettazione di H0
lintervallo di confidenza simmetrico rispetto a 0 , del tipo (8.11) con = 1 :
A:

0 z1/2 n 0 + z1/2
n
n

(9.39)

dove z1/2 `e il coefficiente fiduciario per la variabile standardizzata


Zn =

n 0
,
/ n

(9.40)

ovvero il suo quantile di ordine 1 /2 che `e legato al rischio di prima specie dalla
condizione (8.10) che qui si riscrive nella forma:
1 = IP(|Zn | z1/2 ) = 2erf(z1/2 ).
Nel test bilaterale lipotesi nulla H0 `e da accettare se il valore empirico della variabile
Zn definita dalla (9.40), calcolato attraverso le osservazioni del campione, appartiene
allintervallo (9.39). In caso contrario, si conclude che i dati forniti dal campione
non sono compatibili, al livello di significativit`a , con lipotesi H0 .
Il rischio di seconda specie si determina come segue:
Z

"

0 +n z1/2
1
(n 1 )2
dn
(1 ) = IP(n A|H1 N (1 , n )) =
exp
2n2
n 2 0 n z1/2

0 1
1 0
= erf z1/2 +
+ erf z1/2 +
.
(9.41)
n
n

Se introduciamo la nuova variabile standardizzata


Zn0 =

1 0
n 0 n 1

=
,
n
n
n

(9.42)

ossia la differenza tra le normali standard associate rispettivamente alla ipotesi nulla
H0 e alla ipotesi alternativa H1 , il rischio di seconda specie si pu`o pi`
u sinteticamente
riscrivere in funzione di zn0 nella forma:
(zn0 ) = erf(z1/2 zn0 ) + erf(z1/2 + zn0 ).
Ne deriva una curva caratteristica operativa (mostrata qualitativamente nel grafico
con linea continua di Fig. 9.3) che tende a zero per 1 , `e monotona crescente
per < 1 < 0 (ossia per zn0 < 0); vale (0 ) = 1 per 1 = 0 (ossia per
zn0 = 0); ed `e monotona decrescente per 0 < 1 < + (zn0 > 0).

248

TEST PARAMETRICI

1- a

H1 : m 1 m 0
0.5

H1 : m 1 < m 0

H1 : m 1 > m 0

m0

- z 1- a

m1

z 1- a

z'n

Figura 9.3 - Curve caratteristiche operative per tests sul valor medio

Test unidirezionale superiore. La regione di accettazione in questo test, per il


quale lipotesi alternativa `e H1 : = 1 > 0 , `e lintervallo aperto a sinistra:
A:

< n 0 + z1
n

dove z1 `e il quantile di ordine 1 della normale standard (9.13), che al livello


di significativit`a soddisfa la condizione
1 = IP(Zn z1 ) =

1
+ erf(z1 ), )
2

(9.43)

mentre il rischio di seconda specie vale


Z

"

0 +n z1
1
(n 1 )2
dn
(1 ) = IP(n A|H1 N (1 , n )) =
exp
2n2
n 2

0 + n z1 1
1
0 1
= erf
erf() = + erf z1 +
.(9.44)
n
2
n

Espresso in funzione della differenza standardizzata (9.15), esso vale


(zn0 ) =

1
+ erf(z1 zn0 )
2

(9.170 )

ed `e una funzione monotona decrescente di 1 e zn0 : tende a zero per zn0 +; `e


uguale a 0.5 per zn0 = z1 ; `e ancora uguale ad 1 per 1 = 0 (ossia per zn0 = 0)
e teoricamente tende allunit`a per 1 , zn0 (v. Fig. 9.3).
Test unidirezionale inferiore. La regione di accettazione in questo test, per il quale
lipotesi alternativa `e H1 : = 1 < 0 , `e lintervallo aperto a destra:
A:

0 z1 < +
n

9.7 Test parametrici con ipotesi composte

249

dove z1 `e ancora il quantile di ordine 1 della normale standard (9.40) il quale,


fissato il rischio di prima specie , `e tale da soddisfare la condizione
1 = IP(Zn z1 ) =

1
+ erf(z1 ).
2

Il rischio di seconda specie vale


Z

"

+
1
(n 1 )2
(1 ) = IP(n A|H1 N (1 , n )) =
exp
dn
2n2
n 2 0 n z1

0 n z1 1
1
0 1
= erf(+) erf
= erf z1 +
(9.45)
n
2
n

o anche, se espresso in funzione della differenza standardizzata (9.42):


(zn0 ) =

1
+ erf(z1 + zn0 ).
2

(9.180 )

Lerrore di seconda specie `e in tal caso una funzione monotona crescente, simmetrica
della (9.17) rispetto allasse zn0 = 0: tende teoricamente a zero per zn0 ; `e
uguale a 0.5 per zn0 = z1 , vale ancora 1 per 1 = 0 (ossia per zn0 = 0) e
tende allunit`a per 1 , zn0 +.
La Fig. 9.3 mostra che a parit`a di ed n i rischi di seconda specie dei test unilaterali (indicati con linea tratteggiata) sono minori di quello del corrispondente test
bilaterale, in tutto lintervallo di 1 definito dalla particolare ipotesi alternativa che
si considera. Ne segue che, sempre a parit`a di e n, un test unilaterale `e pi`
u potente
di un test bilaterale.
Esistono specifici diagrammi di curve caratteristiche (si veda ad esempio il testo [3]
citato in Bibliografia) in cui il rischio di seconda specie `e riportato in funzione di
|0 1 |/ al variare di e n. I diagrammi mostrano, tra laltro, che la pendenza
delle curve cresce al crescere di n, per cui qualsiasi test con assegnato rischio di prima
specie `e tanto pi`
u potente quanto maggiore `e la numerosit`
a del campione. In definitiva, questi diagrammi consentono quindi di valutare la numerosit`
a campionaria che
`e necessaria per effettuare un test con prefissata potenza W (zn0 ) = 1 (zn0 ).
9.4.1.2 Modello Normale generale: popolazione con varianza sconosciuta.
Se la varianza 2 della popolazione normale `e sconosciuta, essa dovr`
a essere stimata
con la statistica campionaria corretta Sn2 definita nella (7.14). Sulla base del Teorema
8.1 (t-Student), il test si effettua osservando se il valore empirico della statistica Tn
definita nella (8.16) appartiene alla regione di accettazione di H0 oppure alla regione
di rifiuto dellipotesi nulla.
Se si effettua un test bidirezionale, la regione di accettazione `e fornita dallintervallo
di confidenza (8.18), che ora si scrive:
A:

sn
sn
0 t1/2 n 0 + t1/2
n
n

(9.46)

250

TEST PARAMETRICI

dove sn `e il valore empirico della radice quadrata di Sn2 , e t1/2 `e il quantile di ordine
(1 /2) della distribuzione t-Student con (n 1) gradi di libert`a. Confrontandola
con la (9.39), si nota che la (9.46) si ricava sostituendo semplicemente sn al posto
di e t1/2 al posto di z1/2 .
In modo analogo, applicando le (8.19) e indicando con t1 il quantile di ordine
(1) della t-Student con (n1) gradi di libert`a, si ricavano le regioni di accettazione
per un test unidirezionale superiore (coda a destra):
A:

sn
< n 0 + t1
n

(9.47)

oppure unidirezionale inferiore (coda a sinistra):


A:

sn
0 t1 n < +.
n

(9.48)

Lipotesi nulla sar`a da accettare solo se il valore empirico tn = (n 0 ) n/


sn
ricavato dal campione appartiene a una delle regioni ora definite.
Le formule precedenti sono valide per qualsiasi numerosit`
a n del campione, ma si
usano soltanto per piccoli campioni (n < 30 circa). Infatti, si ricordi che la distribuzione t-Student tende alla normale standard per n , per cui quando n > 30
i quantili t1/2 e t1 possono essere sostituiti dai corrispondenti quantili z1/2 e
z1 della variabile standardizzata
Zn =

n 0
,
sn / n

(9.49)

che `e analoga alla (9.40) ma con la stima sn al posto di . In definitiva, se il


test si effettua usando grandi campioni `e ancora possibile utilizzare tutti i risultati
(compresa la determinazione dei rischi di seconda specie) che sono stati ricavati per il
modello Normale-1. A tal fine, occorre soltanto stimare preventivamente la varianza
con il suo valore campionario corretto.
9.4.1.3 Popolazione con distribuzione non normale
Si `e visto nel Capitolo 6 che, indipendentemente dal modello statistico usato per la
popolazione, le distribuzioni campionarie delle medie approssimano, al crescere di n,
la legge normale N (, 2 /n). Ne segue che se n `e sufficientemente grande (n > 30) e
se lipotesi nulla `e vera, la distribuzione delle medie campionarie si pu`o approssimare
con una legge normale avente media 0 e varianza 2 /n, se 2 `e nota, oppure Sn2 /n
se 2 `e incognita.
Pertanto, per grandi campioni le regioni di accettazione e i rischi de seconda specie
nei tre tipi di test sono ancora quelle ricavati nello studio del modello Normale-1,
indipendentemente dalla forma della distribuzione della popolazione da cui `e stato
estratto il campione. Viceversa, per piccoli campioni estratti da una popolazione
non normale non `e possibile, in generale, procedere al test sul valor medio.
Esempio 9.2

9.7 Test parametrici con ipotesi composte

251

Il peso medio di un campione di 100 confezioni di un prodotto alimentare vale


n = 1570 gr. Questo campione `e stato estratto da una popolazione per la quale si
assume un modello statistico normale N (, 2 ) con deviazione standard = 120 gr.
H0

W(z'n )

H1

1- a
-2.58 -1.96

1.96 2.58

zn

1623.52 1630.96

mn

A
A
1569.04 1576.48

1600

-3

-2

-1

z'n

Figura 9.4

Effettuando tests con livelli di significativit`a = 0.05 e 0.01, quando si pu`o affermare
che il peso medio dellintera popolazione di quel prodotto, confezionato dalla stessa
ditta `e di 1600 gr ?
Si tratta di effettuare un test bidirezionale scegliendo tra una ipotesi nulla semplice
e una ipotesi alternativa composta:
H0 : = 1600 gr

H1 : 6= 1600 gr.

Se H0 `e vera, la distribuzione campionaria


delle medie n `e normale con valor medio
1600 e deviazione standard n = 120/ 100 = 12; se `e vera H1 , la distribuzione
campionaria `e una qualsiasi Normale con valor medio n 6= 1600 e uguale deviazione
standard (v. Fig. 9.4).
Applichiamo la (9.12) per determinare le regioni di accettazione dellipotesi nulla ai
vari livelli di significativit`a. Per = 0.05, si ha: z10.05/2 = z0.975 = 1.96, e quindi
la regione di accettazione dellipotesi nulla `e lintervallo
A = {zn : 1.96 zn 1.96} = {n : 1576.48 gr n 1623.52 gr}.
Al livello = 0.01 si ha invece z10.01/2 = z0.995 = 2.58, e quindi un intervallo pi`
u
ampio:
A = {zn : 2.58 zn 2.58} = {n : 1569.04 gr n 1630.96 gr}.
Il valore empirico zn della variabile standardizzata (9.40) risultante dalla osservazione del campione `e
1570 1600
= 2.5 .
zn =
12
Al livello di significativit`a 0.05 (ovvero con un rischio massimo di sbagliare del 5%)
esso non appartiene ad A, e pertanto rigettiamo H0 affermando che i dati forniti
dal campione non sono compatibili con laffermazione che il peso medio sia di 1600

252

TEST PARAMETRICI

gr. Al contrario, con un livello di significativit`a 0.01 (cio`e con un rischio massimo
di sbagliare dell1%), risulta zn A ed accettiamo lipotesi nulla concludendo che il
peso medio `e di 1600 gr.
Il rischio di seconda specie di questo test `e fornito dalla (9.41) e in funzione della
differenza standardizzata (9.42) che qui si scrive zn0 = (1 1600)/12, vale:
(zn0 ) = erf(1.96 zn0 ) + erf(1.96 + zn0 )
(zn0 ) = erf(2.58 zn0 ) + erf(2.58 + zn0 )

se = 0.05,
se = 0.01.

La curva di potenza del test W (zn0 ) = 1 (zn0 ) ha un grafico che `e mostrato in Fig.
9.4 per un livello di significativit`a = 0.05 /.
Esempio 9.3

I carichi di rottura dei cavi prodotti da una fabbrica hanno un valor medio = 1800
Kg. Con una diversa tecnologia si intende mettere in produzione un nuovo tipo
di cavo con carico di rottura maggiore. Si esaminano 50 cavi scelti a caso dalla
nuova produzione, e si trova che la media campionaria dei nuovi carichi di rottura
`e n = 1850 con varianza campionaria corretta Sn2 = 10.000Kg 2 . Si pu`o affermare,
a un livello di significativit`a = 0.01, che i nuovi cavi hanno un carico medio di
rottura pi`
u elevato?
Definiamo anzitutto le due ipotesi sulle quali dobbiamo fare la nostra scelta:
H0
H1

:
:

= 1800 Kg
> 1800 Kg

(non c`e variazione nel carico di rottura)


(la nuova produzione migliora il carico di rottura).

Pur senza fare alcuna ipotesi sul modello statistico dei cavi di nuova produzione,
poich`e il campione esaminato `e sufficientemente grande la distribuzione campionaria
delle medie si pu`o approssimare con una legge normale avente media 0 = 1800 Kg
se H0 `e vera, e varianza Sn2 /n = 10.000/50 = 200 Kg2 .
Effettuiamo un test unidirezionale superiore sulla variabile standardizzata (9.49) che
nel nostro caso, se H0 `e vera, vale:
Zn =

n 1800

.
200

(9.50)

Assumendo un rischio di prima specie = 0.01, il valore di z1 che delimita la


regione di accettazione e quella di rifiuto si calcola con la (9.43) imponendo:
1 = IP(Zn C | H0 vera) =

1
+ erf (z1 ) = 0.99
2

ossia erf(z1 ) = 0.49, e dalla Tabella di erf(z) si ricava: z1 = 2.33. La regione


di accettazione di H0 (v. Fig. 9.5) `e dunque lintervallo
A:

{zn : < zn 2.33} = {n : < n 1833}

e quella di rifiuto `e
C:

{zn : 2.33 < zn < } = {n : 1833 < n < }.

9.7 Test parametrici con ipotesi composte


H0

253

W(z n' )

H1

1- a

0.5

zn

2.33

C
1833

1800

-3

1850

-2

-1

mn

z1- a

z'n

Figura 9.5

Sotto lipotesi H0 vera, il valore empirico di zn ottenuto dal campione si ricava


sostituendo n = 1850 nella (9.50). Esso vale zn = 3.55 ed appartiene alla regione
di rifiuto. Dunque lipotesi nulla `e da rigettare, e laffermazione che i cavi di nuova
produzione hanno un pi`
u elevato carico di rottura pu`o essere sostenuta al livello di
significativit`a prescritto.
Il rischio di seconda specie di questo test unidirezionale `e dato dalla
(9.44), ed
espresso in funzione della differenza standardizzata zn0 = (1 1800)/ 200 vale:
(zn0 ) =

1
+ erf(2.33 zn0 ).
2

La corrispondente curva di potenza W (zn0 ) = 1 (zn0 ) `e mostrata in Fig. 9.5. /


Esempio 9.4: Test sulle frequenze relative

Una ditta farmaceutica afferma che un suo analgesico `e efficace per un periodo di
dodici ore nel 90% dei casi. In un campione di n = 200 persone, la medicina ha dato
in effetti ottimi risultati a ns = 160 sofferenti. Si chiede di valutare se, al livello di
significativit`a = 0.01, la ditta farmaceutica pu`o legittimamente sostenere quanto
affermato.
Se p `e la probabilit`a che lanalgesico abbia effetto per dodici ore, si chiede di procedere a un test unidirezionale scegliendo fra le seguenti ipotesi:
H0
H1

:
:

p = p0 = 0.9
p = p1 < 0.9

(laffermazione `e corretta);
(laffermazione `e falsa).

La frequenza relativa dei successi della medicina rilevata dal campione `e y =


ns /n = 160/200 = 0.8. Nellipotesi che H0 sia vera, la distribuzione campionaria
delle frequenze relative Y = ns /n dei successi `e approssimabile con una legge normale
(cfr. 7.5) con media E{Y } = p0 = 0.9 e deviazione standard
s

0 =

p0 (1 p0 )
=
n

0.9 0.1
= 0.0212.
200

254

TEST PARAMETRICI
W( p )
1

H0

H1

0.5

a
0.8506

0.8

1- a
0.9

-4.71

Y = n s /n

C
-2.33

-2

0.9

0.8506
-1

z'

Figura 9.6

Nel nostro test unidirezionale inferiore al livello di significativit`a = 0.01, il quantile


z1 per la variabile standardizzata
Z=

Y p0
Y 0.9
=
0
0.0212

che `e tale da soddisfare la condizione


1 = IP(Z z1 ) =

1
+ erf (z1 ) = 0.99 ,
2

vale z1 = 2.33 come nellEsempio precedente. La regione di accettazione dellipotesi nulla `e dunque lintervallo aperto a destra:
A = {z : 2.33 z < +} = {Y : 0.8506 Y < +}
indicata in Fig. 9.6, mentre la regione di rifiuto `e
C = {z : < z < 2.33} = {Y : < Y < 0.8506}.
Il valore empirico di zn osservato nel campione `e
zn =

0.8 0.9
= 4.71
0.0212

ed appartiene alla regione di rifiuto. Quindi, al livello di significativit`a 0.01 dobbiamo


rigettare H0 , concludendo che laffermazione della ditta farmaceutica non `e corretta,
in quanto non legittimata dalle osservazioni effettuate sul campione.
Prima di procedere al calcolo dellerrore di seconda specie, `e qui necessario sottolineare che le distribuzioni campionarie associate allipotesi alternativa sono normali
con varianze diverse, in generale, da 02 . Infatti, fissato un valore p1 < p0 compatibile
con lipotesi alternativa, questa `e normalmente distribiuta con media p1 e deviazione
standard
s
p1 (1 p1 )
6= 0 ,
1 =
n

9.7 Test parametrici con ipotesi composte

255

che `e maggiore di 0 per tutti i reali p1 compresi nellintervallo (1 p0 ) < p1 < p0 .


La Fig. 9.6 mostra due di queste distribuzioni, che al diminuire di y1 aumentano la
dispersione rispetto al loro valor medio.
Ne segue che il rischio di seconda specie in questo test `e non `e dato dalla (9.45), ma
deve essere calcolato come segue:
"

+
(Y p1 )2
1
exp
dY =
(p1 ) = IP[Y A | H1 '
==
212
1 2 p0 0 z1

p0 0 z1 p1
1
p1 p0
0
= erf(+) erf
= + erf
z1 +
.
1
2
1
1

N (p1 , 12 )]

Il suo andamento qualitativo non varia rispetto a quello calcolato con la (9.45): `e
sempre una funzione monotona crescente, e vale 0.5 per p1 = p0 0 z1 = 0.8506
che `e lestremo inferiore dallintervallo di accettazione A. Per ricercare una analogia
formale con la (9.18), si pu`o anche definire la differenza standardizzata:
s

p1 p0
Z =
= (p1 p0 )
1
0

n
,
p1 (1 p1 )

mediante la quale il rischio di seconda specie si pu`o riscrivere nella forma:

(z 0 ) =

0
1
+ erf
z1 + z 0
2
1

che assume il valore 0.5 per


0
z = z1 = z1
1
0

p0 (1 p0 )
= 1.96.
(p0 0 z1 )(1 p0 + 0 z1 )

La potenza W (p1 ) = 1 (p1 ) del test `e la funzione monotona decrescente riportata


in Fig. 9.6. /
Esempio 9.5: Test sulla differenza di distribuzioni normali

Due campioni di 100 persone ciascuno sono estratti dalla popolazione dei pazienti
di una malattia. Al campione A, unitamente alla terapia usuale si somministra una
nuova cura in fase di sperimentazione; al campione B viene prescritto di continuare
unicamente con la terapia usuale. A conclusione del trattamento, risulta che sono
guariti nA = 75 pazienti del gruppo A e nB = 65 pazienti del gruppo B. Possiamo
ritenere che la nuova cura `e efficace, ai livelli di significativit`a = 0.01, 0.05 e 0.10
?
Indichiamo con YA la frequenza relativa (incognita) di guarigione tra la popolazione
dei pazienti che si sono curati anche con la nuova terapia, e con YB la frequenza relativa di guarigione con la cura usuale, che supponiamo statisticamente indipendente
da YA . Definiamo quindi la variabile aleatoria differenza tra le frequenze relative:
d() = YA YB ,

256

TEST PARAMETRICI

sulla quale effettuiamo un test unidirezionale superiore per verificare le seguenti


ipotesi:
H0
H1

:
:

d=0
(la nuova cura non ha effetto)
d = d1 > 0 (la nuova cura `e pi`
u efficace di quella usuale).

In seguito alle osservazioni fatte sui campioni, le frequenze relative di guarigione nelle
due popolazioni di pazienti hanno distribuzioni approssimabili con leggi normali,
rispettivamente con valor medio
E{YA } =

75
= pA = 0.75 ;
100

E{YB } =

65
= pB = 0.65
100

2 (YB ) =

0.65 0.35
= 0.002275 .
100

e varianze che per la (7.22) valgono:


2 (YA ) =

0.75 0.25
= 0.001875 ,
100

Poich`e YA e YB sono normali e statisticamente indipendenti, anche d() ha una


distribuzione normale, come mostrato nel Capitolo 4. Essa ha valor medio E{d} = 0
se H0 `e vera, oppure E{d} = d1 > 0 se `e vera H1 , con uguale deviazione standard
che vale (si confronti con lEsempio 7.2):
q

d =

2 (YA ) + 2 (YB ) =

0.001875 + 0.002275 = 0.06442.

Il valore empirico della differenza d rilevato dai campioni `e dn = pA pB = 0.10, e


quello della corrispondente variabile standardizzata della differenza tra le frequenze
relative vale:
0.10
dn E{d}
=
' 1.55 .
zn =
d
0.06442
Per un test unidirezionale con coda a destra, i quantili z1 corrispondenti ai livelli
richiesti si calcolano applicando la (9.43) come come `e stato fatto nellEsempio 9.3,
e valgono:
= 0.01 :
= 0.05 :
= 0.10 :

z1 = 2.33 (d1 = 0.15)


z1 = 1.645 (d1 = 0.106)
z1 = 1.28 (d1 = 0.082).

In parentesi sono riportati i corrispondenti valori del quantile d1 = d z1 della


distribuzione normale di d().
La regione di accettazione dellipotesi nulla `e A = {zn : , z1 } = {dn :
, d1 }. Ai livelli di significativit`a = 0.01 e 0.05, il risultato empirico standardizzato zn ' 1.55 < z1 (corrispondente a dn = 0.10 < d1 ) cade nella regione
di accettazione di H0 , per cui si deduce che le differenze percentuali di guarigione
nei due campioni non sono statisticamente significative, e non si pu`o affermare che
esse indichino una efficacia della nuova cura.

9.7 Test parametrici con ipotesi composte

257

H 0 , n = 300

H0 , n = 100

H1

dn
b
-0.15

-0.05

-0.1

0.05

0.1

0.15

Figura 9.7

Al contrario, al livello di significativit`a = 0.10 si ha che zn cade nella regione di


rifiuto di H0 : respingeremo dunque lipotesi nulla e affermeremo che la nuova cura
`e pi`
u efficace di quella usuale.
Le conclusioni che si traggono dal test dipendono in modo determinante dal tipo del
rischio che siamo disposti a correre se si fallisce la previsione. Nel caso in cui si
accetti un livello di significativit`a = 0.1, bisogna mettere in conto che esiste un
10% di probabilit`a di illudere il paziente, somministrandogli una cura che non ha
effetti utili. Si pu`o decidere di diminuire questo rischio di errore ma, a parit`a di
numerosit`a del campione, cresce di conseguenza il rischio di commettere un errore
di seconda specie, che consisterebbe nel non somministrare la nuova cura, anche se
in realt`a questa `e efficace: in tal caso aumenterebbe il rischio di non intervenire
efficacemente per guarire un maggior numero di malati.
Questo rischio di seconda specie del test si determina applicando la (9.44):

1
d1
(d1 ) = + erf z1
2
d

e accettando un rischio di prima specie = 0.10, in corrispondenza del valore


empirico d1 = dn = 0.10 vale:
(0.10) =

1
+ erf
2

1.28

0.10
0.06442

1
erf (0.2723) = 0.5 0.107 = 0.393 .
2

Ne segue che in base allanalisi dei campioni il rifiuto della nuova terapia sarebbe
controproducente, con una probabilit`a che `e circa del 40%, ai fini di un miglioramento
della terapia in uso.
Daltra parte, esiste un modo per diminuire il rischio di prima specie senza aumentare lentit`a del rischio di seconda specie : esso consiste nellaumentare la numerosit`a n dei campioni, perch`e in tal modo si aumenta laffidabilit`a della decisione
che si assume a seguito del test.
Si supponga infatti di rifare il medesimo test su altri due campioni di 300 pazienti
ciascuno, dal quale risultano frequenze relative di guarigione, che indicheremo con

258

TEST PARAMETRICI

YA0 , YB0 , che sono uguali a quelle del test precedente:


YA0 =

225
= 0.75 ;
300

YB0 =

195
= 0.65.
300

Se `e vera lipotesi nulla, la distribuzione campionaria della differenza d = YA0 YB0


tra le nuove frequenze relative ha ancora media E{d} = 0.10, ma ha ora deviazione
standard
d0

2 (YA0 )

2 (YB0 )

0.75 0.25 0.65 0.35


+
= 0.0372
300
300

che denota una minor dispersione dei dati campionari rispetto alla media. Per il dato
empirico dn = 0.10 con n = 300, la variabile standardizzata assume ora il valore:
zn0 =

0.10
0.10
=
= 2.688 > 2.33,
0
d
0.0372

che appartiene alla regione di rifiuto al livello di significativit`a = 0.01. Rigettando


lipotesi nulla H0 , potremo allora affermare che la nuova cura `e efficace, sapendo
che la probabilit`a di commettere un errore di prima specie (nellilludere il paziente)
`e limitata all1% e che contemporaneamente il rischio di seconda specie (di non
utilizzare un farmaco pi`
u efficace) `e comunque ridotto al valore:
1
(0.10) = + erf
2

0.10
2.33
0.0372

1
erf (0.358) ' 0.361.
2

La Fig. 9.7 mostra il confronto tra i risultati che si ottengono usando le due distribuzioni campionarie con differente numerosit`
a, nel caso in cui sia vera lipotesi
nulla H0 : d = 0. Per n = 300, il quantile d1 = 0.0372 z1 della differenza
d = YA0 YB0 ai vari livelli di significativit`a vale:
= 0.01 ,
= 0.05 ,
= 0.01 ,

z1 = 2.33 : d1 = 0.0866
z1 = 1.645 : d1 = 0.061
z1 = 1.28 : d1 = 0.0476

e, al contrario del caso in cui n = 100, il dato empirico dn = 0.10 cade nella regione
di rifiuto anche se si assume il minore tra i tre rischi di prima specie. /

9.7.2

Test sulla varianza

Per procedere a tests sulla varianza occorre che la popolazione da cui si estrae il
campione sia normalmente distribuita, perch`e questa condizione `e necessaria per determinare gli intervalli di confidenza ricavati nel 8.2.2. Quando `e possibile accettare
quasta ipotesi preliminare, un test bilaterale con ipotesi:
H0 :
H1 :

2 = 02
2 = 12 6= 02

9.7 Test parametrici con ipotesi composte

259

si effettua verificando se il valore empirico qn della statistica


Qn =

n 1 2
n
Sn 2 Sn2 ,
2
0
0

(9.51)

definita nel Teorema Chi-quadrato del 7.4.1, appartiene alla regione di accettazione
risultante dalla scelta di un determinato rischio di prima specie .
Tenuto conto che Qn ha una distribuzione Chi-quadrato con (n 1) gradi di libert`a,
questa regione di accettazione `e lintervallo
A = {qn : /2 qn 1/2 } = {Sn2 : 02 /2 /n Sn2 02 1/2 /n}

(9.52)

dove /2 , 1/2 sono i quantili di ordine /2 e (1 /2) della Chi-quadrato con


(n 1) gradi di libert`a, e la regione di rifiuto di H0 `e linsieme
C = {0 qn < /2 } {1/2 < qn < +}.

(9.250 )

Se invece di vuole effettuare un test unilaterale, con coda a destra o a sinistra, le


regioni di accettazione e di rifiuto saranno:
H1 : 12 > 02 :

A = {qn : 0 qn 1 } = {Sn2 : 0 Sn2 02 1 /n}


C = {qn : 1 < qn < +} = {Sn2 : 02 1 /n < Sn2 < +}

H1 : 12 < 02 :

A = {qn : qn < +} = {Sn2 : 02 /n Sn2 < +}


C = {qn : 0 qn < } = {Sn2 : 0 Sn2 < 02 /n}

dove, ovviamente, e 1 sono i quantili di ordine e 1 della Chi-quadrato


con n 1 gradi di libert`a.
Fissato un valore 12 compatibile con lipotesi alternativa, la statistica Q0n = nSn2 /12
ha anchessa una distribuzione Chi-quadrato con (n 1) gradi di libert`a. Pertanto
il rischio di seconda specie in questi test `e definito da
(12 ) = IP(qn A|H1 vera) = IP(qn A|Q0n = nSn2 /12 2(n1) )
e sar`a calcolabile integrando opportunamente sulla regione A, al variare del valore
corrente di 12 , questa distribuzione Chi-quadrato associata allipotesi alternativa.
Caso di grandi campioni
Sappiamo che per n la distribuzione Chi-quadrato tende alla normale N (n, 2n).
Ne segue che per grandi campioni (almeno n > 30), potremmo approssimare la
regione di accettazione e il rischio di seconda specie utilizzando la variabile normale
standard (8.28) gi`a definita nel precedente Capitolo.
Conviene per`o utilizzare la circostanza che in tal caso la deviazione standard
campionaria Sn `e approssimabile con una legge normale, avente media e scarto / 2n.
Per la verifica di unipotesi nulla H0 sulla varianza, si pu`o utilizzare allora la statistica

(Sn 0 ) 2n
,
(9.26)
Zn =
0

260

TEST PARAMETRICI

anchessa con distribuzione normale standard. Scelto un rischio di prima specie


e calcolati i quantili z1/2 e z1 , si individuano cos` le seguenti regioni di accettazione:
H1 : 12 6= 02 :
H1 : 12 > 02 :
H1 : 12 < 02 :

A = {zn : z1/2 zn z1/2 } =

z1/2
z1/2
=
Sn : 0 1
Sn 0 1 +
2n
2n
A =
{zn : < zn z1} =

z1
=
Sn : Sn 0 1 +
2n
A = {z
:
z

z
<
+}
=
n
1
n

z1
=
Sn : 0 1
Sn < +
2n

che per grandi campioni approssimano la (9.52) e seguenti.


Il rischio di seconda specie in tal caso si calcola pi`
u facilmente, perch`e `e definito
dallintegrale:
(1 ) = IP(Sn A|Sn

|calN (1 , 12 /2n))

1
=
1

"

Z
A

(Sn 1 )2
exp
dSn
212 /2n

e si pu`o determinare utilizzando la Tavola della funzione degli errori. A seconda


dellintervallo A esso vale:
H1 :

12

6=

02

H1 : 12 > 02 :
H1 : 12 < 02 :

0
0
(1 ) = erf 2n
1 + z1/2
1
1

0
0
erf 2n
1 z1/2
1
1

1
0
0
(1 ) = erf 2n
1 + z1 +
1
2
1

0
1
0
1 z1
(1 ) = erf 2n
2
1
1

Fissati ed n, il suo andamento qualitativo `e mostrato per i tre casi in Fig. 9.8.
Per 1 = 0 esso vale sempre 1 , che `e il valore massimo di nel test bilaterale,
ma tende allunit`a per il test unilaterale superiore quando 1 0, e per quello
unilaterale inferiore quando 1 . Pi`
u dettagliati diagrammi di in funzione
del rapporto 1 /0 si possono consultare in [3] al variare di e della numerosit`
a del
campione.
Esempio 9.6

Per la misurazione di un coefficiente di resistenza in galleria del vento, in aggiunta


alla serie di prove gi`a considerata nellEsempio 8.12 si effettua una nuova serie di
n = 20 prove, i cui risultati mostrano ancora un valor medio empirico dellordine di
0.3, ma una varianza campionaria Sn2 = 0.028 che `e maggiore di quella del campione
precedente. Si vuole effettuare un test per verificare se con gli ultimi dati raccolti si

9.7 Test parametrici con ipotesi composte

261

b
1
1- a

H1 : s 21 s 20

H1: s 21 < s 20

H1 : s 21 > s 20
s1

s0
Figura 9.8 - Curve caratteristiche operative per tests sulla varianza

pu`o affermare, al livello di significativit`a = 0.10, che la varianza della popolazione


dei risultati ottenuti in quella galleria del vento `e 2 = 0.02.
Definita lipotesi nulla H0 : 02 = 0.02, se essa `e vera la statistica (9.24) vale
Qn =

20 2
S = 1000Sn2
02 n

ed ha una distribuzione campionaria con legge Chi-quadrato con n 1 = 19 gradi


di libert`a. Per procedere in un test bidirezionale, definiamo lipotesi alternativa:
H1 :

2 6= 0.02

e determiniamo le regioni di accettazione e di rifiuto di H0 , definite dalla (9.52).


Se assumiamo = 0.10, dalla riga = 19 della Tabella dei quantili Chi-quadrato
in Appendice si ricava: 0.05 = 10.1, 0.95 = 30.1. Di conseguenza, le regioni di
accettazione e di rifiuto sono i seguenti intervalli di qn :
A = [10.1, 30.1],

C = [0, 10.1) (30.1, +).

Il valore empirico della statistica Qn che si ottiene sostituendo in essa Sn2 = 0.028
vale qn = 28 e appartiene alla regione di accettazione (v. Fig. 9.9).
Si pu`o perci`o concludere, al livello = 0.10, che il campione `e compatibile con
laffermazione che le misurazioni effettuate in quella galleria del vento hanno una
varianza 2 = 0.02.
Si noti che si perviene invece a un risultato opposto se si effettua un test unidirezionale superiore assumendo lipotesi alternativa H1 : 2 > 0.02. Infatti in tal
caso lintervallo di accettazione di H0 sarebbe:
A = [0, 1 ] = [0, 0.90 ] = [0, 27.2]
e il valore empirico qn = 28 andrebbe a cadere nella regione di rifiuto C = (27.2, +).

262

TEST PARAMETRICI

f(Q n )

H0

E Q

qn

0.05

10

20

0.05

30

40

A
Figura 9.9

Per confrontare questi risultati con quelli che si ottengono per grandi campioni,
supponiamo ora che i precedenti dati campionari siano stati ricavati da n = 32
prove, anzich`e 20. In tal caso si pu`o usare la statistica (??) che vale:

8(Sn 0.02)

Zn =
.
0.02
Al livello = 0.10, si ha z1/2 = z0.95 = 1.645, e per questa statistica la regione di
accettazione di H0 , definita dalla prima delle (9.27), `e il seguente intervallo di zn :
A = [1.645, 1.645].
Il valore empirico di Zn vale

0.028 0.02

zn = 8
= 1.4657
0.02
ed appartiene ad A, per cui il risultato del test sarebbe uguale a quello che si ricava
dallesame del piccolo campione. In modo analogo, nel test unidirezionale superiore
si ricava: A = (, z1 ] = (, z0.90 ] = (, 1.288] che non contiene zn ; dunque
lipotesi nulla sarebbe in tal caso da rigettare, come gi`a rilevato nel caso in cui
n = 20.
Se n = 32, i rischi di seconda specie connessi ai due test si possono approssimare
usando le formule (9.53). In particolare,
se si fa coincidere 1 con il valore empirico

della deviazione standard Sn = 0.028 ' 0.167, si ha 0 /1 ' 0.8468 e per il test
bilaterale si ricava il seguente errore di seconda specie:
(0.167) = erf[8(0.8468 1) + 0.8468 1.645] erf[8(0.8468 1) 0.8468 1.645]
= erf(0.167) erf(2.6186) = 0.065 + 0.4955 ' 0.56
mentre per il test unilaterale superiore si ha invece:
(0.167) =

1
+ erf[8(0.8468 1) + 0.8468 1.288] =
2

9.7 Test parametrici con ipotesi composte

263

= 0.5 + erf(0.135) = 0.5 erf(0.135) = 0.5 0.053 ' 0.447.


Anche se non `e applicabile ai test effettuati con piccoli campioni, il confronto indica
comunque che `e da attribuire una certa preferenza al test unilaterale, che a parit`a
di comporta un rischio di seconda specie inferiore a quello del test bilaterale.

9.7.3

Test di Fisher per il rapporto tra varianze

Si abbiano due caratteri X, Y normalmente distribuiti rispettivamente con leggi


2 ) e N ( , 2 ), da ciascuno dei quali `
N (X , X
e stato estratto un campione con
Y
Y
2.
numerosit`a n ed m, aventi rispettivamente varianza campionaria corretta Sn2 e Sm
Applicando ai due campioni il Teorema Chi-quadrato del 7.4.1, si ricava facilmente
che la variabile aleatoria
V () =

2 (Y )
(n 1)Qm
2 Sm
= X
(m 1)Qn
Y2 Sn2 (X)

(9.53)

`e distribuita con densit`a F di Fisher, definita nella (2.41) del 2.3.8, avente m 1 e
n 1 gradi di libert`a.
Si supponga ora di dover verificare se le distribuzioni normali dei due caratteri hanno
2 = 2 , ed effettuare un
la medesima varianza. Si pu`o allora porre nella (9.53): X
Y
test sulla statistica
S2 (Y )
Vm,n = m
Sn2 (X)
ricavata dalla osservazione delle varianze corrette dei due campioni di X e Y .
Definita lipotesi nulla
2
H0 : X
= Y2
e quella alternativa
H1 :

2
X
6= Y2 ,

si potr`a accettare H0 se il valore empirico di Vm,n `e sufficientemente prossimo


ad 1 (che `e anche il limite cui tende il valor medio della distribuzione di Fisher
per n ). Scelto un livello di significativit`a , la regione di accettazione di H0
si determina calcolando lintervallo A = [f/2 , f1/2 ], dove f/2 e f1/2 sono i
quantili della distribuzione F (m 1, n 1) di Fisher con m 1 e n 1 gradi di
libert`a, che escludono due code con probabilit`a /2.
In Appendice sono riportate due Tabelle che indicano, al variare di m ed n, i quantili
f0.95 (m, n) e f0.975 (m, n) da utilizzare per test bidirezionali ai livelli di significativit`a
= 0.10 e 0.05. Per il loro impiego, occorre anche sfruttare la seguente propriet`a
della distribuzione F (m, n):
f/2 (m, n) =
Esempio 9.7

1
.
f1/2 (n, m)

(9.54)

264

TEST PARAMETRICI

In seguito alle due serie di misurazioni del coefficiente di resistenza Cx gi`a considerate
negli Esempi 9.6 e 8.12 si vuole verificare, al livello di significativit`a = 0.10, lipotesi
che le distribuzioni di frequenza dei risultati (che come gi`a detto sono approssimabili
con leggi normali) abbiano la medesima varianza.
Indichiamo allora con X la frequenza relativa (teorica) delle n = 12 misure effettuate
sul modello dellEsempio 8.12, e con Y quella delle m = 20 misure dellEsempio 9.6.
Poich`e le varianze campionarie sono risultate, rispettivamente: Sn2 (X) = 0.015 e
2 (Y ) = 0.028, le varianze empiriche corrette valgono:
Sm
12
Sn2 (X) =
0.015 = 0.01636,
11

20
2
Sm
(Y ) =
0.028 = 0.02947,
19

2 = 2 , il valore empirico del loro rapporto `


e se `e vera lipotesi nulla H0 : X
e
Y

Vm,n = 1

0.02947
= 1.80.
0.01636

Calcoliamo ora la regione di accettazione


A = ( f0.05 (m 1, n 1), f0.95 (m 1, n 1) )
con m 1 = 19, n 1 = 11. Il quantile f0.95 (19, 11) si calcola interpolando tra i
valori forniti per m = 15 e m = 20 dalla apposita Tabella in Appendice:
1
4
f0.95 (19, 11) = f0.95 (15, 11) + f0.95 (20, 11) = 2.6606.
5
5
Il quantile f0.05 (19, 11) si calcola utilizzando la (9.30) dopo aver ricavato f0.95 (11, 19)
con una doppia interpolazione lineare, effettuata dapprima tra m = 15 e m = 20
per per fissati valori di n = 10 e 15, e quindi interpolando tra n = 10 e n = 15 i
risultati ottenuti per m = 19:
f0.95 (10, 19) =
f0.95 (15, 19) =
f0.95 (11, 19) =

1
4
f0.95 (10, 15) + f0.95 (10, 20) = 2.3872
5
5
1
4
f0.95 (15, 15) + f0.95 (15, 20) = 2.243
5
5
1
4
1
f0.95 (10, 19) + f0.95 (15, 19) = f0.95 (10, 15) +
5
5
25
4
4
16
+ f0.95 (10, 20) + f0.95 (15, 15) + f0.95 (15, 20) = 2.27184.
25
25
25

In definitiva si ottiene:
f0.05 (19, 11) =

1
' 0.44
f0.95 (11, 19)

e poich`e il dato empirico Vm,n appartiene allintervallo A = (0.44, 2.6606), si accetta


lipotesi nulla concludendo che al livello di significativit`a = 0.10 i due campioni
sono compatibili con laffermazione che le varianze delle misurazioni effettuate sui
due modelli sono uguali.

9.7 Test parametrici con ipotesi composte

9.7.4

265

Test di incorrelazione

Si `e visto nel Capitolo 3 che le variabili aleatorie X e Y con cui in Statistica


si rappresentano due caratteri di una popolazione sono statisticamente non correlate se `e nullo il loro coefficiente di correlazione (X, Y ) definito dalla (3.9). La
valutazione di questo coefficiente `e anche importante per verificare la correttezza
di una regressione lineare di Y su X che si ottiene, come mostrato nel Capitolo
5, attraverso lanalisi di un campione di n coppie (xk , yk ) di dati riguardanti i due
caratteri X e Y della medesima popolazione.
Avendo a disposizione questo campione, un test sul coefficiente di correlazione tra i
due caratteri si pu`o effettuare ricorrendo al seguente stimatore:
n
X

Cov(X, Y )
Rn =
=
Sn,X Sn,Y

(Xk X)(Yk Y )

k=1

nSn,X Sn,Y

(9.55)

dove X, Y , Sn,X , Sn,Y sono rispettivamente le medie campionarie e le radici quadrate


delle varianze campionarie dei due caratteri. Introdotte le seguenti ipotesi:
H0 :

(X, Y ) = 0 ;

H1 :

(X, Y ) 6= 0

(9.56)

relative al coefficiente di correlazione teorico dei due caratteri, si pu`o dimostrare che
se lipotesi nulla `e vera, la statistica
s

Tn = Rn

n2
1 Rn2

(9.57)

`e distribuita con legge t-Student con n 2 gradi di libert`a.


Ne segue che le regioni di accettazione e di rifiuto di H0 in un test bidirezionale al
livello di significativit`a sono rispettivamente:
A = (t1/2 , t1/2 );

C = (, t1/2 ) (t1/2 , +),

dove t1/2 `e il quantile della distribuzione t-Student con n 2 gradi di libert`a, che
esclude una coda di probabilit`a /2.
Se il valore empirico della statistica (9.33), calcolato con i dati forniti dal campione,
appartiene alla regione di accettazione cos determinata, si concluder`a che i due
caratteri sono non correlati al livello di significativit`a .
Esempio 9.8

Nella regressione lineare effettuata nellEsempio 6.2 del Capitolo 6 `e gi`a stato calcolato che il coefficiente di correlazione tra i caratteri X e Y ha il valore empirico
Rn = 0.7027. Poiche esso `e relativamente prossimo allunit`a, si `e dedotto che i dati
(xk , yk ) ricavati dal campione di numerosit`
a n = 12 sono sufficientemente correlati
statisticamente.

266

TEST PARAMETRICI

Effettuiamo un test di incorrelazione sulla statistica (9.33), per verificare se si possono trarre le medesime conclusioni anche nei confronti delle propriet`a statistiche
della coppia di caratteri della popolazione dalla quale `e stato estratto il campione
esaminato.
Il valore empirico che si ricava per la statistica (9.57) vale
s

tn = 0.7027

10
= 3.1232.
1 (0.7027)2

Lesame della tabella dei quantili della distribuzione t-Student con n 2 = 10 gradi
di libert`a mostra che t1/2 = 2.228 oppure 2.764 oppure 3.169 rispettivamente per
= 0.05 oppure 0.02 oppure 0.01. Ne segue che ai vari livelli di significativit`a le
regioni di rifiuto di H0 sono:
= 0.05 :
= 0.02 :
= 0.01 :

C = (, 2.228) (2.228, +)
C = (, 2.764) (2.764, +)
C = (, 3.169) (3.169, +)

e quindi il dato empirico tn appartiene alla regione di rifiuto dellipotesi nulla H0 :


(X, Y ) = 0 per test bidirezionali con rischio di prima specie = 0.02 o superiori,
mentre invece cade nella regione di accettazione per = 0.01.
Se ne conclude che se si accetta di commettere un errore di prima specie maggiore
o uguale a 0.02, lipotesi nulla sulla incorrelazione dei due caratteri `e da rigettare.
Al contrario, si concluder`a che i due caratteri sono non correlati, solo se si vuole
avere una probabilit`a massima dell1% di commettere un errore di prima specie. Si
osservi per`o che in tal caso lerrore di seconda specie (tn ) pu`o essere assai elevato,
perche varia in un intervallo compreso tra zero e 1 = 0.99 /.

9.7.5

Ipotesi H0 e H1 composte

Nel caso in cui anche lipotesi nulla sia composta, e genericamente del tipo:
H0 :

0 IR ,

1
1, 200

4
2, 200

9
3, 200

a
0

mn

9.7 Test parametrici con ipotesi composte

267

Figura 9.10

lerrore di prima specie del test dipende dagli effettivi valori empirici gn 0 che
la statistica campionaria Gn pu`o assumere nellinsieme 0 compatibile con lipotesi
nulla. Fissata la regione critica C del test, e tenuto conto della definizione (9.30),
lerrore di prima specie `e ora la funzione
(gn ) = IP(Gn C | ogni H0 vera, con = gn 0 ) ,
e come livello di significativit`a del test si assume in tal caso lestremo superiore dei
possibili errori di prima specie:
= sup (gn ).

(9.58)

gn 0

Esempio 9.9

Si effettua un test sullintervallo di tempo medio tra due successivi interventi di


manutenzione di un dato componente della strumentazione di bordo di un velivolo.
Indicato con X() il tempo che intercorre tra due successivi controlli di manutenzione, si assume per esso un modello statistico esponenziale, descritto dalla densit`a
fX (x, ) = ex che come `e noto (crf. 2.3.4) ha valor medio = 1/ e varianza
2 = 1/2 = 2 .
Avendo a disposizione una serie statistica di 200 rilevamenti, da cui risulta un intervallo medio di tempo n = 3.4 mesi, si vuole verificare se, con un prescritto livello
di significativit`a, la media dei tempi di attesa tra due controlli si pu`o ritenere non
superiore a 3 mesi. A tal fine si assumono le seguenti ipotesi composte:
H0 :
H1 :

1/ 0 = [0, 3]
1/ > 3.

Se lipotesi nulla H0 `e vera, tenuto conto della elevata numerosit`


a del campione le
possibili distribuzioni campionarie delle medie sono normali, con media n 3 e
varianza
2
2
n2 =
= n
n
200
come indicato in Fig. 9.10. La regione di accettazione di H0 `e A = [0, c] e quella
critica `e C = (c, +), dove c si determina ricercando il valore c di 3 che rende
massimo lerrore di prima specie.
Per questo test unidirezionale, `e facile rendersi conto (si veda la Fig. 9.10) che
sup (n ) = (3),

0n 3

per cui c = 3. Se dunque H0 `e vera e n = c = 3, assumendo per esempio un


livello di significativit`a = 0.01 si deve avere:
IP(n C|n = c = 3) =

1
erf (zc ) = = 0.01
2

268

TEST PARAMETRICI

dove zc `e il coefficiente fiduciario per la variabile standardizzata

(c n ) n
c
Zc =
=
1
200.
n
3
Usando come di consueto la tabella di erf(z), si ricava zc = 2.33 da cui

zc
c=3 1+
200

= 3.494.

Poich`e il valore empirico di n ricavato dal campione appartiene alla regione di


accettazione A = [0, 3.494] dellipotesi nulla, essa viene verificata al livello di significativit`a = 0.01.
Se invece si accetta un rischio di prima specie pi`
u elevato: = 0.10, il coefficiente
fiduciario vale zc = 1.29 e si trova:

1.29
c=3 1+
200

= 3.27365,

per cui in tal caso lipotesi nulla `e da rifiutare perche il dato empirico appartiene
alla regione di rifiuto C = (3.27365, +) determinata con il nuovo livello di significativit`a. /

9.7.6

Test del rapporto di verosimiglianza

E la generalizzazione del test di Newman-Pearson fra ipotesi semplici, descritto nel


9.2.1, al caso in cui si abbiano da verificare generiche ipotesi composte del tipo:
H0
H1

:
:

0 IRd
1 = \0 .

(9.59)

Avendo a disposizione le n osservazioni (x1 , . . . , xn ) = x dedotte da un campione X


della popolazione, si definisce la statistica
sup L(, X)
n (0 , X) =

sup L(, X)

(9.60)

detta rapporto di verosimiglianza, in cui L(, X) `e la funzione di verosimiglianza


(8.6), da esprimere analiticamente in base al modello statistico adottato.
Si pu`o dimostrare che in un test sulla statistica (9.60) con ipotesi composte (9.59)
la regione critica `e linsieme
C = {x : n (0 , x) < c},

9.8 Problemi risolti

269

dove c > 0 `e scelto in modo che il test abbia un prescritto livello disignificativit`a ,
ovvero tale da soddisfare la condizione
Z

IP(Gn (X) C | H0 vera ) =

L(, x)dx = IP(n (0 , x) < c) ,

0 .

Questo metodo `e ampiamente usato per effettuare test di verifica per unampia
classe di ipotesi composte sebbene, in generale, non porti alla costruzione di un test
di massima potenza come invece avviene nel caso di ipotesi semplici.
Si pu`o comunque dimostrare, sotto particolari condizioni di regolarit`a della stima di
massima verosimiglianza, che il test possiede propriet`a ottimali in una sua variante
asintotica, vale a dire quando la numerosit`
a del campione tende ad infinito. Questa
teoria asintotica, per la quale si rimanda al testo [2] citato in Bibliografia, riguarda
per`o soltanto problemi in cui lipotesi nulla `e definita su un sottospazio di , ossia
tale che H0 : 0 con dim(0 ) < dim(). Questo `e il caso, per esempio, di un
test sulla varianza per il modello Normale-2: N (1 , 2 ) in cui
= { = (1 , 2 ) : < 1 < +, 2 > 0}
`e un semipiano, e
0 = { = (1 , 2 ) : 1 = 10 , 2 > 0}
`e la semiretta dei valori positivi di 2 , per 1 assegnato.

9.8

Problemi risolti

9.1. Da un campione di 200 cambi per autovetture, la cui durata di funzionamento


espressa in Km. ha un modello statistico normale con varianza nota 2 = 1.05625
107 , si ricava che il chilometraggio medio campionario `e di 44500 Km. Possiamo
affermare, al livello di significativit`a = 0.01, che la durata media dei cambi `e di
44800 Km ? E al livello di significativit`a = 0.20 ?
Soluzione. Si deve effettuare un test bidirezionale su una popolazione con varianza
nota, assumendo una ipotesi nulla H0 : = 0 = 44800 Km, e una ipotesi alternativa
H1 : = 1 6= 44800 Km. Se `e vera H0 , la regione di accettazione `e lintervallo
A:
in cui

44800 n z1/2 n 44800 + n z1/2

3250
n = =
= 230
n
200

e z1/2 `e il quantile di ordine (1 /2) della variabile standardizzata Zn = (n


0 )/n .
Al livello = 0.01 si ha dalle Tavole: z0.995 = 2.58. Sostituendo si ricava
44800 230 2.58 n 44800 + 230 2.58

A = (44206.6, 45393.4)

270

TEST PARAMETRICI

e poiche il valore empirico x


= 44500 appartiene ad A, accetto H0 .
Al livello = 0.20 si ha z0.9 ' 1.287. Sostituendo si ricava
44800 230 1.287 n 44800 + 230 1.287

A = (44504, 45096)

ex
= 44500 non appartiene ad A, bens` alla regione critica e dunque rifiuto H0 .
Si perviene allo stesso risultato se si preferisce effettuare il test sulla variabile normale
standard Zn il cui valore empirico, se H0 `e vera, vale zn = (44500 44800)/230 '
1.30.
Infatti, al livello = 0.01 esso appartiene alla regione di accettazione
A = (z0.995 , z0.995 ) = (2.58, 2.58)
e al contrario, al livello = 0.20 non appartiene allintervallo A = (1.287, 1.287).
9.2. Si dispone del seguente campione: x1 = 7, x2 = 6, x3 = 8, x4 = 5, x5 = 6, x6 =
10 di sei osservazioni di un carattere X di cui non `e noto il modello statistico. In
un test bilaterale sul valor medio di X, si pu`o accettare, al livello di significativit`a
= 0.1, lipotesi che esso valga = 6 ?
Soluzione. Per procedere nel test occorre assumere che la popolazione con varianza
sconosciuta abbia legge normale, e usare una distribuzione campionaria con legge
t-Student.
Lipotesi nulla `e H0 : 0 = 6 e lipotesi alternativa `e H1 : 6= 6. I valori empirici
della media e della varianza campionaria sono
x = 42/6 = 7
1
8
s2n =
(4 + 1 + 1 + 1 + 9) = .
6
3
In un test bilaterale al livello = 0.1, se H0 `e vera lintervallo di accettazione `e
sn
sn
6 t0.95 6 + t0.95
6
6
dove

s
1
n =
n
n

n
s2 =
n1 n

8
' 0.7303
15

e t0.95 `e il quantile di ordine (1 /2) della distribuzione t-Student con n 1 = 5


gradi di libert`a, che vale: t0.95 = 2.015. Dunque la regione di accettazione di H0 `e
lintervallo
6 0.7303 2.015 6 + 0.7303 2.015

A ' (4.528, 7.471)

e poiche il valore empirico della media (


x = 7) appartiene ad A, accetto H0 : 0 = 6
.

9.8 Problemi risolti

271

Si perviene allo stesso risultato calcolando il valore empirico della statistica


r

n 0
Tn =
n = (n 0 )
sn

15
8

il quale, se H0 `e vera, vale tn = 1.3693 e quindi appartiene alla regione di accettazione


A = (t0.95 , t0.95 ) = (2.015, 2.015).
9.3. Da una popolazione con legge normale si estrae un campione di numerosit`
a
n = 8 la cui varianza vale Sn2 = 0.098. In un test sulla varianza incognita della
popolazione, si pu`o affermare che 2 < 0.09, al livello di significativit`a = 0.10 ?
Soluzione. Si imposta un test unidirezionale inferiore per una popolazione normale
con varianza sconosciuta, assumendo le ipotesi:
H0 : 2 = 02 = 0.09,

H1 : 2 < 0.09.

Se H0 `e vera, la statistica
Qn =

n 1 2
7 2
S = 77.7 Sn2
Sn =
2
0.09 n
0

segue la legge 2 con n 1 = 7 gradi di libert`a, e la regione di accettazione di H0 `e


lintervallo A = [ , +) dove `e il quantile di ordine = 0.1 della distribuzione
2 con 7 gradi di libert`a. Dalle Tavole si ricava: 0.10 = 2.83.
Il valore empirico della varianza campionaria corretta `e
s2n =

n
8
s2n = 0.098 ' 0.112,
n1
7

e quindi il valore empirico di Qn vale: qn = 77.7 0.112 ' 8.71.


Dunque qn A = [2.83, +) e lipotesi nulla `e da accettare: ne consegue che dalle
risultanze del campione non si pu`o affermare: 2 < 0.09 .
9.4. Cinque osservazioni di un carattere avente legge normale hanno i seguenti esiti:
4

6 8.

Sviluppare un test con livello di significativit`a = 0.1, per verificare se la media del
carattere vale = 5 oppure = 6. Qual`e la potenza del test effettuato ?
Soluzione. I valori empirici della media e della varianza campionaria sono:
x
=

28
= 5.6,
5

s2n =

16 + 25 + 25 + 36 + 64
(5.6)2 = 1.84,
5

per cui la stima corretta della varianza della popolazione `e

2 =

n
5
s2 = 1.84 = 2.3
n1 n 4

272

TEST PARAMETRICI

e la distribuzione campionaria delle medie ha legge normale con media e deviazione


standard
s
r

2
2.3
n =
=
' 0.678.
n
5
Definite lipotesi nulla H0 : = 0 = 5, lipotesi alternativa H1 : = 1 = 6 e la
variabile standardizzata
n 5
n 0
=
Zn =
n
0.678
della distribuzione campionaria delle medie quando H0 `e vera, la regione critica
(c , +) del test si calcola imponendo che

= 0.1 = IP(n > c |H0 ) = IP(5+n Zn > c ) = IP Zn >

c 5
0.678

1
c 5
= erf
2
0.678

ossia, usando le Tavole di erf(z):

erf

c 5
0.678

= 0.4

c 5
= 1.287
0.678

da cui si trova: c = 5 + 0.678 1.287 ' 5.873.


La regione critica `e dunque C = (5.873, +) e non contiene il valore empirico x
= 5.6
della media calcolata. Se ne conclude che lipotesi nulla 0 = 5 `e verificata dalle
risultanze del campione.
La potenza del test `e W = 1, e il rischio di seconda specie si calcola utilizzando
la variabile normale standard Z1 = (n 1 )/n che rappresenta la distribuzione
campionaria quando `e vera lipotesi alternativa. Si ricava allora:

c 6
= IP (n c | H1 vera) = IP Zn
n
1
1
=
+ erf(0.1874) ' 0.074 = 0.426.
2
2

5.873 6
= IP Zn
0.678

Pertanto la potenza del test vale W = 0.574 .


9.5. Su 100 transistor prodotti da una ditta, 6 risultano difettosi. Al livello di
significativit`a = 0.1, si pu`o accettare lipotesi che la percentuale dei transistor
difettosi non supera il 5% ? Qual`e il massimo rischio di prima specie che si pu`o
correre nel fare questa affermazione?
Soluzione. Indichiamo con p = nd /n la frequenza relativa degli nd transistor difettosi, e impostiamo un test unidirezionale superiore per verificare lipotesi nulla
H0 :

p = p0 = 0.05

(5 transistor difettosi)

contro lipotesi alternativa


H1 :

p = p1 > 0.05

(pi`
u di 5 transistor difettosi).

9.8 Problemi risolti

273

Se H0 `e vera, la distribuzione campionaria di p ha media p0 = 0.05 e deviazione


standard
s
r
p0 (1 p0 )
0.05 0.95
p =
=
' 0.0281,
n
100
ed `e quindi descritta dalla normale standard Zn = (p 0.05)/0.0281.
Al livello = 0.1 la regione di accettazione di H0 `e lintervallo A = (, z0.9 ) dove
z0.9 `e il quantile di ordine 1 della normale standard, tale che
0.90 = 0.5 + erf(z0.9 )

erf(z0.9 ) = 0.4

da cui: z0.9 ' 1.285.

Il valore empirico di Zn vale: zn = 0.01/0.0218 = 0.4587 ed appartiene ad A =


(, 1.285).
Dunque si conclude che al livello = 0.1 lipotesi H0 `e da accettare .
Il massimo rischio di prima specie max compatibile con laccettazione di H0 `e
definito dalla condizione
1 max = 0.5 + erf(zn ) = 0.5 + erf(0.4587) ' 0.5 + 0.1735 = 0.6735
per cui si ricava: max = 0.3265 .
9.6. Una macchina costruisce anelli che dovrebbero avere un diametro medio di
5 cm, con una tolleranza di 0.2 cm. In un campione scelto a caso di 40 anelli, il
diametro medio risulta x
= 4.9 cm. Dire se al livello di significativit`a del 5% la
produzione `e sotto controllo.
Soluzione. Si deve affettuare un test bidirezionale su un campione estratto da una
popolazione normale con media = 5 cm e deviazione standard = 0.2 cm.
Lipotesi nulla da verificare `e H0 : n = 0 = 5 cm, contro una ipotesi alternativa H1 : n 6= 5 cm.
Se H0 `e vera, la distribuzione campionaria delle medie `e descritta dalla Normale
standard
n 0
n 5
.
Zn =
=
n
0.2/ 40
Al livello di significativit`a = 0.05, la regione di accettazione di H0 `e lintervallo
A = (z0.975 , z0.975 ), dove z0.975 `e il quantile di ordine (1 /2) della normale
standard e vale z0.975 = 1.96.
Il valore empirico di Zn rilevato nel campione `e
zn =

x
5
' (4.9 5) 31.62 = 3.162
0.2/ 40

e non appartiene allintervallo di accettazione A = (1.96, 1.96). Ne segue che al


livello = 0.05 si deve rifiutare lipotesi nulla 0 = 5, concludendo che la produzione
non `e pi`
u sotto controllo .

274

TEST PARAMETRICI

9.7. Una ditta costruisce lampadine che dovrebbero avere una vita media di 1600
ore. In un campione di 100 lampadine la vita media risulta x
= 1570 ore, con uno
scarto quadratico medio s = 120 ore. Controllare lipotesi nulla H0 : = 1600 ore
ai livelli di significativit`a del 5% e dell1% rispettivamente.
Soluzione. Poiche abbiamo un campione con numerosit`
a sufficientemente elevata,
anche se non si conosce il modello statistico della popolazione la distribuzione campionaria delle medie si approssima con una legge Normale con media n = 1750 ore
e deviazione standard stimata attraverso lo scarto quadratico medio campionario:
r
Sn
1
n
120
n = =
s = ' 12.06 ore.
n
n
n1
99

In un test bidirezionale per lipotesi nulla H0 , contro lipotesi alternativa : H1 : 6=


1600 ore, se H0 `e vera la variabile standardizzata
Zn =

n 1600
n 1600
=
n
12.06

ha regioni di accettazione:
A = (z0.975 , z0.975 ) = (1.96, 1.96)
A = (z0.995 , z0.995 ) = (2.58, 2.58)

al livello = 0.05
al livello = 0.01.

Il valore empirico di Zn risultante dal campione `e


zn =

x
1600
1570 1600
=
' 2.4875.
12.06
12.06

Al livello di significativit`a = 0.05 esso non appartiene ad A = (1.96, 1.96) e di


conseguenza si rifiuta lipotesi H0 .
Al contrario, al livello = 0.01 risulta zn A = (2.58, 2.58) e si accetta H0 .
9.8. In un campione di 10 sfere metalliche prodotte da una macchina si calcola il
diametro medio di 7 mm, con uno scarto quadratico medio s = 1.2 mm. Verificare,
al livello di significativit`a dell1%, se il diametro medio di tutta la produzione `e di
6.5 mm.
Soluzione. Si dispone di un piccolo campione estratto da una popolazione con varianza sconosciuta: occorre perci`o supporre che questa abbia modello normale.
Lipotesi nulla da verificare `e H0 : = 0 = 6.5 mm., e quella alternativa `e H1 : 6=
6.5 mm. Si usa la statistica
n 0
Tn =
n
sn
in cui

sn = s

n
= 1.2
n1

10
' 1.265 mm ,
9

9.8 Problemi risolti

275

la quale ha una distribuzione t-Student con 9 gradi di libert`a, e nellesame del


campione assume il valore empirico
7 6.5
tn =
10 ' 1.25.
1.265
In un test bidirezionale al livello = 0.01, lintervallo di accettazione dellipotesi
nulla `e A = (t0.995 , t0.995 ) dove t0.995 `e il quantile di ordine (1 /2) della distribuzione t-Student con 9 gradi di libert`a, che vale t0.995 = 3.25 . Poiche
tn ' 1.25 A = (3.25, 3.25),
al livello = 0.01 si accetta lipotesi che il diametro medio della popolazione di
sfere sia uguale a 6.5 mm.
9.9. Una casa costruttrice di automobili vuole esaminare un dispositivo che, opportunamente applicato, ridurrebbe il consumo di un certo tipo di automobili. A tale
scopo, decide di provare tale dispositivo su un campione casuale di 50 automobili
che normalmente hanno un consumo medio di 10 litri ogni 100 km. Dallesame del
campione risulta che il consumo medio su 100 km `e x
= 9.5 litri, con uno scarto
quadratico medio corretto s = 0.8 litri. Valutare la convenienza effettiva di un tale
dispositivo fissando un livello di significativit`a = 1%.
Soluzione. Si sottopone a verifica lipotesi nulla H0 : = 0 = 10 litri/Km, in
cui si afferma che il dispositivo non modifica significativamente il consumo normale.
Lipotesi alternativa `e H1 : < 10 litri/Km, che afferma che il consumo con il
dispositivo `e effettivamente minore del normale. ( Si osservi che il caso > 10,
ovviamente privo di interesse, `e escluso a priori).
Poiche il campione `e sufficientemente grande, si assume che le medie campionarie
siano distribuite normalmente con media 0 = 10 (se H0 `e vera) e deviazione standard

n = s/ n = 0.8/ 50 ' 0.113 litri/Km.


Effettuiamo un test unidirezionale inferiore sulla variabile standardizzata Zn = (n
0 )/n , che dal campione risulta avere un valore empirico
zn =

9.5 10
' 4.42.
0.113

Scelto un livello di significativit`a = 0.1, usiamo le Tavole per calcolare il quantile


di ordine 1 = 0.99 della Normale standard, che vale z0.99 = 2.33.
La regione di accettazione di H0 `e lintervallo aperto a destra:
A = (z1 , +) = (z0.99 , +) = (2.33, +).
Questo intervallo non contiene il valore empirico zn < z0.99 . Dunque lipotesi nulla
`e da rifiutare, e dal test si deduce che il dispositivo riduce il consumo medio .
9.10. La durata media delle lampadine prodotte da una ditta, in un modello con
legge normale, `e di 1800 ore con uno scarto quadratico medio di 100 ore. Impiegando

276

TEST PARAMETRICI

un nuovo materiale si pensa che la durata media possa essere accresciuta a 1850 ore.
Per provare ci`o, si prende un campione di 50 lampadine e si trova che la durata
media `e di 1830 ore.
a) Al livello di significativit`a dell 1 % (rischio del produttore) valutare se c`e stato
un reale miglioramento, confrontando lipotesi nulla H0 : 0 = 1850 (effettivo
miglioramento) con lipotesi alternativa H1 : 1 = 1800 (situazione immutata).
b) Calcolare la probabilit`a di commettere un errore di seconda specie (rischio del
consumatore), cio`e di dichiarare una durata media di 1850 ore quando invece `e vera
lipotesi alternativa.
Soluzione.
a) Si deve effettuare un test con ipotesi semplici su una popolazione normale con
varianza nota. Poiche in questo test si ha 0 > 1 , la regione di accettazione di
H0 e quella critica sono rispettivamente A = (c , +), C = (, c ) con c da
determinare.
Introduciamo la variabile standardizzata che definisce la distribuzione campionaria
delle medie. Se H0 `e vera, essa vale
Zn =

n 1850
n 1850
n 1850

=
=
.
/ n
100 50
200

Il suo valore critico al livello di significativit`a = 0.01 si calcola scrivendo:

c 1850
= 0.01 = IP(n < c | H0 ) = IP Zn < zc =
200
e dalle Tavole di erf(z) si ricava:
erf(zc ) = 0.49

zc = 2.33 ;

c = 1850 +

1
+ erf(zc )
2

200zc ' 1817.049.

Si noti che zc = 2.33 non `e altro che il quantile z0.99 di ordine 1 della distribuzione Normale standard.
Dunque la regione critica `e lintervallo aperto a sinistra:
C = {zn : < zn < 2.33} = {n : < n < 1817.049}.
Il valore empirico di
n rilevato nel campione (al quale corrisponde il valore empirico
zn = (1830 1850)/ 200 ' 1.414 di Zn ) non appartiene alla regione critica.
In seguito alle osservazioni sul campione, si deve pertanto accettare lipotesi nulla,
dichiarando che con il nuovo materiale c`e un effettivo miglioramento .
b) Il rischio di seconda
specie si determina introducendo la variabile standardizzata

Z1 = ( 1 )/ 200 che rappresenta la distribuzione campionaria quando `e vera


lipotesi alternativa, e facendo il seguente calcolo:

1817.049 1800
c 1

= IP Z1
=
= IP(n c |H1 ) = IP Z1
200
200

1
1
17.049
=
' erf(1.21) = 0.5 0.3869 = 0.1131 ' 11.3% .
erf
2
2
200

9.8 Problemi risolti

277

9.11. Il consumo di carburante di un modello di scooter, espresso in Km/litro,


ha legge normale con varianza nota 2 = 6, 25. Da un campione di 36 esemplari
prodotti, si ricava una media dei consumi di 24,4 Km/l. Si domanda: a) Al livello di
significativit`a = 0, 05, si pu`o accettare lipotesi che il consumo medio del modello
`e di 25 Km/l, in alternativa allipotesi che esso sia di 23 Km/l ? b) Quale errore si
commette nel dichiarare un consumo di 25 Km/l, se `e vera lipotesi alternativa ?
Soluzione.
a) Definita lipotesi nulla H0 : = 0 = 25 e quella alternativa H1 : = 1 = 23, si
procede ad un test unidirezionale inferiore nel quale la regione critica `e C = (, zc ).
Determiniamo il valore critico zc e il valore empirico zn della variabile standardizzata
Zn la quale, se H0 `e vera, `e definita come
n 0
25
= n
Zn =
= 2.4(n 25).
/ n
6.25/6
Il suo valore empirico `e zn = 2.4(24.4 25) = 1.44, e il suo valore critico (cambiato
di segno) `e il quantile di ordine 1 = 0.95 della distribuzione Normale standard
(confronta anche con il precedente Esercizio 10/7). Dunque si ricava:
zc = z1 = z0.95 = 1.65

C = (, 1.65)

e poiche il dato empirico zn non appartiene alla regione critica ora calcolata, si
deduce che lipotesi nulla deve essere accettata al livello di significativit`a del 5%.
b) Se si usa lo stesso metodo dellEsercizio precedente, per calcolare lerrore di seconda specie occorre prima determinare il valore critico c della media campionaria:
zc
1.65
c = 25 +
= 25
' 24.3125
n
2.4
e quindi scrivere:

1
1.3125
c 23
= erf
= IP(n c |H1 ) = IP Z1
n
2
0.41
6
1
'
erf(3.15) = 0.5 0.4992 = 0.0008
2
dove Z1 = (n 1 )/n `e la variabile standardizzata che rappresenta la distribuzione
campionaria quando `e vera lipotesi altermativa.
Oppure, con procedura pi`
u rapida, si pu`o applicare la formula:
1
= + erf(z1 z 0 )
2
in cui z 0 `e la differenza tra le Normali standard associate alla ipotesi nulla e alla
ipotesi alternativa, e vale:
2
n 25 n 23

=
= 4.8.
z0 =
n
n
0.41
6
Si ha cos` il medesimo risultato:
= 0.5 + erf(1.65 4.8) = 0.5 erf(3.15) ' 0.0008.

278

TEST PARAMETRICI

TEST DI IPOTESI NON


PARAMETRICHE
10.1

Test sulla legge di distribuzione

In gran parte dei test statistici trattati nel Capitolo precedente `e stata sfruttata
lipotesi preliminare che il modello statistico della popolazione in esame fosse facilmente identificabile, ed esprimibile mediante leggi probabilistiche note (normale,
binomiale, esponenziale,. . .). Capita spesso che ci`o non sia possibile, o per lo meno
che la legge di distribuzione F (x) che siamo portati ad attribuire alla popolazione
sia da verificare. Questa verifica si effettua con metodi chiamati anche test per la
bont`a delladattamento, i pi`
u noti dei quali sono il test di Kolmogorov-Smirnov e il
test Chi-quadrato, che si impostano come segue.
Si abbia in campione X = (X1 , X2 , . . . , Xn ) estratto da una popolazione il cui carattere X ha una funzione di distribuzione incognita FX (x). Per verificare se un modello
statistico con assegnata legge F (x) `e adatto a descrivere le propriet`a probabilistiche del carattere X, si effettua un test per la seguente ipotesi nulla:
H0 :

FX (x) = F (x),

x IR

(10.1)

in alternativa alla ipotesi:


H1 :

FX (x) 6= F (x) per almeno un x IR.

(10.2)

In molte applicazioni, non si hanno informazioni sufficienti per individuare completamente la legge F (x) da assumere per il modello statistico, e occorre stimarne
simultaneamente uno o pi`
u parametri. In tal caso, il test consiste nel verificare
lipotesi nulla composta:
H0 :

FX (x) F0 = {F (x; ), }

(10.10 )

che la distribuzione teorica appartenga a una famiglia F0 di distribuzioni con legge


F , in cui `e il parametro (o linsieme dei parametri) da stimare secondo i metodi
esposti nel Capitolo 8.
In ogni caso, per procedere nel test occorre disporre di un riassunto campionario
adeguato a rappresentare la distribuzione da testare. A tal fine, raggruppati eventualmente i dati (x1 , . . . , xn ) in m classi k = [ak , bk ) come `e stato precisato nel
279

280

TEST DI IPOTESI NON PARAMETRICHE

6.2, si determina la frequenza cumulata relativa dei dati del campione, che in questo
contesto `e anche chiamata funzione di distribuzione empirica e si esprime come:
Fn (x) =

m
1X
nk U (x ak ),
n k=1

x IR

(10.3)

dove nk `e la frequenza assoluta dei dati appartenenti alla k-esima classe, e U (x ak )


`e la funzione a scalino unitario (2.3). Se invece la numerosit`
a del campione non `e
elevata, per cui non `e necessario raggruppare in classi gli n dati xi , la funzione di
distribuzione empirica `e la funzione a scalino costante 1/n nei punti xi :
Fn (x) =

n
1X
U (x xi ),
n i=1

x IR.

(10.4)

Questa funzione di distribuzione empirica si utilizza quindi per costruire le statistiche


su cui si effettuano i test che seguono.

10.1.1

Test di Kolmogorov-Smirnov

Questo test si applica quando la funzione F (x) `e continua, e per verificare lipotesi
nulla (10.1) usa la statistica:
Dn =

sup

<x<

|Fn (x) F (x)|

(10.5)

che rappresenta la massima deviazione della distribuzione empirica dalla ipotetica


funzione di distribuzione F (x) che si vuole testare.
Per la sua stessa definizione, la statistica Dn pu`o assumere solo valori dn [0, 1].
Inoltre, si pu`o dimostrare che nellipotesi che H0 sia vera, essa `e indipendente dalla
forma della funzione F (x). Questo risultato `e assai rilevante, perche consente di
calcolare una volta per tutte Dn e di tabularne i valori al variare della numerosit`
a
n del campione. La tabella in Appendice riporta, al crescere di n, alcuni quantili di
questa distribuzione statistica.
Se H0 `e vera, i valori empirici dn di Dn non possono scostarsi troppo da zero per
ogni x, per cui al test con livello di significativit`a si associa la regione critica:
C = (d1 , 1],
dove d1 `e il quantile della distribuzione tale che IP(Dn d1 ) = 1 .
Esiste anche una notevole propriet`a asintotica della distribuzione di KolmogorovSmirnov, in conseguenza della quale vale una regola chiamata test di Kolmogorov
sulla bont`a di adattamento, che qui ci limitiamo ad enunciare come segue.
Test sulla bont`a di adattamento
Se n `e sufficientemente grande (n 20), lipotesi nulla (10.1) `e da rigettare se il
valore empirico della statistica Dn soddisfa la diseguaglianza:

n dn ,
(10.6)

10.1 Test sulla legge di distribuzione

281

dove soddisfa lidentit`a


K( ) =

(1)j e2j

2 2

=1

j=

e vale = 1.3581 per = 0.05 e = 1.6276 per = 0.01. Altrimenti, si deduce


che al livello di significativit`a i dati del campione si adattano allipotesi fatta.
Nel caso in cui si debba verificare una ipotesi composta del tipo (10.1), il test usa
una differente statistica e precisamente:
n =
D

sup

<x<

|Fn (x) F (x; n )|

dove n `e la stima di massima verosimiglianza (cfr. 8.1.2) del parametro della


distribuzione. La regione critica del test `e per`o pi`
u difficile da determinare, anche
se si semplifica la ricerca sfruttando le propriet`a asintotiche della nuova statistica
da utilizzare.
Esempio 10.1

Un dispositivo ha generato n = 20 numeri casuali xi che sono elencati nella seconda


colonna della Tabella 10.1. Si pu`o respingere lipotesi che essi siano distribuiti con
legge normale avente media 2 e varianza 1 ?
Applichiamo il test di Kolmogorov-Smirnov calcolando anzitutto la funzione di distribuzione normale teorica, che per comodit`a conviene esprimere in funzione della
variabile standardizzata z = x 2 riportata nella terza colonna. Usando la formula
(2.32) e la Tabella di erf(z) si perviene ai valori di F (zi ) indicati nella quarta colonna.
La funzione di distribuzione empirica, espressa dalla (10.4), `e
Fn (z) = 0.05

n
X

U (z zi ).

i=1

Nei punti di discontinuit`a zi essa vale: Fn+ (zi ) = 0.05 i, e il suo limite sinistro per
z zi vale invece Fn (zi ) = 0.05 (i 1). E perci`o immediato ricavare le differenze
Fn+ (zi ) F (zi ) e Fn (zi ) F (zi ) che sono riportate nelle ultime due colonne.
Poich`e la distanza tra Fn (z) e F (z) per ogni z 6= zi `e minore di quelle ora determinate
nei punti di discontinuit`a di Fn (z), si ricava che il valore empirico della statistica
(10.5) vale dn = 0.1551, perche `e il massimo valore assoluto delle differenze calcolate.
La Tabella della distribuzione Dn in Appendice mostra, alla riga n = 20, che il
quantile d1 vale 0.2315 per = 0.20 e aumenta al descescere di . Dunque, per
= 0.20 la regione critica del test `e C = (0.2315, 1] ed ha ampiezza minore se si
assumono livelli di significativit`a minori. Poiche il dato empirico non appartiene
a questi intervalli si conclude, con un rischio di prima specie inferiore o uguale ad
= 0.20, che i valori generati hanno effettivamente una distribuzione normale con
media 2 e varianza 1.

282

TEST DI IPOTESI NON PARAMETRICHE


TABELLA 10.1

Fn+(zi ) - F(zi ) Fn- (zi ) - F(zi )

xi

zi

F(zi )

1
2
3
4
5

0,36
0,82
0,86
1,04
1,06

-1,64
-1,18
-1,14
-0,96
-0,94

0,0505
0,1190
0,1271
0,1685
0,1736

-0,0005
-0,0190
0,0229
0,0315
0,0764

-0,0505
-0,0690
-0,0271
-0,0185
0,0264

6
7
8
9
10

1,12
1,14
1,44
1,47
1,78

-0,88
-0,86
-0,56
-0,53
-0,22

0,1894
0,1949
0,2877
0,2981
0,4129

0,1106
0,1551
0,1123
0,1519
0,0871

0,0606
0,1051
0,0623
0,1019
0,0371

11
12
13
14
15

1,80
1,90
2,29
2,67
2,73

-0,20
-0,10
0,29
0,67
0,73

0,4207
0,4602
0,6141
0,7486
0,7673

0,1293
0,1398
0,0359
-0,0486
-0,0173

0,0793
0,0898
-0,0141
-0,0986
-0,0673

16
17
18
19
20

2,75
3,11
3,18
3,24
3,56

0,75
1,11
1,18
1,24
1,56

0,7734
0,8665
0,8810
0,8925
0,9406

0,0266
-0,0165
0,0190
0,0575
0,0594

-0,0234
-0,0665
-0,0310
0,0075
0,0094

Si noti che si giunge a conclusioni affini applicando la regola asintotica di Kolmogorov


sopra enunciata, anche se ci troviamo ai limiti
di applicabilit`a della stessa (n = 20).

Infatti il valore empirico di Dn `e tale che 20 dn = 0.6936, e soddisfa la condizione


(10.6) almeno per valori di minori o uguali a 0.05.

10.1.2

Test Chi-quadrato

Si tratta di un criterio di verifica di ipotesi del tipo (10.1) e (10.1) che `e ampiamente
usato perche, a differenza del test di Kolmogorov-Smirnov, si applica a qualsiasi tipo
di distribuzione, anche non continua, e si avvale di una statistica che si pu`o calcolare
pi`
u facilmente dellestremo superiore Dn definito nella (10.5).
Per applicare il test Chi-quadrato `e necessario suddividere il supporto della distribuzione F (x) da testare in m intervalli o classi k = [ak , bk ), e per ogni classe valutare
le seguenti quantit`a:
1. la frequenza (assoluta) nk delle osservazioni desunte da un campione di numerosit`a n, che appartengono allintervallo [ak , bk );
2. la probabilit`a teorica p0k = IP(X k | H0 ) che il carattere X con distribuzione
(ipotetica) F (x) abbia valori in k , nellipotesi che H0 sia vera.
Se si dispone di una espressione analitica della funzione di distribuzione teorica,
ciascuna probabilit`a p0k non `e altro che la differenza p0k = F (ak+1 )F (ak ). Tuttavia,

10.1 Test sulla legge di distribuzione

283

il test `e applicabile anche quando il modello statistico che vogliamo verificare non `e
riconducibile alle usuali leggi probabilistiche richiamate nel 7.1.
Lipotesi nulla `e qui individuata completamente dallinsieme m-dimensionale p0 =
{p01 , . . . , p0m } delle probabilit`
a teoriche relative alle m classi, le quali sono soggette
P
allunica condizione: k p0k = 1 imposta dagli assiomi della Probabilit`a.
Con le quantit`a sopra definite, costruiamo la statistica
Tn =

m
X
(nk np0k )2
k=1

(10.7)

np0k

che svolgendo il quadrato a numeratore si pu`o anche scrivere:


Tn =

m
X
n2k

np0k
k=1

m
X

nk + n

k=1

m
X
k=1

p0k =

m
X
n2k

np0k
k=1

n,

(10.70 )

perche n1 + . . . + nm = n (cfr. 6.2).


Un apposito Teorema mostra che se lipotesi nulla (10.1) `e vera, quando n
la statistica Tn tende, indipendentemente da H0 , a una distribuzione Chi-quadrato
con (m-1) gradi di libert`a.
Poiche nellipotesi H0 vera il valore atteso della frequenza dei dati nella classe k
`e E(nk | H0 ) = np0k , la statistica (10.7) `e una misura (in valore assoluto) della deviazione dei dati osservati dai rispettivi valori medi ipotetici, e il test consiste nella
verifica che il valore empirico tn di questa statistica sia sufficientemente piccolo. Per
ogni livello di significativit`a , esso si effettua individuando come regione critica
lintervallo
C = (1 , +)
(10.8)
dove 1 `e il quantile di ordine (1) della distribuzione Chi-quadrato con (m1)
gradi di libert`a, e si pu`o cos enunciare.
Test Chi-quadrato per ipotesi H0 semplici
Siano nk le frequenze osservate in un campione di numerosit`
a n, tali da soddisfare
le condizioni n 50; nk 5, k = 1, . . . , m. Allora, al livello di significativit`a ,
se il valore empirico tn della statistica (10.7) soddisfa la condizione:
tn 1 ,

(10.9)

lipotesi nulla (10.1) `e rifiutata; altrimenti, H0 `e da ritenere consistente con i risultati


sperimentali.
E utile considerare alcuni svantaggi e i numerosi vantaggi che comporta lapplicazione di questo test.
A suo svantaggio, bisogna osservare che raggruppando i dati in classi e lavorando
su di queste si perdono informazioni rispetto a quelle che si potrebbero desumere
da una analisi pi`
u dettagliata del medesimo campione. Inoltre, per le condizioni

284

TEST DI IPOTESI NON PARAMETRICHE

poste su n e nk occorre disporre di un numero sufficientemente elevato di osservazioni campionarie, le quali devono essare significative per tutte le classi prese in
considerazione.
Per contro, tra i suoi vantaggi merita sottolineare:
la sua universalit`a: come gi`a accennato, si pu`o applicare anche a distribuzioni
discrete, multidimensionali, o non espresse analiticamente da una assegnata
funzione F (x).
Il test si pu`o effettuare anche per verificare ipotesi sulle propriet`a di un generico
esperimento casuale, cui si pu`o associare uno spazio campione costituito da
m eventi incompatibili A1 , . . . , Am . Allo scopo, basta valutare le frequenze
osservate nk e quelle teoriche p0k con cui gli m eventi Ak si realizzano.
Il test Chi-quadrato `e consistente, in senso affine alla definizione gi`a usata nel
6.1 per uno stimatore. Infatti, definito linsieme p 6= p0 delle probabilit`a
teoriche
p = {p1 , . . . , pm },

k = 1, . . . , m : pk = IP(X k |H1 )

sotto lipotesi alternativa che sia vera H1 , si dimostra che per ogni F H1 la
potenza Wn (p) del test tende ad 1 per n che tende ad infinito.
u generale in cui lipotesi nulla `e composta come in (10.1), a dif Nel caso pi`
ferenza del test di Kolmogorov-Smirnov non `e difficile definire una appropriata
regione critica. Vale infatti il seguente ulteriore risultato.

10.1 Test sulla legge di distribuzione

285

Test Chi-quadrato per ipotesi H0 composte


Se la distribuzione F (x, ) da testare dipende da un insieme di r parametri incogniti, allore lipotesi nulla (10.1) `e caratterizzata da un insieme
p0 () = {p01 (), . . . , p0m ()}
che non `e univocamente definito perche dipendente dagli r parametri incogniti. Se
per`o si sostituisce con una sua stima di massima verosimiglianza, si pu`o definire
la statistica modificata:
m
2
X
[nk np0k ()]
=
Tn ()
(10.10)

np0k ()
k=1
che diventa una funzione dei soli dati campionari, e pu`o essere determinata per ogni
realizzazione del campione X.
ricordiamo (cfr. 8.1.2) che se r = 1 e `e il valor medio di F , la
Per determinare ,
sua stima di massima verosimiglianza coincide con la media campionaria n . Nel caso
generale di un insieme di r parametri incogniti da determinare sperimentalmente, si
dimostra che la stima di massima verosimiglianza di = {1 , . . . , r } `e la soluzione
rispetto a (se esiste) del sistema:
m
X

nk
0 ()
p
k=1 k

j = 1, . . . , r :

p0k ()
= 0.
j

(10.11)

TABELLA 10.2

[a k , b k )

nk

p0k

n k2
200 p k0

[0,1)

52

0,3297

41,00698

[1,3)

81

0,3691

88,87835

[3,6)

46

0,2105

50,26128

21

0,0907

42,31091

[6, +

tende
Nel 1924 Fisher ha dimostrato che quando n la distribuzione di Tn ()
alla legge Chi-quadrato con (m 1 r) gradi di libert`a, dove r `e il numero dei
parametri incogniti di F (x, ).
Ne segue che la regione di rifiuto dellipotesi nulla composta (10.1) `e ancora lintervallo (10.8) in cui per`o 1 `e il quantile della Chi-quadrato con (m 1 r) gradi
di libert`a, e la regola del test per ipotesi composte si modifica come segue.
. Siano nk le frequenze osservate in un campione di numerosit`
a n, tali da soddisfare
le condizioni n 50; nk 5 k = 1, . . . , m. Al livello di significativit`a , se il

286

TEST DI IPOTESI NON PARAMETRICHE

valore empirico tn della statistica (10.10) soddisfa la condizione: tn 1 dove


1 `e il quantile della distribuzione Chi-quadrato con m 1 r gradi di libert`a,
allora lipotesi nulla (10.1) `e rifiutata; altrimenti, H0 `e da ritenere consistente con
i risultati sperimentali.
Esempio 10.2

NellEsempio 9.9 del Capitolo precedente `e stato proposto un test sulle medie degli
intervalli di tempo tra due controlli di manutenzione di unapparecchiatura di bordo.
Vediamo ora se le n = 200 osservazioni campionarie gi`a utilizzate sono compatibili
con lipotesi che il tempo X() intercorso tra due successivi controlli abbia una
distribuzione esponenziale con valor medio X = 1/ = 2.5 mesi. Lipotesi nulla `e

H0 :

2
FX (x) = 1 exp x ,
5

x IR+

e per verificarla applicando il test Chi-quadrato occorre suddividere IR+ in m opportuni intervalli, ad esempio:
IR+ = [0, 1) [1, 3) [3, 6) [6, +).
Supponiamo che dalla serie ordinata dei 200 dati campionari si ricavi per ciascuno
dei 4 intervalli le frequenze assolute nk riportate nella terza colonna della Tabella
10.2.
Se H0 `e vera, le probabilit`a teoriche per ciascuna classe, riportate nella quarta
colonna, valgono:

k = 1, . . . , 4 :

p0k

2
2
= F (ak+1 ) F (ak ) = exp ak exp ak+1
5
5

Calcoliamo ora il valore empirico della statistica Tn definita nella (10.7), sommando
le quantit`a n2k /200p0k riportate nellultima colonna, e sottraendo n = 200. Si ottiene:
tn = 4.45752.
Scelto un livello di significativit`a = 0.01, la Tabella dei quantili della distribuzione
Chi-quadrato mostra che la regione di rifiuto di H0 `e lintervallo:
C = (6.25, +).
Poiche tn non vi appartiene, concludiamo che al livello = 0.01 o inferiori lipotesi
di una distribuzione esponenziale con media 2.5 mesi `e consistente con le osservazioni
del campione.
Supponiamo invece di non assegnare il parametro della distribuzione teorica esponenziale con cui intendiamo esprimere le propriet`a della variabile X(). In tal caso,
lipotesi nulla `e composta:
H0 :

FX (x) F0 = {F (x, ) = 1 ex , IR+ }.

(10.12)

Per valutare si assume la sua stima di massima verosimiglianza, che coincide con
il reciproco della media campionaria gi`a utilizzata nellEsempio 9.9:
1
1
=
=
.
n
3.4

10.1 Test sulla legge di distribuzione

287

Ne segue che se lipotesi nulla `e vera, le probabilit`a teoriche da calcolare son ora:

= exp
p0k ()

ak
3.4

exp

ak+1
3.4

e per k = 1, . . . , 4 valgono:
= 0.2548,
p01 ()

= 0.3314,
p02 ()

= 0.2426,
p03 ()

= 0.1712.
p04 ()

(Si noti che la loro somma `e sempre uguale ad 1, probabilit`a dellevento certo).

1
Fk

1 )
F(x, q = 3,4
1
l = 2,5

10

5 6

15

Figura 10.1

fornito dalla (10.10), risulta


Il valore empirico della statistica modificata Tn (),
pertanto: tn = 8.54, mentre la nuova regione di rifiuto di H0 si valuta determinando
il quantile 0.90 della distribuzione Chi-quadrato con 4 1 1 = 2 gradi di libert`a.
Si ricava ora: C = (4.61, +), che contiene il valore empirico tn . Ne segue che al
livello di significativit`a = 0.10 lipotesi composta (10.11) non `e consistente con
i dati campionari aventi media n = 3.4 mesi. Osserviamo tuttavia che la stessa
ipotesi `e da accettare se diminuiamo il livello di significativit`a del test ad = 0.01,
perche allora la regione di rifiuto diventa C = (9.21, +) ed esclude il valore empirico
sopra determinato.
La Fig. 10.1 mostra il confronto tra le due distribuzioni teoriche (quella con media
X = 2.5 assegnata e quella con media stimata n = 3.4), e il grafico delle frequenze
cumulate relative Fk che si ricavano dalle 200 osservazioni campionarie, raggruppate
nelle 4 classi che abbiamo utilizzato. /
Esempio 10.3

Per controllare i tavoli da gioco di un Casino si registrano 10.000 giocate di una


stessa roulette, manovrata da croupier diversi e scelti a caso. Dallindagine risulta
che il rosso `e uscito 4.828 volte, il nero 4.921 volte, e per 251 volte `e uscito lo zero.

288

TEST DI IPOTESI NON PARAMETRICHE

Con quale livello di significativit`a si pu`o affermare che quella roulette non `e truccata
?
Gli eventi da considerare sono tre:
A1 = {esce il rosso},

A2 = {esce il nero},

A3 = {esce lo zero},

e assumendo come ipotesi nulla che luscita di uno tra i 37 numeri, compreso lo zero,
sia equiprobabile (ovvero che la roulette non sia truccata), le probabilit`a teoriche
dei tre eventi sono:
18
18
1
p01 = IP(A1 ) = ,
p02 = IP(A2 ) = ,
p03 = IP(A3 ) = .
37
37
37
Le frequenze osservate dei tre eventi sono:
n1 = 4.828,

n2 = 4.921,

n3 = 251

e calcolato il valore empirico della statistica (10.7) con n = 10.000 si ottiene: tn =


2, 301.
Confrontiamo ora questo valore con i quantili della distribuzione Chi-quadrato con
3 1 = 2 gradi di libert`a. Nel test interessa soprattutto limitare il pi`
u possibile
il rischio di errore di seconda specie, per evitare di concludere che la roulette non
`e truccata mentre invece lo `e. Sar`a perci`o conveniente usare il massimo rigore,
assumendo il maggior rischio possibile di prima specie. Dallesame della Tabella
Chi-quadrato risulta che 1 = 1, 39 per = 0, 5 e 1 = 2, 77 per = 0, 25.
Interpolando linearmente in questo intervallo, si trova che 1 = 2, 31 per
1 = 0, 5 + 0, 25

2, 31 1, 39
= 0, 6667.
2, 77 1, 39

Dunque, al livello di significativit`a = 10, 6667 = 0, 3333 la regione critica del test
`e C = (2.31, +), e non contiene il valore empirico tn = 2, 301. Si pu`o concludere
che la roulette non `e truccata al livello di significativit`a 0, 333, ovvero con circa il
33% di probabilit`a di rigettare lipotesi nulla mentre essa `e vera. /
Esempio 10.4: test Chi-quadrato per il modello di Poisson

Supponiamo di disporre di n osservazioni indipendenti di una variabile aleatoria


X() con valori interi xi = 0, 1, 2, . . ., e di voler verificare lipotesi H0 : FX (x)
() che X abbia una distribuzione di Poisson con parametro da determinare.
Suddividiamo linsieme {xi } = IN nelle m classi:
k = k 1 per k = 1, 2, . . . m 1
m = {m 1, m, m + 1, m = 2, . . .},
e specifichiamo lipotesi nulla determinando le probabilit`a p0k () che otteniamo applicando la (2.52). Esse sono:
p0k () = fX (k 1, ) =
p0m () =

X
k=m1

e k1
,
(k 1)!

f (k, ) = e

k = 1, 2, . . . , m 1

k
.
k!
k=m1

(10.13)

10.1 Test sulla legge di distribuzione

289

TABELLA 10.3
numero
contravvenzioni

xi

nk

p 0 (m n )

n k - 104p 0( m n )

0
1
2
3
4
5
6
7
8
9
10 o piu'

1
2
3
4
5
6
7
8
9
10
11

5
5
8
15
17
16
13
9
5
6
5

0,0083
0,0396
0,0949
0,1518
0,1821
0,1747
0,1397
0,0958
0,0574
0,0306
0,0251

4,1368
0,8816
-1,8696
-0,7872
-1,9384
-2,1688
-1,5288
-0,9632
-0,9696
2,8176
2,3896

Poiche il parametro della distribuzione di Poisson coincide con il suo valore atteso,
la sua stima di massima verosimiglianza `e uguale alla media campionaria: = n ,
per cui nella statistica (10.10) si devono inserire le probabilit`a
=
p0k ()

en k1
n
,
(k 1)!

= en
p0m ()

k = 1, 2, . . . , m 1

m1
X
kn

=1
pk ().
k!
k=m1
k=1

(10.14)

Calcoliamo ora le frequenze assolute nk . Per k = 1, . . . , m 1, esse sono uguali


al numero di osservazioni con valore xi = k 1, mentre nm `e data dal numero di
osservazioni da cui risulta un valore xi m 1.
Siamo ora in grado di calcolare il valore empirico tn della statistica (10.10) e di
confrontarlo con la tabella dei quantili della distribuzione Chi-quadrato con m 2
gradi di libert`a, rigettando lipotesi nulla se e solo se tn 1 .
. Ad esempio, supponiamo di voler verificare se il numero di contravvenzioni giornaliere elevate da un vigile urbano si pu`o ritenere distribuito casualmente con legge
di Poisson. Nellesaminare i verbali di n = 104 suoi giorni lavorativi, scegliamo
m = 11 e indichiamo con nk , k = 1, . . . , 10 il numero di giorni in cui ha elevato k 1
contravvenzioni, e con n11 il numero di giorni in cui ha elevato 10 o pi`
u contravvenzioni. Risultano le frequenze riportate nella terza colonna della Tabella 10.3, le quali
forniscono un valor medio
n =

11
1 X

(k 1)nk = 4, 798 .
104 k=1

(10.15)

Per tale valore di le probabilit`a teoriche, nellipotesi che H0 sia vera, sono quelle
indicate nella quarta colonna. Nellultima colonna sono infine mostrati i corrispon-

290

TEST DI IPOTESI NON PARAMETRICHE

denti valori delle differenze nk np0k (4, 798). Da questi si ricava il valore empirico
tn = 26, 14655 della statistica (10.10).
Se si assume un ragionevole livello di significativit`a: = 0.10, il quantile 0.9 della
distribuzione Chi-quadrato con 9 gradi di libert`a mostra che la regione di rifiuto
del test `e C = (14.7, +) e contiene tn . Dunque, al livello = 0.10 si conclude
che lipotesi di una distribuzione di Poisson del numero di contravvenzioni non `e
consistente con le risultanze dei verbali esaminati. /
Esempio 10.5: test Chi-quadrato per il modello normale

Supponiamo ora di avere n osservazioni di un carattere X che pu`o assumere qualsiasi


valore reale, e di voler verificare lipotesi H0 che X() abbia distribuzione Normale
generale N (1 , 2 ) con media e varianza da determinare.
Per procedere in un test Chi-quadrato, occorre definire una partizione opportuna di
IR in m intervalli k = [ak , bk ), k = 1, . . . , m con
a1 = ,
a2 = b1
ak+1 = ak + h, h > 0;

k = 2, . . . , m 1 :

bm = +

scelti in modo che n1 = nm = 0. Lipotesi H0 `e allora specificata dalle probabilit`a


p0k (1 , 2 )

1
=
22

Z bk
ak

"

(x 1 )2
exp
dx,
22

k = 1, . . . , m

(10.16)

che hanno derivate parziali


p0k
1
p0k
2

"

=
=

bk
(x 1 )2
1

(x 1 ) exp
dx
22
2 22 ak
#
"
Z bk
1
p0k ()
(x 1 )2
2

dx

.
(x

)
exp

2
22
22
222 22 ak

La stima di massima verosimiglianza del parametro bidimensionale = {1 , 2 }


`e ora da ricercarsi come soluzione del sistema (10.12) che qui si scrive:
"

m
X

bk
nk
1
(x 1 )2
(x

)
exp

dx = 0

1
22
p0 () 3/2 2 ak
k=1 k
2
(
"
#
)
Z bk
m
X
nk
1
(x 1 )2
2
0

(x 1 ) exp
dx 2 pk () = 0.
22
p0 ()
22 ak
k=1 k

Tenuto conto che

P
k

nk = n e dellespressione (10.16) di p0k , esso fornisce:


Z bk

1 =

(x 1 )2
x exp
dx
22

m
ak
1X
nk Z
bk
n k=1
ak

"

"

(x 1 )2
exp
dx
22

10.1 Test sulla legge di distribuzione


Z bk

2 =

m
1X
nk
n k=1

ak

291
"

(x 1 )2
dx
(x 1 ) exp
22
2

Z bk
ak

"

(x 1 )2
exp
dx
22

(10.17)

Se lampiezza h degli intervalli k in cui fk 6= 0 `e ragionevolmente piccola, gli


integrali nella (10.17) si possono approssimare con i prodotti di h per i rispettivi
integrandi calcolati nei valori centrali xk di ciascun intervallo, avendo lavvertenza
di definire i valori estremi con x1 = b1 e xm = am . In questo modo si ricavano
facilmente le seguenti stime approssimate di massima verosimiglianza:
m
1X
1 '
nk xk ,
n k=1

m
1X
2 '
nk (xk 1 )2
n k=1

(10.18)

che si mostrano valide anche se n1 e nm non sono esattamente nulle, ma soltanto


molto minori della numerosit`a n del campione da cui si traggono le osservazioni.

TABELLA 10.4

1
2
3
4
5
6
7
8
9
10
11
12
13

Dk
(- , -0.5)
[-0.5, 0.5)
[0.5, 1.5)
[1.5, 2.5)
[2.5, 3.5)
[3.5, 4.5)
[4.5, 5.5)
[5.5, 6.5)
[6.5, 7.5)
[7.5, 8.5)
[8.5, 9.5)
[9.5, 10.5)
[10.5, + )

xk

nk

zk

erf( z k )

p0

n k - n p 0k

-0,5
0
1
2
3
4
5
6
7
8
9
10
10,5

0
5
5
8
15
17
16
13
9
5
6
5
0

-2,0955
-1,7000
-1,3000
-0.9090
-0,5134
-0,1178
0,2776
0,6732
1,0680
1,4640
1,8590
2,2550

-0,5000
-0,4820
-0,4554
-0,4032
-0,3186
-0,1950
-0,0470
0,1103
0,2486
0,3577
0,4280
0,4686
0,4878

0,0180
0,0266
0,0522
0,0846
0,1236
0,1480
0,1573
0,1383
0,1091
0,0703
0,0406
0,0192
0,0122

1,8700
2,2335
0,4288
0,7984
2,1455
1,6080
0,3591
1,3832
2,3464
2,3112
1,7776
3,0033
1,2688

Valutando quindi il parametro incognito bidimensionale con le stime (10.18), `e possibile determinare il valore empirico tn della statistica Tn definita con la (10.10).
Se H0 `e vera ed n `e sufficientemente grande, la distribuzione di Tn ha legge Chiquadrato con m 3 gradi di libert`a. Lipotesi di una legge normale per il carattere
X `e allora da accettare, al livello di significativit`a , se tn `e minore del quantile
1 della distribuzione Chi-quadrato con m 3 gradi di libert`a.
. Per sviluppare un caso numerico concreto, supponiamo ora che le 104 osservazioni
con frequenze nk riportate nella Tabella 10.3 dellEsempio precedente siano state
estratte da un carattere X definito con continuit`
a su IR, e che con esse si voglia
verificare se X `e normalmente distribuito.

292

TEST DI IPOTESI NON PARAMETRICHE

E opportuno definire 11 intervalli k , k = 2, . . . , 12 di ampiezza h = 1 con valori


centrali xk = 0, 1, . . . , 10, pi`
u altri due che si estendono a , per un totale di
m = 13 intervalli come mostrato nella Tabella 10.4. Nel caso presente, si deve
intendere che le frequenze nk elencate nella quarta colonna sono relative al numero
di osservazioni che cadono nellintervallo k .
Le stime (10.18) dei due parametri della distribuzione non sono altro che la media
gi`a calcolata nella (10.15) e la varianza dei dati osservati, che vale
12
1 X
2 =
nk [k 2 1 ]2 = 6, 39192.
104 k=2

Usando queste stime, si calcolano le probabilit`a teoriche che per la (10.16) valgono:

p0k (1 , 2 ) = erf

b 1
k
q

erf

a 1
k
q

e si deducono ricavando con la Tabella di erf(z) i due valori richiesti


q della funzione
degli errori. Nella Tabella 10.4 sono riportate: zk = (ak 1 )/ 2 , erf(zk ), le
usate per ottenere il valore empirico della
probabilit`a p0k e le differenze nk np0k ()
statistica (10.10). Questo valore empirico vale tn = 11, 72.
Il quantile 0.75 della distribuzione Chi-quadrato con m 3 = 10 gradi di libert`a
vale 12.5, per cui al livello = 1 0.75 = 0.25 la regione di rifiuto del test `e
C = (12.5, +) che non contiene tn . Se ne conclude che assumendo un rischio di
prima specie del 25%, lipotesi che X abbia una distribuzione normale con i parametri
sopra stimati `e consistente con le frequenze osservate. /

10.2

Test di omogeneit`
a

Siano X e Y due campioni estratti dalla medesima popolazione in modo indipendente, per esempio in tempi diversi o in condizioni generali diverse. Uno dei problemi
pi`
u importanti nella Statistica applicata consiste nel verificare se X e Y sono campioni omogenei, nel senso che si possono considerare estratti da una popolazione
con propriet`a identiche oppure se, al contrario, la sua distribuzione `e variata da
campione a campione. Problemi di questa natura si incontrano, ad esempio, nel
controllo di qualit`a della produzione, in medicina, nella pianificazione dellassetto
del territorio e nelle Scienze economiche.
Nella sua formulazione generale, si indicano con FX (t) e FY (t) le funzioni di distribuzione (incognite) della popolazione da cui sono stati estratti i due campioni, e
si effettua un test assumendo le ipotesi:
H0 :
H1 :

FX (t) = FY (t)
FX (t) 6= FY (t)

t IR
per almeno un t IR.

(10.19)

10.2 Test di omogeneit`


a

293

In questo paragrafo presenteremo dapprima alcuni test per la verifica di queste


ipotesi, concludendo con un test per il caso pi`
u generale in cui il numero dei campioni
sia maggiore di due.

10.2.1

Test dei segni

Questo test `e di facile esecuzione, ma si applica solo quando i due campioni X =


(X1 , . . . , Xn ) e Y = (Y1 , . . . , Yn ) hanno la stessa numerosit`
a.
Formate le n coppie (Xi , Yi ), indichiamo con n+ la frequenza assoluta delle coppie in
cui la differenza Xi Yi ha segno positivo; con n quella delle coppie in cui Xi Yi
ha segno negativo; e con n0 la frequenza delle coppie in cui Xi = Yi . Consideriamo
quindi la statistica
Sn = n+ n
(10.20)
effettuata sulle (n n0 ) coppie in cui Xi 6= Yi . Se H0 `e vera, le distribuzioni
campionarie di n+ ed n sono uguali, e per (n n0 ) sufficientemente grande (per es.
circa maggiore di 10) si approssimano con leggi normali aventi media (n n0 )/2 e
varianza (nn0 )/4, che si ricavano applicando la (7.21). Di conseguenza, la statistica
Sn ha anchessa distribuzione normale, con media nulla e varianza n2 = (n n0 )/2
che `e data dalla somma delle varianze di n+ , n (si applichi la (3.8) al caso di una
differenza di variabili aleatorie).
Fissato un livello di significativit`a , potremo allora procedere a un test bidirezionale
su Sn per verificare, con la procedura gi`a esposta nel 8.2, se il suo valore empirico
sn `e sufficientemente piccolo. Questo test dei segni si effettua definendo la regione
critica
C = (, n z1 ) (n z1 , +)
dove z1 `e il coefficiente fiduciario della Normale standardizzata per cui erf(z1 ) =
(1 )/2. Al livello di significativit`a , dovremo dunque accettare H0 , concludendo
che i campioni X e Y sono omogenei (vale a dire: la distribuzione della popolazione
non `e variata), se il valore empirico della statistica Sn soddisfa la condizione:
r

|sn | <

n n0
z1 .
2

(10.21)

E bene osservare che per la verifica dellipotesi nulla questo test si avvale di una
condizione piuttosto debole, ossia che la distribuzione di Sn abbia mediana nulla.
Questa `e certamente una condizione necessaria perche H0 sia vera, ma non certo
sufficiente per affermare che i due campioni provengono da popolazioni ugualmente
distribuite per ogni z IR. In questo senso, il test non sfrutta in modo efficiente
le informazioni fornite dal campione, e deve essere utilizzato per la sua praticit`a
soltanto nella fase preliminare di uno studio statistico che potr`a avere bisogno di
approfondimenti.
Esempio 10.6

294

TEST DI IPOTESI NON PARAMETRICHE

Si effettuano in tempi diversi n = 15 osservazioni del medesimo carattere di una


popolazione, ricavandone i due seguenti campioni statisticamente indipendenti:
X = (0.3928, 0.9974, 0.1714, 0.9272, 2.54, 0.2092, 1.106,
1.713, 1.074, 0.2084, 0.3239, 2.08, 1.148, 0.1413, 0.8863)
Y = (0.8939, 2.62, 0.573, 0.5187, 0.5972, 0.5954, 0.0836,
(10.22)
1.459, 1.074, 1.921, 0.273, 1.952, 1.242, 0.4507, 0.2178).
Dal confronto delle osservazioni risultanti dai due campioni si pu`o affermare che essi
sono stati estratti da popolazioni con la medesima distribuzione ?
Eseguiamo un test dei segni calcolando le differenze Xi Yi . Esse valgono:
(1.2867, 1.6226, 0.7444, 1.4459, 1.9428, 0.8046, 1.1896,
0.254, 0, 1.7126, 0.0509, 0.128, 0.094, 0.592, 0.6685)
per cui si ricava:
n+ = 8,

n = 6,

n0 = 1,

sn = 2.

0.4

f Y (t)
0.2

f (t)
X

0
-5

-4

-3

-2

-1

Figura 10.2 - Confronto tra le densit`


a di probabilit`
a teoriche di

X e Y.

Fissato un livello di significativit`a = 0.05, il coefficiente fiduciario che si ricava


dalla Tabella di erf(z) vale z1 = 1.96, e lipotesi nulla che FX (t) = FY (t) `e da
accettare se sn verifica la condizione
r

|sn | <

15 1
1.96 = 5.1856.
2

Poich`e il valore empirico calcolato `e sn = 2 si deve concludere, accettando un errore


di prima specie del 5%, che la popolazione da cui sono stati estratti i due campioni
ha la medesima distribuzione.
In realt`a, per definire i dati di questo Esempio i due campioni sono stati generati
da un computer nel modo seguente: X `e un campione casuale estratto da una

10.2 Test di omogeneit`


a

295

popolazione normale con media 0.8 e varianza 1, mentre Y `e stato estratto da una
popolazione con legge parabolica (cfr. 2.3.11) nellintervallo [1, 3]. Dal confronto
tra le due densit`a teoriche fX (t) e fY (t), mostrato in Fig. 10.2, risulta evidente
la diversit`a, soprattutto qualitativa, tra le due distribuzioni. Si pu`o per`o anche
sostenere che esse grossolanamente si somigliano, nel senso che concentrano gran
parte delle masse di probabilit`a nello stesso intervallo dellasse reale: e questo `e, in
definitiva, il responso che `e in grado di fornire il test che abbiamo appena effettuato.

10.2.2

Test dei ranghi

Esiste una classe speciale di test, che sono stati proposti per effettuare la statistica su
uno o pi`
u caratteri qualitativi della popolazione, che sono definibili in termini di una
qualche relazione tra le osservazioni effettuate anziche dal loro valore numerico. Essi
prendono il nome di test dei ranghi, perche le osservazioni sono ordinate secondo un
determinato criterio di preferenza, e la posizione che ciascun dato assume in questa
sequenza `e chiamata rango della osservazione.
Un test sui ranghi pu`o avere per oggetto, come caso particolare, anche campioni
di caratteri quantitativi, e quello elaborato da Wilcoxon per verificare lipotesi di
omogeneit`a (10.19) pur essendo semplice come quello dei segni, ha il vantaggio,
rispetto a questultimo, di essere applicabile a campioni con differente numerosit`
a.
Siano X = (X1 , . . . , Xn ) e Y = (Y1 , . . . , Ym ) due campioni indipendenti di numerosit`a n ed m, estratti con le solite modalit`a da una popolazione. Si procede
ordinando in ununica sequenza crescente gli n + m dati provenienti dai due campioni, e si associa a ciascun dato il suo rango, definito dal numero dordine che esso
occupa nella sequenza cos ordinata. Se alcuni dati si ripetono due o pi`
u volte, il loro
rango `e la media delle posizioni da essi occupate nella sequenza ordinata. Chiamate
rispettivamente con SX ed SY le somme dei ranghi degli elementi Xi , Yj dei due
campioni, si considera quindi la statistica
U = min{UX , UY }

(10.23)

in cui

n(n + 1)
m(m + 1)
SX ,
UY = nm +
SY .
2
2
E stato dimostrato da Wilcoxon che se lipotesi nulla (10.19) `e vera, per n, m
+ la statistica (10.23) tende alla distribuzione normale con media U = nm/2 e
varianza U2 = nm(n + m + 1)/12. Questa sua propriet`a asintotica pu`o gi`a essere
utilizzata se n, m 4 con n + m 20, e sotto queste condizioni fornisce una buona
approssimazione della regione critica per un test bidirezionale sulla corrispondente
statistica normalizzata:
UX = nm +

U nm/2
nm(n + m + 1)/12

Zn,m = p

(10.230 )

che sotto lipotesi H0 vera deve avere media pressoche nulla. Infatti, se z1 `e il
coefficiente fiduciario al livello della distribuzione Normale standard, la regione

296

TEST DI IPOTESI NON PARAMETRICHE

critica del test `e C = (, z1 ) (z1 , +) e di conseguenza lipotesi nulla `e da


accettare se il valore empirico zn,m della statistica (10.23) soddisfa la condizione:
|zn,m | < z1 .
Esempio 10.7

Per illustrare una applicazione del test dei ranghi utilizziamo ancora le osservazioni
ricavate dai campioni (10.22) dellEsempio precedente, ma per sfruttare larbitrariet`a
sulla scelta del numero di osservazioni che possono essere fornite dai due campioni,
supponiamo ora che X contenga questi 5 ulteriori dati:
0.92, 1.2, 0.566, 0.422, 0.962
in modo che la numerosit`a del campione X diventa n = 20, e quella di Y rimane
m = 15.
Disponiamo i 35 dati campionari in una sequenza ordinata crescente, che `e riprodotta
nella Tabella 10.5 insieme con la indicazione del campione da cui i dati provengono
e del rango da attribuire a ciascun dato. La somma dei ranghi delle osservazioni
fornite dai due campioni `e rispettivamente SX = 361.5 e SY = 268.5 (si noti che
deve risultare: SX + SY = nm), da cui si ottiene: UX = 148.5 e UY = 151.5.
TABELLA 10.5
dato

campione rango

dato

campione rango

dato

campione rango

-0,5730

0,4507

13

1,1060

25

-0,5187

0,5660

14

1,1480

26

-0,3928

0,5954

15

1,2000

27

-0,2092

0,5972

16

1,2420

28

-0,1413

0,8863

17

1,4590

29

-0,0836

0,8939

18

1,7130

30

0,1714

0,9200

19

1,9210

31

0,2084

0,9272

20

1,9520

32

0,2178

0,9620

21

2,0800

33

0,2730

10

0,9974

22

2,5400

34

0,3239

11

1,0740

23,5

2,6200

35

0,4220

12

1,0740

23,5

Se H0 `e vera, la distribuzione della statistica U definita con la (10.23) `e approssimabile con una Normale con media U = nm/2 = 150 e varianza U2 = 900; il suo valore
empirico risulta: min{UX , UY } = 148.5, e ad esso corrisponde un valore empirico
zn,m =

148.5 150
= 0.05
30

della variabile standardizzata Zn,m definita nella (10.23).

10.2 Test di omogeneit`


a

297

Al livello di significativit`a = 0.05, il valore assoluto di zn,m `e minore del coefficiente fiduciario z1 z0.95 = 1.645 e di conseguenza, tenuto anche conto che la
numerosit`a dei due campioni `e maggiore di 4 con n + m > 20, il test dei ranghi si
conclude nellaccettare lipotesi nulla H0 : FX (t) = FY (t).

10.2.3

Test di Smirnov

E una estensione del test di Kolmogorov-Smirnov, esposto nel 10.1.1, per la verifica di ipotesi di omogeneit`a del tipo (10.19) riguardanti una coppia di funzioni di
distribuzione continue FX (t) e FY (t).
Questo test si basa sulla statistica
Dn,m =

sup

<t<+

|Fn,X (t) Fm,Y (t)|

(10.24)

dove Fn,X (t) e Fm,Y (t) sono le funzioni di distribuzione empiriche (10.4) costruite
con due campioni X, Y rispettivamente di numerosit`
a n ed m.

1.00

n,X

(t)

0.75

m,Y

(t)

0.50

n,X

0.25

(t) F

m,Y

(t)

0
-1

-0.25
Figura 10.3 - Distribuzioni empiriche di

X, Y e loro differenza.

Al crescere di n, m queste due distribuzioni empiriche sono stime ottime delle corrispondenti funzioni di distribuzione teoriche FX (t), FY (t) delle popolazioni da cui
sono estratti i due campioni. Se lipotesi nulla (10.19) `e vera, ne segue che per n ed
m sono sufficientemente grandi la statistica Dn,m non si scosta praticamente da zero,
ed H0 `e da accettare se il valore empirico dn,m della statistica (10.24) non supera
un certo valore limite, prescritto dal livello di significativit`a scelto.
Questo valore limite `e fornito da una propriet`a asintotica di Dn,m analoga a quella
della statistica (10.5), e dimostrata da un Teorema dovuto a Smirnov. Da esso
si deduce la regola seguente: indipendentemente dalla forma delle funzioni di distribuzione (continue) da confrontare, lipotesi H0 di omogeneit`a `e da accettare al

298

TEST DI IPOTESI NON PARAMETRICHE

livello di significativit`a se, per n, m sufficientemente grandi `e verificata la condizione:


r
n+m
dn,m <

(10.25)
nm
dove `e il coefficiente fiduciario gi`a utilizzato per il test di Kolmogorov del 10.1.1.
Esempio 10.8

Eseguiamo il test di omogeneit`a di Smirnov sui due campioni X e Y gi`a utilizzati


nellEsempio precedente 10.7. Le distribuzioni empiriche dei due campioni sono le
funzioni definite nella (10.4) con t al posto di x: sono funzioni a scalino costante
(rispettivamente uguale a 1/20 e 1/15) nei punti xi ed yi che si leggono nelle prime
colonne della Tabella 10.5.
Il loro grafico, insieme con quello delle differenze Fn,X (t) Fm,Y (t), `e riportato nella
Fig. 10.3. Il massimo di queste differenze vale dn,m = 0.1833, e poiche al livello di
significativit`a = 0.05 si ha = 1.3581 (cfr. 10.1.1), risulta:
r

dn,m = 0.1833 <

35
1.3581 = 0.46388.
300

La condizione (10.25) `e dunque soddisfatta, per cui anche con questo test lipotesi
nulla sulla omogeneit`a dei due campioni `e da accettare al livello prescritto.

10.2.4

Test Chi-quadrato di omogeneit`


a per pi`
u campioni

Questo metodo `e assai generale, perche si pu`o usare per verificare lomogeneit`a di un
numero finito qualsiasi M di campioni, estratti da una popolazione il cui carattere
X pu`o assumere valori reali sia discreti che continui.
Se X() `e una variabile aleatoria discreta, indichiamo con xk , k = 1, . . . , m i suoi m
valori che possono essere registrati nelle osservazioni campionarie; se X() `e continua
e il numero delle osservazioni `e molto elevato, suddividiamo come di consueto in m
classi k linsieme IR delle sue modalit`a, e chiamiamo con k-esima realizzazione
di X() la generica osservazione campionaria che cade nella classe k .
Supponiamo ora di avere a disposizione un numero M di campioni Xj , j = 1, . . . , M
estratti con procedure statisticamente indipendenti dalla medesima popolazione, ciascuno con numerosit`a differente, che indichiamo con nj . Analizzando questi campioni, determiniamo la frequenza assoluta nkj della k-esima realizzazione nel j-esimo
campione, in modo che, sommando su tutte le osservazioni di ogni singolo campione,
si avr`a tra laltro:
m
X

j = 1, . . . , N :

nkj = nj = numerosit`
a del campione Xj ,

k=1

e sommando anche rispetto ai vari campioni risulta:


M X
m
X
j=1 k=1

nkj =

M
X
j=1

nj = N = numero totale delle osservazioni.

10.2 Test di omogeneit`


a

299

Poich`e si vuole verificare lipotesi H0 che tutte le osservazioni siano state tratte dalla
medesima popolazione, questa ipotesi si precisa ora imponendo che
j = 1, . . . , M :

1
(n1j , . . . , nmj ) = (p01 , . . . , p0m ) = p0 ,
nj

ossia che le frequenze relative di ogni k-esima realizzazione siano uguali in tutti i
campioni, e definite da un valore comune (ma per ora incognito) p0k il quale forma
un insieme di probabilit`a p0 tale che p01 + . . . + p0m = 1.
Seguendo il metodo Chi-quadrato, come misura delle deviazioni esistenti tra le osservazioni campionarie e i loro valori teorici assumiamo la seguente statistica:
TN (p0 ) =

M X
m
X
(nkj nj p0k )2

nj p0k

j=1 k=1

(10.26)

Se non si assume nessun modello statistico per la popolazione, le probabilit`a teoriche


da cui questa statistica dipende devono essere stimate con il metodo di massima
verosimiglianza, sulla base di tutte le informazioni fornite dai campioni in nostro
possesso. Questa stima fornisce il seguente risultato:
k = 1, . . . , m :

p0k =

M
nk
1 X
=
nkj
N
N j=1

dove nk `e il numero totale delle osservazioni del dato xk che risultano negli M
campioni. Usando queste stime si pu`o ora calcolare la statistica
TN (
p0 ) = N

M X
m
X
(nkj nj nk /N )2
j=1 k=1

nj nk

=N

M X
m n2
X
kj

n n
j=1 k=1 j k

(10.260 )

e verificare se il suo valore empirico tN cade nella regione critica del test.
Questa regione critica `e ancora definita dalla (10.8), ma con 1 che ora `e il quantile
di ordine (1) della distribuzione Chi-quadrato con (m1)(M 1) gradi di libert`a,
e la regola di accettazione dellipotesi nulla sulla omogeneit`a dei campioni consiste
nel verificare che la statistica (10.25) soddisfi la condizione:
tN < 1

con (m 1)(M 1) gradi di libert`a.

(10.27)

Ricordiamo che la statistica (10.26) `e utilizzabile se non `e stato scelto un modello


statistico teorico per la popolazione da studiare. Se invece questo modello si presuppone noto, allora lipotesi nulla sar`a specificata da probabilit`a del tipo p0k (), dove
`e un insieme di r parametri incogniti del modello adottato. Per ricavare le stime
di questi parametri incogniti, occorrer`a considerare linsieme di tutti i dati come un
unico campione con frequenze assolute nk , k = 1, . . . , m e su di esso determinare
Una volta note, queste stime consentono di
la stima di massima verosimiglianza .

300

TEST DI IPOTESI NON PARAMETRICHE

che a loro volta, sostituite nella (10.26), forniscono


determinare le probabilit`a p0k ()
la statistica:
M X
m
2
X
[nkj nj p0k ()]
0
TN [p ()] =
.
(10.28)

nj p0 ()
j=1 k=1

In tal caso, per accettare lipotesi nulla `e richiesto che il valore empirico della (10.27)
sia minore del quantile della distribuzione Chi-quadrato con (m 1)M r gradi di
libert`a, dove r `e il numero dei parametri incogniti nella distribuzione teorica.
Un caso speciale di notevole rilevanza per le applicazioni sia ha quando m = 2,
ed `e relativo a problemi in cui il carattere della popolazione ha due sole modalit`a
(vero/falso, in/out,...) rappresentabili, in generale, da due eventi A e B = \A
incompatibili ed esaustivi dello spazio campione . Lipotesi nulla sulla omogeneit`a
di M campioni estratti da questa popolazione consiste in tal caso nella affermazione
(da verificare) che levento A abbia la medesima probabilit`a di realizzarsi in tutti
gli M campioni. Indichiamo per semplicit`a di scrittura con pA questa probabilit`a
teorica. Se H0 `e vera, la sua stima si effettua calcolando la frequenza relativa
dellevento A nellinsieme degli N dati forniti da tutti i campioni, e vale
M
1 X
nA
pA =
nAj =
N j=1
N

dove abbiamo indicato con nAj il numero di realizzazioni da A nel j-esimo campione,
e con nA il numero totale di realizzazioni da A. La probabilit`a teorica dellevento B
sar`a di conseguenza
nA
pB = 1 pA = 1
,
N
mentre, per gli assiomi della probabilit`a, il numero nBj di realizzazioni di B nei
singoli campioni sar`a tale che
nAj + nBj = nj ,

j = 1, . . . , M ;

nA + nB =

M
X
j=1

nAj +

M
X
j=1

nBj =

M
X

nj = N.

j=1

Inserendo allora p01 = pA e p02 = pB nella (10.26), dopo alcuni calcoli si ricava una
espressione assai comoda della statistica da usare in questo speciale problema. Essa
si pu`o scrivere:

TN (nA ) =

M n2
N
N X
Aj

nA
N nA nA j=1 nj

(10.29)

e per calcolare il suo valore empirico occorre semplicemente inserirvi il numero delle
realizzioni di A rilevate nei singoli campioni. Per la condizione (10.27), lipotesi sulla
omogeneit`a dei campioni sar`a da accettare se questo valore empirico `e minore del
quantile della distribuzione Chi-quadrato con M 1 gradi di libert`a.
Esempio 10.9

10.2 Test di omogeneit`


a

301

Si vuole studiare lomogeneit`a di M = 4 campioni estratti in tempi diversi da una


popolazione il cui carattere ha m = 21 modalit`a possibili, che si conviene di indicare
progressivamente con gli interi k = 1, . . . , 21.
Numeriamo i campioni j = 1, . . . , 4 in ordine cronologico, e riportiamo le frequenze
assolute delle realizzazioni rilevate nei vari campioni come indicato nella Tabella
10.6. Se calcoliamo le loro somme in orizzontale rispetto ai quattro campioni,
otteniamo le frequenze totali nk della realizzazione k, indicate nella quinta colonna
della stessa Tabella; e se le sommiamo in verticale rispetto allindice k, ricaviamo
le numerosit`a nj dei singoli campioni che sono riportate nellultima riga. Ne risulta
un numero totale di N = 506 osservazioni.
Se `e vera lipotesi H0 che i quattro campioni sono stati estratti dalla stessa popolazione, le probabilit`a teoriche di ciascuna realizzazione sono date da p0k = nk /506,
e sono riportate nellultima colonna.
Per verificare questa ipotesi, calcoliamo il valore empirico della statistica (10.26) con
i dati della Tabella, e confrontiamolo con i quantili della distribuzione Chi-quadrato
con 20 3 = 60 gradi di libert`a. Si ricava: t506 = 160.97, che `e maggiore dei quantili
della distribuzione Chi-quadrato con = 60 riportati in Appendice. Dunque non
`e soddisfatta la condizione (10.27), e concludiamo che i quattro campioni non sono
omogenei, ossia che la popolazione da cui sono stati estratti ha modificato la sua
distribuzione probabilistica.
In effetti, si pu`o notare dalla Tabella 10.6 che in ciascun campione le frequenze delle
osservazioni non variano con la stessa legge al crescere di k, e ci`o vale soprattutto
per il campione j = 4 che mostra frequenze pi`
u elevate per grandi valori di k.
Per convalidare questa osservazione, rifacciamo il test escludendo questultimo campione, vale a dire analizzando le 362 osservazioni risultanti dai primi tre. Il valore
empirico della statistica (10.26) risulta allora: t362 = 65.67 ed `e minore del quantile
0.995 = 66.8 della distribuzione Chi-quadrato con 2 20 = 40 gradi di libert`a. Ci`o
significa che, almeno al livello di significativit`a = 0.005, `e da accettare lipotesi
nulla di omogeneit`a dei primi tre campioni, e con lo stesso rischio di prima specie si
deve concludere che la popolazione ha modificato la sua distribuzione teorica dopo
lestrazione del terzo campione e prima dellestrazione del quarto. /
Esempio 10.10

Per effettuare un controllo di qualit`a nella produzione di un determinato oggetto,


si esaminano quattro campioni indipendenti, estratti a caso dalla popolazione degli
oggetti prodotti quotidianamente. Le numerosit`
a dei campioni sono:
n1 = 119,

n2 = 113,

n3 = 93,

n4 = 147.

(10.300 )

Indicato con A levento: produzione di un esemplare difettoso, si rilevano le frequenze assolute nAj , j = 1, . . . , 4 degli elementi difettosi in ciascun campione. Esse
sono:
nA1 = 7,
nA2 = 13,
nA3 = 5,
nA4 = 15.
(10.30)
Si vuole effettuare un test di omogeneit`a sui campioni, per verificare se `e variata in
modo apprezzabile la probabilit`a di produzione di oggetti difettosi.

302

TEST DI IPOTESI NON PARAMETRICHE

TABELLA 10.6
k

n k1

n k2

n k3

n k4

nk

p0

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21

3
11
7
9
14
9
0
6
5
2
0
4
3
1
3
2
0
1
0
0
0

2
7
15
11
9
17
5
16
8
4
2
6
5
4
3
0
6
0
2
1
1

9
15
14
21
15
21
9
0
10
8
7
5
6
5
4
0
2
0
3
1
2

4
8
12
5
0
9
6
0
14
8
0
12
15
14
10
7
6
4
5
3
2

18
41
48
46
38
56
20
22
37
22
9
27
29
24
20
9
14
5
10
5
6

0,0356
0,0810
0,0949
0,0909
0,0751
0,1107
0,0395
0,0435
0,0731
0,0435
0,0178
0,0534
0,0573
0,0474
0,0395
0,0178
0,0277
0,0099
0,0198
0,0099
0,0119

n j=

80

125

157

144

N = 506

1,0000

Il numero totale degli oggetti difettosi osservati `e nA = 40, e il numero totale degli
oggetti osservati `e N = 492. Assumiamo lipotesi nulla H0 che la frequenza relativa
degli elementi difettosi sia inalterata: essa `e descritta da una probabilit`a teorica
pA = 40/492 = 0.0813, e da una probabilit`a di elementi non difettosi che vale
1 pA = 0.9187.
Per procedere al test Chi-quadrato di omogeneit`a `e sufficiente usare le (??), che
introdotte nella statistica (10.29) forniscono il valore empirico: t492 = 3.077. Al
livello di significativit`a = 0.10, il quantile 0.9 della distribuzione Chi-quadrato
con 1 3 = 3 gradi di libert`a vale 6.25, ed `e maggiore di t492 . Dunque, con un rischio
di prima specie del 10% si deve accettare H0 , concludendo che la percentuale di
prodotti difettosi `e rimasta invariata.

10.3 Test di indipendenza

10.3

303

Test di indipendenza

Nelle applicazioni si pone di frequente il problema di verificare se due caratteri X, Y


di una popolazione sono statisticamente indipendenti. Supponiamo che i due caratteri siano stati osservati in modo da disporre di un campione casuale bidimensionale
(X1 , Y1 ), . . . , (Xn , Yn ) di numerosit`
a n. Ricordando la definizione di variabili causali
indipendenti data nel 3.1.3, un test di indipendenza deve consistere nella verifica
della ipotesi nulla:
H0 :
FXY (x, y) = FX (x)FY (y)
(10.30)
dove FX,Y `e la funzione di distribuzione congiunta della dei caratteri aleatori (X,Y),
ed FX (x), FY (y) sono le rispettive distribuzioni marginali. Il test pi`
u usato per
compiere tale verifica si basa sul metodo Chi-quadrato gi`a applicato nei paragrafi
precedenti, e si sviluppa come segue.

10.3.1

Test Chi-quadrato di indipendenza

Il metodo si applica a generici modelli discreti con un numero finito di realizzazioni.


Ci`o significa che i caratteri X e Y possono avere modalit`a rappresentabili con:
variabili casuali discrete, che assumono rispettivamente valori (X1 , X2 , . . . , XmX )
e (Y1 , Y2 , . . . , YmY ), oppure:
variabili aleatorie continue, in cui il supporto di X (anche lintero asse reale)
(X)
sia preventivamente suddiviso in mX intervalli o classi h , h = 1, . . . , mX e
(Y )
quello di Y in mY intervalli k , k = 1, . . . , mY .
Indichiamo con nhk il numero delle coppie osservate in cui
(X)

(Y )

(Xi , Yi ) : Xi h , Yi k

(X)

aventi cio`e dati che sono contenuti nel rettangolo h


assolute sono tali che:
m
X
X

nhk = nk ;

h=1

mY
X

nhk = nh ;

k=1

(Y )

k . Queste frequenze

m
mY
X X
X

nhk = n

h=1 k=1

dove le nh (e rispettivamente le nk ) sono frequenze assolute marginali, uguali al


(X)
numero delle coppie aventi un dato Xi che appartiene allintervallo h (oppure un
(Y )
dato Yi che appartiene allintervallo k ). Se lipotesi nulla (10.30) `e vera, esistono
certamente mX + mY costanti p0h , p0k [0, 1] tali che
(X)

(Y )

p0hk = IP[(X h ) (Y k )] = p0h p0k ,

h = 1, . . . , mX , k = 1, . . . , mY ,

304

TEST DI IPOTESI NON PARAMETRICHE

e la loro stima di massima verosimiglianza, per ogni indice h, k `e:


nh
nk
p0h =
,
p0k =
.
n
n
Dunque se H0 `e vera, ricordando che il rapporto nhk /n `e la frequenza relativa conY
giunta delle osservazioni che cadono nel rettangolo X
h k , si deduce che le differenze:

nhk
1
nh nk
0
0
ph pk =
nhk
n
n
n
dovrebbero essere sufficientemente piccole in valore assoluto. Seguendo il metodo
Chi-quadrato si considera perci`o la statistica

m
mY
X X
X
n2hk
(nhk nh nk /n)2
Tn (
p )=n
=n
1
nh nk
n n
h=1 k=1 h k
h=1 k=1
m
mY
X X
X

(10.31)

che per nhk sufficientemente grandi ha una distribuzione Chi-quadrato con (mX mY
1r) gradi di libert`a, dove r `e il numero dei parametri indipendenti da stimare nella
ipotesi che H0 sia vera. Gli (mX + mY ) parametri p0h , p0k appena stimati sono legati,
per il primo assioma delle probabilit`a, dalle due condizioni:
m
X
X

p0h =

h=1

mY
X

p0k = 1 ,

k=1

per cui solo r = mX +mY 2 sono indipendenti, e i gradi di libert`a della distribuzione
di Tn (p0 ) risultano: mX mY 1 (mX + mY 2) = (mX 1)(mY 1). La regola
del test `e pertanto la seguente.
. Al livello di significativit`a , lipotesi nulla (10.30) `e da rifiutare se e solo se il
valore empirico tn della statistica (10.31) soddisfa, per nhk sufficientemente grandi
(> 5 circa per ogni h, k), la condizione:
tn 1
dove 1 `e il quantile della distribuzione Chi-quadrato con (mX 1)(mY 1) gradi
di libert`a.
Esempio 10.11

Una casa automobilistica vuole verificare se il colore della carrozzeria scelto dagli
acquirenti delle proprie vetture a benzina `e statisticamente indipendente dal particolare tipo di modello acquistato.
Indichiamo con X il carattere: modello di autovettura, e suddividiamo lintera
produzione in mX = 5 classi, comprendenti nellordine i modelli del segmento
1 : utilitario;

2 : medio-basso;

3 : medio;

4 : medio-alto;

5 : alto.

Indichiamo poi con Y il carattere colore della carrozzeria che raggruppiamo in


mY = 6 classi:
1 : blu;

2 : grigio;

3 : nero;

4 : verde;

5 : rosso;

6 : giallo e altri.

10.3 Test di indipendenza

305
TABELLA 10.7

modello

blu

grigio

nero

verde rosso giallo etc.

k=1

nh

utilitario

42

55

32

26

28

190

medio-basso

58

32

40

31

33

199

medio

66

48

12

35

24

19

204

medio-alto

32

52

21

10

131

alto

12

21

11

64

n k=

210

208

41

134

100

95

n = 788

Da unindagine sulle vendite effettuate da alcuni concessionari in un determinato


periodo dellanno risulta un campione di n = 788 coppie di osservazioni, le cui
frequenze congiunte sono riassumibili con una tabella di contingenza a due entrate
che ha laspetto della Tabella 10.7.
Essa contiene tutti gli elementi necessari per calcolare il valore empirico della statistica (10.31) che risulta: tn = 58.07. Secondo la regola del test Chi-quadrato, questo
valore `e da confrontare con i quantili della distribuzione con 4 5 = 20 gradi di
libert`a riportati nella Tabella in Appendice. Si riconosce facilmente che tn > 1
per qualsiasi livello di significativit`a , per cui si deve concludere che lipotesi di
indipendenza statistica tra i due caratteri non `e consistente con i dati osservati.
Lunico svantaggio di questo test di indipendenza consiste nel fatto che necessita
di campioni bidimensionali con numerosit`
a elevata, in grado di produrre frequenze
congiunte nhk per lo meno maggiori o uguali a 5 per ogni indice h e k delle classi
utilizzate. Se non `e disponibile un campione di questa natura, nemmeno modificando
(X)
(Y )
la scelta delle classi h e k , ci si deve accontentare di un altro tipo di test dei
ranghi: quello sul coefficiente di correlazione di Spearman che per`o fornisce soltanto
una condizione necessaria, ma non sufficiente, per lindipendenza della coppia (X, Y ).

10.3.2

Test di Spearman

Il coefficiente di correlazione dei ranghi di Spearman, che indicheremo con RS , `e


una semplificazione dellanalogo coefficiente Rn di correlazione lineare di Pearson
definito nella (9.31), che `e stato usato nel Capitolo 9 per effettuare un test parametrico sulla incorrelazione dei caratteri X, Y da cui si estrae un campione bidimensionale (Xk , Yk ) di numerosit`a n.
Il test che si basa su questo nuovo coefficiente non `e per`o considerato un test parametrico, perche utilizza non gi`a i valori effettivi Xk , Yk dei dati del campione, bens` pi`
u

306

TEST DI IPOTESI NON PARAMETRICHE

semplicemente i loro ranghi, ossia la posizione che ciascun dato viene ad occupare in
una delle due sequenze ordinate di tutte le osservazioni Xk e di tutte le osservazioni
Yk (cfr. anche 10.2.2).
Se indichiamo con
dk = rango(Xk ) rango(Yk ),

k = 1, . . . , n

la differenza tra i ranghi occupati dai due elementi di ciascuna coppia di osservazioni,
il coefficiente di correlazione di Spearman `e la statistica
RS = 1

n
X
6
dk ,
n(n2 1) k=1

ed ha anchesso la propriet`a 1 RS 1. Precisamente, ha valori prossimi a +1


se valori elevati di Xk sono accoppiati a valori elevati di Yk ; e ha valori prossimi a
1 se gli Xk pi`
u grandi si accoppiano agli Yk pi`
u piccoli. Inoltre, sotto lipotesi H0
che i due caratteri siano incorrelati, si dimostra che il valor medio di RS `e nullo, e
per n 10 circa la distribuzione della statistica
s

TS = RS

n2
1 RS2

(10.32)

`e approssimabile con una t-Student con n 2 gradi di libert`a.


Ne deriva una regola di accettazione della ipotesi di incorrelazione che `e del tutto
analoga a quella utilizzata nel test parametrico del 9.4.3, ma che ora si riferisce
al valore empirico tS della statistica sui ranghi (10.32) che si calcola molto pi`
u
facilmente della (9.23). Se risulta:
|tS | > t1/2 ,

(10.33)

si deve rifiutare lipotesi di incorrelazione, il che implica anche che `e da rifiutare


lipotesi (pi`
u restrittiva) di indipendenza dei caratteri X ed Y .
Se invece la condizione (10.33) non `e verificata, si deve accettare lipotesi nulla sulla
incorrelazione (nel senso di Spearman) dei due caratteri. Tuttavia, ci`o non significa
che si possa accettare anche lipotesi (10.30) che essi siano statisticamente indipendenti: per giungere a una conclusione in tal senso occorre una ulteriore verifica che
dovr`a essere fatta con il precedente test Chi-quadrato.
Esempio 10.12

Per illustrare una semplice applicazione del test dei ranghi di Spearman riconsideriamo il campione con numerosit`a n = 10 utilizzato nellEsempio 6.3 per effettuare una
regressione quadratica del carattere Y su un carattere X della stessa popolazione.
Numerate in ordine crescente con lindice k = 1, . . . , 10 le dieci coppie di dati,
determiniamo il posto occupato da ciascun Xk nella sequenza ordinata di tutte le
osservazioni del carattere X, e operiamo nello stesso modo per ricavare il rango delle

10.4 Test sulla casualit`


a di un campione

307

TABELLA 10.8
k=

10

Xk

10

15

20

25

30

35

40

45

50

55

Yk

37

27

31

27

36

44

45

51

62

66

rango(X k )

10

rango(Y k )

1,5

1,5

10

dk

-4

0,5

2,5

Yk . Risultano i ranghi indicati nella Tabella 10.8 e le differenze dk che sono riportate
nellultima riga. Si ricava facilmente:
10
X

dk = 23.5 ;

rS = 1

k=1

tS = 0.8575

6 23.5
= 0.8575 ;
10 99

8
= 4.7157.
1 (0.8575)2

Il valore empirico tS cos calcolato `e maggiore dei quantili della distribuzione tStudent con n 2 = 8 gradi di libert`a, che sono riportati nella Tabella in Appendice.
Poich`e `e soddisfatta la condizione (10.33), il test di Spearman porta a rifiutare
lipotesi che i due caratteri siano incorrelati. Di conseguenza, si pu`o anche affermare
che lipotesi di indipendenza tra X ed Y non `e compatibile con i dati osservati.

10.4

Test sulla casualit`


a di un campione

Concludiamo la rassegna dei test non parametrici esaminando i metodi atti a verificare se i dati campionari in nostro possesso costituiscano effettivamente un insieme
di informazioni statisticamente indipendenti.
I metodi statistici esposti in questo e nei precedenti Capitoli si basano tutti sul
presupposto che i campioni di cui disponiamo siano casualmente estratti da una
popolazione che mantiene uguali le propriet`a probabilistiche dei suoi caratteri durante tutte le estrazioni effettuate per la raccolta delle osservazioni. Se un campione
`e veramente casuale, non ha alcuna importanza lordine temporale con cui `e stata
raccolta la sequenza di osservazioni campionarie.
Se per`o i dati di un campione X = (X1 , . . . , Xn ) costituiscono una sequenza temporale, e sono stati raccolti in un arco di tempo ragionevolmente esteso, pu`o esserci
motivo di ritenere che la sequenza delle osservazioni fatte non si comporti pi`
u come

308

TEST DI IPOTESI NON PARAMETRICHE

un insieme di n osservazioni statisticamente indipendenti, perche la popolazione pu`o


aver subito modificazioni o fluttuazioni in qualche suo carattere, tali da compromettere la casualit`a delle osservazioni fatte.
Ad esempio, nel rilevamento del numero giornaliero di incidenti stradali in un tratto
di strada statale ci si pu`o attendere una periodicit`a di sette giorni dovuta alla diversa
entit`a del traffico nei vari giorni della settimana; i prezzi di molti prodotti stagionali
variano con regolarit`a durante lanno, con la conseguenza che una statistica sui
prezzi mensili mostrer`a variazioni periodiche ogni 12 osservazioni; e ancora: nel
campionamento di certe variabili economiche, effettuato con rilevamenti quotidiani,
ci si pu`o attendere che molte di esse abbiano valori correlati in base allandamento
giornaliero del mercato azionario.
Prima di effettuare tests statistici basati su osservazioni temporali di questo tipo,
occorre verificare che il campione X sia effettivamente casuale. Pe la definizione di
indipendenza statistica tra n variabili aleatorie Xk , linsieme X `e casuale se la sua
funzione di distribuzione `e il prodotto delle distribuzioni marginali, ossia
FX (x1 , . . . , xn ) = FX1 (x1 )FX2 (x2 ) FXn (xn ).

(10.34)

E assai arduo definire in modo completo una statistica che consenta di verificare,
con un prescritto livello di significativit`a, se `e valida lipotesi (10.34). Ci si pu`o per`o
accontentare di costruire tests di facile uso, che si basano sullordine temporale in
cui ciascun elemento del campione si realizza nelle ripetute osservazioni.

10.4.1

Test di correlazione seriale

La (10.34) implica che sia anche statisticamente indipendente qualsiasi sottoinsieme


di = 2, 3, . . . , n 1 elementi di X, e in particolare ciascuna coppia di dati contigui
(Xk , Xk+1 ) con k = 1, . . . , n 1. Ne segue che un test sulla correlazione tra gli
elementi di queste coppie pu`o risultare efficace nella individuazione di quei campioni
che non sono estratti casualmente dalla popolazione in esame.
Consideriamo dunque tutte le (n 1) coppie (Xk , Xk+1 ) di osservazioni contigue del
campione, alle quali aggiungiamo la coppia (Xn , X1 ) e definiamo la statistica
RX =

n
X
(Xk X)(Xk+1 X)
2
nSX

k=1

(10.35)

chiamata coefficiente di correlazione circolare della serie temporale (X1 , . . . , Xn ),


2 .
avente media aritmetica X e varianza SX
Il test non parametrico in questione si basa sul principio che se il campione `e casuale,
tutte le n! possibili permutazioni degli elementi della serie sono equiprobabili. E
poiche solo il numeratore dei termini a secondo membro nella (10.35) sono influenzati
da permutazioni dei dati, `e sufficiente studiare la distribuzione della statistica
X =
R

n
X

(Xk X)(Xk+1 X).

k=1

(10.36)

10.4 Test sulla casualit`


a di un campione

309

Riguardo a questultima, si pu`o dimostrare che se il campione X `e estratto casualmente da una popolazione con distribuzione dotata di momenti finiti del primo e
X ha una distribuzione che per n tende a una Normale
secondo ordine, allora R
con valore atteso e varianza
X } =
E{R
dove:

2
X } = S2 S4
2 {R
n1

S2
,
n1

Sq = (X1 X)q + (X2 X)q + . . . + (Xn X)q ,

q = 2, 4.

Se dunque usiamo la variabile standardizzata


ZX =

X E{R
X }
R
,
X }
{R

(10.37)

questa dovr`a assumere valori assoluti prossimi a zero, se `e vera lipotesi H0 di casualit`a di un campione con numerosit`
a elevata (almeno n = 10 circa).
La regola di questo test sulla casualit`a del campione `e pertanto la seguente: il
campione esaminato non pu`o considerarsi casuale, al livello di significativit`a , se la
realizzazione zX della statistica normalizzata (10.37) soddisfa la condizione
|zX | > z1/2
dove z1/2 `e il quantile della distribuzione normale standard che esclude una coda
di probabilit`a /2, ossia tale che: 2erf(z1/2 ) = 1 .
Esempio 10.13

Per 15 giorni consecutivi si rileva il numero dei passeggeri di nazionalit`a italiana che
utilizzano un certo volo di linea. Ne risulta il seguente campione:
16 18

14

21

19

15

24

20

16

12

23

20

17

14

19.

Si vuole verificare, al livello di significativit`a = 0.05, se si tratta di un campione


estratto casualmente dalla popolazione dei passeggeri di quel volo.
La media aritmetica dei 15 valori osservati `e X = 17.6 e il valore empirico della
statistica (10.36) vale
X = (16 17.6)(18 17.6) + . . . + (19 17.6)(16 17.6) = 34.26.
R
X
Per determinare il valore atteso e la varianza della distribuzione della statistica R
calcoliamo ora le quantit`a S2 , S4 che risultano:
S2 = (16 17.6)2 + (18 17.6)2 + . . . + (19 17.6)2 = 165.73
S4 = (16 17.6)4 + (18 17.6)4 + . . . + (19 17.6)4 = 3974.62
da cui
X } =
E{R

165.73
= 11.8381,
14

2
X } = (165.73) 3974.62 = 1678.065.
2 {R
14

310

TEST DI IPOTESI NON PARAMETRICHE

Il valore empirico di ZX `e pertanto


zX =

34.26 + 11.8381

= 0.5475,
1678.065

da confrontare con il quantile z0.975 = 1.96 della normale standard. Poiche |zX | =
0.5475 < 1.96, si deduce che zX cade nella regione di accettazione del test, e si
conclude che il campione `e effettivamente casuale.
Si osservi che lordine in cui le osservazioni si dispongono nel campione `e essenziale
in questo test. Infatti, supponiamo che gli stessi dati siano disposti nel campione
con questa diversa sequenza temporale:
18 16

14

21

19

15

12 16 20

23

24

20

17

14

19.

Poiche la media aritmetica non cambia, sono pure invariate le quantit`


a S2 , S4 e
X . Tuttavia il suo valore
quindi anche il valor medio e la varianza della statistica R
empirico `e ora 71.73, e quello della statistica standardizzata vale zR = 2.04 > 1.96.
Dunque, al medesimo livello di significativit`a risulta che il secondo campione non
si pu`o considerare casuale. In effetti, vi si pu`o riconoscere una certa periodicit`a
settimanale dei dati con valore elevato, che compromette la casualit`a del campione
e lo rende inutilizzabile se, ad esempio, si vuole studiare statisticamente la relazione
tra il numero di passeggeri e qualche altro carattere della stessa popolazione che non
sia influenzato dal particolare giorno della settimana in cui `e stato effettuato il volo.

10.4.2

Run test

Se le modalit`a del carattere X sono soltanto due, ogni estrazione consiste nella realizzazione di uno tra due eventi dicotomici che indicheremo con A, B e il campione
che ne risulta `e una successione del tipo:
AABBAABBBABBBAAAABBB . . .

(10.38)

In tale campione, `e chiamata run (malamente traducibile in italiano con il termine


pacchetto) ogni successione di eventi identici, compresa tra due eventi ad essi
incompatibili oppure insiemi vuoti. Per esempio, nel campione (10.38) ci sono 8
runs, perche le n = 20 realizzazioni si presentano suddivise in 4 pacchetti di eventi
A e 4 pacchetti di eventi B.
In tali campioni, un indicatore dellordine con cui A oppure B compaiono nella
sequenza di n osservazioni `e costituito dal numero totale U di runs presenti nel campione. Ad esempio, un campione di numerosit`
a n = 20 con 10 realizzazioni di A e
10 realizzazioni di B pu`o avere un numero minimo di 2 runs (formati di pacchetti di
10 eventi uguali e contigui), e un massimo di 20 runs (se A e B si alternano). Poiche
in entrambi i casi si `e indotti a ritenere che le estrazioni effettuate non siano statisticamente indipendenti, il campione si potr`a considerare casuale solo se il numero
di runs in esso contenuti `e assai diverso da questi due valori estremi.
Usiamo dunque la statistica U (anziche la (10.36)) per effettuare un semplice test
sulla casualit`a di un campione di n osservazioni di un carattere dicotomico. Se esso

10.4 Test sulla casualit`


a di un campione

311

contiene nA realizzazioni dellevento A e nB dellevento B, si pu`o dimostrare che al


crescere di nA ed nB la distribuzione campionaria di U `e ben approssimata da una
distribuzione normale con valor medio e varianza che valgono:
E{U } = 1 +

2nA nB
,
nA + nB

U2 =

2nA nB (2nA nB nA nB )
.
(nA + nB )2 (nA + nB 1)

Ne segue che per nA ed nB sufficientemente elevati (e comunque entrambi maggiori o


uguali a 10) `e possibile effettuare un test sulla casualit`a del campione determinando
il valore empirico zU della statistica standardizzata
ZU =

U E{U }
.
U

(10.39)

Se questo `e tale che |zU | > z1/2 , si dovr`


a dedurre che al livello di significativit`a
il campione non pu`o considerarsi casuale.
Il run test `e anche usato spesso per verificare la casualit`a di campioni costituiti da
valori numerici reali (x1 , x2 , . . . , xn ). A tal fine, levento A si considera realizzato se
una osservazione xk `e maggiore della mediana x
, e levento B si intende realizzato
se xk < x
. Se qualche xk coincide con la mediana, viene eliminato dalla sequenza.
Si ricava cos una successione del tipo (10.38) alla quale si applica il metodo appena esposto. I due esempi che seguono, tratti dal testo [5], illustrano due tipiche
applicazioni del metodo del run test ora descritto.
Esempio 10.14

Si controlla la qualit`a dei pezzi prodotti da una macchina, indicando con d la rilevazione di un difetto, e con n lesito favorevole del controllo. In un campione di 27
estrazioni si rilevano 10 eventi d e 17 eventi n, cos distribuiti in ordine di tempo:
n n n n n d d d d n n n n n n n n n n d d n n d d d d.
Si vuole verificare se il campione in esame `e casuale, al livello di significativit`a 0.01.
Poiche nd = 10, nn = 17, la distribuzione campionaria del numero di runs ha valore
atteso e varianza:
2 10 17
= 13.59
10 + 17
2 10 17(2 10 17 10 17)
= 5.6169.
(10 + 17)2 (10 + 17 1)

E{U } = 1 +
U2

Il numero di runs nella sequenza `e u = 6 (si noti che `e molto minore del valore
atteso), e la statistica standardizzata (10.39) ha il valore empirico zU = 3.20.
Se si assume = 0.01, la regione di accettazione del test ha come estremo superiore
il quantile della distribuzione normale standard che soddisfa: erf(z0.995 ) = (1
0.01)/2 = 0.495. Lesame della Tabella di erf(z) fornisce: z0.995 = 2.575 < |zU |,
per cui si deve rifiutare lipotesi che i dati contigui nella serie campionaria siano
incorrelati. Se ne deduce che il campione non `e casuale, perche il test porta ad
escludere che esso possa soddisfare la propriet`a (10.34).

312

TEST DI IPOTESI NON PARAMETRICHE

Esempio 10.15

40 successive misurazioni in pollici del diametro medio dei pezzi lavorati da un tornio
automatico forniscono le seguente serie statistica di dati {xk }:
0.261
0.252
0.248
0.247

0.258
0.250
0.252
0.250

0.249
0.253
0.254
0.253

0.251
0.247
0.250
0.247

0.247
0.251
0.247
0.249

0.256
0.243
0.253
0.253

0.250
0.258
0.251
0.246

0.247
0.251
0.246
0.251

0.255
0.245
0.249
0.249

0.243
0.250
0.252
0.253.

Si vuole verificare, con un run test al livello = 0.01, lipotesi H0 che questo campione sia casuale, oppure se si debba accettare lipotesi alternativa che le osservazioni
hanno evidenti fluttuazioni periodiche, che potrebbero essere addebitate a troppo
frequenti messe a punto della macchina utensile.
Se ordiniamo per valori crescenti le osservazioni del campione, gli elementi centrali
valgono 0.250: questo `e perci`o anche il valore della mediana x della serie temporale.
Escludendo le 5 osservazioni che coincidono con x
= 0.250, i dati osservati danno
luogo, a seconda che il loro valore sia maggiore o minore della mediana, alla seguente
successione temporale di eventi A = {xk > 0.250} e B = {xk < 0.250}:
A A B A B A B A B A A B A B A A B B A A B A A B B A B A B B A B A B A.
In questa sequenza si ha: nA = 19, nB = 16, u = 27, per cui la distribuzione
campionaria dei pacchetti di eventi ha valore atteso e varianza
2 19 16
= 18.37
19 + 16
2 19 16(2 19 16 19 16)
= 8.3521
(19 + 16)2 (19 + 16 1)

E{U } = 1 +
U2

e il valore empirico di ZU `e
27 18.37
zU =
= 2.98.
8.3521
La regione di rifiuto del test `e quella gi`a determinata nellEsempio precedente:
C = (, 2.575) (2.575, +)
e poiche zU vi appartiene, si deve concludere che il campione analizzato non e casuale.
Visto che il numero di runs che esso contiene `e molto maggiore del suo valore atteso,
`e ragionevole supporre che la macchina abbia subito aggiustamenti troppo frequenti.

10.4 Test sulla casualit`


a di un campione

313

BIBLIOGRAFIA

1. Papoulis A., Probabilit`a, variabili aleatorie e processi stocastici, Boringhieri,


Torino, 1973.
2. Ivchenko G. - Medvedev Y., Mathematical statistics, Mir, Moskow, 1990.
3. Vicario G. - Levi R., Statistica e probabilit`a per ingegneri, Progetto Leonardo,
Bologna, 2001.
4. Pellerey F., Elementi di statistica per le applicazioni, Celid, Torino, 1998.
5. Johnson R.A., Miller and Freunds Probability and Statistics for Engineers,
Prentile Hall, Englewood Cliffs, New Jersey, 1994.
6. Hoel P.G., Introduction to mathematical statistics, Wiley, New York, 1984.
7. Fagnola F. - Pistone G., Primo semestre di probabilit`a, CLUT, Torino, 1996.
8. Baldi P., Calcolo delle probabilit`a e statistica, McGraw-Hill Italia, Milano,
1992.

314

TEST DI IPOTESI NON PARAMETRICHE

APPENDICE
Tavole delle distribuzioni statistiche
Normale standard
t-Student
Poisson
Chi-quadrato
F (m, n) di Fisher
Dn di Kolmogorov-Smirnov

315

316

APPENDICE

Distribuzioni

317

Distribuzione cumulativa di Poisson FX ( x , l )

318
APPENDICE

Distribuzioni

319

320

APPENDICE

Distribuzioni

321

322

APPENDICE