Sei sulla pagina 1di 365

Elementi di Probabilit, Statistica e Processi Stocastici

Franco Flandoli
24 settembre 2011
ii
Indice
Prefazione ix
1 Elementi di Calcolo delle Probabilit 1
1.1 Eventi e loro probabilit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.1 Universo ed eventi elementari . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.2 Eventi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.3 Informazione contenuta in una famiglia di eventi . . . . . . . . . . . . 3
1.1.4 Algebre di eventi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.5 o-algebre di eventi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.1.6 Spazio probabilizzabile . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.1.7 Probabilit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.1.8 Probabilit condizionale . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.1.9 Indipendenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.1.10 Formula di Bayes e formula di fattorizzazione . . . . . . . . . . . . . . 12
1.1.11 Calcolo combinatorico . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.2 Variabili aleatorie e valori medi . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.2.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.2.2 V.a. continue e loro densit di probabilit . . . . . . . . . . . . . . . . 16
1.2.3 V.a. discrete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.2.4 Denizione di variabile aleatoria . . . . . . . . . . . . . . . . . . . . . 23
1.2.5 Legge di una v.a. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.2.6 Funzione di distribuzione (cdf) di una v.a. . . . . . . . . . . . . . . . . 26
1.2.7 V.A. indipendenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
1.2.8 Vettori aleatori ed altri enti aleatori . . . . . . . . . . . . . . . . . . . 29
1.2.9 Valori medi o attesi . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
1.2.10 Valor atteso: suo calcolo con le densit . . . . . . . . . . . . . . . . . . 33
1.2.11 Alcuni esempi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
1.2.12 Propriet meno elementari del valor medio . . . . . . . . . . . . . . . 37
1.2.13 Media di v.a. indipendenti . . . . . . . . . . . . . . . . . . . . . . . . . 38
1.2.14 Disuguaglianza di Hlder . . . . . . . . . . . . . . . . . . . . . . . . . 38
1.2.15 Disuguaglianza di Jensen . . . . . . . . . . . . . . . . . . . . . . . . . 39
1.2.16 Disuguaglianza di Chebyshev . . . . . . . . . . . . . . . . . . . . . . . 39
1.2.17 Varianza e deviazione standard . . . . . . . . . . . . . . . . . . . . . . 40
1.2.18 Covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
iii
iv INDICE
1.2.19 Esempi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
1.2.20 Momenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
1.2.21 La funzione generatrice dei momenti . . . . . . . . . . . . . . . . . . . 46
1.2.22 Denizione generale di valor medio . . . . . . . . . . . . . . . . . . . . 49
1.2.23 Propriet generali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
1.3 Esempi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
1.3.1 Una propriet di concentrazione delle binomiali . . . . . . . . . . . . . 52
1.3.2 Sul teorema degli eventi rari per v.a. di Poisson . . . . . . . . . . . . . 54
1.3.3 Identicazione di un modello di Poisson piuttosto che di uno binomiale 55
1.3.4 Processo di Bernoulli, ricorrenze, v.a. geometriche . . . . . . . . . . . 55
1.3.5 Tempo del /-esimo evento: binomiale negativa . . . . . . . . . . . . . 57
1.3.6 Teoremi sulle v.a. esponenziali . . . . . . . . . . . . . . . . . . . . . . 58
1.3.7 Propriet delle gaussiane . . . . . . . . . . . . . . . . . . . . . . . . . 60
1.3.8 Variabili di Weibull . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
1.3.9 Densit Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
1.3.10 Densit Beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
1.3.11 Code pesanti; distribuzione log-normale . . . . . . . . . . . . . . . . . 66
1.3.12 Skewness e kurtosis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
1.4 Teoremi limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
1.4.1 Convergenze di variabili aleatorie . . . . . . . . . . . . . . . . . . . . . 68
1.4.2 Legge debole dei grandi numeri . . . . . . . . . . . . . . . . . . . . . . 70
1.4.3 Legge forte dei grandi numeri . . . . . . . . . . . . . . . . . . . . . . . 73
1.4.4 Stima di Cherno (grandi deviazioni) . . . . . . . . . . . . . . . . . . 73
1.4.5 Teorema limite centrale . . . . . . . . . . . . . . . . . . . . . . . . . . 76
1.4.6 Distribuzione del limite di massimi . . . . . . . . . . . . . . . . . . . . 79
1.5 Approfondimenti sui vettori aleatori . . . . . . . . . . . . . . . . . . . . . . . 82
1.5.1 Trasformazione di densit . . . . . . . . . . . . . . . . . . . . . . . . . 82
1.5.2 Trasformazione lineare dei momenti . . . . . . . . . . . . . . . . . . . 84
1.5.3 Sulle matrici di covarianza . . . . . . . . . . . . . . . . . . . . . . . . . 84
1.5.4 Vettori gaussiani . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
2 Elementi di Statistica 93
2.1 Introduzione. Stimatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
2.2 Intervalli di condenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
2.2.1 Esempio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
2.2.2 Soglie, ammissibili ecc. . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
2.3 Test statistici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
2.3.1 Un esempio prima della teoria . . . . . . . . . . . . . . . . . . . . . . . 107
2.3.2 Calcolo analitico del j-value nel precedente test per la media . . . . . 108
2.3.3 Ipotesi nulla . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
2.3.4 Errori di prima e seconda specie; signicativit e potenza di un test . 111
2.3.5 Struttura diretta della procedura di test . . . . . . . . . . . . . . . . . 113
2.3.6 j-value (struttura indiretta) . . . . . . . . . . . . . . . . . . . . . . . . 113
2.3.7 Test gaussiano per la media unilaterale e bilaterale, varianza nota . . 114
INDICE v
2.3.8 Curve OC e DOE nei test . . . . . . . . . . . . . . . . . . . . . . . . . 117
2.3.9 Test di adattamento . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
3 Processi Stocastici 125
3.1 Processi a tempo discreto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
3.1.1 Legame tra v.a. esponenziali e di Poisson . . . . . . . . . . . . . . . . 132
3.2 Processi stazionari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
3.2.1 Processi deniti anche per tempi negativi . . . . . . . . . . . . . . . . 139
3.2.2 Serie temporli e grandezze empiriche . . . . . . . . . . . . . . . . . . . 140
3.3 Processi gaussiani . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
3.4 Un teorema ergodico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
3.4.1 Tasso di convergenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
3.4.2 Empirical autocorrelation function . . . . . . . . . . . . . . . . . . . . 150
3.5 Analisi di Fourier dei processi stocastici . . . . . . . . . . . . . . . . . . . . . 151
3.5.1 Premesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
3.5.2 Trasformata di Fourier a tempo discreto . . . . . . . . . . . . . . . . . 152
3.5.3 Propriet della DTFT . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
3.5.4 DTFT generalizzata . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
3.6 Densit spettrale di potenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
3.6.1 Esempio: il white noise . . . . . . . . . . . . . . . . . . . . . . . . . . 160
3.6.2 Esempio: serie periodica perturbata. . . . . . . . . . . . . . . . . . . . 160
3.6.3 Noise di tipo pink, brown, blue, violet . . . . . . . . . . . . . . . . . . 161
3.6.4 Il teorema di Wiener-Khinchin . . . . . . . . . . . . . . . . . . . . . . 162
4 Analisi e Previsione di Serie Storiche 169
4.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
4.1.1 Metodi elementari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
4.1.2 Decomposizione di una serie storica . . . . . . . . . . . . . . . . . . . 176
4.1.3 La media di pi metodi . . . . . . . . . . . . . . . . . . . . . . . . . . 177
4.2 Modelli ARIMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
4.2.1 Modelli AR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
4.2.2 Esempi particolari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
4.2.3 Loperatore di traslazione temporale . . . . . . . . . . . . . . . . . . . 182
4.2.4 Modelli MA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
4.2.5 Modelli ARMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
4.2.6 Operatore dierenza. Integrazione . . . . . . . . . . . . . . . . . . . . 185
4.2.7 Modelli ARIMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187
4.2.8 Stazionariet, legame tra modelli ARMA e modelli MA di ordine in-
nito, ipotesi generali della teoria . . . . . . . . . . . . . . . . . . . . . 188
4.2.9 Funzione di autocorrelazione, primi fatti . . . . . . . . . . . . . . . . . 191
4.2.10 Funzione di autocorrelazione, complementi . . . . . . . . . . . . . . . 194
4.2.11 Densit spettrale di potenza dei processi ARMA . . . . . . . . . . . . 196
4.3 Il metodo di Holt-Winters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197
4.3.1 Metodo di Smorzamento Esponenziale (SE) . . . . . . . . . . . . . . . 198
vi INDICE
4.3.2 Metodo di Smorzamento Esponenziale con Trend (SET) . . . . . . . . 199
4.3.3 Smorzamento esponenziale con trend e stagionalit (Holt-Winters) . . 201
4.3.4 Confronto tra modelli previsionali: i) cross-validation . . . . . . . . . . 202
4.3.5 Confronto tra modelli previsionali: ii) metodo del conitto di interessi203
4.3.6 Esercizi sul confronto tra modelli previsionali . . . . . . . . . . . . . . 205
4.4 Metodi regressivi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
4.4.1 AR come regressione lineare multipla . . . . . . . . . . . . . . . . . . . 205
4.4.2 Implementazione con R . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
4.4.3 Previsione col modello regressivo . . . . . . . . . . . . . . . . . . . . . 206
4.4.4 Variabili esogene, cross-correlazione, modelli ARX . . . . . . . . . . . 208
4.5 Fit di una densit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210
4.5.1 Istogrammi e cumulative empiriche . . . . . . . . . . . . . . . . . . . . 211
4.5.2 Metodi parametrici e metodi non parametrici . . . . . . . . . . . . . . 211
4.5.3 Stima dei parametri . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
4.5.4 Confronto graco tra densit e istogrammi e Q-Q plot . . . . . . . . . 212
4.6 Esercizi sulle serie storiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213
4.6.1 Esercizio n. 1 (veicoli 1; fasi iniziali) . . . . . . . . . . . . . . . . . . . 214
4.6.2 Esercizio n. 2 (veicoli 2; decomposizione, stagionalit) . . . . . . . . . 215
4.6.3 Esercizio n. 3 (veicoli 3; previsione tramite decomposizione) . . . . . . 219
4.6.4 Esercizio n. 4 (veicoli 4; modelli AR) . . . . . . . . . . . . . . . . . . . 222
4.6.5 Esercizio n. 5 (veicoli 5; proseguimento sugli AR) . . . . . . . . . . . . 225
4.6.6 Esercizio n. 6 (veicoli 6; trend con SET; HW) . . . . . . . . . . . . . . 229
4.6.7 Esercizio n. 7 (Motorcycles 1; decomposizione, AR) . . . . . . . . . . 233
4.6.8 Esercizio n. 8 (Motorcycles 2; HW, AR; confronti) . . . . . . . . . . . 236
4.6.9 Esercizio n. 9 (Veicoli e Motorcycles, densit dei residui) . . . . . . . . 239
4.7 Appendice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244
5 Sistemi Markoviani 245
5.1 Catene di Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245
5.1.1 Grafo, probabilit e matrice di transizione, probabilit di stato, propri-
et di Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245
5.1.2 Misure invarianti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 250
5.1.3 Classicazione degli stati . . . . . . . . . . . . . . . . . . . . . . . . . 252
5.1.4 Convergenza allequilibrio e propriet ergodiche . . . . . . . . . . . . . 253
5.2 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255
5.3 Processi di Markov a salti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255
5.3.1 Sistemi a eventi discreti . . . . . . . . . . . . . . . . . . . . . . . . . . 255
5.3.2 Stati e gra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257
5.3.3 Tempi di permanenza aleatori . . . . . . . . . . . . . . . . . . . . . . . 258
5.3.4 Catene di Markov e processi di Markov a salti . . . . . . . . . . . . . . 259
5.3.5 Quale transizione tra varie possibili? . . . . . . . . . . . . . . . . . . . 259
5.3.6 Tempo di permamenza . . . . . . . . . . . . . . . . . . . . . . . . . . . 260
5.3.7 Prima luna o laltra? . . . . . . . . . . . . . . . . . . . . . . . . . . . 260
5.3.8 Regime stazionario o di equilibrio . . . . . . . . . . . . . . . . . . . . . 261
INDICE vii
5.3.9 Dimostrazione dellequazione (5.2) . . . . . . . . . . . . . . . . . . . . 262
5.3.10 Il sistema delle equazioni di bilancio . . . . . . . . . . . . . . . . . . . 263
5.4 Esempi dalla teoria delle code . . . . . . . . . . . . . . . . . . . . . . . . . . . 264
5.4.1 Processi di nascita e morte . . . . . . . . . . . . . . . . . . . . . . . . 266
5.4.2 Tassi costanti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 268
5.4.3 Tassi di crescita costanti, tassi di decrescita lineari . . . . . . . . . . . 269
5.4.4 Coda con c serventi . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269
5.4.5 Nascita e morte con un numero nito di stati . . . . . . . . . . . . . . 271
5.4.6 Valori medi notevoli . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272
5.4.7 Lancio di un dato al suono dellorologio . . . . . . . . . . . . . . . . . 275
5.4.8 Il processo di Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . 275
5.4.9 Il processo in uscita da una coda . . . . . . . . . . . . . . . . . . . . . 276
5.5 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276
5.6 Processi nel continuo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 278
5.6.1 Processi a tempo continuo . . . . . . . . . . . . . . . . . . . . . . . . . 278
5.6.2 Pi generale che tempo continuo? . . . . . . . . . . . . . . . . . . . . . 278
5.6.3 Il moto browniano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 278
5.6.4 Dinamiche stocastiche . . . . . . . . . . . . . . . . . . . . . . . . . . . 280
5.6.5 Fit tramite unequazione dierenziale . . . . . . . . . . . . . . . . . . 283
5.7 Equazioni dierenziali stocastiche . . . . . . . . . . . . . . . . . . . . . . . . . 284
5.7.1 Applicazione diretta . . . . . . . . . . . . . . . . . . . . . . . . . . . . 286
5.7.2 Identicazione sperimentale dei parametri . . . . . . . . . . . . . . . . 287
5.7.3 Applicazione inversa . . . . . . . . . . . . . . . . . . . . . . . . . . . . 288
5.8 Soluzione degli esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291
6 Statistica Multivariata 299
6.1 La matrice di correlazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299
6.1.1 Elevata correlazione non sinonimo di causalit . . . . . . . . . . . . 301
6.2 Il metodo delle componenti principali . . . . . . . . . . . . . . . . . . . . . . . 303
6.2.1 Diagonalizzazione di Q . . . . . . . . . . . . . . . . . . . . . . . . . . . 304
6.2.2 I comandi di R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 306
6.2.3 Classiche tramite PCA . . . . . . . . . . . . . . . . . . . . . . . . . . 309
6.2.4 Il miglior punto di vista . . . . . . . . . . . . . . . . . . . . . . . . . 310
6.2.5 Ecacia del metodo PCA . . . . . . . . . . . . . . . . . . . . . . . . . 311
6.3 Modelli lineari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312
6.3.1 Introduzione: modelli lineari di legame tra variabili aleatorie . . . . . 312
6.3.2 Regressione lineare semplice . . . . . . . . . . . . . . . . . . . . . . . . 314
6.3.3 Regressione lineare multipla . . . . . . . . . . . . . . . . . . . . . . . . 319
6.3.4 Predizione con modelli regressivi . . . . . . . . . . . . . . . . . . . . . 323
6.3.5 Analisi fattoriale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 324
6.3.6 Forma matriciale del problema . . . . . . . . . . . . . . . . . . . . . . 326
6.3.7 Loadings, rotazioni, interpretazioni . . . . . . . . . . . . . . . . . . . . 327
6.3.8 FA e PCA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 328
6.3.9 I comandi di R. Linguaggio . . . . . . . . . . . . . . . . . . . . . . . . 329
viii INDICE
6.4 Metodi di classicazione e clustering . . . . . . . . . . . . . . . . . . . . . . . 329
6.4.1 Regressione logistica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 329
6.4.2 Formulazione probabilistica del problema decisionale e regola di Bayes 332
6.4.3 Classicazione: idee generali . . . . . . . . . . . . . . . . . . . . . . . 334
6.4.4 Classicazione bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . 335
6.4.5 Il caso gaussiano e la Linear Discriminant Analysis . . . . . . . . . . . 336
6.4.6 Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 337
6.5 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 339
6.5.1 Esercizio n. 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 339
6.5.2 Esercizio n. 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 342
6.5.3 Esercizio n. 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 345
6.5.4 Esercizio n. 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 348
6.5.5 Esercizio n. 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 350
6.5.6 Esercizio n. 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353
Prefazione
Il materiale qui raccolto ha la forma di appunti pi che di libro organico. Il testo pensato
per le lauree magistrali in Ingegneria e raccoglie materiale utilizzato in numerosi corsi in
anni recenti. Alcune parti devono molto al contributo di alcuni collaboratori e di numerosi
studenti; in particolare merita di essere ricordato il contributo di Michele Barsanti alle due
sezioni sullanalisi di Fourier dei processi stocastici, oltre che a vari altri punti ed esercizi,
di Michele Tocchet alla sezione sul metodo PCA, di Giuseppe Matisi e Lorenzo Doccini ad
alcuni esercizi di statistica multivariata (4 e 5).
ix
x PREFAZIONE
Capitolo 1
Elementi di Calcolo delle
Probabilit
Questo capitolo dedicato ad un riassunto degli elementi di Calcolo delle Probabilit che
verranno utilizzati nel seguito. Lesposizione di questi elementi sommaria per cui, chi sen-
tisse la necessit di approfondimenti, pu leggere il testo di S. Ross, Probabilit e Statistica,
Apogeo 2008 (per unesposizione adatta ad un triennio di Ingegneria) o di P. Baldi, Calcolo
delle Probabilit, McGraw-Hill 2007 (pi adatto per le lauree magistrali in Ingegneria), cos
come molti altri.
La prima sezione dedicata allillustrazione di alcuni primi oggetti del calcolo delle
probabilit:
gli eventi ; in parole povere sono aermazioni, pi formalmente saranno insiemi ; su di
essi si opera con operazioni logiche, o insiemistiche, a seconda del punto di vista;
la probabilit; si calcola la probabilit di eventi; ad ogni evento associato un numero
dellintervallo [0, 1], la sua probabilit; la probabilit sar quindi unapplicazione che
ad ogni evento associa un numero, con certe regole.
Nella sezione successiva vedremo poi:
le variabili aleatorie; a livello intuitivo sono grandezze (numeriche o di altro tipo)
con un qualche grado di imprevedibilit, quanticato da nozioni probabilistiche; nella
formalizzazione matematica saranno funzioni;
i valori medi ; indicatori numerici associati a variabili aleatorie che ne riassumono alcune
caratteristiche.
Segue poi una sezione di esempi, una sui teoremi limite ed una pi specica sui vettori
aleatori, soprattutto gaussiani.
1
2 CAPITOLO 1. ELEMENTI DI CALCOLO DELLE PROBABILIT
1.1 Eventi e loro probabilit
1.1.1 Universo ed eventi elementari
Nella costruzione dello schema matematico fondamentale della probabilit, lo spazio proba-
bilizzato (, T, 1) che verr introdotto un po per volta, si parte da un insieme ambiente,
di solito indicato con , o o, spesso detto universo, o insieme degli eventi elementari (o
insieme degli esiti ). I suoi elementi . si dicono eventi elementari (o esiti ). Intuiti-
vamente, di fronte ad una situazione casuale, come ad esempio un esperimento, il risultato
dellesperimento un esito, quindi linsieme dei risultati possibili dellesperimento.
Ad esempio, se osserviamo il simbolo, 0 o 1, che entra in un canale di trasmissione (che
trasmette un simbolo alla volta), ed il simbolo, 0 o 1, che ne esce, un evento elementare una
coppia (a, /) dove a (simbolo in entrata) e / (simbolo in uscita) possono valere 0 o 1. Quindi
i possibili eventi elementari sono
(0, 0) (0, 1) (1, 0) (1, 1) .
Lo spazio in questo caso linsieme di questi oggetti, quindi semplicemente
= (0, 0) , (0, 1) , (1, 0) , (1, 1) .
Un esempio di evento elementare
. = (0, 1) .
Va notato che un singolo evento elementare . contiene linformazione pi dettagliata
possibile relativamente al problema che si sta studiando. Nellesempio appena visto, uno
specico valore del simbolo in uscita non un evento elementare: laermazione
il simbolo in uscita 1
non corrisponde ad un evento elementare. Invece laermazione il simbolo in entrata 0 ed
il simbolo in uscita 1 corrisponde allevento elementare . = (0, 1).
Analogamente, se si sta esaminando un gioco che consiste nel lancio di 5 dadi, il risultato
del primo lancio non un evento elementare, mentre una qualsiasi stringa (:
1
, ..., :
5
) dei
risultati dei cinque lanci un evento elementare.
Se si osserva un uido turbolento e lo si descrive con grandezze aleatorie, un evento
elementare una possibile congurazione complessiva del uido (nel senso della specica di
velocit, pressione ecc. in ogni punto della regione occupata dal uido). Invece, losservazione
del valore della velocit in un certo punto ssato non un evento elementare.
1.1.2 Eventi
Gli esempi precedenti mostrano che il dettaglio di conoscenza insito nel concetto di evento
elementare spesso sovrabbondante. E perfettamente sensato porsi domande relative a
grandezze meno dettagliate, come il valore del simbolo ricevuto da un canale di comunicazione
o il valore della velocit di un uido turbolento in un punto specico. Si introducono allora
gli eventi (non pi necessariamente elementari).
In prima approssimazione, possiamo dire che un evento un sottoinsieme di .
1.1. EVENTI E LORO PROBABILIT 3
Universo , un evento elementare . ed un evento
Riprendendo il primo esempio fatto sopra dei simboli 0 e 1 in entrata ed uscita, linsieme
= (0, 1) , (1, 1)
corrisponde allaermazione il simbolo in uscita 1. linsieme di tutti gli eventi
elementari che corrispondono a tale aermazione. Questo un esempio di evento.
In prima approssimazione, ogni sottoinsieme un possibile evento di interesse. Ci
sono per due ragioni per restringere lattenzione, in alcuni casi, ad una famiglia pi ristretta
di eventi, che non comprenda necessariamente tutti i sottoinsiemi ma solo alcuni.
Una ragione meramente tecnica nel senso matematico del termine: in certi esempi non
possibile denire la probabilit (di cui parleremo tra un attimo) di ogni sottoinsieme di , in
modo coerente secondo certe regole; per cui necessario sacricare certi sottoinsiemi troppo
strani. Purtroppo questa ragione, assai noiosa, si apprezza solo dopo lunghe premesse di
teoria della misura e teoria degli insiemi (ad esempio, per costruire sottoinsiemi strani che
creino problemi si deve usare lassioma della scelta). Per scopi pratici questa restrizione, o
patologia, irrilevante: tutti gli insiemi che introdurremo nel corso sono accettabili come
eventi.
La seconda ragione invece molto pi interessante per le applicazioni: essa corrisponde al
concetto di maggior o minor informazione che abbiamo su un problema. Premettiamo quindi
una breve introduzione al concetto di informazione.
Circa la distinzione tra evento ed evento elementare si osservi il seguente fatto: quando
lesperimento, o osservazione, si conclusa, osserviamo il vericarsi di un evento elementare
.. Molti eventi si sono vericati, allora: tutti gli eventi che contengono lelemento ..
Se ad esempio dal lancio di un dato uscito il numero 2 (evento elementare), si vericato
levento uscito un numero pari, ed anche uscito un numero inferiore a 4, e cos via.
1.1.3 Informazione contenuta in una famiglia di eventi
Non esiste alcuna denizione univoca di questo concetto, che ha molte facce suscettibili
di varie descrizioni rigorose. Senza entrare ora in dettaglio, segnaliamo ad esempio che
certi indicatori numerici chiamati entropia (ce ne sono di vario tipo) vengono introdotti
per descrivere linformazione contenuta ad esempio in sequenze numeriche o in distribuzioni
di probabilit.
4 CAPITOLO 1. ELEMENTI DI CALCOLO DELLE PROBABILIT
Qui invece ci indirizziamo in unaltra direzione. Pensiamo per ssare le idee ad un es-
perimento eseguito per misurare il valore di una grandezza sica. Supponiamo ad esempio
che lo strumento di misura abbia una sua incertezza intrinseca. Un modo per tenerne conto
pu essere il seguente: invece che sperare di ottenere un ben preciso valore r come risul-
tato dellesperimento, immaginiamo che il risultato consista in un intervallo, preso in una
famiglia pressata di intervalli possibili (, r
1
], (r
1
, r
2
], ... , (r
a1
, r
a
], (r
a
, ). Ad esem-
pio, immaginiamo a priori di non poterci dare della misura dello strumento oltre la prima
cifra decimale, e che i valori inferiori a -10 o superiori a 10 non siano distinguibili. Allora il
risultato dellesperimento pu essere solo uno dei seguenti intervalli: (, 10], (10, 9.9],
(9.9, 9.8], ... , (9.8, 9.9], (9.9, 10]. (Esempio: quando si usano le tavole gaussiane dei quan-
tili, ci si deve accontentare dei numeri riportati sulle tavole, che non sono tutti i numeri reali,
e ci si deve accontatare della precisione del risultato espressa con un numero nito e basso di
cifre, secondo la disponibilit di quelle tavole.)
Questa famiglia di intervalli descrive il nostro grado di infomazione (o se si vuole il grado
di informazione raggiungibile con lesperimento).
Se in un momento successivo si riesce a migliorare lo strumento di misura in modo
da poterci dare di due cifre decimali e magari di allargare lo spettro dei valori da -20
a 20, la famiglia che descrive la nostra informazione diventa (, 20], (20, 19.99],
(19.99, 19.98], ... , (19.98, 19.99], (19.99, 20].
In questo esempio linsieme universo naturale da introdurre linsieme R dei numeri
reali, ma gli unici sottoinsiemi che ci interessano per la descrizione dellesperimento sono
gli intervalli scritti sopra. Oppure possiamo adottare unaltro punto di vista: in teoria ci
interesserebbero tutti i sottoinsiemi, in particolare quelli composti dai singoli numeri reali
(che darebbero il risultato con precisione innita), ma in pratica evidenziamo che il grado di
informazione contenuto nel nostro esperimento descritto dalla famiglia pi ristretta degli
intervalli detti sopra.
Vediamo unaltro esempio.
Esempio 1 In un capitolo successivo studieremo i processi stocastici. Per lo scopo di questo
esampio, basti pensare intuitivamente che un processo stocastico la descrizione matematica
di una grandezza (sica, economica ecc.) che varia nel tempo ed aleatoria. Indichiamo
con A
t
questa grandezza al tempo t. Supponiamo di studiare il fenomeno per tutti i tempi
t _ 0. Prendiamo come linsieme di tutte le storie possibili di questa grandezza, tutte le
funzioni t r
t
che possono realizzarsi. Gli eventi sono sottoinsiemi di , cio famiglie di
tali storie, realizzazioni. Un esempio levento =al tempo t = t
1
il valore di A
t

positivo, evento che possiamo riassumere con la scrittura
= A
t
1
0 .
Un altro 1 = A
t
2
1 con 1 un certo intervallo. Intersecando eventi di questo tipo
troviamo eventi della forma
A
t
1
1
1
, ..., A
tn
1
a

cio eventi che aermano che A


t
, in certi istanti assume certi possibili valori. Fatte queste
premesse, ssiamo un tempo T 0 e consideriamo la famiglia T
0
T
di tutti gli eventi del tipo
1.1. EVENTI E LORO PROBABILIT 5
A
t
1
1
1
, ..., A
tn
1
a
con
0 _ t
1
_ ... _ t
a
_ T.
Sono eventi che aermano qualcosa del processo A
t
solo entro il tempo T, solo relativa-
mente allintervallo [0, T]. La famiglia T
0
T
di tutti questi eventi descrive un certo grado di
informazione, linformazione di cosa pu accadere nellintervallo [0, T].
Al crescere di T questa famiglia cresce, cio T
0
T
T
0
S
se T < o. Si acquisisce nuova
informazione, su un periodo di tempo maggiore.
1.1.4 Algebre di eventi
Ricordiamo che la famiglia di tutti i sottoinsiemi di , detta famiglia delle parti di , si usa
indicare con T ().
Denizione 1 Chiamiamo algebra di insiemi di una famiglia T T () che sia chiusa
per tutte le operazioni insiemistiche nite e tale che T.
Chiusa per tutte le operazioni insiemistiche nite signica che se , 1 T allora
' 1 T, 1 T,
c
T,
(il complementare
c
inteso rispetto allo spazio ambiente ) e di conseguenza anche 1
T, 1 T, dove 1 linsieme dei punti di che non stanno in 1, e la dierenza
simmetrica 1 lunione di 1 pi 1. Dal fatto che T e
c
T discende che
O T. Si ricordino le formule di De Morgan
(' 1)
c
=
c
1
c
( 1)
c
=
c
' 1
c
che si usano spesso quando si eseguono nei dettagi certe veriche.Valgono inoltre propriet
distributive tra unione e intersezione, su cui non insistiamo.
Due esempi semplici di algebre di insiemi sono T = T (), T = O, . Un esempio
importante, nello spazio = R, la famiglia T dei pluri-intervalli, composta da tutti i
seguenti insiemi, che elenchiamo:
O ed R stesso
gli intervalli (chiusi, aperti, semi-aperti) di estremi a < / (anche inniti)
tutti gli insiemi che si ottengono per unione nita dei precedenti.
Detto un po sommariamente, gli elementi di T sono tutte le unioni nite di intervalli.
E immediato che questa famiglia, oltre a contenere , sia chiusa per unione nita; siccome
lintersezione di due intervalli un intervallo o linsieme O, la famiglia anche chiusa per
intersezione nita (grazie alle propriet distributive); ed inne, il complementare di un inter-
vallo unione nita di intervalli, quindi (per le formule di De Morgan) la famiglia chiusa
anche per complementare. Invece la famiglia degli intervalli non unalgebra, ad esempio
perch non chiusa per unione nita.
6 CAPITOLO 1. ELEMENTI DI CALCOLO DELLE PROBABILIT
Esempio 2 Riprendendo lesempio del paragrafo precedente, la famiglia T
0
T
non unalgebra,
per colpa di due fatti. Da un lato, ci siamo ristretti a prendere intervalli 1
)
e questo pone gli
stessi problemi appena visti su = R; decidiamo allora che nella denizione di T
0
T
usiamo
pluri-intervalli 1
)
. Dallaltro, se ad esempio uniamo gli eventi A
t
1
0 e A
t
2
0, non
riusciamo a scrivere questo insieme nella forma A
t
1
1
1
, A
t
2
1
2
. Allora chiamiamo T
T
la famiglia formata da tutte le unioni nite di insiemi di T
0
T
. Questa unalgebra.
1.1.5 -algebre di eventi
Quasi tutta la matematica di un certo livello basata su operazioni limite (derivate, integrali,
e cos via). Anche in probabilit dobbiamo poter eettuare operazioni limite per raggiungere
una certa ricchezza di risultati. A livello di eventi, questa richiesta si traduce nel concetto di
o-algebra di insiemi: con questo nome si intendono le algebre T che siano chiuse anche per
unione (ed automaticamente interesezione) numerabile.
Denizione 2 Una o-algebra di insiemi di una famiglia T T () che abbia le propriet
di unalgebra e tale che, se
1
, ...,
a
, ... sono eventi appartenenti ad T, allora
_
aN

a
T.
La o-algebra pi comunemente usata in = R, quella degli insiemi boreliani. Essa
denita come la pi piccola o-algebra a cui appartengono tutti gli insiemi aperti ( suciente
dire gli intervalli aperti). Ad essa, a posteriori, appartengono tutti gli intervalli (aperti,
chiusi, semiaperti, limitati e non), tutte le unioni nite o numerabili di tali intervalli, e molti
altri insiemi. Pur essendo vastissima, essa non coincide con T (R). Per, parlando in pratica,
ogni insieme che si costruisca con operazioni usuali (in cui non includiamo luso dellassioma
della scelta), risulta essere un boreliano.
1.1.6 Spazio probabilizzabile
La prima parte dello schema matematico stata denita: un insieme (o spazio) ed una
o-algebra T di sottoinsiemi di . In questo schema chiameremo eventi tutti gli elementi di
T. La coppia (, T) si chiama spazio probabilizzabile.
1.1.7 Probabilit
In senso formale, una funzione
1 : T [0, 1]
che soddisfa due propriet che ora diremo. Scrivendo che 1 una funzione da T in [0, 1]
intendiamo dire che calcoleremo 1 su ogni elemento del suo dominio T, ottenendo come
risultato un numero del codominio [0, 1]. Quindi, preso un qualsiasi evento T, calcoleremo
la sua probabilit
1() [0, 1] .
1.1. EVENTI E LORO PROBABILIT 7
Veniamo alle due propriet che deve soddisfare 1. La prima una convenzione di normaliz-
zazione:
1() = 1.
Osserviamo solo che la scrittura 1() ha senso, in quanto abbiamo presupposto che T.
La seconda la propriet essenziale: se
1
, ...,
a
, ... una famiglia nita, o una successione
innita, di eventi, che siano disgiunti, allora
1
_
_
a

a
_
=

a
1 (
a
) .
Come sopra, osserviamo che la scrittura 1 (

a
) ha senso, in quanto

a

a
T per
la propriet di o-algebra. Disgiunti signica a due a due: ogni coppia di tali insiemi ha
intersezione vuota. Questa propriet si chiama o-additivit della probabilit (e semplicemente
additivit nel caso di un numero nito di insiemi).
Per avere un modello intuitivo di grande aiuto, si pu pensare ad una distribuzione di
massa su una regione , normalizzata in modo che la massa totale sia uno. Se prendiamo
sottoinsiemi disgiunti di , la massa della loro unione la somma delle masse.
Per inciso, esistono varie generalizzazioni del concetto di probabilit, che abbandonano
la richiesta 1() [0, 1], ma in genere mantengono la o-additivit. La generalizzazione pi
nota quella in cui si richiede solo 1() _ 0 (eventualmente innito), nel qual caso si parla di
misura; lesempio a tutti noto la misura euclidea sulla retta, o sul piano, o nello spazio, ecc.
(detta misura di Lebesgue, nella sua accezione o-additiva su unopportuna o-algebra T molto
ampia, detta degli insiemi misurabili secondo Lebesgue). Ma con lispirazione della carica
elettrica al posto della massa si pu costruire la nozione di misura con segno, in cui 1()
pu avere anche segno negativo, ed inne anche il caso vettoriale in cui 1() un vettore
di un certo spazio, sempre o-additivo rispetto ad . Non tratteremo queste generalizzazioni,
ma pu essere utile sapere che si possono sviluppare.
Per esercizio si pu cercare di dimostrare che:
1 implica 1() _ 1(1)
1 (
c
) = 1 1()
1 (' 1) = 1 () +1 (1) 1 ( 1).
Concludiamo questo paragrafo osservando che abbiamo denito la struttura fondamentale
del calcolo delle probabilit, ovvero il cosidetto spazio probabilizzato: una terna (, T, 1),
dove un insieme, T una o-algebra di sottoinsiemi di e 1 una probabilit. A volte
1 viene chiamata anche distribuzione di probabilit, oppure misura di probabilit.
Naturalmente in ogni esempio dovremo specicare chi sono esattamente questi tre oggetti;
indipendentemente dallesempio specico, essi devono per soddisfare i requisiti elencati sopra
(T chiusa per operazioni numerabili, 1 che sia o-additiva), dai quali derivano i vari teoremi
del calcolo delle probabilit, validi in ogni esempio. Sottolineiamo che la specica quantitativa
di 1 nei singoli esempi pu essere assai laboriosa, quindi lo schema descritto no ad ora
solo un vago contenitore di idee astratte.
8 CAPITOLO 1. ELEMENTI DI CALCOLO DELLE PROBABILIT
Esempio 3 Spazi equiprobabili. Lesempio pi semplice ma anche assai utile quello di un
insieme nito composto di elementi, T = T () (sugli insiemi niti non sorgono di-
colt tecniche circa gli eventi, quindi di solito si considerano come eventi tutti i sottoinsiemi
possibili), e 1 denita cos:
1() =
[[

dove abbiamo indicato con [[ la cardinalit di , ovvero il numero di elementi di . Si pu


riconoscere che vale ladditivit di 1 (e 1 () = 1) quindi 1 una probabilit. Sottolineiamo
che se . un evento elementare, allora vale
1 (.) =
1

.
Da qui deriva il nome di spazio equiprobabile. Per quanto semplice possa sembrare questo
esempio, abbastanza vero che ogni costruzione pi elaborata del calcolo delle probabilit
aonda le sue radici in qualche modo negli spazi equiprobabili.
Osservazione 1 Spazi di probabilit niti. Un po pi generale del precedente il caso
di un insieme nito composto di elementi, T = T (), ma con 1 non necessariamente
uniforme. Vedremo tra un attimo un esempio. Qui osserviamo solo una propriet importante:
la conoscenza di 1 (ovvero il valore di 1() per qualsiasi ) equivale alla conoscenza
del valore di 1 sugli eventi elementari. In altre parole, se conosciamo 1 (.) per qualsiasi
. , allora possiamo calcolare 1() per qualsiasi tramite addizione:
1() =

.
1 (.) .
La formula vale per ladditivit di 1. La somma nita, per ipotesi sullo spazio. Tuttavia
quanto detto in questa osservazione vale esattamente anche nel caso di innito numerabile,
nel qual caso la somma che calcola 1() pu essere una serie numerica (comunque una
serie a termini positivi convergente).
Osservazione 2 Insistendo sullosservazione precedente, notiamo che per costruire un esem-
pio di spazio probabilizzato nito, dopo aver specicato e scelto T = T (), basta introdurre
una sequenza di numeri j (.)
.
tali che
j (.) [0, 1] per ogni .

.
j (.) = 1.
A partire da essi si denisce poi
1() =

.
j (.)
per ogni e si verica facilmente che 1 una probabilit.
1.1. EVENTI E LORO PROBABILIT 9
Esempio 4 Fissato un intero positivo :, consideriamo linsieme di tutte le sequenze
(r
1
, ..., r
a
) composte di zeri ed uni. A volte si usa scrivere
= 0, 1
a
ovvero linsieme di tutte le applicazioni da un insieme di : elementi in 0, 1. un insieme
nito, con 2
a
elementi. Deniamo uninteressante probabilit 1 su T = T (). Per quanto
detto nella precedente osservazione, basta che assegniamo la probabilit ad ogni sequenza
(r
1
, ..., r
a
) in modo da avere somma uno. Fissato un numero j [0, 1], posto = 1j, detto
/ il numero di uni nella sequenza (r
1
, ..., r
a
), poniamo
j (r
1
, ..., r
a
) = j
I

aI
.
Sono numeri in [0, 1]. La loro somma pari a
a

I=0
:
I
j
I

aI
dove :
I
il numero di sequenze con / uni. Chiariremo in un paragrafo a parte che questo
numero il coeciente binomiale
_
a
I
_
. Dobbiamo allora calcolare
a

I=0
_
:
/
_
j
I

aI
.
Questa somma vale uno ricordando la formula del binomio di Newton:
(a +/)
a
=
_
:
/
_
a
I
/
aI
.
Lo spazio probabilizzato appena introdotto molto ricco e costituisce la base per un enorme
numero di considerazioni teoriche e di applicazioni pratiche.
Osservazione 3 Una probabilit 1 denita su una o-algebra T , non su uno spazio
come in genere si portati a dire intuitivamente. In genere non pericoloso fare questa
piccola confusione di linguaggio; piuttosto, in alcuni casi utile rammentare questa specica,
quando si studiano problemi avanzati con diverse o-algebra in azione contemporaneamente.
1.1.8 Probabilit condizionale
Supponiamo di aver scelto una terna (, T, 1) per descrivere un problema concreto. Sup-
poniamo poi di venire a conoscenza di uninformazione aggiuntiva che prima ci era ignota,
esprimibile nel fatto che un certo evento 1 T si vericato.
Ad esempio, consideriamo nuovamente il problema della spedizione e ricezione di un
simbolo 0,1 attraverso un canale di comunicazione, in cui inizialmente introduciamo lo schema
(, T, 1) quando non sappiamo n che simbolo stato trasmesso n quale stato ricevuto.
Ricordiamo che linsieme composto dai quattro elementi (0, 0) , (0, 1) , (1, 0) , (1, 1). In
10 CAPITOLO 1. ELEMENTI DI CALCOLO DELLE PROBABILIT
questo esempio T = T (), mentre di 1 ancora non abbiamo parlato, ma supponiamo di
averla ssata.
Come dicevamo, supponiamo che un evento 1 si sia vericato. Nellesempio, potrebbe
essere levento: il simbolo ricevuto 1. Questa solo uninformazione parziale, non esaurisce
ci che vorremmo sapere del problema aleatorio, ma certamente unimportante informazione
in pi.
Matematicamente, accade questo: la nuova informazione contenuta nel fatto che 1 si
vericato, modica la probabilit di tutti gli altri eventi. Ogni evento aveva inizialmente
probabilit 1(); ora ha una nuova probabilit che indicheremo con
1 ([1)
(e leggeremo probabilit di sapendo 1, o condizionata a 1). La formula che stata
scelta per calcolarla, o se si vuole come sua denizione, la seguente:
1 ([1) =
1 ( 1)
1(1)
.
Come ogni denizione contiene un certo grado di arbitrariet, ma comunque ben motivata
sia dalla sensatezza negli esempi, sia dal seguente ragionamento generale. Si pensi ad . Nel
momento in cui sappiamo che 1 si vericato, linsieme 1
c
non pu pi vericarsi, quindi
il nostro universo si restinge a 1 stesso, diventa
t
= 1. Preso un qualsiasi evento , la
parte di in 1
c
non pu pi vericarsi, mentre sopravvive la parte di in 1, pari a 1.
In altre parole, nel passaggio (restrizione) da ad
t
, linsieme si trasforma in 1.
Sarebbe naturale poi dire che la probabilit 1() si trasforma in 1 ( 1). Per la nuova
probabilit cos trovata avrebbe il difetto di non valere 1 sul nuovo universo: 1 (
t
) = 1 (1),
diverso da 1 in generale. Va allora normalizzata ad 1, dividendo per 1 (1). Ecco come si
arriva allespressione
1(1)
1(1)
partendo da 1().
Solo la parte a puntini sopravvive come eventualit quando sappiamo che vale 1
Osserviamo che nella denizione di 1 ([1) bisogna supporre che sia 1(1) 0 per dare
senso alla frazione. Tuttavia, quando 1(1) = 0, anche 1 ( 1) = 0 (in quanto 1 1),
quindi lespressione del tipo
0
0
, che non ha un senso elementare, algebrico, ma potrebbe
avere un senso limite, magari prendendo una successione di insiemi 1
a
1 con opportune
1.1. EVENTI E LORO PROBABILIT 11
propriet. In molti casi questo tipo di ragionamento funziona e produce nozioni utilissime
di probabilit condizionata in un senso generalizzato. Per ora non approfondiamo questo
argomento.
Ricordiamo che 1 era, rigorosamente parlando, una funzione. Analogamente molto utile
pensare a 1 (.[1) come ad una funzione, per 1 ssato: funzione dellevento che mettiamo
nellespressione 1 ([1). Si dimostra che la funzione 1 (.[1) (con 1 ssato) una probabilit,
o-additiva.
1.1.9 Indipendenza
Prima di conoscere un certo 1, un evento ha probabilit 1(). Dopo, ha probabilit
1 ([1).
Quando questi due valori sono uguali, ovvero
1 ([1) = 1()
siamo portati a dire che 1 non inuenza . Un esempio semplice da capire quello del lancio
di due dadi: se 1 levento nel primo lancio esce 6 e levento nel secondo lancio esce
6, chiaro intuitivamente che 1 non pu inuenzare in alcun modo.
Osservazione 4 Unosservazione semi-seria. Una credenza ingenua che se in un lancio
esce 6, nel successivo sia pi dicile che esca di nuovo 6. Pi formalmente, concordando
che a priori la probabilit che al secondo lancio esca 6 1/6, alcuni pensano che, una volta
noto che al primo lancio uscito 6, la probabilit che esca 6 al secondo lancio minore di
1/6. Questo completamente assurdo se si pensa alla sica del lancio del dado. Casomai,
si potrebbe dubitare che valga proprio il contrario: se il dado non perfetto, il fatto che
sia uscito 6 al primo lancio potrebbe essere un indizio che il dado sbilanciato a favore di
certe facce, inclusa la faccia 6; ma allora al secondo lancio la probabilit che esca 6 un po
maggiore di 1/6!
La condizione 1 ([1) = 1() sembra asimmetrica, mentre non lo . Siccome (usando
la simmetria di 1)
1 (1[) =
1 (1 )
1()
=
1 ( 1)
1()
=
1 ([1) 1(1)
1()
,
da 1 ([1) = 1() si ricava 1 (1[) = 1(1), ovvero che non inuisce su 1. Quindi si
pu parlare di indipendenza tra e 1, simmetricamente. Per dare una veste simmetrica
anche alla formulazione matematica, basta osservare che luguaglianza
1 ( 1) = 1()1(1)
equivalente alle precedenti (per esercizio). Oltre ad essere simmetrica ha il pregio di non
obbligare alle speciche del tipo 1() 0 o 1(1) 0 insite nella denizione di probabilit
condizionale. Arriviamo quindi alla seguente:
Denizione 3 Due eventi e 1 si dicono indipendenti se 1 ( 1) = 1()1(1).
12 CAPITOLO 1. ELEMENTI DI CALCOLO DELLE PROBABILIT
1.1.10 Formula di Bayes e formula di fattorizzazione
La formula di Bayes la formula appena dimostrata sopra, che riscriviamo:
1 (1[) =
1 ([1) 1(1)
1()
.
Essa permette di calcolare 1 (1[) a partire da 1 ([1) (ed altri due termini). E interessante
la sua struttura logica: se conosciamo come 1 inuenza , ovvero conosciamo 1 ([1), allora
possiamo calcolare come inuenza 1. C una sorta di inversione causale.
Se sappiamo come certe cause inuenzano certi eetti, possiamo dalla conoscenza degli
eetti risalire ad informazioni sulle cause. E alla base di procedimenti di inferenza statistica
che analizzeremo. Prima di esemplicare luso della formula di Bayes, conviene premettere
anche la formula di fattorizzazione, che spesso serve per calcolare il denominatore 1().
Veniamo alla formula di fattorizzazione. Abbiamo gi visto come la conoscenza del-
la probabilit condizionale 1 ([1) permetta il calcolo di 1 ( 1) tramite la formula
1 ( 1) = 1 ([1) 1(1) (se si conosce anche 1(1)).
Se vogliamo calcolare una probabilit 1(), spesso fondamentale riconoscere che magari
siamo in grado di calcolare certe probabilit condizionali della forma 1 ([1
i
) per certi insiemi
1
i
. Si procede allora come segue.
Supponiamo che gli eventi 1
1
, 1
2
, ... formino una partizione di (la loro unione e
sono a due a due disgiunti). Allora vale
1() =

i
1( 1
i
)
in quanto =

i
( 1
i
) e gli eventi 1
i
sono disgiunti (quindi si pu applicare la
o-additivit). Ma allora, essendo 1( 1
i
) = 1 ([1
i
) 1(1
i
), vale
1() =

i
1 ([1
i
) 1(1
i
).
Entrambe queste uguaglianze, ma soprattutto la seconda, portano il nome di formula di
fattorizzazione.
Ragurazione della fattorizzazione di un evento
1.1. EVENTI E LORO PROBABILIT 13
Essa si pu poi inserire nella formula di Bayes:
1 (1[) =
1 ([1) 1(1)

i
1 ([1
i
) 1(1
i
)
dove 1 eventualmente pu essere uno degli insiemi 1
i
.
Per capire luso di queste due formule, proponiamo alcuni esempi nel seguito. disponibile
anche una lista di esercizi risolti.
Esempio 5 La preparazione di uno studente pu essere scarsa, buona, ottima. Se scarsa,
la probabilit che totalizzi almeno 18 negli esercizi pari a 0.3. Se buona, pari a 0.8, se
ottima pari a 0.995. Prima dello scritto il docente non ha informazioni sullo studente
e decide di considerare equiprobabili le tre possibilit circa la sua preparazione. Supponiamo
poi che lo studente esegua gli esercizi e prenda meno di 18; il docente, ora, che probabilit gli
attribuisce di avere una preparazione almeno buona (cio buona o ottima)?
Soluzione
1( < 18) = 1(< 18[o)1(o) +1(< 18[1)1(1) +1(< 18[O)1(O)
=
1
3
(0.7 + 0.2 + 0.005) = 0. 301 67
1(o[ < 18) =
1(< 18[o)1(o)
1(< 18)
=
0. 233 33
0. 301 67
= 0. 773 46.
Quindi, usando la regola dellevento complementare, la probabilit richiesta 10.773 46 = 0
. 226 54.
Lesempio appena visto si inquadra bene in una logica causale. Il sequente invece si in-
serisce meglio in una logica di classicazione. Questa concettualizzazione (extra-matematica)
pu servire nei problemi concreti a riconoscere il modo di trattarli matematicamente.
Esempio 6 Una ditta commercia vino bianco (1) e rosso (1), richiesti da clienti in Francia
(1) e in Germania (G). 1/3 delle richieste arriva dalla Francia, 2/3 delle richieste dalla
Germania. I 3/4 delle richieste provenienti dalla Francia sono di vino bianco, 1/4 delle
richieste sono di vino rosso. Viceversa, 1/4 delle richieste provenienti dalla Germania sono
di vino bianco, 3/4 delle richieste sono di vino rosso.
Calcolare la probabilit che un generico ordine riguardi il vino bianco.
Soluzione
Dati: 1(1) = 1,3, 1(G) = 2,3, 1(1[1) = 3,4, 1(1[1) = 1,4, 1(1[G) = 1,4,
1(1[G) = 3,4.
1(1) = 1(1[1)1(1) +1(1[G)1(G) =
3
4

1
3
+
1
4

2
3
=
1
4
+
1
6
=
5
12
Vediamo adesso un esempio in cui presente una relazione di causalit un po pi netta
fra due eventi. Lesempio legato ad una famosa metodologia di statistica Bayesiana.
14 CAPITOLO 1. ELEMENTI DI CALCOLO DELLE PROBABILIT
1.1.11 Calcolo combinatorico
Per ragioni di tempo, limitiamo la trattazione del calcolo combinatorico a pochi semplici
principi.
Quello base detto principio di enumerazione. Esso asserisce che se si svolgono due
esperimenti successivi, il primo con : possibili risultati diversi ed il secondo con : possibili
risultati diversi, allora le coppie di risultati possibili sono : :. E davvero un principio ovvio,
ma permette di risolvere un grandissimo numero di problemi. Naturalmente si sottointende
che vale anche per una sequenza formata da pi di due esperimenti; ad esempio per tre
esperimenti, se nel primo ci sono :
1
risultati possibili, nel secondo :
2
e nel terzo :
3
, il
numero totale di risultati possibili della terna di esperimenti :
1
:
2
:
3
. Vediamolo allopera.
Principio di enumerazione
Quante sono le stringhe di : simboli, (r
1
, ..., r
a
), in cui ciascun simbolo r
i
pu assumere
c possibili valori diversi? Il risultato
c
a
.
Infatti, usiamo il principio di enumerazione immaginando che la scelta del primo simbolo sia
il primo esperimento, la scelta del secondo simbolo il secondo esperimento e cos via. Nel
primo esperimento ci sono c risultati possibili, nel secondo pure, e cos via, per cui il numero
di risultati possibili della sequenza di esperimenti il prodotto c
a
.
Come esempio, dato un insieme nito con : elementi, linsieme delle parti T () ha
2
a
elementi. Infatti, numeriamo gli elementi di come .
1
, ..., .
a
. Ogni parte si pu
mettere in corrispondenza con la stringa di zeri ed uni (r
1
, ..., r
a
) in cui r
i
= 1 se .
i
.
Questa corrispondenza biunivoca. Quindi T () ha tanti elementi quante sono le stringhe
(r
1
, ..., r
a
) di zeri ed uni, ovvero 2
a
.
Dato un insieme di : oggetti diversi, in quanti modi diversi li possiamo ordinare? In altre
parole, vogliamo costruire stringhe ordinate (r
1
, ..., r
a
) in cui gli oggetti r
1
, ..., r
a
sono diversi
tra loro, presi da un insieme pressato di : oggetti. Il primo oggetto si pu scegliere (primo
esperimento) in : modi diversi. Scelto quello, il secondo oggetto si pu scegliere (secondo
esperimento) solo in :1 modi diversi. E cos via. Il numero totale di risultati il prodotto:
:! := :(: 1) 2 1.
Con altro linguaggio, questo il numero delle permutazioni di : oggetti.
1.2. VARIABILI ALEATORIE E VALORI MEDI 15
Data una popolazione di : oggetti diversi, volendo costruire con essi delle stringhe di
lunghezza /, con / _ : (ogni oggetto pu essere usato una volta sola), quante stringhe
(r
1
, ..., r
I
) si possono costruire? Come nel problema precedente, il primo oggetto si pu
scegliere in : modi diversi, il secondo in : 1 e cos via, ma non si arriva ad esaurimento
della popolazione di oggetti, bens ci si ferma dopo averne scelti /. Quindi il numero nale
di scelte il prodotto dei primi / fattori:
:(: 1) (: / + 1) .
Ricordiamo che esso il numeratore nella seguente riscrittura del coeciente binomiale:
_
:
/
_
=
:!
/! (: /)!
=
:(: 1) (: / + 1)
/!
.
Torniamo al primo esempio semplicato: le 2
a
stringhe (r
1
, ..., r
a
) in cui ciascun simbolo
r
i
pu assumere solo i valori 0 ed 1. Chiediamoci: dato / _ :, quante di queste stringhe
hanno / uni? Indichiamo con C
a,I
questo numero. Questo problema sfugge ad unapplicazione
diretta del principio di enumerazione. Bisogna invece ricondursi con un trucco ad uno dei
problemi precedenti. Il trucco pu essere il seguente: invece che usare uni, usiamo i primi
/ interi positivi, i numeri 1, 2, ... , k. Chiediamoci: quante stringhe (r
1
, ..., r
a
) si possono
costruire con : / zeri e gli altri simboli uguali ai numeri 1, 2, ... , /, ma presi in ordine
qualsiasi? Indichiamo con 1
a,I
questo numero. Ripetiamo: in entrambi i problemi vogliamo
: / zeri; nel primo problema mettiamo per tutti uni nelle restanti / posizioni, mentre nel
secondo problema mettiamo i numeri 1, 2, ... , /, in un ordine qualsiasi. Vale allora
C
a,I
/! = 1
a,I
.
Infatti, per ciascuna stringa del primo tipo (che specica le posizioni degli zeri), se ne possono
creare /! diverse del secondo, a seconda dellordine con cui si mettono i numeri 1, 2, ... , /.
A questi punto basta riconoscere che
1
a,I
= :(: 1) (: / + 1) .
Infatti basta applicare cos il principio di enumerazione: il primo esperimento consiste nel
prendere il numero 1 e posizionarlo nella stringa; ci sono : posizioni possibili. Il secondo
esperimento consiste nel posizionare il numero 2: : 1 modi possibili; e cos via, no al
numero /.
In conclusione:
Proposizione 1 Il numero di stringhe (r
1
, ..., r
a
), a valori 0,1, aventi / uni, con / _ :,
pari a
_
a
I
_
.
1.2 Variabili aleatorie e valori medi
1.2.1 Introduzione
Cosa sono le variabili aleatorie (abbreviato v.a. nel seguito)? La risposta a questa domanda
di gran lunga pi sosticata di molti altri elementi di teoria delle v.a. Quindi, per non
16 CAPITOLO 1. ELEMENTI DI CALCOLO DELLE PROBABILIT
partire subito con le cose pi dicili, adottiamo una tattica pragmatica: ci accontentiamo di
sviluppare unintuizione pratica di cosa sia una v.a., introduciamo alcuni oggetti matematici
che la descrivono (densit, ecc.) e cominciamo cos a fare calcoli e vedere lutilit pratica del
concetto. In un secondo momento torneremo sullaspetto fondazionale e daremo la denizione
rigorosa di v.a., che costituir anche il collegamento tra questo nuovo concetto e quello di
spazio probabilizzato introdotto nella prima lezione.
Lidea intuitiva semplice: chiamiamo v.a. ogni grandezza su cui non possiamo fare
previsioni certe, ma di cui abbiamo informazioni probabilistiche nel senso specicato sotto
col concetto di densit. Ad esempio, una v.a. la durata della batteria di un portatile,
il numero di esemplari di un certo prodotto che verranno richesti ad un negozio durante la
prossima settimana, la quantit di traco su un ramo della rete internet nelle prossime ore,
e cos via.
Indichiamo in genere con le lettere A, 1 ecc. le v.a. Ad esse sono associati degli eventi che
ci interessano in pratica, oppure in teoria. Ad esempio, pu interessarci levento: T 10 ore
dove T la durata della batteria di un portatile, oppure levento = 2 dove il numero
di lavastoviglie che verranno richeste ad un certo negozio. In generale possiamo pensare che
gli eventi di interesse avranno la forma
A
dove A la v.a. che stiamo considerando ed un sottoinsieme dei numeri reali (o in certi
casi dei numeri naturali, ad esempio).
1.2.2 V.a. continue e loro densit di probabilit
Abbiamo detto che ci interessano eventi del tipo A e quindi vorremo calcolarne la
probabilit. Si chiamano continue quelle v.a. A a cui associata una funzione ) : R R
avente le due propriet
) (r) _ 0 per ogni r
_
+o
o
) (r) dr = 1
e tale che la probabilit dellevento A si calcola mediante un integrale di ):
1 (A ) =
_

) (r) dr
dove lintegrale esteso allinsieme .
1.2. VARIABILI ALEATORIE E VALORI MEDI 17
Ad esempio
1 (A 10) =
_
+o
10
) (r) dr.
Le funzioni ) non negative e con area totale pari ad 1 si dicono densit di probabilit.
Per una v.a. continua A, tutte le probabilit del tipo 1 (A ) si calcolano mediante
la densit ), quindi in un certo senso non serve avere una denizione rigorosa di v.a.,
suciente il concetto di densit e la convenzione di interpretare lintegrale
_

) (r) dr come
probabilit di un determinato evento. Per questo, entro certi limiti, si pul fare a meno della
denizione rigorosa di v.a. In questottica, il simbolo A non descrive un oggetto matem-
atico rigoroso, ma solo un ausilio simbolico per abbreviare la scrittura di certi eventi e
di certe probabilit. Ad esempio, invece di scrivere probabilit che la batteria duri pi
di 10 ore, scriviamo sinteticamente 1 (T 10 ore). E solo una scrittura convenzionale.
Poi, per calcolare matematicamente questa probabilit, basta avere la densit ) e calcolare
_
+o
10
) (r) dr.
Nella denizione di densit di probabilit abbiamo omesso alcune precisazioni matem-
atiche, che non approfondiamo in tutta la loro possibile generalit; accenniamo solo al fatto
che bisogna richiedere che abbia senso calcolare lintegrale, quindi bisogna far riferimento ad
una nozione di funzione integrabile. La versione facile di questa nozione quella di funzione
integrabile secondo Riemann, che abbraccia ad esempio le funzioni continue e qualcosa in
pi; la verisone pi matura richiederebbe invece la nozione di funzione integrabile secondo
Lebesgue, che comprende pi funzioni e si adatta meglio alle questioni coinvolgenti operazioni
limite.
Esempio 7 Una v.a. uniforme su [a, /] una v.a. A con densit ) data da
)(r) =
_
1
bo
per r [a, /]
0 per r , [a, /]
.
Larea sottesa da ) uno per ragioni elementari.
Esempio 8 Una v.a. esponenziale di parametro `, con ` 0, una v.a. A con densit )
data da
)(r) =
_
`c
Aa
per r _ 0
0 per r < 0
.
Scriveremo per brevit A ~ 1rj (`). Larea sottesa da ) uno in quanto
_
o
0
`c
Aa
dr =
_
o
0
d
dr
c
Aa
dr =
_
c
Aa
_
o
0
= 1
dove linterpretazione del calcolo di c
Aa
per r = + quella di limite
lim
a+o
c
Aa
= 0.
Tra le cose pi signicative delle v.a. esponenziali c la formula (valida per t _ 0)
1 (A _ t) = c
At
18 CAPITOLO 1. ELEMENTI DI CALCOLO DELLE PROBABILIT
che si dimostra calcolando lintegrale
1 (A _ t) =
_
o
t
`c
Aa
dr =
_
c
Aa
_
o
t
= c
At
.
La funzione t 1 (A _ t) viene a volte chiamata adabilit (reliability), nellomonima
teoria.
0 1 2 3 4
0.0
0.2
0.4
0.6
0.8
1.0
x
y
Densit esponenziale, r _ 0, ` = 1
Esempio 9 Una v.a. gaussiana, o normale, canonica una v.a. A con densit ) data da
)(r) =
1
_
2
c

i
2
2
.
La verica della propriet di area uno pi complessa. Tralasciando i dettagli, si fonda sui
seguenti calcoli:
__
+o
o
c

i
2
2
dr
_
2
=
_
+o
o
_
+o
o
c

i
2
2
c

2
2
drdj =
_
+o
o
_
+o
o
c

i
2
+
2
2
drdj
=
_
2
0
_
+o
0
rc

r
2
2
drd0 = 2
_
+o
0
rc

r
2
2
dr
dove abbiamo usato il cambio di variabili in coordinate polari (il determinante jacobiano
r). Essendo
_
+o
0
rc

r
2
2
dr =
_
+o
0
d
dr
c

r
2
2
dr =
_
c

r
2
2
_
o
0
= 1
troviamo inne
_
+o
o
c

i
2
2
dr =
_
2
che spiega il fattore
1
_
2
nella denizione di ).
1.2. VARIABILI ALEATORIE E VALORI MEDI 19
-3 -2 -1 0 1 2 3
0.1
0.2
0.3
0.4
x
y
Densit gaussiana canonica
Osservazione 5 Osserviamo che purtroppo non possibile calcolare una primitiva di )
tramite funzioni elementari, quindi il calcolo di probabilit gaussiane non di tipo ananlitico,
ma solo numerico (con luso di tavole o computer).
Esempio 10 Una v.a. gaussiana, o normale, di parametri j e o
2
(con o 0) una v.a. A
con densit ) data da
)(r) =
1
_
2o
2
c

(i)
2
2
2
.
Scriveremo per brevit A ~
_
j, o
2
_
. La verica della propriet di area uno si fa ricon-
ducendosi al caso canonico con il cambio di variabile j =
aj
o
:
_
+o
o
1
_
2o
2
c

(i)
2
2
2
dr
j=
i

=
_
+o
o
1
_
2o
2
c

2
2
odj
=
_
+o
o
1
_
2
c

2
2
dj = 1.
-2 -1 0 1 2 3 4 5 6 7 8 9 10 11 12
0.1
0.2
0.3
0.4
x
y
Densit gaussiana con j = 5 e o
2
= 4
1.2.3 V.a. discrete
In un certo senso pi elementari delle precedenti (ma in unaltro pi singolari) sono le v.a.
discrete, quelle ovvero che assumono solo un numero nito di valori a
1
, ..., a
.
o al pi
20 CAPITOLO 1. ELEMENTI DI CALCOLO DELLE PROBABILIT
una quantit numerabile di valori a
I

IN
. Per evitare inutili complicazioni simboliche,
supporremo (senza che questo sia in realt davvero restrittivo) che i valori possibili siano
i primi numeri interi 0, ..., oppure, nel caso innito numerabile, tutti gli interi non
negativi N =0, 1, ....
Per tali v.a. ci interessano prima di tutto probabilit del tipo
1 (A = /)
al variare di / nei valori possibili di A. Poi, probabilit pi complesse si calcolano semplice-
mente per somma (nita o innita a seconda dei casi):
1 (A ) =

I
1 (A = /) .
Quindi i numeri
j
I
:= 1 (A = /)
descrivono tutte le probabilit che ci interessano. La successione (nita o innita) dei numeri
j
I
si chiama in vari modi, a volte anche densit discreta di probabilit, in analogia con caso
delle densit, oppure massa di probabilit, ed altri ancora, che si capiscono facilmente dal
contesto.
Una successione (nita o innita) di numeri j
I
una densit discreta di probabilit, se
soddisfa due requisiti, in analogia con le densit ):
j
I
_ 0 per ogni /

I
j
I
= 1.
Si noti che automaticamente risulta anche j
I
[0, 1], mentre nel caso delle densit ) i valori
)(r) possono anche essere maggiori di uno ( larea totale sottesa dal graco che deve essere
pari ad uno).
Esempio 11 Una v.a. di Bernoulli di parametro j, con j [0, 1], una v.a. A che assume
solo i valori 0 ed 1, con densit discreta di probabilit data da j
0
= 1 j, j
1
= j, o in altre
parole
1 (A = 1) = j, 1 (A = 0) = 1 j.
Pu essere utile una scrittura schematica del tipo
A =
_
1 con probabilit j
0 con probabilit 1 j
.
La propriet di somma uno ovvia.
Esempio 12 Una v.a. binomiale di parametri j ed :, con j [0, 1] ed : intero positivo,
una v.a. A che assume solo i valori / = 0, 1, ..., :, con probabilit
1 (A = /) =
_
:
/
_
j
I
(1 j)
aI
.
1.2. VARIABILI ALEATORIE E VALORI MEDI 21
Scriveremo per brevit A ~ 1(:, j). La propriet di somma uno deriva dalla formula del
binomio di Newton:
(a +/)
a
=
_
:
/
_
a
I
/
aI
.
Per questa formula,
a

I=0
_
:
/
_
j
I
(1 j)
aI
= (j + (1 j))
a
= 1
quindi i numeri della denizione di v.a. binomiale sono eettivamente una densit discreta
di probabilit. Nella gura si vede una 1(10, 0.2); i valori numerici, per / = 0, 1, ..., 10, sono
0.107, 0.268, 0.301, 0.201, 0.088, 0.026, 0.005, 7. 810
4
, 7. 310
5
, 4. 010
6
, 1.010
7
(si noti la piccolezza degli ultimi). Non riportiamo il graco di una 1(10, 0.5), che, come si
pu immaginare, simmetrico. Inne, il graco di una 1(10, 0.8) come quello della gura
ma riesso rispetto al punto centrale.
hist(rbinom(10000,10,0.2)+0.01,11)
Densit di massa di una 1(10, 0.2)
Osservazione 6 Osserviamo che per : = 1 le v.a. binomiali sono v.a. di Bernoulli. Quindi
possiamo indicare le Bernoulli scrivendo A ~ 1(1, j). Vedremo pi avanti, nel Teorema 2,
che la somma di : v.a. di Bernoulli 1(1, j) indipendenti una 1(:, j).
Esempio 13 Una v.a. di Poisson di parametro `, con ` 0, una v.a. A che assume tutti
i valori interi non negativi con probabilit data dalla formula
1 (A = /) = c
A
`
I
/!
per ogni / N. Scriveremo A ~ T (`). La propriet di somma uno deriva dallo sviluppo in
serie dellesponenziale:
c
A
=
o

I=0
`
I
/!
.
22 CAPITOLO 1. ELEMENTI DI CALCOLO DELLE PROBABILIT
Il seguente teorema stabilisce un legame fondamentale tra v.a. binomiali e di Poisson. Ri-
mandiamo un po pi avanti la sua interpretazione, che svolgeremo congiutamente a vari
discorsi interpretativi.
Teorema 1 (degli eventi rari) Dato ` 0, posto j
a
=
A
a
(che di solito si scrive j: = `),
per ogni / N vale
lim
ao
_
:
/
_
j
I
a
(1 j
a
)
aI
= c
A
`
I
/!
.
Proof. Fissato / N, vale
_
:
/
_
j
I
a
(1 j
a
)
aI
=
:(: 1) (: / + 1)
/!
`
I
:
I
(1 j
a
)
a
(1 j
a
)
I
=
`
I
/!

:
:

: 1
:

: / + 1
:

(1 j
a
)
a
(1 j
a
)
I
ed ora basta osservare che per :
:
:
= 1,
: 1
:
1, ...,
: / + 1
:
1
(e sono un numero nito e ssato / di termini),
(1 j
a
)
I
=
_
1
`
:
_
I
1
I
= 1
mentre per un noto limite notevole
(1 j
a
)
a
=
_
1
`
:
_
a
c
A
.
Mettendo insieme tutti questi limiti ed usando i teoremi sul limite di prodotto e rapporto di
successioni, si ottiene il risultato desiderato.
A titolo di esempio, consideriamo una v.a. T (2). Essa limite di 1(:, j) con :j = 2. I
valori
: = 10, j = 0.2
sono ancora ben lontani intuitivamente da ci che pensiamo essere il limite per : grande.
Eppure i primi valori, per / = 0, 1, ..., 10 della T (2) sono 0.135, 0.270, 0.270, 0.180, 0.090,
0.036, 0.012, 0.003, 8. 5 10
4
, 1. 9 10
4
, 3. 8 10
5
, che non si scostano molto da quelli
riportati sopra per una 1(10, 0.2). Il graco riportato in gura. Qualche lieve dierenza
ancora apprezzabile e fa capire intuitivamente alcune dierenze di forma tra le due densit
di massa.
hist(rpois(10000,2)+0.01)
1.2. VARIABILI ALEATORIE E VALORI MEDI 23
Densit di massa di una T (2)
Osservazione 7 Il legame simbolico tra il parametro delle v.a. esponenziali e quello delle
Poisson non casuale. Vedremo pi avanti un legame anche tra queste due classi, particolar-
mente interessante in quanto lega v.a. continue a v.a. discrete, e non attraverso operazioni
limite, bens operazioni logiche nite.
Esempio 14 Una v.a. geometrica di parametro j, con j (0, 1), una v.a. A che assume
tutti i valori interi non negativi con probabilit data dalla formula
1 (A = /) = (1 j)
I
j
per ogni / N. La somma uno in quanto
o

I=0
(1 j)
I
=
1
j
.
Queste v.a. sono un po lanalogo nel discreto delle v.a. esponenziali. Non tracciamo la loro
diensit di massa, che si pu facilmente immaginare per analogia con le v.a. esponenziali.
Esempio 15 Per certe applicazioni utile introdurre la cosidetta v.a. geometrica modicata
(spesso chiamata anchessa semplicemente v.a. geometrica). Una v.a. geometrica modicata
di parametro j una v.a. che assume i valori interi positivi / = 1, 2, ... con probabilit
1 (A = /) = (1 j)
I1
j.
1.2.4 Denizione di variabile aleatoria
Fino ad ora, per v.a. abbiamo inteso intuitivamente ogni grandezza casuale che incontriamo
in qualche applicazione pratica. Se per ci sforziamo, di fronte ad un problema concreto, di
costruire esplicitamente , vediamo che le grandezze aleatorie si possono vedere come funzioni
denite sul dominio a valori reali.
Esempio 16 Consideriamo : v.a. di Bernoulli di parametro j. Ad esempio, potremmo
essere interessati allo studio di una banca avente : correntisti (es. 100), ciascuno dei quali, in
una giornata generica, si presenta con probabilit j (es.
1
5
) per ritirare del denaro. Associamo
24 CAPITOLO 1. ELEMENTI DI CALCOLO DELLE PROBABILIT
ad ogni correntista una v.a. di Bernoulli che vale 1 se il correntista si presenta per ritirare
denaro, 0 altrimenti. Abbiamo quindi : v.a. di Bernoulli, A
1
per il correntista numero 1,
ecc. no a A
a
per il correntista numero 100. Il numero di richieste (in un dato giorno)
dato allora da
o
a
= A
1
+... +A
a
in quanto ogni richiesta contribuisce con un 1 in questa somma, mentre le mancate richeste
contribuiscono con 0.
Introduciamo lo spazio dei possibili esiti. Un esito . in questo problema corrisponde
a sapere, per ogni correntista, se si presentato o meno. Quindi, un esito una stringa
. = (.
1
, ..., .
a
) in cui .
1
vale 1 se il primo correntista si presentato, zero altrimenti, e cos
via per gli altri .
i
. linsieme di tutte queste sequenze.
Denito , ad ogni esito . possiamo associare diverse grandezze: ad esempio la grandezza
A
1
(.) = .
1
che legge, di tutta linformazione contenuta in ., solo se il primo correntista si presentato
o meno. Oppure, ad esempio, la grandezza
o (.) = .
1
+... +.
a
che legge il numero di correntisti che si sono presentati, relativamente a quella sequenza ..
Vediamo che in questo modo abbiamo denito delle funzioni A
1
, o, con dominio , a valori
reali. Esse corrispono esattamente, come signicato pratico, alle omonime grandezze aleatorie
introdotte prima a livello non rigoroso, mentre ora, come funzioni da in R, sono oggetti
matematici ben precisi.
Lesempio mostra che ragionevole denire come variabili aleatorie le funzioni denite su
uno spazio , a valori in qualche insieme. Manca ancora una precisazione, per arrivare alla
denizione completa, ma prima svolgiamo qualche osservazione.
Con riferimento allesempio, il simbolo o, prima senza signicato matematico ma usato
per comodit di scrittura, diventa ora lusuale simbolo di funzione avente un signicato
matematico preciso: o abbreviazione di o (.), come ) lo di )(r). Prima scrivevamo
o = / come simbolo abbreviato per intendere levento / correntisti si presentano. Ora
possiamo interpretare rigorosamente o = / come evento in , ovvero come sottoinsieme di
: linsieme di tutti i punti . tali che o (.) = /. Detto altrimenti, ora il simbolo o = /
semplicemente labbreviazione dellespressione perfettamente rigorosa e signicativa
. : o (.) = / .
Le variabili aleatorie sono funzioni. Quando nominiamo una v.a. A, sottointendiamo che
ci sia uno spazio probabilizzato (, T, 1) su cui A sia denita come funzione . A (.).
Quando scriviamo un evento A intendiamo levento
. : A (.) .
Quando scriviamo 1 (A ) stiamo calcolando la probabilit 1 di questo evento. Come in
vari esempi visti nella prima lezione, non sempre si esplicita lo spazio quando si maneg-
giano delle variabili aleatorie; una cosa limpianto teorico, unaltra la pratica con le sue
1.2. VARIABILI ALEATORIE E VALORI MEDI 25
scorciatoie e leliminazione della trattazione esplicita di tutti i dettagli a volte solo noiosi
e non rilevanti per il risultato pratico. Notiamo per che nella nostra esperienza personale
capita ogni tanto di doversi fermare e cercare di capire le cose con limpianto rigoroso, di
fronte a problemi non banali in cui una tratazione troppo intuitiva lascia qualche ansia circa
la veridicit dei risultati (per motivi di sostanza, non puramente formali). In altre parole, a
volte pensare che la scrittura A sta per linsieme degli . tali che A (.) ,
molto utile per essere sicuri di ci che si sta facendo. Senza menzionare i casi in cui invece
indispensabile luso esplicito dello spazio , come ad esempio nella legge forte dei grandi
numeri.
Veniamo per alla denizione completa di v.a. Il problema che, data una funzione
A : R, vogliamo calcolare 1 (A ), quindi lisieme A deve appartenere
alla famiglia T. Quindi dovremo imporre la condizione A T. Come per abbiamo
preso T invece che la famiglia di tutte le parti di , per motivi analoghi non vogliamo
necessariamente considerare tutti gli insiemi R, nella richiesta precedente.
Fissiamo allora una o-algebra E di sottoinsiemi di R.
Denizione 4 Chiamiamo v.a. su (, T, 1) a valori in (R, E) ogni funzione A : R
tale che A T per ogni E.
In genere, salvo avviso contrario, si prende come o-algebra E quella dei boreliani. Questa
la denizione di variabile aleatoria, che illustriamo col seguente disegno:
Si noti che la somma di due v.a. A ed 1 ben denita se esse sono v.a. denite sullo
stesso spazio (, T, 1). Infatti si pone
(A +1 ) (.) = A (.) +1 (.) .
1.2.5 Legge di una v.a.
Data una v.a. A a valori reali denita su uno spazio probabilizzato (, T, 1), questa induce
una distribuzione di probabilit j
A
, detta legge (o distribuzione) di A, sui borelani di R.
Questa distribuzione di probabilit j
A
denita semplicemente da
j
A
() = 1 (A ) .
In altre parole, le probabilit 1 (A ) che abbiamo introdotto come i primi oggetti legati
ad una v.a. A, si possono vedere come una funzione di , denita per tutti i boreliani di
26 CAPITOLO 1. ELEMENTI DI CALCOLO DELLE PROBABILIT
R. Questa funzione la indichiamo con j
A
e la chiamamo legge di A. Si pu vericare che
soddisfa i requisiti di una probabilit (a valori in [0, 1], j
A
(R) = 1, ed o-additiva).
E utile farsi unimmagine mentale o graca, anche se tracciare un disegno piuttosto
dicile. Si deve pensare che sullinsieme sia distribuita una massa 1, e che questa venga
trasportata dalla funzione A in una massa j
A
distribuita su R. Parlando intuitivamente,
come se la massa che sta in ogni punto . venga trasportata da A nel punto A(.) (limmagine
matematicamente scorretta in quanto in molti casi i singoli punti . hanno tutti massa nulla,
quindi il ragionamento va sempre riferito a insiemi di punti). Se ad esempio due o pi punti
vengono trasformati da A nello stesso punto (A non iniettiva), le loro masse vanno a sommarsi
nel punto di arrivo.
La probabilit j
A
un po astratta, quanto lo 1 stessa, in relazione a problemi in cui
tendamo ad interessarci solo delle densit delle v.a. in gioco e dei calcoli che si possono fare
su di esse. Osserviamo allora che se A una v.a. continua con densit )(r), allora vale
j
A
() =
_

) (r) dr
mentre se A una v.a. discreta sui numeri interi non negativi, con densit di massa j(/),
allora
j
A
() =

I
j (/) .
Anzi, data una misura di probabilit j sui boreliani di R, anche a priori non associata ad
una v.a. A, diremo che continua se esiste una densit )(r) per cui valga la prima formula
precedente, discreta se vale la seconda. Ma esistono interessanti misure j
A
(associate ad
altrettante v.a. A) che non sono n continue n discrete: miste nei casi pi semplici, oppure
del tutto inedite come le misure frattali.
Quando diremo che certe v.a. sono equidistribuite o identicamente distribuite (dette an-
che isonome), intenderemo che abbiano la stessa legge. Ad esempio, tutte esponenziali di
parametro 3. Questo non signica che siano uguali, in quanto funzioni da in R. Pensiamo
ai due risultati dei lanci di due dati. Descriviamo il primo con una v.a. A
1
, il secondo con
A
2
. queste due v.a. hanno la stessa legge j, che una probabilit discreta sui numeri da 1 a
6, uniforme. Ma non sono la stessa v.a. Intuitivamente chiaro, in quanto non corrispondono
allo stesso esperimento. Matematicamente la dierenza si apprezza se si introduce esplicita-
mente lo spazio delle coppie (r, j) dei possibili risultati. Vale A
1
(r, j) = r, A
2
(r, j) = j,
quindi sono due diverse funzioni.
1.2.6 Funzione di distribuzione (cdf) di una v.a.
Data una v.a. A, si chiama funzione di distribuzione (o di ripartizione) la funzione r 1(r)
denita da
1(r) = 1 (A _ r) .
Nel linguaggio ingegneristico si sottolinea che la cumulativa: funzione di distribuzione
cumulativa, abbreviata (seguendo il nome inglese) in cdf. Essa una funzione da R in [0, 1],
crescente (in senso debole), soddisfa
lim
ao
1(r) = 0, lim
a+o
1(r) = 1,
1.2. VARIABILI ALEATORIE E VALORI MEDI 27
continua a destra in ogni punto:
lim
aa
+
0
1(r) = 1 (r
0
) \r
0
R.
La verica di queste propriet facile ma richiede un po di lavoro a partire dalla numerabile
additivit di j. La probabilit degli intervalli legata agli incrementi di 1:
1(/) 1(a) = 1 (A (a, /]) , \a < / R.
-5 -4 -3 -2 -1 0 1 2 3 4 5
0.2
0.4
0.6
0.8
1.0
x
y
Graco della cdf normale standard
Il limite sinistro di )(r) esiste in ogni punto r
0
, come per qualsiasi funzione crescente,
ma pu essere strettamente minore di 1 (r
0
), nel qual caso la funzione 1 discontinua in r
0
.
In tale punto si verica una concentrazione di massa per la j, nel senso che j(r
0
) 0.
Questa propriet tipica per le misure discrete, e si ritrova anche nelle cosidette distribuzioni
miste, mentre per le misure denite da una densit di probabilit la massa dei singoli punti
nulla.
La funzione 1(r) porta il nome di funzione di distribuzione perch da un lato una
funzione e non una misura, dallaltro per dice tutto della distribuzione (legge) della v.a. a
cui associata. Spesso nella letteratura applicativa non viene mai introdotto il concetto di
legge di una v.a., essendo un po dicile, mentre si cerca di ricondurre tutto alluso della
funzione di distribuzione 1(r), oggetto pi semplice, che in eetti suciente per molti
scopi.
Quando A ha densit )(r), vale
1(r) =
_
a
o
) (t) dt.
Gracamente, 1(r) misura larea sottesa dal graco di ), a sinistra del punto r. Nei punti
in cui ) continua, per il teorema fondamentale del calcolo integrale abbiamo
1
t
(r) = )(r).
Quindi, fa ) si ricava 1 per integrazione, e da 1 si ricava ) per derivazione.
28 CAPITOLO 1. ELEMENTI DI CALCOLO DELLE PROBABILIT
Se A una v.a. discreta sui numeri interi non negativi, con massa di probabilit j
I
, vale
1(r) =

Ia
j
I
e
j
I
= 1(/) 1(/ 1).
1.2.7 V.A. indipendenti
Date due v.a. A, 1 denite sullo stesso spazio probabilizzato (, T, 1), diciamo che sono
indipendenti se
1 (A , 1 1) = 1 (A ) 1 (1 1)
per ogni coppia , 1 di boreliani di R. Linterpretazione chiara: gli eventi A e 1 1
che descrivono cosa pu accadere in relazione ad A e 1 , devono essere indipendenti.
Una famiglia A
c
di v.a. composta da v.a. indipendenti se per ogni sequenza c
I
di
indici e
I
di boreliani, abbiamo
1
_

I
(A
c
I

I
)
_
=

I
1 (A
c
I

I
) .
A livello quantitativo, c modo di descrivere lindipendenza tramite ogetti come la densit
o i valori medi che introdurremo? In parte s, ma serve la densit congiunta.
Come applicazione del concetto teorico di v.a. e del concetto di indipendenza, dimostriamo
il seguente teorema.
Teorema 2 La somma di : Bernoulli indipendenti di parametro j una 1(:, j).
Proof. Il teorema vale per v.a. di Bernoulli denite su qualsiasi spazio probabilizzato ma per
fare una dimostrazione pi istruttiva mettiamoci in uno schema pi preciso (si pu dimostrare
che questo non restrittivo). Riprendiamo lo spazio
= 0, 1
a
dellesempio 16 con la probabilit di una sequenza . = (.
1
, ..., .
a
) data da 1 (.) = j
I(.)
(1 j)
aI(.)
,
dove / (.) il numero di uni nella sequenza, ovvero
/ (.) =
a

i=1
.
i
.
Si ricorder che avevamo gi introdotto questo spazio in passato, come esempio di spazio
probabilizzato nito, diverso da quello equiprobabile. Su introduciamo le v.a. A
i
denite
da
A
i
(.) = .
i
dove continuiamo ad usare la convenzione . = (.
1
, ..., .
a
).
1.2. VARIABILI ALEATORIE E VALORI MEDI 29
Passo 1. Verichiamo che le A
i
sono v.a. di Bernoulli di parametro j indipendenti. La
verica noiosa ed il lettore pu ometterla. Data una stringa r = (r
1
, ..., r
a
), vale
1 (A
1
= r
1
, ..., A
a
= r
a
) = 1 (. : .
1
= r
1
, ..., .
a
= r
a
)
= 1 ((r
1
, ..., r
a
)) = j
I(a)
(1 j)
aI(a)
e daltra parte
1 (A
1
= r
1
) = 1 (. : .
1
= r
1
) =

.:.
1
=a
1
1 (.)
=

(.
2
,...,.n)
1 (r
1
, .
2
, ..., .
a
) =

(.
2
,...,.n)
j
I((a
1
,.
2
,...,.n))
(1 j)
aI((a
1
,.
2
,...,.n))
= j
a
1
(1 j)
1a
1

(.
2
,...,.n)
j
I((.
2
,...,.n))
(1 j)
(a1)I((.
2
,...,.n))
= j
a
1
(1 j)
1a
1
ed analogamente
1 (A
i
= r
i
) = j
a
.
(1 j)
1a
.
da cui discende sia che
1 (A
1
= r
1
, ..., A
a
= r
a
) = 1 (A
1
= r
1
) 1 (A
a
= r
a
)
cio lindipendenza, sia il fatto che le A
i
sono v.a. di Bernoulli di parametro j.
Passo 2. Fatta questa verica, introduciamo la v.a. o
a
= A
1
+ ... + A
a
e dimostriamo
che una v.a. binomiale 1(:, j). Calcoliamo 1(o = ,). Osserviamo che o = , equivale a
dire che ci sono , uni. Quindi
1 (o = ,) =

.S=)
1(.) =

.:I(.)=)
j
I(.)
(1 j)
aI(.)

.:I(.)=)
j
)
(1 j)
a)
= j
)
(1 j)
a)
[o = ,[
dove [o = ,[ indica la cardinalit dellinsieme o = ,. Ma per la proposizione 1 sul numero
di sequenze con , uni, vale
[o = ,[ =
_
:
,
_
.
La dimostrazione completa.
1.2.8 Vettori aleatori ed altri enti aleatori
Una grandezza aleatoria a valori vettoriali
A = (A
1
, ..., A
a
)
in cui le componenti A
i
sono v.a. a valori reali denite su uno stesso spazio probabiliz-
zato (, T, 1), pu essere chiamata un vettore aleatorio. Un vettore aleatorio quindi
unapplicazione

A
R
a
30 CAPITOLO 1. ELEMENTI DI CALCOLO DELLE PROBABILIT
le cui componenti sono variabili aleatorie. Pu essere la coppia posizione-velocit di una
particella che si muove soggetta a variazioni casuali. Oppure semplicemente possono essere i
valori uscenti da una sequenza di : esperimenti.
Analogamente, una grandezza aleatoria a valori in uno spazio di funzioni, ad esempio lo
spazio delle funzioni continue su un intervallo [0, T],

A
C ([0, T] ; R)
pu essere chiamata una funzione aleatoria (bisogna specicare una propriet del tipo A
T, ma tralasciamo questo particolare). Si pensi ad esempio al campo di velocit di un uido
turbolento, se decidiamo di descriverlo come campo aleatorio. Per chi conosce le distribuzioni,
si possono introdurre le distribuzioni aleatorie. Similmente si possono introdurre le misure
aleatorie, gli insiemi aleatori, ecc. In sintesi, anche se dedichiamo la maggior parte dei nos-
tri sforzi allo studio di v.a. a valori reali, esistono generalizzazioni ad enti aleatori a valori
in insiemi di oggetti diversi dai numeri reali (R
a
, spazi di funzioni, distribuzioni, misure,
spazi di insiemi, ecc.). In genere queste generalizzazioni si appoggiano su concetti topologi-
ci, quindi utile che ci sia un concetto di vicinanza in tali famiglie di oggetti. Dal punto
di vista matematico, in genere si riesce a vincere la sda di denire oggetti aleatori del
tipo pi disparato. Nelle scienze applicate questo pu essere di grande interesse (descrivere
forme o proli aleatori, concentrazioni di massa aleatorie, campi aleatori di interesse sico,
ecc.). Naturalmente poi c il problema di ridurre i gradi di libert per tornare a descrizioni
quantitativamente ecaci.
Esempio 17 Dato uno spazio probabilizzato (, T, 1), consideriamo un insieme C (.) R
a
,
indicizzato da . . Lo chiamamo insieme aleatorio se, preso un qualsiasi punto r R
a
,
la funzione a valori reali
. d (r, C (.))
una varabile aleatoria. La notazione d (r, C (.)) indica la distanza euclidea di r da C (.),
denita n generale da
d (r, ) = inf
j
d (r, j)
dove d (r, j) = [r j[ lusuale distanza euclidea tra due punti. A titolo di esempio, C (.)
potrebbe descrivere come si presenta una struttura, inizialmente di forma C
0
, dopo essere
stata sollecitata da una trasformazione aleatoria. Detto cos astratto e probabilmente privo
di interesse pratico. Per, se possibile parametrizzare le trasformazioni aleatorie che inter-
essano in un esempio specico, in modo da avere solo pochi parametri aleatori, C (.) verrebbe
a dipendere da pochi parametri aleatori, ad es. una coppia di v.a. gaussiane che descrivano
torsione e dilatazione. Vediamo quindi che possibile formalizzare matematicamente concetti
anche piuttosto arditi, come quello di forma aleatoria.
Esempio 18 Indichiamo con '
+
1
(R
a
) linsieme delle misure di probabilit sui boreliani di
R
a
. Chiamiamo delta di Dirac in r
0
R
a
la misura di probabilit c
a
0
denita da
c
a
0
() =
_
1 se r
0

0 se r
0
,
.
1.2. VARIABILI ALEATORIE E VALORI MEDI 31
Intuitivamente, una massa unitaria concentrata nel punto r
0
. Supponiamo di studiare una
dinamica aleatoria, a tempo discreto, che si svolge in R
a
. Indichiamo con A
1
la posizione al
tempo t = 1, aleatoria, poi con A
2
la posizione al tempo t = 2, sempre aleatoria, e cos via.
Poi consideriamo, al tempo :, la media temporale
j
a
=
1
:
a

i=1
c
A
.
.
Con questo simbolo abbiamo indicato una massa equidistribuita tra i punti A
i
, per i = 1, ..., :.
j
a
una misura di probabilit, quindi un elemento di '
+
1
(R
a
), ed aleatoria, in quanto lo
sono i punti A
i
. Abbiamo quindi una misura aleatoria:

j
n
'
+
1
(R
a
) .
Lesempio non articioso: questa misura descrive il tempo trascorso dalla dinamica nelle
diverse regioni dello spazio R
a
. Per : la musura aleatoria j
a
legata al concetto di
misura invariante (che descrive il regime stazionario) della dinamica.
Torniamo ai semplici vettori aleatori. Un vettore aleatorio A = (A
1
, ..., A
a
) denisce una
legge j
A
sui boreliani di R
a
, detta legge congiunta del vettore A. Per i boreliani prodotto
essa denita da
j
A
(
1
...
a
) = 1 (A
1

1
, ..., A
a

a
)
e per gli altri si riesce a denire con procedimenti di estensione che non stiamo a descrivere.
Questa legge congiunta pu essere continua, ovvero avere una densit ) (r
1
, ..., r
a
) tale
che
j
A
(
1
...
a
) =
_

1
...n
) (r
1
, ..., r
a
) dr
1
dr
a
.
Oppure pu essere discreta (lasciamo al lettore limmaginazione sulla formulazione). Oppure
pu essere di altro tipo, misto o pi complicato ancora. Quando esiste, ) (r
1
, ..., r
a
) si chiama
densit congiunta del vettore aleatorio A.
Parallelamente sopravvivono i vecchi concetti per ciascuna delle v.a. A
v
. La legge di A
1
si chiama ora legge marginale di A
1
, e se ha densit )
A
1
(r
1
) questa si dir densit marginale
di A
1
, e cos via per le altre.
Nasce allora la domanda circa il legame tra congiunta e marginali. Limitiamoci a discutere
le densit.
Teorema 3 In generale (quando le densit esistono), vale
)
A
1
(r
1
) =
_
R
n1
) (r
1
, ..., r
a
) dr
2
dr
a
e cos per le altre. Quando A
1
, ..., A
a
sono v.a. indipendenti, vale inoltre
) (r
1
, ..., r
a
) = )
A
1
(r
1
) )
An
(r
a
)
e vale anche il viceversa (se la densit congiunta il prodotto delle marginali, allora le v.a.
sono indipendenti).
32 CAPITOLO 1. ELEMENTI DI CALCOLO DELLE PROBABILIT
Omettiamo la dimostrazione, non troppo dicile peraltro. Osserviamo come interpre-
tazione che, mentre dalla congiunta sempre possibile calcolare le marginali, viceversa dalle
marginali in genere molto dicile risalire alla congiunta, salvo nel caso di indipenden-
za. Questo non deve stupire: come il problema di calcolare la probabilit di una inter-
sezione 1 ( 1). In generale, abiamo bisogno di conoscere ad esempio 1 ([1), che
uninformazione ben pi complessa delle probabilit marginali 1() e 1(1).
Esempio 19 Gaussiana multidimensionale canonica. Supponiamo che A
1
, ..., A
a
siano v.a.
indipendenti gaussiane canoniche, quindi tutte con densit (marginale)
1
_
2
exp
_
r
2
,2
_
.
Allora il vettore aleatorio A = (A
1
, ..., A
a
) ha densit congiunta
) (r
1
, ..., r
a
) =
1
_
(2)
a
exp
_

_
r
2
1
+ +r
2
a
_
2
_
che, usando la norma euclidea [.[ ed il prodotto scalare euclideo ., . e la notazione r =
(r
1
, ..., r
a
), possiamo scrivere anche nella forma pi compatta
) (r) =
1
_
(2)
a
exp
_

[r[
2
2
_
=
1
_
(2)
a
exp
_

r, r
2
_
.
Questa la gaussiana canonica in : dimensioni. Il suo graco in dimensione 2 una
supercie a campana, simmetrica per rotazione.
-2
y x
-2
0.00
0
2
0
2
0.05
0.15
0.10
z
Graco della normale standard in due dimensioni
1.2.9 Valori medi o attesi
Valori medi sperimentali
Dato un campione sperimentale r
1
, ..., r
a
, chiamiamo sua media aritmetica il numero
r =
r
1
+... +r
a
:
=
1
:
a

i=1
r
i
.
A volte viene chiamata anche media sperimentale, o empirica, o anche in altri modi.
1.2. VARIABILI ALEATORIE E VALORI MEDI 33
Data poi una una funzione ,(r), possiamo considerare il campione ,(r
1
), ... , ,(r
a
) e
calcolarne la media aritmetica
, =
,(r
1
) +... +,(r
a
)
:
.
Ad esempio, presa come , la funzione scarto quadratico (rispetto alla media r)
,(r) = (r r)
2
si ottiene il numero
1
:
a

i=1
(r
i
r)
2
che potremmo chiamare scarto quadratico medio. In realt, per un motivo che ora non
possibile anticipare, si preferisce il fattore
1
a1
di fronte alla precedente espressione, per cui
si arriva ad introdurre il numero
o
2
=
1
: 1
a

i=1
(r
i
r)
2
detto appunto scarto quadratico medio sperimentale.
Cos di seguito si potrebbero introdurre altri valori medi sperimentali. Citiamo solamente
la frequenza empirica: supponiamo che i valori r
1
, ..., r
a
(oppure i valori ,(r
1
), ... , ,(r
a
)
) siano tutti pari ad 1 o 0, col signicato che si sta esaminando un evento, diciamo , e vale
r
1
= 1 se al primo esperimento si avverato , r
1
= 0 altrimenti, e cos via per gli altri r
i
.
Allora la somma r
1
+ ... + r
a
conta il numero di volte in cui si avverato (come in uno
schema gi visto con le v.a. di Bernoulli e binomiali), e quindi r rappresenta la frequenza
relativa con cui si avverato . In questo contesto si preferisce allora una notazione del tipo
j al posto di r, che allude allapprossimazione di una probabilit, arrivando quindi a scrivere
j =
r
1
+... +r
a
:
come denizione di frequenza empirica con cui si avvera levento .
1.2.10 Valor atteso: suo calcolo con le densit
Data una v.a. A : R, in potesi estremamente generali possibile denire il concetto di
valore atteso di A, che indicheremo con 1 [A]. A volte il valore atteso viene anche chiamato
speranza o attesa, o semplicemente media, valor medio. Useremo molto spesso il termine
media o valor medio, il pi usato ad esempio nella letteratura sica, anche se bisogna ammet-
tere che pu creare qualche frainteso con la media aritmetica di un campione sperimentale.
Non diamo subito la denizione, piuttosto impegnativa, ma enunciamo un teorema di calcolo,
valido quando A una v.a. continua o discreta.
Teorema 4 Se A una v.a. continua con densit )(r), allora
1 [A] =
_
+o
o
r) (r) dr.
34 CAPITOLO 1. ELEMENTI DI CALCOLO DELLE PROBABILIT
Se A una v.a. discreta sui numeri interi non negativi, con densit di massa j(/), allora
1 [A] =
o

I=0
/j (/) .
Se la v.a. discreta A assume i valori a
1
, a
2
... invece che i numeri naturali, la formula
diventa semplicemente
1 [A] =
o

I=0
a
I
j (/) .
A parole, la somma dei valori per le loro probabilit.
Non avendo dato la denizione, non possiamo ovviamente dimostrare il teorema. Os-
serviamo solo che a volte esso viene scelto come denizione, anche se questa impostazione
sia restrittiva (il valor medio si pu denire anche per molte v.a. che non sono n continue
n discrete), sia limitativa per quanto riguarda la possibilit di svolgere poi dimostrazioni
rigorose di importanti teoremi.
Vediamo per una interpretazione intuitiva della seconda formula del teorema, per sem-
plicit nel caso di una v.a. A discreta che assume solo un numero nito di valori a
1
, ..., a
A
.
Vale 1 [A] =

A
I=0
a
I
j (/). Supponiamo di avere un campione sperimentale r
1
, ..., r
a
estrat-
to da questa v.a.; indichiamo con :(/) il numero di elementi di questo campione uguali ad
a
I
e con j (/) il rapporto
b a(I)
a
cio la percentuale degli elementi del campione che valgono a
I
.
Ci aspettiamo che j (/) sia circa uguale a j (/):
j (/) ~ j (/) .
Ma allora, raggruppando la somma r
1
+ ... + r
a
secondo i valori assunti dai vari elementi
(scambiando ovviamente i termini)
r
1
+... +r
a
= (a
1
+... +a
1
) +... + (a
A
+... +a
A
)
= :(1) a
1
+... + :(') a
A
otteniamo
r =
r
1
+... +r
a
:
=
:(1) a
1
+... + :(') a
A
:
=
:(1)
:
a
1
+... +
:(')
:
a
A
= j (1) a
1
+... + j (') a
A
~ j (1) a
1
+... +j (') a
A
= 1 [A] .
Abbiamo cio vericato la seguente aermazione: se le percentuali sperimentali j (/) sono
circa uguali alle probabilit teoriche j (/), allora la media aritmetica r circa uguale alla
media teorica 1 [A].
Inne, si riconosce che lespressione della media nel caso di v.a. continue lestensione
naturale al continuo della formula per le v.a. discrete. Per tutte queste ragioni il risultato
del teorema molto naturale (e viene a volte preso come denizione di valo medio).
Il teorema precedente si generalizza a funzioni di variabili aleatorie:
1.2. VARIABILI ALEATORIE E VALORI MEDI 35
Teorema 5 Se A una v.a. continua con densit )(r), allora
1 [,(A)] =
_
+o
o
,(r) ) (r) dr
per ogni funzione ,(r) per cui abbia senso lintegrale. Analogamente, se A una v.a. discreta
con densit di massa j(/), allora
1 [,(A)] =
o

I=0
,(/) j (/) .
Il teorema si estende poi al caso di funzioni di vettori aleatori. Scriviamo lenunciato solo
nel caso di vettori continui.
Teorema 6 Se A = (A
1
, ..., A
a
) un vettore aleatorio continuo con densit congiunta
)(r
1
, ..., r
a
), allora
1 [,(A
1
, ..., A
a
)] =
_
o
o
,(r
1
, ..., r
a
) )(r
1
, ..., r
a
)dr
1
...dr
a
.
per ogni funzione ,(r
1
, ..., r
a
) per cui abbia senso lintegrale.
Propriet del valor medio
Iniziamo con lenunciare le propriet pi semplici. Per ora non diamo (quasi) mai la di-
mostrazione, in attesa di avere a disposizione la denizione rigorosa di valor medio, con la
quale molte delle sue propriet diventano abbastanza semplici da dimostrare.
Linearit
Se A e 1 sono due v.a. qualsiasi denite sullo stesso spazio probabilizzato e c e , sono due
numeri reali qualsiasi si ha:
1[cA +,1 ] = c1[A] +,1[1 ] .
Osservazione 8 Ribadiamo il fatto che non necessaria alcuna ipotesi di indipendenza delle
variabili aleatorie A e 1 .
Osservazione 9 La propriet di linearit fa pensare che il valor medio sia unoperazione
simile allintegrale. Con la denizione rigorosa vedremo che questo profondamente vero.
Invece, la scrittura integrale 1[A] =
_
r)(r)dr solo un riesso di questo: non per via di
questa scrittura che 1[A] ha le propriet di unintegrale. Si provi infatti ad immaginare una
dimostrazione della linearit basata su
_
r)(r)dr: bisognerebbe conoscere la densit )
cA+oY
in relazione alle densit )
A
e )
Y
. E possibile ma intricata.
36 CAPITOLO 1. ELEMENTI DI CALCOLO DELLE PROBABILIT
Positivit
Se A _ 0 (cio A(.) _ 0 per ogni . ), allora 1[A] _ 0.
Osservazione 10 Questa propriet pu invece essere enunciata anche ricorrendo alla den-
sit di A, in quanto la condizione A _ 0 si pu formulare con )
A
(r) = 0 per ogni r < 0.
Ovviamente questo si pu dire solo se A una v.a. che ammette densit (continua o discreta).
Monotonia
Se A _ 1 (cio A(.) _ 1 (.) per ogni . ), allora 1[A] _ 1[1 ]. Si vede facilmente,
ragionando sulla dierenza 1 A, che questa propriet equivalente alla positivit.
1.2.11 Alcuni esempi
Riportiamo alcuni esempi di calcolo del valor medio, alcuni dei quali sfruttano qualche
propriet sopra enunciata.
Esempio 20 Se A = c, allora 1[A] = c.
Esempio 21 Se A ~ 1(1, j), si ha che
1[A] = j.
Infatti, dalla denizione, 1[A] = 1 j + 0 (1 j).
Esempio 22 Se A ~ 1(:, j), cio 1(A = /) =
_
a
I
_
j
I

aI
, si ha
1[A] = :j.
I calcoli diretti con la denizione
1[A] =
a

I=0
/
_
:
/
_
j
I

aI
sono laboriosi (si possono fare semplicando /
_
a
I
_
, quindi riconducendosi ad espressioni di
tipo binomiale con : 1 e / 1). Meglio sfruttare la linearit del valor medio. Ricordando
che la somma di : v.a. di Bernoulli A
i
~ 1(1, j) indipendenti una binomiale A ~ 1(:, j),
Teorema 2, vale
1[A] = 1[A
1
] +1[A
2
] + +1[A
a
] = j +j + +j
. .
a volte
= :j .
Notiamo che le A
i
sono v.a. indipendenti, ma questa ipotesi non necessaria per ricavare il
risultato.
1.2. VARIABILI ALEATORIE E VALORI MEDI 37
Esempio 23 Se A ~ T(`), (v.a. di Poisson di parametro `), si ha
1[A] = `.
Ci si pu arrivare dalla denizione
1[A] =
o

I=0
/
c
A
`
I
/!
scrivendo
/
c
A
`
I
/!
= c
A
`
`
I1
(/ 1)!
con un po di calcoli laboriosi ma fattibili. Per convincersi invece in modo rapido del risultato
conviene sfruttare il teorema degli eventi rari che stabilisce la convergenza della binomiale
1(:, j
a
) alla Poisson T(`) per : , con j
a
= `,:. Siccome il valor medio di una
1(:, j
a
) : j
a
che vale `, tutte le approssimanti 1(:, j
a
) hanno valor medio `, quindi
intuitivamente chiaro che la Poisson limite T(`) deve avere anchessa media `. Largomento
non del tutto rigoroso, non disponendo in questo momento di opportuni teoremi limite sui
valori medi, ma convincente.
Esempio 24 Se A una v.a. uniforme nellintervallo [a, /] allora
1[A] =
a +/
2
.
La dimostrazione di questo fatto, intuitivamente abbastanza evidente, lasciata per esercizio.
Esempio 25 Se A una v.a. esponenziale di parametro `, vale
1[A] =
1
`
.
Infatti
1[A] =
_
+o
o
r)(r)dr =
_
+o
0
r`c
Aa
dr
=
_
rc
Aa
_
+o
0
+
_
+o
0
c
Aa
dr =
_

1
`
c
Aa
_
+o
0
=
1
`
.
Esempio 26 Se A ~ (j, o
2
), allora 1[A] = j. Per ricavare il risultato, si pu calco-
lare per esercizio lintegrale usando la densit della gaussiana, sfruttando la simmetria della
gaussiana rispetto al punto r = j.
1.2.12 Propriet meno elementari del valor medio
In questa sezione enunciamo alcune propriet che richiedono un po di lavoro per essere di-
mostrate ed anche capite. Alcune di esse, pur essendo molto potenti e dal profondo signicato,
sono di uso corrente solo per chi vuole investigare gli aspetti teorici dell probabilit.
38 CAPITOLO 1. ELEMENTI DI CALCOLO DELLE PROBABILIT
1.2.13 Media di v.a. indipendenti
Teorema 7 Se due v.a. A e 1 sono indipendenti, il valor medio del prodotto uguale al
prodotto dei valori medi, cio
1[A1 ] = 1[A] 1[1 ].
Per essere precisi a livello rigorso, bisogna assumere che A e 1 abbiano valor medio nito.
In tal caso, si trova dalla dimostrazione stessa che la v.a. A1 ha anchessa valor medio nito.
Osservazione 11 Questa propriet non ha simili tra i fatti elementari sugli integrali di
funzioni di una variabile. Esiste invece una proprit che la ricorda nellambito degli integrali
doppi: per la formula di riduzione, se )(r, j) = q(r) /(j), vale
_

_
1
)(r, j)drdj =
_

q(r)dr
_
1
/(j)dj.
Una possibile dimostrazione rigorosa del teorema poggia proprio su questa propriet, ma per
completare la dimostrazione bisognerebbe capire come fare a passare da 1[A1 ] a un integrale
doppio.
Osservazione 12 Il teorema inverso falso: 1[A1 ] = 1[A] 1[1 ] non implica che A e 1
sono indipendenti. Lo si pu intuire dallosservazione precedente: lindipendenza equivale alla
propriet che la densit congiunta il prodotto delle marginali, mentre luguaglianza integrale
espressa da 1[A1 ] = 1[A] 1[1 ] solo una unguaglianza tra particolari integrali (riassunti)
di tali densit.
Osservazione 13 Se il vettore (A, 1 ) gaussiano, la propriet 1[A1 ] = 1[A]1[1 ] implica
che A e 1 sono indipendenti. Lo capiremo meglio quando approfondiremo i vettori gaussiani.
Se due v.a. A e 1 godono della propriet 1[A1 ] = 1[A] 1[1 ], si dicono scorrelate.
Quindi, v.a. indipendenti sono scorrelate, mentre il viceversa non vero in generale.
1.2.14 Disuguaglianza di Hlder
Date A e 1 v.a. qualsiasi, se i valori medi della formula sono ben deniti, si ha
1[A1 ] _ 1 [A
j
]
1

1 [1
q
]
1
q
con
1
j
+
1
q
= 1, j 1 ( 1 di conseguenza). Come esempio di applicazione, per j = = 1,2
si ha
1[A1 ] _
_
1[A
2
]
_
1[1
2
].
Per capire lutilit di questa disuguaglianza, si deve pensare al fatto che sappiamo scrivere
unuguaglianza per 1[A1 ] solo per v.a. scorrelate. Quindi la disuguaglianza di Hlder ci
permette almeno di scrivere una disuguaglianza, in generale.
Ha per il difetto di elevare a potenza le v.a., cosa che in certi ambiti molto dannoso. Si
pensi ad esempio ai problemi di chiusura in uidodinamica. Quando si considera lequazione
di Navier-Stokes (che non lineare) si tenta talvolta di ricavare da essa unequazione per i
1.2. VARIABILI ALEATORIE E VALORI MEDI 39
valori medi della velocit, detta equazione di Reynolds, ma la presenza della nonlinearit fa
s che nelloperazione di media si ottengano valori medi di potenze che non sono riconducibili
ai valori medi delle singole v.a.. Detto n(r) = (n
1
(r), n
2
(r), n
3
(r)) il campo di velocit,
bisognerebbe saper esprimere il cosidetto tensore di Reynolds 1 [n
i
(r)n
)
(r)] tramite prodotti
del tipo 1 [n
i
(r)] 1 [n
)
(r)], ma questo richiederebbe la scorrelazione, che falsa in generale
in questo problema. Purtroppo, anche se si usa la disuguaglianza di Hlder, questa, oltre ad
essere una disuguaglianza (quindi servirebbe pi che altro per trovare stime per lequazione
di Reynolds piuttosto che una chiusura della stessa), metterebbe in gioco momenti di ordine
pi elevato, come 1
_
n
i
(r)
2

.
1.2.15 Disuguaglianza di Jensen
Data una funzione c convessa e una v.a. A, si ha (se esistono i valori medi considerati)
1[c(A)] _ c(1[r]) .
Ad esempio si ha che
1[A
2
] _ (1[r])
2
che pu anche essere dimostrata anche con la disuguaglianza di Hlder, e
1[c
A
] _ c
1[a]
.
Questa disuguaglianza ammette una semplice interpretazione graca.
1.2.16 Disuguaglianza di Chebyshev
Questa potente disuguaglianza che lega una probabilit a un valor medio talvolta detta
anche disuguaglianza di Markov. Se A _ 0 e a 0 si ha che
1(A a) _
1[A]
a
.
Proof. Dobbiamo mostrare che a 1(A _ a) _ 1[A]. Mostriamolo nel caso particolare in
cui la v.a. A ammetta densit )(r). Poich A _ 0, si ha )(r) = 0 per r < 0, quindi
1[A] =
_
+o
0
r)(r)dr =
_
o
0
r)(r)dr +
_
+o
o
r)(r)dr
_
_
+o
o
r)(r)dr _ a
_
+o
o
)(r)dr = a 1(A a).
Abbiamo usato il fatto che
_
o
0
r)(r)dr _ 0 in quanto la funzione r)(r) _ 0 nellintervallo
dintegrazione [0, a], ed il fatto che la funzione r)(r) _ a)(r) nellintervallo dintegrazione
[a, ). La dimostrazione completa.
Prendendo al posto di A ed a vari esempi di v.a. e numeri positivi, si ottengono numerose
conseguenze. Ecco alcuni esempi importanti.
40 CAPITOLO 1. ELEMENTI DI CALCOLO DELLE PROBABILIT
Corollario 1 Data una v.a. A avente media j e un numero a 0, si ha
1([A j[ a) _
1[[A j[
2
]
a
2
.
Si ha infatti 1([A j[ a) = 1([A j[
2
a
2
), a cui si pu applicare la disuguaglianza
di Chebyshev. Invece dellelevamento al quadrato si pu usare qualunque funzione monotona
crescente c sui positivi, che conservi la disuguaglianza:
1(c([A j[) a) _
1[c([A j[)]
c(a)
.
Osservazione 14 Questo corollario utilissimo quando si usa c = c
Aa
, ` 0. In questo
caso a volte si trovano stime dallalto ottimali (nel senso che valgono analoghe stime dal
basso). Vedremo la disuguaglianza di Cherno.
Osservazione 15 Prendiamo ad esempio la semplice disuguaglianza
1([A j[ a) _
1[[A j[]
a
.
Questa (come le altre) ha uninterpretazione graca: la somma delle due aree sotto le code
della distribuzione ) abbastanza piccola e pu essere controllata col valor medio di [A j[.
Queste disuguaglianze sono utili quando la ) non nota o non semplice calcolare probabilit
ad essa associate, ed comunque necessario stimare larea sotto le code della distribuzione.
1.2.17 Varianza e deviazione standard
Sia A una v.a. con valor medio j nito. Chiamiamo varianza, o scarto quadratico medio, di
A, il numero reale
\ ar [A] = 1
_
(A j)
2
_
quando questo nito (se innito, diremo che A ha varianza innita). Si vede subito,
sviluppando il quadrato ed usando la linearit del valor medio (ed il fatto che la media di
una costante la costante stessa) che
\ ar [A] = 1
_
A
2

j
2
.
Osserviamo che, essendo la varianza pari alla media di una v.a. positiva, sicuramente
\ ar [A] _ 0
e quindi
j
2
_ 1
_
A
2

.
Questa disuguaglianza, vista di per s, non sarebbe stata cos elementare; si poteva per
anche dimostrare ad esempio con la disuguaglianza di Hlder o di Jensen.
La varianza fornisce unindicazione media circa lo scarto rispetto a j, e misura quindi
il grado di aleatoriet, di dispersione, la deviazione rispetto al valor medio. E quindi un
1.2. VARIABILI ALEATORIE E VALORI MEDI 41
indicatore importantissimo. In pratica sarebbe altrettanto importante un indicatore del tipo
1 [[A j[], ma questo orirebbe ben poche possibilit di calcolo a causa del valore assoluto.
Dal punto di vista numerico, per, la varianza si comporta come un quadrato: se stiamo
misurando grandezze in metri, con errori di misura dellordine dei 10 metri, la varizanza verr
un numero dellordine delle centinaia, misurato in metri quadri. Per questo utile introdurre
la deviazione standard
o [A] =
_
\ ar [A]
che ci riporta alla giusta unit di misura ed a valori comparabili con quelli in gioco.
Come per j, spesso useremo i simboli o e o
2
per indicare deviazione e varianza, se chiaro
dal contesto a quale v.a. ci si riferisca.
E facile dimostrare, algebricamente, il seguente fatto.
Proposizione 2 Dati due numeri reali c, ,, vale
\ ar [cA +,] = c
2
\ ar [A] .
Linterpretazione semplice: le traslazioni , non modicano la varianza (come si intuisce
pensando ad una densit ) e ad una sua traslata); le moltiplicazioni per c hanno eetto
quadratico, essendo la varianza unespressione quadratica.
Circa la varianza della somma di v.a., vale il seguente fatto.
Proposizione 3 Date due v.a. A ed 1 , con varianza nita, vale in generale
\ ar [A +1 ] = \ ar [A] +\ ar [1 ] + 2Co (A, 1 ) .
Se inoltre A ed 1 sono indipendenti (o almeno scorrelate), allora
\ ar [A +1 ] = \ ar [A] +\ ar [1 ] .
La denizione di Co (A, 1 ) e la spiegazione di questo risultato verranno date nel prossimo
paragrafo. Algebricamente, la prima uguaglianza semplicemente il fatto che il quadrato della
somma pari alla somma dei quadrati pi il doppio prodotto. La seconda deriva dal fatto
che per variabili indipedenti vale Co (A, 1 ) = 0.
1.2.18 Covarianza
Date due v.a. A, 1 , si chiama covarianza tra A ed 1 il numero
Co (A, 1 ) = 1 [(A j
A
) (1 j
Y
)]
dove j
A
e j
Y
sono le medie di A ed 1 . Naturalmente la denizione ha senso se il valor medio
nito, cosa che accade ad esempio se si suppone che sia 1
_
A
2

< e 1
_
1
2

< .
La denizione quindi analoga, algebricamente, a quella di varianza, e risulta infatti
\ ar [A] = Co (A, A)
e
Co (A, 1 ) = 1 [A1 ] j
A
j
Y
42 CAPITOLO 1. ELEMENTI DI CALCOLO DELLE PROBABILIT
come per la varianza. Per il numero Co (A, 1 ) pu avere segno qualsiasi. Ad esempio, se
j
A
= 0 e prendiamo 1 = A, vale Co (A, 1 ) = 1
_
A
2

.
Anche la covarianza sore dei problemi di scala illustrati per la varianza. Qui, non potendo
prendere la radice quadrata (Co (A, 1 ) non sempre positiva), si normalizza in questaltro
modo: si introduce il coeciente di correlazione tra A ed 1 denito da
j (A, 1 ) =
Co (A, 1 )
_
\ ar [A] \ ar [1 ]
.
Si noti che, per la disuguaglianza di Hlder,
[Co (A, 1 )[ _
_
1
_
(A j
A
)
2
_
1
_
(1 j
Y
)
2
_
e quindi [j (A, 1 )[ _ 1, ovvero
1 _ j (A, 1 ) _ 1.
Ricordiamo che se A ed 1 sono v.a. indipendenti, allora sono scorrelate, nel senso che
1 [A1 ] = j
A
j
Y
mentre il viceversa non vero in generale, ma vero almeno nel caso di coppie gaussiane
(A, 1 ). Ne discende subito il seguente risultato.
Teorema 8 Se A ed 1 sono v.a. indipendenti, o almeno scorrelate, allora
Co (A, 1 ) = 0, j (A, 1 ) = 0.
Viceversa, se Co (A, 1 ) = 0, non detto che A ed 1 siano indipendenti. Se per (A, 1 )
gaussiano e Co (A, 1 ) = 0, allora A e 1 sono indipendenti.
A livello numerico su dati sperimentali, se j (A, 1 ) molto vicino a zero, questo un
buon indicatore di indipendenza; invece, dipendendo il numero Co (A, 1 ) dalla scala scelta,
la sua vicinanza a zero meno assoluta, quindi pu trarre in inganno. In questa osservazione
stiamo pensando di avere : coppie di valori sperimentali (r
1
, j
1
), ... , (r
a
, j
a
), e di calcolare
la varianza empirica ed il coeciente di correlazione empirico deniti da

Co
AY
=
1
:
a

i=1
(r
i
r) (j
i
j) , j =
\
Co
AY
o
A
o
Y
dove ora, per omogeneit, prendiamo o
2
A
=
1
a

a
i=1
(r
i
r)
2
ed analogamente per o
Y
. Questi
indicatori sono buone stime di quelli teorici, ad esempio per via della legge dei grandi numeri,
che descriveremo nella prossima lezione.
Si noti che Co (A, 1 ) = 0 (o equivalentemente j (A, 1 ) = 0) una denizione alternativa
di v.a. scorrelate.
Citiamo, senza scrivere la semplice dimostrazione, il seguente fatto: Co (A, 1 ) lineare
sia in A sia in 1 , e non sensibile alle traslazioni:
Co (A, c1 +,7 +) = cCo (A, 1 ) +,Co (A, 7)
1.2. VARIABILI ALEATORIE E VALORI MEDI 43
e lo stesso accade rispetto al primo argomento.
Menzioniamo inne il fatto che il numero Co (A, 1 ) descrive bene leventuale legame
lineare tra A ed 1 (mentre meno preciso per legami non lineari). Si pu ad esempio
dimostrare facilmente che, se A ed 1 sono legate dalla relazione lineare
1 = cA +, +-
dove - (chiamato errore) una v.a. indipendente da A, allora il coeciente c che descrive
il legame di proporzionalit lineare tra le variabili dato da
c =
Co (A, 1 )
\ ar [A]
.
Lo si pu vericare calcolando
Co (A, 1 ) = Co (A, cA +, +-)
ed applicando la linearit della covarianza nella seconda variabile.
1.2.19 Esempi
Esempio 27 Se A ~ 1(1, j), si vede subito che anche A
2
~ 1(1, j), quindi 1
_
A
2

= j.
Pertanto
1
_
A
2

j
2
= j j
2
= j.
Per una Bernoulli di parametro j vale allora
\ ar [A] = j
e o =
_
j.
Esempio 28 Se A ~ 1(:, j), usando il fatto che la somma di : v.a. 1(1, j) indipendenti
una 1(:, j), e ricordando che la varianza della somma di v.a. indipendenti uguale alla
somma delle varianze, troviamo
\ ar [A] = :j
e
o =
_
:
_
j.
Questultimo fatto era gi stato anticipato in un esempio della lezione 2, riguardo al fatto
che per : grande la binomiale si concentra intorno alla propria media.
Esempio 29 Se A ~ T (`), vale
\ ar [A] = `.
Questo fatto si pu dimostrare rigorosamente usando la densit di massa, ma richiede un
certo numero di calcoli un po noiosi. Accontentiamoci di accettare il risultato sulla base del
seguente ragionamento sensato (ma non rigoroso): prendiamo una v.a. A
a
~ 1(:, j
a
), con
` = :j
a
. Se : grande, sappiamo che la legge di A
a
approssima la legge di A; allora anche
la varianza di A
a
, che :j
a

a
dovrebbe approssimare la varianza di A; ma :j
a

a
= `
a
e

a
1 per : (in quanto
a
= 1 j
a
= 1
A
a
).
44 CAPITOLO 1. ELEMENTI DI CALCOLO DELLE PROBABILIT
Esempio 30 Se A ~
_
j, o
2
_
, vale
\ ar [A] = o
2
.
Nel prossimo paragrafo svolgeremo un conto di questo tipo ma pi complesso, per cui ora
omettiamo la verica. Quindi i due parametri j e o
2
della normale
_
j, o
2
_
sono la sua
media e la sua varianza (come le notazioni lasciavano pensare).
1.2.20 Momenti
Chiamiamo momento di ordine : di A il numero
'
a
:= 1 [A
a
] .
A volte, a seconda delle utilit speciche, si trova in letteratura il nome di momento di ordine
: attribuito a quantit lievemente diverse, come
1 [[A[
a
]
oppure
1 [(A j)
a
] o inne 1 [[A j[
a
] .
La ragione del valore assoluto che se A ha distribuzione simmetrica, per : dispari vale
1 [A
a
] = 0, fatto che quantitativamente pu non essere molto istruttivo (dipende da cosa si
vuol evidenziare con quella grandezza). La ragione della centratura con j simile a quella
per cui si centra la denizione di varianza (si vuole capire lo scostamento dalla media e non
lampiezza assoluta dei valori).
Mentre evidente linteresse per media e varianza (ad esempio sono i parametri delle
gaussiane), meno chiaro come utilizzare i momenti di ordine superiore a due. Ad esempio,
vengono a volte utilizzati in statistica per confrontare due distribuzioni sperimentali, o una
distribuzione sperimentale con un modello ipotizzato, ad esempio quello gaussiano. Il con-
fronto dei momenti di ordine elevato mette in evidenza possibili dierenze signicative tra le
code, tra le probabilit di valori un po alti. Cerchiamo di apprezzare questo fatto con un
esempio.
Supponiamo di avere un istogramma sperimentale e di cercare una densit )(r) che lo
descriva. Supponiamo di aver individuato due densit )
1
(r) ed )
2
(r) che descrivono bene
listogramma nella parte centrale, ma abbiamo dei dubbi sulle code. Per semplicit, sup-
poniamo di studiare una v.a. positiva, quindi solo con la coda a destra. Per schematizzare
ulteriormente a titolo di esempio, abbandoniamo le densit e supponiamo di aver scelto come
possibili modelli due v.a. discrete, entrambe con solo i valori 2 e 10. La prima, A
1
, assume
il valore 2 con probabilit 0.99 e 10 con probabilit 0.01. La seconda, A
2
, assume 2 con
probabilit 0.999 e 10 con probabilit 0.001. I loro momenti di ordine : sono
1 [A
a
1
] = 2
a
0.99 + 10
a
0.01
1 [A
a
2
] = 2
a
0.999 + 10
a
0.001.
1.2. VARIABILI ALEATORIE E VALORI MEDI 45
Vediamo allora che per valori bassi di : i momenti sono abbastanza simili;
1 [A
1
] = 2. 08, 1
_
A
2
1

= 4. 96
1 [A
2
] = 2. 008, 1
_
A
2
2

= 4. 096
e quindi possibile che, sulla base di stime empiriche di media e varianza, non siamo in grado
di decidere quale delle due distribuzioni sia la migliore. Invece i momenti di ordine pi elevato
divergono tra loro: ad esempio
1
_
A
4
1

= 115. 84, 1
_
A
4
2

= 25. 984.
Essi quindi diventano indicatori numerici discriminanti. Va per osservato che, per le stesse
ragioni, sono molto pi sensibili dei momenti di ordine basso rispetto a piccole variazioni
casuali, come lerrore statistico dovuto a pochi dati sperimentali, oppure vari errori numerici
di approssimazione nella raccolta dati ecc. Quindi la diversit, magari estremamente marcata,
tra i momenti di ordine elevato di due campioni sperimentali va usata con cautela. In statistica
cercheremo di capire gli intervalli di condenza per tali indicatori.
A titolo di esempio, calcoliamo i momenti di una gaussiana, per capirne il comportamento
al crescere di :.
Osservazione 16 Se A ~
_
j, o
2
_
, allora 1
_
(A j)
2a+1
_
= 0, mentre
1
_
(A j)
2a
_
= C
a
_
o
2
_
a
dove
C
a
= (2: 1) (2: 3) 3 1.
Infatti, limitando (senza restrizione) la verica al caso j = 0, vale
1
_
A
2a

=
_
o
o
r
2a
1
_
2o
c

i
2
2
2
dr
a=oj
=
_
o
o
o
2a
j
2a
1
_
2
c

2
2
dj = o
2a
1
_
7
2a

dove 7 ~ (0, 1), e per questa vale


1
_
7
2a

=
1
_
2
_
o
o
r
2a1
(r) c

i
2
2
dr
=
_
1
_
2
r
2a1
c

i
2
2
_
o
o
+
1
_
2
_
o
o
(2: 1) r
2a2
c

i
2
2
dr
= (2: 1) 1
_
7
2a2

.
Iterando,
1
_
7
2a

= (2: 1) (2: 3) 1
_
7
2a4

= ... = C
a
.
Osservazione 17 Volendo sintetizzare gracamente questo risultato, si pu osservare che la
grandezza
j
a
:= log
1
_
(A j)
2a
_
C
a
46 CAPITOLO 1. ELEMENTI DI CALCOLO DELLE PROBABILIT
cresce linearmente in ::
j
a
= :log o
2
quindi se riportiamo in un graco in ascissa gli interi : ed in ordinata i numeri j
a
per una
gaussiana troviamo punti su una retta passante per lorigine, di coeciente angolare log o
2
.
In questo modo, la visualizzazione dei numeri j
a
per unaltra distribuzione oppure per un
campione sperimentale, mette subito in evidenza leventuale scostamento dalla gaussianit.
1.2.21 La funzione generatrice dei momenti
Denizione 5 Data una v.a. A, si chiama sua funzione generatrice dei momenti la funzione
,
A
(t) denita da
,
A
(t) = 1
_
c
tA

per tutti i valori t per cui tale valore atteso nito.


La funzione generatrice non sempre denita per ogni t R, come vedremo ad esempio
per le v.a. esponenziali. Osserviamo che ,
A
(0) = 0, semplice fatto che a volte si usa per
stabilire che certe funzioni non sono funzioni generatrici.
Nel caso di una v.a. A con densit ) (r) vale
,
A
(t) =
_
o
o
c
ta
) (r) dr
(forse alcuni riconosceranno la trasformata di Laplace di ), in questa espressione) mentre nel
caso discreto a valori interi positivi vale
,
A
(t) =
o

a=0
c
ta
j (:) .
Vale il seguente fatto:
Teorema 9 Se due v.a. hanno la stessa funzione generatrice, per t in un intervallo aperto
non vuoto, allora hanno la stessa legge.
La dimostrazione non semplice ed legata ai problemi di inversione della trasformata
di Fourier, che non esponiamo. Dimostriamo invece un fatto semplice ma importante:
Proposizione 4 Se A ed 1 sono indipendenti allora
,
A+Y
(t) = ,
A
(t) ,
Y
(t) .
Proof.
,
A+Y
(t) = 1
_
c
t(A+Y )
_
= 1
_
c
tA
c
tY

ed ora, per lindipendenza (di A ed 1 , che implica quella di c


tA
ed c
tY
)
= 1
_
c
tA

1
_
c
tY

= ,
A
(t) ,
Y
(t) .
1.2. VARIABILI ALEATORIE E VALORI MEDI 47
Esercizio 1 Mostrare che, se c, , sono due numeri reali, allora
,
cA+o
(t) = ,
A
(ct) c
ot
.
Esercizio 2 Mostrare che, se A ed 1 sono v.a. indipendenti ed a, /, c sono numeri reali,
allora
,
oA+bY +c
(t) = ,
A
(at) ,
Y
(/t) c
ct
.
Esempio 31 La funzione generatrice una Bernoulli A ~ 1(1, j)
,
A
(t) = jc
t
+.
Esempio 32 Sia A ~ 1(:, j) una binomiale, della forma A = A
1
+... +A
a
con A
1
, ..., A
a
Bernoulli 1(1, j) indipendenti. Allora, per la proposizione applicata iterativamente,
,
A
(t) =
_
jc
t
+
_
a
.
Siccome la generatrice dipende solo dalla legge, il risultato vale anche se la binomiale, a
priori, non espressa in tale forma.
Esempio 33 La funzione generatrice di una v.a. A di Poisson, A ~ T (`),
,
A
(t) = c
A(c
I
1)
.
Si pu calcolare dalla denizione:
,
A
(t) =
o

a=0
c
ta
c
A
`
a
:!
= c
A
o

a=0
_
`c
t
_
a
:!
= c
A
c
Ac
I
.
Esercizio 3 Vericare che il limite delle generatrici di binomiali A
a
~ 1
_
:,
A
a
_
uguale
alla generatrice di una A ~ T (`).
Esempio 34 Se A una v.a. esponenziale, A ~ 1rj (`), allora
,
A
(t) =
_
o
o
c
ta
) (r) dr =
_
o
0
c
ta
`c
Aa
dr = `
_
o
0
c
(tA)a
dr
dove, osserviamo n da ora, questo integrale converge (ha valore nito) se e solo se t ` < 0,
cio se
t < `.
Per questi valori di t troviamo
,
A
(t) = `
_
c
(tA)a
t `
_
o
0
=
`
` t
.
In questo esempio la funzione generatrice non denita per tutti i valori di t.
48 CAPITOLO 1. ELEMENTI DI CALCOLO DELLE PROBABILIT
Esempio 35 Una v.a. A ~ (0, 1) ha funzione generatrice
,
A
(t) = c
t
2
2
.
Infatti
1
_
c
tA

=
1
_
2
_
c
ta
c
a
2
2
dr =
1
_
2
_
c
I
2
2
c

(
i
2
2Ii+I
2
)
2
dr
=
c
I
2
2
_
2
_
c

(iI)
2
2
dr = c
I
2
2
.
Esempio 36 Pi in generale, una v.a. A ~
_
j, o
2
_
ha funzione generatrice
,
A
(t) = c
tj+

2
I
2
2
.
Infatti, con gli stessi calcoli fatti nel caso standard ma pi laboriosi,
1
_
c
tA

=
1
o
_
2
_
c
ta
c

(i)
2
2
2
dr
=
1
o
_
2
_
c
(
I
2
+
)
2

2
2
2
c

i
2
2
(

2
I+
)
i+
(
I
2
+
)
2

2
2
dr
=
c

2
I
2
2
+tj
o
_
2
_
c

(
iI
2

)
2
2
2
dr = c
tj+

2
I
2
2
.
Il motivo del nome generatrice dei momenti sta nel fatto che derivando la funzione
generatrice e calcolando le derivate in zero si ottengono i momenti.
Teorema 10 Se la funzione generatrice ,
A
(t) denita in un intervallo aperto non vuoto
contenente lorigine allora innite volte derivabile in zero e vale
,
(a)
A
(0) = 1 [A
a
] .
Non diamo la dimostrazione completa che fa uso di teoremi di scambio tra derivate e
integrali che non trattiamo nel corso, ma riportiamo solo formalmente i seguenti passaggi
(naturali ed in realt anche rigorosi)
d
dt
1
_
c
tA

= 1
_
d
dt
c
tA
_
= 1
_
Ac
tA

d
2
dt
2
1
_
c
tA

= 1
_
d
2
dt
2
c
tA
_
= 1
_
A
2
c
tA

e cos via, per cui


,
t
A
(0) = 1 [A]
,
tt
A
(0) = 1
_
A
2

e cos via. Con queste regole si possono ritrovare numerosi valori medi calcolati no ad ora.
Vediamo a titolo di esempio il caso delle geometriche.
1.2. VARIABILI ALEATORIE E VALORI MEDI 49
Esempio 37 Ricordiamo che chiamiamo geometrica di parametro j una v.a. tale che
1 (A = :) = (1 j)
a
j per : = 0, 1, ...
Allora
,
A
(t) =
o

a=0
c
ta
(1 j)
a
j = j
o

a=0
_
(1 j) c
t

a
=
j
1 (1 j) c
t
dove lultimo passaggio vale se (1 j) c
t
< 1, quindi se c
t
<
1
1j
, ovvero t < log
_
1
1j
_
.
Allora
,
t
A
(t) =
j (1 j) c
t
(1 (1 j) c
t
)
2
da cui
,
t
A
(0) =
1 j
j
.
Esempio 38 Se A
t
geometrica modicata, allora A = A
t
1 geometrica, quindi
1
_
A
t

= 1 [A + 1] =
1 j
j
+ 1 =
1
j
.
La media di una geometrica modicata
1
j
.
Osservazione 18 Con calcoli un po pi laboriosi si verica che la varianza di una geomet-
rica
1j
j
2
. Allora anche la varianza di una geometrica modicata
1j
j
2
, in quanto le due
dieriscono per una costante.
1.2.22 Denizione generale di valor medio
Sia A : [0, ) una v.a. non negativa. Per ogni numero della forma
I
2
n
, con :, / N,
consideriamo levento

a,I
=
_
A
_
/
2
a
,
/ + 1
2
a
__
e introduciamo la v.a.
A
a
=
o

I=0
/
2
a
1

n,I
dove 1

la funzione indicatrice di (che vale uno in e zero fuori). La funzione A


a
:
[0, ) costante a tratti, per cos dire; prende il valore
I
2
n
sullinsieme
a,I
, dove A _
I
2
n
,
quindi in ogni punto di vale
A
a
_ A.
Deniamo
1 [A
a
] :=
o

I=0
/
2
a
1 (
a,I
)
50 CAPITOLO 1. ELEMENTI DI CALCOLO DELLE PROBABILIT
dove la serie, essendo a termini positivi, pu o convergere o divergere a pi innito. Poi
deniamo
1 [A] = lim
ao
1 [A
a
] .
Questo limite esiste sempre in quanto la successione numerica 1 [A
a
] monotona non de-
crescente: invece di dimostrarlo algebricamente, suggeriamo di rendersi conto gracamente
del fatto che A
a+1
_ A
a
, da cui segue la monotonia delle serie. Il limite che denisce 1 [A]
pu nuovamente essere nito oppure uguale a +.
In questo modo abbiamo denito la media di una v.a. positiva qualsiasi (accettando
anche il valore +). Si dice poi che una tale v.a. A ha media nita, o integrabile, se risulta
1 [A] < .
Data poi una v.a. A : R (non necessariamente positiva), la si pu scrivere come
dierenza di v.a. positive:
A = A
+
A

dove
A
+
= max A, 0 , A

= A
+
A.
Entrambi i valori medi 1 [A
+
] e 1 [A

] sono ben deniti e sarebbe naturale denire 1 [A] =


1 [A
+
] 1 [A

], ma se entrambi fossero pari a + troveremmo una forma indeterminata.


Si stabilisce allora che, se almeno uno dei due, tra 1 [A
+
] e 1 [A

], nito, si pone
1 [A] = 1
_
A
+

1
_
A

con le usuali convenzioni tra somma di numeri niti ed inniti.


Con questa denizione abbiamo introdotto il valor medio per una grandissima classe di
v.a. e come risultato possiamo trovare un numero reale oppure + oppure . Diremo poi
che A ha media nita, o integrabile, se risulta 1 [A
+
] < e 1 [A

] < , nel qual caso


1 [A] un numero reale. Questa condizione equivale a 1 [[A[] < .
1.2.23 Propriet generali
Sviluppare rigorosamente tutta la teoria dellintegrazione occuperebbe lintero corso, quindi
ci limitiamo ad indicare qualche traccia.
La denizione di 1 [A] nel caso A _ 0 vagamente simile alle denizioni di integrale
ben note nei corsi di analisi di base, per funzioni reali di una variabile reale. E quindi
intuitivamente chiaro che varranno le propriet generali note in quellambito, che sono la
linearit, la positivit (o equivalentemente la monotonia), e ad esempio ladditivit rispetto
a decomposizioni del dominio:
1 [A 1
'1
] = 1 [A 1

] +1 [A 1
1
]
se 1 = O. Cos di seguito, tutte le propriet anche meno banali si possono dimostrare
usando la denizione. A titolo di esempio, discutiamo la disuguaglianza di Chebishev. Data
A _ 0 e le sue approssimanti A
a
, preso un qualsiasi /
0
0, dalla denizione di 1 [A
a
]
1.2. VARIABILI ALEATORIE E VALORI MEDI 51
abbiamo
1 [A
a
] _
o

I=I
0
/
2
a
1 (
a,I
) _
/
0
2
a
o

I=I
0
1 (
a,I
)
=
/
0
2
a
1
_
_
_
II
0

a,I
_
_
=
/
0
2
a
1
_
A _
/
0
2
a
_
.
Inoltre, essendo 1 [A
a
] non decrescente, 1 [A] _ 1 [A
a
], quindi
1 [A] _
/
0
2
a
1
_
A _
/
0
2
a
_
.
Questa disuguaglianza vale per ogni :, /
0
0, quindi vale per ogni numero reale positivo a
della forma
I
0
2
n
:
1 (A _ a) _
1 [A]
a
.
A questo punto, con un ragionamento limite che non discutiamo in dettaglio, facile passare
ad ogni numero reale positivo a, completando la dimostrazione.
Inne, supponiamo che A abbia densit )(r), nel senso che valga
1 (A 1) =
_
1
)(r)dr
per ogni boreliano 1, quindi in particolare per ogni intervallo 1. Risulta allora, sempre
nellipotesi A _ 0,
1 [A
a
] =
o

I=0
/
2
a
_ I+1
2
n
I
2
n
)(r)dr.
Trascurando il rigore, che qui non il nostro scopo, osserviamo che, quando : grande e
quindi lintervallo
_
I
2
n
,
I+1
2
n
_
piccolo, in tale intervallo di integrazione la funzione r circa
uguale a
I
2
n
, quindi approssimativamente
1 [A
a
] ~
o

I=0
_ I+1
2
n
I
2
n
r)(r)dr =
_
o
o
r)(r)dr
e questa approssimazione diventa sempre pi precisa se : . Quindi ci aspettiamo che
sia
1 [A] =
_
o
o
r)(r)dr
che appunto uno dei teoremi forndamentali per il calcolo dei valori medi. Con un ragiona-
mento simile si trova la formula pi elaborata
1 [,(A
1
, ..., A
a
)] =
_
o
o
,(r
1
, ..., r
a
) )(r
1
, ..., r
a
)dr
1
...dr
a
.
52 CAPITOLO 1. ELEMENTI DI CALCOLO DELLE PROBABILIT
1.3 Esempi
Abbiamo gi visto, nelle sezioni precedenti, alcuni esempi di v.a. discrete e continue ed
alcuni loro legami. Usando le solite notazioni, cio 1(1, j) per le Bernoulli, 1(:, j) per
le binomiali, T (`) per le Poisson, 1rj (`) per le esponenziali,
_
j, o
2
_
per le gaussiane,
riassumiamo alcuni fatti salienti con la seguente tabella:
media varianza generatrice
Bernoulli j j jc
t
+
binomiale :j :j
_
jc
t
+
_
a
Poisson ` ` c
A(c
I
1)
esponenziale
1
A
1
A
2
A
At
gaussiana j o
2
c
tj+

2
I
2
2
Abbiamo inoltre visto che la somma di : Bernoulli 1(1, j) una binomiale 1(:, j); e
che il limite di binomiali 1(:, j
a
) quando : e :j
a
= ` una T (`). Cominciamo ad
approfondire altri fatti riguardanti queste variabili ed il loro legami, poi vedremo anche altri
esempi di variabili.
1.3.1 Una propriet di concentrazione delle binomiali
Con j ssato (quindi diversamente dal regime del teorema degli eventi rari), cerchiamo di
capire cosa accade ad una binomiale 1(:, j) per : elevato. La media :j diventa grande,
linearmente in :. La deviazione standard o, che misura nella stessa scala della media le
variazioni rispetto alla media stessa, vale
_
:
_
j, quindi cresce anchessa con :, ma solo
come una radice quadrata, molto meno che la media. Ad esempio, se : = 100
2
= 10000, e
per esemplicare prendiamo j =
1
2
, quindi j =
1
4
, vale
j = 10000
1
4
o = 100
1
2
.
La variabile 1(:, j) incredibilmente concentrata attorno alla sua media. Percepiamo con
un esempio le conseguenze pratiche di questo fatto.
Esempio 39 Una banca ha 1000 conti correnti aperti. Attribuisce i numeri da 1 a 1000 ai
suoi correntisti. La direzione della banca vuole conoscere il numero medio di correntisti che
si presenta nellarco di una giornata, e la probabilit che si presentino pi di / correntisti, al
variare di /, per poter dimensionare le scorte e gli sportelli aperti.
Bisogna operare delle idealizzazioni, tenendo quindi presente che il risultato sar unap-
prossimazione della realt. Come vedremo, ci servir supporre che i 1000 correntisti si com-
portino in modo indipendente, che ciascuno si presenti al pi una volta al giorno, e che la
probabilit j che il singolo correntista si presenti sia uguale per tutti i correntisti. Supponiamo
inoltre di conoscere questa probabilit j; per fare i conti, supponiamo valga
j =
1
5
1.3. ESEMPI 53
(che corrisponde intuitivamente a dire che ogni correntista si presenta mediamente una volta
alla settimana).
La banca associa ad ogni correntista una v.a. di Bernoulli, A
1
per il primo, e cos via
no ad A
1000
per lultimo. La v.a. A
1
vale 1 se il correntista si presenta in banca durante il
giorno in questione, 0 altrimenti. Vale j = 1(A
I
= 1) per ogni correntista /. Finalmente,
la nuova v.a. denita da o = A
1
+ ... + A
1000
rappresenta il numero di correntisti che si
presentano in banca (infatti i vari addendi valgono 1 per ogni correntista che si presenta, zero
altrimenti). Pertanto o descrive ci che interessa alla banca. Per il teorema sul legame tra
Bernoulli e binomiale, o ~ 1(1000,
1
5
). Il numero medio di correntisti al giorno vale quindi
1 [o] = :j =
1000
5
= 200
come ci si poteva aspettare intuitivamente dal fatto che ogni correntista visita la banca in
media una volta alla settimana. Questo risultato medio quindi non sorprende, non un
grosso successo della teoria.
Invece, assai meno banale sarebbe calcolare la probabilit che o superi un generico valore
/. Ad esempio, visto che il numero medio 200, ci chiediamo: quante volte, in percentuale,
il numero di clienti sar maggiore di 300? Si provi a immaginare intuitivamente il risultato:
si vedr che il risultato rigoroso davvero sorprendente.
Dobbiamo calcolare
1(o 300).
Vale allora
1(o 300) =
1000

I=301
_
1000
/
__
1
5
_
I
_
4
5
_
1000I
= 1
300

I=0
_
1000
/
__
1
5
_
I
_
4
5
_
1000I
= 2. 201 7 10
14
.
E una probabilit assolutamente irrisoria! E sostanzialmente impossibile che si presentino
pi di 300 correntisti.
Esempio 40 Il risultato precedente pone le basi per una gestione assai economica delle
risorse, dicilmente immaginabile senza la matematica. Risolviamo il seguente problema
di soglia di sicurezza. Decidiamo di accettare il rischio di non poter accontentare tutti i
clienti una volta su 1000 (un giorno su tre anni, che poco se si tiene anche conto che non si
tratta di scontentare tutti i clienti di quel giorno sfortunato, ma solo i pochi ultimi in sovrap-
pi, e che forse in tale situazione eccezionale saremo in grado di porre rimedio con laiuto di
unaltra liale). Ci chiediamo: qual il numero intero /
0
tale che
1 (o /
0
) _
1
1000
?
Il numero /
0
la soglia di sicurezza al 99,9%. O per tentativi o con luso del software R, si
pu trovare
/
0
= 248.
54 CAPITOLO 1. ELEMENTI DI CALCOLO DELLE PROBABILIT
Si noti che un numero straordinariamente vicino alla media, rispetto al migliaio di potenziali
correntisti.
La deviazione standard della binomiale o dellesempio vale
o
S
=
_
1000
1
5
4
5
= 12. 649.
E un numero molto piccolo rispetto al migliaio. Il numero 48, leccedenza di /
0
rispetto alla
media 200, circa 4 volte o
S
. Intuitivamente, questa una conferma del fatto che il risultato
sorprendente dellesempio giusto, non un errore di calcolo.
1.3.2 Sul teorema degli eventi rari per v.a. di Poisson
Ricordiamo che le probabilit delle binomiali 1(:, j
a
) tendono a quelle della Poisson T(`) se
: e : j
a
= ` (o anche solo se : j
a
`, come si dimostra con piccole complicazioni
in pi).
Questo teorema porta il nome di teorema degli eventi rari, per il motivo seguente. Si
deve immaginare una sequenza molto lunga di esperimenti, ciascuno avente due esiti possibili
che denominiamo successo o insuccesso e codichiamo coi numeri 1 e 0 rispettivamente.
Chiamiamo j la probabilit di successo. Il numero di successi una v.a. binomiale. Se j
molto piccolo, i successi sono rari. Questo per compensato dal fatto che il numero di prove
: tende allinnito. Il teorema dice che si pu usare la distribuzione di Poisson al posto della
binomiale.
Naturalmente nelle applicazioni pratiche non c nessun limite : 0, j 0. Ci chiediamo
allora quando, per : grande ma ssato e j piccolo ma ssato, lapprossimazione di una
binomiale con una Poisson fornisca risultati soddisfacenti. Il criterio, se pur vago, che
` = :j sia un numero moderato e simultaneamente : sia grande e j piccolo. Nellesempio
della banca, : = 1000 sicuramente grande, j =
1
5
non molto piccolo ma potrebbe sembrarlo
abbastanza, ma ` = :j = 200 sicuramente troppo grande. Ad esempio,
1
248

I=0
_
1000
/
__
1
5
_
I
_
4
5
_
1000I
= 9. 296 5 10
5
1
248

I=0
c
200
200
I
/!
= 4. 588 8 10
4
.
Si osservi per che lerrore, per quanto grosso, solo alla quarta cifra decimale, quindi
comunque contenuto. Se per eettuiamo un esperimento numerico con un ` pi moderato,
es.
: = 100, j =
1
50
, ` = 2
1.3. ESEMPI 55
troviamo ad esempio
1
8

I=0
_
100
/
__
1
50
_
I
_
49
50
_
100I
= 1. 893 4 10
4
1
8

I=0
c
2
2
I
/!
= 2. 374 5 10
4
cio i due numeri coincidono quasi anche alla quarta cifra decimale.
1.3.3 Identicazione di un modello di Poisson piuttosto che di uno bino-
miale
Visto che grandezze aleatorie quali il numero di persone che chiedono un certo servizio
possono essere descritte abbastanza realisticamente sia da v.a. binomiali sia di Poisson,
quali conviene usare? Il modello di Poisson risulta vincente. Oltre ad essere pi semplice
sia come formula analitica sia per il calcolo numerico, pi conveniente dal punto di vista
dellidenticazione del modello, o pi propriamente della stima dei parametri del modello.
Vediamo il motivo.
Supponiamo di essere i gestori di un certo servizio. In alcuni casi particolari conosciamo
il numero :
max
di potenziali clienti, in altri casi no: si pensi al numero di correntisti di
una banca (il numero complessivo noto) ed al numero di coloro che potrebbero recarsi ad
un distributore per un rifornimento (ignoto). Come gestori, vorremmo creare un modello
matematico del numero aleatorio A di persone che eettivamente chiedono il nostro servizio,
in un certo lasso di tempo (es. un giorno): da tale modello potremo poi calcolare grandezze
medie e probabilit come quelle degli esempi del paragrafo precedente. Come identichiamo
un buon modello?
Chiediamoci quali dati reali, sperimentali, possiamo raccogliere, per decidere tra bino-
miale e Poisson e stimare i parametri. Il dato pi semplice il numero di clienti, in : casi
simili a quello in questione, quindi un campione r
1
, ..., r
a
estratto dalla v.a. A. Si trat-
ta di registrare per : giorni il numero realmente accaduto di clienti che si sono presentati.
Con esso possiamo calcolare la media aritmetica r =
a
1
+...+an
a
e considerarla come approssi-
mazione sperimentale della media vera 1 [A]. Ma allora ecco la risposta: dai dati sperimentali
stimiamo direttamente il parametro ` = 1 [A] se stiamo ipotizzando un modello di Poisson,
mentre non stimiamo direttamente n :
max
n j ma solo il prodotto :
max
j se stiamo ipotiz-
zando un modello binomiale. Ovviamente, se :
max
ci noto, usando r possiamo stimare j
tramite il numero
a
amax
. Ma se :
max
non noto, non possiamo risalire a j, per lo meno non
in questo modo. In conclusione, ci sono varie ragioni per aermare che dai dati sperimentali
pi naturale stimare il parametro ` di un modello di Poisson, che quindi risulta preferibile.
1.3.4 Processo di Bernoulli, ricorrenze, v.a. geometriche
Denizione 6 Chiamiamo processo di Bernoulli di parametro j una successione (A
a
) di v.a.
indipendenti 1(1, j).
56 CAPITOLO 1. ELEMENTI DI CALCOLO DELLE PROBABILIT
Studiamo una zona costiera in cui il tempo cambia rapidamente ed esaminiamo i giorni
di pioggia rispetto a quelli in cui non c alcuna precipitazione. Se supponiamo che i giorni
siano indipendenti dal punto di vista della pioggia e che ci sia la stessa probabilit di pioggia
in tutti i giorni, il nostro esame dei giorni di pioggia denisce un processo di Bernoulli, in cui
la v.a. A
a
vale 1 se il giorno :-esimo piove ( necessario ssare un giorno di inizio).
Associate ad un processo di Bernoulli ci sono varie grandezze aleatorie. Ad esempio le
binomiali entrano in gioco se ci chiediamo probabilit e valori medi della grandezza o
a
=
A
1
+... +A
a
che rappresenta, nellesempio, il numero di giorni di pioggia tra i primi : giorni.
Introduciamo alcune variabili che descrivono gli intertempi tra un giorno di pioggia e laltro.
Iniziamo le osservazioni un certo giorno, chiamato giorno 1. Indichiamo con T
1
(intero
_ 1) il numero dordine del primo giorno di pioggia (T
1
= 1 signica che il giorno 1 c
gi pioggia, T
1
= 2 signica che il primo giorno non c pioggia mentre il secondo s, ecc.).
Poi indichiamo con T
2
(intero _ 1) il numero di giorni, dopo il primo giorno di pioggia, da
attendere prima del secondo giorno di pioggia (T
2
= 1 signica che c pioggia gi il giorno
successivo a quello del primo giorno di pioggia, e cos via). Proseguiamo cos ad introdurre
gli intertempi T
I
. Se li sommiamo, T
1
+... +T
I
il /-esimo giorno di pioggia.
Esempio 41 Supponiamo che il processo di Bernoulli abbia dato i seguenti valori:
0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, ....
Allora T
1
= 6, T
2
= 3, T
3
= 8.
Denizione 7 Ricordiamo che abbiamo chiamato v.a. geometrica di parametro j una v.a.
discreta A, a valori interi non negativi, tale che
1 (A = :) = j (1 j)
a
per : = 0, 1, ...
Chiamiamo poi v.a. geometrica modicata di parametro j una v.a. discreta A
t
, a valori
positivi, tale che
1
_
A
t
= :
_
= j (1 j)
a1
per : = 1, ...
Osservazione 19 Per le geometriche avevamo dimostrato che 1 [A] =
1j
j
. Per le geomet-
riche modicate vale
1
_
A
t

=
1
j
.
Infatti, se A
t
geometrica modicata, allora A = A
t
1 geometrica, quindi
1
_
A
t

= 1 [A + 1] =
1 j
j
+ 1 =
1
j
.
Vale il seguente fatto:
Teorema 11 Le v.a. T
1
, T
2
, ..., T
i
, ... sono indipendenti, geometriche modicate di parametro
j.
1.3. ESEMPI 57
Proof. Cominciamo dimostrando che T
1
geometrica. Vale T
1
= 1 se e solo se esce subito
uno, cosa che avviene con probabilit j; vale poi, per / _ 2, T
1
= / se e solo se per / 1
volte esce zero, ed alla /-esima esce uno. Questa sequenza ha probabilit
I1
j.
Mostriamo ora che T
2
geometrica ed indipendente da T
1
(lindipendenza intuitiva-
mente ovvia, ma siccome le v.a. non vengono introdotte da noi nel denire il modello ma sono
derivate da altre, almeno per questa volta verichiamo rigorosamente che sono indipendenti).
Vale
1 (T
1
= /, T
2
= /)
= 1 (A
1
= 0, ..., A
I1
= 0, A
I
= 1, A
I+1
= 0, ..., A
I+I1
= 0, A
I+I
= 1)
=
I1
j
I1
j = 1 (T
1
= /)
I1
j.
Quindi
1 (T
2
= /) =
o

I=1
1 (T
1
= /, T
2
= /)
=
I1
j
o

I=1
1 (T
1
= /) =
I1
j.
Questo dimostra che T
2
geometrica modicata di parametro j; inoltre, messa nelluguaglian-
za precedente fornisce
1 (T
1
= /, T
2
= /) = 1 (T
1
= /) 1 (T
2
= /)
per ogni /, /, quindi T
1
e T
2
sono indipendenti. La dimostrazione per T
3
ecc. solo pi lunga
e la omettiamo.
Tra le conseguenze c il fatto (intuitivamente plausibile) che il tempo medio tra un giorno
di pioggia ed un altro
1 [T] =
1
j
.
1.3.5 Tempo del k-esimo evento: binomiale negativa
Inne, consideriamo il tempo del /-esimo giorno di pioggia:
t
I
= T
1
+... +T
I
.
Essa una v.a. che assume i valori /, / + 1, .... Calcoliamone la massa di probabilit
1 (t
I
= / +/). Levento t
I
= / + / accade quando A
I+I
= 1, e tra le precedenti v.a.
A
1
, ..., A
I+I1
ce ne sono esattamente / 1 pari ad uno. Ci sono
_
I+I1
I1
_
modi di scegliere i
tempi in cui questo accade; per ciascuna scelta, la probabilit di avere esattamente / 1 uni
in quelle posizioni scelte pi A
I+I
= 1 j
I

I
. Quindi
1 (t
I
= / +/) =
_
/ +/ 1
/ 1
_
j
I

I
.
58 CAPITOLO 1. ELEMENTI DI CALCOLO DELLE PROBABILIT
Questa chiamata distribuzione binomiale negativa di parametri / e j. La binomiale negativa
di parametri / e j la distribuzione della somma di / v.a. geometriche di parametro .
La formula precedente si pu anche scrivere nella forma
1 (t
I
= ,) =
_
, 1
/ 1
_
j
)I

I
per , = /, / + 1, ...
A dispetto della complicazione della formula, facilissimo calcolare media e varianza di
una binomiale negativa di parametri / e j:
j =
/
j
, o
2
= /

j
2
.
Basta infatti usare il fatto che la binomiale negativa di parametri / e j somma di / v.a.
geometriche modicate di parametro j, indipendenti (serve solo per la varianza).
Anticipiamo che, sviluppando analoghe idee a tempo continuo, si possono usare le v.a.
esponenziali al posto delle geometriche, e v.a. di Erlang al posto delle binomiali negative.
1.3.6 Teoremi sulle v.a. esponenziali
In questa sezione sia T una v.a. esponenziale di parametro `, T ~ 1rj(`), cio con densit
)(t) =
_
`c
At
per t _ 0
0 per t < 0
.
Abbiamo usato la lettera T (ma ogni altra lecita) in quanto lambito tipico di applicazione
delle v.a. esponenziali ai tempi di vita, di funzionamento, di attesa ecc., per sistemi di
vario tipo. La v.a. T rappresenta cio, in molte applicazioni, listante in cui un certo sistema
termina il suo lavoro, o si rompe, o una persona arriva in un sistema, e cos via. Attraverso le
propriet delle v.a. esponenziali (in particolare la propriet di assenza di memoria) capiremo
quando il loro uso per descrivere tempi aleatori giusticato con buona approssimazione
oppure no.
La formula
1 (T t) = c
At
particolarmente elegante. La funzione t 1 (T t) detta funzione di sopravvivenza o
di adabilit. Se T il tempo di vita o funzionamento di un sistema, 1 (T t) rappresenta
la probabilit che il sistema funzioni ancora allistante t. Se, a parit di t, questa funzione
assume valori pi grandi per un sistema piuttosto che un altro, il primo ha un miglior grado
di sopravvivenza, una maggiore adabilit.
Propriet di assenza di memoria della legge esponenziale
Una propriet importante della legge esponenziale rappresentata dalla cosiddetta assenza
di memoria. Per illustrarla intuitivamente, facciamo riferimento al tempo di vita di un
sistema. La propriet di assenza di memoria si manifesta quando qualunque sia il tempo
1.3. ESEMPI 59
trascorso, il tempo residuo di vita non aetto dal passato e ha la stessa distribuzione del
tempo di vita originario. In altre parole, loggetto non subisce logoramento, per cui la sua
propensione statistica a rompersi resta invariata. Ovviemente da questo si vede che lipotesi
di esponenzialit piuttosto ideale nella pratica, ma la sua comodit matematica fa s che la
si supponga in molti contesti.
Esempio 42 Attraverso Internet richiediamo un servizio, che pu essere espletato solo quan-
do il servente libero. Supponiamo che la nostra richiesta non venga messa in una coda, ma
che venga reiterata ogni secondo. Quando il servente si libera, prende la prima richiesta che
gli arriva; se la nostra reiterazione gli arriva un istante dopo, viene scartata, e si continua
ad aspettare. In questa situazione, anche se abbiamo aspettato inutilmente per 10 minuti, le
nostre chances di essere accettati dalloperatore non sono aumentate: non c traccia nella
memoria delloperatore della nostra attesa pi o meno lunga. In questo caso il tempo di attesa
di connessione al servizio molto plausibilmente esponenziale.
Teorema 12 Se T esponenziale di parametro ` allora, per ogni t, : _ 0, vale
1 (T t +:[T t) = 1 (T :) .
In altre parole, arrivati al tempo t ed osservato che siamo ancora in attesa (T t), la
probabilit che levento accada dopo un tempo : uguale alla probabilit che inizialmente
levento accadesse dopo un tempo :.
Proof. Vale
1 (T t +:[T t) =
1 (T t +:, T t)
1 (T t)
ma il sistema
_
T t +:
T t
equivale alla singola condizione T t +:, quindi
=
1 (T t +:)
1 (T t)
=
c
A(t+c)
c
At
= c
Ac
= 1 (T :) .
La dimostrazione completa.
Sul minimo di v.a. esponenziali
Date due v.a. esponenziali T
1
e T
2
indipendenti, di parametri `
1
e `
2
rispettivamente,
consideriamo la v.a. T = min(T
1
, T
2
). Ad esempio, se siamo i primi in coda ad una banca ed
abbiamo davanti a noi due possibili sportelli, entrambi occupati, ciascuno che si liberer dopo
un tempo esponenziale, T indica listante in cui si liberer il primo dei due, cio listante in
cui inizier il nostro servizio.
La v.a. T ha densit esponenziale di parametro `
1
+`
2
.
60 CAPITOLO 1. ELEMENTI DI CALCOLO DELLE PROBABILIT
Per dimostrarlo calcoliamo il complementare della funzione di distribuzione di T:
1(T t) = 1(min(T
1
, T
2
) t) = 1(T
1
t, T
2
t)
= 1(T
1
t)1(T
2
t) = c
A
1
t
c
A
2
t
= c
(A
1
+A
2
)t
.
Questo dimostra quanto volevamo. In generale vale:
Proposizione 5 Se T
1
,...,T
a
sono v.a. esponenziali indipendenti, di parametri `
1
,...,`
a
,
allora la v.a. T = min(T
1
, ..., T
a
) esponenziale di parametro `
1
+... +`
a
.
1.3.7 Propriet delle gaussiane
Si dice che una classe di v.a. ha la propriet di riproducibilit, o che le v.a. sono autoripro-
ducenti, se prese due v.a. A ed 1 di quella classe, indipendenti, allora A + 1 sta ancora
nella stessa classe.
Le v.a. gaussiane godono di questa propriet. Anche altre classi hanno questa propriet
ma le gaussiane la soddisfano in una forma ancora pi forte, in cui oltre che la somma si
possono considerare anche le combinazioni lineari, anzi ani.
Teorema 13 Se A ed 1 sono gaussiane indipendenti ed a, /, c sono numeri reali, allora
aA +/1 +c gaussiana. La sua media e la sua varianza sono date da
j
oA+bY +c
= aj
A
+/j
Y
+c
o
2
oA+bY +c
= a
2
o
2
A
+/
2
o
2
Y
.
Proof. Le funzioni generatrici di A ed 1 sono
,
A
(t) = c
j
^
t+
I
2

2
^
2
, ,
Y
(t) = c
j
Y
t+
I
2

2
Y
2
e quindi, per lEsercizio 2,
,
oA+bY +c
(t) = ,
A
(at) ,
Y
(/t) c
ct
= c
j
^
t+
I
2

2
^
2
c
j
Y
t+
I
2

2
Y
2
c
ct
= c
(j
^
+j
Y
+c)t+
I
2
(

2
^
+
2
Y
)
2
che la generatrice di una gaussiana, quindi aA + /1 + c gaussiana. Le formule per la
sua media e varianza si leggono anche da qui, oppure si ottengono con facili calcoli sui valori
medi.
Osservazione 20 Le formule per media e varianza di aA + /1 + c valgono anche senza
lipotesi di gaussinit e si dimostrano facilmente usando le propriet dei valori medi. Quindi
laermazione non ovvia del teorema la gaussianit di aA +/1 +c.
Esercizio 4 Dimostrare che le binomiali di parametro j ssato (mentre la numerosit :
libera) sono autoriproducenti. Si osservi che lo si pu anche capire ad esempio facendo
riferimento al teorema che le lega alle Bernoulli.
1.3. ESEMPI 61
Esercizio 5 Dimostrare che le Poisson sono autoriproducenti, e precisamente la somma di
una T (`) ed una T
_
`
t
_
indipendenti una T
_
` +`
t
_
.
Tra le conseguenze semplici del teorema c che se A gaussiana ed a, / sono numeri reali,
allora aA +/ gaussiana.
Denizione 8 Data una v.a. A che ha media j e varianza o
2
nite, chiamiamo standard-
izzata di A la v.a.
7 =
A j
o
.
Essa ha media nulla e varianza unitaria.
Corollario 2 Se A gaussiana
_
j, o
2
_
, allora la sua standardizzata 7 una normale
standard. Inoltre, vale la rappresentazione
A = j +o7.
La dimostrazione ovvia, ma il contenuto della massima importanza. Si noti inoltre che
lespressione
aj
o
(la standardizzazione) compare continuamente nei calcoli sulle gaussiane.
Appare anche nel risultato che esporremo tra un momento, che si usa continuamente in
statistica.
Denizione 9 Indichiamo con (r) la cdf della normale standard (0, 1).
Il suo graco gi stato disegnato al paragrafo 1.2.6. Si pu anche ottenere con R coi
comandi
x<-(-500:500)/100
plot(x,pnorm(x))
Si vede dal graco (e di verica senza dicolt) che vale
(r) = 1 (r)
una sorta di disparit rispetto al punto di coordiante (0, 1,2). Questa regola essenziale
nelluso delle tavole. La funzione (r) spesso tabulata al termine dei libri di testo, ma
vengono dati i valori solo per r 0. I valori per r < 0 si calcolano con la formula (r) =
1 (r).
Proposizione 6 Sia 1
j,o
2 (r) la cdf di una A ~
_
j, o
2
_
. Allora
1
j,o
2 (r) =
_
r j
o
_
.
Proof.
1
j,o
2 (r) = 1 (A _ r) = 1
_
A j
o
_
r j
o
_
=
_
r j
o
_
.
62 CAPITOLO 1. ELEMENTI DI CALCOLO DELLE PROBABILIT
Denizione 10 Se A una v.a. con cdf 1 (r) strettamente crescente e continua, dato
c (0, 1) esiste uno ed un solo numero
c
R tale che
1 (
c
) = c.
La funzione c
c
la funzione inversa di r 1 (r). Il numero
c
si dice quantile di
ordine c.
La denizione di pu estendere facilmente ad alcune situazioni in cui 1 non strettamente
crescente. Ad esempio, come accade per le v.a. esponenziali, 1 (r) nulla per r < 0 e poi
strettamente crescente. Allora, dato c (0, 1), esiste uno ed un solo numero
c
0 tale che
1 (
c
) = c, e quello viene preso come quantile. Invece che dare una complicata denizione
generale, si ragioni caso per caso in questo modo, per denire i quantili, nelle situazioni in
cui chiaro cosa si deve fare.
I quantili gaussiani intervengono continuamente in statistica, o nel calcolo di soglie (anche
quelli non gaussiani, solo che sono meno frequenti). Nel caso gaussiano vale anche per i
quantili una formula di riduzione dal caso generale a quello standard, simile a quello delle
cdf. La formula ricopia la struttura A = j +o7 vista sopra.
Proposizione 7 Sia
j,o
2
c
il quantile di ordine c di una A ~
_
j, o
2
_
e sia
c
il quantile
di ordine c della normale standard. Allora

j,o
2
c
= j +o
c
.
Proof. Il numero
j,o
2
c
denito dallequazione 1
j,o
2
_

j,o
2
c
_
= c, che si pu riscrivere

j,o
2
c
j
o
_
= c.
Ma allora
q
,
2
o
j
o
il quantile di ordine c della normale standard, cio

j,o
2
c
j
o
=
c
da cui si ricava subito il risultato desiderato.
Per i quantili della normale standard vale la formula

1c
=
c
a volte utile, di nuovo legata alla disparit di . Ricorrono spesso i seguenti quantili:

0.90
= 1.2815

0.95
= 1.6448

0.975
= 1.9599

0.99
= 2.3263
1.3. ESEMPI 63
1.3.8 Variabili di Weibull
La densit Weibull di parametri : 0 (detto scala) e a 0 (detto forma) data da
) (r) =
_
o
c
_
a
c
_
o1
c
(
i
s
)
a
per r _ 0
0 per r < 0
Per a = 1 diventa
1
c
c

i
s
ovvero una esponenziale di parametro ` =
1
c
.
Ecco il graco per (:, a) = (1, 0.5) e (:, a) = (1, 2):
1 2 3
0.0
0.5
1.0
1.5
2.0
x
y
Come nascono queste espressioni per la densit? Dalla funzione di ripartizione. Prendi-
amo (invece di 1 c
Aa
)
1 (r) = 1 c
(
i
s
)
a
, r 0
( solo un altro modo di scrivere 1 (r) = 1 c
(Aa)
a
). Vale
1
t
(r) = c
(
i
s
)
a
_
a
_
r
:
_
o1
1
:
_
=
a
:
_
r
:
_
o1
c
(
i
s
)
a
.
La media di una Weibull
j = :
_
1 +
1
a
_
.
da cui vediamo che la scala non esattamente la media, ma proporzionale. Esempio. La
deviazione standard vale
o = :
_

_
1 +
2
a
_

_
1 +
1
a
_
2
.
Simile alla media j = :
_
1 +
1
o
_
, per con un legame meno facile da interpretare.
Le Weibull si incontrano ad esempio in ingegneria meccanica, nello studio dei fenomeni
di fatica, dove descrivono il numero di cicli a cui si rompe una struttura; pi in generale,
vengono usate per descrivere tempi di vita, come generalizzazione delle esponenziali. Tra i
tanti usi, le Weibull possonoanche servire per modellare una coda che descriva bene dei dati
sperimentali. Le funzioni del tipo 1 c
(Aa)
l
sono una delle classi pi naturali e versatili.
64 CAPITOLO 1. ELEMENTI DI CALCOLO DELLE PROBABILIT
Esempio 43 Supponiamo di esaminare il tempo di vita di un componente meccanico o elet-
tronico. Linsieme o degli esiti possibili la semiretta [0, ). Supponiamo ci serva che
il componente duri per almeno 1 anno, ovvero 365 giorni. Usiamo i giorni come unit di
misura. Indichiamo simbolicamente con T il tempi di vita e scriviamo
1 (T 365)
per indicare la probabilit che il componente duri pi di 365 giorni. Nella pratica, il problema
principale conoscere la densit di probabilit giusta (o meglio, una ragionevolmente aderente
alla realt). Ora, a titolo di esempio, supponiamo di conoscerla: una Weibull di parametri
(a, /) = (500, 10), )(r) =
10
500
_
a
500
_
101
c
(
i
500
)
10
. Intuitivamente, signica che sappiamo
che la vita media si aggira intorno a 500 giorni, con una certa aleatoriet. Vale 1 (r) =
1 c
(
i
500
)
10
, quindi
1 (T 365) = c
(
365
500
)
10
= 0.957 93
in quanto 1 (T t) = 1 1 (t). Questo un esempio di calcolo della survival function
(abbiamo calcolato la probabilit che il componente sopravviva almeno 365 giorni).
0 200 400 600 800 1000
0.000
0.002
0.004
0.006
x
y
1.3.9 Densit Gamma
La densit Gamma di parametri : 0 (detto scala) e a 0 (detto forma) denita da
) (r) =
_
c
(o)
_
a
c
_
o1
c

i
s
per r _ 0
0 per r < 0
(dove (a) =
_
o
0
t
o1
c
t
dt, la funzione gamma).
Si confronti con
b
o
_
a
o
_
b1
c
(
i
a
)
l
: molto simile ma il decadimento della Gamma sempre
esponenziale (potenza uno) e la potenza a 1 della r sganciata dallesponenziale. La sua
provenienza non da una 1, ma da ragionamenti diretti: perturbare con un polinomio un
esponenziale (oppure nasce sommando i quadrati di gaussiane indipendenti).
a = 1: la densit esponenziale di parametro ` =
1
c
(unica intersezione con la classe
Weibull).
Per a = 2, : = 1:
1.3. ESEMPI 65
0 1 2 3 4 5
0.0
0.1
0.2
0.3
x
y
Si suggerisce di esplorare lhelp di R relativamente alle distribuzioni Weibull e Gamma,
percependo il signicato intuitivo dei due parametri (ragurare alcune densit e magari le
corrispondenti cumulative - con pweibull, pgamma).
Si dimostra che la media vale
j = a :.
Notare che il fattore di scala non esattamente la media, come si potrebbe pensare; per
proporzionale. La deviazione standard vale
o =
_
a : =
j
a
(in genere quindi c una notevole variabilit, eliminabile solo con una forma speciale)
1.3.10 Densit Beta
Si chiama densit Beta di parametri c
1
c
2
0 la funzione
) (r) =
_
Cr
c
1
1
(1 r)
c
2
1
per r (0, 1)
0 altrimenti
dove C la costate di normalizzazione, che si dimostra essere pari a
C =
(c
1
+c
2
)
(c
1
) (c
2
)
.
Ecco il graco per:
c
1
= c
2
= 3 (linea continua)
c
1
= 2, c
2
= 5 (tratteggiata)
c
1
= 0.5, c
2
= 5 (a punti).
66 CAPITOLO 1. ELEMENTI DI CALCOLO DELLE PROBABILIT
0.0 0.2 0.4 0.6 0.8 1.0
0
1
2
3
x
y
Queste densit possono essere usate per quanticare la nostra ducia nel valore di una
grandezza aleatoria j che sia compresa tra 0 ed 1, ad esempio una frequenza relativa o una
probabilit.
1.3.11 Code pesanti; distribuzione log-normale
Si dice che una v.a. A ha coda pesante (heavy tail) se la sua densit decade meno che
esponenzialmente. Un caso limite
) (r) =
C
1 +r
c
con c positivo ma piccolo, c (1, 2). Serve c 1 per avere una densit (altrimenti lintegrale
diverge). Vale
j =
_
o
0
r
C
1 +r
c
dr = + se c (1, 2)
(infatti r
C
1+a
o
~
C
a
o1
allinnito, ed c 1 (0, 1) non una potenza integrabile).
Quindi esistono v.a. a media innita, pur assumendo valori niti.
Tra gli esempi che si incontrano spesso nelle applicazioni ci sono le log-normali. Se A
una v.a. gaussiana o normale, la v.a.
1 = c
A
detta log-normale (una log-normale una variabile il cui logaritmo normale). Essere ad
esponente provoca loccorrenza di valori enormi, ogni tanto. Nel senso: se tipicamente A vale
circa 2-4, ma ogni tanto assume un valore dellordine di 5, i valori di 1 saranno tipicamente
del tipo 7-55, ma ogni tanto anche dellordine di 150.
I parametri di una log-normale sono media e deviazione della normale corrispondente.
Per mimare i numeri appena dati, prendiamo una gaussiana di media 3 e deviazione 1. Ecco
il graco della relativa log-normale:
x<-1:100
y<- dlnorm(x,3,1)
plot(x,y)
1.3. ESEMPI 67
Che queste densit abbiano coda pesante si intuisce dalla denizione, e dal graco.
Comunque, si dimostra che la densit data da
) (r) =
1
r
_
2o
2
exp
_

(log r j)
2
2o
2
_
con r 0. Quindi esponenziale e logaritmo in qualche modo si compensano ed il decadimento
diventa polinomiale.
1.3.12 Skewness e kurtosis
Esse sono i momenti standardizzati di ordine 3 e 4:

1
=
j
3
o
3
,
j
4
o
4
oppure, pi spesso, per kurtosis, si intende la kurtosi in eccesso

2
=
j
4
o
4
3.
La skewness misura lasimmetria. Infatti, se ) simmetrica, j
3
= 0.
Esempio 44 A gaussiana:
1
=
2
= 0. La kurtosis (in eccesso) una misura della
deviazione dalla normalit.
Esempio 45 A gamma (a = forma):

1
=
2
_
a
,
2
=
6
a
cio dipendono entrambe solo dalla forma. Ecco ad es. a = 2 (: = 1):
68 CAPITOLO 1. ELEMENTI DI CALCOLO DELLE PROBABILIT
0 1 2 3 4 5
0.0
0.1
0.2
0.3
x
y
1.4 Teoremi limite
1.4.1 Convergenze di variabili aleatorie
Convergenze in probabilit ed in media quadratica
Denizione 11 Diciamo che una successione 1
a
di v.a. converge in media quadratica ad
una v.a. 1 se
lim
ao
1
_
(1
a
1 )
2
_
= 0.
Diciamo invece che converge in probabilit se
lim
ao
1 ([1
a
1 [ -) = 0
per ogni - 0.
Lemma 1 La convergenza in media quadratica implica la convergenza in probabilt. Inoltre,
quantitativamente, se per una certa successione numerica c
a
vale
1
_
(1
a
1 )
2
_
_ c
a
allora vale
1 ([1
a
1 [ -) _
c
a
-
2
.
Proof. Siccome
1 ([1
a
1 [ -) = 1
_
[1
a
1 [
2
-
2
_
,
per la disuguaglianza di Chebishev vale
1 ([1
a
1 [ -) _
1
_
(1
a
1 )
2
_
-
2
da cui discendono tutte le aermazioni.
1.4. TEOREMI LIMITE 69
Convergenza quasi certa
Inne, esiste un altro concetto di convergenza, pi delicato: la convergenza quasi certa.
Denizione 12 Data una successione 1
a
di v.a. ed una v.a. 1 , tutte denite sullo stesso
spazio probabilizzato (, T, 1), diciamo che 1
a
converge quasi certamente ad 1 se
1
_
lim
ao
1
a
= 1
_
= 1.
E un concetto pi delicato dei precedenti. Nella denizione si considera un evento che
coinvolge simultaneamente innite v.a.:
_
lim
ao
1
a
= 1
_
:=
_
. : lim
ao
1
a
(.) = 1 (.)
_
.
Grazie al fatto che T chiusa per operazioni numerabili, si pu mostrare che questo insieme
un evento, cio appartiene ad T, per cui se ne pu calcolare la probabilit. La denizione
richiede allora che tale probabilit sia pari ad uno.
Si dimostra che la convergenza quasi certa implica quella in probabilit, mentre il viceversa
non vero.
La convergenza quasi certa implica un salto concettuale e la necessit di strutture matem-
atiche pi complesse. Negli altri due tipi di convergenza, ssato : nito, si calcolano i numeri
1
_
[1
a
1 [
2
_
e 1 ([1
a
1 [ -). Solo di questi numeri si fa poi, eventualmente, il limite
per : . Per denire i numeri 1
_
[1
a
1 [
2
_
e 1 ([1
a
1 [ -) sono sucienti spazi
(, T, 1) elementari.
Ben diversa la convergenza quasi certa. Nella sua formulazione compaiono simultanea-
mente innite v.a., dovendosi considerare levento lim
ao
1
a
= 1 . Quindi lo spazio deve
essere pi complesso. Esso deve contenere i possibili esiti che riguardano simultaneamente
innite variabili aleatorie. La trattazione rigorosa di questo argomento esula da questo corso.
Convergenza in legge
Introduciamo il concetto di convergenza in legge, detto anche convergenza debole o conver-
genza in distribuzione.
Denizione 13 Una successione di v.a. (A
a
) aventi funzione di distribuzione (1
a
(t)) con-
verge in legge ad una v.a. A con funzione di distribuzione 1(t) se
1
a
(t) 1 (t)
per ogni t che sia punto di continuit di 1(t).
Si vede bene che, a dierenza delle altre nozioni di convergenza stocastica viste no ad ora
(quasi certa, in probabilit, in media quadratica), la convergenza in legge dipende solo dalla
legge delle v.a. e non dalle variabili in quanto tali. Si pu quindi formulare una denizione
70 CAPITOLO 1. ELEMENTI DI CALCOLO DELLE PROBABILIT
di convergenza in legge per una successione (j
a
) di misure di probabilit ed una misura di
probabilit limite j, richiedendo che
j
a
((, t]) j((, t])
per ogni t che sia punto di continuit di j((, t]). Si dimostra che questa nozione equivale
a richiedere _
A
) (r) j
a
(dr)
_
A
) (r) j(dr)
per ogni funzione continua e limitata ) : A R, dove qui A = R. Questo modo di vedere le
cose utile anche per le generalizazioni a spazi metrici A diversi da R.
Vale inne un teorema di convergenza legato alle funzioni generatrici. Se ,
An
(t) converge
a ,
A
(t) in ogni punto t di un intervallo aperto non vuoto, allora A
a
converge a A in legge.
1.4.2 Legge debole dei grandi numeri
Data una successione A
1
, A
2
, ..., A
a
, ... di v.a. (denite tutte sullo stesso spazio probabilizzato
(, T, 1)), scriveremo
A
a
=
A
1
+... +A
a
:
.
Esercizio 6 Se le v.a. A
1
, A
2
, ..., A
a
, ... hanno media j (la stessa per tutte), allora
1
_
A
a

= j.
Esercizio 7 Se inoltre A
1
, A
2
, ..., A
a
, ... sono indipendenti ed hanno varianze o
2
1
, o
2
2
, ..., o
2
a
, ...
nite, allora
\ ar
_
A
a

=
o
2
1
+... +o
2
a
:
2
.
In particolare, se le varianze sono equilimitate da una costante C 0, ovvero
o
2
a
_ C
per ogni :, allora
\ ar
_
A
a

_
C
:
.
Da tutti questi fatti immediato dedurre la seguente versione della Legge Debole dei
Grandi Numeri (LGN debole).
Teorema 14 Sia A
1
, A
2
, ..., A
a
, ... una successione di v.a. indipendenti, con media j e vari-
anze o
2
1
, o
2
2
, ..., o
2
a
, ... equilimitate da una costante C 0. Allora vale la convergenza in media
quadratica
lim
ao
1
_
_
A
a
j
_
2
_
= 0 (1.1)
e la convergenza in probabilit
lim
ao
1
_

A
a
j

-
_
= 0 (1.2)
1.4. TEOREMI LIMITE 71
per ogni - 0. Pi precisamente, per ogni : vale
1
_
_
A
a
j
_
2
_
_
C
:
(1.3)
1
_

A
a
j

-
_
_
C
-
2
:
. (1.4)
Questo argomento verr ripreso nel capitolo sui processi stocastici, a proposito dei processi
stazionari ed ergodici.
Corollario 3 Sia A
1
, A
2
, ..., A
a
, ... una successione di v.a. indipendenti ed identicamente
distribuite (i.i.id.), con media j e varianza o
2
. Allora valgono le aermazioni del teorema.
Si pu anche dimostrare che, senza lipotesi o
2
< , si ottiene ancora la convergenza in
probabilit.
La LGN si applica in mille ambiti a problemi particolari. A livello pi generale, in statis-
tica, si pu osservare che essa alla base del legame tra molti stimatori ed i corrispondenti
parametri. Oltre al caso ovvio, enunciato direttamente dalla LGN stessa, del legame tra lo
stimatore A
a
e la media j, citiamo il legame tra
1
:
a

i=1
(A
i
j)
2
e la varianza o
2
, che si riconduce alla LGN introducendo le v.a.
1
i
= (A
i
j)
2
ed applicando ad esse la LGN (per cui abbiamo che
1
a

a
i=1
1
i
converge a 1 [1
1
] = o
2
). Con
manipolazioni algebriche e la convergenza di A
a
a j, si vede poi che anche lo stimatore o
2
,
pi usato, converge a o
2
. Inne, introducendo le v.a. 7
i
= (A
i
j
A
) (1
i
j
Y
), si vede che
lo stimatore

Co
AY
introdotto nella lezione 3 converge a Co (A, 1 ). E cos per tanti altri
esempi.
Vedremo tra poco la cosidetta legge forte dei grandi numeri. Non si dovr per pensare
necessariamente che essa rimpiazzi la legge debole. Infatti, nella legge debole contenuta
anche una stima quantitativa dellerrore che si commette approssimando j con A
a
, cosa che
si perder nella legge forte. Il seguente esempio mostra un uso di tale stima quantitativa.
Esempio 46 Sia T la v.a. durata della batteria del PC. Supponiamo di non conoscere la
legge di T e di voler stimare la media 1 [T] tramite esperiementi. In 20 sessioni di lavoro
al PC misuriamo la durata, ottenendo il campione sperimentale t
1
, ..., t
20
. Supponiamo che
la media e deviazione empiriche di tale campione siano risp. t = 3 h e o = 1 h. In prima
approssimazione riteniamo quindi che t = 3 h sia una discreta approssimazione di 1 [T], per
la LGN. In pi di questo, per, possiamo dire che
1
_

T
20
1 [T]

-
_
_
o
2
-
2
20
.
72 CAPITOLO 1. ELEMENTI DI CALCOLO DELLE PROBABILIT
Se approssimiamo o
2
con o
2
, troviamo
1
_

T
20
1 [T]

-
_
_
1
-
2
20
.
Ad esempio, per - = 30 min, risulta
1
.
2
20
=
1
5
= 0.2. Quindi possiamo aermare che con
probabilit 0.8 gli esperimenti dovevano fornire un valore t tale che
1 [T] = t 30 min.
A causa di questa aermazione e dei nostri risultati sperimentali, condiamo all80% che
valga
1 [T] = 180 30 min.
Questo un esempio di intervallo di condenza.
Lesempio ora descritto mette in luce il fatto che, quantitativamente, la stima con
1
a

piuttosto povera. Essa per si pu migliorare, a patto di conoscere altre grandezze medie
legate alle variabili in gioco.
Esercizio 8 Date A
a
i.i.d., supponiamo che siano simmetriche rispetto alla media j, e che
sia
0
4
:= 1
_
(A j)
4
_
< .
Allora
1
_
_
A
a
j
_
4
_
=
:0
4
+
_
4
2
_
:(: 1) o
4
:
4
1
_

A
a
j

-
_
_
:0
4
+
_
4
2
_
:(: 1) o
4
-
4
:
4
.
Quindi queste grandezze tendono a zero come
1
a
2
.
Esempio 47 Riprendendo lesempio precedente, supponiamo per semplicit la simmetria, e
supponiamo che dai dati si possa stimare

0
4
~ 5. Allora
1
_

A
20
j

30:i:
_
_
20 5 +
_
4
2
_
20 19
5
4
= 3. 808.
Questa stima non serve a nulla. Abbiamo mostrato questo risultato negativo per chiarire che
le costanti davanti agli innitesimi possono vanicarne luso pratico.
Esempio 48 Valutiamo per lintervallo di condenza con - = 1 h. Col primo metodo
avremmo scoperto
1 [T] = 180 60 min
con condenza 1
1
20
= 0.95. Ora invece vale
1
_

A
20
j

1/
_
_
20 5 +
_
4
2
_
20 19
20
4
= 0.015.
Quindi laermazione 1 [T] = 180 60 min vale in realt con condenza 1 0.015 = . 985.
Questo esercizio fa capire che le stime (1.3) e (1.4) non sono ottimali, in generale: sotto
opportune ipotesi di maggior integrabilit di A il decadimento pi rapido. Nel seguito della
lezione si dimostrer un teorema di decadimento esponenziale.
1.4. TEOREMI LIMITE 73
1.4.3 Legge forte dei grandi numeri
Una LGN relativamente alla converganza quasi certa viene detta legge forte dei grandi numeri
(LGN forte).
Teorema 15 Sia A
1
, A
2
, ..., A
a
, ... una successione di v.a. indipendenti ed identicamente
distribuite, con media j nita. Allora vale la LGN forte.
Vale anche il seguente teorema (di Ratchmann):
Teorema 16 Sia A
1
, A
2
, ..., A
a
, ... una successione di v.a. scorrelate (Co (A
i
, A
)
) = 0 per
ogni i ,= ,), con lim
ao
1 [A
a
] = j e varianze equilimitate. Allora vale la LGN forte.
Le dimostrazioni sono complesse e le omettiamo. Cerchiamo invece di apprezzare la
dierenza di informazione pratica che fornisce la LGN forte rispetto a quella debole. In
genere tutti noi abbiamo la seguente convinzione: che se lanciamo una moneta per un gran
numero di volte, per circa la met di volte verr testa; e che se continuassimo allinnito i
lanci, la frequenza relativa (numero di teste diviso numero di lanci) tenderebbe esattamente
ad
1
2
. Il procedimento, pur ipotetico, di continuare i lanci allinnito e studiare il limite delle
frequenze relative corrisponde esattamente alla legge forte. Infatti, si sta considerando una
ben precisa storia (sequenza) innita ., quella che accade continuando allinnito i lanci, e
relativamente a quella si stanno calcolando le medie parziali A
a
(.) e se ne studia il limite
per : . Solo il concetto di convergenza quasi certa e la LGN forte esaminano questo
tipo di procedimento.
Invece le leggi deboli ci dicono che se facciamo ad es. 1000 lanci, la probabilit che A
a
disti da
1
2
pi di - minore di
jq
.
2
100
=
1
.
2
400
. Quindi abbiamo tale condenza (.00 25 -
2
)
che A
a
(.), relativo alla storia . che si sta avverando, disti da
1
2
pi di -. Se aumentiamo :,
aumenta la nostra condenza, ma non possiamo dire che A
a
(.), relativo alla nostra storia
., si stia eettivamente avvicinando a
1
2
.
1.4.4 Stima di Cherno (grandi deviazioni)
In questo paragrafo mostriamo stime esponenziali per le probabilit di errore tra media
aritmetica e media teorica.
Per ogni coppia di numeri c, j (0, 1), introduciamo lentropia relativa
/(c[[j) = clog
c
j
+ (1 c) log
(1 c)
(1 j)
detta anche distanza (o divergenza) di Kullback-Leibler.
Per c j vale /(c[[j) 0, come si deduce ad esempio dalla dimostrazione del seguente
teorema. Ecco il graco di c /(c[[
1
2
) e di c /(c[[
1
4
), a titolo di esempio.
74 CAPITOLO 1. ELEMENTI DI CALCOLO DELLE PROBABILIT
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
x
y
c /(c[[
1
4
) (linea intera) e c /(c[[
1
2
) (tratteggiata)
Altre propriet generali, ben visibili negli esempi, sono che /(j[[j) = 0 e che /(c[[j)
convessa in c.
Data o
a
~ 1(:, j), ricordiamo che la sua media :j. Inoltre sappiamo che la sua
deviazione standard o molto pi piccola delle grandezze che crescono con : (come il range
: e la media :j): essa vale
_
:
_
j. Quindi o
a
si concentra, per cos dire, attorno alla sua
media. Preso allora un numero c j, la probabilit della coda 1 (o
a
_ :c) dovrebbe essere
molto piccola. Dimostriamo che esponenzialmente piccola.
Teorema 17 Se o
a
~ 1(:, j), allora, per ogni c j, vale
1 (o
a
_ :c) _ c
aI(c[[j)
.
Inoltre, per ogni , < j, vale
1 (o
a
_ :,) _ c
aI(o[[j)
.
Quindi vale anche
1
_

A
a
j

-
_
_ c
aI(j+.[[j)
+c
aI(j.[[j)
.
Proof. Dimostriamo solo la prima disuguaglianza; la seconda analoga, considerando le v.a.
1
i
= A
i
.
Per ogni ` 0 vale
1 (o
a
_ :c) = 1 (exp`o
a
_ exp`:c) .
Per la disuguaglianza di Chebishev, allora,
1 (o
a
_ :c) _ exp(`:c) 1 [exp`o
a
] .
Per lindipendenza delle v.a. vale
1 [exp`o
a
] = 1 [exp`A
1
exp`A
a
] = 1 [exp`A
1
] 1 [exp`A
a
]
= 1 [exp`A
1
]
a
=
_
jc
A
+
_
a
.
Quindi
1 (o
a
_ :c) _ exp(`:c)
_
jc
A
+
_
a
= exp
_
(:)
_
`c log
_
jc
A
+
___
.
1.4. TEOREMI LIMITE 75
Questa disuguaglianza vale per ogni ` 0. Quindi vale anche
1 (o
a
_ :c) _ inf
A0
exp
_
(:)
_
`c log
_
jc
A
+
___
= exp
_
(:) sup
A0
_
`c log
_
jc
A
+
__
_
.
Calcoliamo questo estremo superiore.
Consideriamo la funzione
) (`) = `c log
_
jc
A
+
_
denita per ` _ 0. Vale ) (0) = 0,
)
t
(`) = c
jc
A
jc
A
+
=
c (1 c) jc
A
jc
A
+
quindi )
t
(0) = c (1 c) j. Avendo supposto c j, (1 c), quindi )
t
(0) 0.
Vale inoltre lim
Ao
) (`) = , quindi ci aspettiamo un massimo assoluto per ` 0. Vale
)
t
(`) = 0 se
c
A
=
c
(1 c) j
quindi per il solo valore
` = log
c
(1 c) j
(che positivo in quanto
cq
(1c)j
1, come gi osservato sopra). Quindi
sup
A0
_
`c log
_
jc
A
+
__
= clog
c
(1 c) j
log
_
c
(1 c)
+
_
= /(c[[j).
La dimostrazione completa.
Nel teorema precedente, lipotesi o
a
~ 1(:, j) gioca solo un ruolo marginale. Presa
una successione A
1
, A
2
, ..., A
a
, ... di v.a. indipendenti ed identicamente distribuite come A,
supponiamo che per ogni ` 0 sia 1
_
c
AA

< . Osserviamo che, posto


o
a
= A
1
+... +A
a
vale
1
_
c
ASn
_
= 1
_
c
AA
_
a
.
Ripetendo i passaggi della dimostrazione si trova
1 (o
a
_ :c) _ exp(`:c) 1
_
c
AA
_
a
= exp
_
(:)
_
`c log 1
_
c
AA
___
.
76 CAPITOLO 1. ELEMENTI DI CALCOLO DELLE PROBABILIT
Introduciamo la funzione
(`) = log 1
_
c
AA
_
e la funzione

+
(a) = sup
A0
(`c (`))
detta trasformata di Legendre-Fenchel di (`). In realt, nella denizione tradizionale si
deve prendere lestremo superiore su tutti i `, ma qui si pu dimostrare che inessenziale.
Si scopre allora:
Teorema 18 Presa una successione A
1
, A
2
, ..., A
a
, ... di v.a. indipendenti ed identicamente
distribuite come A, con 1
_
c
AA

< per ogni ` 0, denita


+
(a) come sopra, per ogni
c j = 1 [A], vale
1 (o
a
_ :c) _ c
a

(o)
.
Inoltre, per ogni , < 1 [A], vale
1 (o
a
_ :,) _ c
a

(o)
.
Quindi vale anche
1
_

A
a
j

-
_
_ c
a

(j+.)
+c
a

(j.)
.
Inne, con un argomento pi complicato si pu dimostrare una stima dal basso dello
stesso tipo, di tipo per asintotico:
1 (o
a
_ :c) _ c
a
c
a

(o)
con lim
ao
1
a
log c
a
= 0. In verit questa stima dal basso non vale proprio in tutti i punti
c 1 [A]. Per tutte queste piccole dicolt tecniche, non approfondiamo ulteriormente la
stima dal basso e rimandiamo per una trattazione pi esauriente ai testi della teoria delle
grandi deviazioni.
1.4.5 Teorema limite centrale
Esercizio 9 Siano A
1
, ..., A
a
v.a. indipendenti, identicamente distribuite, con varianza ni-
ta o
2
e media j. Allora
7
a
:=
A
1
+... +A
a
:j
o
_
:
ha media zero e varianza uno.
Il teorema limite centrale vale sotto diverse ipotesi. La seguente versione porta il nome
di Teorema di P. Lvy (o Lindeberg-Lvy). Nel caso particolare in cui le v.a. A
a
siano delle
Bernoulli, esso porta il nome di Teorema di De Moivre-Laplace. e si pu dimostrare per via
combinatorica.
1.4. TEOREMI LIMITE 77
Teorema 19 Sia (A
a
) una successione di v.a. indipendenti, identicamente distribuite, con
varianza nita o
2
e media j. Allora la v.a.
7
a
:=
A
1
+... +A
a
:j
o
_
:
converge in legge ad una gaussiana canonica (0, 1). In altre parole, per ogni a < / vale
lim
ao
1
_
a _
A
1
+... +A
a
:j
o
_
:
_ /
_
= (/) (a)
dove indica la cdf normale standard.
Prima di procedere alla dimostrazione, osserviamo che, in base allesercizio preposto al
teorema, la v.a. 7
a
ha media zero e varianza uno. Per non in generale gaussiana e non
ovvio che lo diventi al limite per : . Questa la parte dicile del teorema.
Proof. Calcoliamo la funzione generatrice ,
a
(t) di 7
a
e mostriamo che, per ogni t, essa
converge a c
t
2
2
. Questo implica la convergenza in legge di 7
a
alla (0, 1).
Osserviamo che
7
a
=
A
1
j
o
+... +
Anj
o
_
:
dove le v.a. 1
a
=
Anj
o
sono indipendenti ed hanno media zero e varianza uno. Quindi basta
dimostrare il teorema in questo caso.
Supponiamo allora j = 0, o = 1. Abbiamo
,
a
(t) = ,
A
1
+...+An
_
t
_
:
_
= ,
A
1
_
t
_
:
_
a
.
Allora, usando lo sviluppo di Taylor di ,
A
1
(t) ed il fatto che 1 [A
1
] = 0 e 1
_
A
2
1

= 1, vale
,
A
1
(t) = 1 +
t
2
2
+o
_
t
2
_
.
Quindi
,
A
1
_
t
_
:
_
= 1 +
t
2
2:
+o
_
t
2
:
_
.
Pertanto vale
,
a
(t) =
_
1 +
t
2
2:
+o
_
t
2
:
__
a
.
Passando ai logaritmi abbiamo
log ,
a
(t) = :log
_
1 +
t
2
2:
+o
_
t
2
:
__
78 CAPITOLO 1. ELEMENTI DI CALCOLO DELLE PROBABILIT
ed usando il limite notevole lim
a0
log(1+a)
a
= 1 si ottiene (t ssato)
lim
ao
log ,
a
(t) = lim
ao
:
_
t
2
2:
+o
_
t
2
:
__
log
_
1 +
t
2
2a
+o
_
t
2
a
__
t
2
2a
+o
_
t
2
a
_
= lim
ao
:
_
t
2
2:
+o
_
t
2
:
__
=
t
2
2
.
Quindi
lim
ao
,
a
(t) = c
I
2
2
.
La dimostrazione completa.
Il caso particolare in cui le v.a. A
a
sono Bernoulli 1(1, j) particolarmente rilevante. In
questo caso o
a
:= A
1
+... +A
a
una binomiale 1(:, j) ed il teorema dice che
7
a
:=
o
a
:j
o
_
:
converge in legge ad una gaussiana canonica (0, 1). E un teorema di convergenza della
binomiale alla gaussiana, che si aanca al teorema degli eventi rari. Qui, per vedere la
convergenza, bisogna standardizzare la binomiale o
a
(7
a
la sua standardizzata).
Pu sembrare assurdo che le binomiali approssimino contemporaneamente sia le Poisson
sia le gaussiane. In eetti il regime limite molto diverso: nel teorema degli eventi rari j
non ssato, tende a zero come
A
a
, mentre nel teorema limite centrale ssato. Se per
non si considera il limite vero e proprio ma solo lapprossimazione per valori grandi o piccoli
dei parametri in gioco, ci sono eettivamente delle situazioni in cui le due approssimazioni
sono abbastanza buone entrambe e si sovrappongono un po. A parte questo, il consiglio
di usare il teorema degli eventi rari quando il prodotto :j un numero dellordine dellunit
(es. 5), ed : ovviamente non troppo piccolo (es. 20, 30). Se ad esempio :j = 3 e : = 30,
allora j =
3
30
= 0.1, piuttosto piccolo. In queste situazioni luso del teorema limite centrale
non prodice risultati molto precisi. Meglio che j sia pi interno allintervallo (0, 1), non
cos estremo, per una buona applicazione del TLC (ma se : pi grande, allora si possono
accettare j pi piccoli).
Inne, sempre nellambito dellapprossimazione gaussiana della binomiale, se si vuole un
risultato pi preciso conviene usare la correzione di continuit. Supponiamo di dover calcolare
1 (o
a
_ 25). Siccome o
a
assume valori solo negli interi, questo uguale a 1 (o
a
< 26). Le
due approssimazioni darebbero
1 (o
a
_ 25) = 1
_
o
a
:j
o
_
:
_
25 :j
o
_
:
_
-
_
25 :j
o
_
:
_
1 (o
a
< 26) = 1
_
o
a
:j
o
_
:
_
26 :j
o
_
:
_
-
_
26 :j
o
_
:
_
per cui in genere si ottiene un risultato pi preciso prendendo
1 (o
a
_ 25) -
_
25.5 :j
o
_
:
_
.
1.4. TEOREMI LIMITE 79
1.4.6 Distribuzione del limite di massimi
Cominciamo da un caso particolare. Siano A
1
, ..., A
a
, ... v.a. 1rj (`) indipendenti, per cui
1 (r) = 1 c
Aa
, r _ 0.
Indichiamo con '
a
la v.a.
'
a
= max A
1
, ..., A
a
.
Che distribuzione ha '
a
? Indichiamo con 1
a
(r) la funzione di distribuzione di '
a
. Vale (e
questo vero indipendentemente dalla legge di A)
1
a
(r) = 1 (r)
a
.
Infatti
1 ('
a
_ r) = 1 (A
1
_ r, ..., A
a
_ r)
= 1 (A
1
_ r) 1 (A
a
_ r) = 1 (A _ r)
a
.
Usando poi il fatto che A esponenziale, troviamo, per r _ 0,
1
a
(r) =
_
1 c
Aa
_
a
.
Nella gura si vedono i graci, per ` = 1, per diversi valori di :.
0 1 2 3 4 5 6 7 8 9 10
0.0
0.2
0.4
0.6
0.8
1.0
x
y
1
a
(r) per : =1, 5, 20, 70, 200
Essendo 1 (r) < 1 per ogni r, 1 (r)
a
0 per : , per cui il graco di 1
a
(r) si
sposta verso destra, per cos dire, al crescere di :. Questo coerente con lintuizione che i
valori tipici di '
a
sono maggiori di quelli di A, e diventano sempre pi grandi al crescere di
:. Si noti che lo spostamento (drift) non si arresta mai: diventa sempre pi lento, ma non
pu arrestarsi, essendo 1 (r) < 1 per ogni r 0.
Un fatto che si pu intuire dai graci che la forma di 1
a
(r) tende ad assestarsi, per
quanto continui a slittare verso destra. Matematicamente, sembra che ci sia una successione
/
a
di traslazioni ed una funzione limite G(r) tali che
1
a
(r) ~ G(r /
a
)
80 CAPITOLO 1. ELEMENTI DI CALCOLO DELLE PROBABILIT
ovvero rigorosamente
lim
ao
1
a
(r +/
a
) = G(r) .
Dimostriamolo. Basta prendere
/
a
=
1
`
log :.
Infatti
1
a
(r +/
a
) =
_
1 c
A(a+
1
A
log a)
_
a
=
_
1
c
Aa
:
_
a
G(r)
con
G(r) = c
c
Ai
.
Questa detta distribuzione di Gumbel. E una funzione di distribuzione, corrispondente alla
densit
q(r) = `c
c
Ai
c
Aa
= `c
Aac
Ai
.
-2 0 2 4
0.1
0.2
0.3
x
y
Densit di Gumbel per ` = 1
Si trova la distribuzione di Gumbel a partire da varie distribuzioni per A, non solo per
lesponenziale. A livello graco, osserviamo ad esempio quanto accade partendo da una 1(r)
che si avvicina ad 1 in modo esponenziale quadratico, come accade per le gaussiane. Per
semplicit prendiamo
1(r) ~ 1 c
a
2
.
Raguriamo 1(r)
a
per : crescente e, traslata con / = 4 per esigenze visive, la Gumbel con
con ` = 5 :
G(r) = c
c
5(i4)
.
E visivamente chiaro che 1(r)
a
tende a G(r).
1.4. TEOREMI LIMITE 81
0 1 2 3 4 5
0.0
0.5
1.0
x
y
_
1 c
a
2
_
a
per : =1, 4, 10, 25 e Gumbel (traslata)
Bisogna invece tener conto che, se si parte da distribuzioni 1(r) radicalmente diverse,
si possono trovare al limite, per 1(r)
a
, due altri tipi di forme. Vediamolo attraverso due
esempi. Se
1(r) =
_
1 r
c
per r _ 1
0 per r < 1
con c 0, si trova, per : ,
1(r)
a
~ G
_
r
:
1c
_
dove G(r) la distribuzione di Frechet
G(r) =
_
c
a
o
per r _ 1
0 per r < 0
.
A titolo di esempio, per c = 1, tracciamo i graci di 1(r), 1(r)
5
, 1(r)
10
, e della Frechet
c
(
i
10
)
1
, che praticamente coincide con 1(r)
10
.
-10 0 10 20 30
0.2
0.4
0.6
0.8
1.0
x
y
Convergenza alla distribuzione di Frechet
Lultimo tipo di distribuzione si trova prendendo ad esempio
1(r) =
_
_
_
0 per r _ 0
1 (1 r)
c
per 0 < r < 1
1 per r _ 1
82 CAPITOLO 1. ELEMENTI DI CALCOLO DELLE PROBABILIT
con c 0. Si trova, per : ,
1(r)
a
~ G
_
:
1c
(r 1)
_
dove G(r) la distribuzione del massimo di terzo tipo
G(r) =
_
c
(a)
o
per r < 0
1 per r _ 0
.
1.5 Approfondimenti sui vettori aleatori
1.5.1 Trasformazione di densit
Esercizio 10 Se A ha cdf 1
A
(r) e q crescente e continua, allora 1 = q (A) ha cdf
1
Y
(j) = 1
A
_
q
1
(j)
_
per tutte le j nellimmagine di q. Se q decrescente e continua, la formula
1
Y
(j) = 1 1
A
_
q
1
(j)
_
Esercizio 11 Se A ha una pdf continua )
A
(r) e q crescente e dierenziabile, allora 1 =
q (A) ha pdf
)
Y
(j) =
)
A
_
q
1
(j)
_
q
t
(q
1
(j))
=
)
A
(r)
q
t
(r)

j=j(a)
per tutte le j nellimmagine di q. Se q decrescente e dierenziabile, la formula
)
Y
(j) =
)
A
(r)
q
t
(r)

j=j(a)
.
Quindi, in generale, abbiamo:
Proposizione 8 Se q monotona e dierenziabile, la trasformazione di densit data da
)
Y
(j) =
)
A
(r)
[q
t
(r)[

j=j(a)
Osservazione 21 Se q non monotona, sotto ipotesi opportune la formula si generalizza a
)
Y
(j) =

a:j=j(a)
)
A
(r)
[q
t
(r)[
.
Osservazione 22 Una seconda dimostrazione della formula precedente proviene dalla seguente
caratterizzazione delle densit: ) la densit di A se e solo se
1 [/(A)] =
_
R
/(r) ) (r) dr
1.5. APPROFONDIMENTI SUI VETTORI ALEATORI 83
per tutte le funzioni continue e limitate /. Usiamo questo fatto per dimostrare che )
Y
(j) =
)
^
(a)
[j
0
(a)[

j=j(a)
la densit di 1 = q (A). Calcoliamo 1 [/(1 )] per una generica funzione
continua e limitata /. Dalla denizione di 1 e dalla caratterizzazione precedente applicata a
A, abbiamo
1 [/(1 )] = 1 [/(q (A))] =
_
R
/(q (r)) ) (r) dr.
Usiamo il teorema di cambio di variabile negli integrali, con j = q (r), se q monotona,
biunivoca e dierenziabile. Abbiamo r = q
1
(j), dr =
1
[j
0
(j
1
(j))[
dj (abbiamo scritto il valore
assoluto per non cambiare gli estremi di integrazione) cos che
_
R
/(q (r)) ) (r) dr =
_
R
/(j) )
_
q
1
(j)
_
1
[q
t
(q
1
(j))[
dj.
Se poniamo )
Y
(j) :=
)
^
(a)
[j
0
(a)[

j=j(a)
abbiamo dmostrato che
1 [/(1 )] =
_
R
/(j) )
Y
(j) dj
per ogni funzione continua e limitata /. Usando di nuovo la caratterizzazione, deduciamo che
)
Y
(j) la densit di 1 . Questa dimostrazione basata sul cambio di variabile negli integrali.
Osservazione 23 La stessa dimostrazione funziona nel caso multidimensionale, in cui non
riusciamo pi a lavorare con le cdf. Bisogna usare il teorema di cambio di variabile negli
integrali multipli. Ricordiamo che in esso al posto di dj = q
t
(r)dr si deve usare dj =
[det 1q (r)[ dr dove 1q la matrice jacobiana (la matrice delle derivate prime) della trasfor-
mazione q : R
a
R
a
. In realt abbiamo bisogno della trasformazione inversa, quindi usiamo
la formula
dr =

det 1q
1
(j)

dj =
1
[det 1q (q
1
(j))[
dj.
Con gli stessi passaggi visti sopra nel caso 1-dimensionale, otteniamo il seguente risultato.
Proposizione 9 Se q biunivoca e dierenziabile con matrice jacobiana invertibile e 1 =
q (A), allora
)
Y
(j) =
)
A
(r)
[det 1q (r)[

j=j(a)
.
Esercizio 12 Se A (in R
a
) ha densit )
A
(r) e 1 = lA, dove l una trasformazione
ortogonale di R
a
(ovvero l
1
= l
T
), allora 1 ha densit
)
Y
(j) = )
A
_
l
T
j
_
.
84 CAPITOLO 1. ELEMENTI DI CALCOLO DELLE PROBABILIT
1.5.2 Trasformazione lineare dei momenti
La soluzione dei seguenti esercizi basata sulla linearit del valore atteso (e quindi della
covarianza, rispetto a ciascuno dei suoi argomenti)
Esercizio 13 Sia A = (A
1
, ..., A
a
) un vettore casuale, una matrice : d, 1 = A. Sia
j
A
=
_
j
A
1
, ..., j
A
a
_
il vettore dei valori medi di A, ovvero j
A
i
= 1 [A
i
]. Allora
j
Y
:= j
A
il vettore dei valori medi di 1 , ovvero j
Y
i
= 1 [1
i
].
Esercizio 14 Sotto le stesse ipotesi, se Q
A
e Q
Y
sono le matrici di covarianza di A ed 1 ,
allora
Q
Y
= Q
A

T
.
1.5.3 Sulle matrici di covarianza
La matrice di covarianza Q di un vettore A = (A
1
, ..., A
a
), denita da Q
i)
= Co (A
i
, A
)
),
simmetrica:
Q
i)
= Co (A
i
, A
)
) = Co (A
)
, A
i
) = Q
)i
e denita non-negativa:
r
T
Qr =
a

i,)=1
Q
i)
r
i
r
)
=
a

i,)=1
Co (A
i
, A
)
) r
i
r
)
=
a

i,)=1
Co (r
i
A
i
, r
)
A
)
)
= Co
_
_
a

i=1
r
i
A
i
,
a

)=1
r
)
A
)
_
_
= \ ar [\]
dove \ =

a
i=1
r
i
A
i
.
Il teorem spettrale aerma che ogni matrice simmetrica Q pu essere diagonalizzata, nel
senso che esiste una base ortonormale c
1
, ..., c
a
di R
a
in cui Q assume la forma
Q
c
=
_
_
`
1
0 0
0 ... 0
0 0 `
a
_
_
.
Inoltre, i numeri `
i
sulla diagonale sono gli autovalori di Q ed i vettori c
i
sono i corrispondenti
autovettori. Siccome una matrice di covarianza Q anche denita non-negativa, vale
`
i
_ 0, i = 1, ..., :.
Osservazione 24 Per capire a fondo questo teorema, ricordiamo alcuni fatti di algebra lin-
eare. R
a
uno spazio vettoriale con prodotto scalare ., ., cio un insieme di elementi (vet-
tori) con certe operazioni (somma di vettori, moltiplicazione per numeri reali, prodotto scalare
tra vettori) e certe propriet. Possiamo chiamare oggetti intrinsechi gli oggetti deniti in
1.5. APPROFONDIMENTI SUI VETTORI ALEATORI 85
questi termini, al contrario di quelli deniti tramite coordinate rispetto ad una base. Un vet-
tore r R
a
un oggetto intrinseco; quando lo scriviamo nella forma (r
1
, ..., r
a
) rispetto ad
una base, questa scrittura non intrinseca, dipende dalla base. Data una base ortonormale
n
1
, ..., n
a
, le componenti di un vettore r R
a
in tale base sono i numeri r, n
)
, , = 1, ..., :.
Unapplicazione lineare 1 in R
a
un oggetto intrinseco: una funzione 1 : R
a
R
a
tale
che 1(c +,n) = c1 + ,1n per ogni , n R
a
ed ogni c, , R. Data la base n
1
, ..., n
a
,
1 pu essere rappresentata tramite la matrice di componenti 1n
i
, n
)
; questa matrice non
intrinseca. Scriveremo a volte j
T
r al posto di r, j (o j, r).
Osservazione 25 Dopo questi commenti di carattere generale, riconosciamo che una matrice
rappresenta unapplicazione lineare relativamente ad una base specicata. Quindi, data la base
canonica di R
a
, che indicheremo con n
1
, ..., n
a
, data la matrice Q, denita una ben precisa
applicazione lineare 1 : R
a
R
a
; e viceversa, data 1 e data una qualsiasi base c
1
, ..., c
a
of
R
a
, 1 si scrive in questa base tramite una matrice. Il teorema spettale aerma che se Q era
simmetrica, allora esiste una base ortonormale c
1
, ..., c
a
in cui la rappresentazione matriciale
Q
c
di 1 diagonale.
Osservazione 26 Ricordiamo alcuni altri fatti di algebra lineare. Partiamo da una base
ortonormale n
1
, ..., n
a
, che chiameremo canonica o base originaria. Sia c
1
, ..., c
a
unaltra
base ortonormale. Il vettore n
1
, nella base canonica, ha componenti
n
1
=
_
_
_
_
1
0
...
0
_
_
_
_
e cos via per gli altri vettori. Ogni vettore c
)
ha certe componenti nella base canonica.
Indichiamo con l la matrice la cui prima colonna ha le componenti di c
1
, la seconda quelle
di c
2
e cos via. Potremmo scrivere l = (c
1
, ..., c
a
). Vale anche l
i)
= c
T
)
n
i
. Quindi
l
_
_
_
_
1
0
...
0
_
_
_
_
= c
1
e cos via, cio l rappresenta lapplicazione lineare che trasforma la base canonica in c
1
, ..., c
a
ln
i
= c
i
, i = 1, ..., :.
Essa una trasformazione ortogonale:
l
1
= l
T
.
Infatti, l
1
trasforma c
1
, ..., c
a
nella base canonica (invertendo quanto appena detto su l),
e l
T
fa lo stesso:
l
T
c
1
=
_
_
_
_
c
T
1
c
1
c
T
2
c
1
...
c
T
a
c
1
_
_
_
_
=
_
_
_
_
1
0
...
0
_
_
_
_
e cos via.
86 CAPITOLO 1. ELEMENTI DI CALCOLO DELLE PROBABILIT
Osservazione 27 Torniamo alla matrice di covarianza Q ed alla matrice Q
c
data dal teore-
ma spettrale: sappiamo che Q
c
diagonale e rappresenta la stessa trasformazione lineare 1,
nella nuova base c
1
, ..., c
a
. Supponiamo di non sapere altro che questo, cio che rappresentano
la stessa trasformazione lineare 1 e che Q
c
ha la forma
Q
c
=
_
_
`
1
0 0
0 ... 0
0 0 `
a
_
_
.
Da questo deduciamo alcuni fatti:
i)
Q
c
= lQl
T
ii) gli elementi sulla diagonale `
)
sono autovalori di 1, con autovettori c
)
iii) `
)
_ 0, , = 1, ..., :.
Per dimostrare (i), ricordiamo che abbiamo appena visto che
(Q
c
)
i)
= c
T
)
1c
i
e Q
i)
= n
T
)
1n
i
.
Inoltre, l
i)
= c
T
)
n
i
, quindi c
)
=

a
I=1
l
I)
n
I
, e di conseguenza
(Q
c
)
i)
= c
T
)
1c
i
=
a

I,I
0
=1
l
Ii
l
I
0
)
n
T
I
0 1n
I
=
a

I,I
0
=1
l
Ii
Q
i)
l
I
0
)
=
_
lQl
T
_
i)
.
Per dimostrare (ii), scriviamo il vettore 1c
1
nella base c
1
, ..., c
a
: c
i
il vettore
_
_
_
_
1
0
...
0
_
_
_
_
,
lapplicazione 1 rappresentata da Q
c
, quindi 1c
1
uguale a
Q
c
_
_
_
_
1
0
...
0
_
_
_
_
=
_
_
_
_
`
1
0
...
0
_
_
_
_
= `
1
_
_
_
_
1
0
...
0
_
_
_
_
che `
1
c
1
nella base c
1
, ..., c
a
. Abbiamo vericato che 1c
1
= `
1
c
1
, cio che `
1
un autovalore
e che c
1
il corrispondente autovettore. La dimostrazione per `
2
, ecc. la stessa.
Per dimostrare (iii), basta osservare che, nella base c
1
, ..., c
a
,
c
T
)
Q
c
c
)
= `
)
.
Ma
c
T
)
Q
c
c
)
= c
T
)
lQl
T
c
)
=
T
Q _ 0
dove = l
T
c
)
, avendo usato la propriet che Q denita non-negativa. Quindi `
)
_ 0.
1.5. APPROFONDIMENTI SUI VETTORI ALEATORI 87
1.5.4 Vettori gaussiani
Ricordiamo che una v.a. gaussiana o normale
_
j, o
2
_
una v.a. con densit di probabilit
) (r) =
1
_
2o
2
exp
_

[r j[
2
2o
2
_
.
Si dimostra che j la media e o
2
la varianza. La normale standard il caso j = 0, o
2
= 1.
Se 7 una normale standard allora j +o7
_
j, o
2
_
.
Si pu dare la denizione di vettore gaussiano, o gaussiana multidimensionale, in pi
modi, generalizzando o lespressione per la densit oppure la propriet che j + o7 una

_
j, o
2
_
, o in altri modi ancora. La denizione forse pi veloce ma pi oscura la seguente.
Denizione 14 Un vettore aleatorio A = (A
1
, ..., A
a
) si dice gaussiano se accade che per
ogni vettore di numeri reali n = (n
1
, ..., n
a
) la v.a.
n, A =
a

i=1
n
i
A
i
sia gaussiana.
Questa denizione generalizza la nota propriet che le combinazioni lineari di gaussiane
indipedenti sono gaussiane. Ha inoltre il seguente pregio: immediato vericare che le
trasformazioni lineari di vettori gaussiani sono vettori gaussiani.
Esercizio 15 Sia A = (A
1
, ..., A
a
) un vettore gaussiano ed una matrice ::. Dimostrare
che 1 = A un vettore gaussiano.
La denizione data ha anche una certa interpretazione geometrica. Se n ha lunghezza
unitaria, lepressione n, A la proiezione di A su n. La denizione aerma quindi che tutte
le proiezioni uni-dimensionali sono gaussiane.
Esaminiamo ora le altre denizioni, forse pi naturali ed illuminanti dal punto di vista
gemetrico, e le loro equivalenze. Iniziamo con un lemma.
Lemma 2 Dato un vettore j = (j
1
, ..., j
a
) ed una matrice :: simmetrica denita positiva
Q (cio tale che
T
Q 0 per ogni ,= 0), si consideri la funzione
) (r) =
1
_
(2)
a
det(Q)
exp
_

(r j)
T
Q
1
(r j)
2
_
dove r = (r
1
, ..., r
a
) R
a
. Si noti che la matrice inversa Q
1
ben denita (in quanto Q
denita positiva), il numero (r j)
T
Q
1
(r j) non negativo, ed il determinante det(Q)
positivo. Allora:
i) ) (r) una densit di probabilit;
88 CAPITOLO 1. ELEMENTI DI CALCOLO DELLE PROBABILIT
ii) se A = (A
1
, ..., A
a
) un vettore aleatorio con tale densit congiunta, allora j il
vettore dei valori medi, nel senso che
j
i
= 1 [A
i
]
e Q la matrice di covarianza:
Q
i)
= Co (A
i
, A
)
) .
Proof. Step 1. In questo primo passo spieghiamo il signicato dellespressione che denisce
) (r). Abbiamo ricordato sopra che ogni matrice simmetric Q pu essere diagonalizzata, cio
esiste una base ortonormale c
1
, ..., c
a
di R
a
in cui Q ha la forma
Q
c
=
_
_
`
1
0 0
0 ... 0
0 0 `
a
_
_
.
Inoltre, i valori `
i
sulla diagonale sono gli autovalori di Q, ed i vettori c
i
sono i corrispondenti
autovettori. Si veda il paragrafo sulla matrice di correlazione per ulteriori dettagli. Sia l la
matrice introdotta in quel paragrafo, tale che l
1
= l
T
. Si ricordi la relazione Q
c
= lQl
T
.
Essendo
T
Q 0 per tutti i vettori ,= 0, vale

T
Q
c
=
_

T
l
_
Q
_
l
T

_
0
per ogi ,= 0 (in quanto l
T
,= 0). Preso in particolare = c
i
, troviamo `
i
0.
Se ne deduce che la matrice Q
c
invertibile con inversa
Q
1
c
=
_
_
`
1
1
0 0
0 ... 0
0 0 `
1
a
_
_
.
Si deduce inoltre che Q, essendo uguale a l
T
Q
c
l (la relazione Q = l
T
Q
c
l discende da
Q
c
= lQl
T
), invertibile, con inversa Q
1
= l
T
Q
1
c
l. Si deduce allora facilmente
(r j)
T
Q
1
(r j) 0 per ogni r ,= j. Inoltre, vale
det(Q) = det
_
l
T
_
det (Q
c
) det (l) = `
1
`
a
in quanto
det(Q
c
) = `
1
`
a
e det (l) = 1. Questultimo fatto discende da
1 = det 1 = det
_
l
T
l
_
= det
_
l
T
_
det (l) = det (l)
2
(che verr usato nellesercizio 12). Quindi det(Q) 0. La formula per ) (r) ha senso e
denisce una funzione positiva.
Step 2. Proviamo ora che ) (r) una densit. Per il teorema di cambio di variabile negli
integrali multidimensionali, col cambio di variabile r = l
T
j, troviamo
_
R
n
) (r) dr =
_
R
n
)
_
l
T
j
_
dj
1.5. APPROFONDIMENTI SUI VETTORI ALEATORI 89
in quanto

det l
T

= 1 (e la matrice jacobiana di una trasformazione lineare la matrice


stessa). Ora, essendo lQ
1
l
T
= Q
1
c
, )
_
l
T
j
_
coincide con la seguente funzione:
)
c
(j) =
1
_
(2)
a
det(Q
c
)
exp
_

(j j
c
)
T
Q
1
c
(j j
c
)
2
_
dove abbiamo posto
j
c
= lj.
Essendo
(j j
c
)
T
Q
1
c
(j j
c
) =
a

i=1
(j
i
(j
c
)
i
)
2
`
i
e det(Q
c
) = `
1
`
a
, otteniamo
)
c
(j) =
a

i=1
1
_
2`
i
exp
_

(j
i
(j
c
)
i
)
2
2`
i
_
.
In altre parole, )
c
(j) il prodotto di : densit gaussiane ((j
c
)
i
, `
i
). Sappiamo dalla
teoria che il prodotto di densit la densit congiunta di un vettore fatto di componenti
indipendenti. Quindi )
c
(j) una densit di probabilit. Pertanto
_
R
n
)
c
(j) dj = 1. Questo
dimostra
_
R
n
) (r) dr = 1, ovvero ) una densit di probabilit.
Step 3. Sia A = (A
1
, ..., A
a
) un vettore aleatorio con densit di probabilit ), se scritto
nella base originaria. Sia 1 = lA. Allora (esercizio 12) 1 ha densit )
Y
(j) data da
)
Y
(j) = )
_
l
T
j
_
. Quindi
)
Y
(j) = )
c
(j) =
a

i=1
1
_
2`
i
exp
_

(j
i
(j
c
)
i
)
2
2`
i
_
.
In altre parole, le componenti di (1
1
, ..., 1
a
) sono v.a. indipendent ((j
c
)
i
, `
i
) e quindi
1 [1
i
] = (j
c
)
i
, Co (1
i
, 1
)
) = c
i)
`
i
.
Dagli esercizi 13 e 14 deduciamo che A = l
T
1 ha media
j
A
= l
T
j
Y
e covarianza
Q
A
= l
T
Q
Y
l.
Essendo j
Y
= j
c
e j
c
= lj deduciamo j
A
= l
T
lj = j. Ma Q
Y
= Q
c
e Q = l
T
Q
c
l, per
cui Q
A
= Q. La dimostrazione completa.
Denizione 15 Dato un vettore j = (j
1
, ..., j
a
) ed una matrice : : simmetrica denita
positiva Q, chiamiamo vettore gaussiano di media j e covarianza Q un vettore aleatorio
A = (A
1
, ..., A
a
) avente densit congiunta
) (r) =
1
_
(2)
a
det(Q)
exp
_

(r j)
T
Q
1
(r j)
2
_
dove r = (r
1
, ..., r
a
) R
a
. Scriviamo A ~ (j, Q).
90 CAPITOLO 1. ELEMENTI DI CALCOLO DELLE PROBABILIT
Lunica restrizione di questa denizione lipotesi che Q sia denita positiva. Ogni
tanto utile avere una nozione di vettore gaussiano anche nel caso in cui Q sia solo semi-
denita positiva (o denita non-negativa). Per esempio, vedremo che le trasformazioni lineari
preservano la gaussianit, ma per esprimere in piena generalit questo fatto bisogna accettare
che il vettore aleatorio in arrivo sia gaussiano degenere. Per avere una denizione cos generale
di gaussiana, ripercorriamo lidea delle trasformazioni ani.
Denizione 16 i) Chiamiamo vettore normale standard in d dimensioni un vettore aleatorio
7 = (7
1
, ..., 7
o
) con densit congiunta ) (.
1
, ..., .
o
) =
o

i=1
j (.
i
) where j (.) =
1
_
2
c

:
2
2
.
ii) Tutti gli altri vettori gaussiani A = (A
1
, ..., A
a
) (in dimensione generica :) si otten-
gono d quelli standard tramite le trasformazioni ani:
A = 7 +/
dove una matrice e / un vettore. Se A ha dimensione :, richiediamo che sia d :
e / abbia dimensione : (ma : pu essere diverso da d).
Il graco della densit normale standard in 2 dimensioni stato tracciato nel paragrafo
1.2.8. Il graco delle altre densit gaussiane pu essere immaginato eseguendo trasformazioni
lineari del piano base rj (deformazioni denite da ) e traslazioni (di /). Per esempio, se
=
_
2 0
0 1
_
matrice che amplica lasse r di un fattore 2, otteniamo il seguente graco:
4
4
2
0
2
0
0.00 -2
x y
-2 -4
-4
0.05
0.10
z
0.15
Calcoliamo media e covariana di un vettore della forma A = 7 + /, con 7 di tipo
standard. Dagli esercizi 13 e 14 abbiamo:
Proposizione 10 Il vettore dei valori medi j e la matrice di covarianza Q di un vettore A
della forma precedente sono dati da
j = /
Q =
T
.
1.5. APPROFONDIMENTI SUI VETTORI ALEATORI 91
Avendo dato dude denizioni diverse dello stesso oggetto, dobbiamo dimostrarne le-
quivalenza. Se Q denita positiva, le due denizioni di vettore gaussiano deniscono
lo stesso oggetto, ma se Q solamente denita non-negativa, abbiamo solamente lutima
denizione, quindi non dobbiamo dimostrare nessuna equivalenza. Per non dilungarci troppo,
non discutiamo lequivalenza, vera, con la prima denizione data nel paragrafo.
Proposizione 11 Se Q denit positiva, allora le denizioni 15 e 16 sono equivalenti. Pi
precisamente, se A = (A
1
, ..., A
a
) un vettore aleatorio gaussiano di media j e covarianza
Q nel senso della denitione 15, allora esistono un vettore normale standard 7 = (7
1
, ..., 7
a
)
ed una matrice : :, , tali che
A = 7 +j.
Si pu prendere (la scelta di non univoca) =
_
Q, come descritto nella dimostrazione.
Viceversa, se A = (A
1
, ..., A
a
) un vettore gaussiano nel senso della denizione 16, della
forma A = 7 + /, allora A gaussiano nel senso della denizione 15, con media j e
covariaza Q dati dalla proposizione precedente..
Proof. Dimostriamo la prima aermazione. Poniamo
_
Q = l
T
_
Q
c
l
dove
_
Q
c
denita da
_
Q
c
=
_
_
_
`
1
0 0
0 ... 0
0 0
_
`
a
_
_
.
Abbiamo
_
_
Q
_
T
= l
T
_
_
Q
c
_
T
l = l
T
_
Q
c
l =
_
Q
e
_
_
Q
_
2
= l
T
_
Q
c
ll
T
_
Q
c
l = l
T
_
Q
c
_
Q
c
l = l
T
Q
c
l = Q
in quanto
_
Q
c
_
Q
c
= Q
c
. Poniamo
7 =
_
_
Q
_
1
A j
dove osserviamo che
_
Q invertibile, in base alla sua denizione ed alla positivit stretta di
`
i
. Allora 7 gaussiano. Infatti, dalla formula per le trasformazioni di densiti,
)
Z
(.) =
)
A
(r)
[det 1q (r)[

:=j(a)
dove q (r) =
__
Q
_
1
r j; quindi det 1q (r) = det
__
Q
_
1
=
1
_
A
1

_
An
; se ne deduce che
)
Z
(.) =
a

i=1
_
`
i
1
_
(2)
a
det(Q)
exp
_

___
Q. +j
_
j
_
T
Q
1
___
Q. +j
_
j
_
2
_
=
1
_
(2)
a
exp
_

__
Q.
_
T
Q
1
__
Q.
_
2
_
=
1
_
(2)
a
exp
_

.
T
.
2
_
92 CAPITOLO 1. ELEMENTI DI CALCOLO DELLE PROBABILIT
e questa la densit normale standard. Dalla denizione di 7 troviamo A =
_
Q7 +j, cos
che la prima aermazione dimostrata.
La dimostrazione della seconda aermazione un caso particolare del prossimo esercizio,
che lasciamo al lettore.
Esercizio 16 Sia A = (A
1
, ..., A
a
) un vettore gaussiano, 1 una matrice ::, c un vettore
di R
n
. Allora
1 = 1A +c
un vettore gaussiano di dimensione :. La relazione tra medie e covarianze
j
Y
= 1j
A
+c
Q
Y
= 1Q
A
1
T
.
Osservazione 28 Dallesercizio vediamo che si pu partire da un vettore non-degenere A
ed ottenere un vettore degenere 1 , se 1 non biunivoca. Questo accade sempre se : :.
Osservazione 29 La legge di un vettore gaussiano determinata dal vettore dei valori medi
e dalla matrice di covarianza. Questo fatto fondamentale verr usato pi tardi nello studio
dei processi stocastici.
Osservazione 30 Alcni dei risultati precedenti sono molto utili se vogliamo generare vettori
aleatori secondo una legge gaussiana specicata. Assumiamo di aver prescritto la media j
e la covarianza Q, :-dimensionali, e vogliamo generare un punto casuale (r
1
, ..., r
a
) dalla
(j, Q). Per far questo possiamo generare : numeri casuali indipendenti .
1
, ..., .
a
dalla
normale standard 1-dimensionale e calcolare
_
Q. +j
dove . = (.
1
, ..., .
a
). Per avere le componenti della matrice
_
Q, se il software non le fornisce
automaticamente (alcuni software lo fanno), possiamo usare la formula
_
Q = l
T
_
Q
c
l.
La matrice
_
Q
c
ovvia. Pr ottenere la matrice l si ricordi che le sue colonne sono gli
autovettori c
1
, ..., c
a
scritti nella base di partenza. Basta quindi che il software sia in grado
di eettuare la decomposizione spettale di Q.
Capitolo 2
Elementi di Statistica
2.1 Introduzione. Stimatori
Gli elementi di statistica esposti in questo capitolo costituiscono solo un breve riassunto e
non hanno alcuno scopo di organicit e completezza. Verranno lasciate fuori molte questioni
ed argomenti importanti.
I due problemi principali esaminati dalla statistica di base sono:
la stima dei parametri o pi in generale la costruzione di modelli probabilistici a partire
da dati sperimentali
i test di ipotesi, o pi in generale la verica dei modelli ipotizzati eseguita confrontandoli
con dati sperimentali.
Alcune denizioni e considerazioni generali possono essere premesse allo studio di questi
due problemi.
Denizione 17 Data una v.a. A, si chiama campione di numerosit : estratto da A una
sequenza di : v.a. A
1
, ..., A
a
indipendenti e distribuite come A (e denite sullo stesso spazio
probabilizzato (, T, 1)).
Questo concetto simile a quello di campione sperimentale composto da numeri reali
r
1
, ..., r
a
emersi da prove, osservazioni sperimentali. Per sono due concetti diversi: il cam-
pione A
1
, ..., A
a
fatto di v.a., laltro, r
1
, ..., r
a
, di numeri; questultimo per cos dire una
realizzazione del primo. Si pu immaginare, per capire la dierenza, che dopo aver eseguito
gli esperimenti si siano trovati i numeri r
1
, ..., r
a
, mentre prima di eseguirli si possa immag-
inare che gli esperimenti produrranno dei numeri; in tale fase precedente agli esperimenti, i
valori numerici che usciranno dagli esperimenti sono grandezze aleatorie, ad esito incognito,
che possiamo descrivere con v.a. A
1
, ..., A
a
.
Denizione 18 Dato il campione A
1
, ..., A
a
estratto da A, chiamiamo media aritmetica o
93
94 CAPITOLO 2. ELEMENTI DI STATISTICA
empirica e varianza empirica le v.a.
A =
A
1
+... +A
a
:
o
2
=
1
: 1
a

i=1
_
A
i
A
_
2
Nel caso di un campione sperimentale r
1
, ..., r
a
, si deniscono nello stesso modo i corrispon-
denti numeri r ed :
2
.
Proposizione 12 Se A
_
j, o
2
_
, allora A
_
j,
o
2
a
_
.
Pi in generale, se A ha media j e varianza o
2
, allora A ha media j e varianza
o
2
a
, ed
asintoticamente normale nel senso descritto tra breve.
Proof. Diamo solo un cenno. La verica che A ha media j e varianza
o
2
a
elementare, usando
le regole dei valori medi. Lasintotica normalit di dimostra col teorema limite centrale.
Quando poi A gi gaussiana, lo anche A per il fatto che le combinazioni ani di v.a.
gaussiane indipendenti gaussiana.
Le v.a. A ed o
2
sono esempi di stimatori, cio di v.a.
T = T (A
1
, ..., A
a
)
che vengono usate per stimare (approssimare) parametri di distribuzioni statistiche. Se la
v.a. A ha media j e varianza o
2
, per varie ragioni si utilizzano A ed o
2
come stimatori di
j e o
2
. Vedremo anche un esempio di stimatore della cdf 1 (r) e, nel capitolo sui processi,
esempi di stimatori di grandezze relative a pi variabili aleatorie, come la covarianza e la
correlazione.
Osservazione 31 Il fatto che, come dice la proposizione precedente, A ha varianza
o
2
a
,
unindicazione importante del fatto che A approssimi j. Infatti, intanto dal punto di vista
graco, se ad esempio stiamo parlando di v.a. con densit, la densit di A stretta e alta, cio
concentrata attorno alla media, dovendo avere varianza piccola. Dal punto di vista analitico,
varianza
o
2
a
(pi media j) signica
1
_
_
A j
_
2
_
=
o
2
:
ao
0
cio A concentrato vicino a j in media quadratica. Questo anche il calcolo tipico della
legge dei grandi numeri.
Uno stimatore pu avere alcune buone propriet. Indichiamo con A una v.a., con
A
1
, ..., A
a
un suo campione, con 0 un parametro della legge di A, con T
a
= T
a
(A
1
, ..., A
a
)
uno stimatore di 0 (esplicitiamo la sua dipendenza da : ed ipotizziamo, dove serve, che si
possa prendere il campione e lo stimatore per ogni valore di :).
2.1. INTRODUZIONE. STIMATORI 95
Denizione 19 Diciamo che T
a
uno stimatore non distorto (o corretto) di 0 se
1 [T
a
] = 0.
Diciamo poi che uno stimatore consistente se converge in probabilit a 0:
T
a
1
0.
Diciamo che uno stimatore asintoticamente normale se
_
:
o
(T
a
0)
/
(0, 1)
(convergenza in legge) per una opportuna costante positiva o, che viene detta deviazione
standard asintotica (o
2
sar detta varianza asintotica).
Le propriet di correttezza e consistenza sono requisiti naturali per credere che uno stima-
tore stimi abbastanza bene il parametro corrispondente. La propriet di gaussianit asintotica
invece utile per scrivere intervalli di condenza asintotici.
Anche se alcune delle aermazioni seguenti valgono sotto ipotesi minori, per semplicit
supponiamo per la loro validit che A abbia momento di ordine 4 nito.
Proposizione 13 A
a
=
A
1
+...+An
a
uno stimatore corretto, consistente ed asintoticamente
normale di j = 1 [A]. Lo stesso vale per o
2
a
=
1
a1

a
i=1
_
A
i
A
_
2
rispetto a o
2
= \ ar [A].
Proof. Non diamo tutta la dimostrazione ma verichiamo solo, a titolo di esempio, che o
2
a
stimatore corretto di o
2
. Vale
1
_
_
A
i
A
a
_
2
_
= 1
_
(A
i
j)
2
_
+1
_
_
A
a
j
_
2
_
21
_
(A
i
j)
_
A
a
j
_
= o
2
+
o
2
:
2
1
:
a

)=1
1 [(A
i
j) (A
)
j)]
= o
2
+
o
2
:
2
o
2
:
= o
2
: 1
:
da cui
1
_
o
2
a

=
1
: 1
a

i=1
1
_
_
A
i
A
a
_
2
_
=
1
: 1
a

i=1
o
2
: 1
:
= o
2
.
Lanaloga verica per A
a
banale; la consistenza dei due stimatori si dimostra con la
legge dei grandi numeri e lasintotica normalit con il teorema limite centrale, ogni tanto per
con laggiunta di un certo numero di considerazioni speciche, nel caso di o
2
a
, a causa della
presenza di A
a
nel termine
_
A
i
A
a
_
2
.
Esercizio 17 Mostrare la parte della proposizione precedente che riguarda A
a
.
96 CAPITOLO 2. ELEMENTI DI STATISTICA
Esercizio 18 Mostrare che valgono le aermazioni della proposizione precedente per
o
2
j,a
=
1
:
a

i=1
(A
i
j)
2
rispetto a o
2
.
La distorsione si pu misurare col numero
/ia: = 1 [T
a
] 0.
Va detto che in certi problemi pu essere utile considerare stimatori distorti, in quanto pi
semplici o naturali di altri; basta che il bias sia piccolo o meglio che tenda a zero per : ,
abbastanza in fretta. Ad esempio, o
2
si pu anche stimare con
1
a

a
i=1
_
A
i
A
_
2
che
lievemente distorto; uno dei vantaggi che questa espressione si armonizza meglio con altre
nella costruzione di stimatori della covarianza.
2.2 Intervalli di condenza
Abbiamo detto allinizio che la stima dei parametri uno dei due problemi principali della
statistica di base. La teoria della stima ha due direzioni principali:
STIMA

intervallare
puntuale
La stima puntuale quella che abbiamo gi iniziato a discutere nella sezione precedente,
parlando di stimatori. Essi forniscono una stima puntuale dei corrispondenti parametri. Tra
le varie cose che ora non aronteremo c la ricerca di stimatori tramite il metodo di massima
verosimiglianza, tramite il metodo dei momenti, e varie altre cose importanti.
Esaminiamo la stima intervallare. Si tratta di fare aermazioni non solo sul valore T che
approssima il parametro 0 ma anche sulla bont di questa approssimazione, sullerrore che si
potrebbe commettere.
In analisi numerica, quando si approssima ad es. la soluzione 0 di unequazione con un
numero T, si studia lerrore di approssimazione e, se si riesce, si danno risultati del tipo
[T 0[ < c
(stima dellerrore assoluto) o

T 0
0

< c
(stima dellerrore relativo) dove c dipender da varie cose.
Nei problemi di stima di parametri statistici, impossibile ottenere esattamente risultati
di questo tipo.
2.2. INTERVALLI DI CONFIDENZA 97
Esempio 49 A
a
=
A
1
+...+An
a
un buon stimatore di j. Ma, ad esempio nel caso in cui
A sia gaussiana, A
a
ha una densit positiva su tutto lasse reale, cio pu assumere (anche
se con probabilit piccolissima) valori arbitrariamente grandi (positivi e negativi), quindi
arbitrariamente distanti da j. E impossibile sperare in un teorema del tipo

A
a
j

< c
(senza ulteriori limitazioni).
Lesempio precedente per suggerisce la via di uscita: potrebbe valere

A
a
j

< c con
elevata probabilit. Questa la natura dei risultati che possiamo cercare: stime dellerrore
corredate di limitazioni sulla loro probabilit di essere valide.
Enunciamo una proposizione sulle gaussiane e vediamone le conseguenze. Ricordiamo che
indichiamo con (r) e
c
la cdf ed il quantile della normale standard, rispettivamente.
Proposizione 14 Sia A gaussiana,
_
j, o
2
_
. Fissato c 0, vale
1
_

A
a
j

< c
_
= 2
_
c
_
:
o
_
1.
Viceversa, ssato c (0, 1), vale
1
_

A
a
j

<
o
1
o
2
_
:
_
= 1 c. (2.1)
Proof. Sappiamo che A
a
una gaussiana
_
j,
o
2
a
_
. Allora
1
_
j c < A
a
< j +c
_
=
_
(j +c) j
o,
_
:
_

_
(j c) j
o,
_
:
_
=
_
c
_
:
o
_

_
c
_
:
o
_
= 2
_
c
_
:
o
_
1.
Questo dimostra la prima identit. Fissato c (0, 1), poniamo
2
_
c
_
:
o
_
1 = 1 c.
Si trova

_
c
_
:
o
_
= 1
c
2
c
_
:
o
=
1
o
2
c =
o
1
o
2
_
:
.
Questo conclude la dimostrazione anche della seconda identit.
98 CAPITOLO 2. ELEMENTI DI STATISTICA
Possiamo scrivere lidentit (2.1) in due modi pi espressivi: ssato c (0, 1), posto
c =
oq
1
o
2
_
a
, vale
j c < A
a
< j +c
con probabilit 1 c; ma anche
A
a
c < j < A
a
+c
con probabilit 1 c. Entrambe le scritture sono molto istruttuve. La seconda diventa il
nostro esempio fondamentale di intervallo di condenza.
Denizione 20 Date due v.a.
T

a
= T

a
(A
1
, ..., A
a
) e T
+
a
= T
+
a
(A
1
, ..., A
a
)
diciamo che lintervallo (aleatorio)
_
T

a
, T
+
a

un intervallo di condenza di livello 1 c (a volte si dice livello c, ma questo provoca un


po di fraintesi) se
1
_
0
_
T

a
, T
+
a
_
_ 1 c.
Il numero 1 c si dice condenza. A parole diremo che
0
_
T

a
, T
+
a

con condenza 1 c.
Corollario 4 Sia A gaussiana,
_
j, o
2
_
. Allora
_
A
a
c, A
a
+c

intervallo di condenza
di livello 1 c per j, dove c =
oq
1
o
2
_
a
. Scriveremo anche
j = A
a
c a livello 1 c.
In pratica, ad esempio, si dir: al 95% vale
j = A
a
c
dove
c =
o 1.96
_
:
(essendo
1
o
2
= 1.96 se 1 c =95%). Oppure: al 90% vale
j = A
a
c
dove
c =
o 1.64
_
:
(essendo
1
o
2
= 1.64 se 1 c =90%).
2.2. INTERVALLI DI CONFIDENZA 99
2.2.1 Esempio
Unazienda che eettua interventi e riparazioni vuole stimare due grandezze, per poter di-
mensionare lorganico ed organizzare i turni di lavoro. La prima grandezza il numero medio
j di ore di lavoro in azienda, giornaliere, necessarie per eettuare tutti i lavori richiesti. La
seconda la probabilit j di dover eettuare interventi esterni. Indichiamo con il numero
di ore di lavoro interne, con A una v.a. di Bernoulli che vale 1 se c da eettuare un lavoro
esterno (entrambe le variabili sono riferite ad una giornata, generica).
Lazienda si pone le seguenti domande: i) come stimare j e j? ii) Che errore potremmo
aver commesso in tale stima? iii) Quante osservazioni servono per fare tali stime?
Supponendo di avere a che fare con unazienda di media grandezza, in cui i valori di
siano di varie decine e non di pochissime unit, decidiamo di trattare come una v.a.
continua e per semplicit gaussiana. Invece A intrinsecamente Bernoulli. Dobbiamo stimare
in entrambi i casi il valor medio:
j = 1 [] , j = 1 [A] .
La risposta alla domanda (i) in un certo senso ovvia: si devono eettuare : rilevazioni
giornaliere delle due grandezze, chiamiamole

1
, ...,
a
e A
1
, ..., A
a
(anche numerosit diverse per i due problemi) e poi calcolare gli stimatori
j =

1
+... +
a
:
, j =
A
1
+... +A
a
:
.
Detto questo per sorgono tante domande, appunto ad esempio le domande (ii) ed (iii), circa
la bont di queste stime.
Avendo ipotizzato che gaussiana, vale
j = j
o
1
o
2
_
:
con condenza 1 c. Ad esempio, j = j
o1.96
_
a
al 95%. Questo signica che, al 95%, il
massimo errore possibile
o1.96
_
a
. (In particolare, non c un errore massimo possibile certo,
ma sempre a meno di una piccola probabilit; c sempre una piccola probabilit che lerrore
sia ancora pi grosso). Questo non signica che lerrore sar pari a
o1.96
_
a
, al 95%: al massimo
sar
o1.96
_
a
. Ma se riduciamo la condenza, esso minore:
al 90%:
o1.64
_
a
all 80%:
o1.28
_
a
al 70%:
o1.04
_
a
al 60%:
o0.84
_
a
e cos via. Lidea si vede bene gracamente tracciando la densit gaussiana di
.
1
+...+.n
a
ed
osservando come varia lintervallo attorno a j quando si varia larea soprastante. Quindi
molto probabile che lerrore sia molto pi piccolo di
o1.96
_
a
, ad esempio sia la met. Il numero
o1.96
_
a
fornisce lordine di grandezza.
100 CAPITOLO 2. ELEMENTI DI STATISTICA
Veniamo ora allaspetto pratico: supponiamo di aver fatto : = 25 osservazioni ed aver
trovato j = 62.8. Che possiamo dire, ad esempio al 95%? Che
j = 62.8
o 1.96
5
= 62.8 0.39 o.
Ma quanto vale o? Nessuno ce lo pu dire. La cosa pi naturale, avendo a disposizione il
campione di numerosit : = 25, calcolare o. Supponiamo di farlo ed aver trovato o = 18.3.
Allora, approssimativamente (o non o), possiamo aermare che al 95%
j = 62.8 0.39 18.3 = 62.8 7. 14.
In altre parole, al 95%, il valore incognito j compreso tra 55. 66 e 69. 94. Ma, come detto
sopra, molto probabilmente abbastanza pi vicino a 62.8. Ad esempio, al 60%, vale circa
j = 62.8 3. 5
cio j compreso tra 59. 3 e 66. 3.
la sostituzione di o con o ha introdotto unapprossimazione. Un teorema dice che i
risultato (cio lampiezza dellintervallo di condenza) torna ad essere un risultato esatto se,
oltre a sostituire o con o, si sostituisce il quantile gaussiano standard
1
o
2
con il quantile
della t di Student a : 1 gradi di libert:
j = j
ot
(a1)
1
o
2
_
:
.
Nel nostro esempio, usando le tavole, vale t
(24)
1
0.05
2
= 2.064 e quindi
j = 62.8
18.3 2.064
5
= 62.8 7. 55.
Il risultato un po peggiore di quello approssimato precedente, ma sicuro. La dierenza
non per marcatissima.
La domanda (ii) ha per una variante fondamentale: che si parli di errore relativo invece
che assoluto. Lerrore assoluto [ j j[ mentre lerrore relativo

j j
j

.
Allora lerrore relativo massimo possibile con condenza 1 c

j j
j

=
o
1
o
2
_
:[j[
.
Nel nostro esempio, al 95%, usando ad esempio per semplicit i quantili guassiani

j j
j

=
18.3 1.96
5 [j[
=
7. 17
[j[
.
2.2. INTERVALLI DI CONFIDENZA 101
naturalmente nessuno ci pu dare j, visto che la quantit da stimare. Quindi approssima-
tivamente sostiuiamola con j che nota:

j j
j

-
7. 17
62.8
= 0.114.
In sostanza, si commette un errore relativo di un decimo (decente per scopi di commercio
non troppo spinti). Ovviamente se si vuole usare la t di Student, viene lievemente pi grande
(provare).
Sempre relativamente a , veniamo alla domanda (iii). Il numero di osservazioni da fare
non pu essere una grandezza assoluta, indipendente da requisiti. Dipende dalla precisione
che vogliamo ottenere e dalla condenza che scegliamo (il rischio che accettiamo di correre).
La domanda (iii). Essa un esempio di DOE (Design Of Experiments).
Il numero di osservazioni da fare non pu essere una grandezza assoluta, indipendente da
requisiti. Dipende dalla precisione che vogliamo ottenere e dalla condenza che scegliamo (il
rischio che accettiamo di correre; rischio di fare una dichiarazione falsa circa lintervallo in
cui cade la media). Supponiamo di correre un rischio del 5%, prendere cio condenza 95%
e supponiamo di volere un errore (massimo) pari a 5, erroe assoluto. Uguagliando lerrore
massimo a 5 abbiamo
o1.96
_
a
= 5, ovvero
: =
_
o 1.96
5
_
2
= 0.154 o
2
.
Con luguaglianza si intende in realt il primo intero : _ 0.154 o
2
(infatti per essere pi
precisi andrebbe impostata dallinizio la disuguaglianza
o1.96
_
a
_ 5). Resta il grave problema
di conoscere o: se non abbiamo ancora fatto rilevazioni, se non abbiamo dati, o incognita.
Non ci sono scappatoie generali: o si conosce un valore approssimato di o sulla base di dati
precedenti, oppure si deve ipotizzare lordine di grandezza di o, approssimando ovviamente
per eccesso. Senza o non si pu stabilire : in anticipo. Se non si hanno dati precedenti o
capacit di stima dellordine di grandezza, bisogna iniziare i campionamenti, raccogliere un
po di dati e con essi stimare o. Questi primi dati concorreranno comunque alla stima nale
di j. Supponiamo di aver raccolto una decina di dati preliminari, dai quali esca la stima
o = 20.4
Allora troviamo
: = 0.154 20.4
2
= 64. 089.
Servono circa 65 osservazioni. In realt, dopo un po di ulteriori osservazioni conviene ri-
stimare o per rendere pi accurata la previsione del numero di osservazioni da fare.
Se volevamo invece lerrore relativo (massimo) assegnato, es. 10%, dovevamo imporre
o 1.96
_
:[j[
= 0.1
ovvero
: =
_
o 1.96
0.1 [j[
_
2
= 384. 16
_
o
[j[
_
2
.
102 CAPITOLO 2. ELEMENTI DI STATISTICA
Qui servono addirittura una stima preliminare di o e j. Si agisce come sopra. Supponiamo
che dopo alcune osservazioni preliminari abbiamo trovato r = 60.5, o = 20.4. Allora
: = 384. 16
_
20.4
60.5
_
2
= 43. 678.
Questi esempi numerici mostrano la ragionevolezza dei risultati che si ottengono con questa
teoria.
Si noti comunque che questi calcoli producono valori piuttosto alti di :. In certe appli-
cazioni pratiche, molte decine di osservazioni sono davvero costose. C un rimedio? Ri-
cordiamo quanto appreso sopra circa lintervallo di condenza: esso esprime il risultato pi
pessimistico. Con buona probabilit, lintervallo al 95% pessimistico, la stima molto
migliore, come evidenzia lintervallo al 60%, ad esempio.
Se accettassimo un rischio molto alto, 40%, i calcoli precedenti darebbero:
:
60%
occc|&tc
=
_
o 0.84
5
_
2
= 0.028 o
2
S=20.4
= 0.028 20.4
2
= 11. 652.
Naturalmente non possiamo esporci ad un tale rischio, ma questo calcolo ci dice che il
60% delle volte accadrebbe che 12 osservazioni sono sucienti, invece che 65. Similmente,
accettando un rischio del 20%,
:
80%
occc|&tc
=
_
o 1.28
5
_
2
= 0.065 o
2
S=20.4
= 0.065 20.4
2
= 27. 05.
Insomma, con elevata probabilit, bastano molte meno osservazioni. Che fare? Ovviamente
si pu decidere di fare poche osservazioni (es. solo 20-30) e sperare che le cose siano andate
bene. Si pu per tracciare un graco della stima della media j al crescere del numero di
prove. Nel senso: dopo aver eseguito : osservazioni, calcoliamo j
a
ed aggiungiamolo al graco
precedentemente fatto dei valori di j in funzione del numero di prove. Al crescere di : questo
graco tender ad assestarsi attorno allasintoto orizzontale j (asintoto per sconosciuto!).
Quando vediamo il graco diventare sucientemente orizzontale, abbiamo un forte sintomo
che siamo gi arrivati a convergenza, come si suol dire. Non c la certezza assoluta, ma
molto dicile che un tale graco si assesti e poi riprenda a muoversi. Bene, nel 60% dei casi,
si assesta molto presto, nell80%, poco oltre, e cos via. Solo in rari casi necessita davvero di
valori di : intorno a 65 per assestarsi; solo il caso pi pessimistico, che per garantito al
95%. A priori, non possiamo sapere se ci capiter questo caso o quelli pi fortunati. Bisogna
eseguire le prove sequenzialmente e sperare. Quanto qui espresso una versione pratica della
cosidetta Sequential Analysis.
Ripetiamo ora alcuni dei passi precedenti per il problema della stima della proporzione j,
altro problema classico e ricorrente. Lo stimatore j, ma ora non vale pi la teoria gaussiana
dellintervallo di condenza. Tuttavia, in modo approssimato essa ancora vera: vale
j = j
o
1
o
2
_
:
, o
2
= \ ar [A] = j (1 j)
2.2. INTERVALLI DI CONFIDENZA 103
con condenza approssimativamente pari 1 c. Ci che approssimata la probabilit che
j stia nellintervallo suddetto, non lintervallo in s. Tutto deriva dal teorema limite centrale,
in quanto
1
_
[ j j[ _
o
1
o
2
_
:
_
= 1
_

A
1
+... +A
a
:
j

_
o
1
o
2
_
:
_
= 1
_

A
1
+... +A
a
:j
_
:o

_
1
o
2
_
- 1 c
dove lultima approssimazione fornita appunto dal TLC.
Facciamo un esempio pratico: supponiamo di aver fatto : = 25 osservazioni ed aver
trovato j = 0.21. Che possiamo dire, ad esempio al 95%? Che con probabilit circa uguale
a questa, vale
j = 0.21 0.39 o
un po come nel caso gaussiano. Resta il problema di conoscere o.
Qui per c un elemento in pi, molto particolare: o
2
= j (1 j). Il parametro o
legato alla quantit j che stiamo cercando di stimare. Una prima conclusione quindi che
valga, approssimativamente
j = j
_
j (1 j)
1
o
2
_
:
.
Nel nostro esempio,
j = 0.21 0.39
_
0.21 (1 0.21) = 0.21 0.16.
Vale cio
0.05 _ j _ 0.37.
Non un risultato eccellente, in senso relativo. Naturalmente, abbastanza probabile che
lintervallo sia pi piccolo, come abbiamo visto nel caso gaussiano: ad esempio, all80% vale
j = 0.21
1.28
5

_
0.21 (1 0.21) = 0.21 0.104.
cio j compreso tra 0.1 e 0.3. Parlando a braccio, la frequenza con cui il negozio deve
mandare operatori fuori sede si aggira tra 1/10 e 3/10. Se questa vaghezza di informazione
suciente, basta cos, altrimenti bisogna campionare di pi.
Lerrore relativo in astratto

j j
j

_
_
j (1 j)
1
o
2
j
_
:
=
_
1j
j

1
o
2
_
:
ed approssimando le espressioni sulla destra diventa

j j
j

_
_
1b j
b j

1
o
2
_
:
104 CAPITOLO 2. ELEMENTI DI STATISTICA
in questo esempio (approssimativamente al 95%)

j j
j

_
_
10.21
0.21
1.96
5
= 0.76.
Per certe applicazioni davvero troppo grosso, per altre pu anche essere accettabile.
Si deve notare che venuto cos grosso perch j piccolo: se si stima una proporzione
piccola, la tendenza di commettere un errore relativo grosso. Se invece j fosse stato grande,
_
1b j
b j
era piccolo e avrebbe contribuito a diminuire lerrore relativo.
Spesso nelle applicazioni si cerca di stimare una proporzione piccola al solo scopo di sapere
che piccola, non di conoscerne con precisione il valore. Sapere che 0.05 o 0.1 o 0.15 non
cambia le nostre azioni successive, anche se questi numeri dieriscono di tantissimo in senso
relativo. Dieriscono poco in senso assoluto. Allora, in problemi di questo genere, basta
chiedere che lerrore assoluto sia piccolo. Lerrore relativo non serve. In sintesi, in problemi
in cui basta scoprire che j piccolo basta desiderare che lerrore assoluto sia piccolo; e quindi
i difetti suddetti dellerrore relativo per j piccolo diventano inessenziali.
In questottica, immaginiamo di voler stimare j con precisione assoluta 0.1 (se j piccolo,
ci basta, j non superer j + 0.1; se j grande, un errore assoluto di 0.1 non cos grave).
Dobbiamo imporre
_
j (1 j) 1.96
_
:
= 0.1
ovvero
: =
_
1.96
0.1
_
2
j (1 j) .
Serve una stima di j, che in fase di DOE pu provenire da campionamenti precedenti, da primi
piccoli campionamenti, da ipotesi. Ma in questo caso vale anche la seguente stima universale:
siccome lespressione j (1 j) pu al massimo valere
1
4
, Alla peggio dovremo prendere
: =
_
1.96
0.1
_
2
1
4
= 96. 04.
Ovviamente non un valore molto incoraggiante, per universale. E chiaro che all80%
basta
: =
_
1.28
0.1
_
2
1
4
= 40. 96
ed al 60% addirittura
: =
_
0.84
0.1
_
2
1
4
= 17. 64.
Quindi, eseguendo le cose sequenzialmente e sperando di non essere troppo sfortunati, dovrebbe
bastare un numero contenuto di osservazioni.
2.2. INTERVALLI DI CONFIDENZA 105
2.2.2 Soglie, ammissibili ecc.
Citiamo unapplicazione frequentissima dei modelli probabilistici e della teoria degli intervalli
di condenza: il calcolo di soglie, ammissibili, scorte di sicurezza, valori minimi o massimi a
meno di probabilit pressate, e loro correzione in caso di incertezza sui parametri. Mostriamo
un esempio relativo al problema degli ammissibili di progetto in un problema di resistenza di
strutture; ma il ragionamento sarebbe identico per la soglia di traco telefonico oltre la quale
una stazione smette di servire tutte le comunicazioni, per il valore della scorta di sicurezza che
serve a soddisfare tutta la clientela, e per tanti altri problemi della stessa natura matematica,
in cui si cerca un valore minimo o massimo di una grandezza.
La prima caratteristica cruciale di questi problemi che la grandezza in questione non ha
minimo o massimo, o se anche li lha sono valori irraggiungibili in pratica (es. una quantit di
scorte esagerata, la necessit di una potenza esagerata della stazione telefonica ecc.). Allora si
deve accettare una piccola probabilit c di errore, mal funzionamento, esposizione a pericolo
ecc. e, relativamente ad c ssato si deve trovare quella soglia ` che viene superata (nel senso
negativo per il problema in questione) solamente con probabilit c. Non si tratta quindi
di trovare il minimo assoluto o il massimo assoluto della grandezza (improponibili per gli
scopi pratici o addirittura inniti), ma di trovare minimo o massimo a meno di una certa
probabilit, un certo rischio.
Il numero ` che cerchiamo un quantile della distribuzione di probabilit della grandezza
in questione. Bisogna quindi saper calcolare quantili. Per le gaussiane ci sono formule generali
che riportano i quantili di una gaussiana generica a quelli della normale standard. Per altre
distribuzioni si pu ad esempio usare il software. In R si calcolano i quantili coi comandi del
tipo qnorm, qweibull ecc.
La seconda caratteristica cruciale di questi problemi che di solito la distribuzione di
probabilit della grandezza in questione non nota con precisione ma, pur supponendo noto
il tipo di distribuzione (gaussiana, Weibull ecc.), c incertezza sui parametri. Bisogna allora
propagare questa incertezza sul calcolo della soglia. Essa sar quindi una soglia denita a
meno di due valori di probabilit c ed c
t
: c la probabilit che la soglia venga superata (a
causa della variabilit della grandezza), c
t
la probabilit che i parametri utilizzati per il cal-
colo (pi pessimistico possibile) della soglia siano sbagliati, quindi la soglia sia semplicemente
sbagliata. Vediamo un esempio.
Sappiamo che una struttura cede oltre una certa soglia di carico, che per un po aleatoria
a causa delle imperfezioni (sconosciute) del materiale e della costruzione. Relativamente ad
una generica struttura di quel tipo, sia o la soglia di rottura, che stiamo trattando come una
variabile aleatoria.
Problema: determinare lammissibile al 99%: quel valore o
+
tale che 1 (o o
+
) = 0.99.
Questo signica che, mediamente, solo una struttura su 100 ha la propria soglia di rottura
inferiore ad o
+
e quindi, sottoponendo la struttura ad un carico uguale (o inferiore) a o
+
,
mediamente 99 strutture su 100 resistono.
Si tratta di calcolare un quantile della distribuzione di o: o
+
dato dalla relazione
1 (o < o
+
) = 0.01 e quindi, per denizione di quantile
S
c
della distribuzione di o, vale
o
+
=
S
0.01
.
Il problema non contiene alcuna dicolt se si conosce bene la distribuzione di o. Se ad
106 CAPITOLO 2. ELEMENTI DI STATISTICA
esempio una (10, 0.64), vale
o
+
= 8.14
in quanto

S
0.01
= 10 0.8
0.99
= 10 0.8 2.326 = 8.14
dove
c
il quantile della normale standard. Se o ha una distribuzione pi complessa della
gaussiana ma comunque di classe abbastanza nota, i valori dei quantili sono reperibili nei
software o in tavole o tramite integrazione numerica della densit. Inne, se non disponiamo
di questi strumenti ma solo della possibilit di generare numeri aleatori con distribuzione o,
possiamo trovare i quantili con un metodo tipo Monte Carlo.
Che dire per se di o si conosce solo un campione e non la distribuzione precisa? Se
la numerosit del campione fosse molto elevata, potremmo calcolare unapprossimazione
del quantile con una semplice proporzione sui dati. Questo caso per molto raro nelle
applicazioni.
Ipotizzando un tipo di distribuzione per o, possiamo stimare i parametri tramite il cam-
pione. Cos per si commette un errore, che pu inuire parecchio sul risultato: se ad esempio
i valori stimati dessero una (10, 0.64), ma con un errore del 10% su media e deviazione
standard, in realt la vera distribuzione potrebbe essere una (9, 0.88
2
), quindi sarebbe
o
+
= 9 0.88 2.326 = 6.95.
La dierenza notevole: non possiamo trascurarla nel dichiarare lammissibile, visti i rischi
in gioco. La teoria degli intervalli di condenza sviluppata sopra permette allora di risolvere
questo problema.
Supponiamo che la varianza sia nota, per semplicare un po, mentre che la media sia
stata stimata con un campione di numerosit 20. Supponiamo che la o nota valga 0.8 mentre
la stima r della j vera abbia dato il valore 10. Sappiamo allora che
j = 10 c al 95%
dove
c =
0.8 1.96
_
20
= 0.35.
Questo signica che, al 95%, non possiamo escludere un valore pessimistico della soglia media
di rottura pari a 100.35 = 9. 65. Se questo fosse il valore vero della media, la soglia sarebbe
o
+
= 9. 65 0.8 2.326 = 7. 789.
Laermazione nale allora : il 99% degli esemplari di quella struttura ha una soglia di
rottura maggiore di 7. 789:
o
+
_ 7. 789
e questo valore ha un grado di adabilit (grado di ducia) del 95%.
Volendo esplicitare in senso frequenziale linterpretazione di questo grado di adabilit
potremmo dire che se i parametri della distribuzione statistica, qui j, venissero stimati 100
2.3. TEST STATISTICI 107
volte tramite campioni di numerosit 20, nel 95% dei casi il loro valore di r disterebbe dal
valore vero j meno di 0.35, quindi la disuguaglianza
j _ r 0.35
su cui abbiamo basato il calcolo di o
+
sarebbe vera in 95 su 100 dei casi. Noi per stimiamo
una volta sola j, quindi non c una realt frequenziale dietro questo ragionamento (come
invece c nel dire che 99 su 100 delle strutture ha soglia o
+
). Quindi il ragionamento
frequenziale appena fatto deve tradursi in una dichiarazione di ducia nel risultato. Ci
diamo al 95% che sia j _ 10 0.35 e quindi attribuiamo la stessa ducia al risultato o
+
_
7. 789.
2.3 Test statistici
2.3.1 Un esempio prima della teoria
Una compagnia ferroviaria dichiara che il servizio lungo una certa tratta critica stato
migliorato ed il ritardo medio ora di j
0
= 5 Min.
Per 10 giorni misuriamo i ritardi ed osserviamo i valori:
5, 7, 4, 10, 6, 5, 8, 2, 8, 6.
La compagnia ha ragione?
La media empirica r = 6.1.
Naturalmente diversa da 5 ( impossibile osservare r = j
0
). Ci sono sempre uttuazioni
casuali nei dati reali. La domanda allora : la media empirica troppo diversa da quella
teorica oppure pu essere considerata una uttuazione casuale?
Per semplicit, supponiamo che la distribuzione statistica dei ritardi sia gaussiana. Come
varianza di questa distribuzione prendiamo pragmaticamente il valore che proviene dai dati
sperimantali (non abbiamo altro): :d = 2.28.
Generiamo 10000 campioni di numerosit 10 da una
_
5, 2.28
2
_
e vediamo quanto nat-
urale o viceversa estremo il valore r = 6.1 trovato per i nostri dati.
N<-10000; m<-1:N
for (i in 1:N) {m[i]<-mean(rnorm(10,5,2.28))}
hist(m,100)
108 CAPITOLO 2. ELEMENTI DI STATISTICA
Il valore r = 6.1 abbastanza estremo. Potremmo calcolare la probabilit che un valore
di r sia pi estremo di 6.1. Questo numero verr chiamato j-value, o valore j. Risulta
(vedremo tra un momento come)
j-value = 0.064.
E abbastanza piccolo. Tuttavia, maggiore di 0.05, una delle soglie usuali in statistica
per giudicare la piccolezza di una probabilit. Viene quindi demandato a noi decidere se il
campione naturale o no, se 6.1 un valore naturale o no. Demandato a noi, ma con lausilio
della conoscenza del j-value= 0.065.
Le componenti di questo esempio sono:
un campione
unipotesi (es. j
0
= 5)
un riassunto r del campione, chiamata statistica del test (test statistic) utile per eseguire
un confronto tra campione e ipotesi
la distribuzione del test statistic
il j-value, cio la probabilit che il test statistic sia pi estremo del valore osservato.
Da un punto di vista pratico ed operativo potremmo dire che questa la sostanza di tutti
i test statistici: si vuole capire la compatibilit o meno di un campione sperimentale rispetto
ad unipotesi, e la si valuta calcolando una grandezza statistica (la statistica del test) che,
se c compatibilit dovrebbe cadere in un range normale, mentre se non c compatibilit
(e quindi lipotesi va riutata) essa cade in una regione un po estrema; inne, il grado di
anomalia della grandezza statistica rispetto alla condizione normale viene valutato tramite il
calcolo del j-value.
In resto della sezione sviluppa alcuni elementi teorici e concettuali in modo pi organico,
ma la sostanza quella gi esposta.
2.3.2 Calcolo analitico del p-value nel precedente test per la media
Sappiamo che la media aritmetica A di un campione gaussiano
_
j
0
, o
2
_
di numerosit :
ha distribuzione
_
j
0
,
o
2
a
_
. Il j-value relativo ad un certo valore sperimentale r denito
da
j = 1
_
A r
_
quindi vale
j = 1 1
_
A _ r
_
= 1
_
r j
0
o,
_
:
_
usando le formule che trasformano la cdf di una gaussiana qualsiasi in quella standard.
Nel nostro esempio allora
aj
0
o
_
a
=
6.15
2.28
_
10
= 1. 525 7, (1.5257) (calcolabile in R con
pnorm(1.5257)) vale 0.936, quindi
j = 1 0.936 = 0.064.
2.3. TEST STATISTICI 109
Il j-value appena calcolato il cosidetto j-value unilaterale. Si potrebbe anche calcolare
il j-value bilaterale, cio quello in cui la frase valori pi estremi di quello sperimentale (che
compare nella denizione di j-value) viene intesa bilateralmente rispetto alla media, o coi
valori assoluti, per cos dire. Secondo questa accezione dobbiamo calcolare
j = 1
_

A j
0

[r j
0
[
_
.
Quindi, standardizzando, vale
j = 1
_

A j
0
o,
_
:

r j
0
o,
_
:

_
= 1 ([7[ [.[)
dove 7 una v.a. (0, 1) e . il numero sperimentale
aj
0
o
_
a
. Quindi (come si vede facil-
mente tracciando il graco di una (0, 1) e ragurando le aree delle due code che dobbiamo
calcolare)
j = 2 2([.[)
dove la cdf normale standard. Come potevamo intuire sin da subito da un disegno della
densit della v.a. A, questo j-value il doppio di quello unilaterale. Se per distinguerli
indichiamo quello unilaterale con j
l
e quello bilaterale con j
1
, vale
j
1
= 2j
l
.
Nel nostro esempio quindi j
1
= 0.128.
2.3.3 Ipotesi nulla
Partiamo da un campione. Su di esso si fa unipotesi, del tipo: proviene da una distribuzione
di media 5, proviene da una Weibull con certi parametri, e cos via. Scopo del test: rigettare
questa ipotesi.
Il primo elemento di un test quindi lipotesi, che verr detta ipotesi nulla, indicata con
H
0
.
Al termine del test, o avremo riutato lipotesi, oppure non lavremo riutata (che
non equivale a dire che labbiamo confermata, ma solo che non abbiamo trovato nessuna
contraddizione tra il campione sperimentale e lipotesi).
Esempio 50 Esempio di H
0
: il ritardo medio j maggiore di 5.
Avendo introdotto il simbolo H
0
per lipotesi nulla, riscriviamo la denizione di valore j
in modo pi enfatico:
j = 1
1
0
_
A r
_
.
Ipotesi alternativa. Dierenza rispetto alla teoria delle decisioni
La teoria rigorosa dei test statistici richiede anche il concetto di ipotesi alternativa H
1
.
Siccome non enunciamo e dimostriamo teoremi sui test, il suo ruolo sar abbastanza nascosto.
Esempio 51 Esempio di H
1
: il ritardo medio j 5.
110 CAPITOLO 2. ELEMENTI DI STATISTICA
Esempio 52 Altro esempio di H
1
: il ritardo medio j ,= 5.
Lo schema matematico formato dalle due ipotesi complementari (rispetto ad un certo
universo di possibilit) H
0
e H
1
appare simile a quello della teoria delle decisioni : sulla base
di alcune osservazioni sperimentali, dobbiamo decidere se vale H
0
oppure H
1
.
Tuttavia, nella teoria delle decisioni le due ipotesi vengono considerate allo stesso livello,
in modo simmetrico, e la decisione di conclude con una scelta tra le due: o vale luna o vale
laltra.
Invece, nella teoria dei test statistici, il ruolo di H
0
ed H
1
asimmetrico. H
0
pu solo
essere riutata o non riutata, non possiamo arrivare ad una conclusione del tipo: H
0

vera.
Per capire meglio in che senso c simmetria nella teoria delle decisioni, ricordiamone
alcuni elementi nel caso della teoria bayesiana. Si ha un universo , una partizione (1
I
) e si
deve prendere una decisione circa quale degli eventi 1
I
sia vero.
Supponiamo che gli eventi 1
I
inuenzino qualcosa che possiamo osservare, diciamo leven-
to . Si pensi per esempio che 1
i
siano le possibili cause, e
c
le possili conseguenze.
La regola di decisione bayesiana semplicemente: si sceglie la causa pi probabile, con-
dizionata al fatto che si avverato.
Per la formula di Bayes
1 (1
i
[) =
1 ([1
i
) 1 (1
i
)

I
1 ([1
I
) 1 (1
I
)
.
Il demoninatore uguale per tutti, quindi basta massimizzare il numeratore:
1
cjt
i
:= arg max
1
.
1 ([1
i
) 1 (1
i
) .
Se decidiamo che a priori le diverse possibilit 1
i
sono equiprobabili (assenza di pregiudizi)
troviamo semplicemente
1
cjt
i
:= arg max
1
.
1 ([1
i
) .
Le probabilit 1 ([1
i
) sono simili a dei j-values, se si prende come evento levento la
test statistic assume valori pi estremi di quello osservato, e come 1
i
le due diverse ipotesi
del test. Allora
j-value = 1 ([H
0
) .
Ma mentre in teoria delle decisioni calcoleremmo anche 1 ([H
1
) e sceglieremmo tra le due
alternative sulla base del valore pi grande delle due probabilit, nella teoria dei test calcol-
iamo solo 1 ([H
0
) e riutiamo lipotesi H
0
se questa probabilit (il j-value) molto piccola,
in genere pi piccola di 0.05. Se non piccola, non confrontiamo con 0.5 come si farebbe in
teoria delle decisioni; concludiamo semplicemente che non c evidenza per riutare H
0
.
2.3. TEST STATISTICI 111
Precisazioni sulla statistica del test
Un test un algoritmo. Linput il campione sperimentale e lipotesi H
0
. loutput il valore
della statistica del test, o un passo oltre il j-value. Indichiamo genericamente con . il valore
della statistica del test (era r nellesempio).
Esempio 53 Un politico aerma che il 65% della popolazione con lui, preferisce cio lalter-
nativa alla 1. Sospettiamo che abbia torto. Chiediamo allora a 100 persone ed osserviamo
che solo 47 preferiscono a 1. Dobbiamo confrontare lipotesi nulla H
0
=il 65% preferisce
a 1 col campione. Abbiamo bisogno di un algoritmo che, presi i numeri 65, 47, 100 resti-
tuisca un risultato, la statistica del test, che indichiamo con .. Un esempio banale potrebbe
essere lerrore relativo
. =

65 47
65

che per non tiene conto della numerosit del campione ( certo diverso chiedere a 10, a 100
o a 1000 persone).
Possiamo pensare che . sia aleatoria (si pensi a ripetere il campionamento), per cui sarebbe
meglio usare la notazione 7. La v.a. 7 pi propriamente chiamata statistica del test, ed
ha una sua distribuzione di probabilit. Supponiamola descritta da una densit ) (.).
Pi precisamente, se H
0
vale, allora 7 ha densit )
1
0
(.). Se invece vale una certa ipotesi
alternativa H
t
1
, 7 avr unaltra densit )
1
0
1
(.). Queste frasi spiegano lidea ma non sono
molto precise, o almeno non universali. Dipende se le ipotesi sono cos precise da identicare
una densit oppure sono vaghe. Unipotesi del tipo: la v.a. gaussiana di media 3 e varianza
24 precisa; mentre unipotesi del tipo: la v.a. gaussiana di