Elementi Di Probabilità, Statistica e Processi Stocastici (Dispense Flandoli)

Elementi di Probabilit, Statistica e Processi Stocastici
Franco Flandoli
23 ottobre 2011
ii
Indice
Prefazione ix
1 Elementi di Calcolo delle Probabilit 1
1.1 Eventi e loro probabilit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.1 Universo ed eventi elementari . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.2 Eventi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.3 Informazione contenuta in una famiglia di eventi . . . . . . . . . . . . 3
1.1.4 Algebre di eventi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.5 o-algebre di eventi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.1.6 Spazio probabilizzabile . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1.7 Probabilit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1.8 Probabilit associata ad una densit . . . . . . . . . . . . . . . . . . . 9
1.1.9 Probabilit associata ad una densit discreta . . . . . . . . . . . . . . 11
1.1.10 Probabilit condizionale . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.1.11 Indipendenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.1.12 Formula di fattorizzazione . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.1.13 Formula di Bayes e formula di fattorizzazione . . . . . . . . . . . . . . 19
1.1.14 Calcolo combinatorico . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.2 Variabili aleatorie e valori medi . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.2.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.2.2 V.a. continue e loro densit di probabilit . . . . . . . . . . . . . . . . 25
1.2.3 V.a. discrete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.2.4 Denizione di variabile aleatoria . . . . . . . . . . . . . . . . . . . . . 31
1.2.5 Legge di una v.a. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
1.2.6 Funzione di distribuzione (cdf) di una v.a. . . . . . . . . . . . . . . . . 34
1.2.7 V.A. indipendenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
1.2.8 Vettori aleatori ed altri enti aleatori . . . . . . . . . . . . . . . . . . . 38
1.2.9 Valori medi o attesi . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
1.2.10 Valor atteso: suo calcolo con le densit . . . . . . . . . . . . . . . . . . 42
1.2.11 Alcuni esempi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
1.2.12 Propriet meno elementari del valor medio . . . . . . . . . . . . . . . 47
1.2.13 Media di v.a. indipendenti . . . . . . . . . . . . . . . . . . . . . . . . . 48
1.2.14 Disuguaglianza di Hlder . . . . . . . . . . . . . . . . . . . . . . . . . 49
1.2.15 Disuguaglianza di Jensen . . . . . . . . . . . . . . . . . . . . . . . . . 49
iii
iv INDICE
1.2.16 Disuguaglianza di Chebyshev . . . . . . . . . . . . . . . . . . . . . . . 49
1.2.17 Varianza e deviazione standard . . . . . . . . . . . . . . . . . . . . . . 50
1.2.18 Covarianza e coeciente di correlazione . . . . . . . . . . . . . . . . . 53
1.2.19 Esempi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
1.2.20 Momenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
1.2.21 La funzione generatrice dei momenti . . . . . . . . . . . . . . . . . . . 60
1.2.22 Denizione generale di valor medio . . . . . . . . . . . . . . . . . . . . 63
1.2.23 Propriet generali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
1.3 Esempi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
1.3.1 Una propriet di concentrazione delle binomiali . . . . . . . . . . . . . 66
1.3.2 Sul teorema degli eventi rari per v.a. di Poisson . . . . . . . . . . . . . 68
1.3.3 Identicazione di un modello di Poisson piuttosto che di uno binomiale 68
1.3.4 Processo di Bernoulli, ricorrenze, v.a. geometriche . . . . . . . . . . . 69
1.3.5 Tempo del /-esimo evento: binomiale negativa . . . . . . . . . . . . . 71
1.3.6 Teoremi sulle v.a. esponenziali . . . . . . . . . . . . . . . . . . . . . . 72
1.3.7 Propriet delle gaussiane . . . . . . . . . . . . . . . . . . . . . . . . . 74
1.3.8 Variabili di Weibull . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
1.3.9 Densit Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
1.3.10 Densit Beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
1.3.11 Code pesanti; distribuzione log-normale . . . . . . . . . . . . . . . . . 80
1.3.12 Skewness e kurtosis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
1.4 Teoremi limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
1.4.1 Convergenze di variabili aleatorie . . . . . . . . . . . . . . . . . . . . . 82
1.4.2 Legge debole dei grandi numeri . . . . . . . . . . . . . . . . . . . . . . 84
1.4.3 Legge forte dei grandi numeri . . . . . . . . . . . . . . . . . . . . . . . 87
1.4.4 Stima di Cherno (grandi deviazioni) . . . . . . . . . . . . . . . . . . 88
1.4.5 Teorema limite centrale . . . . . . . . . . . . . . . . . . . . . . . . . . 91
1.4.6 Distribuzione del limite di massimi . . . . . . . . . . . . . . . . . . . . 93
1.5 Approfondimenti sui vettori aleatori . . . . . . . . . . . . . . . . . . . . . . . 96
1.5.1 Trasformazione di densit . . . . . . . . . . . . . . . . . . . . . . . . . 96
1.5.2 Trasformazione lineare dei momenti . . . . . . . . . . . . . . . . . . . 98
1.5.3 Sulle matrici di covarianza . . . . . . . . . . . . . . . . . . . . . . . . . 99
1.5.4 Vettori gaussiani . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
2 Elementi di Statistica 113
2.1 Introduzione. Stimatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
2.2 Intervalli di condenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
2.2.1 Esempio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
2.2.2 Soglie, ammissibili ecc. . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
2.3 Test statistici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
2.3.1 Un esempio prima della teoria . . . . . . . . . . . . . . . . . . . . . . . 127
2.3.2 Calcolo analitico del j-value nel precedente test per la media . . . . . 128
2.3.3 Ipotesi nulla . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
2.3.4 Errori di prima e seconda specie; signicativit e potenza di un test . 131
INDICE v
2.3.5 Struttura diretta della procedura di test . . . . . . . . . . . . . . . . . 133
2.3.6 j-value (struttura indiretta) . . . . . . . . . . . . . . . . . . . . . . . . 133
2.3.7 Test gaussiano per la media unilaterale e bilaterale, varianza nota . . 134
2.3.8 Curve OC e DOE nei test . . . . . . . . . . . . . . . . . . . . . . . . . 137
2.3.9 Test di adattamento . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
3 Processi Stocastici 145
3.1 Processi a tempo discreto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
3.1.1 Legame tra v.a. esponenziali e di Poisson . . . . . . . . . . . . . . . . 152
3.2 Processi stazionari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
3.2.1 Processi deniti anche per tempi negativi . . . . . . . . . . . . . . . . 159
3.2.2 Serie temporli e grandezze empiriche . . . . . . . . . . . . . . . . . . . 160
3.3 Processi gaussiani . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
3.4 Un teorema ergodico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
3.4.1 Tasso di convergenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
3.4.2 Funzione di autocorrelazione empirica . . . . . . . . . . . . . . . . . . 170
3.5 Analisi di Fourier dei processi stocastici . . . . . . . . . . . . . . . . . . . . . 171
3.5.1 Premesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
3.5.2 Trasformata di Fourier a tempo discreto . . . . . . . . . . . . . . . . . 172
3.5.3 Propriet della DTFT . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
3.5.4 DTFT generalizzata . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
3.6 Densit spettrale di potenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
3.6.1 Esempio: il white noise . . . . . . . . . . . . . . . . . . . . . . . . . . 180
3.6.2 Esempio: serie periodica perturbata. . . . . . . . . . . . . . . . . . . . 180
3.6.3 Noise di tipo pink, brown, blue, violet . . . . . . . . . . . . . . . . . . 181
3.6.4 Il teorema di Wiener-Khinchin . . . . . . . . . . . . . . . . . . . . . . 182
4 Analisi e Previsione di Serie Storiche 189
4.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
4.1.1 Metodi elementari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194
4.1.2 Decomposizione di una serie storica . . . . . . . . . . . . . . . . . . . 196
4.1.3 La media di pi metodi . . . . . . . . . . . . . . . . . . . . . . . . . . 197
4.2 Modelli ARIMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
4.2.1 Modelli AR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
4.2.2 Esempi particolari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199
4.2.3 Loperatore di traslazione temporale . . . . . . . . . . . . . . . . . . . 202
4.2.4 Modelli MA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204
4.2.5 Modelli ARMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204
4.2.6 Operatore dierenza. Integrazione . . . . . . . . . . . . . . . . . . . . 205
4.2.7 Modelli ARIMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
4.2.8 Stazionariet, legame tra modelli ARMA e modelli MA di ordine in-
nito, ipotesi generali della teoria . . . . . . . . . . . . . . . . . . . . . 208
4.2.9 Funzione di autocorrelazione, primi fatti . . . . . . . . . . . . . . . . . 211
4.2.10 Funzione di autocorrelazione, complementi . . . . . . . . . . . . . . . 214
vi INDICE
4.2.11 Densit spettrale di potenza dei processi ARMA . . . . . . . . . . . . 216
4.3 Il metodo di Holt-Winters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217
4.3.1 Metodo di Smorzamento Esponenziale (SE) . . . . . . . . . . . . . . . 218
4.3.2 Metodo di Smorzamento Esponenziale con Trend (SET) . . . . . . . . 219
4.3.3 Smorzamento esponenziale con trend e stagionalit (Holt-Winters) . . 221
4.3.4 Confronto tra modelli previsionali: i) cross-validation . . . . . . . . . . 222
4.3.5 Confronto tra modelli previsionali: ii) metodo del conitto di interessi223
4.3.6 Esercizi sul confronto tra modelli previsionali . . . . . . . . . . . . . . 225
4.4 Metodi regressivi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225
4.4.1 AR come regressione lineare multipla . . . . . . . . . . . . . . . . . . . 225
4.4.2 Implementazione con R . . . . . . . . . . . . . . . . . . . . . . . . . . . 226
4.4.3 Previsione col modello regressivo . . . . . . . . . . . . . . . . . . . . . 226
4.4.4 Variabili esogene, cross-correlazione, modelli ARX . . . . . . . . . . . 228
4.5 Fit di una densit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230
4.5.1 Istogrammi e cumulative empiriche . . . . . . . . . . . . . . . . . . . . 231
4.5.2 Metodi parametrici e metodi non parametrici . . . . . . . . . . . . . . 231
4.5.3 Stima dei parametri . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231
4.5.4 Confronto graco tra densit e istogrammi e Q-Q plot . . . . . . . . . 232
4.6 Esercizi sulle serie storiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233
4.6.1 Esercizio n. 1 (veicoli 1; fasi iniziali) . . . . . . . . . . . . . . . . . . . 234
4.6.2 Esercizio n. 2 (veicoli 2; decomposizione, stagionalit) . . . . . . . . . 235
4.6.3 Esercizio n. 3 (veicoli 3; previsione tramite decomposizione) . . . . . . 239
4.6.4 Esercizio n. 4 (veicoli 4; modelli AR) . . . . . . . . . . . . . . . . . . . 242
4.6.5 Esercizio n. 5 (veicoli 5; proseguimento sugli AR) . . . . . . . . . . . . 245
4.6.6 Esercizio n. 6 (veicoli 6; trend con SET; HW) . . . . . . . . . . . . . . 249
4.6.7 Esercizio n. 7 (Motorcycles 1; decomposizione, AR) . . . . . . . . . . 253
4.6.8 Esercizio n. 8 (Motorcycles 2; HW, AR; confronti) . . . . . . . . . . . 256
4.6.9 Esercizio n. 9 (Veicoli e Motorcycles, densit dei residui) . . . . . . . . 259
4.7 Appendice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264
5 Sistemi Markoviani 265
5.1 Catene di Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265
5.1.1 Grafo, probabilit e matrice di transizione, probabilit di stato, propri-
et di Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265
5.1.2 Misure invarianti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 270
5.1.3 Classicazione degli stati . . . . . . . . . . . . . . . . . . . . . . . . . 272
5.1.4 Convergenza allequilibrio e propriet ergodiche . . . . . . . . . . . . . 273
5.2 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 275
5.3 Processi di Markov a salti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 275
5.3.1 Sistemi a eventi discreti . . . . . . . . . . . . . . . . . . . . . . . . . . 275
5.3.2 Stati e gra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277
5.3.3 Tempi di permanenza aleatori . . . . . . . . . . . . . . . . . . . . . . . 278
5.3.4 Catene di Markov e processi di Markov a salti . . . . . . . . . . . . . . 279
5.3.5 Quale transizione tra varie possibili? . . . . . . . . . . . . . . . . . . . 279
INDICE vii
5.3.6 Tempo di permamenza . . . . . . . . . . . . . . . . . . . . . . . . . . . 280
5.3.7 Prima luna o laltra? . . . . . . . . . . . . . . . . . . . . . . . . . . . 280
5.3.8 Regime stazionario o di equilibrio . . . . . . . . . . . . . . . . . . . . . 281
5.3.9 Dimostrazione dellequazione (5.2) . . . . . . . . . . . . . . . . . . . . 282
5.3.10 Il sistema delle equazioni di bilancio . . . . . . . . . . . . . . . . . . . 283
5.4 Esempi dalla teoria delle code . . . . . . . . . . . . . . . . . . . . . . . . . . . 284
5.4.1 Processi di nascita e morte . . . . . . . . . . . . . . . . . . . . . . . . 286
5.4.2 Tassi costanti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 288
5.4.3 Tassi di crescita costanti, tassi di decrescita lineari . . . . . . . . . . . 289
5.4.4 Coda con c serventi . . . . . . . . . . . . . . . . . . . . . . . . . . . . 289
5.4.5 Nascita e morte con un numero nito di stati . . . . . . . . . . . . . . 291
5.4.6 Valori medi notevoli . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292
5.4.7 Lancio di un dato al suono dellorologio . . . . . . . . . . . . . . . . . 295
5.4.8 Il processo di Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . 295
5.4.9 Il processo in uscita da una coda . . . . . . . . . . . . . . . . . . . . . 296
5.5 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 296
5.6 Processi nel continuo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 298
5.6.1 Processi a tempo continuo . . . . . . . . . . . . . . . . . . . . . . . . . 298
5.6.2 Pi generale che tempo continuo? . . . . . . . . . . . . . . . . . . . . . 298
5.6.3 Il moto browniano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 298
5.6.4 Dinamiche stocastiche . . . . . . . . . . . . . . . . . . . . . . . . . . . 300
5.6.5 Fit tramite unequazione dierenziale . . . . . . . . . . . . . . . . . . 303
5.7 Equazioni dierenziali stocastiche . . . . . . . . . . . . . . . . . . . . . . . . . 304
5.7.1 Applicazione diretta . . . . . . . . . . . . . . . . . . . . . . . . . . . . 306
5.7.2 Identicazione sperimentale dei parametri . . . . . . . . . . . . . . . . 307
5.7.3 Applicazione inversa . . . . . . . . . . . . . . . . . . . . . . . . . . . . 308
5.8 Soluzione degli esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 311
6 Statistica Multivariata 319
6.1 La matrice di correlazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 319
6.1.1 Elevata correlazione non sinonimo di causalit . . . . . . . . . . . . 321
6.2 Il metodo delle componenti principali . . . . . . . . . . . . . . . . . . . . . . . 323
6.2.1 Diagonalizzazione di Q . . . . . . . . . . . . . . . . . . . . . . . . . . . 324
6.2.2 I comandi di R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 326
6.2.3 Classiche tramite PCA . . . . . . . . . . . . . . . . . . . . . . . . . . 329
6.2.4 Il miglior punto di vista . . . . . . . . . . . . . . . . . . . . . . . . . 330
6.2.5 Ecacia del metodo PCA . . . . . . . . . . . . . . . . . . . . . . . . . 331
6.3 Modelli lineari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 332
6.3.1 Introduzione: modelli lineari di legame tra variabili aleatorie . . . . . 332
6.3.2 Regressione lineare semplice . . . . . . . . . . . . . . . . . . . . . . . . 334
6.3.3 Regressione lineare multipla . . . . . . . . . . . . . . . . . . . . . . . . 339
6.3.4 Predizione con modelli regressivi . . . . . . . . . . . . . . . . . . . . . 343
6.3.5 Analisi fattoriale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 344
6.3.6 Forma matriciale del problema . . . . . . . . . . . . . . . . . . . . . . 346
viii INDICE
6.3.7 Loadings, rotazioni, interpretazioni . . . . . . . . . . . . . . . . . . . . 347
6.3.8 FA e PCA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 348
6.3.9 I comandi di R. Linguaggio . . . . . . . . . . . . . . . . . . . . . . . . 349
6.4 Metodi di classicazione e clustering . . . . . . . . . . . . . . . . . . . . . . . 349
6.4.1 Regressione logistica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 349
6.4.2 Formulazione probabilistica del problema decisionale e regola di Bayes 352
6.4.3 Classicazione: idee generali . . . . . . . . . . . . . . . . . . . . . . . 354
6.4.4 Classicazione bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . 355
6.4.5 Il caso gaussiano e la Linear Discriminant Analysis . . . . . . . . . . . 356
6.4.6 Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 357
6.5 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 359
6.5.1 Esercizio n. 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 359
6.5.2 Esercizio n. 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362
6.5.3 Esercizio n. 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 365
6.5.4 Esercizio n. 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 368
6.5.5 Esercizio n. 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 370
6.5.6 Esercizio n. 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373
Prefazione
Il materiale qui raccolto ha la forma di appunti pi che di libro organico. Il testo pensato
per le lauree magistrali in Ingegneria e raccoglie materiale utilizzato in numerosi corsi in
anni recenti. Alcune parti devono molto al contributo di alcuni collaboratori e di numerosi
studenti; in particolare merita di essere ricordato il contributo di Michele Barsanti alle due
sezioni sullanalisi di Fourier dei processi stocastici, oltre che a vari altri punti ed esercizi,
di Michele Tocchet alla sezione sul metodo PCA, di Giuseppe Matisi e Lorenzo Doccini ad
alcuni esercizi di statistica multivariata (4 e 5).
ix
x PREFAZIONE
Capitolo 1
Elementi di Calcolo delle
Probabilit
Questo capitolo dedicato ad un riassunto degli elementi di Calcolo delle Probabilit che
verranno utilizzati nel seguito. Lesposizione di questi elementi sommaria per cui, chi sen-
tisse la necessit di approfondimenti, pu leggere il testo di S. Ross, Probabilit e Statistica,
Apogeo 2008 (per unesposizione adatta ad un triennio di Ingegneria) o di P. Baldi, Calcolo
delle Probabilit, McGraw-Hill 2007 (pi adatto per le lauree magistrali in Ingegneria), cos
come molti altri.
La prima sezione dedicata allillustrazione di alcuni primi oggetti del calcolo delle
probabilit:
gli eventi ; in parole povere sono aermazioni, pi formalmente saranno insiemi ; su di
essi si opera con operazioni logiche, o insiemistiche, a seconda del punto di vista;
la probabilit; si calcola la probabilit di eventi; ad ogni evento associato un numero
dellintervallo [0, 1], la sua probabilit; la probabilit sar quindi unapplicazione che
ad ogni evento associa un numero, con certe regole.
Nella sezione successiva vedremo poi:
le variabili aleatorie; a livello intuitivo sono grandezze (numeriche o di altro tipo)
con un qualche grado di imprevedibilit, quanticato da nozioni probabilistiche; nella
formalizzazione matematica saranno funzioni;
i valori medi ; indicatori numerici associati a variabili aleatorie che ne riassumono alcune
caratteristiche.
Segue poi una sezione di esempi, una sui teoremi limite ed una pi specica sui vettori
aleatori, soprattutto gaussiani.
1
2 CAPITOLO 1. ELEMENTI DI CALCOLO DELLE PROBABILIT
1.1 Eventi e loro probabilit
1.1.1 Universo ed eventi elementari
Nella costruzione dello schema matematico fondamentale della probabilit, lo spazio proba-
bilizzato (, T, 1) che verr introdotto un po per volta, si parte da un insieme ambiente,
di solito indicato con , o o, spesso detto universo, o insieme degli eventi elementari (o
insieme degli esiti ). I suoi elementi . si dicono eventi elementari (o esiti ). Intuiti-
vamente, di fronte ad una situazione casuale, come ad esempio un esperimento, il risultato
dellesperimento un esito, quindi linsieme dei risultati possibili dellesperimento.
Ad esempio, se osserviamo il simbolo, 0 o 1, che entra in un canale di trasmissione (che
trasmette un simbolo alla volta), ed il simbolo, 0 o 1, che ne esce, un evento elementare una
coppia (a, /) dove a (simbolo in entrata) e / (simbolo in uscita) possono valere 0 o 1. Quindi
i possibili eventi elementari sono
(0, 0) (0, 1) (1, 0) (1, 1) .
Lo spazio in questo caso linsieme di questi oggetti, quindi semplicemente
= (0, 0) , (0, 1) , (1, 0) , (1, 1) .
Un esempio di evento elementare
. = (0, 1) .
Va notato che un singolo evento elementare . contiene linformazione pi dettagliata
possibile relativamente al problema che si sta studiando. Nellesempio appena visto, uno
specico valore del simbolo in uscita non un evento elementare: laermazione
il simbolo in uscita 1
non corrisponde ad un evento elementare. Invece laermazione il simbolo in entrata 0 ed
il simbolo in uscita 1 corrisponde allevento elementare . = (0, 1).
Analogamente, se si sta esaminando un gioco che consiste nel lancio di 5 dadi, il risultato
del primo lancio non un evento elementare, mentre una qualsiasi stringa (:
1
, ..., :
5
) dei
risultati dei cinque lanci un evento elementare.
Se si osserva un uido turbolento e lo si descrive con grandezze aleatorie, un evento
elementare una possibile congurazione complessiva del uido (nel senso della specica di
velocit, pressione ecc. in ogni punto della regione occupata dal uido). Invece, losservazione
del valore della velocit in un certo punto ssato non un evento elementare.
1.1.2 Eventi
Gli esempi precedenti mostrano che il dettaglio di conoscenza insito nel concetto di evento
elementare spesso sovrabbondante. E perfettamente sensato porsi domande relative a
grandezze meno dettagliate, come il valore del simbolo ricevuto da un canale di comunicazione
o il valore della velocit di un uido turbolento in un punto specico. Si introducono allora
gli eventi (non pi necessariamente elementari).
In prima approssimazione, possiamo dire che un evento un sottoinsieme di .
1.1. EVENTI E LORO PROBABILIT 3
Universo , un evento elementare . ed un evento
Riprendendo il primo esempio fatto sopra dei simboli 0 e 1 in entrata ed uscita, linsieme
= (0, 1) , (1, 1)
corrisponde allaermazione il simbolo in uscita 1. linsieme di tutti gli eventi
elementari che corrispondono a tale aermazione. Questo un esempio di evento.
In prima approssimazione, ogni sottoinsieme un possibile evento di interesse. Ci
sono per due ragioni per restringere lattenzione, in alcuni casi, ad una famiglia pi ristretta
di eventi, che non comprenda necessariamente tutti i sottoinsiemi ma solo alcuni.
Una ragione meramente tecnica nel senso matematico del termine: in certi esempi non
possibile denire la probabilit (di cui parleremo tra un attimo) di ogni sottoinsieme di , in
modo coerente secondo certe regole; per cui necessario sacricare certi sottoinsiemi troppo
strani. Purtroppo questa ragione, assai noiosa, si apprezza solo dopo lunghe premesse di
teoria della misura e teoria degli insiemi (ad esempio, per costruire sottoinsiemi strani che
creino problemi si deve usare lassioma della scelta). Per scopi pratici questa restrizione, o
patologia, irrilevante: tutti gli insiemi che introdurremo nel corso sono accettabili come
eventi.
La seconda ragione invece molto pi interessante per le applicazioni: essa corrisponde al
concetto di maggior o minor informazione che abbiamo su un problema. Premettiamo quindi
una breve introduzione al concetto di informazione.
Circa la distinzione tra evento ed evento elementare si osservi il seguente fatto: quando
lesperimento, o osservazione, si conclusa, osserviamo il vericarsi di un evento elementare
.. Molti eventi si sono vericati, allora: tutti gli eventi che contengono lelemento ..
Se ad esempio dal lancio di un dato uscito il numero 2 (evento elementare), si vericato
levento uscito un numero pari, ed anche uscito un numero inferiore a 4, e cos via.
1.1.3 Informazione contenuta in una famiglia di eventi
Non esiste alcuna denizione univoca del concetto di informazione, che ha molte facce suscettibili
di varie descrizioni rigorose. Una di queste data da certi indicatori numerici chiamati en-
tropia (ce ne sono di vario tipo) che vengono introdotti per descrivere linformazione contenuta
ad esempio in sequenze numeriche o in distribuzioni di probabilit.
Qui invece ci indirizziamo in unaltra direzione. Pensiamo per ssare le idee ad un es-
perimento eseguito per misurare il valore di una grandezza sica. Supponiamo ad esempio
che lo strumento di misura abbia una sua incertezza intrinseca. Un modo per tenerne conto
pu essere il seguente: invece che sperare di ottenere un ben preciso valore r come risul-
tato dellesperimento, immaginiamo che il risultato consista in un intervallo, preso in una
famiglia pressata di intervalli possibili (, r
1
], (r
1
, r
2
], ... , (r
a1
, r
a
], (r
a
, ). Ad esem-
pio, immaginiamo a priori di non poterci dare della misura dello strumento oltre la prima
cifra decimale, e che i valori inferiori a -10 o superiori a 10 non siano distinguibili. Allora il
risultato dellesperimento pu essere solo uno dei seguenti intervalli: (, 10], (10, 9.9],
(9.9, 9.8], ... , (9.8, 9.9], (9.9, 10]. (Esempio: quando si usano le tavole gaussiane dei quan-
tili, ci si deve accontentare dei numeri riportati sulle tavole, che non sono tutti i numeri reali,
e ci si deve accontatare della precisione del risultato espressa con un numero nito e basso di
cifre, secondo la disponibilit di quelle tavole.)
Questa famiglia di intervalli descrive il nostro grado di infomazione (o se si vuole il grado
di informazione raggiungibile con lesperimento).
Se in un momento successivo si riesce a migliorare lo strumento di misura in modo
da poterci dare di due cifre decimali e magari di allargare lo spettro dei valori da -20
a 20, la famiglia che descrive la nostra informazione diventa (, 20], (20, 19.99],
(19.99, 19.98], ... , (19.98, 19.99], (19.99, 20].
In questo esempio linsieme universo naturale da introdurre linsieme R dei numeri
reali, ma gli unici sottoinsiemi che ci interessano per la descrizione dellesperimento sono
gli intervalli scritti sopra. Oppure possiamo adottare unaltro punto di vista: in teoria ci
interesserebbero tutti i sottoinsiemi, in particolare quelli composti dai singoli numeri reali
(che darebbero il risultato con precisione innita), ma in pratica evidenziamo che il grado di
informazione contenuto nel nostro esperimento descritto dalla famiglia pi ristretta degli
intervalli detti sopra.
Vediamo unaltro esempio.
Esempio 1 In un capitolo successivo studieremo i processi stocastici. Per lo scopo di questo
esampio, basti pensare intuitivamente che un processo stocastico la descrizione matematica
di una grandezza (sica, economica ecc.) che varia nel tempo ed aleatoria. Indichiamo
con A
t
questa grandezza al tempo t. Supponiamo di studiare il fenomeno per tutti i tempi
t _ 0. Prendiamo come linsieme di tutte le storie possibili di questa grandezza, tutte le
funzioni t r
t
che possono realizzarsi. Gli eventi sono sottoinsiemi di , cio famiglie di
tali storie, realizzazioni. Un esempio levento =al tempo t = t
1
il valore di A
t

positivo, evento che possiamo riassumere con la scrittura
= A
t
1
0 .
Un altro 1 = A
t
2
1 con 1 un certo intervallo. Intersecando eventi di questo tipo
troviamo eventi della forma
A
t
1
1
1
, ..., A
tn
1
a
cio eventi che aermano che A

t
, in certi istanti assume certi possibili valori. Fatte queste
premesse, ssiamo un tempo T 0 e consideriamo la famiglia T
0
T
di tutti gli eventi del tipo
A
t
1
1
1
, ..., A
tn
1
a
con
0 _ t
1
_ ... _ t
a
_ T.
Sono eventi che aermano qualcosa del processo A
t
solo entro il tempo T, solo relativa-
mente allintervallo [0, T]. La famiglia T
0
T
di tutti questi eventi descrive un certo grado di
informazione, linformazione di cosa pu accadere nellintervallo [0, T].
Al crescere di T questa famiglia cresce, cio T
0
T
T
0
S
se T < o. Si acquisisce nuova
informazione, su un periodo di tempo maggiore.
1.1.4 Algebre di eventi
Ricordiamo che la famiglia di tutti i sottoinsiemi di , detta famiglia delle parti di , si usa
indicare con T ().
Denizione 1 Chiamiamo algebra di insiemi di una famiglia T T () che sia chiusa
per tutte le operazioni insiemistiche nite e tale che T.
Chiusa per tutte le operazioni insiemistiche nite signica che se , 1 T allora
' 1 T, 1 T,
c
T,
(il complementare
c
inteso rispetto allo spazio ambiente ) e di conseguenza anche 1
T, 1 T, dove 1 linsieme dei punti di che non stanno in 1, e la dierenza
simmetrica 1 lunione di 1 pi 1. Dal fatto che T e
c
T discende che
O T. Si ricordino le formule di De Morgan
(' 1)
c
=
c
1
c
( 1)
c
=
c
' 1
c
che si usano spesso quando si eseguono nei dettagi certe veriche.Valgono inoltre propriet
distributive tra unione e intersezione, su cui non insistiamo.
Due esempi semplici di algebre di insiemi sono T = T (), T = O, . La verica che
T () unalgebra ovvia. Nel caso di O, , si osservi ad esempio che O' = , O = O,
O
c
= ; non si esce dalla famiglia O, eettuando operazioni insiemistiche sui suoi elementi.
Un altro esempio, per cos dire intermedio tra i due,
T = O, , ,
c
.
La verica che sia unalgebra identica al caso di O, . Lalgebra O, non contiene alcuna
informazione, O, , ,
c
contiene linformazione relativa al solo evento , T () contiene
tutte le infomazioni possibili.
Un esempio importante, nello spazio = R, la famiglia T dei pluri-intervalli, composta
da tutti i seguenti insiemi, che elenchiamo:
O ed R stesso
gli intervalli (chiusi, aperti, semi-aperti) di estremi a < / (anche inniti)
tutti gli insiemi che si ottengono per unione nita dei precedenti.
Detto un po sommariamente, gli elementi di T sono tutte le unioni nite di intervalli.
E immediato che questa famiglia, oltre a contenere , sia chiusa per unione nita; siccome
lintersezione di due intervalli un intervallo o linsieme O, la famiglia anche chiusa per
intersezione nita (grazie alle propriet distributive); ed inne, il complementare di un inter-
vallo unione nita di intervalli, quindi (per le formule di De Morgan) la famiglia chiusa
anche per complementare.
Invece la famiglia degli intervalli non unalgebra, perch non chiusa per unione nita
e per complementare.
Esempio 2 Riprendendo lesempio del paragrafo precedente, la famiglia T
0
T
non unalgebra,
per colpa di due fatti. Da un lato, ci siamo ristretti a prendere intervalli 1
)
e questo pone gli
stessi problemi appena visti su = R; decidiamo allora che nella denizione di T
0
T
usiamo
pluri-intervalli 1
)
. Dallaltro, se ad esempio uniamo gli eventi A
t
1
0 e A
t
2
0, non
riusciamo a scrivere questo insieme nella forma A
t
1
1
1
, A
t
2
1
2
. Allora chiamiamo T
T
la famiglia formata da tutte le unioni nite di insiemi di T
0
T
. Questa unalgebra.
1.1.5 -algebre di eventi
Quasi tutta la matematica di un certo livello basata su operazioni limite (derivate, integrali,
e cos via). Anche in probabilit dobbiamo poter eettuare operazioni limite per raggiungere
una certa ricchezza di risultati. A livello di eventi, questa richiesta si traduce nel concetto di
o-algebra di insiemi: con questo nome si intendono le algebre T che siano chiuse anche per
unione (ed automaticamente interesezione) numerabile.
Denizione 2 Una o-algebra di insiemi di una famiglia T T () che abbia le propriet
di unalgebra e tale che, se
1
, ...,
a
, ... sono eventi appartenenti ad T, allora
_
aN
a
T.
Le algebre T = T (), T = O, , O, , ,
c
sono anche o-algebre: T () lo sempre
e lo sono anche le algebre composte da un numero nito di eventi. Invece lalgebra dei
pluri-intervalli non una o-algebra: lunione di una quantit numerabile di intervalli non
riscrivibile necessariamente come unione nita di intervalli, si pensi a
o
_
i=1
[2i, 2i + 1].
La o-algebra pi comunemente usata su = R, quella degli insiemi boreliani. Essa
denita come la pi piccola o-algebra a cui appartengono tutti gli intervalli (e quindi
tutti i pluri-intervalli). Premettiamo un fatto di carattere generale. Sia T
0
una famiglia di
sottoinsiemi di . Con ragionamenti insiemistici si pu vericare che il concetto di pi piccola
o-algebra contenente T
0
un concetto bene denito ed univoco: denisce una ben precisa
o-algebra; purtroppo non costruttiva, cio non immediatamente esprimibile con operazioni
fatte a partire da T
0
. Detto questo, se prendiamo lalgebra T
0
dei pluri-intervalli di = R,
o anche solo la famiglia T
0
degli intervalli, allora esiste la pi piccola o-algebra che contiene
T
0
ed , per denizione la o-algebra dei boreliani. Essa contiene insiemi anche piuttosto
complessi, come Q o linsieme dei numeri irrazionali.
Se si conosce la denizione di insieme aperto, si pu osservare che i boreliani sono anche
la pi piccola o-algebra che contiene la famiglia degli insiemi aperti. Queste denizioni si
estendono a R
a
, usando di nuovo gli aperti oppure altre famiglie T
0
come le sfere 1(r
0
, r) =
r R
a
: |r r
0
| < r, o rettangoli o altro.
Pur essendo vastissima, la o-algebra dei boreliani, non coincide con T (R). Per, parlando
in pratica, ogni insieme che si costruisca con operazioni usuali (in cui non includiamo luso
dellassioma della scelta), risulta essere un boreliano. Abbiamo detto che la o-algebra dei
boreliani la pi usata. Ci si chieder perch non si usi pi semplicemente T (R). la ragione
molto tecnica. La teoria dellintegrazione secondo Lebesgue, che permette di estendere
il concetto di integrale
_
) (r) dr dal caso di funzioni ) facili (es. continue a tratti) su

insiemi facili (es. pluri-intervalli), al caso di funzioni assai pi irregolari su insiemi
assai pi complessi, non permette per di prendere qualsiasi insieme R. Permette di
considerare boreliani ed anche qualcosa in pi (gli insiemi misurabili secondo Lebesgue),
ma non tutti gli insiemi. Quindi T (R) non risulta opportuna per poi sviluppare calcoli basati
su integrali.
Nel discreto invece la famiglia delle parti va benissimo. Se ad esempio si considera =
N, si pu tranquillamente prendere T = T (), senza incorrere in problemi tecnici di tipo
matematico.
1.1.6 Spazio probabilizzabile
La prima parte dello schema matematico stata denita: un insieme (o spazio) ed una
o-algebra T di sottoinsiemi di . In questo schema chiameremo eventi tutti gli elementi di
T.
Denizione 3 Una coppia (, T), dove un insieme ed T una o-algebra di suoi
sottoinsiemi, si chiama spazio probabilizzabile.
1.1.7 Probabilit
Denizione 4 Su uno spazio probabilizzabile (, T), si chiama probabilit (o distribuzione
di probabilit, o misura di probabilit) ogni funzione
1 : T [0, 1]
che soddisfa le seguenti due propriet:
i) 1() = 1
ii) se
1
, ...,
a
, ... una famiglia nita, o una successione innita, di eventi, a due a due
disgiunti, allora
1
_
_
a
a
_
=

a
1 (
a
) .
Scrivendo che 1 una funzione da T in [0, 1] intendiamo dire che calcoleremo 1 su
ogni elemento del suo dominio T, ottenendo come risultato un numero del codominio [0, 1].
Quindi, preso un qualsiasi evento T, calcoleremo la sua probabilit
1() [0, 1] .
Per quanto rigiarda e due propriet che deve soddisfare 1, la prima una convenzione di
normalizzazione; osserviamo solo che la scrittura 1() ha senso, in quanto abbiamo presup-
posto che T. La seconda la propriet essenziale, che distingue il concetto di probabilit
dagli altri (comune per ad alcuni altri concetti simili, come quello di misura o, sicamente,
di massa). Osserviamo che la scrittura 1 (
a
) ha senso, in quanto

a
a
T per la
propriet di o-algebra. Disgiunti a due a due signica
i

)
= ? per ogni i ,= ,. La
propriet (ii) si chiama o-additivit (e semplicemente additivit nel caso di un numero nito
di insiemi).
Per avere un modello intuitivo di grande aiuto, si pu pensare ad una distribuzione di
massa su una regione , normalizzata in modo che la massa totale sia uno. Se prendiamo
sottoinsiemi disgiunti di , la massa della loro unione la somma delle masse.
Per inciso, esistono varie generalizzazioni del concetto di probabilit, che abbandonano
la richiesta 1() [0, 1], ma in genere mantengono la o-additivit. La generalizzazione pi
nota quella in cui si richiede solo 1() _ 0 (eventualmente innito), nel qual caso si parla di
misura; lesempio a tutti noto la misura euclidea sulla retta, o sul piano, o nello spazio, ecc.
(detta misura di Lebesgue, nella sua accezione o-additiva su unopportuna o-algebra T molto
ampia, detta degli insiemi misurabili secondo Lebesgue). Ma con lispirazione della carica
elettrica al posto della massa si pu costruire la nozione di misura con segno, in cui 1()
pu avere anche segno negativo, ed inne anche il caso vettoriale in cui 1() un vettore
di un certo spazio, sempre o-additivo rispetto ad . Non tratteremo queste generalizzazioni,
ma pu essere utile sapere che si possono sviluppare.
Per esercizio si pu cercare di dimostrare che:
1 implica 1() _ 1(1)
1 (
c
) = 1 1()
1 (' 1) = 1 () +1 (1) 1 ( 1).
Ad esempio la seconda segue subito dal fatto che = '
c
, che sono disgiunti, quindi
1 = 1 () = 1 () +1 (
c
)
da cui 1 (
c
) = 1 1 ().
Concludiamo questo paragrafo osservando che abbiamo denito la struttura fondamentale
del calcolo delle probabilit, ovvero:
Denizione 5 Si chiama spazio probabilizzato una terna (, T, 1), dove un insieme, T
una o-algebra di sottoinsiemi di e 1 una probabilit.
Naturalmente in ogni esempio dovremo (o dovremmo) specicare chi sono esattamente
questi tre oggetti; indipendentemente dallesempio specico, essi devono per soddisfare i
requisiti elencati sopra (T chiusa per operazion i numerabili, 1 che sia o-additiva), dai quali
derivano i vari teoremi del calcolo delle probabilit, validi in ogni esempio. Sottolineiamo
che la specica quantitativa di 1 nei singoli esempi pu essere assai laboriosa e non discende
assolutamente in modo automatico dalle regole (i) e (ii), quindi lo schema descritto no ad
ora solo un vago contenitore di idee astratte. Queste regole generali (insieme ad altre che
vedremo relative al concetto di probabilit condizionale e indipendenza) servono di solito a
calcolare la probbilit di certi eventi a partire da quella di altri; ma da qualche parte bisogna
introdurre informazioni speciche di ciascun esempio, da cui partire.
Osservazione 1 Se T
0
solo unalgebra e 1 : T
0
[0, 1] soddisfa 1() = 1 e
1
_
a
_
i=1
i
_
=
a
i=1
1 (
i
) (1.1)
quando gli insiemi
i
T
0
sono a due a due disgiunti, allora diciamo che 1 una probabilit
nitamente additiva.
1.1.8 Probabilit associata ad una densit
Denizione 6 Si chiama densit di probabilit (che abbrevieremo con pdf, dallinglese) ogni
funzione ) : R R avente le seguenti due propriet:
) (r) _ 0 per ogni r
_
+o
o
) (r) dr = 1.
Lintegrale ora scritto un integrale improprio. Ricordiamo che nel caso di funzioni
positive, un integrale improprio pu solo convergere o divergere a +. Per una densit
esso deve convergere (cosa non ovvia) ed avere convenzionalmente valore 1. Supponiamo per
semplicit che ) sia Riemann integrabile su ogni intervallo limitato, essendo questa la teoria
usualmente appresa nei corsi di Ingegnera. Si ricordi che le funzioni continue, o anche solo
continue a tratti, sono Riemann integrabili, e tali sarano tutti i nostri esempi.
Denizione 7 Data una pdf ), dato un intervallo o pi in generale un insieme che sia
unione nita di intervalli, poniamo
1 () =
_
) (r) dr.
Ad esempio
1 ([10, )) =
_
+o
10
) (r) dr.
Abbiamo cos denito una funzione 1 : dallalgebra T
0
dei pluri-intervalli a valori reali.
Siccome ) _ 0, vale 1 () _ 0. Siccome R, vale
_
) (r) dr _
_
R
) (r) dr e quindi
1 () _ 1. Pertanto vero che
1 : T
0
[0, 1] .
Ovviamente vale 1 () = 1. Con ragionamenti elementari ma noiosi da scrivere, sei verica
che 1 nitamente additiva, cio vale (1.1) se i pluri-intervalli
i
sono a due a due disgiunti.
In questo modo abbiamo denito una 1 : T
0
[0, 1] nitamente additiva. Usando la teoria
dellintegrazione secondo Lebesgue, si pu estendere 1 ad una probabilit sulla o-algebra T
dei boreliani. Questa estensione per esula dal nostro corso (qualche elemento si pu vedere
alla sezione 1.2.22).
Esempio 3 Dati due numeri reali C, `, chiediamoci quando la funzione
)(r) =
_
Cc
Aa
per r _ 0
0 per r < 0
una densit di probabilit. Dovendo essere ) _ 0, devessere C _ 0. Lintegrale non pu
essere nito se ` = 0 o ancor perggio se ` < 0 (in entrambi i casi la funzione non tende a
zero per r ed anzi maggiore di una costante positiva, se C 0) quindi esaminiamo
solo il caso ` 0. Vale
_
+o
o
) (r) dr =
_
o
0
Cc
Aa
dr = C
_
o
0
d
dr
c
Aa
`
dr = C
_
c
Aa
`
_
o
0
=
C
`
dove linterpretazione del calcolo di c
Aa
per r = + quella di limite
lim
a+o
c
Aa
= 0.
Quindi lintegrale nito per ogni ` 0 e la funzione una densit se C = `. La densit
cos trovata si chiama densit esponenziale di parametro `.
0 1 2 3 4
0.0
0.2
0.4
0.6
0.8
1.0
x
y
Densit esponenziale, r _ 0, ` = 1
1.1.9 Probabilit associata ad una densit discreta
Denizione 8 Si chiama densit di probabilit discreta ogni successione j
a
aN
avente le
seguenti due propriet:
j
a
_ 0 per ogni :
o
a=0
j
a
= 1.
Al posto degli integrali impropri qui serve la teoria delle serie a termini positivi. Si ricordi
che una serie a termini positivi pu solo convergere o divergere a +.
Le due propriet precedenti implicano
j
a
_ 1 per ogni :.
Questo non era vero per le densit ) (ad esempio, per lesponenziale, ) (0) = `, che pu
assumere qualsiasi valore positivo).
Denizione 9 Data una densit di probabilit discreta j
a
aN
, per ogni insieme N
poniamo
1 () =

a
j
a
.
Questo denisce una probabilit sullo spazio probabilizzabile (, T) dove = N ed T la
o-algebra T (N) di tutte le parti.
Anche

a
pu essere una somma innita; in ogni caso rientra nella teoria delle serie
a termini positivi. La verica che 1 () [0, 1] identica al caso di una pdf ). La nita
additivit elementare ma noiosa. La numerabile additivit richiede un po pi di lavoro
sulle serie numeriche a termini positivi, comunque non dicile, che per omettiamo.
Esempio 4 Dati due numeri reali C, j, chiediamoci quando la successione j
a
aN
denita
da
j
a
= C (1 j)
a
, : = 0, 1, 2, ...
una densit di probabilit discreta. Per convenzione, se j = 1, si intende che (1 j)
0
= 1,
mentre ovviamente (1 j)
a
= 0 per : _ 1. Siccome per j pari il termine (1 j)
a
positivo,
devessere C _ 0. A quel punto, (1 j)
a
devessere positivo per ogni :, quindi 1 j _ 0,
cio j _ 1. Dobbiamo ora capire quando converge la serie

o
a=0
(1 j)
a
. Essendo una serie
geometrica, converge se e solo se [1 j[ < 1, cio se 1 j < 1 (gi sappiamo che 1 j _ 0),
ovvero j 0. In tale caso vale
o
a=0
(1 j)
a
=
1
1 (1 j)
=
1
j
e quindi devessere C = j. Riassumendo, per j (0, 1], C = j, la successione data una den-
sit di probabilit discreta. Viene chiamata densit geometrica di parametro j, limitatamente
al caso j (0, 1).
Esempio 5 Spazi di esiti equiprobabili. Lesempio pi semplice ma anche assai utile quello
di un insieme nito composto di elementi, T = T () e 1 denita cos:
1() =
[[
=
[[
[[
dove abbiamo indicato con [[ la cardinalit di , ovvero il numero di elementi di . A
parole, la probabilit di il rapporto tra il numero dei casi favorevoli e quello dei casi
possibili.
Si pu riconoscere che vale ladditivit di 1 (e 1 () = 1) quindi 1 una probabilit.
Sottolineiamo che se . un evento elementare, allora vale
1 (.) =
1
.
Da qui deriva il nome di spazio di esiti equiprobabili. Per quanto semplice possa sem-
brare questo esempio, abbastanza vero che ogni costruzione pi elaborata del calcolo delle
probabilit aonda le sue radici in qualche modo negli spazi equiprobabili.
Osservazione 2 Spazi di probabilit niti. Un po pi generale del precedente il caso
di un insieme nito composto di elementi, T = T (), ma con 1 non necessariamente
uniforme. Vedremo tra un attimo un esempio. Qui osserviamo solo una propriet importante:
la conoscenza di 1 (ovvero il valore di 1() per qualsiasi ) equivale alla conoscenza
del valore di 1 sugli eventi elementari. In altre parole, se conosciamo 1 (.) per qualsiasi
. , allora possiamo calcolare 1() per qualsiasi tramite addizione:
1() =

.
1 (.) .
La formula vale per ladditivit di 1. La somma nita, per ipotesi sullo spazio. Tuttavia
quanto detto in questa osservazione vale esattamente anche nel caso di innito numerabile,
nel qual caso la somma che calcola 1() pu essere una serie numerica (comunque una
serie a termini positivi convergente).
Osservazione 3 Insistendo sullosservazione precedente, notiamo che per costruire un esem-
pio di spazio probabilizzato nito, dopo aver specicato e scelto T = T (), basta introdurre
una sequenza di numeri j (.)
.
tali che
j (.) [0, 1] per ogni .
.
j (.) = 1.
A partire da essi si denisce poi
1() =

.
j (.)
per ogni e si verica facilmente che 1 una probabilit.
Esempio 6 Fissato un intero positivo :, consideriamo linsieme di tutte le sequenze
(r
1
, ..., r
a
) composte di zeri ed uni. A volte si usa scrivere
= 0, 1
a
ovvero linsieme di tutte le applicazioni da un insieme di : elementi in 0, 1. un insieme
nito, con 2
a
elementi. Deniamo uninteressante probabilit 1 su T = T (). Per quanto
detto nella precedente osservazione, basta che assegniamo la probabilit ad ogni sequenza
(r
1
, ..., r
a
) in modo da avere somma uno. Fissato un numero j [0, 1], posto = 1j, detto
/ il numero di uni nella sequenza (r
1
, ..., r
a
), poniamo
j (r
1
, ..., r
a
) = j
I
aI
.
Sono numeri in [0, 1]. La loro somma pari a
a
I=0
:
I
j
I
aI
dove :
I
il numero di sequenze con / uni. Chiariremo in un paragrafo a parte che questo
numero il coeciente binomiale
_
a
I
_
. Dobbiamo allora calcolare
a
I=0
_
:
/
_
j
I
aI
.
Questa somma vale uno ricordando la formula del binomio di Newton:
(a +/)
a
=
_
:
/
_
a
I
/
aI
.
Lo spazio probabilizzato appena introdotto molto ricco e costituisce la base per un enorme
numero di considerazioni teoriche e di applicazioni pratiche.
Osservazione 4 Una probabilit 1 denita su una o-algebra T , non su uno spazio
come in genere si portati a dire intuitivamente. In genere non pericoloso fare questa
piccola confusione di linguaggio; piuttosto, in alcuni casi utile rammentare questa specica,
quando si studiano problemi avanzati con diverse o-algebra in azione contemporaneamente.
1.1.10 Probabilit condizionale
Supponiamo di aver scelto una terna (, T, 1) per descrivere un problema concreto. Sup-
poniamo poi di venire a conoscenza di uninformazione aggiuntiva che prima ci era ignota,
esprimibile nel fatto che un certo evento 1 T si vericato.
Ad esempio, consideriamo nuovamente il problema della spedizione e ricezione di un
simbolo 0,1 attraverso un canale di comunicazione, in cui inizialmente introduciamo lo schema
(, T, 1) quando non sappiamo n che simbolo stato trasmesso n quale stato ricevuto.
Ricordiamo che linsieme composto dai quattro elementi (0, 0) , (0, 1) , (1, 0) , (1, 1). In
questo esempio T = T (), mentre di 1 ancora non abbiamo parlato, ma supponiamo di
averla ssata.
Come dicevamo, supponiamo che un evento 1 si sia vericato. Nellesempio, potrebbe
essere levento: il simbolo ricevuto 1. Questa solo uninformazione parziale, non esaurisce
ci che vorremmo sapere del problema aleatorio, ma certamente unimportante informazione
in pi.
Matematicamente, accade questo: la nuova informazione contenuta nel fatto che 1 si
vericato, modica la probabilit di tutti gli altri eventi. Ogni evento aveva inizialmente
probabilit 1(); ora ha una nuova probabilit che indicheremo con
1 ([1)
(e leggeremo probabilit di sapendo 1, o condizionata a 1). La formula che stata
scelta per calcolarla, o se si vuole come sua denizione, la seguente:
1 ([1) =
1 ( 1)
1(1)
.
Come ogni denizione contiene un certo grado di arbitrariet, ma comunque ben motivata
sia dalla sensatezza negli esempi, sia dal seguente ragionamento generale. Si pensi ad . Nel
momento in cui sappiamo che 1 si vericato, linsieme 1
c
non pu pi vericarsi, quindi
il nostro universo si restinge a 1 stesso, diventa
t
= 1. Preso un qualsiasi evento , la
parte di in 1
c
non pu pi vericarsi, mentre sopravvive la parte di in 1, pari a 1.
In altre parole, nel passaggio (restrizione) da ad
t
, linsieme si trasforma in 1.
Sarebbe naturale poi dire che la probabilit 1() si trasforma in 1 ( 1). Per la nuova
probabilit cos trovata avrebbe il difetto di non valere 1 sul nuovo universo: 1 (
t
) = 1 (1),
diverso da 1 in generale. Va allora normalizzata ad 1, dividendo per 1 (1). Ecco come si
arriva allespressione
1(1)
1(1)
partendo da 1().
Solo la parte a puntini sopravvive come eventualit quando sappiamo che vale 1
Osserviamo che nella denizione di 1 ([1) bisogna supporre che sia 1(1) 0 per dare
senso alla frazione. Tuttavia, quando 1(1) = 0, anche 1 ( 1) = 0 (in quanto 1 1),
quindi lespressione del tipo
0
0
, che non ha un senso elementare, algebrico, ma potrebbe
avere un senso limite, magari prendendo una successione di insiemi 1
a
1 con opportune
propriet. In molti casi questo tipo di ragionamento funziona e produce nozioni utilissime
di probabilit condizionata in un senso generalizzato. Per ora non approfondiamo questo
argomento.
Ricordiamo che 1 era, rigorosamente parlando, una funzione. Analogamente molto utile
pensare a 1 (.[1) come ad una funzione, per 1 ssato: funzione dellevento che mettiamo
nellespressione 1 ([1). Si dimostra che la funzione 1 (.[1) (con 1 ssato) una probabilit,
o-additiva.
1.1.11 Indipendenza
Prima di conoscere un certo 1, un evento ha probabilit 1(). Dopo, ha probabilit
1 ([1).
Quando questi due valori sono uguali, ovvero
1 ([1) = 1()
siamo portati a dire che 1 non inuenza . Un esempio semplice da capire quello del lancio
di due dadi: se 1 levento nel primo lancio esce 6 e levento nel secondo lancio esce
6, chiaro intuitivamente che 1 non pu inuenzare in alcun modo.
Osservazione 5 Unosservazione semi-seria. Una credenza ingenua che se in un lancio
esce 6, nel successivo sia pi dicile che esca di nuovo 6. Pi formalmente, concordando
che a priori la probabilit che al secondo lancio esca 6 1/6, alcuni pensano che, una volta
noto che al primo lancio uscito 6, la probabilit che esca 6 al secondo lancio minore di
1/6. Questo completamente assurdo se si pensa alla sica del lancio del dado. Casomai,
si potrebbe dubitare che valga proprio il contrario: se il dado non perfetto, il fatto che
sia uscito 6 al primo lancio potrebbe essere un indizio che il dado sbilanciato a favore di
certe facce, inclusa la faccia 6; ma allora al secondo lancio la probabilit che esca 6 un po
maggiore di 1/6!
La condizione 1 ([1) = 1() sembra asimmetrica, mentre non lo . Siccome (usando
la simmetria di 1)
1 (1[) =
1 (1 )
1()
=
1 ( 1)
1()
=
1 ([1) 1(1)
1()
,
da 1 ([1) = 1() si ricava 1 (1[) = 1(1), ovvero che non inuisce su 1. Quindi si
pu parlare di indipendenza tra e 1, simmetricamente. Per dare una veste simmetrica
anche alla formulazione matematica, basta osservare che luguaglianza
1 ( 1) = 1()1(1)
equivalente alle precedenti (per esercizio). Oltre ad essere simmetrica ha il pregio di non
obbligare alle speciche del tipo 1() 0 o 1(1) 0 insite nella denizione di proba-
bilit condizionale. Arriviamo quindi alla seguente denizione, nel caso di due eventi, che
generalizziamo al caso di : eventi.
Denizione 10 Due eventi e 1 si dicono indipendenti se
1 ( 1) = 1()1(1).
Gli eventi
1
, ...,
a
si dicono indipendenti se
1 (
i
1
...
i
I
) = 1(
i
1
) 1(
i
I
)
per ogni scelta di i
1
< ... < i
I
1, ..., :.
Osservazione 6 Se e 1 sono indipendenti allora anche e 1
c
sono indipendenti. Quindi
(cambiando nome agli insiemi) anche
c
e 1, ed anche
c
e 1
c
. Queste aermazioni sono
tutte equivalenti. Basta dimostrare la prima. Vale
1 ( 1
c
) +1 ( 1) = 1 ()
da cui, supponendo e 1 indipendenti,
1 ( 1
c
) +1 () 1 (1) = 1 ()
da cui
1 ( 1
c
) = 1 () (1 1 (1)) = 1 () 1 (1
c
) .
Quindi e 1
c
sono indipendenti.
Osservazione 7 Grazie al fatto che nella denizione di indipendenza di : eventi abbiamo
preso gli indici i
1
< ... < i
I
in modo arbitrario (e non semplicemente i
1
= 1, ... , i
a
=
:), si pu dimostrare che vale lanalogo dellosservazione appena fatta anche nel caso di :
eventi (cio si possono sostituire alcuni degli eventi con i loro complementari). Vediamolo
limitamente ad un esempio (il caso generale solo simbolicamente pi pesante):
1 ( 1 C
c
) +1 ( 1 C) = 1 ( 1)
1 ( 1 C
c
) +1 () 1 (1) 1 (C) = 1 () 1 (1)
1 ( 1 C
c
) = 1 () 1 (1) (1 1 (C))
= 1 () 1 (1) 1 (C
c
) .
Questa invarianza per complementare un requisito abbastanza irrinunciabile se si pensa agli
esempi (come il seguente).
Esempio 7 Supponiamo che un sistema o sia composto da tre sottosistemi o
1
, o
2
, o
3
. La
probabilit che o
i
si rompa j
i
. Supponendo che il funzionare o meno dei sottosistemi sia
indipendente, calcolare la probabilit che si rompa o. Soluzione: introduciamo gli eventi
1 = il sistema o si rompe
1
i
= il sistema o
i
si rompe, i = 1, 2, 3
ed immaginiamo, anche senza formalizzarlo, che questi siano eventi (sottoinsiemi) di un certo
universo su cui sia denita una certa probabilit 1. Vale, per ipotesi,
1 (1
i
) = j
i
, i = 1, 2, 3
ed inoltre gli eventi (eventualmente complementati) 1
i
sono indipendenti. Dobbiamo calcolare
1 (1). Vale
1 (1) = 1 1 (1
c
) = 1 1 (1
c
1
1
c
2
1
c
3
)
(levento 1
c
la non rottura del sistema o, che avviene quando c la non rottura simultanea
di tutti i sottosistemi)
= 1 1 (1
c
1
) 1 (1
c
2
) 1 (1
c
3
) = 1 (1 j
1
) (1 j
2
) (1 j
3
) .
Osservazione 8 Nellesempio precedente si osservi che 1 non uguale a 1
1
1
2
1
3
,
quindi non basta applicare lindipendenza a questi eventi. Vale invece
1 = 1
1
' 1
2
' 1
3
ma questi non sono eventi disgiunti, quindi non si pu applicare la regola della somma. Si
potrebbe scrivere 1 come unione disgiunta, elencando ad esempio tutti i casi che compongono
1 (1
1
1
c
2
1
c
3
ecc.), usando poi ladditivit. Questo lapproccio pi elementare (e si
consiglia di tenerlo presente per i casi di emergenza) ma lungo e faticosamente estendibile
a numerosit maggiori.
1.1.12 Formula di fattorizzazione
Denizione 11 Chiamiamo partizione (nita, misurabile) di una famiglia di insiemi
1
1
, ..., 1
a
T tali che 1
i
1
)
= ? per ogni i ,= , e
a
_
i=1
1
i
= .
Una partizione, in parole povere, una suddivisione di in insiemi disgiunti. Se 1 T,
gli insiemi 1, 1
c
formano una partizione.
Teorema 1 (Formula di fattorizzazione) Se 1
1
, ..., 1
a
una partizione di e 1(1
i
)
0 per ogni i = 1, ..., :, allora
1 () =
a
i=1
1 ([1
i
) 1 (1
i
)
per ogni evento .
Proof. Per ladditivit di 1 vale
1 () =
a
i=1
1 ( 1
i
)
in quanto gli insiemi 1
i
sono disgiunti (lo sono i 1
i
) e vale =
a
_
i=1
( 1
i
). Inoltre,
essendo per denizione 1 ([1
i
) =
1(1
.
)
1(1
.
)
, vale 1 ( 1
i
) = 1 ([1
i
) 1 (1
i
). Sostituendo
nella formula precedente si trova il risultato desiderato.
Ragurazione della fattorizzazione di un evento
Le partizioni, negli esempi, descrivono le diverse alternative. Vediamo un esempio.
Esempio 8 Una ditta commercia vino bianco (1) e rosso (1), richiesti da clienti in Francia
(1) e in Germania (G). 1/3 delle richieste arriva dalla Francia, 2/3 delle richieste dalla
Germania. I 3/4 delle richieste provenienti dalla Francia sono di vino bianco, 1/4 delle
richieste sono di vino rosso. Viceversa, 1/4 delle richieste provenienti dalla Germania sono
di vino bianco, 3/4 delle richieste sono di vino rosso.
Calcolare la probabilit che un generico ordine riguardi il vino bianco.
Soluzione. Dati: 1(1) = 1,3, 1(G) = 2,3, 1(1[1) = 3,4, 1(1[1) = 1,4, 1(1[G) = 1,4,
1(1[G) = 3,4. Quindi
1(1) = 1(1[1)1(1) +1(1[G)1(G) =
3
4

1
3
+
1
4

2
3
=
1
4
+
1
6
=
5
12
.
In molti esempi, come il precedente, il problema concreto fa s che sano note certe proba-
bilit condizionali, piuttosto che certe probabilit. Si deve immaginare di avere e la prob-
abilit 1, che per incognita; 1 denisce le probabilit condizionali ed alcune di queste
sonoo note dai dati dellesempio; permettendo di risalire alle probabilit 1.
Unecace ragurazione della formula di fattorizzazione si ha disegnando lalbero degli
eventi :
Nel disegno, per non creare confusione, non abbiamo indicato i valori lungo i rami. Su
ogni ramo va scritta la probabilit condizionale ad esso relativa. Ad esempio, sul ramo che
porta da a 1, va scritto 1 (1) (che 1 (1[)); sul ramo che porta da 1 ad , va scritto
1 ([1); e cos via. Se si considera un percorso, ad esempio quello che porta da a 1 e poi ad
, la sua probabilit il prodotto delle probabilit condizionali lungo i rami, 1 ([1) 1 (1)
in questo esempio. La probabilit (totale) di si ottiene sommando lungo tutti i percorsi
che portano ad , cio lungo i due percorsi
1
1
c
.
La formula di fattorizzazione viene anche detta delle probabilit totali, in quanto permette
di calcolare la probabilit totale di un evento a partire da quelle condizionali.
1.1.13 Formula di Bayes e formula di fattorizzazione
Teorema 2 (Formula di Bayes) Se 1() 0 e 1(1) 0, allora
1 (1[) =
1 ([1) 1(1)
1()
.
Proof.
1 (1[) =
1 (1 )
1()
=
1 ( 1)
1()
=
1 ([1) 1(1)
1()
in quanto 1 ([1) 1(1) = 1 ( 1) per denizione di 1 ([1).
In quasi tutti gli esempi, il valore del denominatore 1() non noto in partenza, per cui
va calcolato con la formula di fattorizzazione rispetto ad una partizione 1
1
, ..., 1
a
(di cui 1
di solito uno degli elementi). La formula di Bayes diventa:
1 (1[) =
1 ([1) 1(1)
i
1 ([1
i
) 1(1
i
)
.
Esempio 9 La preparazione di uno studente pu essere scarsa, buona, ottima. Ci non
direttamente misurabile, quindi lo studente viene sottoposto ad un test a crocette, che si
intende superato se il punteggio _10. Se la sua preparazione scarsa, la probabilit che
totalizzi almeno 10 negli esercizi pari a 0.3. Se buona, pari a 0.8, se ottima
pari a 0.995. Prima dello scritto il docente non ha informazioni sullo studente e decide di
considerare equiprobabili le tre possibilit circa la sua preparazione. Supponiamo poi che lo
studente esegua gli esercizi e prenda meno di 10; il docente, ora, che probabilit gli attribuisce
di avere preparazione scarsa? E di avere una preparazione almeno buona (cio buona o
ottima)?
Soluzione. Con ovvie notazioni per gli eventi in gioco,
1( < 10) = 1(< 10[o)1(o) +1(< 10[1)1(1) +1(< 10[O)1(O)
=
1
3
(0.7 + 0.2 + 0.005) = 0. 301 67
quindi
1(o[ < 10) =
1(< 10[o)1(o)
1(< 10)
=
0. 233 33
0. 301 67
= 0. 773 46.
Inne, usando la regola dellevento complementare, la probabilit richiesta 10.773 46 = 0. 226 54.
Osservazione 9 Nei problemi bayesiani, ci sono delle probabilit a priori e delle probabilit
a posteriori. Nellesempio, la probabilit a priori che lo studente avesse preparazione scarsa
era 1/3, a poteriori - cio dopo aver osservato lesito del test - 0.773.
Osservazione 10 Accade spesso che le probabilit a priori vengano scelte uguali - 1/3 nel-
lesempio - come riesso della mancanza di informazioni.
La formula di Bayes permette di calcolare 1 (1[) a partire da 1 ([1) (ed altri due
termini). E interessante la sua struttura logica: se conosciamo come 1 inuenza , ovvero
conosciamo 1 ([1), allora possiamo calcolare come inuenza 1. C una sorta di inver-
sione causale. Se immaginiamo che 1 sia una possibile causa ed un possibile eetto, la
logica normale quella di conoscere come la causa 1 inuenza leetto , quindi conoscere
1 ([1). La formula di Bayes permette di risalire alle cause a partire da osservazioni sui
loro eetti. Precisamente, osservato leetto , permette di calcolare la probabilit che esso
derivi dalla causa 1.
In genere, in questo schema causa-eetto, si ha a che fare con diverse possibili cause,
diverse alternative, che formano una partizione 1
1
, ..., 1
a
. Osservato , vorremmo risalire
alla causa che lo ha provocato. Tutte le cause 1
i
possono aver provocato , quindi ci che
possiamo fare calcolare le probabilit delle diverse cause 1
i
condizionate ad e decidere
che la causa quella pi probabile ( uno schema di teoria delle decisioni; si veda anche il
Capitolo 6).
In questottica, serve solo confrontare i valori di 1 (1
i
[) al variare di i = 1, ..., :. Per
questo scopo non serve calcolare il denominatore 1() della formula di Bayes, che uguale
per tutti. Basta quindi confrontare i numeri 1 ([1
i
) 1(1
i
).
Poi, nel caso molto comune in cui gli eventi 1
i
siano equiprobabili, basta confrontare
1 ([1
i
). Si pensi a tutte queste semplicazioni sullalvero degli eventi.
1.1.14 Calcolo combinatorico
Il calcolo combinatorico fornisce idee e regole per calcolare la cardinalit [[ di un insieme
nito , cosa essenziale quando di calcola la probabilit di un evento in uno spazio di esiti
equiprobabili.
Ricordiamo il signicato di : fattoriale:
:! := :(: 1) 2 1
e convenzionalmente 0! = 1. Pi formalmente :! denito per ricorrenza da
1! = 1
:! = : (: 1)! per : _ 2.
Ricordiamo inoltre il signicato dei coecienti binomiali:
_
:
/
_
=
:!
/! (: /)!
=
:(: 1) (: / + 1)
/!
deniti per : _ 1, / = 0, ...:. Vale
_
a
I
_
=
_
a
aI
_
,
_
a
0
_
=
_
a
a
_
= 1,
_
a
1
_
= : e cos via. Non
ovvio che
_
a
I
_
sia un intero; un modo di scoprirlo attraverso un teorema che vedremo proa
poco.
Alla base di molti fatti c il cosidetto principio di enumerazione. Esso asserisce che se si
svolgono due esperimenti successivi, il primo con : possibili risultati diversi ed il secondo con
: possibili risultati diversi, allora le coppie di risultati possibili sono : :. E davvero un
principio ovvio, ma permette di risolvere un grandissimo numero di problemi. Naturalmente
si sottointende che vale anche per una sequenza formata da pi di due esperimenti; ad esempio
per tre esperimenti, se nel primo ci sono :
1
risultati possibili, nel secondo :
2
e nel terzo :
3
, il
numero totale di risultati possibili della terna di esperimenti :
1
:
2
:
3
. Vediamolo allopera.
Principio di enumerazione
Esempio 10 Quante sono le stringhe di : simboli, (r
1
, ..., r
a
), in cui ciascun simbolo r
i
pu
assumere / possibili valori diversi? Il risultato
/
a
.
Infatti, usiamo il principio di enumerazione immaginando che la scelta del primo simbolo sia
il primo esperimento, la scelta del secondo simbolo il secondo esperimento e cos via. Nel
primo esperimento ci sono / risultati possibili, nel secondo pure, e cos via, per cui il numero
di risultati possibili della sequenza di esperimenti il prodotto / / / = /
a
.
Esempio 11 Sia linsieme di tutte le applicazioni ) : 1, ..., : 1, ..., /. Allora
[[ = /
a
.
Basta riconoscere che in corrispondenza biunivoca con linsieme delle stringhe descritto
nellesempio precedente. Infatti, assegnare una funzione ) : 1, ..., : 1, ..., / equivale
a dire, per ciascun eleemento del dominio (vedi ciascun simbolo r
i
dellesempio precedente),
quale valore tra 1 e / esso assume.
Esempio 12 Dato un insieme nito
0
con : elementi, detto = T (
0
) linsieme delle
parti di
0
, vale
[T (
0
)[ = 2
a
.
Infatti, numeriamo gli elementi di
0
come .
1
, ..., .
a
. Ogni parte
0
si pu mettere
in corrispondenza con la stringa di zeri ed uni (r
1
, ..., r
a
) in cui r
i
= 1 se .
i
; oppure
in corrispondenza con la funzione ) :
0
= .
1
, ..., .
a
0, 1 che vale 1 nei punti di
(detta anche indicatrice di , ) = 1
). Queste due corrispondenze sono biunivoche. Quindi

T (
0
) ha tanti elementi quante sono le stringhe (r
1
, ..., r
a
) di zeri ed uni, ovvero 2
a
.
Denizione 12 Chiamiamo permutazione di : elementi una qualsiasi applicazione biunivoca
) : 1, ..., : 1, ..., :.
Colloquialmente, una permutazione di : elementi un possibile scambio del loro ordine.
Sia linsieme di tutte le permutazioni. Vale
[[ = :!
Per vericarlo basta pensare ai seguenti esperimenti: nel primo si sceglie dove mandare 1 e
per questo ci sono : possibilit; nel secondo si sceglie dove mandare 2 e per questo ci sono
: 1 possibilit (la casella occupata da 1 non pu pi essere scelta); e cos via.
Osservazione 11 Nel principio di enumerazione, il numero :
2
pu dipendere dal fatto che
stato svolto un primo esperimento - come in questo esempio delle permutazioni - ma non
deve dipendere dallesito del primo esperimento. Si pensi ad un gioco in cui prima si lancia
un dado, poi, se uscito un pari si lancia un secondo dado altrimenti una moneta. Il numero
dei risultati possibili del secondo esperimento dipende dallesito del primo. Non siamo quindi
nellambito del principio di enumerazione.
Esempio 13 Dato un insieme di : oggetti diversi, in quanti modi diversi li possiamo or-
dinare? In altre parole, vogliamo costruire stringhe ordinate (r
1
, ..., r
a
) in cui gli oggetti
r
1
, ..., r
a
sono diversi tra loro, presi da un insieme pressato di : oggetti. Lo si pu fare in
:! modi.
Denizione 13 Chiamiamo disposizione di / elementi in : posti una qualsiasi applicazione
iniettiva ) : 1, ..., / 1, ..., :. Devessere / _ :.
Colloquialmente, una disposizione di / elementi in : posti un modo di disporre / oggetti
diversi in : caselle diverse.
Sia linsieme di tutte le disposizioni di / elementi in : posti. Vale
[[ = :(: 1) (: / + 1)
la verica identica al caso delle permutazioni. Si osservi che questo numero il numeratore
della riscrittura del coeciente binomiale usata sopra.
Denizione 14 Si chiama combinazione di / elementi in : posti ogni sottoinsieme di
1, ..., : avente cardinalit [[ = /. Devessere / _ :.
Colloquialmente, una combinazione di / elementi in : posti una scelta di / posti tra gli
:. Oppure un modo di disporre / oggetti uguali, indistinguibili, in : caselle diverse.
Teorema 3 Sia linsieme di tutte le combinazioni di / elementi in : posti. Allora
[[ =
_
:
/
_
.
Proof. Sia
0
linsieme di tutte le disposizioni di / elementi in : posti. Introduciamo
su
0
una relazione di equivalenza: due disposizioni (cio due applicazioni iniettive ) :
1, ..., / 1, ..., :) sono equivalenti se hanno la stessa immagine; che individuano cio
lo stesso sottoinsieme del codominio 1, ..., :. Ad esempio, sono equivalenti quelle qui
ragurate:
Sia C una classe di equivalenza per questa relazione. Tutte le disposizioni della classe
hanno la stessa immagine, e solo loro, per cui la classe si pu mettere in corrispondenza
biunivoca con limmagine, cio con un certo sottoinsieme di 1, ..., :. Questi sottoinsiemi
sono le combinazioni. Quindi le combinazioni sono tante quante le classi di equivalenza C.
Indichiamo con r la loro cardinalit, che vogliamo calcolare.
Ogni classe C ha esattamente /! elementi. Infatti, due disposizioni della stessa classe
dieriscono per una permutazione dellimmagine, cio una permutazione di / elementi. Ci
sono /! modi di fare una tale permutazione.
Si noti che la cardinalit di C la stessa per tutte le classi C. Allora, /! (cardinalit
di ogni classe) per r (numero di classi) uguale al numero di elementi complessivi di
0
,
che :(: 1) (: / + 1). Ribadiamo questa idea, che consigliamo di ragurare con un
disegno:
0
suddiviso in r sottoinsiemi, le classi C, ciascuna fatta di /! elementi. Quindi
:(: 1) (: / + 1) = r /!
ed allora
r =
:(: 1) (: / + 1)
/!
=
_
:
/
_
.
La dimostrazione completa.
Esempio 14 Consideriamo le 2
a
stringhe (r
1
, ..., r
a
) in cui ciascun simbolo r
i
pu assumere
solo i valori 0 ed 1. Chiediamoci: dato / _ :, quante di queste stringhe hanno / uni? La
risposta
_
a
I
_
(quanti i sottoinsiemi di 1, ..., : aventi cardinalit /).
Esempio 15 Quante sono le commissioni di 5 membri che si possono formare partendo da
15 persone? Quante i sottoinsiemi di 1, ..., 15 aventi cardinalit 5, quindi
_
15
5
_
. E se 7 delle
15 sono uomini, e la commissione si estrae a caso, che probabilit c che ci siano 3 uomini
in commissione? La probabilit richiesta
[[
[[
dove linsieme delle commissioni possibili
mentre quello delle commissioni con 3 uomini. Allora [[ =
_
15
5
_
. Per calcolare [[ si pensi
ad un primo esperimento in cui si scelgono tre uomini tra i 7 seguito da un secondo in cui si
scelgono 2 donne tra le 8. Nel primo esperimento ci sono
_
7
3
_
risultati possibili; nel secondo
_
8
2
_
. Per il principio di enumerazione, [[ =
_
7
3
__
8
2
_
. In conclusione,
[[
[[
=
_
7
3
__
8
2
_
_
15
5
_ .
1.2 Variabili aleatorie e valori medi
1.2.1 Introduzione
Cosa sono le variabili aleatorie (abbreviato v.a. nel seguito)? La risposta a questa domanda
di gran lunga pi sosticata di molti altri elementi di teoria delle v.a. Quindi, per non
partire subito con le cose pi dicili, adottiamo una tattica pragmatica: ci accontentiamo di
sviluppare unintuizione pratica di cosa sia una v.a., introduciamo alcuni oggetti matematici
che la descrivono (densit, ecc.) e cominciamo cos a fare calcoli e vedere lutilit pratica del
concetto. In un secondo momento torneremo sullaspetto fondazionale e daremo la denizione
rigorosa di v.a., che costituir anche il collegamento tra questo nuovo concetto e quello di
spazio probabilizzato introdotto nella prima lezione.
Lidea intuitiva semplice: chiamiamo v.a. ogni grandezza su cui non possiamo fare
previsioni certe, ma di cui abbiamo informazioni probabilistiche nel senso specicato sotto
col concetto di densit. Ad esempio, una v.a. la durata della batteria di un portatile,
il numero di esemplari di un certo prodotto che verranno richesti ad un negozio durante la
prossima settimana, la quantit di traco su un ramo della rete internet nelle prossime ore,
e cos via.
1.2. VARIABILI ALEATORIE E VALORI MEDI 25
Indichiamo in genere con le lettere A, 1 ecc. le v.a. Ad esse sono associati degli eventi che
ci interessano in pratica, oppure in teoria. Ad esempio, pu interessarci levento: T 10 ore
dove T la durata della batteria di un portatile, oppure levento = 2 dove il numero
di lavastoviglie che verranno richeste ad un certo negozio. In generale possiamo pensare che
gli eventi di interesse avranno la forma
A
dove A la v.a. che stiamo considerando ed un sottoinsieme dei numeri reali (o in certi
casi dei numeri naturali, ad esempio).
1.2.2 V.a. continue e loro densit di probabilit
Abbiamo detto che ci interessano eventi del tipo A e quindi vorremo calcolarne la
probabilit. Si chiamano continue quelle v.a. A a cui associata una densit di probabilit
). La probabilit dellevento A si calcola mediante un integrale di ):
1 (A ) =
_
) (r) dr
dove lintegrale esteso allinsieme .
Per una v.a. continua A, tutte le probabilit del tipo 1 (A ) si calcolano mediante
la densit ), quindi in un certo senso non serve avere una denizione rigorosa di v.a.,
suciente il concetto di densit e la convenzione di interpretare lintegrale
_
) (r) dr come
probabilit di un determinato evento. Per questo, entro certi limiti, si pul fare a meno della
denizione rigorosa di v.a. In questottica, il simbolo A non descrive un oggetto matem-
atico rigoroso, ma solo un ausilio simbolico per abbreviare la scrittura di certi eventi e
di certe probabilit. Ad esempio, invece di scrivere probabilit che la batteria duri pi
di 10 ore, scriviamo sinteticamente 1 (T 10 ore). E solo una scrittura convenzionale.
Poi, per calcolare matematicamente questa probabilit, basta avere la densit ) e calcolare
_
+o
10
) (r) dr.
Nella denizione di densit di probabilit abbiamo omesso alcune precisazioni matem-
atiche, che non approfondiamo in tutta la loro possibile generalit; accenniamo solo al fatto
che bisogna richiedere che abbia senso calcolare lintegrale, quindi bisogna far riferimento ad
una nozione di funzione integrabile. La versione facile di questa nozione quella di funzione
integrabile secondo Riemann, che abbraccia ad esempio le funzioni continue e qualcosa in
pi; la verisone pi matura richiederebbe invece la nozione di funzione integrabile secondo
Lebesgue, che comprende pi funzioni e si adatta meglio alle questioni coinvolgenti operazioni
limite.
Esempio 16 Una v.a. uniforme su [a, /] una v.a. A con densit ) data da
)(r) =
_
1
bo
per r [a, /]
0 per r , [a, /]
.
Larea sottesa da ) uno per ragioni elementari.
Esempio 17 Una v.a. esponenziale di parametro `, con ` 0, una v.a. A con densit )
data da
)(r) =
_
`c
Aa
per r _ 0
0 per r < 0
.
Scriveremo per brevit A ~ 1rj (`). Abbiamo gi vericato che questa una pdf. Tra le
cose pi signicative delle v.a. esponenziali c la formula (valida per t _ 0)
1 (A _ t) = c
At
che si dimostra calcolando lintegrale
1 (A _ t) =
_
o
t
`c
Aa
dr =
_
c
Aa
_
o
t
= c
At
.
La funzione t 1 (A _ t) viene a volte chiamata adabilit (reliability), nellomonima
teoria.
Esempio 18 Una v.a. gaussiana, o normale, canonica una v.a. A con densit ) data da
)(r) =
1
_
2
c
i
2
2
.
La verica della propriet di area uno pi complessa. Tralasciando i dettagli, si fonda sui
seguenti calcoli:
__
+o
o
c
i
2
2
dr
_
2
=
_
+o
o
_
+o
o
c
i
2
2
c
2
2
drdj =
_
+o
o
_
+o
o
c
i
2
+
2
2
drdj
=
_
2
0
_
+o
0
rc
r
2
2
drd0 = 2
_
+o
0
rc
r
2
2
dr
dove abbiamo usato il cambio di variabili in coordinate polari (il determinante jacobiano
r). Essendo
_
+o
0
rc
r
2
2
dr =
_
+o
0
d
dr
c
r
2
2
dr =
_
c
r
2
2
_
o
0
= 1
troviamo inne
_
+o
o
c
i
2
2
dr =
_
2
che spiega il fattore
1
_
2
nella denizione di ).
-3 -2 -1 0 1 2 3
0.1
0.2
0.3
0.4
x
y
Densit gaussiana canonica
Osservazione 12 Osserviamo che purtroppo non possibile calcolare una primitiva di )
tramite funzioni elementari, quindi il calcolo di probabilit gaussiane non di tipo ananlitico,
ma solo numerico (con luso di tavole o computer).
Esempio 19 Una v.a. gaussiana, o normale, di parametri j e o
2
(con o 0) una v.a. A
con densit ) data da
)(r) =
1
_
2o
2
c
(i)
2
2
2
.
Scriveremo per brevit A ~
_
j, o
2
_
. La verica della propriet di area uno si fa ricon-
ducendosi al caso canonico con il cambio di variabile j =
aj
o
:
_
+o
o
1
_
2o
2
c
(i)
2
2
2
dr
j=
i
=
_
+o
o
1
_
2o
2
c
2
2
odj
=
_
+o
o
1
_
2
c
2
2
dj = 1.
-2 -1 0 1 2 3 4 5 6 7 8 9 10 11 12
0.1
0.2
0.3
0.4
x
y
Densit gaussiana con j = 5 e o
2
= 4
1.2.3 V.a. discrete
In un certo senso pi elementari delle precedenti (ma in unaltro pi singolari) sono le v.a.
discrete, quelle ovvero che assumono solo un numero nito di valori a
1
, ..., a
.
o al pi una
quantit numerabile di valori a
I
IN
. Per specicare una v.a. A discreta bisogna indicare
quali sono i suoi valori a
I
e quali siano le corrispondenti probabilit, j
I
= 1 (A = a
I
). I
numeri j
I
IN
devono essere una densit di probabilit discreta, cio essere compresi in
[0, 1] ed avere somma 1. Un semplice diagramma del tipo
riassume tutte le caratteristiche di una v.a. discreta.
In tutti gli esempi fondamentali i valori possibili sono un sottoinsieme dei numeri naturali
N =0, 1, ..., o del tipo 0, ..., oppure N stesso. Scriveremo
j
I
:= 1 (A = /)
per ogni / N. A partire dalla densit di probabilit discreta j
I
IN
si calcolano probabilit
pi complesse semplicemente per somma (nita o innita a seconda dei casi):
1 (A ) =

I
1 (A = /) =

I
j
I
.
Esempio 20 Una v.a. di Bernoulli di parametro j, con j [0, 1], una v.a. A che assume
solo i valori 0 ed 1, con densit discreta di probabilit data da j
0
= 1 j, j
1
= j, o in altre
parole
1 (A = 1) = j, 1 (A = 0) = 1 j.
Pu essere utile una scrittura schematica del tipo
A =
_
1 con probabilit j
0 con probabilit 1 j
.
La propriet di somma uno ovvia.
Esempio 21 Una v.a. binomiale di parametri : e j, con : intero positivo e j [0, 1], una
v.a. A che assume i valori / = 0, 1, ..., :, con probabilit
1 (A = /) =
_
:
/
_
j
I
(1 j)
aI
.
Scriveremo per brevit A ~ 1(:, j). La propriet di somma uno deriva dalla formula del
binomio di Newton:
(a +/)
a
=
_
:
/
_
a
I
/
aI
.
Per questa formula,
a
I=0
_
:
/
_
j
I
(1 j)
aI
= (j + (1 j))
a
= 1
quindi i numeri della denizione di v.a. binomiale sono eettivamente una densit discreta
di probabilit. Nella gura si vede una 1(10, 0.2); i valori numerici, per / = 0, 1, ..., 10, sono
0.107, 0.268, 0.301, 0.201, 0.088, 0.026, 0.005, 7. 810
4
, 7. 310
5
, 4. 010
6
, 1.010
7
(si noti la piccolezza degli ultimi). Non riportiamo il graco di una 1(10, 0.5), che, come si
pu immaginare, simmetrico. Inne, il graco di una 1(10, 0.8) come quello della gura
ma riesso rispetto al punto centrale.
hist(rbinom(10000,10,0.2)+0.01,11)
Densit di massa di una 1(10, 0.2)
Osservazione 13 Osserviamo che per : = 1 le v.a. binomiali sono v.a. di Bernoulli. Quindi
possiamo indicare le Bernoulli scrivendo A ~ 1(1, j). Vedremo pi avanti, nel Teorema 5,
che la somma di : v.a. di Bernoulli 1(1, j) indipendenti una 1(:, j).
Esempio 22 Una v.a. di Poisson di parametro `, con ` 0, una v.a. A che assume tutti
i valori interi non negativi con probabilit data dalla formula
1 (A = /) = c
A
`
I
/!
per ogni / N. Scriveremo A ~ T (`). La propriet di somma uno deriva dallo sviluppo in
serie dellesponenziale:
c
A
=
o
I=0
`
I
/!
.
Il seguente teorema stabilisce un legame fondamentale tra v.a. binomiali e di Poisson. Ri-
mandiamo un po pi avanti la sua interpretazione, che svolgeremo congiutamente a vari
discorsi interpretativi.
Teorema 4 (degli eventi rari) Dato ` 0, posto j
a
=
A
a
(che di solito si scrive j: = `),
per ogni / N vale
lim
ao
_
:
/
_
j
I
a
(1 j
a
)
aI
= c
A
`
I
/!
.
Proof. Fissato / N, vale
_
:
/
_
j
I
a
(1 j
a
)
aI
=
:(: 1) (: / + 1)
/!
`
I
:
I
(1 j
a
)
a
(1 j
a
)
I
=
`
I
/!

:
:

: 1
:

: / + 1
:

(1 j
a
)
a
(1 j
a
)
I
ed ora basta osservare che per :
:
:
= 1,
: 1
:
1, ...,
: / + 1
:
1
(e sono un numero nito e ssato / di termini),
(1 j
a
)
I
=
_
1
`
:
_
I
1
I
= 1
mentre per un noto limite notevole
(1 j
a
)
a
=
_
1
`
:
_
a
c
A
.
Mettendo insieme tutti questi limiti ed usando i teoremi sul limite di prodotto e rapporto di
successioni, si ottiene il risultato desiderato.
A titolo di esempio, consideriamo una v.a. T (2). Essa limite di 1(:, j) con :j = 2. I
valori
: = 10, j = 0.2
sono ancora ben lontani intuitivamente da ci che pensiamo essere il limite per : grande.
Eppure i primi valori, per / = 0, 1, ..., 10 della T (2) sono 0.135, 0.270, 0.270, 0.180, 0.090,
0.036, 0.012, 0.003, 8. 5 10
4
, 1. 9 10
4
, 3. 8 10
5
, che non si scostano molto da quelli
riportati sopra per una 1(10, 0.2). Il graco riportato in gura. Qualche lieve dierenza
ancora apprezzabile e fa capire intuitivamente alcune dierenze di forma tra le due densit
di massa.
hist(rpois(10000,2)+0.01)
Densit di massa di una T (2)
Osservazione 14 Il legame simbolico tra il parametro delle v.a. esponenziali e quello delle
Poisson non casuale. Vedremo pi avanti un legame anche tra queste due classi, particolar-
mente interessante in quanto lega v.a. continue a v.a. discrete, e non attraverso operazioni
limite, bens operazioni logiche nite.
Esempio 23 Una v.a. geometrica di parametro j, con j (0, 1), una v.a. A che assume
tutti i valori interi non negativi con probabilit data dalla formula
1 (A = /) = (1 j)
I
j
per ogni / N (questa la densit geometrica, introdotta precedentemente). Queste v.a.
sono un po lanalogo nel discreto delle v.a. esponenziali. Non tracciamo la loro densit di
massa, che si pu facilmente immaginare per analogia con le v.a. esponenziali.
Esempio 24 Per certe applicazioni utile introdurre la cosidetta v.a. geometrica modicata
(spesso chiamata anchessa semplicemente v.a. geometrica). Una v.a. geometrica modicata
di parametro j una v.a. che assume i valori interi positivi / = 1, 2, ... con probabilit
1 (A = /) = (1 j)
I1
j.
1.2.4 Denizione di variabile aleatoria
Fino ad ora, per v.a. abbiamo inteso intuitivamente ogni grandezza casuale che incontriamo
in qualche applicazione pratica. Se per ci sforziamo, di fronte ad un problema concreto, di
costruire esplicitamente , vediamo che le grandezze aleatorie si possono vedere come funzioni
denite sul dominio a valori reali.
Esempio 25 Consideriamo : v.a. di Bernoulli di parametro j. Ad esempio, potremmo
essere interessati allo studio di una banca avente : correntisti (es. 100), ciascuno dei quali, in
una giornata generica, si presenta con probabilit j (es.
1
5
) per ritirare del denaro. Associamo
ad ogni correntista una v.a. di Bernoulli che vale 1 se il correntista si presenta per ritirare
denaro, 0 altrimenti. Abbiamo quindi : v.a. di Bernoulli, A
1
per il correntista numero 1,
ecc. no a A
a
per il correntista numero 100. Il numero di richieste (in un dato giorno)
dato allora da
o
a
= A
1
+... +A
a
in quanto ogni richiesta contribuisce con un 1 in questa somma, mentre le mancate richeste
contribuiscono con 0.
Introduciamo lo spazio dei possibili esiti. Un esito . in questo problema corrisponde
a sapere, per ogni correntista, se si presentato o meno. Quindi, un esito una stringa
. = (.
1
, ..., .
a
) in cui .
1
vale 1 se il primo correntista si presentato, zero altrimenti, e cos
via per gli altri .
i
. linsieme di tutte queste sequenze.
Denito , ad ogni esito . possiamo associare diverse grandezze: ad esempio la grandezza
A
1
(.) = .
1
che legge, di tutta linformazione contenuta in ., solo se il primo correntista si presentato
o meno. Oppure, ad esempio, la grandezza
o (.) = A
1
(.) +... +A
a
(.) = .
1
+... +.
a
che legge il numero di correntisti che si sono presentati, relativamente a quella sequenza ..
Vediamo che in questo modo abbiamo denito delle funzioni A
1
, o, con dominio , a valori
reali. Esse corrispono esattamente, come signicato pratico, alle omonime grandezze aleatorie
introdotte prima a livello non rigoroso, mentre ora, come funzioni da in R, sono oggetti
matematici ben precisi.
Lesempio mostra che ragionevole denire come variabili aleatorie le funzioni denite su
uno spazio , a valori in qualche insieme. Manca ancora una precisazione, per arrivare alla
denizione completa, ma prima svolgiamo qualche osservazione.
Con riferimento allesempio, il simbolo o, prima senza signicato matematico ma usato
per comodit di scrittura, diventa ora lusuale simbolo di funzione avente un signicato
matematico preciso: o abbreviazione di o (.), come ) lo di )(r). Prima scrivevamo
o = / come simbolo abbreviato per intendere levento / correntisti si presentano. Ora
possiamo interpretare rigorosamente o = / come evento in , ovvero come sottoinsieme di
: linsieme di tutti i punti . tali che o (.) = /. Detto altrimenti, ora il simbolo o = /
semplicemente labbreviazione dellespressione perfettamente rigorosa e signicativa
. : o (.) = / .
Le variabili aleatorie sono funzioni. Quando nominiamo una v.a. A, sottointendiamo che
ci sia uno spazio probabilizzato (, T, 1) su cui A sia denita come funzione . A (.).
Quando scriviamo un evento A intendiamo levento
. : A (.) .
Quando scriviamo 1 (A ) stiamo calcolando la probabilit 1 di questo evento. Come in
vari esempi visti nella prima lezione, non sempre si esplicita lo spazio quando si maneg-
giano delle variabili aleatorie; una cosa limpianto teorico, unaltra la pratica con le sue
scorciatoie e leliminazione della trattazione esplicita di tutti i dettagli a volte solo noiosi
e non rilevanti per il risultato pratico. Notiamo per che nella nostra esperienza personale
capita ogni tanto di doversi fermare e cercare di capire le cose con limpianto rigoroso, di
fronte a problemi non banali in cui una tratazione troppo intuitiva lascia qualche ansia circa
la veridicit dei risultati (per motivi di sostanza, non puramente formali). In altre parole, a
volte pensare che la scrittura A sta per linsieme degli . tali che A (.) ,
molto utile per essere sicuri di ci che si sta facendo. Senza menzionare i casi in cui invece
indispensabile luso esplicito dello spazio , come ad esempio nella legge forte dei grandi
numeri.
Veniamo per alla denizione completa di v.a. Il problema che, data una funzione
A : R, vogliamo calcolare 1 (A ), quindi lisieme A deve appartenere
alla famiglia T. Quindi dovremo imporre la condizione A T. Come per abbiamo
preso T invece che la famiglia di tutte le parti di , per motivi analoghi non vogliamo
necessariamente considerare tutti gli insiemi R, nella richiesta precedente.
Fissiamo allora una o-algebra E di sottoinsiemi di R.
Denizione 15 Chiamiamo v.a. su (, T, 1) a valori in (R, E) ogni funzione A : R
tale che A T per ogni E.
In genere, salvo avviso contrario, si prende come o-algebra E quella dei boreliani. Questa
la denizione di variabile aleatoria, che illustriamo col seguente disegno:
Si noti che la somma di due v.a. A ed 1 ben denita se esse sono v.a. denite sullo
stesso spazio (, T, 1). Infatti si pone
(A +1 ) (.) = A (.) +1 (.) .
1.2.5 Legge di una v.a.
Data una v.a. A a valori reali denita su uno spazio probabilizzato (, T, 1), questa induce
una distribuzione di probabilit j
A
, detta legge (o distribuzione) di A, sui borelani di R.
Questa distribuzione di probabilit j
A
denita semplicemente da
j
A
() = 1 (A ) .
In altre parole, le probabilit 1 (A ) che abbiamo introdotto come i primi oggetti legati
ad una v.a. A, si possono vedere come una funzione di , denita per tutti i boreliani di
R. Questa funzione la indichiamo con j
A
e la chiamamo legge di A. Si pu vericare che
soddisfa i requisiti di una probabilit (a valori in [0, 1], j
A
(R) = 1, ed o-additiva).
E utile farsi unimmagine mentale o graca, anche se tracciare un disegno piuttosto
dicile. Si deve pensare che sullinsieme sia distribuita una massa 1, e che questa venga
trasportata dalla funzione A in una massa j
A
distribuita su R. Parlando intuitivamente,
come se la massa che sta in ogni punto . venga trasportata da A nel punto A(.) (limmagine
matematicamente scorretta in quanto in molti casi i singoli punti . hanno tutti massa nulla,
quindi il ragionamento va sempre riferito a insiemi di punti). Se ad esempio due o pi punti
vengono trasformati da A nello stesso punto (A non iniettiva), le loro masse vanno a sommarsi
nel punto di arrivo.
La probabilit j
A
un po astratta, quanto lo 1 stessa, in relazione a problemi in cui
tendamo ad interessarci solo delle densit delle v.a. in gioco e dei calcoli che si possono fare
su di esse. Osserviamo allora che se A una v.a. continua con densit )(r), allora vale
j
A
() =
_
) (r) dr
mentre se A una v.a. discreta sui numeri interi non negativi, con densit di massa j(/),
allora
j
A
() =

I
j (/) .
Anzi, data una misura di probabilit j sui boreliani di R, anche a priori non associata ad
una v.a. A, diremo che continua se esiste una densit )(r) per cui valga la prima formula
precedente, discreta se vale la seconda. Ma esistono interessanti misure j
A
(associate ad
altrettante v.a. A) che non sono n continue n discrete: miste nei casi pi semplici, oppure
del tutto inedite come le misure frattali.
Quando diremo che certe v.a. sono equidistribuite o identicamente distribuite (dette an-
che isonome), intenderemo che abbiano la stessa legge. Ad esempio, tutte esponenziali di
parametro 3. Questo non signica che siano uguali, in quanto funzioni da in R. Pensiamo
ai due risultati dei lanci di due dati. Descriviamo il primo con una v.a. A
1
, il secondo con
A
2
. queste due v.a. hanno la stessa legge j, che una probabilit discreta sui numeri da 1 a
6, uniforme. Ma non sono la stessa v.a. Intuitivamente chiaro, in quanto non corrispondono
allo stesso esperimento. Matematicamente la dierenza si apprezza se si introduce esplicita-
mente lo spazio delle coppie (r, j) dei possibili risultati. Vale A
1
(r, j) = r, A
2
(r, j) = j,
quindi sono due diverse funzioni.
1.2.6 Funzione di distribuzione (cdf) di una v.a.
Data una v.a. A, si chiama funzione di distribuzione (o di ripartizione) la funzione r 1(r)
denita da
1(r) = 1 (A _ r) .
Nel linguaggio ingegneristico si sottolinea che la cumulativa: funzione di distribuzione
cumulativa, abbreviata (seguendo il nome inglese) in cdf. Essa una funzione da R in [0, 1],
crescente (in senso debole), soddisfa
lim
ao
1(r) = 0, lim
a+o
1(r) = 1,
continua a destra in ogni punto:
lim
aa
+
0
1(r) = 1 (r
0
) \r
0
R.
La verica di queste propriet facile ma richiede un po di lavoro a partire dalla numerabile
additivit di j. La probabilit degli intervalli legata agli incrementi di 1:
1(/) 1(a) = 1 (A (a, /]) , \a < / R.
-5 -4 -3 -2 -1 0 1 2 3 4 5
0.2
0.4
0.6
0.8
1.0
x
y
Graco della cdf normale standard
Il limite sinistro di )(r) esiste in ogni punto r
0
, come per qualsiasi funzione crescente,
ma pu essere strettamente minore di 1 (r
0
), nel qual caso la funzione 1 discontinua in r
0
.
In tale punto si verica una concentrazione di massa per la j, nel senso che j(r
0
) 0.
Questa propriet tipica per le misure discrete, e si ritrova anche nelle cosidette distribuzioni
miste, mentre per le misure denite da una densit di probabilit la massa dei singoli punti
nulla.
La funzione 1(r) porta il nome di funzione di distribuzione perch da un lato una
funzione e non una misura, dallaltro per dice tutto della distribuzione (legge) della v.a. a
cui associata. Spesso nella letteratura applicativa non viene mai introdotto il concetto di
legge di una v.a., essendo un po dicile, mentre si cerca di ricondurre tutto alluso della
funzione di distribuzione 1(r), oggetto pi semplice, che in eetti suciente per molti
scopi.
Quando A ha densit )(r), vale
1(r) =
_
a
o
) (t) dt.
Gracamente, 1(r) misura larea sottesa dal graco di ), a sinistra del punto r. Nei punti
in cui ) continua, per il teorema fondamentale del calcolo integrale abbiamo
1
t
(r) = )(r).
Quindi, fa ) si ricava 1 per integrazione, e da 1 si ricava ) per derivazione.
Se A una v.a. discreta sui numeri interi non negativi, con massa di probabilit j
I
, vale
1(r) =

Ia
j
I
e
j
I
= 1(/) 1(/ 1).
1.2.7 V.A. indipendenti
Date due v.a. A, 1 denite sullo stesso spazio probabilizzato (, T, 1), diciamo che sono
indipendenti se
1 (A , 1 1) = 1 (A ) 1 (1 1)
per ogni coppia , 1 di boreliani di R. Linterpretazione chiara: gli eventi A e 1 1
che descrivono cosa pu accadere in relazione ad A e 1 , devono essere indipendenti.
Una famiglia A
c
di v.a. composta da v.a. indipendenti se per ogni sequenza c
I
di
indici e
I
di boreliani, abbiamo
1
_
I
(A
c
I

I
)
_
=

I
1 (A
c
I

I
) .
A livello quantitativo, c modo di descrivere lindipendenza tramite oggetti come la
densit o i valori medi che introdurremo? In parte s, ma serve la densit congiunta, che
descriveremo nel prossimo paragrafo.
Come applicazione del concetto rigoroso di v.a. e del concetto di indipendenza, dimostri-
amo il seguente teorema.
Teorema 5 La somma di : Bernoulli indipendenti di parametro j una 1(:, j).
Proof. Il teorema vale per v.a. di Bernoulli denite su qualsiasi spazio probabilizzato ma per
fare una dimostrazione pi istruttiva mettiamoci in uno schema pi preciso (si pu dimostrare
che questo non restrittivo). Riprendiamo lo spazio
= 0, 1
a
dellesempio 25 con la probabilit di una sequenza . = (.
1
, ..., .
a
) data da 1 (.) = j
I(.)
(1 j)
aI(.)
,
dove / (.) il numero di uni nella sequenza, ovvero
/ (.) =
a
i=1
.
i
.
Si ricorder che avevamo gi introdotto questo spazio in passato, come esempio di spazio
probabilizzato nito, diverso da quello equiprobabile. Su introduciamo le v.a. A
i
denite
da
A
i
(.) = .
i
dove continuiamo ad usare la convenzione . = (.
1
, ..., .
a
).
Passo 1. Verichiamo che le A
i
sono v.a. di Bernoulli di parametro j indipendenti. La
verica noiosa ed il lettore pu ometterla. Data una stringa r = (r
1
, ..., r
a
), vale
1 (A
1
= r
1
, ..., A
a
= r
a
) = 1 (. : .
1
= r
1
, ..., .
a
= r
a
)
= 1 ((r
1
, ..., r
a
)) = j
I(a)
(1 j)
aI(a)
e daltra parte
1 (A
1
= r
1
) = 1 (. : .
1
= r
1
) =

.:.
1
=a
1
1 (.)
=

(.
2
,...,.n)
1 (r
1
, .
2
, ..., .
a
) =

(.
2
,...,.n)
j
I((a
1
,.
2
,...,.n))
(1 j)
aI((a
1
,.
2
,...,.n))
= j
a
1
(1 j)
1a
1

(.
2
,...,.n)
j
I((.
2
,...,.n))
(1 j)
(a1)I((.
2
,...,.n))
= j
a
1
(1 j)
1a
1
ed analogamente
1 (A
i
= r
i
) = j
a
.
(1 j)
1a
.
da cui discende sia che
1 (A
1
= r
1
, ..., A
a
= r
a
) = 1 (A
1
= r
1
) 1 (A
a
= r
a
)
cio lindipendenza, sia il fatto che le A
i
sono v.a. di Bernoulli di parametro j.
Passo 2. Fatta questa verica, introduciamo la v.a. o
a
= A
1
+ ... + A
a
e dimostriamo
che una v.a. binomiale 1(:, j). Calcoliamo 1(o = ,). Osserviamo che o = , equivale a
dire che ci sono , uni. Quindi
1 (o = ,) =

.S=)
1(.) =

.:I(.)=)
j
I(.)
(1 j)
aI(.)
.:I(.)=)
j
)
(1 j)
a)
= j
)
(1 j)
a)
[o = ,[
dove [o = ,[ indica la cardinalit dellinsieme o = ,. Ma per la proposizione ?? sul
numero di sequenze con , uni, vale
[o = ,[ =
_
:
,
_
.
Vediamo un altro esempio tipico di calcolo su v.a. indipendenti.
Esempio 26 Supponiamo che un sistema elettronico sia composto di tre sottosistemi. In-
dichiamo con T il tempo di vita del sistema e con T
1
, T
2
, T
3
i tempi di vita dei tre sottosistemi.
Vale
T = min(T
1
, T
2
, T
3
) .
Pertanto, eventi det tipo T t
0
(il sistema si romper dopo il tempo t
0
, cio durer
almeno un tempo t
0
) si possono riscrivere nella forma
T t
0
= T
1
t
0
, T
2
t
0
, T
3
t
0
=
3
i=1
T
i
t
0
.
Supponiamo che le tre variabili aleatorie T
1
, T
2
, T
3
siano indipendenti. Allora
1 (T t
0
) =
3
i=1
1 (T
i
t
0
) .
Pertanto, se conosciamo la densit di probabilit del tempo di vita dei tre sottosistemi,
possiamo calcolare 1 (T t
0
).
1.2.8 Vettori aleatori ed altri enti aleatori
Una grandezza aleatoria a valori vettoriali
A = (A
1
, ..., A
a
)
in cui le componenti A
i
sono v.a. a valori reali denite su uno stesso spazio probabiliz-
zato (, T, 1), pu essere chiamata un vettore aleatorio. Un vettore aleatorio quindi
unapplicazione
A
R
a
le cui componenti sono variabili aleatorie. Pu essere la coppia posizione-velocit di una
particella che si muove soggetta a variazioni casuali. Oppure semplicemente possono essere i
valori uscenti da una sequenza di : esperimenti.
Analogamente, una grandezza aleatoria a valori in uno spazio di funzioni, ad esempio lo
spazio delle funzioni continue su un intervallo [0, T],
A
C ([0, T] ; R)
pu essere chiamata una funzione aleatoria (bisogna specicare una propriet del tipo A
T, ma tralasciamo questo particolare). Si pensi ad esempio al campo di velocit di un uido
turbolento, se decidiamo di descriverlo come campo aleatorio. Per chi conosce le distribuzioni,
si possono introdurre le distribuzioni aleatorie. Similmente si possono introdurre le misure
aleatorie, gli insiemi aleatori, ecc. In sintesi, anche se dedichiamo la maggior parte dei nos-
tri sforzi allo studio di v.a. a valori reali, esistono generalizzazioni ad enti aleatori a valori
in insiemi di oggetti diversi dai numeri reali (R
a
, spazi di funzioni, distribuzioni, misure,
spazi di insiemi, ecc.). In genere queste generalizzazioni si appoggiano su concetti topologi-
ci, quindi utile che ci sia un concetto di vicinanza in tali famiglie di oggetti. Dal punto
di vista matematico, in genere si riesce a vincere la sda di denire oggetti aleatori del
tipo pi disparato. Nelle scienze applicate questo pu essere di grande interesse (descrivere
forme o proli aleatori, concentrazioni di massa aleatorie, campi aleatori di interesse sico,
ecc.). Naturalmente poi c il problema di ridurre i gradi di libert per tornare a descrizioni
quantitativamente ecaci.
Esempio 27 Dato uno spazio probabilizzato (, T, 1), consideriamo un insieme C (.) R
a
,
indicizzato da . . Lo chiamamo insieme aleatorio se, preso un qualsiasi punto r R
a
,
la funzione a valori reali
. d (r, C (.))
una varabile aleatoria. La notazione d (r, C (.)) indica la distanza euclidea di r da C (.),
denita n generale da
d (r, ) = inf
j
d (r, j)
dove d (r, j) = [r j[ lusuale distanza euclidea tra due punti. A titolo di esempio, C (.)
potrebbe descrivere come si presenta una struttura, inizialmente di forma C
0
, dopo essere
stata sollecitata da una trasformazione aleatoria. Detto cos astratto e probabilmente privo
di interesse pratico. Per, se possibile parametrizzare le trasformazioni aleatorie che inter-
essano in un esempio specico, in modo da avere solo pochi parametri aleatori, C (.) verrebbe
a dipendere da pochi parametri aleatori, ad es. una coppia di v.a. gaussiane che descrivano
torsione e dilatazione. Vediamo quindi che possibile formalizzare matematicamente concetti
anche piuttosto arditi, come quello di forma aleatoria.
Esempio 28 Indichiamo con '
+
1
(R
a
) linsieme delle misure di probabilit sui boreliani di
R
a
. Chiamiamo delta di Dirac in r
0
R
a
la misura di probabilit c
a
0
denita da
c
a
0
() =
_
1 se r
0

0 se r
0
,
.
Intuitivamente, una massa unitaria concentrata nel punto r
0
. Supponiamo di studiare una
dinamica aleatoria, a tempo discreto, che si svolge in R
a
. Indichiamo con A
1
la posizione al
tempo t = 1, aleatoria, poi con A
2
la posizione al tempo t = 2, sempre aleatoria, e cos via.
Poi consideriamo, al tempo :, la media temporale
j
a
=
1
:
a
i=1
c
A
.
.
Con questo simbolo abbiamo indicato una massa equidistribuita tra i punti A
i
, per i = 1, ..., :.
j
a
una misura di probabilit, quindi un elemento di '
+
1
(R
a
), ed aleatoria, in quanto lo
sono i punti A
i
. Abbiamo quindi una misura aleatoria:
j
n
'
+
1
(R
a
) .
Lesempio non articioso: questa misura descrive il tempo trascorso dalla dinamica nelle
diverse regioni dello spazio R
a
. Per : la musura aleatoria j
a
legata al concetto di
misura invariante (che descrive il regime stazionario) della dinamica.
Torniamo ai semplici vettori aleatori. Un vettore aleatorio A = (A
1
, ..., A
a
) denisce una
legge j
A
sui boreliani di R
a
, detta legge congiunta del vettore A. Per i boreliani prodotto
essa denita da
j
A
(
1
...
a
) = 1 (A
1

1
, ..., A
a

a
)
e per gli altri si riesce a denire con procedimenti di estensione che non stiamo a descrivere.
Questa legge congiunta pu essere continua, ovvero avere una densit ) (r
1
, ..., r
a
) tale
che
j
A
(
1
...
a
) =
_
1
...n
) (r
1
, ..., r
a
) dr
1
dr
a
.
Vel cio
1 (A
1

1
, ..., A
a

a
) =
_
1
...n
) (r
1
, ..., r
a
) dr
1
dr
a
e pi in generale
1 ((A
1
, ..., A
a
) ) =
_
) (r
1
, ..., r
a
) dr
1
dr
a
se un sottoinsieme (opportuno, ad es. boreliano) di R
a
. Quando esiste, ) (r
1
, ..., r
a
) si
chiama densit congiunta del vettore aleatorio A.
Esempio 29 Ad esempio,
1 (A
1
A
2
) =
_
(a
1
,a
2
)R
2
:a
1
a
2
) (r
1
, r
2
) dr
1
dr
2
.
In altri casi, la legge di A = (A
1
, ..., A
a
) pu essere discreta. Supponiamo per semplicit
di notazione (in realt non restrittivo) che le singole variabili A
1
, ..., A
a
assumano come
valori possibili solo i valori a
I
IN
. Allora il vettore A = (A
1
, ..., A
a
) pu assumere ciascuno
dei valori
(a
I
1
, ..., a
In
)
con gli a
I
.
a
I
IN
. Allora interesser calcolare innanzi tutto le probabilit del tipo
j (a
I
1
, ..., a
In
) = 1 (A
1
= a
I
1
, ..., A
a
= a
In
) .
La famiglia di numeri
_
j (a
I
1
, ..., a
In
) ; a
I
1
, ..., a
In
a
I
IN
_
pu essere chiamata densit
discreta del vettore A.
Parallelamente sopravvivono i vecchi concetti per ciascuna delle v.a. A
v
. La legge di A
1
si chiama ora legge marginale di A
1
, e se ha densit )
A
1
(r
1
) questa si dir densit marginale
di A
1
, e cos via per le altre.
Nasce allora la domanda circa il legame tra congiunta e marginali. Limitiamoci a discutere
le densit.
Teorema 6 In generale (quando le densit esistono), vale
)
A
1
(r
1
) =
_
R
n1
) (r
1
, ..., r
a
) dr
2
dr
a
e cos per le altre. Quando A
1
, ..., A
a
sono v.a. indipendenti, vale inoltre
) (r
1
, ..., r
a
) = )
A
1
(r
1
) )
An
(r
a
)
e vale anche il viceversa (se la densit congiunta il prodotto delle marginali, allora le v.a.
sono indipendenti).
Omettiamo la dimostrazione, non troppo dicile peraltro. Osserviamo come interpre-
tazione che, mentre dalla congiunta sempre possibile calcolare le marginali, viceversa dalle
marginali in genere molto dicile risalire alla congiunta, salvo nel caso di indipenden-
za. Questo non deve stupire: come il problema di calcolare la probabilit di una inter-
sezione 1 ( 1). In generale, abiamo bisogno di conoscere ad esempio 1 ([1), che
uninformazione ben pi complessa delle probabilit marginali 1() e 1(1).
Esempio 30 Gaussiana multidimensionale canonica. Supponiamo che A
1
, ..., A
a
siano v.a.
indipendenti gaussiane canoniche, quindi tutte con densit (marginale)
1
_
2
exp
_
r
2
,2
_
.
Allora il vettore aleatorio A = (A
1
, ..., A
a
) ha densit congiunta data dal prodotto delle
marginali (Teorema 6)
) (r
1
, ..., r
a
) =
1
_
(2)
a
exp
_
_
r
2
1
+ +r
2
a
_
2
_
che, usando la norma euclidea [.[ ed il prodotto scalare euclideo ., . e la notazione r =
(r
1
, ..., r
a
), possiamo scrivere anche nella forma pi compatta
) (r) =
1
_
(2)
a
exp
_
[r[
2
2
_
=
1
_
(2)
a
exp
_
r, r
2
_
.
Questa la gaussiana canonica in : dimensioni. Il suo graco in dimensione 2 una
supercie a campana, simmetrica per rotazione.
-2
y x
-2
0.00
0
2
0
2
0.05
0.15
0.10
z
Graco della normale standard in due dimensioni
1.2.9 Valori medi o attesi
Valori medi sperimentali
Dato un campione sperimentale r
1
, ..., r
a
, chiamiamo sua media aritmetica il numero
r =
r
1
+... +r
a
:
=
1
:
a
i=1
r
i
.
A volte viene chiamata anche media sperimentale, o empirica, o anche in altri modi.
Data poi una una funzione ,(r), possiamo considerare il campione ,(r
1
), ... , ,(r
a
) e
calcolarne la media aritmetica
, =
,(r
1
) +... +,(r
a
)
:
.
Ad esempio, presa come , la funzione scarto quadratico (rispetto alla media r)
,(r) = (r r)
2
si ottiene il numero
1
:
a
i=1
(r
i
r)
2
che potremmo chiamare scarto quadratico medio. In realt, per un motivo che ora non
possibile anticipare, si preferisce il fattore
1
a1
di fronte alla precedente espressione, per cui
si arriva ad introdurre il numero
o
2
=
1
: 1
a
i=1
(r
i
r)
2
detto appunto scarto quadratico medio sperimentale.
Cos di seguito si potrebbero introdurre altri valori medi sperimentali. Citiamo solamente
la frequenza empirica: supponiamo che i valori r
1
, ..., r
a
(oppure i valori ,(r
1
), ... , ,(r
a
)
) siano tutti pari ad 1 o 0, col signicato che si sta esaminando un evento, diciamo , e vale
r
1
= 1 se al primo esperimento si avverato , r
1
= 0 altrimenti, e cos via per gli altri r
i
.
Allora la somma r
1
+ ... + r
a
conta il numero di volte in cui si avverato (come in uno
schema gi visto con le v.a. di Bernoulli e binomiali), e quindi r rappresenta la frequenza
relativa con cui si avverato . In questo contesto si preferisce allora una notazione del tipo
j al posto di r, che allude allapprossimazione di una probabilit, arrivando quindi a scrivere
j =
r
1
+... +r
a
:
come denizione di frequenza empirica con cui si avvera levento .
1.2.10 Valor atteso: suo calcolo con le densit
Data una v.a. A : R, in potesi estremamente generali possibile denire il concetto di
valore atteso di A, che indicheremo con 1 [A]. A volte il valore atteso viene anche chiamato
speranza o attesa, o semplicemente media, valor medio. Useremo molto spesso il termine
media o valor medio, il pi usato ad esempio nella letteratura sica, anche se bisogna ammet-
tere che pu creare qualche frainteso con la media aritmetica di un campione sperimentale.
Non diamo subito la denizione, piuttosto impegnativa, ma enunciamo un teorema di calcolo,
valido quando A una v.a. continua o discreta.
Teorema 7 Se A una v.a. continua con densit )(r), e
_
+o
o
[r[ ) (r) dr < , allora
1 [A] =
_
+o
o
r) (r) dr.
Se A una v.a. discreta sui numeri interi non negativi, con densit di massa j(/), e
o
I=0
/j (/) < , allora
1 [A] =
o
I=0
/j (/) .
Se la v.a. discreta A assume i valori a
1
, a
2
... invece che i numeri naturali, la formula
diventa semplicemente
1 [A] =
o
I=0
a
I
j (/)
e vale se

o
I=0
[a
I
[ j (/) < . A parole, il valore atteso la somma dei valori per le loro
probabilit, o la media dei valori pesati con le loro probabilit.
Non avendo dato la denizione, non possiamo ovviamente dimostrare il teorema. Os-
serviamo solo che a volte esso viene scelto come denizione, anche se questa impostazione
sia restrittiva (il valor medio si pu denire anche per molte v.a. che non sono n continue
n discrete), sia limitativa per quanto riguarda la possibilit di svolgere poi dimostrazioni
rigorose di importanti teoremi.
Vediamo per una interpretazione intuitiva della seconda formula del teorema, per sem-
plicit nel caso di una v.a. A discreta che assume solo un numero nito di valori a
1
, ..., a
A
.
Vale 1 [A] =

A
I=0
a
I
j (/). Supponiamo di avere un campione sperimentale r
1
, ..., r
a
estrat-
to da questa v.a.; indichiamo con :(/) il numero di elementi di questo campione uguali ad
a
I
e con j (/) il rapporto
b a(I)
a
cio la percentuale degli elementi del campione che valgono a
I
.
Ci aspettiamo che j (/) sia circa uguale a j (/):
j (/) ~ j (/) .
Ma allora, raggruppando la somma r
1
+ ... + r
a
secondo i valori assunti dai vari elementi
(scambiando ovviamente i termini)
r
1
+... +r
a
= (a
1
+... +a
1
) +... + (a
A
+... +a
A
)
= :(1) a
1
+... + :(') a
A
otteniamo
r =
r
1
+... +r
a
:
=
:(1) a
1
+... + :(') a
A
:
=
:(1)
:
a
1
+... +
:(')
:
a
A
= j (1) a
1
+... + j (') a
A
~ j (1) a
1
+... +j (') a
A
= 1 [A] .
Abbiamo cio vericato la seguente aermazione: se le percentuali sperimentali j (/) sono
circa uguali alle probabilit teoriche j (/), allora la media aritmetica r circa uguale alla
media teorica 1 [A].
Inne, si riconosce che lespressione della media nel caso di v.a. continue lestensione
naturale al continuo della formula per le v.a. discrete. Per tutte queste ragioni il risultato
del teorema molto naturale (e viene a volte preso come denizione di valo medio).
Il teorema precedente si generalizza a funzioni di variabili aleatorie:
Teorema 8 Se A una v.a. continua con densit )(r), allora
1 [,(A)] =
_
+o
o
,(r) ) (r) dr
per ogni funzione ,(r) per cui abbia senso lintegrale. Analogamente, se A una v.a. discreta
con densit di massa j(/), allora
1 [,(A)] =
o
I=0
,(/) j (/) .
Il teorema si estende poi al caso di funzioni di vettori aleatori. Scriviamo lenunciato solo
nel caso di vettori continui; nel caso discreto vale un teorema simile, un po noioso da scrivere
in generale (si veda un esempio poco sotto).
Teorema 9 Se A = (A
1
, ..., A
a
) un vettore aleatorio continuo con densit congiunta
)(r
1
, ..., r
a
), allora
1 [,(A
1
, ..., A
a
)] =
_
o
o
,(r
1
, ..., r
a
) )(r
1
, ..., r
a
)dr
1
...dr
a
.
per ogni funzione ,(r
1
, ..., r
a
) per cui abbia senso lintegrale.
Propriet del valor medio
Iniziamo con lenunciare le propriet pi semplici. Per ora non diamo (quasi) mai la di-
mostrazione, in attesa di avere a disposizione la denizione rigorosa di valor medio, con la
quale molte delle sue propriet diventano abbastanza semplici da dimostrare. Evitiamo di
appesantire gli enunciati con tutte le ipotesi ma, in sostanza, bisogna assumere che tutti i
valori medi di cui si parla esistano niti.
Linearit
Se A e 1 sono due v.a. qualsiasi denite sullo stesso spazio probabilizzato e c, , e sono
numeri reali, allora si ha:
1[cA +,1 +] = c1[A] +,1[1 ] + .
Osservazione 15 Ribadiamo il fatto che non necessaria alcuna ipotesi di indipendenza
delle variabili aleatorie A e 1 .
Osservazione 16 La propriet di linearit fa pensare che il valor medio sia unoperazione
simile allintegrale. Con la denizione rigorosa vedremo che questo profondamente vero.
Invece, la scrittura integrale 1[A] =
_
r)(r)dr solo un riesso di questo: non per via di
questa scrittura che 1[A] ha le propriet di unintegrale. Si provi infatti ad immaginare una
dimostrazione della linearit basata su
_
r)(r)dr: bisognerebbe conoscere la densit )
cA+oY
in relazione alle densit )
A
e )
Y
. E possibile ma intricata.
Osservazione 17 Dimostriamo la linearit nel caso di v.a. discrete, caso in cui abbastanza
intuitivo scrivere la densit discreta j
cA+oY +
in relazione alle densit discrete j
A
e j
Y
.
Chiariamo alcune notazioni. Supponiamo che A assuma i valori r
i
con probabilit j
A
(i)
mentre 1 assuma i valori j
)
con probabilit j
Y
(,). Allora 7 = cA +,1 + assume i
valori . della forma cr
i
+,j
)
+ al variare di tutte le coppie (i, ,). Pertanto
1 [cA +,1 +] =

i)
(cr
i
+,j
)
+) 1 (A = r
i
, 1 = j
)
) .
La validit di questa identit abbastanza intuitiva. Se si vuole tracciare una dimostrazione
completa si pu argomentare cos. Il vettore aleatorio (A, 1 ) ha come densit congiunta i
valori 1 (A = r
i
, 1 = j
)
) al variare di tutte le coppie (r
i
, j
)
). Introduciamo la trasformazione
,(r, j) = cr + ,j + . Vale 7 = ,(A, 1 ). Per il teorema sulle trasformazioni di v.a.
enunciato sopra, vale
1 [,(A, 1 )] =

i)
,(r
i
, j
)
) 1 (A = r
i
, 1 = j
)
) .
Questa lidentit enunciata sopra.
Tornando alla linea principale della dimostrazione, in base allidentit scritta, vale
1 [cA +,1 +] = c
i)
r
i
1 (A = r
i
, 1 = j
)
) +,
i)
j
)
1 (A = r
i
, 1 = j
)
) +
i)
1 (A = r
i
, 1 = j
)
)
= c
i
r
i
)
1 (A = r
i
, 1 = j
)
) +,
)
j
)
i
1 (A = r
i
, 1 = j
)
) +
i)
1 (A = r
i
, 1 = j
)
) .
Osservando che
)
1 (A = r
i
, 1 = j
)
) = 1 (A = r
i
)
i
1 (A = r
i
, 1 = j
)
) = 1 (1 = j
)
)
i)
1 (A = r
i
, 1 = j
)
) = 1
troviamo
= c
i
r
i
1 (A = r
i
) +,
)
j
)
1 (1 = j
)
) +
= c1[A] +,1[1 ] +.
Positivit
Se A _ 0 (cio A(.) _ 0 per ogni . ), allora 1[A] _ 0.
Osservazione 18 Questa propriet pu invece essere enunciata anche ricorrendo alla den-
sit di A, in quanto la condizione A _ 0 si pu formulare con )
A
(r) = 0 per ogni r < 0.
Ovviamente questo si pu dire solo se A una v.a. che ammette densit (continua o discreta).
Monotonia
Se A _ 1 (cio A(.) _ 1 (.) per ogni . ), allora 1[A] _ 1[1 ]. Si vede facilmente,
ragionando sulla dierenza 1 A, che questa propriet equivalente alla positivit.
1.2.11 Alcuni esempi
Riportiamo alcuni esempi di calcolo del valor medio, alcuni dei quali sfruttano qualche
propriet sopra enunciata.
Esempio 31 Se A = c, allora 1[A] = c.
Esempio 32 Se A ~ 1(1, j), si ha che
1[A] = j.
Infatti, dalla denizione, 1[A] = 1 j + 0 (1 j).
Esempio 33 Se A ~ 1(:, j), cio 1(A = /) =
_
a
I
_
j
I
aI
, si ha
1[A] = :j.
I calcoli diretti con la denizione
1[A] =
a
I=0
/
_
:
/
_
j
I
aI
sono laboriosi (si possono fare semplicando /
_
a
I
_
, quindi riconducendosi ad espressioni di
tipo binomiale con : 1 e / 1). Meglio sfruttare la linearit del valor medio. Ricordando
che la somma di : v.a. di Bernoulli A
i
~ 1(1, j) indipendenti una binomiale A ~ 1(:, j),
Teorema 5, vale
1[A] = 1[A
1
] +1[A
2
] + +1[A
a
] = j +j + +j
. .
a volte
= :j .
Notiamo che le A
i
sono v.a. indipendenti, ma questa ipotesi non necessaria per ricavare il
risultato.
Esempio 34 Se A ~ T(`), (v.a. di Poisson di parametro `), si ha
1[A] = `.
Ci si pu arrivare dalla denizione
1[A] =
o
I=0
/
c
A
`
I
/!
scrivendo
/
c
A
`
I
/!
= c
A
`
`
I1
(/ 1)!
con un po di calcoli laboriosi ma fattibili. Per convincersi invece in modo rapido del risultato
conviene sfruttare il teorema degli eventi rari che stabilisce la convergenza della binomiale
1(:, j
a
) alla Poisson T(`) per : , con j
a
= `,:. Siccome il valor medio di una
1(:, j
a
) : j
a
che vale `, tutte le approssimanti 1(:, j
a
) hanno valor medio `, quindi
intuitivamente chiaro che la Poisson limite T(`) deve avere anchessa media `. Largomento
non del tutto rigoroso, non disponendo in questo momento di opportuni teoremi limite sui
valori medi, ma convincente.
Esempio 35 Se A geometrica, 1 (A = /) = j (1 j)
I
, / = 0, 1, ..., non immediatamente
facile calcolare il valor medio

o
I=0
/j (1 j)
I
. Bisogna conoscere la regola
o
I=0
/a
I1
=
1
(1 a)
2
che vale per ogni a tale che [a[ < 1. Usando questa formula vale
o
I=0
/j (1 j)
I
= j (1 j)
o
I=0
/ (1 j)
I1
=
j (1 j)
(1 (1 j))
2
=
1 j
j
.
La furmula precedente si dimostra derivando la formula nota

o
I=0
a
I
=
1
1o
. Queste due
funzioni della variabile a coincidono, quindi hanno uguale derivata. Per un teorema di analisi,
di pu passare la derivata sotto il segno di serie (nelle ipotesi di questo esempio, cio [a[ < 1):
d
da
o
I=0
a
I
=
o
I=0
d
da
a
I
=
o
I=0
/a
I1
.
Siccome
o
oo
1
1o
=
1
(1o)
2
, si ottiene il risultato desiderato.
Esempio 36 Se A una v.a. uniforme nellintervallo [a, /] allora
1[A] =
a +/
2
.
La dimostrazione di questo fatto, intuitivamente abbastanza evidente, lasciata per esercizio.
Esempio 37 Se A una v.a. esponenziale di parametro `, vale
1[A] =
1
`
.
Infatti
1[A] =
_
+o
o
r)(r)dr =
_
+o
0
r`c
Aa
dr
=
_
rc
Aa
_
+o
0
+
_
+o
0
c
Aa
dr =
_
1
`
c
Aa
_
+o
0
=
1
`
.
Esempio 38 Se A ~ (j, o
2
), allora 1[A] = j. Per ricavare il risultato, si pu calco-
lare per esercizio lintegrale usando la densit della gaussiana, sfruttando la simmetria della
gaussiana rispetto al punto r = j.
1.2.12 Propriet meno elementari del valor medio
In questa sezione enunciamo alcune propriet che richiedono un po di lavoro per essere di-
mostrate ed anche capite. Alcune di esse, pur essendo molto potenti e dal profondo signicato,
sono di uso corrente solo per chi vuole investigare gli aspetti teorici dell probabilit. Come
sopra, negli enunciati che seguono bisogna assumere che tutti i valori medi di cui si parla
esistano niti.
1.2.13 Media di v.a. indipendenti
Teorema 10 Se due v.a. A e 1 sono indipendenti, il valor medio del prodotto uguale al
prodotto dei valori medi, cio
1[A1 ] = 1[A] 1[1 ].
Per essere precisi a livello rigorso, assumendo semplicemente che A e 1 abbiano valor
medio nito, si trova dalla dimostrazione stessa che la v.a. A1 ha anchessa valor medio
nito.
Osservazione 19 Questa propriet non ha simili tra i fatti elementari sugli integrali di
funzioni di una variabile. Esiste invece una proprit che la ricorda nellambito degli integrali
doppi: per la formula di riduzione, se )(r, j) = q(r) /(j), vale
_
_
1
)(r, j)drdj =
_
q(r)dr
_
1
/(j)dj.
Una possibile dimostrazione rigorosa del teorema poggia proprio su questa propriet, ma per
completare la dimostrazione bisognerebbe capire come fare a passare da 1[A1 ] a un integrale
doppio.
Osservazione 20 Il teorema inverso falso: 1[A1 ] = 1[A] 1[1 ] non implica che A e 1
sono indipendenti. Lo si pu intuire dallosservazione precedente: lindipendenza equivale alla
propriet che la densit congiunta il prodotto delle marginali, mentre luguaglianza integrale
espressa da 1[A1 ] = 1[A] 1[1 ] solo una uguaglianza tra particolari integrali (riassunti)
di tali densit.
Osservazione 21 Pi avanti nel corso vedremo il concetto di vettore gaussiano. In quel
momento potremo mostrare che se il vettore (A, 1 ) gaussiano, allora la propriet 1[A1 ] =
1[A] 1[1 ] implica che A e 1 sono indipendenti.
Osservazione 22 Dimostriamo la propriet 1[A1 ] = 1[A] 1[1 ] nel caso di v.a. discrete,
usando le notazioni ed alcuni fatti che si trovano nellosservazione 17. Vale
1 [A1 ] =

i)
r
i
j
)
1 (A = r
i
, 1 = j
)
) .
Per lindipendenza,
1 (A = r
i
, 1 = j
)
) = 1 (A = r
i
) 1 (1 = j
)
) .
Quindi
1 [A1 ] =

i)
r
i
j
)
1 (A = r
i
) 1 (1 = j
)
) =

i
r
i
1 (A = r
i
)
)
j
)
1 (1 = j
)
)
= 1[A] 1[1 ].
1.2.14 Disuguaglianza di Hlder
Date A e 1 v.a. qualsiasi, se i valori medi della formula sono ben deniti, si ha
1[A1 ] _ 1 [A
j
]
1
1 [1
q
]
1
q
con
1
j
+
1
q
= 1, j, 1. Come esempio di applicazione, per j = = 1,2 si ha
1[A1 ] _
_
1[A
2
]
_
1[1
2
].
Per capire lutilit di questa disuguaglianza, si deve pensare al fatto che sappiamo scrivere
unuguaglianza per 1[A1 ] solo per v.a. indipendenti (pi in generale scorrelate, si veda
oltre). Quindi la disuguaglianza di Hlder ci permette almeno di scrivere una disuguaglianza,
in generale.
Ha per il difetto di elevare a potenza le v.a., cosa che in certi ambiti molto dannoso. Si
pensi ad esempio ai problemi di chiusura in uidodinamica. Quando si considera lequazione
di Navier-Stokes (che non lineare) si tenta talvolta di ricavare da essa unequazione per i
valori medi della velocit, detta equazione di Reynolds, ma la presenza della nonlinearit fa
s che nelloperazione di media si ottengano valori medi di potenze che non sono riconducibili
ai valori medi delle singole v.a. Detto n(r) = (n
1
(r), n
2
(r), n
3
(r)) il campo di velocit,
bisognerebbe saper esprimere il cosidetto tensore di Reynolds 1 [n
i
(r)n
)
(r)] tramite prodotti
del tipo 1 [n
i
(r)] 1 [n
)
(r)], ma questo richiederebbe lindipendenza, che falsa in generale
in questo problema. Purtroppo, anche se si usa la disuguaglianza di Hlder, questa, oltre ad
essere una disuguaglianza (quindi servirebbe pi che altro per trovare stime per lequazione
di Reynolds piuttosto che una chiusura della stessa), metterebbe in gioco momenti di ordine
pi elevato, come 1
_
n
i
(r)
2
.
1.2.15 Disuguaglianza di Jensen
Data una funzione c convessa e una v.a. A, si ha (se esistono i valori medi considerati)
1[c(A)] _ c(1[r]) .
Ad esempio si ha che
1[A
2
] _ (1[r])
2
che pu anche essere dimostrata anche con la disuguaglianza di Hlder, e
1[c
A
] _ c
1[a]
.
Questa disuguaglianza ammette una semplice interpretazione graca.
1.2.16 Disuguaglianza di Chebyshev
Questa potente disuguaglianza che lega una probabilit a un valor medio talvolta detta
anche disuguaglianza di Markov. Se A _ 0 e a 0 si ha che
1(A a) _
1[A]
a
.
Proof. Dobbiamo mostrare che a 1(A _ a) _ 1[A]. Mostriamolo nel caso particolare in
cui la v.a. A ammetta densit )(r). Poich A _ 0, si ha )(r) = 0 per r < 0, quindi
1[A] =
_
+o
0
r)(r)dr =
_
o
0
r)(r)dr +
_
+o
o
r)(r)dr
_
_
+o
o
r)(r)dr _ a
_
+o
o
)(r)dr = a 1(A a).
Abbiamo usato il fatto che
_
o
0
r)(r)dr _ 0 in quanto la funzione r)(r) _ 0 nellintervallo
dintegrazione [0, a], ed il fatto che la funzione r)(r) _ a)(r) nellintervallo dintegrazione
[a, ). La dimostrazione completa.
Prendendo al posto di A ed a vari esempi di v.a. e numeri positivi, si ottengono numerose
conseguenze. Ecco alcuni esempi importanti.
Corollario 1 Data una v.a. A avente media j e un numero a 0, si ha
1([A j[ a) _
1[[A j[
2
]
a
2
.
Si ha infatti 1([A j[ a) = 1([A j[
2
a
2
), a cui si pu applicare la disuguaglianza
di Chebyshev. Invece dellelevamento al quadrato si pu usare qualunque funzione monotona
crescente c sui positivi, che conservi la disuguaglianza:
1(c([A j[) a) _
1[c([A j[)]
c(a)
.
Osservazione 23 Questo corollario utilissimo quando si usa c = c
Aa
, ` 0. In questo
caso a volte si trovano stime dallalto ottimali (nel senso che valgono analoghe stime dal
basso). Vedremo la disuguaglianza di Cherno.
Osservazione 24 Prendiamo ad esempio la semplice disuguaglianza
1([A j[ a) _
1[[A j[]
a
.
Questa (come le altre) ha uninterpretazione graca: la somma delle due aree sotto le code
della distribuzione ) abbastanza piccola e pu essere controllata col valor medio di [A j[.
Queste disuguaglianze sono utili quando la ) non nota o non semplice calcolare probabilit
ad essa associate, ed comunque necessario stimare larea sotto le code della distribuzione.
1.2.17 Varianza e deviazione standard
Denizione 16 Sia A una v.a. con valor medio j nito. Chiamiamo varianza, o scarto
quadratico medio, di A, il numero reale
\ ar [A] = 1
_
(A j)
2
_
quando questo nito (se innito, diremo che A ha varianza innita).
La formula descrive appunto lo scarto dalla media j, Aj, quadratico, (A j)
2
, medio,
1
_
(A j)
2
_
, cio rimediato rispetto alla distribuzione di probabilit di A.
Si vede subito, sviluppando il quadrato ed usando la linearit del valor medio (ed il fatto
che la media di una costante la costante stessa) che
\ ar [A] = 1
_
A
2
j
2
.
Osserviamo che, essendo la varianza pari alla media di una v.a. positiva, sicuramente
\ ar [A] _ 0
e quindi
j
2
_ 1
_
A
2
.
Questa disuguaglianza, vista di per s, non sarebbe stata cos elementare; si poteva per
anche dimostrare ad esempio con la disuguaglianza di Hlder o di Jensen.
Osservazione 25 Una delle disuguaglianze di Chebyshev si pu ora riscrivere nella forma
(a 0)
1([A j[ a) _
\ ar [A]
a
2
.
Osservazione 26 Si osservi che \ ar [A] = 0 implica 1([A j[ a) = 0 per ogni a 0.
Vale cio 1([A j[ _ a) = 1 per ogni a 0. Intuitivamente, o con luso della o-additivit,
si deduce 1(A = j) = 1, cio A costante. Le uniche variabili per cui \ ar [A] = 0, o
equivalentemente j
2
= 1
_
A
2
, sono le costanti.
La varianza fornisce unindicazione media circa lo scarto rispetto a j, e misura quindi
il grado di aleatoriet, di dispersione, la deviazione rispetto al valor medio. E quindi un
indicatore importantissimo. In pratica sarebbe altrettanto importante un indicatore del tipo
1 [[A j[], ma questo orirebbe ben poche possibilit di calcolo a causa del valore assoluto.
Dal punto di vista numerico, per, la varianza si comporta come un quadrato: se stiamo
misurando grandezze in metri, con errori di misura dellordine dei 10 metri, la varizanza verr
un numero dellordine delle centinaia, misurato in metri quadri. Per questo utile introdurre
la deviazione standard.
Denizione 17 Si chiama deviazione standard della v.a. A il numero
o [A] =
_
\ ar [A]
(ben denito quando la varianza esiste).
Lestrazione della radice quadrata ci riporta alla giusta unit di misura ed a valori com-
parabili con quelli in gioco. In un certo senso un po vago, il quadrato che compare nella
denizione di varianza e la radice quadrata introdotta ora si compensano; ci avviene sicu-
ramente alivello di unit di misura, e grosso m odo di ordine di grandezza delle quantit
in gioco; ma non avviene in modo algebrico: essi non si semplicano, se non quando A
costante.
Come per j, spesso useremo i simboli o e o
2
per indicare deviazione e varianza, se chiaro
dal contesto a quale v.a. ci si riferisca. A volte scriveremo anche j
A
e o
A
.
E facile dimostrare, algebricamente, il seguente fatto.
Proposizione 1 Dati due numeri reali c, ,, vale
\ ar [cA +,] = c
2
\ ar [A]
o [cA] = [c[ o [A] .
Proof. Anche se sipu dare una dimostrazione pi compatta, seguiamo una linea pi lunga
ma ovvia:
\ ar [cA +,] = 1
_
(cA +,)
2
_
j
2
cA+o
= 1
_
c
2
A
2
+ 2c,A +,
2
(cj
A
+,)
2
= c
2
1
_
A
2
+ 2c,j
A
+,
2
c
2
j
2
A
2c,j
A
,
2
= c
2
1
_
A
2
c
2
j
2
A
= c
2
\ ar [A] .
Estraendo poi la radice quadrata (e ricordando che
_
c
2
= [c[) si ottiene la seconda formula.
Linterpretazione semplice: le traslazioni , non modicano la varianza (come si intuisce
pensando ad una densit ) e ad una sua traslata); le moltiplicazioni per c hanno eetto
quadratico sulla varianza, essendo la varianza unespressione quadratica; su o hanno leetto
di moltiplicarla per [c[ (la deviazione di 2A due volte la deviazione di A, ad esempio). In
questa interpretazione, se ci si vuole aiutare con un graco, essenziale ricordare che, in un
piano cartesiano in cui raguriamo una densit, i valori della v.a. A sono i punti dellasse
delle ascisse (la v.a. A vive sullasse delle ascisse), quindi operazioni del tipo cA+, vanno
pensate come traslazioni e omotetie di tale asse (quindi del graco di ), ma in orizzontale).
Circa la varianza della somma di v.a., vale il seguente fatto.
Proposizione 2 Date due v.a. A ed 1 , con varianza nita, vale in generale
\ ar [A +1 ] = \ ar [A] +\ ar [1 ] + 2Co (A, 1 ) .
Se inoltre A ed 1 sono indipendenti (o almeno scorrelate, si veda pi avanti), allora
\ ar [A +1 ] = \ ar [A] +\ ar [1 ] .
Proof. Come sopra,
\ ar [A +1 ] = 1
_
(A +1 )
2
_
j
2
A+Y
= 1
_
A
2
+ 2A1 +1
2
(j
A
+j
Y
)
2
= 1
_
A
2
+ 21 [A1 ] +1
_
1
2
j
2
A
2j
A
j
Y
j
2
Y
=
_
1
_
A
2
j
2
A
_
+
_
1
_
1
2
j
2
Y
_
+ 2 (1 [A1 ] 2j
A
j
Y
)
da cui la tesi.
La denizione di Co (A, 1 ) e la spiegazione di questo risultato verranno date nel prossimo
paragrafo. Algebricamente, la prima uguaglianza semplicemente il fatto che il quadrato della
somma pari alla somma dei quadrati pi il doppio prodotto. La seconda deriva dal fatto
che per variabili indipedenti vale Co (A, 1 ) = 0.
Dallultima aermazione della proposizione si trova, se A ed 1 sono indipendenti,
o [A +1 ] =
_
o
2
[A] +o
2
[1 ].
Se invece prendessimo 1 = A, troveremmo
o [2A] = 2o [A] .
Consideriamo due v.a. A ed 1 aventi uguale o. Se sono indipendenti, allora
o [A +1 ] =
_
2o
mentre se sono uguali
o [2A] = 2o.
La variabilit della somma di grandezze indipendenti inferiore a quella di grandezze uguali.
Per questo, se si possiede una ricchezza \ e la si vuole investire in attivit che contengono
un rischio (cio tali per cui il valore della ricchezza pu variare aleatoriamente), conviene
suddividerla in parti ed investire le parti in attivit indipendenti. In questo modo il rischio
diminuisce rispetto ad un singolo investimento globale.
1.2.18 Covarianza e coeciente di correlazione
Denizione 18 Date due v.a. A, 1 , si chiama covarianza tra A ed 1 il numero
Co (A, 1 ) = 1 [(A j
A
) (1 j
Y
)]
dove j
A
e j
Y
sono le medie di A ed 1 . La denizione ha senso se j
A
e j
Y
sono niti
ed il valor medio complessivo nito, cosa che accade ad esempio se si suppone che sia
1
_
A
2
< e 1
_
1
2
< .
La denizione quindi analoga, algebricamente, a quella di varianza, e risulta infatti
\ ar [A] = Co (A, A)
e
Co (A, 1 ) = 1 [A1 ] j
A
j
Y
come per la varianza. Per il numero Co (A, 1 ) pu avere segno qualsiasi. Ad esempio, se
j
A
= 0 e prendiamo 1 = A, vale Co (A, 1 ) = 1
_
A
2
.
Anche la covarianza sore dei problemi di scala illustrati per la varianza. Qui, non potendo
prendere la radice quadrata (Co (A, 1 ) non sempre positiva), si normalizza in questaltro
modo, dividendo per le deviazioni standard.
Denizione 19 Chiamiamo coeciente di correlazione tra A ed 1 il numero denito da
j (A, 1 ) =
Co (A, 1 )
_
\ ar [A] \ ar [1 ]
.
Si noti che, per la disuguaglianza di Hlder,
[Co (A, 1 )[ _
_
1
_
(A j
A
)
2
_
1
_
(1 j
Y
)
2
_
e quindi [j (A, 1 )[ _ 1. Questo dimostra la prima delle seguenti propriet, che tutte insieme
chiariscono laspetto di universalit, o invarianza per cambio di unit di misura, di j, a
dierenza della covarianza.
Proposizione 3 Vale
1 _ j (A, 1 ) _ 1.
Vale inoltre
Co (aA, /1 ) = a/Co (A, 1 )
per ogni a, / R, e
j (aA, /1 ) = j (A, 1 )
per ogni a, / 0.
Proof. Abbiamo gi visto come mai 1 _ j (A, 1 ) _ 1. Dimostriamo la seconda propriet.
Vale
Co (aA, /1 ) = 1 [(aA j
oA
) (/1 j
bY
)] = 1 [(aA aj
A
) (/1 /j
Y
)]
= a/1 [(A j
A
) (1 j
Y
)] = a/Co (A, 1 ) .
Vale poi
j (aA, /1 ) =
Co (aA, /1 )
_
\ ar [aA] \ ar [/1 ]
=
a/Co (A, 1 )
_
a
2
/
2
_
\ ar [A] \ ar [1 ]
=
a/
[a/[
j (A, 1 )
e quindi la formula desiderata, se a, / 0.
Nello stesso modo si dimostra la seguente propriet, che in un certo senso la linearit
della convarianza nei suoi argomenti. Si noti che le costanti additive spariscono, come per la
varianza.
Proposizione 4
Co (aA +/1 +c, 7) = aCo (A, 7) +/Co (1, 7)
Co (A, c1 +,7 +) = cCo (A, 1 ) +,Co (A, 7) .
Proof. Basta dimostrare la prima in quanto la covarianza simmetrica. Vale
Co (aA +/1 +c, 7) = 1
__
aA +/1 +c j
oA+bY +c
_
(7 j
Z
)
= 1 [(a (A j
A
) +/ (1 j
Y
)) (7 j
Z
)]
= aCo (A, 7) +/Co (1, 7) .
Ricordiamo che se A ed 1 sono v.a. indipendenti, allora 1 [A1 ] = j
A
j
Y
(mentre il
viceversa non vero in generale). Ne discende subito il seguente risultato.
Teorema 11 Se A ed 1 sono v.a. indipendenti, allora
Co (A, 1 ) = 0, j (A, 1 ) = 0.
Viceversa, se Co (A, 1 ) = 0, non detto che A ed 1 siano indipendenti. Se per
(A, 1 ) gaussiano (denizione che daremo nel seguito) e Co (A, 1 ) = 0, allora A e 1 sono
indipendenti.
Denizione 20 Diciamo che A e 1 sono scorrelate se hanno correlazione nulla, j (A, 1 ) =
0, o equivalentemente se Co (A, 1 ) = 0.
Quindi lindipendenza implica la scorrelazione.
A livello numerico su dati sperimentali, se la correlazione molto vicino a zero, questo
un buon indicatore di indipendenza, o pi precisamente di scorrelazione (invece, dipendendo
il numero Co (A, 1 ) dalla scala scelta, la sua vicinanza a zero meno assoluta, quindi pu
trarre in inganno). Precisiamo cosa intendiamo con correlazione di dati sperimentali. Stiamo
pensando di avere : coppie di valori sperimentali (r
1
, j
1
), ... , (r
a
, j
a
), o pi espressivamente
una tabella
A 1
1 r
1
j
1
... ... ...
... ... ...
n r
a
j
a
in cui le colonne corrispondono alle variabili e le righe agli individui (unit sperimentali,
unit osservate). Di questi dati sperimentali possiamo calcolare la varianza empirica ed il
coeciente di correlazione empirico deniti da
Co =
1
:
a
i=1
(r
i
r) (j
i
j) , j =
a
i=1
(r
i
r) (j
i
j)
_
a
i=1
(r
i
r)
2
a
i=1
(j
i
j)
2
.
Questi indicatori sono buone stime di quelli teorici, ad esempio per via della legge dei grandi
numeri, che descriveremo nella prossima lezione. Fatte queste premesse, la vicinanza a zero
di j si interpreta come sintomo di indipendenza o comunque bassa dipendenza, la vicinanza
ad 1 come elevato legame positivo, a 1 come elevato legame negativo.
Esaminiamo questi fatti per mezzo del software R. Innanzi tutto generiamo due campioni
di cardinalit 100, con distribuzione gaussiana standard, mostriamo le coppie (r
i
, j
i
) nel
piano cartesiano e calcoliamo la correlazione empirica:
X=rnorm(100); Y=rnorm(100)
cor(X,Y)
[1] 0.06068838
plot(X,Y)
Questa una situazione a correlazione sostanzialmente nulla. Costruiamo invece un
campione 7 simile a A ma un po perturbato in modo aleatorio:
Z=X+0.1*rnorm(100)
cor(X,Z)
[1] 0.9949628
plot(X,Z)
Questa una situazione ad elevatissima correlazione positiva. Proviamo poi
W=-X+0.5*rnorm(100)
cor(X,W)
[1] -0.8987381
plot(X,W)
Questultima una situazione a moderata/elevata correlazione negativa. Si noti che il
coeciente di correlazione non esattamente uguale al coeciente angolare, come si potrebbe
pensare dai nomi. Si veda sotto il legame.
Menzioniamo inne il fatto che il numero Co (A, 1 ) descrive bene leventuale legame
lineare tra A ed 1 (mentre meno preciso per legami non lineari). Si pu ad esempio
dimostrare facilmente che, se A ed 1 sono legate dalla relazione lineare
1 = cA +, +-
dove - (chiamato errore) una v.a. indipendente da A, allora il coeciente c che descrive
il legame di proporzionalit lineare tra le variabili dato da
c =
Co (A, 1 )
\ ar [A]
.
Lo si pu vericare calcolando
Co (A, 1 ) = Co (A, cA +, +-)
ed applicando la linearit della covarianza nella seconda variabile.
1.2.19 Esempi
Esempio 39 Se A ~ 1(1, j), si vede subito che anche A
2
~ 1(1, j), quindi 1
_
A
2
= j.
Pertanto
1
_
A
2
j
2
= j j
2
= j.
Per una Bernoulli di parametro j vale allora
\ ar [A] = j
e o =
_
j.
Esempio 40 Se A ~ 1(:, j), usando il fatto che la somma di : v.a. 1(1, j) indipendenti
una 1(:, j), e ricordando che la varianza della somma di v.a. indipendenti uguale alla
somma delle varianze, troviamo
\ ar [A] = :j
e
o =
_
:
_
j.
Questultimo fatto era gi stato anticipato in un esempio della lezione 2, riguardo al fatto
che per : grande la binomiale si concentra intorno alla propria media.
Esempio 41 Se A ~ T (`), vale
\ ar [A] = `.
Questo fatto si pu dimostrare rigorosamente usando la densit di massa, ma richiede un
certo numero di calcoli un po noiosi. Accontentiamoci di accettare il risultato sulla base del
seguente ragionamento sensato (ma non rigoroso): prendiamo una v.a. A
a
~ 1(:, j
a
), con
` = :j
a
. Se : grande, sappiamo che la legge di A
a
approssima la legge di A; allora anche
la varianza di A
a
, che :j
a
a
dovrebbe approssimare la varianza di A; ma :j
a
a
= `
a
e
a
1 per : (in quanto
a
= 1 j
a
= 1
A
a
).
Esempio 42 Se A ~
_
j, o
2
_
, vale
\ ar [A] = o
2
.
Nel prossimo paragrafo svolgeremo un conto di questo tipo ma pi complesso, per cui ora
omettiamo la verica. Quindi i due parametri j e o
2
della normale
_
j, o
2
_
sono la sua
media e la sua varianza (come le notazioni lasciavano pensare).
1.2.20 Momenti
Chiamiamo momento di ordine : di A il numero
'
a
:= 1 [A
a
] .
A volte, a seconda delle utilit speciche, si trova in letteratura il nome di momento di ordine
: attribuito a quantit lievemente diverse, come
1 [[A[
a
]
oppure
1 [(A j)
a
] o inne 1 [[A j[
a
] .
La ragione del valore assoluto che se A ha distribuzione simmetrica, per : dispari vale
1 [A
a
] = 0, fatto che quantitativamente pu non essere molto istruttivo (dipende da cosa si
vuol evidenziare con quella grandezza). La ragione della centratura con j simile a quella
per cui si centra la denizione di varianza (si vuole capire lo scostamento dalla media e non
lampiezza assoluta dei valori).
Mentre evidente linteresse per media e varianza (ad esempio sono i parametri delle
gaussiane), meno chiaro come utilizzare i momenti di ordine superiore a due. Ad esempio,
vengono a volte utilizzati in statistica per confrontare due distribuzioni sperimentali, o una
distribuzione sperimentale con un modello ipotizzato, ad esempio quello gaussiano. Il con-
fronto dei momenti di ordine elevato mette in evidenza possibili dierenze signicative tra le
code, tra le probabilit di valori un po alti. Cerchiamo di apprezzare questo fatto con un
esempio.
Supponiamo di avere un istogramma sperimentale e di cercare una densit )(r) che lo
descriva. Supponiamo di aver individuato due densit )
1
(r) ed )
2
(r) che descrivono bene
listogramma nella parte centrale, ma abbiamo dei dubbi sulle code. Per semplicit, sup-
poniamo di studiare una v.a. positiva, quindi solo con la coda a destra. Per schematizzare
ulteriormente a titolo di esempio, abbandoniamo le densit e supponiamo di aver scelto come
possibili modelli due v.a. discrete, entrambe con solo i valori 2 e 10. La prima, A
1
, assume
il valore 2 con probabilit 0.99 e 10 con probabilit 0.01. La seconda, A
2
, assume 2 con
probabilit 0.999 e 10 con probabilit 0.001. I loro momenti di ordine : sono
1 [A
a
1
] = 2
a
0.99 + 10
a
0.01
1 [A
a
2
] = 2
a
0.999 + 10
a
0.001.
Vediamo allora che per valori bassi di : i momenti sono abbastanza simili;
1 [A
1
] = 2. 08, 1
_
A
2
1
= 4. 96
1 [A
2
] = 2. 008, 1
_
A
2
2
= 4. 096
e quindi possibile che, sulla base di stime empiriche di media e varianza, non siamo in grado
di decidere quale delle due distribuzioni sia la migliore. Invece i momenti di ordine pi elevato
divergono tra loro: ad esempio
1
_
A
4
1
= 115. 84, 1
_
A
4
2
= 25. 984.
Essi quindi diventano indicatori numerici discriminanti. Va per osservato che, per le stesse
ragioni, sono molto pi sensibili dei momenti di ordine basso rispetto a piccole variazioni
casuali, come lerrore statistico dovuto a pochi dati sperimentali, oppure vari errori numerici
di approssimazione nella raccolta dati ecc. Quindi la diversit, magari estremamente marcata,
tra i momenti di ordine elevato di due campioni sperimentali va usata con cautela. In statistica
cercheremo di capire gli intervalli di condenza per tali indicatori.
A titolo di esempio, calcoliamo i momenti di una gaussiana, per capirne il comportamento
al crescere di :.
Osservazione 27 Se A ~
_
j, o
2
_
, allora 1
_
(A j)
2a+1
_
= 0, mentre
1
_
(A j)
2a
_
= C
a
_
o
2
_
a
dove
C
a
= (2: 1) (2: 3) 3 1.
Infatti, limitando (senza restrizione) la verica al caso j = 0, vale
1
_
A
2a
=
_
o
o
r
2a
1
_
2o
c
i
2
2
2
dr
a=oj
=
_
o
o
o
2a
j
2a
1
_
2
c
2
2
dj = o
2a
1
_
7
2a
dove 7 ~ (0, 1), e per questa vale

1
_
7
2a
=
1
_
2
_
o
o
r
2a1
(r) c
i
2
2
dr
=
_
1
_
2
r
2a1
c
i
2
2
_
o
o
+
1
_
2
_
o
o
(2: 1) r
2a2
c
i
2
2
dr
= (2: 1) 1
_
7
2a2
.
Iterando,
1
_
7
2a
= (2: 1) (2: 3) 1
_
7
2a4
= ... = C
a
.
Osservazione 28 Volendo sintetizzare gracamente questo risultato, si pu osservare che la
grandezza
j
a
:= log
1
_
(A j)
2a
_
C
a
cresce linearmente in ::
j
a
= :log o
2
quindi se riportiamo in un graco in ascissa gli interi : ed in ordinata i numeri j
a
per una
gaussiana troviamo punti su una retta passante per lorigine, di coeciente angolare log o
2
.
In questo modo, la visualizzazione dei numeri j
a
per unaltra distribuzione oppure per un
campione sperimentale, mette subito in evidenza leventuale scostamento dalla gaussianit.
1.2.21 La funzione generatrice dei momenti
Denizione 21 Data una v.a. A, si chiama sua funzione generatrice dei momenti la fun-
zione ,
A
(t) denita da
,
A
(t) = 1
_
c
tA
per tutti i valori t per cui tale valore atteso nito.

La funzione generatrice non sempre denita per ogni t R, come vedremo ad esempio
per le v.a. esponenziali. Osserviamo che ,
A
(0) = 0, semplice fatto che a volte si usa per
stabilire che certe funzioni non sono funzioni generatrici.
Nel caso di una v.a. A con densit ) (r) vale
,
A
(t) =
_
o
o
c
ta
) (r) dr
(forse alcuni riconosceranno la trasformata di Laplace di ), in questa espressione) mentre nel
caso discreto a valori interi positivi vale
,
A
(t) =
o
a=0
c
ta
j (:) .
Vale il seguente fatto:
Teorema 12 Se due v.a. hanno la stessa funzione generatrice, per t in un intervallo aperto
non vuoto, allora hanno la stessa legge.
La dimostrazione non semplice ed legata ai problemi di inversione della trasformata
di Fourier, che non esponiamo. Dimostriamo invece un fatto semplice ma importante:
Proposizione 5 Se A ed 1 sono indipendenti allora
,
A+Y
(t) = ,
A
(t) ,
Y
(t) .
Proof.
,
A+Y
(t) = 1
_
c
t(A+Y )
_
= 1
_
c
tA
c
tY
ed ora, per lindipendenza (di A ed 1 , che implica quella di c

tA
ed c
tY
)
= 1
_
c
tA
1
_
c
tY
= ,
A
(t) ,
Y
(t) .
Esercizio 1 Mostrare che, se c, , sono due numeri reali, allora
,
cA+o
(t) = ,
A
(ct) c
ot
.
Esercizio 2 Mostrare che, se A ed 1 sono v.a. indipendenti ed a, /, c sono numeri reali,
allora
,
oA+bY +c
(t) = ,
A
(at) ,
Y
(/t) c
ct
.
Esempio 43 La funzione generatrice una Bernoulli A ~ 1(1, j)
,
A
(t) = jc
t
+.
Esempio 44 Sia A ~ 1(:, j) una binomiale, della forma A = A
1
+... +A
a
con A
1
, ..., A
a
Bernoulli 1(1, j) indipendenti. Allora, per la proposizione applicata iterativamente,
,
A
(t) =
_
jc
t
+
_
a
.
Siccome la generatrice dipende solo dalla legge, il risultato vale anche se la binomiale, a
priori, non espressa in tale forma.
Esempio 45 La funzione generatrice di una v.a. A di Poisson, A ~ T (`),
,
A
(t) = c
A(c
I
1)
.
Si pu calcolare dalla denizione:
,
A
(t) =
o
a=0
c
ta
c
A
`
a
:!
= c
A
o
a=0
_
`c
t
_
a
:!
= c
A
c
Ac
I
.
Esercizio 3 Vericare che il limite delle generatrici di binomiali A
a
~ 1
_
:,
A
a
_
uguale
alla generatrice di una A ~ T (`).
Esempio 46 Se A una v.a. esponenziale, A ~ 1rj (`), allora
,
A
(t) =
_
o
o
c
ta
) (r) dr =
_
o
0
c
ta
`c
Aa
dr = `
_
o
0
c
(tA)a
dr
dove, osserviamo n da ora, questo integrale converge (ha valore nito) se e solo se t ` < 0,
cio se
t < `.
Per questi valori di t troviamo
,
A
(t) = `
_
c
(tA)a
t `
_
o
0
=
`
` t
.
In questo esempio la funzione generatrice non denita per tutti i valori di t.
Esempio 47 Una v.a. A ~ (0, 1) ha funzione generatrice
,
A
(t) = c
t
2
2
.
Infatti
1
_
c
tA
=
1
_
2
_
c
ta
c
a
2
2
dr =
1
_
2
_
c
I
2
2
c
(
i
2
2Ii+I
2
)
2
dr
=
c
I
2
2
_
2
_
c
(iI)
2
2
dr = c
I
2
2
.
Esempio 48 Pi in generale, una v.a. A ~
_
j, o
2
_
ha funzione generatrice
,
A
(t) = c
tj+
2
I
2
2
.
Infatti, con gli stessi calcoli fatti nel caso standard ma pi laboriosi,
1
_
c
tA
=
1
o
_
2
_
c
ta
c
(i)
2
2
2
dr
=
1
o
_
2
_
c
(
I
2
+
)
2
2
2
2
c
i
2
2
(
2
I+
)
i+
(
I
2
+
)
2
2
2
dr
=
c
2
I
2
2
+tj
o
_
2
_
c
(
iI
2
)
2
2
2
dr = c
tj+
2
I
2
2
.
Il motivo del nome generatrice dei momenti sta nel fatto che derivando la funzione
generatrice e calcolando le derivate in zero si ottengono i momenti.
Teorema 13 Se la funzione generatrice ,
A
(t) denita in un intervallo aperto non vuoto
contenente lorigine allora innite volte derivabile in zero e vale
,
(a)
A
(0) = 1 [A
a
] .
Non diamo la dimostrazione completa che fa uso di teoremi di scambio tra derivate e
integrali che non trattiamo nel corso, ma riportiamo solo formalmente i seguenti passaggi
(naturali ed in realt anche rigorosi)
d
dt
1
_
c
tA
= 1
_
d
dt
c
tA
_
= 1
_
Ac
tA
d
2
dt
2
1
_
c
tA
= 1
_
d
2
dt
2
c
tA
_
= 1
_
A
2
c
tA
e cos via, per cui

,
t
A
(0) = 1 [A]
,
tt
A
(0) = 1
_
A
2
e cos via. Con queste regole si possono ritrovare numerosi valori medi calcolati no ad ora.
Vediamo a titolo di esempio il caso delle geometriche, che era risultato piuttosto dicile.
Esempio 49 Ricordiamo che chiamiamo geometrica di parametro j una v.a. tale che
1 (A = :) = (1 j)
a
j per : = 0, 1, ...
Allora
,
A
(t) =
o
a=0
c
ta
(1 j)
a
j = j
o
a=0
_
(1 j) c
t
a
=
j
1 (1 j) c
t
dove lultimo passaggio vale se (1 j) c
t
< 1, quindi se c
t
<
1
1j
, ovvero t < log
_
1
1j
_
.
Allora
,
t
A
(t) =
j (1 j) c
t
(1 (1 j) c
t
)
2
da cui
,
t
A
(0) =
1 j
j
.
Esempio 50 Se A
t
geometrica modicata, allora A = A
t
1 geometrica, quindi
1
_
A
t
= 1 [A + 1] =
1 j
j
+ 1 =
1
j
.
La media di una geometrica modicata
1
j
.
Osservazione 29 Con calcoli un po pi laboriosi si verica che la varianza di una geomet-
rica
1j
j
2
. Allora anche la varianza di una geometrica modicata
1j
j
2
, in quanto le due
dieriscono per una costante.
1.2.22 Denizione generale di valor medio
Sia A : [0, ) una v.a. non negativa. Per ogni numero della forma
I
2
n
, con :, / N,
consideriamo levento
a,I
=
_
A
_
/
2
a
,
/ + 1
2
a
__
e introduciamo la v.a.
A
a
=
o
I=0
/
2
a
1
n,I
dove 1
la funzione indicatrice di (che vale uno in e zero fuori). La funzione A

a
:
[0, ) costante a tratti, per cos dire; prende il valore
I
2
n
sullinsieme
a,I
, dove A _
I
2
n
,
quindi in ogni punto di vale
A
a
_ A.
Deniamo
1 [A
a
] :=
o
I=0
/
2
a
1 (
a,I
)
dove la serie, essendo a termini positivi, pu o convergere o divergere a pi innito. Poi
deniamo
1 [A] = lim
ao
1 [A
a
] .
Questo limite esiste sempre in quanto la successione numerica 1 [A
a
] monotona non de-
crescente: invece di dimostrarlo algebricamente, suggeriamo di rendersi conto gracamente
del fatto che A
a+1
_ A
a
, da cui segue la monotonia delle serie. Il limite che denisce 1 [A]
pu nuovamente essere nito oppure uguale a +.
In questo modo abbiamo denito la media di una v.a. positiva qualsiasi (accettando
anche il valore +). Si dice poi che una tale v.a. A ha media nita, o integrabile, se risulta
1 [A] < .
Data poi una v.a. A : R (non necessariamente positiva), la si pu scrivere come
dierenza di v.a. positive:
A = A
+
A
dove
A
+
= max A, 0 , A
= A
+
A.
Entrambi i valori medi 1 [A
+
] e 1 [A
] sono ben deniti e sarebbe naturale denire 1 [A] =

1 [A
+
] 1 [A
], ma se entrambi fossero pari a + troveremmo una forma indeterminata.

Si stabilisce allora che, se almeno uno dei due, tra 1 [A
+
] e 1 [A
], nito, si pone
1 [A] = 1
_
A
+
1
_
A
con le usuali convenzioni tra somma di numeri niti ed inniti.

Con questa denizione abbiamo introdotto il valor medio per una grandissima classe di
v.a. e come risultato possiamo trovare un numero reale oppure + oppure . Diremo poi
che A ha media nita, o integrabile, se risulta 1 [A
+
] < e 1 [A
] < , nel qual caso

1 [A] un numero reale. Questa condizione equivale a 1 [[A[] < .
1.2.23 Propriet generali
Sviluppare rigorosamente tutta la teoria dellintegrazione occuperebbe lintero corso, quindi
ci limitiamo ad indicare qualche traccia.
La denizione di 1 [A] nel caso A _ 0 vagamente simile alle denizioni di integrale
ben note nei corsi di analisi di base, per funzioni reali di una variabile reale. E quindi
intuitivamente chiaro che varranno le propriet generali note in quellambito, che sono la
linearit, la positivit (o equivalentemente la monotonia), e ad esempio ladditivit rispetto
a decomposizioni del dominio:
1 [A 1
'1
] = 1 [A 1
] +1 [A 1
1
]
se 1 = O. Cos di seguito, tutte le propriet anche meno banali si possono dimostrare
usando la denizione. A titolo di esempio, discutiamo la disuguaglianza di Chebishev. Data
A _ 0 e le sue approssimanti A
a
, preso un qualsiasi /
0
0, dalla denizione di 1 [A
a
]
abbiamo
1 [A
a
] _
o
I=I
0
/
2
a
1 (
a,I
) _
/
0
2
a
o
I=I
0
1 (
a,I
)
=
/
0
2
a
1
_
_
_
II
0
a,I
_
_
=
/
0
2
a
1
_
A _
/
0
2
a
_
.
Inoltre, essendo 1 [A
a
] non decrescente, 1 [A] _ 1 [A
a
], quindi
1 [A] _
/
0
2
a
1
_
A _
/
0
2
a
_
.
1.3. ESEMPI 65
Questa disuguaglianza vale per ogni :, /
0
0, quindi vale per ogni numero reale positivo a
della forma
I
0
2
n
:
1 (A _ a) _
1 [A]
a
.
A questo punto, con un ragionamento limite che non discutiamo in dettaglio, facile passare
ad ogni numero reale positivo a, completando la dimostrazione.
Inne, supponiamo che A abbia densit )(r), nel senso che valga
1 (A 1) =
_
1
)(r)dr
per ogni boreliano 1, quindi in particolare per ogni intervallo 1. Risulta allora, sempre
nellipotesi A _ 0,
1 [A
a
] =
o
I=0
/
2
a
_ I+1
2
n
I
2
n
)(r)dr.
Trascurando il rigore, che qui non il nostro scopo, osserviamo che, quando : grande e
quindi lintervallo
_
I
2
n
,
I+1
2
n
_
piccolo, in tale intervallo di integrazione la funzione r circa
uguale a
I
2
n
, quindi approssimativamente
1 [A
a
] ~
o
I=0
_ I+1
2
n
I
2
n
r)(r)dr =
_
o
o
r)(r)dr
e questa approssimazione diventa sempre pi precisa se : . Quindi ci aspettiamo che
sia
1 [A] =
_
o
o
r)(r)dr
che appunto uno dei teoremi forndamentali per il calcolo dei valori medi. Con un ragiona-
mento simile si trova la formula pi elaborata
1 [,(A
1
, ..., A
a
)] =
_
o
o
,(r
1
, ..., r
a
) )(r
1
, ..., r
a
)dr
1
...dr
a
.
1.3 Esempi
Abbiamo gi visto, nelle sezioni precedenti, alcuni esempi di v.a. discrete e continue ed
alcuni loro legami. Usando le solite notazioni, cio 1(1, j) per le Bernoulli, 1(:, j) per
le binomiali, T (`) per le Poisson, 1rj (`) per le esponenziali,
_
j, o
2
_
per le gaussiane,
riassumiamo alcuni fatti salienti con la seguente tabella:
media varianza generatrice
Bernoulli j j jc
t
+
binomiale :j :j
_
jc
t
+
_
a
Poisson ` ` c
A(c
I
1)
esponenziale
1
A
1
A
2
A
At
gaussiana j o
2
c
tj+
2
I
2
2
Abbiamo inoltre visto che la somma di : Bernoulli 1(1, j) una binomiale 1(:, j); e
che il limite di binomiali 1(:, j
a
) quando : e :j
a
= ` una T (`). Cominciamo ad
approfondire altri fatti riguardanti queste variabili ed il loro legami, poi vedremo anche altri
esempi di variabili.
1.3.1 Una propriet di concentrazione delle binomiali
Con j ssato (quindi diversamente dal regime del teorema degli eventi rari), cerchiamo di
capire cosa accade ad una binomiale 1(:, j) per : elevato. La media :j diventa grande,
linearmente in :. La deviazione standard o, che misura nella stessa scala della media le
variazioni rispetto alla media stessa, vale
_
:
_
j, quindi cresce anchessa con :, ma solo
come una radice quadrata, molto meno che la media. Ad esempio, se : = 100
2
= 10000, e
per esemplicare prendiamo j =
1
2
, quindi j =
1
4
, vale
j = 10000
1
4
o = 100
1
2
.
La variabile 1(:, j) incredibilmente concentrata attorno alla sua media. Percepiamo con
un esempio le conseguenze pratiche di questo fatto.
Esempio 51 Una banca ha 1000 conti correnti aperti. Attribuisce i numeri da 1 a 1000 ai
suoi correntisti. La direzione della banca vuole conoscere il numero medio di correntisti che
si presenta nellarco di una giornata, e la probabilit che si presentino pi di / correntisti, al
variare di /, per poter dimensionare le scorte e gli sportelli aperti.
Bisogna operare delle idealizzazioni, tenendo quindi presente che il risultato sar unap-
prossimazione della realt. Come vedremo, ci servir supporre che i 1000 correntisti si com-
portino in modo indipendente, che ciascuno si presenti al pi una volta al giorno, e che la
probabilit j che il singolo correntista si presenti sia uguale per tutti i correntisti. Supponiamo
inoltre di conoscere questa probabilit j; per fare i conti, supponiamo valga
j =
1
5
(che corrisponde intuitivamente a dire che ogni correntista si presenta mediamente una volta
alla settimana).
La banca associa ad ogni correntista una v.a. di Bernoulli, A
1
per il primo, e cos via
no ad A
1000
per lultimo. La v.a. A
1
vale 1 se il correntista si presenta in banca durante il
giorno in questione, 0 altrimenti. Vale j = 1(A
I
= 1) per ogni correntista /. Finalmente,
la nuova v.a. denita da o = A
1
+ ... + A
1000
rappresenta il numero di correntisti che si
presentano in banca (infatti i vari addendi valgono 1 per ogni correntista che si presenta, zero
altrimenti). Pertanto o descrive ci che interessa alla banca. Per il teorema sul legame tra
Bernoulli e binomiale, o ~ 1(1000,
1
5
). Il numero medio di correntisti al giorno vale quindi
1 [o] = :j =
1000
5
= 200
1.3. ESEMPI 67
come ci si poteva aspettare intuitivamente dal fatto che ogni correntista visita la banca in
media una volta alla settimana. Questo risultato medio quindi non sorprende, non un
grosso successo della teoria.
Invece, assai meno banale sarebbe calcolare la probabilit che o superi un generico valore
/. Ad esempio, visto che il numero medio 200, ci chiediamo: quante volte, in percentuale,
il numero di clienti sar maggiore di 300? Si provi a immaginare intuitivamente il risultato:
si vedr che il risultato rigoroso davvero sorprendente.
Dobbiamo calcolare
1(o 300).
Vale allora
1(o 300) =
1000
I=301
_
1000
/
__
1
5
_
I
_
4
5
_
1000I
= 1
300
I=0
_
1000
/
__
1
5
_
I
_
4
5
_
1000I
= 2. 201 7 10
14
.
E una probabilit assolutamente irrisoria! E sostanzialmente impossibile che si presentino
pi di 300 correntisti.
Esempio 52 Il risultato precedente pone le basi per una gestione assai economica delle
risorse, dicilmente immaginabile senza la matematica. Risolviamo il seguente problema
di soglia di sicurezza. Decidiamo di accettare il rischio di non poter accontentare tutti i
clienti una volta su 1000 (un giorno su tre anni, che poco se si tiene anche conto che non si
tratta di scontentare tutti i clienti di quel giorno sfortunato, ma solo i pochi ultimi in sovrap-
pi, e che forse in tale situazione eccezionale saremo in grado di porre rimedio con laiuto di
unaltra liale). Ci chiediamo: qual il numero intero /
0
tale che
1 (o /
0
) _
1
1000
?
Il numero /
0
la soglia di sicurezza al 99,9%. O per tentativi o con luso del software R, si
pu trovare
/
0
= 248.
Si noti che un numero straordinariamente vicino alla media, rispetto al migliaio di potenziali
correntisti.
La deviazione standard della binomiale o dellesempio vale
o
S
=
_
1000
1
5
4
5
= 12. 649.
E un numero molto piccolo rispetto al migliaio. Il numero 48, leccedenza di /
0
rispetto alla
media 200, circa 4 volte o
S
. Intuitivamente, questa una conferma del fatto che il risultato
sorprendente dellesempio giusto, non un errore di calcolo.
1.3.2 Sul teorema degli eventi rari per v.a. di Poisson
Ricordiamo che le probabilit delle binomiali 1(:, j
a
) tendono a quelle della Poisson T(`) se
: e : j
a
= ` (o anche solo se : j
a
`, come si dimostra con piccole complicazioni
in pi).
Questo teorema porta il nome di teorema degli eventi rari, per il motivo seguente. Si
deve immaginare una sequenza molto lunga di esperimenti, ciascuno avente due esiti possibili
che denominiamo successo o insuccesso e codichiamo coi numeri 1 e 0 rispettivamente.
Chiamiamo j la probabilit di successo. Il numero di successi una v.a. binomiale. Se j
molto piccolo, i successi sono rari. Questo per compensato dal fatto che il numero di prove
: tende allinnito. Il teorema dice che si pu usare la distribuzione di Poisson al posto della
binomiale.
Naturalmente nelle applicazioni pratiche non c nessun limite : 0, j 0. Ci chiediamo
allora quando, per : grande ma ssato e j piccolo ma ssato, lapprossimazione di una
binomiale con una Poisson fornisca risultati soddisfacenti. Il criterio, se pur vago, che
` = :j sia un numero moderato e simultaneamente : sia grande e j piccolo. Nellesempio
della banca, : = 1000 sicuramente grande, j =
1
5
non molto piccolo ma potrebbe sembrarlo
abbastanza, ma ` = :j = 200 sicuramente troppo grande. Ad esempio,
1
248
I=0
_
1000
/
__
1
5
_
I
_
4
5
_
1000I
= 9. 296 5 10
5
1
248
I=0
c
200
200
I
/!
= 4. 588 8 10
4
.
Si osservi per che lerrore, per quanto grosso, solo alla quarta cifra decimale, quindi
comunque contenuto. Se per eettuiamo un esperimento numerico con un ` pi moderato,
es.
: = 100, j =
1
50
, ` = 2
troviamo ad esempio
1
8
I=0
_
100
/
__
1
50
_
I
_
49
50
_
100I
= 1. 893 4 10
4
1
8
I=0
c
2
2
I
/!
= 2. 374 5 10
4
cio i due numeri coincidono quasi anche alla quarta cifra decimale.
1.3.3 Identicazione di un modello di Poisson piuttosto che di uno bino-
miale
Visto che grandezze aleatorie quali il numero di persone che chiedono un certo servizio
possono essere descritte abbastanza realisticamente sia da v.a. binomiali sia di Poisson,
quali conviene usare? Il modello di Poisson risulta vincente. Oltre ad essere pi semplice
1.3. ESEMPI 69
sia come formula analitica sia per il calcolo numerico, pi conveniente dal punto di vista
dellidenticazione del modello, o pi propriamente della stima dei parametri del modello.
Vediamo il motivo.
Supponiamo di essere i gestori di un certo servizio. In alcuni casi particolari conosciamo
il numero :
max
di potenziali clienti, in altri casi no: si pensi al numero di correntisti di
una banca (il numero complessivo noto) ed al numero di coloro che potrebbero recarsi ad
un distributore per un rifornimento (ignoto). Come gestori, vorremmo creare un modello
matematico del numero aleatorio A di persone che eettivamente chiedono il nostro servizio,
in un certo lasso di tempo (es. un giorno): da tale modello potremo poi calcolare grandezze
medie e probabilit come quelle degli esempi del paragrafo precedente. Come identichiamo
un buon modello?
Chiediamoci quali dati reali, sperimentali, possiamo raccogliere, per decidere tra bino-
miale e Poisson e stimare i parametri. Il dato pi semplice il numero di clienti, in : casi
simili a quello in questione, quindi un campione r
1
, ..., r
a
estratto dalla v.a. A. Si trat-
ta di registrare per : giorni il numero realmente accaduto di clienti che si sono presentati.
Con esso possiamo calcolare la media aritmetica r =
a
1
+...+an
a
e considerarla come approssi-
mazione sperimentale della media vera 1 [A]. Ma allora ecco la risposta: dai dati sperimentali
stimiamo direttamente il parametro ` = 1 [A] se stiamo ipotizzando un modello di Poisson,
mentre non stimiamo direttamente n :
max
n j ma solo il prodotto :
max
j se stiamo ipotiz-
zando un modello binomiale. Ovviamente, se :
max
ci noto, usando r possiamo stimare j
tramite il numero
a
amax
. Ma se :
max
non noto, non possiamo risalire a j, per lo meno non
in questo modo. In conclusione, ci sono varie ragioni per aermare che dai dati sperimentali
pi naturale stimare il parametro ` di un modello di Poisson, che quindi risulta preferibile.
1.3.4 Processo di Bernoulli, ricorrenze, v.a. geometriche
Denizione 22 Chiamiamo processo di Bernoulli di parametro j una successione (A
a
) di
v.a. indipendenti 1(1, j). Le v.a. A
a
vengono pensate come prove, esperimenti. Quando
vale A
a
= 1, si parla di successo al prova :-esima. Il numero di successi nelle prime : prove
la v.a. o
a
= A
1
+... +A
a
. Listante del primo successo la v.a. T = min: : A
a
= 1.
Osservazione 30 Applichiamo alcuni teoremi noti: i) il numero di successi nelle prime :
prove, o
a
, una binomiale 1(:, j); ii) per : grande e j piccolo, approssimativamente una
Poisson T(`) con ` = :j.
Vediamo di capire queste denizioni in un esempio. Studiamo una zona costiera in cui il
tempo cambia rapidamente ed esaminiamo i giorni di pioggia rispetto a quelli in cui non c
alcuna precipitazione. Se supponiamo che i giorni siano indipendenti dal punto di vista della
pioggia e che ci sia la stessa probabilit di pioggia in tutti i giorni, il nostro esame dei giorni
di pioggia denisce un processo di Bernoulli, in cui la v.a. A
a
vale 1 se il giorno :-esimo
piove ( necessario ssare un giorno di inizio).
La v.a. o
a
= A
1
+ ... + A
a
rappresenta, nellesempio, il numero di giorni di pioggia tra
i primi : giorni. E binomiale. Se la pioggia relativamente rara, possiamo descrivere tale
numero di giorni di pioggia, approssimativamente, con una Poisson.
Introduciamo poi alcune variabili che descrivono gli intertempi tra un giorno di pioggia
e laltro. Iniziamo le osservazioni un certo giorno, chiamato giorno 1. Indichiamo con T
1
(intero _ 1) il numero dordine del primo giorno di pioggia (T
1
= 1 signica che il giorno 1
c gi pioggia, T
1
= 2 signica che il primo giorno non c pioggia mentre il secondo s, ecc.).
Poi indichiamo con T
2
(intero _ 1) il numero di giorni, dopo il primo giorno di pioggia, da
attendere prima del secondo giorno di pioggia (T
2
= 1 signica che c pioggia gi il giorno
successivo a quello del primo giorno di pioggia, e cos via). Proseguiamo cos ad introdurre
gli intertempi T
I
. Se li sommiamo, T
1
+... +T
I
il /-esimo giorno di pioggia.
Esempio 53 Supponiamo che il processo di Bernoulli abbia dato i seguenti valori:
0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, ....
Allora T
1
= 6, T
2
= 3, T
3
= 8.
Denizione 23 Ricordiamo che abbiamo chiamato v.a. geometrica di parametro j una v.a.
discreta A, a valori interi non negativi, tale che
1 (A = :) = j (1 j)
a
per : = 0, 1, ...
Chiamiamo poi v.a. geometrica modicata di parametro j una v.a. discreta A
t
, a valori
positivi, tale che
1
_
A
t
= :
_
= j (1 j)
a1
per : = 1, ...
Osservazione 31 Per le geometriche avevamo dimostrato che 1 [A] =
1j
j
. Per le geomet-
riche modicate vale
1
_
A
t
=
1
j
.
Infatti, se A
t
geometrica modicata, allora A = A
t
1 geometrica, quindi
1
_
A
t
= 1 [A + 1] =
1 j
j
+ 1 =
1
j
.
Vale il seguente fatto:
Teorema 14 Le v.a. T
1
, T
2
, ..., T
i
, ... sono indipendenti, geometriche modicate di parametro
j.
Proof. Cominciamo dimostrando che T
1
geometrica. Vale T
1
= 1 se e solo se esce subito
uno, cosa che avviene con probabilit j; vale poi, per / _ 2, T
1
= / se e solo se per / 1
volte esce zero, ed alla /-esima esce uno. Questa sequenza ha probabilit
I1
j.
Mostriamo ora che T
2
geometrica ed indipendente da T
1
(lindipendenza intuitiva-
mente ovvia, ma siccome le v.a. non vengono introdotte da noi nel denire il modello ma sono
1.3. ESEMPI 71
derivate da altre, almeno per questa volta verichiamo rigorosamente che sono indipendenti).
Vale
1 (T
1
= /, T
2
= /)
= 1 (A
1
= 0, ..., A
I1
= 0, A
I
= 1, A
I+1
= 0, ..., A
I+I1
= 0, A
I+I
= 1)
=
I1
j
I1
j = 1 (T
1
= /)
I1
j.
Quindi
1 (T
2
= /) =
o
I=1
1 (T
1
= /, T
2
= /)
=
I1
j
o
I=1
1 (T
1
= /) =
I1
j.
Questo dimostra che T
2
geometrica modicata di parametro j; inoltre, messa nelluguaglian-
za precedente fornisce
1 (T
1
= /, T
2
= /) = 1 (T
1
= /) 1 (T
2
= /)
per ogni /, /, quindi T
1
e T
2
sono indipendenti. La dimostrazione per T
3
ecc. solo pi lunga
e la omettiamo.
Tra le conseguenze c il fatto (intuitivamente plausibile) che il tempo medio tra un giorno
di pioggia ed un altro
1 [T] =
1
j
.
1.3.5 Tempo del k-esimo evento: binomiale negativa
Inne, consideriamo il tempo del /-esimo giorno di pioggia:
t
I
= T
1
+... +T
I
.
Essa una v.a. che assume i valori /, / + 1, .... Calcoliamone la massa di probabilit
1 (t
I
= / +/). Levento t
I
= / + / accade quando A
I+I
= 1, e tra le precedenti v.a.
A
1
, ..., A
I+I1
ce ne sono esattamente / 1 pari ad uno. Ci sono
_
I+I1
I1
_
modi di scegliere i
tempi in cui questo accade; per ciascuna scelta, la probabilit di avere esattamente / 1 uni
in quelle posizioni scelte pi A
I+I
= 1 j
I
I
. Quindi
1 (t
I
= / +/) =
_
/ +/ 1
/ 1
_
j
I
I
.
Questa chiamata distribuzione binomiale negativa di parametri / e j. La binomiale negativa
di parametri / e j la distribuzione della somma di / v.a. geometriche di parametro .
La formula precedente si pu anche scrivere nella forma
1 (t
I
= ,) =
_
, 1
/ 1
_
j
)I
I
per , = /, / + 1, ...
A dispetto della complicazione della formula, facilissimo calcolare media e varianza di
una binomiale negativa di parametri / e j:
j =
/
j
, o
2
= /

j
2
.
Basta infatti usare il fatto che la binomiale negativa di parametri / e j somma di / v.a.
geometriche modicate di parametro j, indipendenti (serve solo per la varianza).
Anticipiamo che, sviluppando analoghe idee a tempo continuo, si possono usare le v.a.
esponenziali al posto delle geometriche, e v.a. di Erlang al posto delle binomiali negative.
1.3.6 Teoremi sulle v.a. esponenziali
In questa sezione sia T una v.a. esponenziale di parametro `, T ~ 1rj(`), cio con densit
)(t) =
_
`c
At
per t _ 0
0 per t < 0
.
Abbiamo usato la lettera T (ma ogni altra lecita) in quanto lambito tipico di applicazione
delle v.a. esponenziali ai tempi di vita, di funzionamento, di attesa ecc., per sistemi di
vario tipo. La v.a. T rappresenta cio, in molte applicazioni, listante in cui un certo sistema
termina il suo lavoro, o si rompe, o una persona arriva in un sistema, e cos via. Attraverso le
propriet delle v.a. esponenziali (in particolare la propriet di assenza di memoria) capiremo
quando il loro uso per descrivere tempi aleatori giusticato con buona approssimazione
oppure no.
La formula
1 (T t) = c
At
particolarmente elegante. La funzione t 1 (T t) detta funzione di sopravvivenza o
di adabilit. Se T il tempo di vita o funzionamento di un sistema, 1 (T t) rappresenta
la probabilit che il sistema funzioni ancora allistante t. Se, a parit di t, questa funzione
assume valori pi grandi per un sistema piuttosto che un altro, il primo ha un miglior grado
di sopravvivenza, una maggiore adabilit.
Propriet di assenza di memoria della legge esponenziale
Una propriet importante della legge esponenziale rappresentata dalla cosiddetta assenza
di memoria. Per illustrarla intuitivamente, facciamo riferimento al tempo di vita di un
sistema. La propriet di assenza di memoria si manifesta quando qualunque sia il tempo
trascorso, il tempo residuo di vita non aetto dal passato e ha la stessa distribuzione del
tempo di vita originario. In altre parole, loggetto non subisce logoramento, per cui la sua
propensione statistica a rompersi resta invariata. Ovviemente da questo si vede che lipotesi
di esponenzialit piuttosto ideale nella pratica, ma la sua comodit matematica fa s che la
si supponga in molti contesti.
1.3. ESEMPI 73
Esempio 54 Attraverso Internet richiediamo un servizio, che pu essere espletato solo quan-
do il servente libero. Supponiamo che la nostra richiesta non venga messa in una coda, ma
che venga reiterata ogni secondo. Quando il servente si libera, prende la prima richiesta che
gli arriva; se la nostra reiterazione gli arriva un istante dopo, viene scartata, e si continua
ad aspettare. In questa situazione, anche se abbiamo aspettato inutilmente per 10 minuti, le
nostre chances di essere accettati dalloperatore non sono aumentate: non c traccia nella
memoria delloperatore della nostra attesa pi o meno lunga. In questo caso il tempo di attesa
di connessione al servizio molto plausibilmente esponenziale.
Teorema 15 Se T esponenziale di parametro ` allora, per ogni t, : _ 0, vale
1 (T t +:[T t) = 1 (T :) .
In altre parole, arrivati al tempo t ed osservato che siamo ancora in attesa (T t), la
probabilit che levento accada dopo un tempo : uguale alla probabilit che inizialmente
levento accadesse dopo un tempo :.
Proof. Vale
1 (T t +:[T t) =
1 (T t +:, T t)
1 (T t)
ma il sistema
_
T t +:
T t
equivale alla singola condizione T t +:, quindi
=
1 (T t +:)
1 (T t)
=
c
A(t+c)
c
At
= c
Ac
= 1 (T :) .
Sul minimo di v.a. esponenziali
Date due v.a. esponenziali T
1
e T
2
indipendenti, di parametri `
1
e `
2
rispettivamente,
consideriamo la v.a. T = min(T
1
, T
2
). Ad esempio, se siamo i primi in coda ad una banca ed
abbiamo davanti a noi due possibili sportelli, entrambi occupati, ciascuno che si liberer dopo
un tempo esponenziale, T indica listante in cui si liberer il primo dei due, cio listante in
cui inizier il nostro servizio.
La v.a. T ha densit esponenziale di parametro `
1
+`
2
.
Per dimostrarlo calcoliamo il complementare della funzione di distribuzione di T:
1(T t) = 1(min(T
1
, T
2
) t) = 1(T
1
t, T
2
t)
= 1(T
1
t)1(T
2
t) = c
A
1
t
c
A
2
t
= c
(A
1
+A
2
)t
.
Questo dimostra quanto volevamo. In generale vale:
Proposizione 6 Se T
1
,...,T
a
sono v.a. esponenziali indipendenti, di parametri `
1
,...,`
a
,
allora la v.a. T = min(T
1
, ..., T
a
) esponenziale di parametro `
1
+... +`
a
.
1.3.7 Propriet delle gaussiane
Si dice che una classe di v.a. ha la propriet di riproducibilit, o che le v.a. sono autoripro-
ducenti, se prese due v.a. A ed 1 di quella classe, indipendenti, allora A + 1 sta ancora
nella stessa classe.
Le v.a. gaussiane godono di questa propriet. Anche altre classi hanno questa propriet
(ad esempio le Poisson) ma le gaussiane la soddisfano in una forma ancora pi forte, in cui
oltre che la somma si possono considerare anche le combinazioni lineari, anzi ani.
Teorema 16 Se A ed 1 sono gaussiane indipendenti ed a, /, c sono numeri reali, allora
aA +/1 +c gaussiana. La sua media e la sua varianza sono date da
j
oA+bY +c
= aj
A
+/j
Y
+c
o
2
oA+bY +c
= a
2
o
2
A
+/
2
o
2
Y
.
Proof. Le funzioni generatrici di A ed 1 sono
,
A
(t) = c
j
^
t+
I
2
2
^
2
, ,
Y
(t) = c
j
Y
t+
I
2
2
Y
2
e quindi, per lEsercizio 2,
,
oA+bY +c
(t) = ,
A
(at) ,
Y
(/t) c
ct
= c
j
^
t+
I
2
2
^
2
c
j
Y
t+
I
2
2
Y
2
c
ct
= c
(j
^
+j
Y
+c)t+
I
2
(
2
^
+
2
Y
)
2
che la generatrice di una gaussiana, quindi aA + /1 + c gaussiana. Le formule per la
sua media e varianza si leggono anche da qui, oppure si ottengono con facili calcoli sui valori
medi.
Osservazione 32 Le formule per media e varianza di aA + /1 + c valgono anche senza
lipotesi di gaussinit e si dimostrano facilmente usando le propriet dei valori medi. Quindi
laermazione non ovvia del teorema la gaussianit di aA +/1 +c.
Esercizio 4 Dimostrare che le binomiali di parametro j ssato (mentre la numerosit :
libera) sono autoriproducenti. Si osservi che lo si pu anche capire ad esempio facendo
riferimento al teorema che le lega alle Bernoulli.
Esercizio 5 Dimostrare che le Poisson sono autoriproducenti, e precisamente la somma di
una T (`) ed una T
_
`
t
_
indipendenti una T
_
` +`
t
_
.
Tra le conseguenze semplici del teorema c che se A gaussiana ed a, / sono numeri reali,
allora aA +/ gaussiana.
1.3. ESEMPI 75
Denizione 24 Data una v.a. A che ha media j e varianza o
2
nite, chiamiamo standard-
izzata di A la v.a.
7 =
A j
o
.
Essa ha media nulla e varianza unitaria.
Corollario 2 Se A gaussiana
_
j, o
2
_
, allora la sua standardizzata 7 una normale
standard. Inoltre, vale la rappresentazione
A = j +o7.
La dimostrazione ovvia, ma il contenuto della massima importanza. Si noti inoltre che
lespressione
aj
o
(la standardizzazione) compare continuamente nei calcoli sulle gaussiane.
Appare anche nel risultato che esporremo tra un momento, che si usa continuamente in
statistica.
Denizione 25 Indichiamo con (r) la cdf della normale standard (0, 1).
Il suo graco gi stato disegnato al paragrafo 1.2.6. Si pu anche ottenere con R coi
comandi
x<-(-500:500)/100
plot(x,pnorm(x))
Si vede dal graco (e di verica senza dicolt) che vale
(r) = 1 (r)
una sorta di disparit rispetto al punto di coordiante (0, 1,2). Questa regola essenziale
nelluso delle tavole. La funzione (r) spesso tabulata al termine dei libri di testo, ma
vengono dati i valori solo per r 0. I valori per r < 0 si calcolano con la formula (r) =
1 (r).
Proposizione 7 Sia 1
j,o
2 (r) la cdf di una A ~
_
j, o
2
_
. Allora
1
j,o
2 (r) =
_
r j
o
_
.
Proof.
1
j,o
2 (r) = 1 (A _ r) = 1
_
A j
o
_
r j
o
_
=
_
r j
o
_
.
Denizione 26 Se A una v.a. con cdf 1 (r) strettamente crescente e continua, dato
c (0, 1) esiste uno ed un solo numero
c
R tale che
1 (
c
) = c.
La funzione c
c
la funzione inversa di r 1 (r). Il numero
c
si dice quantile di
ordine c.
La denizione di pu estendere facilmente ad alcune situazioni in cui 1 non strettamente
crescente. Ad esempio, come accade per le v.a. esponenziali, 1 (r) nulla per r < 0 e poi
strettamente crescente. Allora, dato c (0, 1), esiste uno ed un solo numero
c
0 tale che
1 (
c
) = c, e quello viene preso come quantile. Invece che dare una complicata denizione
generale, si ragioni caso per caso in questo modo, per denire i quantili, nelle situazioni in
cui chiaro cosa si deve fare.
I quantili gaussiani intervengono continuamente in statistica, o nel calcolo di soglie (anche
quelli non gaussiani, solo che sono meno frequenti). Nel caso gaussiano vale anche per i
quantili una formula di riduzione dal caso generale a quello standard, simile a quello delle
cdf. La formula ricopia la struttura A = j +o7 vista sopra.
Proposizione 8 Sia
j,o
2
c
il quantile di ordine c di una A ~
_
j, o
2
_
e sia
c
il quantile
di ordine c della normale standard. Allora
j,o
2
c
= j +o
c
.
Proof. Il numero
j,o
2
c
denito dallequazione 1
j,o
2
_
j,o
2
c
_
= c, che si pu riscrivere
j,o
2
c
j
o
_
= c.
Ma allora
q
,
2
o
j
o
il quantile di ordine c della normale standard, cio
j,o
2
c
j
o
=
c
da cui si ricava subito il risultato desiderato.
Per i quantili della normale standard vale la formula
1c
=
c
a volte utile, di nuovo legata alla disparit di . Ricorrono spesso i seguenti quantili:
0.90
= 1.2815
0.95
= 1.6448

0.975
= 1.9599
0.99
= 2.3263
1.3.8 Variabili di Weibull
La densit Weibull di parametri : 0 (detto scala) e a 0 (detto forma) data da
) (r) =
_
o
c
_
a
c
_
o1
c
(
i
s
)
a
per r _ 0
0 per r < 0
Per a = 1 diventa
1
c
c
i
s
ovvero una esponenziale di parametro ` =
1
c
.
Ecco il graco per (:, a) = (1, 0.5) e (:, a) = (1, 2):
1.3. ESEMPI 77
1 2 3
0.0
0.5
1.0
1.5
2.0
x
y
Come nascono queste espressioni per la densit? Dalla funzione di ripartizione. Prendi-
amo (invece di 1 c
Aa
)
1 (r) = 1 c
(
i
s
)
a
, r 0
( solo un altro modo di scrivere 1 (r) = 1 c
(Aa)
a
). Vale
1
t
(r) = c
(
i
s
)
a
_
a
_
r
:
_
o1
1
:
_
=
a
:
_
r
:
_
o1
c
(
i
s
)
a
.
La media di una Weibull
j = :
_
1 +
1
a
_
.
da cui vediamo che la scala non esattamente la media, ma proporzionale. Esempio. La
deviazione standard vale
o = :
_
_
1 +
2
a
_
_
1 +
1
a
_
2
.
Simile alla media j = :
_
1 +
1
o
_
, per con un legame meno facile da interpretare.
Le Weibull si incontrano ad esempio in ingegneria meccanica, nello studio dei fenomeni
di fatica, dove descrivono il numero di cicli a cui si rompe una struttura; pi in generale,
vengono usate per descrivere tempi di vita, come generalizzazione delle esponenziali. Tra i
tanti usi, le Weibull possonoanche servire per modellare una coda che descriva bene dei dati
sperimentali. Le funzioni del tipo 1 c
(Aa)
l
sono una delle classi pi naturali e versatili.
Esempio 55 Supponiamo di esaminare il tempo di vita di un componente meccanico o elet-
tronico. Linsieme o degli esiti possibili la semiretta [0, ). Supponiamo ci serva che
il componente duri per almeno 1 anno, ovvero 365 giorni. Usiamo i giorni come unit di
misura. Indichiamo simbolicamente con T il tempi di vita e scriviamo
1 (T 365)
per indicare la probabilit che il componente duri pi di 365 giorni. Nella pratica, il problema
principale conoscere la densit di probabilit giusta (o meglio, una ragionevolmente aderente
alla realt). Ora, a titolo di esempio, supponiamo di conoscerla: una Weibull di parametri
(a, /) = (500, 10), )(r) =
10
500
_
a
500
_
101
c
(
i
500
)
10
. Intuitivamente, signica che sappiamo
che la vita media si aggira intorno a 500 giorni, con una certa aleatoriet. Vale 1 (r) =
1 c
(
i
500
)
10
, quindi
1 (T 365) = c
(
365
500
)
10
= 0.957 93
in quanto 1 (T t) = 1 1 (t). Questo un esempio di calcolo della survival function
(abbiamo calcolato la probabilit che il componente sopravviva almeno 365 giorni).
0 200 400 600 800 1000
0.000
0.002
0.004
0.006
x
y
1.3.9 Densit Gamma
La densit Gamma di parametri : 0 (detto scala) e a 0 (detto forma) denita da
) (r) =
_
c
(o)
_
a
c
_
o1
c
i
s
per r _ 0
0 per r < 0
(dove (a) =
_
o
0
t
o1
c
t
dt, la funzione gamma).
Si confronti con
b
o
_
a
o
_
b1
c
(
i
a
)
l
: molto simile ma il decadimento della Gamma sempre
esponenziale (potenza uno) e la potenza a 1 della r sganciata dallesponenziale. La sua
provenienza non da una 1, ma da ragionamenti diretti: perturbare con un polinomio un
esponenziale (oppure nasce sommando i quadrati di gaussiane indipendenti).
a = 1: la densit esponenziale di parametro ` =
1
c
(unica intersezione con la classe
Weibull).
Per a = 2, : = 1:
1.3. ESEMPI 79
0 1 2 3 4 5
0.0
0.1
0.2
0.3
x
y
Si suggerisce di esplorare lhelp di R relativamente alle distribuzioni Weibull e Gamma,
percependo il signicato intuitivo dei due parametri (ragurare alcune densit e magari le
corrispondenti cumulative - con pweibull, pgamma).
Si dimostra che la media vale
j = a :.
Notare che il fattore di scala non esattamente la media, come si potrebbe pensare; per
proporzionale. La deviazione standard vale
o =
_
a : =
j
a
(in genere quindi c una notevole variabilit, eliminabile solo con una forma speciale)
1.3.10 Densit Beta
Si chiama densit Beta di parametri c
1
c
2
0 la funzione
) (r) =
_
Cr
c
1
1
(1 r)
c
2
1
per r (0, 1)
0 altrimenti
dove C la costate di normalizzazione, che si dimostra essere pari a
C =
(c
1
+c
2
)
(c
1
) (c
2
)
.
Ecco il graco per:
c
1
= c
2
= 3 (linea continua)
c
1
= 2, c
2
= 5 (tratteggiata)
c
1
= 0.5, c
2
= 5 (a punti).
0.0 0.2 0.4 0.6 0.8 1.0
0
1
2
3
x
y
Queste densit possono essere usate per quanticare la nostra ducia nel valore di una
grandezza aleatoria j che sia compresa tra 0 ed 1, ad esempio una frequenza relativa o una
probabilit.
1.3.11 Code pesanti; distribuzione log-normale
Si dice che una v.a. A ha coda pesante (heavy tail) se la sua densit decade meno che
esponenzialmente. Un caso limite
) (r) =
C
1 +r
c
con c positivo ma piccolo, c (1, 2). Serve c 1 per avere una densit (altrimenti lintegrale
diverge). Vale
j =
_
o
0
r
C
1 +r
c
dr = + se c (1, 2)
(infatti r
C
1+a
o
~
C
a
o1
allinnito, ed c 1 (0, 1) non una potenza integrabile).
Quindi esistono v.a. a media innita, pur assumendo valori niti.
Tra gli esempi che si incontrano spesso nelle applicazioni ci sono le log-normali. Se A
una v.a. gaussiana o normale, la v.a.
1 = c
A
detta log-normale (una log-normale una variabile il cui logaritmo normale). Essere ad
esponente provoca loccorrenza di valori enormi, ogni tanto. Nel senso: se tipicamente A vale
circa 2-4, ma ogni tanto assume un valore dellordine di 5, i valori di 1 saranno tipicamente
del tipo 7-55, ma ogni tanto anche dellordine di 150.
I parametri di una log-normale sono media e deviazione della normale corrispondente.
Per mimare i numeri appena dati, prendiamo una gaussiana di media 3 e deviazione 1. Ecco
il graco della relativa log-normale:
x<-1:100
y<- dlnorm(x,3,1)
plot(x,y)
1.3. ESEMPI 81
Che queste densit abbiano coda pesante si intuisce dalla denizione, e dal graco.
Comunque, si dimostra che la densit data da
) (r) =
1
r
_
2o
2
exp
_
(log r j)
2
2o
2
_
con r 0. Quindi esponenziale e logaritmo in qualche modo si compensano ed il decadimento
diventa polinomiale.
1.3.12 Skewness e kurtosis
Esse sono i momenti standardizzati di ordine 3 e 4:
1
=
j
3
o
3
,
j
4
o
4
oppure, pi spesso, per kurtosis, si intende la kurtosi in eccesso
2
=
j
4
o
4
3.
La skewness misura lasimmetria. Infatti, se ) simmetrica, j
3
= 0.
Esempio 56 A gaussiana:
1
=
2
= 0. La kurtosis (in eccesso) una misura della
deviazione dalla normalit.
Esempio 57 A gamma (a = forma):
1
=
2
_
a
,
2
=
6
a
cio dipendono entrambe solo dalla forma. Ecco ad es. a = 2 (: = 1):
0 1 2 3 4 5
0.0
0.1
0.2
0.3
x
y
1.4 Teoremi limite
1.4.1 Convergenze di variabili aleatorie
Convergenze in probabilit ed in media quadratica
Denizione 27 Diciamo che una successione 1
a
di v.a. converge in media quadratica ad
una v.a. 1 se
lim
ao
1
_
(1
a
1 )
2
_
= 0.
Diciamo invece che converge in probabilit se
lim
ao
1 ([1
a
1 [ -) = 0
per ogni - 0.
Lemma 1 La convergenza in media quadratica implica la convergenza in probabilt. Inoltre,
quantitativamente, se per una certa successione numerica c
a
vale
1
_
(1
a
1 )
2
_
_ c
a
allora vale
1 ([1
a
1 [ -) _
c
a
-
2
.
Proof. Siccome
1 ([1
a
1 [ -) = 1
_
[1
a
1 [
2
-
2
_
,
per la disuguaglianza di Chebishev vale
1 ([1
a
1 [ -) _
1
_
(1
a
1 )
2
_
-
2
da cui discendono tutte le aermazioni.
1.4. TEOREMI LIMITE 83
Convergenza quasi certa
Inne, esiste un altro concetto di convergenza, pi delicato: la convergenza quasi certa.
Denizione 28 Data una successione 1
a
di v.a. ed una v.a. 1 , tutte denite sullo stesso
spazio probabilizzato (, T, 1), diciamo che 1
a
converge quasi certamente ad 1 se
1
_
lim
ao
1
a
= 1
_
= 1.
E un concetto pi delicato dei precedenti. Nella denizione si considera un evento che
coinvolge simultaneamente innite v.a.:
_
lim
ao
1
a
= 1
_
:=
_
. : lim
ao
1
a
(.) = 1 (.)
_
.
Grazie al fatto che T chiusa per operazioni numerabili, si pu mostrare che questo insieme
un evento, cio appartiene ad T, per cui se ne pu calcolare la probabilit. La denizione
richiede allora che tale probabilit sia pari ad uno.
Si dimostra che la convergenza quasi certa implica quella in probabilit, mentre il viceversa
non vero.
La convergenza quasi certa implica un salto concettuale e la necessit di strutture matem-
atiche pi complesse. Negli altri due tipi di convergenza, ssato : nito, si calcolano i numeri
1
_
[1
a
1 [
2
_
e 1 ([1
a
1 [ -). Solo di questi numeri si fa poi, eventualmente, il limite
per : . Per denire i numeri 1
_
[1
a
1 [
2
_
e 1 ([1
a
1 [ -) sono sucienti spazi
(, T, 1) elementari.
Ben diversa la convergenza quasi certa. Nella sua formulazione compaiono simultanea-
mente innite v.a., dovendosi considerare levento lim
ao
1
a
= 1 . Quindi lo spazio deve
essere pi complesso. Esso deve contenere i possibili esiti che riguardano simultaneamente
innite variabili aleatorie. La trattazione rigorosa di questo argomento esula da questo corso.
Convergenza in legge
Introduciamo il concetto di convergenza in legge, detto anche convergenza debole o conver-
genza in distribuzione.
Denizione 29 Una successione di v.a. (A
a
) aventi funzione di distribuzione (1
a
(t)) con-
verge in legge ad una v.a. A con funzione di distribuzione 1(t) se
1
a
(t) 1 (t)
per ogni t in cui 1(t) continua.
Si vede bene che, a dierenza delle altre nozioni di convergenza stocastica viste no ad ora
(quasi certa, in probabilit, in media quadratica), la convergenza in legge dipende solo dalla
legge delle v.a. e non dalle variabili in quanto tali. Si pu quindi formulare una denizione
di convergenza in legge per una successione (j
a
) di misure di probabilit ed una misura di
probabilit limite j, richiedendo che
j
a
((, t]) j((, t])
per ogni t che sia punto di continuit di j((, t]). Si dimostra che questa nozione equivale
a richiedere
_
A
) (r) j
a
(dr)
_
A
) (r) j(dr)
per ogni funzione continua e limitata ) : A R, dove qui A = R. Questo modo di vedere le
cose utile anche per le generalizazioni a spazi metrici A diversi da R.
Vale inne un teorema di convergenza legato alle funzioni generatrici. Se ,
An
(t) converge
a ,
A
(t) in ogni punto t di un intervallo aperto non vuoto, allora A
a
converge a A in legge.
1.4.2 Legge debole dei grandi numeri
Data una successione A
1
, A
2
, ..., A
a
, ... di v.a. (denite tutte sullo stesso spazio probabilizzato
(, T, 1)), scriveremo
A
a
=
A
1
+... +A
a
:
.
Esercizio 6 Se le v.a. A
1
, A
2
, ..., A
a
, ... hanno media j (la stessa per tutte), allora
1
_
A
a
= j.
Esercizio 7 Se inoltre A
1
, A
2
, ..., A
a
, ... sono indipendenti ed hanno varianze o
2
1
, o
2
2
, ..., o
2
a
, ...
nite, allora
\ ar
_
A
a
=
o
2
1
+... +o
2
a
:
2
.
In particolare, se le varianze sono equilimitate da una costante C 0, ovvero
o
2
a
_ C
per ogni :, allora
\ ar
_
A
a
_
C
:
.
Soluzione. Le costanti escono al quadrato, per cui \ ar
_
A
a
=
1
a
2
\ ar [A
1
+... +A
a
]. Essendo
indipendenti, vale poi
\ ar
_
A
a
=
1
:
2
(\ ar [A
1
] +...\ ar [A
a
]) =
o
2
1
+... +o
2
a
:
2
.
Lultima aermazione di conseguenza ovvia.
Da tutti questi fatti immediato dedurre la seguente versione della Legge Debole dei
Grandi Numeri (LGN debole).
Teorema 17 Sia A
1
, A
2
, ..., A
a
, ... una successione di v.a. indipendenti, con media j e vari-
anze o
2
1
, o
2
2
, ..., o
2
a
, ... equilimitate da una costante C 0. Allora vale la convergenza in media
quadratica
lim
ao
1
_
_
A
a
j
_
2
_
= 0 (1.2)
e la convergenza in probabilit
lim
ao
1
_
A
a
j
-
_
= 0 (1.3)
per ogni - 0. Pi precisamente, per ogni : vale
1
_
_
A
a
j
_
2
_
_
C
:
(1.4)
1
_
A
a
j
-
_
_
C
-
2
:
. (1.5)
Proof. Vale
\ ar
_
A
a
= 1
_
_
A
a
j
An
_
2
_
ma j
An
= j (per il primo esercizio) quindi
1
_
_
A
a
j
_
2
_
= \ ar
_
A
a
_
C
:
(per il secondo esercizio), da cui segue la convergenza in media quadratica. Quella in
probabilit poi conseguenza del fatto generale riportato nel paragrafo precedente.
Questo argomento verr ripreso nel capitolo sui processi stocastici, a proposito dei processi
stazionari ed ergodici.
Corollario 3 Sia A
1
, A
2
, ..., A
a
, ... una successione di v.a. indipendenti ed identicamente
distribuite (i.i.id.), con media j e varianza o
2
. Allora valgono le aermazioni del teorema.
Si pu anche dimostrare che, senza lipotesi o
2
< , si ottiene ancora la convergenza in
probabilit.
La LGN si applica in mille ambiti a problemi particolari. A livello pi generale, in statis-
tica, si pu osservare che essa alla base del legame tra molti stimatori ed i corrispondenti
parametri. Oltre al caso ovvio, enunciato direttamente dalla LGN stessa, del legame tra lo
stimatore A
a
e la media j, citiamo il legame tra
1
:
a
i=1
(A
i
j)
2
e la varianza o
2
, che si riconduce alla LGN introducendo le v.a.
1
i
= (A
i
j)
2
ed applicando ad esse la LGN (per cui abbiamo che
1
a
a
i=1
1
i
converge a 1 [1
1
] = o
2
). Con
manipolazioni algebriche e la convergenza di A
a
a j, si vede poi che anche lo stimatore o
2
,
pi usato, converge a o
2
. Inne, introducendo le v.a. 7
i
= (A
i
j
A
) (1
i
j
Y
), si vede che
lo stimatore

Co
AY
introdotto nella lezione 3 converge a Co (A, 1 ). E cos per tanti altri
esempi.
Vedremo tra poco la cosidetta legge forte dei grandi numeri. Non si dovr per pensare
necessariamente che essa rimpiazzi la legge debole. Infatti, nella legge debole contenuta
anche una stima quantitativa dellerrore che si commette approssimando j con A
a
, cosa che
si perder nella legge forte. Il seguente esempio mostra un uso di tale stima quantitativa.
Esempio 58 Sia T la v.a. durata della batteria del PC. Supponiamo di non conoscere la
legge di T e di voler stimare la media 1 [T] tramite esperiementi. In 20 sessioni di lavoro
al PC misuriamo la durata, ottenendo il campione sperimentale t
1
, ..., t
20
. Supponiamo che
la media e deviazione empiriche di tale campione siano risp. t = 3 h e o = 1 h. In prima
approssimazione riteniamo quindi che t = 3 h sia una discreta approssimazione di 1 [T], per
la LGN. In pi di questo, per, possiamo dire che
1
_
T
20
1 [T]
-
_
_
o
2
-
2
20
.
Se approssimiamo o
2
con o
2
, troviamo
1
_
T
20
1 [T]
-
_
_
1
-
2
20
.
Ad esempio, per - = 30 min, risulta
1
.
2
20
=
1
5
= 0.2. Quindi possiamo aermare che con
probabilit 0.8 gli esperimenti dovevano fornire un valore t tale che
1 [T] = t 30 min.
A causa di questa aermazione e dei nostri risultati sperimentali, condiamo all80% che
valga
1 [T] = 180 30 min.
Questo un esempio di intervallo di condenza.
Lesempio ora descritto mette in luce il fatto che, quantitativamente, la stima con
1
a

piuttosto povera. Essa per si pu migliorare, a patto di conoscere altre grandezze medie
legate alle variabili in gioco.
Esercizio 8 Date A
a
i.i.d., supponiamo che siano simmetriche rispetto alla media j, e che
sia
0
4
:= 1
_
(A j)
4
_
< .
Allora
1
_
_
A
a
j
_
4
_
=
:0
4
+
_
4
2
_
:(: 1) o
4
:
4
1
_
A
a
j
-
_
_
:0
4
+
_
4
2
_
:(: 1) o
4
-
4
:
4
.
Quindi queste grandezze tendono a zero come
1
a
2
.
Esempio 59 Riprendendo lesempio precedente, supponiamo per semplicit la simmetria, e
supponiamo che dai dati si possa stimare

0
4
~ 5. Allora
1
_
A
20
j
30:i:
_
_
20 5 +
_
4
2
_
20 19
5
4
= 3. 808.
Questa stima non serve a nulla. Abbiamo mostrato questo risultato negativo per chiarire che
le costanti davanti agli innitesimi possono vanicarne luso pratico.
Esempio 60 Valutiamo per lintervallo di condenza con - = 1 h. Col primo metodo
avremmo scoperto
1 [T] = 180 60 min
con condenza 1
1
20
= 0.95. Ora invece vale
1
_
A
20
j
1/
_
_
20 5 +
_
4
2
_
20 19
20
4
= 0.015.
Quindi laermazione 1 [T] = 180 60 min vale in realt con condenza 1 0.015 = . 985.
Questo esercizio fa capire che le stime (1.4) e (1.5) non sono ottimali, in generale: sotto
opportune ipotesi di maggior integrabilit di A il decadimento pi rapido. Nel seguito della
lezione si dimostrer un teorema di decadimento esponenziale.
1.4.3 Legge forte dei grandi numeri
Una LGN relativamente alla converganza quasi certa viene detta legge forte dei grandi numeri
(LGN forte).
Teorema 18 Sia A
1
, A
2
, ..., A
a
, ... una successione di v.a. indipendenti ed identicamente
distribuite, con media j nita. Allora vale la LGN forte.
Vale anche il seguente teorema (di Ratchmann):
Teorema 19 Sia A
1
, A
2
, ..., A
a
, ... una successione di v.a. scorrelate (Co (A
i
, A
)
) = 0 per
ogni i ,= ,), con lim
ao
1 [A
a
] = j e varianze equilimitate. Allora vale la LGN forte.
Le dimostrazioni sono complesse e le omettiamo. Cerchiamo invece di apprezzare la
dierenza di informazione pratica che fornisce la LGN forte rispetto a quella debole. In
genere tutti noi abbiamo la seguente convinzione: che se lanciamo una moneta per un gran
numero di volte, per circa la met di volte verr testa; e che se continuassimo allinnito i
lanci, la frequenza relativa (numero di teste diviso numero di lanci) tenderebbe esattamente
ad
1
2
. Il procedimento, pur ipotetico, di continuare i lanci allinnito e studiare il limite delle
frequenze relative corrisponde esattamente alla legge forte. Infatti, si sta considerando una
ben precisa storia (sequenza) innita ., quella che accade continuando allinnito i lanci, e
relativamente a quella si stanno calcolando le medie parziali A
a
(.) e se ne studia il limite
per : . Solo il concetto di convergenza quasi certa e la LGN forte esaminano questo
tipo di procedimento.
Invece le leggi deboli ci dicono che se facciamo ad es. 1000 lanci, la probabilit che A
a
disti da
1
2
pi di - minore di
jq
.
2
100
=
1
.
2
400
. Quindi abbiamo tale condenza (.00 25 -
2
)
che A
a
(.), relativo alla storia . che si sta avverando, disti da
1
2
pi di -. Se aumentiamo :,
aumenta la nostra condenza, ma non possiamo dire che A
a
(.), relativo alla nostra storia
., si stia eettivamente avvicinando a
1
2
.
1.4.4 Stima di Cherno (grandi deviazioni)
In questo paragrafo mostriamo stime esponenziali per le probabilit di errore tra media
aritmetica e media teorica.
Per ogni coppia di numeri c, j (0, 1), introduciamo lentropia relativa
/(c[[j) = clog
c
j
+ (1 c) log
(1 c)
(1 j)
detta anche distanza (o divergenza) di Kullback-Leibler.
Per c j vale /(c[[j) 0, come si deduce ad esempio dalla dimostrazione del seguente
teorema. Ecco il graco di c /(c[[
1
2
) e di c /(c[[
1
4
), a titolo di esempio.
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
x
y
c /(c[[
1
4
) (linea intera) e c /(c[[
1
2
) (tratteggiata)
Altre propriet generali, ben visibili negli esempi, sono che /(j[[j) = 0 e che /(c[[j)
convessa in c.
Data o
a
~ 1(:, j), ricordiamo che la sua media :j. Inoltre sappiamo che la sua
deviazione standard o molto pi piccola delle grandezze che crescono con : (come il range
: e la media :j): essa vale
_
:
_
j. Quindi o
a
si concentra, per cos dire, attorno alla sua
media. Preso allora un numero c j, la probabilit della coda 1 (o
a
_ :c) dovrebbe essere
molto piccola. Dimostriamo che esponenzialmente piccola.
Teorema 20 Se o
a
~ 1(:, j), allora, per ogni c j, vale
1 (o
a
_ :c) _ c
aI(c[[j)
.
Inoltre, per ogni , < j, vale
1 (o
a
_ :,) _ c
aI(o[[j)
.
Quindi vale anche
1
_
A
a
j
-
_
_ c
aI(j+.[[j)
+c
aI(j.[[j)
.
Proof. Dimostriamo solo la prima disuguaglianza; la seconda analoga, considerando le v.a.
1
i
= A
i
.
Per ogni ` 0 vale
1 (o
a
_ :c) = 1 (expò
a
_ exp`:c) .
Per la disuguaglianza di Chebishev, allora,
1 (o
a
_ :c) _ exp(`:c) 1 [expò
a
] .
Per lindipendenza delle v.a. vale
1 [expò
a
] = 1 [expÀ
1
expÀ
a
] = 1 [expÀ
1
] 1 [expÀ
a
]
= 1 [expÀ
1
]
a
=
_
jc
A
+
_
a
.
Quindi
1 (o
a
_ :c) _ exp(`:c)
_
jc
A
+
_
a
= exp
_
(:)
_
`c log
_
jc
A
+
___
.
Questa disuguaglianza vale per ogni ` 0. Quindi vale anche
1 (o
a
_ :c) _ inf
A0
exp
_
(:)
_
`c log
_
jc
A
+
___
= exp
_
(:) sup
A0
_
`c log
_
jc
A
+
__
_
.
Calcoliamo questo estremo superiore.
Consideriamo la funzione
) (`) = `c log
_
jc
A
+
_
denita per ` _ 0. Vale ) (0) = 0,
)
t
(`) = c
jc
A
jc
A
+
=
c (1 c) jc
A
jc
A
+
quindi )
t
(0) = c (1 c) j. Avendo supposto c j, (1 c), quindi )
t
(0) 0.
Vale inoltre lim
Ao
) (`) = , quindi ci aspettiamo un massimo assoluto per ` 0. Vale
)
t
(`) = 0 se
c
A
=
c
(1 c) j
quindi per il solo valore
` = log
c
(1 c) j
(che positivo in quanto
cq
(1c)j
1, come gi osservato sopra). Quindi
sup
A0
_
`c log
_
jc
A
+
__
= clog
c
(1 c) j
log
_
c
(1 c)
+
_
= /(c[[j).
Nel teorema precedente, lipotesi o
a
~ 1(:, j) gioca solo un ruolo marginale. Presa
una successione A
1
, A
2
, ..., A
a
, ... di v.a. indipendenti ed identicamente distribuite come A,
supponiamo che per ogni ` 0 sia 1
_
c
AA
< . Osserviamo che, posto

o
a
= A
1
+... +A
a
vale
1
_
c
ASn
_
= 1
_
c
AA
_
a
.
Ripetendo i passaggi della dimostrazione si trova
1 (o
a
_ :c) _ exp(`:c) 1
_
c
AA
_
a
= exp
_
(:)
_
`c log 1
_
c
AA
___
.
Introduciamo la funzione
(`) = log 1
_
c
AA
_
e la funzione
+
(a) = sup
A0
(`c (`))
detta trasformata di Legendre-Fenchel di (`). In realt, nella denizione tradizionale si
deve prendere lestremo superiore su tutti i `, ma qui si pu dimostrare che inessenziale.
Si scopre allora:
Teorema 21 Presa una successione A
1
, A
2
, ..., A
a
, ... di v.a. indipendenti ed identicamente
distribuite come A, con 1
_
c
AA
< per ogni ` 0, denita

+
(a) come sopra, per ogni
c j = 1 [A], vale
1 (o
a
_ :c) _ c
a
(o)
.
Inoltre, per ogni , < 1 [A], vale
1 (o
a
_ :,) _ c
a
(o)
.
Quindi vale anche
1
_
A
a
j
-
_
_ c
a
(j+.)
+c
a
(j.)
.
Inne, con un argomento pi complicato si pu dimostrare una stima dal basso dello
stesso tipo, di tipo per asintotico:
1 (o
a
_ :c) _ c
a
c
a
(o)
con lim
ao
1
a
log c
a
= 0. In verit questa stima dal basso non vale proprio in tutti i punti
c 1 [A]. Per tutte queste piccole dicolt tecniche, non approfondiamo ulteriormente la
stima dal basso e rimandiamo per una trattazione pi esauriente ai testi della teoria delle
grandi deviazioni.
1.4.5 Teorema limite centrale
Esercizio 9 Siano A
1
, ..., A
a
v.a. indipendenti, identicamente distribuite, con varianza ni-
ta o
2
e media j. Allora
7
a
:=
A
1
+... +A
a
:j
o
_
:
ha media zero e varianza uno.
Il teorema limite centrale vale sotto diverse ipotesi. La seguente versione porta il nome
di Teorema di P. Lvy (o Lindeberg-Lvy). Nel caso particolare in cui le v.a. A
a
siano delle
Bernoulli, esso porta il nome di Teorema di De Moivre-Laplace. e si pu dimostrare per via
combinatorica.
Teorema 22 Sia (A
a
) una successione di v.a. indipendenti, identicamente distribuite, con
varianza nita o
2
e media j. Allora la v.a.
7
a
:=
A
1
+... +A
a
:j
o
_
:
converge in legge ad una gaussiana canonica (0, 1). In altre parole, per ogni a < / vale
lim
ao
1
_
a _
A
1
+... +A
a
:j
o
_
:
_ /
_
= (/) (a)
dove indica la cdf normale standard.
Prima di procedere alla dimostrazione, osserviamo che, in base allesercizio preposto al
teorema, la v.a. 7
a
ha media zero e varianza uno. Per non in generale gaussiana e non
ovvio che lo diventi al limite per : . Questa la parte dicile del teorema.
Proof. Calcoliamo la funzione generatrice ,
a
(t) di 7
a
e mostriamo che, per ogni t, essa
converge a c
t
2
2
. Questo implica la convergenza in legge di 7
a
alla (0, 1).
Osserviamo che
7
a
=
A
1
j
o
+... +
Anj
o
_
:
dove le v.a. 1
a
=
Anj
o
sono indipendenti ed hanno media zero e varianza uno. Quindi basta
dimostrare il teorema in questo caso.
Supponiamo allora j = 0, o = 1. Abbiamo
,
a
(t) = ,
A
1
+...+An
_
t
_
:
_
= ,
A
1
_
t
_
:
_
a
.
Allora, usando lo sviluppo di Taylor di ,
A
1
(t) ed il fatto che 1 [A
1
] = 0 e 1
_
A
2
1
= 1, vale
,
A
1
(t) = 1 +
t
2
2
+o
_
t
2
_
.
Quindi
,
A
1
_
t
_
:
_
= 1 +
t
2
2:
+o
_
t
2
:
_
.
Pertanto vale
,
a
(t) =
_
1 +
t
2
2:
+o
_
t
2
:
__
a
.
Passando ai logaritmi abbiamo
log ,
a
(t) = :log
_
1 +
t
2
2:
+o
_
t
2
:
__
ed usando il limite notevole lim
a0
log(1+a)
a
= 1 si ottiene (t ssato)
lim
ao
log ,
a
(t) = lim
ao
:
_
t
2
2:
+o
_
t
2
:
__
log
_
1 +
t
2
2a
+o
_
t
2
a
__
t
2
2a
+o
_
t
2
a
_
= lim
ao
:
_
t
2
2:
+o
_
t
2
:
__
=
t
2
2
.
Quindi
lim
ao
,
a
(t) = c
I
2
2
.
Il caso particolare in cui le v.a. A
a
sono Bernoulli 1(1, j) particolarmente rilevante. In
questo caso o
a
:= A
1
+... +A
a
una binomiale 1(:, j) ed il teorema dice che
7
a
:=
o
a
:j
o
_
:
converge in legge ad una gaussiana canonica (0, 1). E un teorema di convergenza della
binomiale alla gaussiana, che si aanca al teorema degli eventi rari. Qui, per vedere la
convergenza, bisogna standardizzare la binomiale o
a
(7
a
la sua standardizzata).
Pu sembrare assurdo che le binomiali approssimino contemporaneamente sia le Poisson
sia le gaussiane. In eetti il regime limite molto diverso: nel teorema degli eventi rari j
non ssato, tende a zero come
A
a
, mentre nel teorema limite centrale ssato. Se per
non si considera il limite vero e proprio ma solo lapprossimazione per valori grandi o piccoli
dei parametri in gioco, ci sono eettivamente delle situazioni in cui le due approssimazioni
sono abbastanza buone entrambe e si sovrappongono un po. A parte questo, il consiglio
di usare il teorema degli eventi rari quando il prodotto :j un numero dellordine dellunit
(es. 5), ed : ovviamente non troppo piccolo (es. 20, 30). Se ad esempio :j = 3 e : = 30,
allora j =
3
30
= 0.1, piuttosto piccolo. In queste situazioni luso del teorema limite centrale
non prodice risultati molto precisi. Meglio che j sia pi interno allintervallo (0, 1), non
cos estremo, per una buona applicazione del TLC (ma se : pi grande, allora si possono
accettare j pi piccoli).
Inne, sempre nellambito dellapprossimazione gaussiana della binomiale, se si vuole un
risultato pi preciso conviene usare la correzione di continuit. Supponiamo di dover calcolare
1 (o
a
_ 25). Siccome o
a
assume valori solo negli interi, questo uguale a 1 (o
a
< 26). Le
due approssimazioni darebbero
1 (o
a
_ 25) = 1
_
o
a
:j
o
_
:
_
25 :j
o
_
:
_
-
_
25 :j
o
_
:
_
1 (o
a
< 26) = 1
_
o
a
:j
o
_
:
_
26 :j
o
_
:
_
-
_
26 :j
o
_
:
_
per cui in genere si ottiene un risultato pi preciso prendendo
1 (o
a
_ 25) -
_
25.5 :j
o
_
:
_
.
1.4.6 Distribuzione del limite di massimi
Cominciamo da un caso particolare. Siano A
1
, ..., A
a
, ... v.a. 1rj (`) indipendenti, per cui
1 (r) = 1 c
Aa
, r _ 0.
Indichiamo con '
a
la v.a.
'
a
= max A
1
, ..., A
a
.
Che distribuzione ha '
a
? Indichiamo con 1
a
(r) la funzione di distribuzione di '
a
. Vale (e
questo vero indipendentemente dalla legge di A)
1
a
(r) = 1 (r)
a
.
Infatti
1 ('
a
_ r) = 1 (A
1
_ r, ..., A
a
_ r)
= 1 (A
1
_ r) 1 (A
a
_ r) = 1 (A _ r)
a
.
Usando poi il fatto che A esponenziale, troviamo, per r _ 0,
1
a
(r) =
_
1 c
Aa
_
a
.
Nella gura si vedono i graci, per ` = 1, per diversi valori di :.
0 1 2 3 4 5 6 7 8 9 10
0.0
0.2
0.4
0.6
0.8
1.0
x
y
1
a
(r) per : =1, 5, 20, 70, 200
Essendo 1 (r) < 1 per ogni r, 1 (r)
a
0 per : , per cui il graco di 1
a
(r) si
sposta verso destra, per cos dire, al crescere di :. Questo coerente con lintuizione che i
valori tipici di '
a
sono maggiori di quelli di A, e diventano sempre pi grandi al crescere di
:. Si noti che lo spostamento (drift) non si arresta mai: diventa sempre pi lento, ma non
pu arrestarsi, essendo 1 (r) < 1 per ogni r 0.
Un fatto che si pu intuire dai graci che la forma di 1
a
(r) tende ad assestarsi, per
quanto continui a slittare verso destra. Matematicamente, sembra che ci sia una successione
/
a
di traslazioni ed una funzione limite G(r) tali che
1
a
(r) ~ G(r /
a
)
ovvero rigorosamente
lim
ao
1
a
(r +/
a
) = G(r) .
Dimostriamolo. Basta prendere
/
a
=
1
`
log :.
Infatti
1
a
(r +/
a
) =
_
1 c
A(a+
1
A
log a)
_
a
=
_
1
c
Aa
:
_
a
G(r)
con
G(r) = c
c
Ai
.
Questa detta distribuzione di Gumbel. E una funzione di distribuzione, corrispondente alla
densit
q(r) = `c
c
Ai
c
Aa
= `c
Aac
Ai
.
-2 0 2 4
0.1
0.2
0.3
x
y
Densit di Gumbel per ` = 1
Si trova la distribuzione di Gumbel a partire da varie distribuzioni per A, non solo per
lesponenziale. A livello graco, osserviamo ad esempio quanto accade partendo da una 1(r)
che si avvicina ad 1 in modo esponenziale quadratico, come accade per le gaussiane. Per
semplicit prendiamo
1(r) ~ 1 c
a
2
.
Raguriamo 1(r)
a
per : crescente e, traslata con / = 4 per esigenze visive, la Gumbel con
con ` = 5 :
G(r) = c
c
5(i4)
.
E visivamente chiaro che 1(r)
a
tende a G(r).
0 1 2 3 4 5
0.0
0.5
1.0
x
y
_
1 c
a
2
_
a
per : =1, 4, 10, 25 e Gumbel (traslata)
Bisogna invece tener conto che, se si parte da distribuzioni 1(r) radicalmente diverse,
si possono trovare al limite, per 1(r)
a
, due altri tipi di forme. Vediamolo attraverso due
esempi. Se
1(r) =
_
1 r
c
per r _ 1
0 per r < 1
con c 0, si trova, per : ,
1(r)
a
~ G
_
r
:
1c
_
dove G(r) la distribuzione di Frechet
G(r) =
_
c
a
o
per r _ 1
0 per r < 0
.
A titolo di esempio, per c = 1, tracciamo i graci di 1(r), 1(r)
5
, 1(r)
10
, e della Frechet
c
(
i
10
)
1
, che praticamente coincide con 1(r)
10
.
-10 0 10 20 30
0.2
0.4
0.6
0.8
1.0
x
y
Convergenza alla distribuzione di Frechet
Lultimo tipo di distribuzione si trova prendendo ad esempio
1(r) =
_
_
_
0 per r _ 0
1 (1 r)
c
per 0 < r < 1
1 per r _ 1
con c 0. Si trova, per : ,
1(r)
a
~ G
_
:
1c
(r 1)
_
dove G(r) la distribuzione del massimo di terzo tipo
G(r) =
_
c
(a)
o
per r < 0
1 per r _ 0
.
1.5 Approfondimenti sui vettori aleatori
1.5.1 Trasformazione di densit
Esercizio 10 Se A ha cdf 1
A
(r) e q strettamente crescente e continua, allora 1 = q (A)
ha cdf
1
Y
(j) = 1
A
_
q
1
(j)
_
per tutte le j nellimmagine di q. Se q strettamente decrescente e continua, la formula
1
Y
(j) = 1 1
A
_
q
1
(j)
_
Soluzione:
1
Y
(j) = 1 (1 _ j) = 1 (q (A) _ j) = 1
_
A _ q
1
(j)
_
= 1
A
_
q
1
(j)
_
.
La seconda identica.
Esercizio 11 Se A ha una pdf continua )
A
(r) e q strettamente crescente e dierenziabile,
allora 1 = q (A) ha pdf
)
Y
(j) =
)
A
_
q
1
(j)
_
q
t
(q
1
(j))
=
)
A
(r)
q
t
(r)
j=j(a)
per tutte le j nellimmagine di q. Se q decrescente e dierenziabile, la formula
)
Y
(j) =
)
A
(r)
q
t
(r)
j=j(a)
.
Soluzione: Vale
)
Y
(j) =
d
dj
1
Y
(j) =
d
dj
1
A
_
q
1
(j)
_
= 1
t
A
_
q
1
(j)
_
d
dj
q
1
(j)
= )
A
_
q
1
(j)
_
1
q
t
(q
1
(j))
=
)
A
(r)
q
t
(r)
j=j(a)
.
La seconda identica.
1.5. APPROFONDIMENTI SUI VETTORI ALEATORI 97
Quindi, in generale, abbiamo:
Proposizione 9 Se q monotona e dierenziabile, la trasformazione di densit data da
)
Y
(j) =
)
A
(r)
[q
t
(r)[
j=j(a)
Osservazione 33 Se q non monotona, sotto ipotesi opportune la formula si generalizza a
)
Y
(j) =

a:j=j(a)
)
A
(r)
[q
t
(r)[
.
Esercizio 12 Se A una v.a. esponenziale di parametro `, trovare la densit di 1 = A
2
seguendo il metodo di risoluzione degli esercizi precedenti e confrontare il risultato con la
formula generale.
Osservazione 34 Una seconda dimostrazione della formula precedente proviene dalla seguente
caratterizzazione delle densit: ) la densit di A se e solo se
1 [/(A)] =
_
R
/(r) ) (r) dr
per tutte le funzioni continue e limitate /. Usiamo questo fatto per dimostrare che )
Y
(j) =
)
^
(a)
[j
0
(a)[
j=j(a)
la densit di 1 = q (A). Calcoliamo 1 [/(1 )] per una generica funzione
continua e limitata /. Dalla denizione di 1 e dalla caratterizzazione precedente applicata a
A, abbiamo
1 [/(1 )] = 1 [/(q (A))] =
_
R
/(q (r)) ) (r) dr.
Usiamo il teorema di cambio di variabile negli integrali, con j = q (r), se q monotona,
biunivoca e dierenziabile. Abbiamo r = q
1
(j), dr =
1
[j
0
(j
1
(j))[
dj (abbiamo scritto il valore
assoluto per non cambiare gli estremi di integrazione) cos che
_
R
/(q (r)) ) (r) dr =
_
R
/(j) )
_
q
1
(j)
_
1
[q
t
(q
1
(j))[
dj.
Se poniamo )
Y
(j) :=
)
^
(a)
[j
0
(a)[
j=j(a)
abbiamo dimostrato che
1 [/(1 )] =
_
R
/(j) )
Y
(j) dj
per ogni funzione continua e limitata /. Usando di nuovo la caratterizzazione, deduciamo che
)
Y
(j) la densit di 1 . Questa dimostrazione basata sul cambio di variabile negli integrali.
Osservazione 35 La stessa dimostrazione funziona nel caso multidimensionale, in cui non
riusciamo pi a lavorare con le cdf. Bisogna usare il teorema di cambio di variabile negli
integrali multipli. Ricordiamo che in esso al posto di dj = q
t
(r)dr si deve usare dj =
[det 1q (r)[ dr dove 1q la matrice jacobiana (la matrice delle derivate prime) della trasfor-
mazione q : R
a
R
a
. In realt abbiamo bisogno della trasformazione inversa, quindi usiamo
la formula
dr =

det 1q
1
(j)
dj =
1
[det 1q (q
1
(j))[
dj.
Con gli stessi passaggi visti sopra nel caso 1-dimensionale, otteniamo il seguente risultato.
Proposizione 10 Se q biunivoca e dierenziabile con matrice jacobiana invertibile e 1 =
q (A), allora
)
Y
(j) =
)
A
(r)
[det 1q (r)[
j=j(a)
.
Corollario 4 Sia A = (A
1
, ..., A
a
) un vettore casuale, una matrice : : invertibile,
/ R
a
, ed 1 = (1
1
, ..., 1
a
) un vettore casuale denito da
1 = A +/.
Se A ha densit congiunta )
A
(r) allora anche 1 ha densit congiunta, data da
)
Y
(j) =
)
A
_
1
(j /)
_
[det [
.
Proof. La trasformazione q (r) = r + / invertibile, con inversa q
1
(j) =
1
(j /).
La matrice jacobiana di q (r) , costante. Basta allora sostituire questi fatti nella formula
precedente.
Esercizio 13 Se A (in R
a
) ha densit )
A
(r) e 1 = lA, dove l una trasformazione
ortogonale di R
a
(ovvero l
1
= l
T
), allora 1 ha densit
)
Y
(j) = )
A
_
l
T
j
_
.
Soluzione. Le trasformazioni ortogonali sono invertibili ed hanno determinante pari a 1, in
quanto
1 = det 1
o
= det
_
ll
T
_
= det (l) det
_
l
T
_
= det (l)
2
.
Basta quindi sostituire nella formula precedente.
1.5.2 Trasformazione lineare dei momenti
La soluzione dei seguenti esercizi basata sulla linearit del valore atteso (e quindi della
covarianza, rispetto a ciascuno dei suoi argomenti)
Esercizio 14 Sia A = (A
1
, ..., A
a
) un vettore casuale, una matrice : d, cio : R
a
R
o
, / R
o
, ed 1 = (1
1
, ..., 1
o
) un vettore casuale denito da
1 = A +/.
Sia j
A
=
_
j
A
1
, ..., j
A
a
_
il vettore dei valori medi di A, ovvero j
A
i
= 1 [A
i
] e sia j
Y
=
_
j
Y
1
, ..., j
Y
o
_
il vettore dei valori medi di 1 . Allora
j
Y
= j
A
+/.
Soluzione. Lidentit 1 = A +/, per componenti signica
1
i
=
a
)=1
i)
A
)
+/
i
.
Pertanto, per la linearit del valor medio,
1 [1
i
] = 1
_
_
a
)=1
i)
A
)
+/
i
_
_
=
a
)=1
i)
1 [A
)
] +/
i
che la versione per componenti dellidentit da dimostrare.
Esercizio 15 Sotto le stesse ipotesi, se Q
A
e Q
Y
sono le matrici di covarianza di A ed 1 ,
allora
Q
Y
= Q
A
T
.
Soluzione. Sempre usando lidentit per componenti scritta sopra,
Q
Y
i)
= Co (1
i
, 1
)
) = Co
_
_
a
i
0
=1
ii
0 A
i
0 +/
i
,
a
)
0
=1
))
0 A
)
0 +/
)
_
_
=
a
i
0
=1
ii
0 Co
_
_
A
i
0 ,
a
)
0
=1
))
0 A
)
0 +/
)
_
_
=
a
i
0
=1
ii
0
a
)
0
=1
))
0 Co
_
A
i
0 , A
)
0
_
=
a
i
0
=1
a
)
0
=1
ii
0 Q
A
i
0
)
0
))
0
avendo usato la linearit della covarianza nelle due componenti. Ricordiamo che, date due matrici
e 1, vale (1)
i)
=

I

iI
1
I)
. Allora
a
i
0
=1
a
)
0
=1
ii
0 Q
A
i
0
)
0
))
0 =
a
)
0
=1
_
Q
A
_
i)
0

))
0 .
Per interpretare anche questultimo come prodotto tra matrici bisogna trasporre :
=
a
)
0
=1
_
Q
A
_
i)
0

T
)
0
)
=
_
Q
A
T
_
i)
.
Lesercizio risolto.
1.5.3 Sulle matrici di covarianza
La matrice di covarianza Q di un vettore A = (A
1
, ..., A
a
), denita da Q
i)
= Co (A
i
, A
)
),
simmetrica:
Q
i)
= Co (A
i
, A
)
) = Co (A
)
, A
i
) = Q
)i
e denita non-negativa:
r
T
Qr =
a
i,)=1
Q
i)
r
i
r
)
=
a
i,)=1
Co (A
i
, A
)
) r
i
r
)
=
a
i,)=1
Co (r
i
A
i
, r
)
A
)
)
= Co
_
_
a
i=1
r
i
A
i
,
a
)=1
r
)
A
)
_
_
= \ ar [\]
dove \ =

a
i=1
r
i
A
i
.
Il teorema spettrale aerma che ogni matrice simmetrica Q pu essere diagonalizzata, nel
senso che esiste una base ortonormale c
1
, ..., c
a
di R
a
in cui Q assume la forma
Q
c
=
_
_
`
1
0 0
0 ... 0
0 0 `
a
_
_
.
Inoltre, i numeri `
i
sulla diagonale sono gli autovalori di Q ed i vettori c
i
sono i corrispon-
denti autovettori. Dal punto di vista algebrico, quanto detto signica che esiste una matrice
ortogonale l ed una matrice diagonale Q
c
tali che
Q = lQ
c
l
T
.
Inoltre, l ha come colonne una base ortonormale di autovettori c
i
corrispondenti ai `
i
:
l = (c
1
, ..., c
a
) .
Esercizio 16 Vericare che, se l = (c
1
, ..., c
a
), Q
c
come sopra e Q = lQ
c
l
T
, allora
Qc
1
= `
1
c
1
(lo stesso vale per gli altri autovettori).
Soluzione. Detto n
1
il vettore
_
1 0 ... 0
_
T
, vale Qc
1
= lQ
c
l
T
c
1
= lQ
c
n
1
, in quanto
nei prodotti riga per colonna di l
T
c
1
si devono fare i prodotti scalari degli c
i
con c
1
, tutti zero tranne
il primo. Quindi Qc
1
= lQ
c
n
1
= `
1
ln
1
= `
1
c
1
.
Siccome una matrice di covarianza Q anche denita non-negativa, vale
`
i
_ 0, i = 1, ..., :.
Usando entrambi questi fatti si pu denire la radice quadrata di Q, cio una matrice
simmetrica che indicheremo con
_
Q, tale che
__
Q
_
2
= Q. Infatti, in primo luogo possiamo
denire facilmente la radice quadrata di Q
c
, ponendo
_
Q
c
=
_
_
_
`
1
0 0
0 ... 0
0 0
_
`
a
_
_
.
Si vede subito che questa simmetrica ed il suo quadrato Q
c
. Tramite questa matrice,
tornando indietro, possiamo denire
_
Q := l
_
Q
c
l
T
.
Si verica facilmente che la matrice
_
Q simmetrica ed il suo quadrato uguale a Q. Infatti
Abbiamo
_
_
Q
_
T
= l
_
_
Q
c
_
T
l
T
= l
_
Q
c
l
T
=
_
Q
e
_
_
Q
_
2
= l
_
Q
c
l
T
l
_
Q
c
l
T
= l
_
Q
c
_
Q
c
l
T
= lQ
c
l
T
= Q
in quanto l
T
l = 1d.
Commenti di algebra lineare
Osservazione 36 Per capire a fondo questo teorema, soprattutto dal punto di vista geomet-
rico, ricordiamo alcuni fatti di algebra lineare. R
a
uno spazio vettoriale con prodotto scalare
., ., cio un insieme di elementi (vettori) con certe operazioni (somma di vettori, moltipli-
cazione per numeri reali, prodotto scalare tra vettori) e certe propriet. Possiamo chiamare
oggetti intrinseci gli oggetti deniti in questi termini, al contrario di quelli deniti tramite
coordinate rispetto ad una base. Un vettore r R
a
un oggetto intrinseco; quando lo scrivi-
amo nella forma (r
1
, ..., r
a
) rispetto ad una base, questa scrittura non intrinseca, dipende
dalla base. Data una base ortonormale n
1
, ..., n
a
, le componenti di un vettore r R
a
in tale
base sono i numeri r, n
)
, , = 1, ..., :. Unapplicazione lineare 1 in R
a
un oggetto intrin-
seco: una funzione 1 : R
a
R
a
tale che 1(c +,n) = c1 + ,1n per ogni , n R
a
ed ogni c, , R. Data la base n
1
, ..., n
a
, 1 pu essere rappresentata tramite la matrice di
componenti 1n
i
, n
)
; questa matrice non intrinseca. Scriveremo a volte j
T
r al posto di
r, j (o j, r).
Osservazione 37 Dopo questi commenti di carattere generale, riconosciamo che una matrice
rappresenta unapplicazione lineare relativamente ad una base specicata. Quindi, data la base
canonica di R
a
, che indicheremo con n
1
, ..., n
a
, data la matrice Q, denita una ben precisa
applicazione lineare 1 : R
a
R
a
; e viceversa, data 1 e data una qualsiasi base c
1
, ..., c
a
di
R
a
, 1 si scrive in questa base tramite una matrice. Il teorema spettale aerma che se Q era
simmetrica, allora esiste una base ortonormale c
1
, ..., c
a
in cui la rappresentazione matriciale
Q
c
di 1 diagonale.
Osservazione 38 Ricordiamo alcuni altri fatti di algebra lineare. Partiamo da una base
ortonormale n
1
, ..., n
a
, che chiameremo canonica o base originaria. Sia c
1
, ..., c
a
unaltra
base ortonormale. Il vettore n
1
, nella base canonica, ha componenti
n
1
=
_
_
_
_
1
0
...
0
_
_
_
_
e cos via per gli altri vettori. Ogni vettore c
)
ha certe componenti nella base canonica.
Indichiamo con l la matrice la cui prima colonna ha le componenti di c
1
, la seconda quelle
di c
2
e cos via. Potremmo scrivere l = (c
1
, ..., c
a
). Vale anche l
i)
= c
T
)
n
i
. Quindi
l
_
_
_
_
1
0
...
0
_
_
_
_
= c
1
e cos via, cio l rappresenta lapplicazione lineare che trasforma la base canonica in c
1
, ..., c
a
ln
i
= c
i
, i = 1, ..., :.
Essa una trasformazione ortogonale:
l
1
= l
T
.
Infatti, l
1
trasforma c
1
, ..., c
a
nella base canonica (invertendo quanto appena detto su l),
e l
T
fa lo stesso:
l
T
c
1
=
_
_
_
_
c
T
1
c
1
c
T
2
c
1
...
c
T
a
c
1
_
_
_
_
=
_
_
_
_
1
0
...
0
_
_
_
_
e cos via. Ricordiamo che le trasformazioni ortogonali sono isometrie, come le rotazioni o
le riessioni.
Osservazione 39 Torniamo alla matrice di covarianza Q ed alla matrice Q
c
data dal teore-
ma spettrale: sappiamo che Q
c
diagonale e rappresenta la stessa trasformazione lineare 1,
nella nuova base c
1
, ..., c
a
. Supponiamo di non sapere altro che questo, cio che rappresentano
la stessa trasformazione lineare 1 e che Q
c
ha la forma
Q
c
=
_
_
`
1
0 0
0 ... 0
0 0 `
a
_
_
.
Da questo deduciamo alcuni fatti:
i)
Q
c
= lQl
T
ii) gli elementi sulla diagonale `
)
sono autovalori di 1, con autovettori c
)
iii) `
)
_ 0, , = 1, ..., :.
Per dimostrare (i), ricordiamo che abbiamo appena visto che
(Q
c
)
i)
= c
T
)
1c
i
e Q
i)
= n
T
)
1n
i
.
Inoltre, l
i)
= c
T
)
n
i
, quindi c
)
=

a
I=1
l
I)
n
I
, e di conseguenza
(Q
c
)
i)
= c
T
)
1c
i
=
a
I,I
0
=1
l
Ii
l
I
0
)
n
T
I
0 1n
I
=
a
I,I
0
=1
l
Ii
Q
i)
l
I
0
)
=
_
lQl
T
_
i)
.
Per dimostrare (ii), scriviamo il vettore 1c
1
nella base c
1
, ..., c
a
: c
i
il vettore
_
_
_
_
1
0
...
0
_
_
_
_
,
lapplicazione 1 rappresentata da Q
c
, quindi 1c
1
uguale a
Q
c
_
_
_
_
1
0
...
0
_
_
_
_
=
_
_
_
_
`
1
0
...
0
_
_
_
_
= `
1
_
_
_
_
1
0
...
0
_
_
_
_
che `
1
c
1
nella base c
1
, ..., c
a
. Abbiamo vericato che 1c
1
= `
1
c
1
, cio che `
1
un autovalore
e che c
1
il corrispondente autovettore. La dimostrazione per `
2
, ecc. la stessa.
Per dimostrare (iii), basta osservare che, nella base c
1
, ..., c
a
,
c
T
)
Q
c
c
)
= `
)
.
Ma
c
T
)
Q
c
c
)
= c
T
)
lQl
T
c
)
=
T
Q _ 0
dove = l
T
c
)
, avendo usato la propriet che Q denita non-negativa. Quindi `
)
_ 0.
1.5.4 Vettori gaussiani
Ricordiamo che una v.a. gaussiana o normale
_
j, o
2
_
una v.a. con densit di probabilit
) (r) =
1
_
2o
2
exp
_
[r j[
2
2o
2
_
.
Si dimostra che j la media e o
2
la varianza. La normale standard il caso j = 0, o
2
= 1.
Se 7 una normale standard allora j + o7
_
j, o
2
_
, ed ogni gaussiana
_
j, o
2
_
si pu
scrivere nella forma j +o7 con 7 ~ (0, 1).
Si pu dare la denizione di vettore gaussiano, o gaussiana multidimensionale, in pi
modi, generalizzando o lespressione per la densit oppure la propriet che j + o7 una
_
j, o
2
_
. Vediamoli entrambi e la loro equivalenza (valida sotto una certa ipotesi).
Denizione tramite trasformazione lineare di un vettore normale standard
Denizione 30 i) Chiamiamo vettore normale standard in d dimensioni un vettore aleatorio
7 = (7
1
, ..., 7
o
) con densit congiunta
) (.
1
, ..., .
o
) =
o
i=1
1
_
2
c
:
2
.
2
=
1
_
(2)
o
c
:
2
1
+...+:
2
u
2
.
ii) Tutti gli altri vettori gaussiani A = (A
1
, ..., A
a
) (in dimensione generica :) si otten-
gono da quelli standard tramite le trasformazioni ani:
A = 7 +/
dove una matrice e / un vettore. Se A ha dimensione :, richiediamo che sia d :
(cio : R
o
R
a
) e / abbia dimensione : (ma : pu essere diverso da d).
Il graco della densit normale standard in 2 dimensioni stato tracciato nel paragrafo
1.2.8. Il graco delle altre densit gaussiane pu essere immaginato eseguendo trasformazioni
lineari del piano base rj (deformazioni denite da ) e traslazioni (di /). Per esempio, se
=
_
2 0
0 1
_
matrice che amplica lasse r di un fattore 2, otteniamo il seguente graco:
4
4
2
0
2
0
0.00 -2
x y
-2 -4
-4
0.05
0.10
z
0.15
Tuttavia questo tipo di graco poco interpretabile, salvo casi facili come quello invari-
ante per rotazione o quello appena disegnato; grazie alle ombreggiature riusciamo ad intuire
qualcosa, ma con poca precisione.
Le curve di livello, cio le curve nello spazio 1
I
denite dalle equazioni ) (r) = a al variare
di a 0, dove ) la densit congiunta di A, sono un modo pi ecace, a cui siamo abituati
da sempre se pensiamo alle cartine geograche; esso per richiede la conoscenza di ), che
preferiamo non usare in questa specica argomentazione basata sulla denizione 30; quando
pi tardi avremo la densit, vedremo che le curve di livello sono ellissi concentriche, di centro
j, indipendentemente da .
Un altro modo di visualizzare un vettore aleatorio A di ragurare un suo campione
sperimentale, numeroso: di nuovo una ragurazione nello spazio 1
I
, lo spazio dei valori
possibili di A; se i punti sono molti, si riesce ad intuire la struttura delle curve di livello.
Tornando alla denizione 30, un modo di avere un campione di numerosit da A quello
di averlo da 7 e trasformarlo. Iniziamo allora osservando che un campione di numerosit
= 1000 (per fare un esempio) estratto da 7 in dimensione : = 2 si ottiene e ragura coi
comandi
Z1<-rnorm(1000); Z2<-rnorm(1000); plot(Z1,Z2)
Possiamo poi osservare leetto di una matrice del tipo
1
=
_
` 0
0 1
_
con ` ,= 1, ad
esempio ` = 3:
X1<-3*Z1; X2<-Z2; plot(X1,X2)
Inne, possiamo vedere leetto di una successiva rotazione (in senso antiorario) di 0 ra-
dianti, ottenuta componendo ulteriormente con la matrice
2
=
_
cos 0 sin0
sin0 cos 0
_
(com-
poniamo le due, cio applichiamo prima la matrice
1
poi la
2
); vediamo ad esempio
0 = 1:
A11 = cos(1); A12 = -sin(1); A21 = sin(1); A22 = cos(1)
Y1 <- A11*X1+A12*X2; Y2 <- A21*X1+A22*X2; plot(Y1,Y2)
Riprendiamo lanalisi teorica delle gaussiane. Calcoliamo media e covariana di un vettore
della forma A = 7 +/, con 7 di tipo standard. Dagli esercizi 14 e 15 abbiamo:
Proposizione 11 Il vettore dei valori medi j e la matrice di covarianza Q di un vettore A
della forma precedente sono dati da
j = /
Q =
T
.
Esercizio 17 Sia A = (A
1
, ..., A
a
) un vettore gaussiano secondo la denizione 30, 1 una
matrice : :, c un vettore di R
n
. Allora
1 = 1A +c
un vettore gaussiano di dimensione : (sempre secondo la denizione 30). La relazione tra
medie e covarianze
j
Y
= 1j
A
+c
Q
Y
= 1Q
A
1
T
.
Osservazione 40 Dallesercizio vediamo che si pu partire da un vettore non-degenere A
ed ottenere un vettore degenere 1 , se 1 non biunivoca. Questo accade sempre se : :.
Denizione tramite densit
Bisogna premettere il seguente lemma, un po laborioso. Si consiglia di apprenderne lenun-
ciato tralasciando la dimostrazione, almeno in un primo momento.
Lemma 2 Dato un vettore j = (j
1
, ..., j
a
) ed una matrice :: simmetrica denita positiva
Q (cio tale che
T
Q 0 per ogni ,= 0), si consideri la funzione
) (r) =
1
_
(2)
a
det(Q)
exp
_
(r j)
T
Q
1
(r j)
2
_
dove r = (r
1
, ..., r
a
) R
a
. Si noti che la matrice inversa Q
1
ben denita (in quanto Q
denita positiva), il numero (r j)
T
Q
1
(r j) non negativo, ed il determinante det(Q)
positivo. Allora:
i) ) (r) una densit di probabilit;
ii) se A = (A
1
, ..., A
a
) un vettore aleatorio con tale densit congiunta, allora j il
vettore dei valori medi, nel senso che
j
i
= 1 [A
i
]
e Q la matrice di covarianza:
Q
i)
= Co (A
i
, A
)
) .
Proof. Step 1. In questo primo passo spieghiamo il signicato dellespressione che denisce
) (r). Abbiamo ricordato sopra che ogni matrice simmetrica Q pu essere diagonalizzata,
cio esiste una base ortonormale c
1
, ..., c
a
di R
a
in cui Q ha la forma
Q
c
=
_
_
`
1
0 0
0 ... 0
0 0 `
a
_
_
.
Inoltre, i valori `
i
sulla diagonale sono gli autovalori di Q, ed i vettori c
i
sono i corrispondenti
autovettori. Si veda il paragrafo sulla matrice di correlazione per ulteriori dettagli. Sia l la
matrice introdotta in quel paragrafo, tale che l
1
= l
T
. Si ricordi la relazione Q
c
= lQl
T
.
Essendo
T
Q 0 per tutti i vettori ,= 0, vale
T
Q
c
=
_
T
l
_
Q
_
l
T
_
0
per ogi ,= 0 (in quanto l
T
,= 0). Preso in particolare = c
i
, troviamo `
i
0.
Se ne deduce che la matrice Q
c
invertibile con inversa
Q
1
c
=
_
_
`
1
1
0 0
0 ... 0
0 0 `
1
a
_
_
.
Si deduce inoltre che Q, essendo uguale a l
T
Q
c
l (la relazione Q = l
T
Q
c
l discende da
Q
c
= lQl
T
), invertibile, con inversa Q
1
= l
T
Q
1
c
l. Si deduce allora facilmente
(r j)
T
Q
1
(r j) 0 per ogni r ,= j. Inoltre, vale
det(Q) = det
_
l
T
_
det (Q
c
) det (l) = `
1
`
a
in quanto
det(Q
c
) = `
1
`
a
e det (l) = 1. Questultimo fatto discende da
1 = det 1 = det
_
l
T
l
_
= det
_
l
T
_
det (l) = det (l)
2
(che verr usato nellesercizio 13). Quindi det(Q) 0. La formula per ) (r) ha senso e
denisce una funzione positiva.
Step 2. Proviamo ora che ) (r) una densit. Per il teorema di cambio di variabile negli
integrali multidimensionali, col cambio di variabile r = l
T
j, troviamo
_
R
n
) (r) dr =
_
R
n
)
_
l
T
j
_
dj
in quanto

det l
T
= 1 (e la matrice jacobiana di una trasformazione lineare la matrice

stessa). Ora, essendo lQ
1
l
T
= Q
1
c
, )
_
l
T
j
_
coincide con la seguente funzione:
)
c
(j) =
1
_
(2)
a
det(Q
c
)
exp
_
(j j
c
)
T
Q
1
c
(j j
c
)
2
_
dove abbiamo posto
j
c
= lj.
Essendo
(j j
c
)
T
Q
1
c
(j j
c
) =
a
i=1
(j
i
(j
c
)
i
)
2
`
i
e det(Q
c
) = `
1
`
a
, otteniamo
)
c
(j) =
a
i=1
1
_
2`
i
exp
_
(j
i
(j
c
)
i
)
2
2`
i
_
.
In altre parole, )
c
(j) il prodotto di : densit gaussiane ((j
c
)
i
, `
i
). Sappiamo dalla
teoria che il prodotto di densit la densit congiunta di un vettore fatto di componenti
indipendenti. Quindi )
c
(j) una densit di probabilit. Pertanto
_
R
n
)
c
(j) dj = 1. Questo
dimostra
_
R
n
) (r) dr = 1, ovvero ) una densit di probabilit.
Step 3. Sia A = (A
1
, ..., A
a
) un vettore aleatorio con densit di probabilit ), se scritto
nella base originaria. Sia 1 = lA. Allora (esercizio 13) 1 ha densit )
Y
(j) data da
)
Y
(j) = )
_
l
T
j
_
. Quindi
)
Y
(j) = )
c
(j) =
a
i=1
1
_
2`
i
exp
_
(j
i
(j
c
)
i
)
2
2`
i
_
.
In altre parole, le componenti di (1
1
, ..., 1
a
) sono v.a. indipendent ((j
c
)
i
, `
i
) e quindi
1 [1
i
] = (j
c
)
i
, Co (1
i
, 1
)
) = c
i)
`
i
.
Dagli esercizi 14 e 15 deduciamo che A = l
T
1 ha media
j
A
= l
T
j
Y
e covarianza
Q
A
= l
T
Q
Y
l.
Essendo j
Y
= j
c
e j
c
= lj deduciamo j
A
= l
T
lj = j. Ma Q
Y
= Q
c
e Q = l
T
Q
c
l, per
cui Q
A
= Q. La dimostrazione completa.
Denizione 31 Dato un vettore j = (j
1
, ..., j
a
) ed una matrice : : simmetrica denita
positiva Q, chiamiamo vettore gaussiano di media j e covarianza Q un vettore aleatorio
A = (A
1
, ..., A
a
) avente densit congiunta
) (r) =
1
_
(2)
a
det(Q)
exp
_
(r j)
T
Q
1
(r j)
2
_
dove r = (r
1
, ..., r
a
) R
a
. Scriviamo A ~ (j, Q).
Proposizione 12 Se A = (A
1
, ..., A
a
) un vettore gaussiano (j, Q) secondo questa
denizione, 1 una matrice invertibile : : e c R
a
, allora 1 = 1A + c gaussiano
_
1j +c, 1Q1
T
_
.
Proof. Per il Corollario 4, 1 ha densit congiunta, data da
)
Y
(j) =
)
A
_
1
1
(j c)
_
[det 1[
.
Sostituendo la formula di )
A
troviamo
)
Y
(j) =
1
_
(2)
a
[det 1[ det(Q) [det 1[
exp
_
_
1
1
(j c) j
_
T
Q
1
_
1
1
(j c) j
_
2
_
.
Da un lato
[det 1[ det(Q) [det 1[ = det(1Q1
T
).
Dallaltro,
_
1
1
(j c) j
_
T
Q
1
_
1
1
(j c) j
_
=
_
1
1
(j c 1j)
_
T
Q
1
_
1
1
(j c 1j)
_
=

Q
1
_
1
1
(j c 1j)
_
, 1
1
(j c 1j)
_
=
_
_
1
1
_
T
Q
1
1
1
(j c 1j) , j c 1j
_
= (j c 1j)
T
(1Q1
T
)
1
(j c 1j) .
Quindi
)
Y
(j) =
1
_
(2)
a
det(1Q1
T
)
exp
_
(j c 1j)
T
(1Q1
T
)
1
(j c 1j)
2
_
che la densit di una
_
1j +c, 1Q1
T
_
.
Lunica restrizione della denizione 31 lipotesi che Q sia denita positiva. La denizione
30 non ha questo difetto.
Avendo dato due denizioni diverse di vettore gaussiano, dobbiamo dimostrarne lequiv-
alenza. Se Q denita positiva, le due denizioni di vettore gaussiano deniscono lo stesso
oggetto, ma se Q solamente denita non-negativa, abbiamo solamente lutima denizione,
quindi non dobbiamo dimostrare nessuna equivalenza.
Proposizione 13 Se Q denita positiva, allora le denizioni 31 e 30 sono equivalenti. Pi
precisamente, se A = (A
1
, ..., A
a
) un vettore aleatorio gaussiano di media j e covarianza
Q nel senso della denizione 31, allora esistono un vettore normale standard 7 = (7
1
, ..., 7
a
)
ed una matrice : :, , tali che
A = 7 +j.
Si pu prendere (la scelta di non univoca) =
_
Q, come descritto nella dimostrazione.
Viceversa, se A = (A
1
, ..., A
a
) un vettore gaussiano nel senso della denizione 30, della
forma A = 7 + j, con 7 di dimensione : ed invertibile (o comunque 7 di dimensione
_ : ed
T
invertibile), allora A gaussiano nel senso della denizione 31, con media j e
covarianza Q =
T
.
Proof. Dimostriamo la prima aermazione. Ricordiamo che nella sezione 1.5.3 abbiamo
denito la radice quadrata di Q come
_
Q := l
_
Q
c
l
T
.
Poniamo allora
7 =
_
_
Q
_
1
(A j)
dove osserviamo che
_
Q invertibile, in base alla sua denizione ed alla positivit stretta
dei `
i
. Allora possiamo applicare la Proposizione 12 ed ottenere che 7 gaussiano
_
_
_
Q
_
1
(j j) ,
_
_
Q
_
1
Q
_
_
Q
T
_
1
_
ovvero, semplicando, (0, 1d). Infatti
_
_
Q
_
1
Q
_
_
Q
T
_
1
=
_
_
Q
_
1 _
Q
_
Q
_
_
Q
_
1
= 1d
usando il fatto che
_
Q simmetrica ed il suo quadrato uguale a Q. In conclusione, abbiamo
trovato che 7 un vettore normale standard. Dalla denizione di 7 troviamo A =
_
Q7+j,
cos che la prima aermazione dimostrata.
Viceversa, supponiamo che A = 7+j sia un vettore gaussiano secondo la denizione 30,
con 7 di dimensione : ed invertibile. La densit congiunta di 7 )
Z
(.) =
1
_
(2)
n
exp
_
:
T
:
2
_
.
Per il Corollario 4, A ha densit congiunta, data da
)
A
(r) =
)
Z
_
1
(r j)
_
[det [
.
Sostituendo la formula di )
Z
troviamo
)
A
(r) =
1
_
(2)
a
[det [ [det [
exp
_
1
(r j)
_
T
_
1
(r j)
_
2
_
=
1
_
(2)
a
[det (
T
)[
exp
_
(r j)
T
_
T
_
1
(r j)
2
_
e quindi A gaussiano
_
j,
T
_
secondo la denizione 31. La dimostrazione completa.
Osservazione 41 La densit di un vettore gaussiano (quando Q invertibile) determinata
dal vettore dei valori medi e dalla matrice di covarianza. Questo fatto fondamentale verr
usato pi tardi nello studio dei processi stocastici. Usando il concetto di legge di un vettore
aleatorio, questo fatto vale anche nel caso degenere, senza densit, in cui si deve usare la
denizione 30, per i dettagli sono meno elementari.
Osservazione 42 Alcuni dei risultati precedenti sono molto utili se vogliamo generare vettori
aleatori secondo una legge gaussiana specicata. Assumiamo di aver prescritto la media j
e la covarianza Q, :-dimensionali, e vogliamo generare un punto casuale (r
1
, ..., r
a
) dalla
(j, Q). Per far questo possiamo generare : numeri casuali indipendenti .
1
, ..., .
a
dalla
normale standard 1-dimensionale e calcolare
_
Q. +j
dove . = (.
1
, ..., .
a
). Per avere le componenti della matrice
_
Q, se il software non le fornisce
automaticamente (alcuni software lo fanno), possiamo usare la formula
_
Q = l
_
Q
c
l
T
.
La matrice
_
Q
c
ovvia. Per ottenere la matrice l si ricordi che le sue colonne sono gli
autovettori c
1
, ..., c
a
scritti nella base di partenza. Basta quindi che il software sia in grado
di eettuare la decomposizione spettale di Q.
Curve di livello
Come abbiamo gi accennato sopra, un modo di visualizzare un graco in due dimensioni
quello di tracciare le sue curve di livello. Data ) : R
2
R, la curva di livello a il luogo
dei punti r R
2
tali che ) (r) = a. Nel caso di una densit ), essendo positiva, ha senso
esaminare solo il caso a 0. Nel caso della gaussiana (j, Q), dobbiamo capire lequazione
1
_
(2)
a
det(Q)
exp
_
(r j)
T
Q
1
(r j)
2
_
= a.
Posto a
t
=
1
2
log
_
a
_
(2)
a
det(Q)
_
, lequazione diventa
(r j)
T
Q
1
(r j) = a
t
.
Questa lequazione di unellisse di centro j. Infatti, usando la solita scomposizione Q =
lQ
c
l
T
dove Q
c
la matrice diagonale
Q
c
=
_
`
1
0
0 `
2
_
e posto r = r j (traslazione che porta j in 0), lequazione diventa
r
T
_
l
T
_
1
Q
1
c
l
1
r = a
t
e poi, posto j = l
1
r (una rotazione) troviamo
j
T
Q
1
c
j = a
t
che in coordinate si legge
j
2
1
`
1
+
j
2
2
`
2
= a
t
ovvero unellisse. Le lunghezze lungo gli assi (precisamente le lunghezze dei segmenti che
uniscono lorigine ai vertici dellellisse) sono pari a
_
`
1
e
_
`
2
. Lorientazione degli assi
quella degli autovettori di Q, come si pu vericare ragionando pi da vicino sul signicato
della trasformazione l. In conclusione:
Proposizione 14 Le curve di livello di un vettore gaussiano (j, Q) in due dimensioni
sono ellissi di centro j ed assi dati dagli autovettori di Q, con lunghezze degli assi pari alle
radici degli autovalori
_
`
1
e
_
`
2
.
Il seguente disegno ragura il caso
j
2
1
4
+
j
2
2
1
= 1. Questa lellisse rispetto agli assi c
1
, c
2
,
base di autovettori di Q.
-3 -2 -1 1 2 3
-2
2
e1
e2
Se invece vogliamo vedere lellisse nella base canonica originaria, quella delle variabili r
i
,
bisogna eseguire la rotazione l e la traslazione di j. Non c bisogno di sapere con esattezza
di che rotazione si tratta, basta sapere come appaiono i vettori c
1
, c
2
nella base canonica
(cio avere le loro coordinate), e tracciare lellisse con tali assi.
I risultati ora esposti si generalizzano a pi di due dimensioni, usando la nozione di
ellissoide.
Unaltra denizione
Esistono altre denzioni di vettore gaussiano. Per curiosit enunciamo la seguente, che
forse la pi veloce ma pu apparire pi oscura di altre.
Denizione 32 Un vettore aleatorio A = (A
1
, ..., A
a
) si dice gaussiano se accade che per
ogni vettore di numeri reali n = (n
1
, ..., n
a
) la v.a.
n, A =
a
i=1
n
i
A
i
sia gaussiana.
Questa denizione generalizza la nota propriet che le combinazioni lineari di gaussiane in-
dipedenti sono gaussiane. Con questa denizione immediato vericare che le trasformazioni
lineari di vettori gaussiani sono vettori gaussiani.
La denizione data ha anche una certa interpretazione geometrica. Se n ha lunghezza
unitaria, lepressione n, A la proiezione di A su n. La denizione aerma quindi che tutte
le proiezioni uni-dimensionali sono gaussiane.
Capitolo 2
Elementi di Statistica
2.1 Introduzione. Stimatori
Gli elementi di statistica esposti in questo capitolo costituiscono solo un breve riassunto e
non hanno alcuno scopo di organicit e completezza. Verranno lasciate fuori molte questioni
ed argomenti importanti.
I due problemi principali esaminati dalla statistica di base sono:
la stima dei parametri o pi in generale la costruzione di modelli probabilistici a partire
da dati sperimentali
i test di ipotesi, o pi in generale la verica dei modelli ipotizzati eseguita confrontandoli
con dati sperimentali.
Alcune denizioni e considerazioni generali possono essere premesse allo studio di questi
due problemi.
Denizione 33 Data una v.a. A, si chiama campione di numerosit : estratto da A una
sequenza di : v.a. A
1
, ..., A
a
indipendenti e distribuite come A (e denite sullo stesso spazio
probabilizzato (, T, 1)).
Questo concetto simile a quello di campione sperimentale composto da numeri reali
r
1
, ..., r
a
emersi da prove, osservazioni sperimentali. Per sono due concetti diversi: il cam-
pione A
1
, ..., A
a
fatto di v.a., laltro, r
1
, ..., r
a
, di numeri; questultimo per cos dire una
realizzazione del primo. Si pu immaginare, per capire la dierenza, che dopo aver eseguito
gli esperimenti si siano trovati i numeri r
1
, ..., r
a
, mentre prima di eseguirli si possa immag-
inare che gli esperimenti produrranno dei numeri; in tale fase precedente agli esperimenti, i
valori numerici che usciranno dagli esperimenti sono grandezze aleatorie, ad esito incognito,
che possiamo descrivere con v.a. A
1
, ..., A
a
.
Denizione 34 Dato il campione A
1
, ..., A
a
estratto da A, chiamiamo media aritmetica o
113
114 CAPITOLO 2. ELEMENTI DI STATISTICA
empirica e varianza empirica le v.a.
A =
A
1
+... +A
a
:
o
2
=
1
: 1
a
i=1
_
A
i
A
_
2
Nel caso di un campione sperimentale r
1
, ..., r
a
, si deniscono nello stesso modo i corrispon-
denti numeri r ed :
2
.
Proposizione 15 Se A
_
j, o
2
_
, allora A
_
j,
o
2
a
_
.
Pi in generale, se A ha media j e varianza o
2
, allora A ha media j e varianza
o
2
a
, ed
asintoticamente normale nel senso descritto tra breve.
Proof. Diamo solo un cenno. La verica che A ha media j e varianza
o
2
a
elementare, usando
le regole dei valori medi. Lasintotica normalit di dimostra col teorema limite centrale.
Quando poi A gi gaussiana, lo anche A per il fatto che le combinazioni ani di v.a.
gaussiane indipendenti gaussiana.
Le v.a. A ed o
2
sono esempi di stimatori, cio di v.a.
T = T (A
1
, ..., A
a
)
che vengono usate per stimare (approssimare) parametri di distribuzioni statistiche. Se la
v.a. A ha media j e varianza o
2
, per varie ragioni si utilizzano A ed o
2
come stimatori di
j e o
2
. Vedremo anche un esempio di stimatore della cdf 1 (r) e, nel capitolo sui processi,
esempi di stimatori di grandezze relative a pi variabili aleatorie, come la covarianza e la
correlazione.
Osservazione 43 Il fatto che, come dice la proposizione precedente, A ha varianza
o
2
a
,
unindicazione importante del fatto che A approssimi j. Infatti, intanto dal punto di vista
graco, se ad esempio stiamo parlando di v.a. con densit, la densit di A stretta e alta, cio
concentrata attorno alla media, dovendo avere varianza piccola. Dal punto di vista analitico,
varianza
o
2
a
(pi media j) signica
1
_
_
A j
_
2
_
=
o
2
:
ao
0
cio A concentrato vicino a j in media quadratica. Questo anche il calcolo tipico della
legge dei grandi numeri.
Uno stimatore pu avere alcune buone propriet. Indichiamo con A una v.a., con
A
1
, ..., A
a
un suo campione, con 0 un parametro della legge di A, con T
a
= T
a
(A
1
, ..., A
a
)
uno stimatore di 0 (esplicitiamo la sua dipendenza da : ed ipotizziamo, dove serve, che si
possa prendere il campione e lo stimatore per ogni valore di :).
2.1. INTRODUZIONE. STIMATORI 115
Denizione 35 Diciamo che T
a
uno stimatore non distorto (o corretto) di 0 se
1 [T
a
] = 0.
Diciamo poi che uno stimatore consistente se converge in probabilit a 0:
T
a
1
0.
Diciamo che uno stimatore asintoticamente normale se
_
:
o
(T
a
0)
/
(0, 1)
(convergenza in legge) per una opportuna costante positiva o, che viene detta deviazione
standard asintotica (o
2
sar detta varianza asintotica).
Le propriet di correttezza e consistenza sono requisiti naturali per credere che uno stima-
tore stimi abbastanza bene il parametro corrispondente. La propriet di gaussianit asintotica
invece utile per scrivere intervalli di condenza asintotici.
Anche se alcune delle aermazioni seguenti valgono sotto ipotesi minori, per semplicit
supponiamo per la loro validit che A abbia momento di ordine 4 nito.
Proposizione 16 A
a
=
A
1
+...+An
a
uno stimatore corretto, consistente ed asintoticamente
normale di j = 1 [A]. Lo stesso vale per o
2
a
=
1
a1
a
i=1
_
A
i
A
_
2
rispetto a o
2
= \ ar [A].
Proof. Non diamo tutta la dimostrazione ma verichiamo solo, a titolo di esempio, che o
2
a
stimatore corretto di o
2
. Vale
1
_
_
A
i
A
a
_
2
_
= 1
_
(A
i
j)
2
_
+1
_
_
A
a
j
_
2
_
21
_
(A
i
j)
_
A
a
j
_
= o
2
+
o
2
:
2
1
:
a
)=1
1 [(A
i
j) (A
)
j)]
= o
2
+
o
2
:
2
o
2
:
= o
2
: 1
:
da cui
1
_
o
2
a
=
1
: 1
a
i=1
1
_
_
A
i
A
a
_
2
_
=
1
: 1
a
i=1
o
2
: 1
:
= o
2
.
Lanaloga verica per A
a
banale; la consistenza dei due stimatori si dimostra con la
legge dei grandi numeri e lasintotica normalit con il teorema limite centrale, ogni tanto per
con laggiunta di un certo numero di considerazioni speciche, nel caso di o
2
a
, a causa della
presenza di A
a
nel termine
_
A
i
A
a
_
2
.
Esercizio 18 Mostrare la parte della proposizione precedente che riguarda A
a
.
Esercizio 19 Mostrare che valgono le aermazioni della proposizione precedente per
o
2
j,a
=
1
:
a
i=1
(A
i
j)
2
rispetto a o
2
.
La distorsione si pu misurare col numero
/ia: = 1 [T
a
] 0.
Va detto che in certi problemi pu essere utile considerare stimatori distorti, in quanto pi
semplici o naturali di altri; basta che il bias sia piccolo o meglio che tenda a zero per : ,
abbastanza in fretta. Ad esempio, o
2
si pu anche stimare con
1
a
a
i=1
_
A
i
A
_
2
che
lievemente distorto; uno dei vantaggi che questa espressione si armonizza meglio con altre
nella costruzione di stimatori della covarianza.
2.2 Intervalli di condenza
Abbiamo detto allinizio che la stima dei parametri uno dei due problemi principali della
statistica di base. La teoria della stima ha due direzioni principali:
STIMA
intervallare
puntuale
La stima puntuale quella che abbiamo gi iniziato a discutere nella sezione precedente,
parlando di stimatori. Essi forniscono una stima puntuale dei corrispondenti parametri. Tra
le varie cose che ora non aronteremo c la ricerca di stimatori tramite il metodo di massima
verosimiglianza, tramite il metodo dei momenti, e varie altre cose importanti.
Esaminiamo la stima intervallare. Si tratta di fare aermazioni non solo sul valore T che
approssima il parametro 0 ma anche sulla bont di questa approssimazione, sullerrore che si
potrebbe commettere.
In analisi numerica, quando si approssima ad es. la soluzione 0 di unequazione con un
numero T, si studia lerrore di approssimazione e, se si riesce, si danno risultati del tipo
[T 0[ < c
(stima dellerrore assoluto) o

T 0
0
< c
(stima dellerrore relativo) dove c dipender da varie cose.
Nei problemi di stima di parametri statistici, impossibile ottenere esattamente risultati
di questo tipo.
2.2. INTERVALLI DI CONFIDENZA 117
Esempio 61 A
a
=
A
1
+...+An
a
un buon stimatore di j. Ma, ad esempio nel caso in cui
A sia gaussiana, A
a
ha una densit positiva su tutto lasse reale, cio pu assumere (anche
se con probabilit piccolissima) valori arbitrariamente grandi (positivi e negativi), quindi
arbitrariamente distanti da j. E impossibile sperare in un teorema del tipo

A
a
j
< c
(senza ulteriori limitazioni).
Lesempio precedente per suggerisce la via di uscita: potrebbe valere

A
a
j
< c con
elevata probabilit. Questa la natura dei risultati che possiamo cercare: stime dellerrore
corredate di limitazioni sulla loro probabilit di essere valide.
Enunciamo una proposizione sulle gaussiane e vediamone le conseguenze. Ricordiamo che
indichiamo con (r) e
c
la cdf ed il quantile della normale standard, rispettivamente.
Proposizione 17 Sia A gaussiana,
_
j, o
2
_
. Fissato c 0, vale
1
_
A
a
j
< c
_
= 2
_
c
_
:
o
_
1.
Viceversa, ssato c (0, 1), vale
1
_
A
a
j
<
o
1
o
2
_
:
_
= 1 c. (2.1)
Proof. Sappiamo che A
a
una gaussiana
_
j,
o
2
a
_
. Allora
1
_
j c < A
a
< j +c
_
=
_
(j +c) j
o,
_
:
_
_
(j c) j
o,
_
:
_
=
_
c
_
:
o
_
_
c
_
:
o
_
= 2
_
c
_
:
o
_
1.
Questo dimostra la prima identit. Fissato c (0, 1), poniamo
2
_
c
_
:
o
_
1 = 1 c.
Si trova
_
c
_
:
o
_
= 1
c
2
c
_
:
o
=
1
o
2
c =
o
1
o
2
_
:
.
Questo conclude la dimostrazione anche della seconda identit.
Possiamo scrivere lidentit (2.1) in due modi pi espressivi: ssato c (0, 1), posto
c =
oq
1
o
2
_
a
, vale
j c < A
a
< j +c
con probabilit 1 c; ma anche
A
a
c < j < A
a
+c
con probabilit 1 c. Entrambe le scritture sono molto istruttuve. La seconda diventa il
nostro esempio fondamentale di intervallo di condenza.
Denizione 36 Date due v.a.
T
a
= T
a
(A
1
, ..., A
a
) e T
+
a
= T
+
a
(A
1
, ..., A
a
)
diciamo che lintervallo (aleatorio)
_
T
a
, T
+
a
un intervallo di condenza di livello 1 c (a volte si dice livello c, ma questo provoca un

po di fraintesi) se
1
_
0
_
T
a
, T
+
a
_
_ 1 c.
Il numero 1 c si dice condenza. A parole diremo che
0
_
T
a
, T
+
a
con condenza 1 c.
Corollario 5 Sia A gaussiana,
_
j, o
2
_
. Allora
_
A
a
c, A
a
+c
intervallo di condenza
di livello 1 c per j, dove c =
oq
1
o
2
_
a
. Scriveremo anche
j = A
a
c a livello 1 c.
In pratica, ad esempio, si dir: al 95% vale
j = A
a
c
dove
c =
o 1.96
_
:
(essendo
1
o
2
= 1.96 se 1 c =95%). Oppure: al 90% vale
j = A
a
c
dove
c =
o 1.64
_
:
(essendo
1
o
2
= 1.64 se 1 c =90%).
2.2.1 Esempio
Unazienda che eettua interventi e riparazioni vuole stimare due grandezze, per poter di-
mensionare lorganico ed organizzare i turni di lavoro. La prima grandezza il numero medio
j di ore di lavoro in azienda, giornaliere, necessarie per eettuare tutti i lavori richiesti. La
seconda la probabilit j di dover eettuare interventi esterni. Indichiamo con il numero
di ore di lavoro interne, con A una v.a. di Bernoulli che vale 1 se c da eettuare un lavoro
esterno (entrambe le variabili sono riferite ad una giornata, generica).
Lazienda si pone le seguenti domande: i) come stimare j e j? ii) Che errore potremmo
aver commesso in tale stima? iii) Quante osservazioni servono per fare tali stime?
Supponendo di avere a che fare con unazienda di media grandezza, in cui i valori di
siano di varie decine e non di pochissime unit, decidiamo di trattare come una v.a.
continua e per semplicit gaussiana. Invece A intrinsecamente Bernoulli. Dobbiamo stimare
in entrambi i casi il valor medio:
j = 1 [] , j = 1 [A] .
La risposta alla domanda (i) in un certo senso ovvia: si devono eettuare : rilevazioni
giornaliere delle due grandezze, chiamiamole
1
, ...,
a
e A
1
, ..., A
a
(anche numerosit diverse per i due problemi) e poi calcolare gli stimatori
j =

1
+... +
a
:
, j =
A
1
+... +A
a
:
.
Detto questo per sorgono tante domande, appunto ad esempio le domande (ii) ed (iii), circa
la bont di queste stime.
Avendo ipotizzato che gaussiana, vale
j = j
o
1
o
2
_
:
con condenza 1 c. Ad esempio, j = j
o1.96
_
a
al 95%. Questo signica che, al 95%, il
massimo errore possibile
o1.96
_
a
. (In particolare, non c un errore massimo possibile certo,
ma sempre a meno di una piccola probabilit; c sempre una piccola probabilit che lerrore
sia ancora pi grosso). Questo non signica che lerrore sar pari a
o1.96
_
a
, al 95%: al massimo
sar
o1.96
_
a
. Ma se riduciamo la condenza, esso minore:
al 90%:
o1.64
_
a
all 80%:
o1.28
_
a
al 70%:
o1.04
_
a
al 60%:
o0.84
_
a
e cos via. Lidea si vede bene gracamente tracciando la densit gaussiana di
.
1
+...+.n
a
ed
osservando come varia lintervallo attorno a j quando si varia larea soprastante. Quindi
molto probabile che lerrore sia molto pi piccolo di
o1.96
_
a
, ad esempio sia la met. Il numero
o1.96
_
a
fornisce lordine di grandezza.
Veniamo ora allaspetto pratico: supponiamo di aver fatto : = 25 osservazioni ed aver
trovato j = 62.8. Che possiamo dire, ad esempio al 95%? Che
j = 62.8
o 1.96
5
= 62.8 0.39 o.
Ma quanto vale o? Nessuno ce lo pu dire. La cosa pi naturale, avendo a disposizione il
campione di numerosit : = 25, calcolare o. Supponiamo di farlo ed aver trovato o = 18.3.
Allora, approssimativamente (o non o), possiamo aermare che al 95%
j = 62.8 0.39 18.3 = 62.8 7. 14.
In altre parole, al 95%, il valore incognito j compreso tra 55. 66 e 69. 94. Ma, come detto
sopra, molto probabilmente abbastanza pi vicino a 62.8. Ad esempio, al 60%, vale circa
j = 62.8 3. 5
cio j compreso tra 59. 3 e 66. 3.
la sostituzione di o con o ha introdotto unapprossimazione. Un teorema dice che i
risultato (cio lampiezza dellintervallo di condenza) torna ad essere un risultato esatto se,
oltre a sostituire o con o, si sostituisce il quantile gaussiano standard
1
o
2
con il quantile
della t di Student a : 1 gradi di libert:
j = j
ot
(a1)
1
o
2
_
:
.
Nel nostro esempio, usando le tavole, vale t
(24)
1
0.05
2
= 2.064 e quindi
j = 62.8
18.3 2.064
5
= 62.8 7. 55.
Il risultato un po peggiore di quello approssimato precedente, ma sicuro. La dierenza
non per marcatissima.
La domanda (ii) ha per una variante fondamentale: che si parli di errore relativo invece
che assoluto. Lerrore assoluto [ j j[ mentre lerrore relativo
j j
j
.
Allora lerrore relativo massimo possibile con condenza 1 c
j j
j
=
o
1
o
2
_
:[j[
.
Nel nostro esempio, al 95%, usando ad esempio per semplicit i quantili guassiani
j j
j
=
18.3 1.96
5 [j[
=
7. 17
[j[
.
naturalmente nessuno ci pu dare j, visto che la quantit da stimare. Quindi approssima-
tivamente sostiuiamola con j che nota:
j j
j
-
7. 17
62.8
= 0.114.
In sostanza, si commette un errore relativo di un decimo (decente per scopi di commercio
non troppo spinti). Ovviamente se si vuole usare la t di Student, viene lievemente pi grande
(provare).
Sempre relativamente a , veniamo alla domanda (iii). Il numero di osservazioni da fare
non pu essere una grandezza assoluta, indipendente da requisiti. Dipende dalla precisione
che vogliamo ottenere e dalla condenza che scegliamo (il rischio che accettiamo di correre).
La domanda (iii). Essa un esempio di DOE (Design Of Experiments).
Il numero di osservazioni da fare non pu essere una grandezza assoluta, indipendente da
requisiti. Dipende dalla precisione che vogliamo ottenere e dalla condenza che scegliamo (il
rischio che accettiamo di correre; rischio di fare una dichiarazione falsa circa lintervallo in
cui cade la media). Supponiamo di correre un rischio del 5%, prendere cio condenza 95%
e supponiamo di volere un errore (massimo) pari a 5, erroe assoluto. Uguagliando lerrore
massimo a 5 abbiamo
o1.96
_
a
= 5, ovvero
: =
_
o 1.96
5
_
2
= 0.154 o
2
.
Con luguaglianza si intende in realt il primo intero : _ 0.154 o
2
(infatti per essere pi
precisi andrebbe impostata dallinizio la disuguaglianza
o1.96
_
a
_ 5). Resta il grave problema
di conoscere o: se non abbiamo ancora fatto rilevazioni, se non abbiamo dati, o incognita.
Non ci sono scappatoie generali: o si conosce un valore approssimato di o sulla base di dati
precedenti, oppure si deve ipotizzare lordine di grandezza di o, approssimando ovviamente
per eccesso. Senza o non si pu stabilire : in anticipo. Se non si hanno dati precedenti o
capacit di stima dellordine di grandezza, bisogna iniziare i campionamenti, raccogliere un
po di dati e con essi stimare o. Questi primi dati concorreranno comunque alla stima nale
di j. Supponiamo di aver raccolto una decina di dati preliminari, dai quali esca la stima
o = 20.4
Allora troviamo
: = 0.154 20.4
2
= 64. 089.
Servono circa 65 osservazioni. In realt, dopo un po di ulteriori osservazioni conviene ri-
stimare o per rendere pi accurata la previsione del numero di osservazioni da fare.
Se volevamo invece lerrore relativo (massimo) assegnato, es. 10%, dovevamo imporre
o 1.96
_
:[j[
= 0.1
ovvero
: =
_
o 1.96
0.1 [j[
_
2
= 384. 16
_
o
[j[
_
2
.
Qui servono addirittura una stima preliminare di o e j. Si agisce come sopra. Supponiamo
che dopo alcune osservazioni preliminari abbiamo trovato r = 60.5, o = 20.4. Allora
: = 384. 16
_
20.4
60.5
_
2
= 43. 678.
Questi esempi numerici mostrano la ragionevolezza dei risultati che si ottengono con questa
teoria.
Si noti comunque che questi calcoli producono valori piuttosto alti di :. In certe appli-
cazioni pratiche, molte decine di osservazioni sono davvero costose. C un rimedio? Ri-
cordiamo quanto appreso sopra circa lintervallo di condenza: esso esprime il risultato pi
pessimistico. Con buona probabilit, lintervallo al 95% pessimistico, la stima molto
migliore, come evidenzia lintervallo al 60%, ad esempio.
Se accettassimo un rischio molto alto, 40%, i calcoli precedenti darebbero:
:
60%
occc|&tc
=
_
o 0.84
5
_
2
= 0.028 o
2
S=20.4
= 0.028 20.4
2
= 11. 652.
Naturalmente non possiamo esporci ad un tale rischio, ma questo calcolo ci dice che il
60% delle volte accadrebbe che 12 osservazioni sono sucienti, invece che 65. Similmente,
accettando un rischio del 20%,
:
80%
occc|&tc
=
_
o 1.28
5
_
2
= 0.065 o
2
S=20.4
= 0.065 20.4
2
= 27. 05.
Insomma, con elevata probabilit, bastano molte meno osservazioni. Che fare? Ovviamente
si pu decidere di fare poche osservazioni (es. solo 20-30) e sperare che le cose siano andate
bene. Si pu per tracciare un graco della stima della media j al crescere del numero di
prove. Nel senso: dopo aver eseguito : osservazioni, calcoliamo j
a
ed aggiungiamolo al graco
precedentemente fatto dei valori di j in funzione del numero di prove. Al crescere di : questo
graco tender ad assestarsi attorno allasintoto orizzontale j (asintoto per sconosciuto!).
Quando vediamo il graco diventare sucientemente orizzontale, abbiamo un forte sintomo
che siamo gi arrivati a convergenza, come si suol dire. Non c la certezza assoluta, ma
molto dicile che un tale graco si assesti e poi riprenda a muoversi. Bene, nel 60% dei casi,
si assesta molto presto, nell80%, poco oltre, e cos via. Solo in rari casi necessita davvero di
valori di : intorno a 65 per assestarsi; solo il caso pi pessimistico, che per garantito al
95%. A priori, non possiamo sapere se ci capiter questo caso o quelli pi fortunati. Bisogna
eseguire le prove sequenzialmente e sperare. Quanto qui espresso una versione pratica della
cosidetta Sequential Analysis.
Ripetiamo ora alcuni dei passi precedenti per il problema della stima della proporzione j,
altro problema classico e ricorrente. Lo stimatore j, ma ora non vale pi la teoria gaussiana
dellintervallo di condenza. Tuttavia, in modo approssimato essa ancora vera: vale
j = j
o
1
o
2
_
:
, o
2
= \ ar [A] = j (1 j)
con condenza approssimativamente pari 1 c. Ci che approssimata la probabilit che
j stia nellintervallo suddetto, non lintervallo in s. Tutto deriva dal teorema limite centrale,
in quanto
1
_
[ j j[ _
o
1
o
2
_
:
_
= 1
_
A
1
+... +A
a
:
j
_
o
1
o
2
_
:
_
= 1
_
A
1
+... +A
a
:j
_
:o
_
1
o
2
_
- 1 c
dove lultima approssimazione fornita appunto dal TLC.
Facciamo un esempio pratico: supponiamo di aver fatto : = 25 osservazioni ed aver
trovato j = 0.21. Che possiamo dire, ad esempio al 95%? Che con probabilit circa uguale
a questa, vale
j = 0.21 0.39 o
un po come nel caso gaussiano. Resta il problema di conoscere o.
Qui per c un elemento in pi, molto particolare: o
2
= j (1 j). Il parametro o
legato alla quantit j che stiamo cercando di stimare. Una prima conclusione quindi che
valga, approssimativamente
j = j
_
j (1 j)
1
o
2
_
:
.
Nel nostro esempio,
j = 0.21 0.39
_
0.21 (1 0.21) = 0.21 0.16.
Vale cio
0.05 _ j _ 0.37.
Non un risultato eccellente, in senso relativo. Naturalmente, abbastanza probabile che
lintervallo sia pi piccolo, come abbiamo visto nel caso gaussiano: ad esempio, all80% vale
j = 0.21
1.28
5

_
0.21 (1 0.21) = 0.21 0.104.
cio j compreso tra 0.1 e 0.3. Parlando a braccio, la frequenza con cui il negozio deve
mandare operatori fuori sede si aggira tra 1/10 e 3/10. Se questa vaghezza di informazione
suciente, basta cos, altrimenti bisogna campionare di pi.
Lerrore relativo in astratto
j j
j
_
_
j (1 j)
1
o
2
j
_
:
=
_
1j
j

1
o
2
_
:
ed approssimando le espressioni sulla destra diventa
j j
j
_
_
1b j
b j

1
o
2
_
:
in questo esempio (approssimativamente al 95%)
j j
j
_
_
10.21
0.21
1.96
5
= 0.76.
Per certe applicazioni davvero troppo grosso, per altre pu anche essere accettabile.
Si deve notare che venuto cos grosso perch j piccolo: se si stima una proporzione
piccola, la tendenza di commettere un errore relativo grosso. Se invece j fosse stato grande,
_
1b j
b j
era piccolo e avrebbe contribuito a diminuire lerrore relativo.
Spesso nelle applicazioni si cerca di stimare una proporzione piccola al solo scopo di sapere
che piccola, non di conoscerne con precisione il valore. Sapere che 0.05 o 0.1 o 0.15 non
cambia le nostre azioni successive, anche se questi numeri dieriscono di tantissimo in senso
relativo. Dieriscono poco in senso assoluto. Allora, in problemi di questo genere, basta
chiedere che lerrore assoluto sia piccolo. Lerrore relativo non serve. In sintesi, in problemi
in cui basta scoprire che j piccolo basta desiderare che lerrore assoluto sia piccolo; e quindi
i difetti suddetti dellerrore relativo per j piccolo diventano inessenziali.
In questottica, immaginiamo di voler stimare j con precisione assoluta 0.1 (se j piccolo,
ci basta, j non superer j + 0.1; se j grande, un errore assoluto di 0.1 non cos grave).
Dobbiamo imporre
_
j (1 j) 1.96
_
:
= 0.1
ovvero
: =
_
1.96
0.1
_
2
j (1 j) .
Serve una stima di j, che in fase di DOE pu provenire da campionamenti precedenti, da primi
piccoli campionamenti, da ipotesi. Ma in questo caso vale anche la seguente stima universale:
siccome lespressione j (1 j) pu al massimo valere
1
4
, Alla peggio dovremo prendere
: =
_
1.96
0.1
_
2
1
4
= 96. 04.
Ovviamente non un valore molto incoraggiante, per universale. E chiaro che all80%
basta
: =
_
1.28
0.1
_
2
1
4
= 40. 96
ed al 60% addirittura
: =
_
0.84
0.1
_
2
1
4
= 17. 64.
Quindi, eseguendo le cose sequenzialmente e sperando di non essere troppo sfortunati, dovrebbe
bastare un numero contenuto di osservazioni.
2.2.2 Soglie, ammissibili ecc.
Citiamo unapplicazione frequentissima dei modelli probabilistici e della teoria degli intervalli
di condenza: il calcolo di soglie, ammissibili, scorte di sicurezza, valori minimi o massimi a
meno di probabilit pressate, e loro correzione in caso di incertezza sui parametri. Mostriamo
un esempio relativo al problema degli ammissibili di progetto in un problema di resistenza di
strutture; ma il ragionamento sarebbe identico per la soglia di traco telefonico oltre la quale
una stazione smette di servire tutte le comunicazioni, per il valore della scorta di sicurezza che
serve a soddisfare tutta la clientela, e per tanti altri problemi della stessa natura matematica,
in cui si cerca un valore minimo o massimo di una grandezza.
La prima caratteristica cruciale di questi problemi che la grandezza in questione non ha
minimo o massimo, o se anche li lha sono valori irraggiungibili in pratica (es. una quantit di
scorte esagerata, la necessit di una potenza esagerata della stazione telefonica ecc.). Allora si
deve accettare una piccola probabilit c di errore, mal funzionamento, esposizione a pericolo
ecc. e, relativamente ad c ssato si deve trovare quella soglia ` che viene superata (nel senso
negativo per il problema in questione) solamente con probabilit c. Non si tratta quindi
di trovare il minimo assoluto o il massimo assoluto della grandezza (improponibili per gli
scopi pratici o addirittura inniti), ma di trovare minimo o massimo a meno di una certa
probabilit, un certo rischio.
Il numero ` che cerchiamo un quantile della distribuzione di probabilit della grandezza
in questione. Bisogna quindi saper calcolare quantili. Per le gaussiane ci sono formule generali
che riportano i quantili di una gaussiana generica a quelli della normale standard. Per altre
distribuzioni si pu ad esempio usare il software. In R si calcolano i quantili coi comandi del
tipo qnorm, qweibull ecc.
La seconda caratteristica cruciale di questi problemi che di solito la distribuzione di
probabilit della grandezza in questione non nota con precisione ma, pur supponendo noto
il tipo di distribuzione (gaussiana, Weibull ecc.), c incertezza sui parametri. Bisogna allora
propagare questa incertezza sul calcolo della soglia. Essa sar quindi una soglia denita a
meno di due valori di probabilit c ed c
t
: c la probabilit che la soglia venga superata (a
causa della variabilit della grandezza), c
t
la probabilit che i parametri utilizzati per il cal-
colo (pi pessimistico possibile) della soglia siano sbagliati, quindi la soglia sia semplicemente
sbagliata. Vediamo un esempio.
Sappiamo che una struttura cede oltre una certa soglia di carico, che per un po aleatoria
a causa delle imperfezioni (sconosciute) del materiale e della costruzione. Relativamente ad
una generica struttura di quel tipo, sia o la soglia di rottura, che stiamo trattando come una
variabile aleatoria.
Problema: determinare lammissibile al 99%: quel valore o
+
tale che 1 (o o
+
) = 0.99.
Questo signica che, mediamente, solo una struttura su 100 ha la propria soglia di rottura
inferiore ad o
+
e quindi, sottoponendo la struttura ad un carico uguale (o inferiore) a o
+
,
mediamente 99 strutture su 100 resistono.
Si tratta di calcolare un quantile della distribuzione di o: o
+
dato dalla relazione
1 (o < o
+
) = 0.01 e quindi, per denizione di quantile
S
c
della distribuzione di o, vale
o
+
=
S
0.01
.
Il problema non contiene alcuna dicolt se si conosce bene la distribuzione di o. Se ad
esempio una (10, 0.64), vale
o
+
= 8.14
in quanto
S
0.01
= 10 0.8
0.99
= 10 0.8 2.326 = 8.14
dove
c
il quantile della normale standard. Se o ha una distribuzione pi complessa della
gaussiana ma comunque di classe abbastanza nota, i valori dei quantili sono reperibili nei
software o in tavole o tramite integrazione numerica della densit. Inne, se non disponiamo
di questi strumenti ma solo della possibilit di generare numeri aleatori con distribuzione o,
possiamo trovare i quantili con un metodo tipo Monte Carlo.
Che dire per se di o si conosce solo un campione e non la distribuzione precisa? Se
la numerosit del campione fosse molto elevata, potremmo calcolare unapprossimazione
del quantile con una semplice proporzione sui dati. Questo caso per molto raro nelle
applicazioni.
Ipotizzando un tipo di distribuzione per o, possiamo stimare i parametri tramite il cam-
pione. Cos per si commette un errore, che pu inuire parecchio sul risultato: se ad esempio
i valori stimati dessero una (10, 0.64), ma con un errore del 10% su media e deviazione
standard, in realt la vera distribuzione potrebbe essere una (9, 0.88
2
), quindi sarebbe
o
+
= 9 0.88 2.326 = 6.95.
La dierenza notevole: non possiamo trascurarla nel dichiarare lammissibile, visti i rischi
in gioco. La teoria degli intervalli di condenza sviluppata sopra permette allora di risolvere
questo problema.
Supponiamo che la varianza sia nota, per semplicare un po, mentre che la media sia
stata stimata con un campione di numerosit 20. Supponiamo che la o nota valga 0.8 mentre
la stima r della j vera abbia dato il valore 10. Sappiamo allora che
j = 10 c al 95%
dove
c =
0.8 1.96
_
20
= 0.35.
Questo signica che, al 95%, non possiamo escludere un valore pessimistico della soglia media
di rottura pari a 100.35 = 9. 65. Se questo fosse il valore vero della media, la soglia sarebbe
o
+
= 9. 65 0.8 2.326 = 7. 789.
Laermazione nale allora : il 99% degli esemplari di quella struttura ha una soglia di
rottura maggiore di 7. 789:
o
+
_ 7. 789
e questo valore ha un grado di adabilit (grado di ducia) del 95%.
Volendo esplicitare in senso frequenziale linterpretazione di questo grado di adabilit
potremmo dire che se i parametri della distribuzione statistica, qui j, venissero stimati 100
2.3. TEST STATISTICI 127
volte tramite campioni di numerosit 20, nel 95% dei casi il loro valore di r disterebbe dal
valore vero j meno di 0.35, quindi la disuguaglianza
j _ r 0.35
su cui abbiamo basato il calcolo di o
+
sarebbe vera in 95 su 100 dei casi. Noi per stimiamo
una volta sola j, quindi non c una realt frequenziale dietro questo ragionamento (come
invece c nel dire che 99 su 100 delle strutture ha soglia o
+
). Quindi il ragionamento
frequenziale appena fatto deve tradursi in una dichiarazione di ducia nel risultato. Ci
diamo al 95% che sia j _ 10 0.35 e quindi attribuiamo la stessa ducia al risultato o
+
_
7. 789.
2.3 Test statistici
2.3.1 Un esempio prima della teoria
Una compagnia ferroviaria dichiara che il servizio lungo una certa tratta critica stato
migliorato ed il ritardo medio ora di j
0
= 5 Min.
Per 10 giorni misuriamo i ritardi ed osserviamo i valori:
5, 7, 4, 10, 6, 5, 8, 2, 8, 6.
La compagnia ha ragione?
La media empirica r = 6.1.
Naturalmente diversa da 5 ( impossibile osservare r = j
0
). Ci sono sempre uttuazioni
casuali nei dati reali. La domanda allora : la media empirica troppo diversa da quella
teorica oppure pu essere considerata una uttuazione casuale?
Per semplicit, supponiamo che la distribuzione statistica dei ritardi sia gaussiana. Come
varianza di questa distribuzione prendiamo pragmaticamente il valore che proviene dai dati
sperimantali (non abbiamo altro): :d = 2.28.
Generiamo 10000 campioni di numerosit 10 da una
_
5, 2.28
2
_
e vediamo quanto nat-
urale o viceversa estremo il valore r = 6.1 trovato per i nostri dati.
N<-10000; m<-1:N
for (i in 1:N) {m[i]<-mean(rnorm(10,5,2.28))}
hist(m,100)
Il valore r = 6.1 abbastanza estremo. Potremmo calcolare la probabilit che un valore
di r sia pi estremo di 6.1. Questo numero verr chiamato j-value, o valore j. Risulta
(vedremo tra un momento come)
j-value = 0.064.
E abbastanza piccolo. Tuttavia, maggiore di 0.05, una delle soglie usuali in statistica
per giudicare la piccolezza di una probabilit. Viene quindi demandato a noi decidere se il
campione naturale o no, se 6.1 un valore naturale o no. Demandato a noi, ma con lausilio
della conoscenza del j-value= 0.065.
Le componenti di questo esempio sono:
un campione
unipotesi (es. j
0
= 5)
un riassunto r del campione, chiamata statistica del test (test statistic) utile per eseguire
un confronto tra campione e ipotesi
la distribuzione del test statistic
il j-value, cio la probabilit che il test statistic sia pi estremo del valore osservato.
Da un punto di vista pratico ed operativo potremmo dire che questa la sostanza di tutti
i test statistici: si vuole capire la compatibilit o meno di un campione sperimentale rispetto
ad unipotesi, e la si valuta calcolando una grandezza statistica (la statistica del test) che,
se c compatibilit dovrebbe cadere in un range normale, mentre se non c compatibilit
(e quindi lipotesi va riutata) essa cade in una regione un po estrema; inne, il grado di
anomalia della grandezza statistica rispetto alla condizione normale viene valutato tramite il
calcolo del j-value.
In resto della sezione sviluppa alcuni elementi teorici e concettuali in modo pi organico,
ma la sostanza quella gi esposta.
2.3.2 Calcolo analitico del p-value nel precedente test per la media
Sappiamo che la media aritmetica A di un campione gaussiano
_
j
0
, o
2
_
di numerosit :
ha distribuzione
_
j
0
,
o
2
a
_
. Il j-value relativo ad un certo valore sperimentale r denito
da
j = 1
_
A r
_
quindi vale
j = 1 1
_
A _ r
_
= 1
_
r j
0
o,
_
:
_
usando le formule che trasformano la cdf di una gaussiana qualsiasi in quella standard.
Nel nostro esempio allora
aj
0
o
_
a
=
6.15
2.28
_
10
= 1. 525 7, (1.5257) (calcolabile in R con
pnorm(1.5257)) vale 0.936, quindi
j = 1 0.936 = 0.064.
Il j-value appena calcolato il cosidetto j-value unilaterale. Si potrebbe anche calcolare
il j-value bilaterale, cio quello in cui la frase valori pi estremi di quello sperimentale (che
compare nella denizione di j-value) viene intesa bilateralmente rispetto alla media, o coi
valori assoluti, per cos dire. Secondo questa accezione dobbiamo calcolare
j = 1
_
A j
0
[r j
0
[
_
.
Quindi, standardizzando, vale
j = 1
_
A j
0
o,
_
:
r j
0
o,
_
:
_
= 1 ([7[ [.[)
dove 7 una v.a. (0, 1) e . il numero sperimentale
aj
0
o
_
a
. Quindi (come si vede facil-
mente tracciando il graco di una (0, 1) e ragurando le aree delle due code che dobbiamo
calcolare)
j = 2 2([.[)
dove la cdf normale standard. Come potevamo intuire sin da subito da un disegno della
densit della v.a. A, questo j-value il doppio di quello unilaterale. Se per distinguerli
indichiamo quello unilaterale con j
l
e quello bilaterale con j
1
, vale
j
1
= 2j
l
.
Nel nostro esempio quindi j
1
= 0.128.
2.3.3 Ipotesi nulla
Partiamo da un campione. Su di esso si fa unipotesi, del tipo: proviene da una distribuzione
di media 5, proviene da una Weibull con certi parametri, e cos via. Scopo del test: rigettare
questa ipotesi.
Il primo elemento di un test quindi lipotesi, che verr detta ipotesi nulla, indicata con
H
0
.
Al termine del test, o avremo riutato lipotesi, oppure non lavremo riutata (che
non equivale a dire che labbiamo confermata, ma solo che non abbiamo trovato nessuna
contraddizione tra il campione sperimentale e lipotesi).
Esempio 62 Esempio di H
0
: il ritardo medio j maggiore di 5.
Avendo introdotto il simbolo H
0
per lipotesi nulla, riscriviamo la denizione di valore j
in modo pi enfatico:
j = 1
1
0
_
A r
_
.
Ipotesi alternativa. Dierenza rispetto alla teoria delle decisioni
La teoria rigorosa dei test statistici richiede anche il concetto di ipotesi alternativa H
1
.
Siccome non enunciamo e dimostriamo teoremi sui test, il suo ruolo sar abbastanza nascosto.
Esempio 63 Esempio di H
1
: il ritardo medio j 5.
Esempio 64 Altro esempio di H
1
: il ritardo medio j ,= 5.
Lo schema matematico formato dalle due ipotesi complementari (rispetto ad un certo
universo di possibilit) H
0
e H
1
appare simile a quello della teoria delle decisioni : sulla base
di alcune osservazioni sperimentali, dobbiamo decidere se vale H
0
oppure H
1
.
Tuttavia, nella teoria delle decisioni le due ipotesi vengono considerate allo stesso livello,
in modo simmetrico, e la decisione di conclude con una scelta tra le due: o vale luna o vale
laltra.
Invece, nella teoria dei test statistici, il ruolo di H
0
ed H
1
asimmetrico. H
0
pu solo
essere riutata o non riutata, non possiamo arrivare ad una conclusione del tipo: H
0

vera.
Per capire meglio in che senso c simmetria nella teoria delle decisioni, ricordiamone
alcuni elementi nel caso della teoria bayesiana. Si ha un universo , una partizione (1
I
) e si
deve prendere una decisione circa quale degli eventi 1
I
sia vero.
Supponiamo che gli eventi 1
I
inuenzino qualcosa che possiamo osservare, diciamo leven-
to . Si pensi per esempio che 1
i
siano le possibili cause, e
c
le possili conseguenze.
La regola di decisione bayesiana semplicemente: si sceglie la causa pi probabile, con-
dizionata al fatto che si avverato.
Per la formula di Bayes
1 (1
i
[) =
1 ([1
i
) 1 (1
i
)
I
1 ([1
I
) 1 (1
I
)
.
Il demoninatore uguale per tutti, quindi basta massimizzare il numeratore:
1
cjt
i
:= arg max
1
.
1 ([1
i
) 1 (1
i
) .
Se decidiamo che a priori le diverse possibilit 1
i
sono equiprobabili (assenza di pregiudizi)
troviamo semplicemente
1
cjt
i
:= arg max
1
.
1 ([1
i
) .
Le probabilit 1 ([1
i
) sono simili a dei j-values, se si prende come evento levento la
test statistic assume valori pi estremi di quello osservato, e come 1
i
le due diverse ipotesi
del test. Allora
j-value = 1 ([H
0
) .
Ma mentre in teoria delle decisioni calcoleremmo anche 1 ([H
1
) e sceglieremmo tra le due
alternative sulla base del valore pi grande delle due probabilit, nella teoria dei test calcol-
iamo solo 1 ([H
0
) e riutiamo lipotesi H
0
se questa probabilit (il j-value) molto piccola,
in genere pi piccola di 0.05. Se non piccola, non confrontiamo con 0.5 come si farebbe in
teoria delle decisioni; concludiamo semplicemente che non c evidenza per riutare H
0
.
Precisazioni sulla statistica del test
Un test un algoritmo. Linput il campione sperimentale e lipotesi H
0
. loutput il valore
della statistica del test, o un passo oltre il j-value. Indichiamo genericamente con . il valore
della statistica del test (era r nellesempio).
Esempio 65 Un politico aerma che il 65% della popolazione con lui, preferisce cio lalter-
nativa alla 1. Sospettiamo che abbia torto. Chiediamo allora a 100 persone ed osserviamo
che solo 47 preferiscono a 1. Dobbiamo confrontare lipotesi nulla H
0
=il 65% preferisce
a 1 col campione. Abbiamo bisogno di un algoritmo che, presi i numeri 65, 47, 100 resti-
tuisca un risultato, la statistica del test, che indichiamo con .. Un esempio banale potrebbe
essere lerrore relativo
. =
65 47
65
che per non tiene conto della numerosit del campione ( certo diverso chiedere a 10, a 100
o a 1000 persone).
Possiamo pensare che . sia aleatoria (si pensi a ripetere il campionamento), per cui sarebbe
meglio usare la notazione 7. La v.a. 7 pi propriamente chiamata statistica del test, ed
ha una sua distribuzione di probabilit. Supponiamola descritta da una densit ) (.).
Pi precisamente, se H
0
vale, allora 7 ha densit )
1
0
(.). Se invece vale una certa ipotesi
alternativa H
t
1
, 7 avr unaltra densit )
1
0
1
(.). Queste frasi spiegano lidea ma non sono
molto precise, o almeno non universali. Dipende se le ipotesi sono cos precise da identicare
una densit oppure sono vaghe. Unipotesi del tipo: la v.a. gaussiana di media 3 e varianza
24 precisa; mentre unipotesi del tipo: la v.a. gaussiana di media j ,= 3 e varianza 24 non
identica una densit. In questo caso, se abbiamo bisogno di una densit anche per lipotesi
alternativa, questa va frammentata in sottoipotesi precise.
Introdotti questi concetti preliminari, il problema : come si conclude, sulla base del
valore sperimentale ., se H
0
falsa?
Basta calcolare la probabilit che 7 assuma valori pi estremi di ., probabilit secondo
la densit )
1
0
(.) (il j-value).
C per unalternativa: prescrivere a priori un valore piccolo di probabilit c, es. 5%,
che identica una coda (o due code) con tale probabilit; fatto questo, si va a vedere se .
cade nella coda o no. Se cade nella coda, si riuta H
0
.
Se . cade nella coda, signica che sperimentalmente abbiamo osservato un accadimento
che aveva probabilit molto piccola di accadere, secondo )
1
0
(.). Siccome questo era improb-
abile (relativamente al valore piccolo di probabilit c pressato), riteniamo che il campione
che ha prodotto quel valore di . non potesse provenire dalla v.a. di densit )
1
0
(.).
Possiamo quindi o calcolare la probabilit della coda identicata da . oppure decidere la
coda a priori e vedere se . ci cade dentro.
2.3.4 Errori di prima e seconda specie; signicativit e potenza di un test
Supponiamo di aver sviluppato un test per valutare la validit di unipotesi. Il test non
infallibile. Riutiamo lipotesi H
0
se . cade nelle code; ma, quando lipotesi H
0
valida, .
pu cadere nelle code, solo che ci molto improbabile. C quindi una piccola probabilit di
riutare H
0
quando invece valida (ci avviene quando il campione che produce ., pur essendo
in perfetto accordo con lipotesi, un campione un po anomalo, cosa rara ma possibile per
puro caso).
Il primo errore possibile, quindi, nella teoria dei test la possibilit di riutare H
0
quando
invece vera. Viene detto errore di prima specie. La sua probabilit c:
c = 1 (errore di prima specie)
= 1 (riutare H
0
quando vera) .
Il numero c anche chiamato signicativit del test. Il suo valore viene di solito paragonato
a 0.05: se lo si pressa, lo si prende pari o minore a 0.05; se lo si calcola a posteriori devessere
_ 0.05. (A volte pi spontaneo dire che la signicativit 95%, invece che 5%, che pur
essendo la frase canonica, per un po opposta al senso comune).
Osservazione 44 Nella teoria delle decisioni si calcolano invece due probabilit di errore
simmetriche tra loro.
Esiste poi un secondo errore che si pu commettere facendo un test. Pu accadere che sia
valida lipotesi alternativa H
1
ma il test non se ne accorge, non trova nulla di contraddittorio
nel campione rispetto ad H
0
. In pratica questo possibilissimo: si pensi al solito esempio, si
supponga che la media vera sia un poco diversa da quella ipotizzata da H
0
, ma non troppo
diversa; se estraiamo un campione sperimentale, questo non sar cos diverso da un generico
campione estratto secondo H
0
; come pu . cadere nelle code relative al 5% di probabilit?
Lerrore che si commette quando non si riuta H
0
mentre era falsa, viene detto errore di
seconda specie.
La sua probabilit per non ben denita, perch non lo la densit sotto lipotesi troppo
generica H
1
. Bisogna specicare meglio H
1
, cio formulare delle ipotesi alternative H
t
1
pi
speciche, che identichino una sola densit, da cui sia calcolabile la probabilit dellerrore
di seconda specie. Le ipotesi H
t
1
saranno descritte da un parametro d, ad esempio
d =
j j
0
_
:
o
nel caso in cui j
0
sia la media dellipotesi H
0
mentre j sia la media dellipotesi H
t
1
. Se
indichiamo con , la probabilit dellerrore di seconda specie, esso sar funzione di d:
, (d) = 1 (errore di seconda specie relativo a d)
= 1
_
non riconoscere che vale H
o
1
_
dove H
o
1
lipotesi alternativa ditipo specico con parametro d.
La quantit
1 , (d)
detta potenza del test, relativa alla particolare ipotesi alternativa H
o
1
. Come complementare
dellaltra, il suo signicato quello di probabilit di accorgersi che H
0
falsa, quando lo
(nel senso preciso che vale H
o
1
). Quanto capace il test di riconoscere che H
0
falsa, quando
la verit H
o
1
? La potenza quantica questa capacit:
1 , (d) = 1
_
riconoscere che H
0
falsa, se vale H
o
1
_
.
2.3.5 Struttura diretta della procedura di test
Specicare H
0
specicare H
1
(a volte nella pratica resta nascosta)
scegliere c
calcolare . dal campione sperimentale.
Vedere se . cade nelle code di probabilit c. Se s, riutare H
0
, altrimenti dichiarare
che il campione non contraddice H
0
.
Si pu anche immaginare la seguente struttura pi elaborata, a priori, in fase di Design
Of Experiments (DOE):
specicare H
0
e scegliere c
specicare anche una particolare H
t
1
scegliere ,, calcolare il numero di elementi del campione che garantisca potenza 1 ,
eseguire il test.
Questa la struttura logica in fase di DOE. Per soddisfare due valori scelti a priori
di signicativit e potenza, lunico parametro su cui possiamo giocare la numerosit del
campione.
2.3.6 p-value (struttura indiretta)
La maggior parte dei software, quando esegue un test, non chiede di assegnare c. Chiede solo
il campione ed alcuni dettagli di H
0
.
Louput prodotto dal software un numero, il j-value, introdotto allinizio della sezione.
Che relazione c tra j-value e signicativit c scelta a priori?
Per capire, si noti che per certi c (0, 1) il test produrr riuto di H
0
, per altri no. Se
c grande, la coda (o la coppia di code) ha probabilit grande, quindi facile che . ci cada
dentro. Se c piccolo dicile. Quindi un test tende a riutare per c grande, non riutare
per c piccolo. Lintervallo (0, 1) si divide in due parti
(0, j)
no rejection
(j, 1)
rejection
Per tutti gli c (j, 1) il test riuta H
0
. Per tutti gli c (0, j) no. Il numero j di separazione
il j-value. Quindi il j-value il miglior livello di signicativit che porta al riuto.
Da qui si vede che, usando un software, se si vuole eseguire un test nel modo diretto,
cio pre-assengando c, lo si pu fare: basta deciderlo, poi far eseguire il test al software che
produrr un j-value, ed inne confrontare c col j-value.
Siccome questo pu essere fatto per ogni scelta di c, giusto che il software dia il j-value.
Cos non solo risponde ad ogni possibile pre-assegnazione di c ma ci dice anche quale era il
valore pi piccolo possibile di c che avrebbe portato al riuto.
Di fatto molto spesso in pratica non pressiamo c ma calcoliamo direttamente il j-value
e lo giudichiamo a posteriori: se piccolo, signica che anche con c piccoli si sarebbe arrivati
al riuto. Comunque, il valore 0.05 viene spesso preso come riferimento di piccolezza.
2.3.7 Test gaussiano per la media unilaterale e bilaterale, varianza nota
Test unilaterale destro
Riassumiamo il test unilaterale per la media appreso no ad ora. Come ipotesi non messe
in discussione c la gaussianit della grandezza esaminata ed il valore noto di o. Lipotesi
nulla una dichiarazione circa il valore della media, che indicheremo con j
0
. Il test in forma
diretta allora procede cos:
si ssa la signicativit c (es. 0.05) e si calcola il relativo quantile
1c
(1.64 se c = 0.05)
si calcola r dal campione e poi . =
aj
0
o
_
:.
se .
1c
si riuta lipotesi, cio si aerma che la media non j
0
.
Nel Paragrafo 2.3.1, come statistica del test avevamo calcolato r e da quello il valore
j. Ma volendo svolgere il test in modo diretto, ssato cio c, dovremmo vedere se r
j
0
+
o
_
a
1c
(questo il numero che identica la coda destra di area c). Con facili passaggi
si riconosce che questo confronto numerico equivale a [.[
1c
, dopo aver introdotto la
statistica standardizzata . al posto di r. Si pu notare anche il fatto che la formula per il
j-value del Paragrafo 2.3.2 espressa in termini di .:
j
(l)
= 1 (.) .
Calcoliamo inoltre , (d) = 1 (errore di seconda specie relativo a d), dove d un parametro
che serve a specicare meglio la condizione alternativa ad H
0
. Il parametro naturale per
questo problema sarebbe la media vera j, diversa da j
0
. Ma come abbiamo gi fatto poco
fa, conviene standardizzarlo, introducendo il nuovo parametro
d =
j j
0
o
_
:.
Per denizione, vale
, (d) = 1
1
u
1
(7 _
1c
)
dove 7 =
Aj
0
o
_
a
. Ma A ora una gaussiana
_
j,
o
2
a
_
, non
_
j
0
,
o
2
a
_
. Quindi 7 non
(0, 1), ma (d, 1) (come si verica facilmente). Quindi 7 d (0, 1). Allora
, (d) = 1
1
u
1
(7 d _
1c
d) = (
1c
d) .
La potenza del test, cio la probabilit di riconoscere che H
0
falsa, quando vale H
o
1
, vale
quindi
potenza(d) = 1 (
1c
d) .
Osserviamo il graco della potenza, per c = 0.05, al variare di d:
d<-(-100:100)/20
plot(d,1-pnorm(1.64-d))
Vediamo che la potenza buona per valori di d intorno a 2.5 ed oltre, cio per
jj
0
o
_
:
2.5 ovvero
j j
0
+
o 2.5
_
:
.
Invece bassa per valori di j pi vicini a j
0
: dicile accorgersi che lipotesi nulla falsa
se la media vera vicina a quella di tale ipotesi.
Una cosa per importante che la potenza terribilmente bassa se la media vera j
dierisce da j
0
considerevolmente ma alla sua sinistra, cio quando d < 0. Questo test, che
dovrebbe accorgersi che j
0
falsa, non ci riesce aatto quando j minore di j
0
. Qui sta il
succo del discorso unilaterale-bilaterale, che ora specicheremo meglio. Se abbiamo ragione di
credere che o valga lipotesi nulla (media j
0
) oppure che la media vera sia una certa j j
0
,
il test visto no ad ora, detto test unilaterale destro, ottimo, diventa molto potente anche
per scarti piccoli tra j e j
0
. Ma se non sapessimo che le deviazioni da j
0
, se ci sono, sono
alla sua destra, cio se fosse altrettanto possibile che la media vera sia minore di j
0
, allora il
test precedente ha potenza praticamente nulla.
Oppure: il punto se per noi importante accorgerci solo delle variazioni a destra,
mentre quelle a sinistra, anche se ci sono, non importa rilevarle. Lesempio del treno in
questa direzione. Serve sapere se i dati reali confermano ritardo medio al massimo pari a 5;
se il ritardo medio reale fosse 3, non serve che il test riuti lipotesi.
Test unilaterale sinistro
Ovviamente ci saranno esempi in cui le potenziali variazioni ripsetto a j
0
, o comunque quelle
che vorremmo mettere in evidenza col test, sono alla sinistra di j
0
. Basta usare la variante
unilaterale sinistra:
1c
(1.64 se c = 0.05)
aj
0
o
_
:.
se . <
1c
0
.
Esercizio 20 Calcolare j-value e potenza di questo test. Tracciare il graco della potenza,
con R.
Test bilaterale
Ed inne ci saranno problemi in cui ci interessa scoprire sia le variazioni in positivo che quelle
in negativo. Il test allora:
1
o
2
(1.96 se
c = 0.05)
aj
0
o
_
:.
se [.[
1
o
2
0
.
Esercizio 21 Un certo sistema di servizio (si pensi ad esempio agli sportelli di una banca)
ben dimensionato se ci sono in media 100 richieste al giorno (se sono di pi bisogna au-
mentarlo, se sono di meno si stanno sprecando risorse). Forse il mercato cambiato e le
richieste non sono pi 100 in media. Si registra un campione per 9 giorni:
98, 112, 103, 96, 108, 115, 102, 99, 109.
Al 95%, il servizio ben dimensionato? Si supponga, sulla base di esperienze passate, che
sia o = 4. Sol:
. =
r j
0
o
_
: =
104.2 100
4
_
9 = 3.15
maggiore (in valore assoluto) di
1
o
2
= .
o
2
= 1.96 (vale c = 0.05,
c
2
= 0.025, 1
c
2
= 0.975,
0.975
= 1.96). Il sistema non ben dimensionato.
Il j-value stato gi calcolato mel Paragrafo 2.3.2:
j
(1)
= 2 2(.) .
Esercizio 22 Vericare che la potenza del test bilaterale vale
potenza(d) = 1
_
1
o
2
d
_
+
_
1
o
2
d
_
.
Osserviamo il graco di questa funzione, per c = 0.05:
d<-(-100:100)/20
plot(d,1-pnorm(1.96-d)+pnorm(-1.96-d))
Vediamo che la potenza alta sia per scostamenti positivi sia negativi, da j
0
(cio scosta-
menti di d da zero). Se per sovrapponiamo i graci vediamo che la potenza del test unilaterale
destro migliore, a destra:
Quindi conviene usare i test unilaterali quando vogliamo vedere variazioni in una direzione
e non ci importa se ci sono o meno nellaltra.
2.3.8 Curve OC e DOE nei test
Le curve di potenza appena tracciate vengono anche dette Curve Caratteristiche Operative
(o curve OC). Esse sono usate in fase di DOE, cio in fase di progettazione degli esperimenti.
Lo scopo determinare la numerosit : degli esperimenti che porter ad avere una certa
potenza, relativamente ad una signicativit scelta ed a un valore ipotetico di j (la potenza
denita in funzione di j).
Ad esempio, nel caso unilaterale destro, se vogliamo potenza 0.9, dobbiamo risolvere
lequazione
(
1c
d) = 0.1
da cui
1c
d =
0.1
, d =
0.9
+
1c
, da cui si trova : ricordando che d =
jj
0
o
_
:. Qui non
serve alcuna curva, visto che il calcolo esplicito e semplice, ma nel caso bilaterale il calcolo
esplicito non possibile e quindi si pu usare il disegno.
Ma non solo questa la ragione per cui si usano curve invece che formule, a volte. Le
curve hanno il pregio di far ragionare con buon senso, circa il desiderio di miglioramento in
rapporto al costo. Un ragionamento pu essere: no a circa d = 3 ogni aumento di d provoca
un miglioramento netto della potenza, ma da l in poi il tasso di miglioramento cala, serve un
incremento sempre pi ampio di d per ottenere piccoli miglioramenti della potenza. Anche
se un concetto, vago, come se la curva avesse un gomito. Allora accontentiamoci di
d = 3. [Questo valore non universale: relativo alla curva OC per c = 0.05, e comunque
una nostra intuizione ad occhio.] Quindi
jj
0
o
_
: = 3, da cui si trova :. La scelta d = 3
corrisponde alla potenza 1 , = 1 (1.64 3) = 1 0.08 = 0.92.
A livello pratico, ci sono molte scelte da fare, prima di calcolare :. Una delle pi critiche
j. Unidea possibile, anche se vaga, che j sia il primo valore critico diverso da j
0
, cio il
primo valore che, se realizzato, provoca delle conseguenze rilevanti, e che quindi deve essere
rilevato dal test. Lesempio seguente aiuta a capire questo concetto.
Carte di controllo
Quando si eseguono test nelle aziende? Ad esempio quando si fa monitoraggio, ad esempio
con le carte di controllo. Si veda un testo o internet per una descrizione anche molto sommaria
delle carte di controllo, le loro bande, il campionamento a tempi regolari, lallarme quando si
esce dalle bande, lanalogia con leseguire un test ad ogni istante di controllo. Nelle carte per
tenere sotto controllo la media, vengono calcolate le bande con la formula j
0
oq
1
o
2
_
a
, come
per lintervallo di condenza (ma lo scopo un test, non la stima della media).
Operativamente, pensando ad un esempio concreto, come si realizza una carta? Vanno
scelti c ed :, ssati una volta per tutte. Per sceglierli si deve aver chiaro il signicato di
ogni elemento della teoria del test. c la probabilit di uscire dalle bande quando invece
la media rimasta j
0
. In molti casi questo non cos grave: quando accade basta rifare il
campionamento, per controllare meglio. : va scelto per avere una certa potenza, relativamente
ad un certo j. Si deve sapere, ad es. dagli esperti delle cose prodotte, quali deviazioni da
j
0
rendono inservibili o pericolose le cose prodotte. j corrisponde a tali valori critici. A
quel punto va scelto , (j). E la probabilit di non accorgersi di un cambiamento di j
0
,
quando questo avvenuto. Questo s che pu essere pericoloso: vendere cose fuori norma
senza saperlo. Allora , (j) va preso molto piccolo, e trovato : in corrispondenza.
Esempio 66 Consideriamo unazienda che produce lato. Il lato prodotto correttamente
ha le seguenti caratteristiche: j
0
= 0.2 mm, o
0
= 0.02 mm. Spessore da evitare (altrimenti
diventa visibile ad occhio nelle tessiture): 0.3 mm, o 0.1 mm. Vorremmo allora creare una
carta di controllo.
Osservazione 1: si tratta di un processo ad alta precisione, cio con o
0
molto piccola. Un
campione ha probabilit piccolissima di superare 0.3 mm per caso (servono 5 sigma, quasi
impossibile).
Osservazione 2: ha quindi senso tenere sotto controllo la media, invece che il singolo
esemplare. Infatti il singolo esemplare improbabile che superi 0.3 mm per caso, se la media
resta quella. Il pericolo non nella causalit, ma in un peggioramento sistematico della
media.
Osservazione 3: oppure il pericolo in un peggioramento della varianza: se fosse ad es.
o = 0.05 mm., basta arrivare a 2o per raggiungere 0.3 mm per caso in un esemplare. Questo
sarebbe frequente.
Conclusione: vanno tenute sotto controllo media e varianza. Noi qui studiamo solo la
media. Si crea una carta di controllo per la media, in cui lC1 = j
0
+
o
0
q
1
o
2
_
a
e 1C1 =
j
0
o
0
q
1
o
2
_
a
. Vanno scelti c ed :. Come gi detto sopra, c forse pu essere scelto non troppo
severo, es. 0.05. Tuttavia, immaginiamo di costruire un sistema di controllo automatico,
che suona quando si superano le soglie: non vorremo che suoni per caso 5 volte su 100.
Prendiamo allora c = 0.001, ad esempio (
1
o
2
= 3.29).
Invece : va scelto con lo scopo di avere una certa potenza. Va identicato un valore j
che non si vuole raggiungere. Va evitato che lo spessore sia 0.3 mm, o 0.1 mm. Trascurando
linusso delle piccole uttuazioni del singolo esemplare, va evitato che la media raggiunga
questi valori. Quindi j = 0.3 oppure j = 0.1 sono i valori di riferimento rispetto a cui calco-
lare la potenza: essa misura la capacit della carta di controllo di accorgersi che lo spessore
ha raggiunto quei livelli inaccettabili. Allora, scelta una potenza, es. 0.9999, cio , = 0.0001,
si impone lequazione
(3.29 d) (3.29 d) = 0.0001
dove d =
0.1
0.02
_
: = 5
_
:. Trascuriamo (3.29 d) che plausibilmente molto piccolo,
risolviamo (3.29 d) = 0.0001, cio 3.29 d =
0.0001
= 3.72, d = 3.29 +3.72 = 7. 01, da
cui 5
_
: = 7,
_
: =
7
5
= 1. 4, : = 2. Questo risultato un po troppo incoraggiante rispetto
a molti esempi applicativi, ed dovuto al fatto che ci vogliono 5o per passare causalmente da
0.2 a 0.3; cio si tratta di un esempio con un grado di precisione gi elevatissimo.
Esercizio 23 Proponiamo un esercizio piuttosto lungo. Anche se non lo si vuole svolgere,
bene leggerlo e soermarsi a riettere sulla struttura generale, linteresse applicativo ed il
legame con i vari elementi studiati.
Unazienda produce delle componenti di metallo da assemblare in macchine complesse.
1) Per un corretto utilizzo, le componenti devono avere lunghezza 20 cm e risulta ac-
cettabile uno scarto di 0.1 mm. La produzione inizialmente piuttosto precisa per cui, sta-
tisticamente, si rileva (dopo un campionamento molto numeroso) una deviazione standard
campionaria di 0.02 mm.
i) Si mette in funzione limpianto e si vuole vericare con un test che la lunghezza media
sia in regola. Discutere che test svolgereste e progettarlo, nel senso di stabilire la numerosit
campionaria sulla base di un criterio ragionevole.
ii) Appurato che inizialmente limpianto funziona correttamente, e supponendo che la
deviazione standard della produzione non cambi ma che possa esserci una lenta deriva nella
lunghezza, progettare una carta di controllo per la media da utilizzarsi durante la produzione.
Descrivere come avverr lutilizzo della carta, esemplicando anche numericamente i possibili
scenari (si scelgano a piacere dei potenziali dati che potrebbero emergere dai campionamenti).
iii) Per la determinazione della carta di controllo vanno scelti alcuni parametri: se ne
discuta la rilevanza ed i motivi per eettuare una scelta piuttosto che unaltra. Eventualmente,
a questo scopo, fare riferimento al concetto di curva caratteristica operativa.
iv) Considerando i valori sperimentali, registrati sulla carta di controllo, come una serie
storica, pur nel caso in cui questi valori siano entro i limiti, descrivere con quali tecniche si
potrebbe individuare un trend e prevedere una deriva prima che questa accada. [Questa parte
dellesercizio richiede elementi del capitolo sulle serie storiche.]
2) In un periodo successivo, viene chiesto allazienda se sia in grado di produrre com-
ponenti metalliche di quel tipo, ma con nuove caratteristiche di robustezza. Lazienda ri-
esce ad ideare una lega ed un processo produttivo che migliorano la robustezza e deve ora
caratterizzarla, tramite esperimenti.
i) Deve decidere quanti provini testare per caratterizzare la robustezza media con una
precisione del 5%. Come ragionereste?
ii) Ipotizzata per semplicit la gaussianit della robustezza, una volta caratterizzati i para-
metri, con la loro incertezza, come calcolereste la robustezza minima al 99%, cio quel valore
della robustezza che viene superato in negativo solo da una componente su cento (in media)?
Esemplicare numericamente tramite dati scelti a piacere.
iii) In fase progettuale sono state individuate due componenti della lega metallica ed un
trattamento del processo produttivo potenzialmente rilevanti per aumentare la robustezza. Con
quali tecniche statistiche si pu esplorare leettivo impatto di queste variabili e cercare di
ottenere il miglior prodotto a parit di costi? [Questa parte dellesercizio richiede elementi
del capitolo sulla statistica multivariata.]
2.3.9 Test di adattamento
Con questo termine si intendono i test che cercano di capire se va riutata unipotesi sulla
distribuzione di probabilit di una v.a., invece che sul solo valor medio o sulla varianza.
Lipotesi nulla potrebbe ad esempio avere la forma: la v.a. (3, 5). Avendo un campione
sperimentale che forse proviene da tale distribuzione o forse no, si esegue un test per capire la
compatibilit tra campione e densit ipotizzata. Nel test per la media, invece, la gaussianit
non veniva messa in dubbio, e neppure la varianza, ma solo la media era in discussione. Ora
invece lintera densit (3, 5) che viene messa in discussione.
Illustriamo un po in dettaglio il test chi-quadro, per il quale servono alcune premesse
sulle distribuzioni chi-quadro; al termine accenneremo al test di Kolmogorov-Smirnov.
Distribuzione chi-quadro a / gradi di libert
Denizione 37 Date delle v.a. 7
1
, ..., 7
I
gaussiane standard indipendenti, la v.a.
A
(I)
:= 7
2
1
+... +7
2
I
detta chi-quadro a / gradi di libert.
Si pu dimostrare che:
Teorema 23 La densit di probabilit di una v.a. chi-quadro a / gradi di libert
) (r) = Cr
I
2
1
exp
_
r
2
_
per r 0
e zero per r < 0; C
1
= 2
I2
(/,2). Quindi un caso particolare di densit Gamma, con
:/ajc =
/
2
, :ca|c = 2.
0 10 20 30
0
20
40
60
x
y
Chi quadro per / = 10
Dalle regole per media e varianza abbiamo
1
_
A
(I)
_
= /1
_
7
2
1
= /
\ ar
_
A
(I)
_
= /\ ar
_
7
2
1
= /
_
1
_
7
4
1
1
_
7
2
1
2
_
= 2/
in quanto 1
_
7
4
1
= 3. Quindi
A
(I)
/
ha media 1 e dev.st.
_
2
_
/
.
I valori di
A
(I)
I
si trovano pertanto vicino ad 1, con elevata probabilit, se / elevato. Per
esempio,
1
_
A
(10)
10
1.83
_
= 0.05
1
_
A
(100)
100
1.24
_
= 0.05.
Questo fatto sar la base del test chi-quadro.
Asintoticamente chi-quadro
Supponiamo che A sia una v.a. discreta che assume i valori 1, 2, ..., :
c|occ
con probabiliti
1 (A = /) = j
I
dove j
I
[0, 1],

a
cIass
i=1
j
I
= 1.
Supponiamo che r
1
, ..., r
a
sia un campione sperimentale fatto di numeri che appartengono
allinsieme 1, 2, ..., :
c|occ
. Per ogni / 1, 2, ..., :
c|occ
, indichiamo con :
I
il numero di
elementi tra r
1
, ..., r
a
che valgono / (:
I
=

a
i=1
c (r
i
/)) e con j
I
la frequenza relativa con
cui si osserva / nel campione, cio j
I
=
b a
I
a
.
Esempio 67 Nel problema delle preferenze tra A e B, codichiamoli con A=1, B=2; allora
:
c|occ
= 2, j
1
= 65%, j
2
= 35% (quelle ipotizzate nellipotesi nulla), j
1
= 47,100, j
2
=
53,100.
Calcoliamo la grandezza
2
=
a
cIass
I=1
( j
I
j
I
)
2
j
I
.
Questo un numero relae positivo se con j
I
intendiamo le frequenze empiriche di un vero
campione sperimentale, altrimenti una v.a. se intendiamo le frequenze empiriche di un
ipotetico campione estratto da A, campione aleatorio.
Teorema 24 La distribuzione di probabilit della v.a.
2
converge in legge, per : , ad
una chi-quadro con :
c|occ
1 gradi di libert.
Signica che
1
_
2
[a, /]
_
~
_
b
o
)
a
cIass
1
(r) dr
dove )
a
cIass
1
(r) la densit chi-quadro con :
c|occ
1 gradi di libert.
Test chi-quadro
Lidea : se la distribuzione empirica ( j
I
) troppo diversa da quella teorica (j
I
),
2
assume
valori troppo grossi rispetto al valore medio :
c|occ
1.
Formalizziamo il test:
H
0
= il campione proviene dalla distribuzione (j
I
). Sotto questa ipotesi, la v.a.
2
approssimativamente chi-quadro con :
c|occ
1 gradi di libert;
scegliamo c, per esempio c = 0.05;
identichiamo la coda destra della densit )
a
cIass
1
(r) avente area c (scegliamo la coda
destra e solo quella per via dellidea intuitiva esposta sopra); questo identica il quantile
`
c,a
cIass
;
calcoliamo la test statistic
2
dal campione e confrontiamola con `
c,a
cIass
; se
2
`
c,a
cIass
, riutiamo H
0
.
Per esempio,
se :
c|occ
= 11: riutiamo quando

2
:
c|occ
1
1.83
se :
c|occ
= 111: riutiamo quando

2
:
c|occ
1
1.24
a livello c = 0.05.
Questo test ha diverse applicazioni, per esempio alle cosidette tavole di contingenza, che
non discutiamo. Una delle applicazioni allesame di ipotesi su distribuzioni di probabilit
(test di adattamento). Ovviamente il test in origine un test di adattamento: lipotesi nulla
unipotesi su una distribuzione di probabilit. Solo che questa discreta, e se fosse solo cos
lambito applciativo sarebbe molto ristretto. Ecco come si opera pi in generale.
Test chi-quadro per il t di una densit
H
0
= il campione proviene dalla densit ) (r).
Suddividiamo la parte rilevante del dominio di ) (r) in intervalli (una partizione).
Questo passo soggettivo ed il risultato del test dipender in qualche misura da questa
scelta. In questa scelta possiamo includere preferenze del tipo: dare pi importanza
alle code, o meno.
Siano 1
1
, ..., 1
a
cIass
gli intervalli scelti, le cosidette classi. Calcoliamo
j
I
=
_
1
I
) (r) dr, / = 1, 2, ..., :
c|occ
.
Queste saranno le probabilit teoriche.
Calcoliamo anche le probabilit empiriche j
I
, come si fa in un istogramma: j
I
la
frequenza relativa con cui il campione sperimentale cade in 1
I
.
Eseguiamo il test chi-quadro descritto al paragrafo precedente, test di confronto tra le
frequenze empriche ( j
I
) e quelle teoriche (j
I
).
Se si usa R, questo fornisce il j-value.
Osservazione 45 Contrariamente alle usuali situazioni in cui si esegue un test, qui di solito
si vorrebbe confermare una distribuzione ipotizzata, non riutarla: di solito si svolge questo
studio quando si sta tentando di scoprire una buon modello (una buona distribuzione) che
descriva dei dati sperimentali. Quindi saremmo pi contenti di un non-riuto ma sappiamo
che il non riuto non una conferma, e varie ipotesi simili ma un po diverse possono avere
lo stesso esito di non riuto (o di riuto), quindi non essere distinguibili solo sulla base del
riuto o meno. Allora spesso il test non viene eseguito per riutare o non riutare, ma per
confrontare i j-value relativi a diverse desit ipotizzate. Si sceglie la densit che ha il j-value
pi grande, quello pi lontano dal riuto.
Il test di Kolmogorov-Smirnov
Esso esegue un confronto tra cdf, precisamente tra quella teorica ipotizzata e quella empirica.
La test statistic viene di solito indicata con 1. Lidea di calcolare il massimo (o lestremo
superiore) della dierenza tra le due cdf.
La teoria dietro questo test pi elaborata della teoria chi-quadro, ma limplementazione
con R pi semplice. Basta usare il comando
ks.test(Dati, pweibull, a, s).
Loutput il valore 1 della Kolmogorov-Smirnov test statistics, ed il j-value. Lipotesi
nulla H
0
della riga di R appena scritta che la distribuzione sia una Weibull di parametri a,
:; le modiche per altre distribuzioni sono ovvie, ma si controlli lhelp di R per sicurezza.
Capitolo 3
Processi Stocastici
3.1 Processi a tempo discreto
Denizione 38 Chiamiamo processo stocastico a tempo discreto una successione
A
0
, A
1
, A
2
, ..., A
a
, ...
di variabili aleatorie dente su uno stesso spazio probabilizzato (, 1, 1), a valori in R.
Fissato . , la successione numerica
A
0
(.) , A
1
(.) , ..., A
a
(.) , ...
verr detta realizzazione del processo stocastico.
Questa denizione non rigida e pu essere modicata rispetto ad alcuni dettagli: lo
stesso nome si usa per sequenze che partono dal tempo 1, ad esempio, A
1
, A
2
, ..., A
a
, ..., o al
caso in cui le v.a. A
a
prendono valori in spazi diversi da R, ad esempio ciascuna di esse
un vettore aleatorio. Nel seguito considereremo anche il caso in cui linsieme degli indici (il
tempo) linsieme dei numeri interi relativi (tempo che va da a +).
Gli oggetti principali associati ad una v.a. sono la sua legge (ad esempio la densit, se
c) ed i suoi momenti di ordine uno e due (ed a volte i superiori, o la funzione generatrice,
e la cdf). Si fa la stessa cosa per un processo (A
a
)
a0
: la densit di probabilit della v.a.
A
a
, quando esiste, verr indicata con )
a
(r), la media con j
a
, la deviazione standard con o
a
.
Spesso scriveremo t al posto di :, pur essendo un intero. Quindi, i nostri primi concetti sono:
i) la funzione valor medio e la funzione varianza:
j
t
= 1 [A
t
] , o
2
t
= \ ar [A
t
] , t = 0, 1, 2, ...
Oltre a questo, della massima importanza la correlazione temporale, come dipende o
collegato il processo ad un certo istante ad un altro. Introduciamo tre funzioni:
ii) la funzione di autocovarianza C (t, :), t, : = 0, 1, 2, ...:
C (t, :) = Co (A
t
, A
c
) = 1 [(A
t
j
t
) (A
c
j
c
)]
145
146 CAPITOLO 3. PROCESSI STOCASTICI
e la funzione
1(t, :) = 1 [A
t
A
c
]
(il suo nome verr discusso sotto). Esse sono simmetriche (1(t, :) = 1(:, t) e lo stesso per
C (t, :)) quindi suciente conoscerle per t _ :. Vale
C (t, :) = 1(t, :) j
t
j
c
, C (t, t) = o
2
t
.
In particolare, quando j
t
= 0 (che accade spesso), C (t, :) = 1(t, :). Le pi importanti, tra
tutte queste funzioni sono considerate j
t
e 1(t, :). Inne, introduciamo:
iii) la funzione di autocorrelazione
j (t, :) = Corr (A
t
, A
c
) =
C (t, :)
o
t
o
c
Vale
j (t, t) = 1, [j (t, :)[ _ 1.
Le funzioni C (t, :), 1(t, :), j (t, :) vengono usate per identicare ripetizioni (in senso vago,
sporcato da errore) nel processo, somiglianze tra il processo ed una sua traslazione temporale.
Per esempio, se (A
a
)
a0
vagamente periodica di periodo 1, j (t +1, t) sar signicativa-
mente pi alto degli altri valori di j (t, :) (ad eccezione di j (t, t) che sempre uguale ad
1).
Esempio 68 Supponiamo che A
a
rappresenti le vendite mensili di un certo prodotto, soggetto
a stagionalit, cio pi venduto in una certa stagione piuttosto che unaltra (vestiti di un
certo tipo, ad esempio). Allora il processo A
1
, A
2
, ... ed il processo A
12+1
, A
12+2
, ... saranno
simili, anche se non identici per via delle dierenze che intercorrono sempre tra unannata
ed unaltra (concorrenza diversa, situazione economica diversa del luogo di vendita ecc.). Se
fossero identici, cio se fosse A
12+1
= A
1
, A
12+2
= A
2
ecc., allora avremmo
j (t + 12, t) =
C (t + 12, t)
o
t+12
o
t
=
o
2
t
o
t
o
t
= 1
dove abbiamo usato il fatto che o
t+12
= o
t
(essendo A
12+t
= A
t
) e
C (t + 12, t) = Co (A
t+12
, A
t
) = Co (A
t
, A
t
) = o
2
t
.
Quindi j (t + 12, t) = 1, il valore massimo possibile. Se non vale esattamente A
12+t
= A
t
ma solo approssimativamente, j (t + 12, t) non sar esattamente 1 ma emerger comunque
rispetto agli altri valori.
Esempio 69 Precisamente, per fare un esempio numerico, supponiamo che il legame tra
tempi a distanza di un anno sia
A
12+t
= A
t
+-
t
dove per semplicit supponiamo che -
t
sia indipendente da A
t
e sia piccolo nel senso che la
deviazione standard di -
t
sia un decimo di quella di A
t
:
\ ar [-
t
] =
1
100
\ ar [A
t
] .
3.1. PROCESSI A TEMPO DISCRETO 147
Da queste ipotesi discende che
\ ar [A
12+t
] = \ ar [A
t
] +
1
100
\ ar [A
t
] =
101
100
\ ar [A
t
]
ovvero
o
t+12
=
_
101
100
o
t
= 1. 005 o
t
Co (A
t+12
, A
t
) = Co (A
t
, A
t
) +Co (-
t
, A
t
) = Co (A
t
, A
t
) = o
2
t
da cui
j (t + 12, t) =
C (t + 12, t)
o
t+12
o
t
=
1
1. 005
o
2
t
o
t
o
t
= 0.995.
Anche un trend una forma di ripetizione temporale. Qui per la teoria si fa pi dicile ed
meglio capirla pi avanti. Anticipando un po le cose, bisogna far distinzione tra processi
stocastici e serie storiche (che tratteremo nel prossimo capitolo). Una serie storica una
sequenza di numeri, non di variabili aleatorie. Pu per essere una realizzazione sperimentale
di un processo (cos come un singolo numero pu essere il risultato sperimentale associato ad
una v.a.). Allora si tende a confondere i due concetti, processo stocastico e serie storica. Il
teorema ergodico che vedremo tra poco rende ancor pi stretto questo legame. Tuttavia, i
due concetti sono diversi. Ora, tornando al trend, un conto un processo con trend, un altro
una serie storica con trend. Le due cose hanno riessi diversi sullautocorrelazione. Mentre
per le serie storiche vedremo che lautocorrelazione di una serie con trend ha valori tutti
abbastanza alti (da ci si pu ad esempio dedurre che c un trend se non fosse visibile ad
occhio), per un processo stocastico con trend la funzione j (t, :) potrebbe non manifestare
nulla di sigicativo. Questa dierenza nellautocorrelazione di processi e serie con trend non
contraddice il teorema ergodico (quello che rigorosamente lega i due concetti) perch esso vale
sotto ipotesi di stazionariet del processo, ipotesi che sono appunto violate quando c un
trend. In altre parole, quando c un trend, la teoria dei processi e quella delle serie storiche
presenta delle divergenze.
Esempio 70 Sia (7
a
)
a0
una successione di v.a. indipedenti di media zero e varianza 1 e
sia (A
a
)
a0
denito da
A
a
= a : +/ +- 7
a
.
A
a
un processo con trend, se - piccolo rispetto ad a: il graco di una realizzazione di A
a
la retta a : +/ sporcata dalle piccole variazioni casuali - 7
a
. Vale
\ ar [A
a
] = \ ar [- 7
a
] = -
2
ovvero o
t
= -, e ricordando che nella covarianza le costanti additive si possono cancellare,
Co (A
t
, A
c
) = Co (at +/ +-7
t
, a: +/ +-7
c
)
= Co (-7
t
, -7
c
) = -
2
c (t :)
dove il simbolo c (t :) (delta di Dirac) vale 0 per t ,= :, 1 per t = :. Quindi
j (t, :) =
C (t, :)
o
t
o
c
=
-
2
c (t :)
-
2
= c (t :) .
In altre parole, j (t, :) 1 per t = :, zero altrimenti (questultima cosa lopposto di ci che
si osserva per una serie con trend).
Altri oggetti (se deniti) collegati alla struttura temporale sono:
iv) la densit di probabilit congiunta
)
t
1
,...,tn
(r
1
, ..., r
a
) , , t
a
_ ... _ t
1
del vettore (A
t
1
, ..., A
tn
), nel caso continuo, oppure le probabilit marginali
1 (A
t
1
= r
1
, ..., A
tn
= r
a
)
nel caso discreto
v) la desit condizionale
)
t[c
(r[j) =
)
t,c
(r, j)
)
c
(j)
, t :
nel caso continuo, oppure le probabilit condizionali
1 (A
t
= j[A
c
= r) =
1 (A
t
= j, A
c
= r)
1 (A
c
= r)
, t :
nel caso discreto. Vedremo ad esempio allopera questultimo concetto nelle catene di Markov,
in capitolo successivo.
Ora, unosservazione circa il nome di 1(t, :). In Statistica e nella Time Series Analysis, si
usa il nome funzione di autocorrelazione per la funzione j (t, :), come abbiamo fatto sopra. Ma
in altre discipline legate al signal processing, questo nome dato alla funzione 1(t, :). Non
ci sono motivi particolari per tale scelta se non il fatto che 1(t, :) la quantit fondamentale
da capire e studiare, mentre le altre (C (t, :) e j (t, :)) sono semplici trasformazioni di 1(t, :).
Quindi ad 1(t, :) viene dato quel nome che maggiormente ricorda il concetto di auto-relazione
tra valori a tempi dierenti. Nel seguito useremo entrambi i termini ed a volte, come si fa
nel signal processing, chiameremo j (t, :) il coeciente di autocorrelazione.
Lultimo oggetto che introduciamo si riferisce a due processi contemporaneamente: (A
a
)
a0
ed (1
a
)
a0
. E chiamato:
vi) funzione di mutua-correlazione (cross-correlation function)
C
A,Y
(t, :) = 1 [(A
t
1 [A
t
]) (1
c
1 [1
c
])] .
Questa funzione misura la somiglianza tra i due processi traslati nel tempo. Per esempio, pu
essere usata col seguente scopo: uno dei due processi, diciamo 1 , noto, le sue realizzazioni
hanno ad esempio una forma per noi nota ed importante, laltro processo, A, il processo
meno noto che stiamo esaminando, in cui vorremmo scoprire se ci sono porzioni, nestre, con
una forma simile a quella di 1 . Per esempio, nella trasmissione dei segnali o nella ricezione
radar, 1 una forma nota di riferimento, A il sganale ricevuto che stiamo esaminando, in
cui vorremmo scoprire se c quella forma (nascosta dal rumore e dalla traslazione temporale,
visto che non sappiamo a che istante si manifesti la forma).
Unaltro ambito applicativo importante pu essere quello economico-gestionale. Qui A
ed 1 possono raprresentare i dati (mensili ad esempio) di due grandezze economiche, per
esempio 1 le vendite ed A la pubblicit. E si vuole scoprire se A infuisce su 1 e quando,
dopo quanto tempo. Tramite la cross-correlation vediamo se c un legame, una somiglianza,
tra i due processi e lo vediamo a seconda della traslazione temporale. Se C
A,Y
(t, t + 2) pi
grande degli altri valori, questa pu essere lindicazione che dopo due mesi la pubblicit ha
eetto, pi di quanto non abbia dopo un mese o a distanza maggiore di tempo.
Esempio 71 Supponiamo che sia
A
a
= 0 per : ,= 3
A
3
~ (j
A
, 1)
1
a
= -
a
per : ,= 5
1
5
~ -
5
+À
3
dove -
a
come nellesempio 69. Supponiamo inoltre che sia A
3
indipendente dalle -
a
. Allora
C
A,Y
(:, : +/) = 0 per : ,= 3
in quanto le costanti additive si possono cancellare, mentre
C
A,Y
(3, :) = Co (A
3
, -
a
) = 0
a
per : ,= 5
C
A,Y
(3, 5) = Co (A
3
, -
5
+À
3
) = `.
Vediamo quindi che C
A,Y
(t, :) nulla per tutti i valori di t, : salvo per la combinazione
C
A,Y
(3, 5), che mostra quindi un legame. Ovviamente se il processo noto il legame lo
vedevamo dalla sua denizione; in questottica lesempio mostra solo la coerenza del concetto
di C
A,Y
(t, :) con le aspettative. Un diverso spirito con cui si pu invece giudicare il risultato
di questo esempio : se il processo non ci noto e possiamo osservare solo la funzione
C
A,Y
(t, :), vedendo che essa nulla salvo per C
A,Y
(3, 5), capiamo una caratteristica del
processo.
Quando si studiano pi processi, pu essere conveniente scrivere 1
A
(t, :), C
A
(t, :) per
le quantit associate al processo A. Sviluppiamo in dettaglio i calcoli relativi ad alcuni altri
esempi. Essi, il white noise, la random walk ed i processi con ritardo 1, sono gli esempi
fondamentali di carattere generale.
Esempio 72 (white noise) Il white noise (rumore bianco, WN) di intensit o
2
il processo
(A
a
)
a0
avente le seguenti propriet:
i) A
0
, A
1
, A
2
, ..., A
a
, ... sono v.a. indipendenti
ii) A
a
~
_
0, o
2
_
.
Si tratta di un processo molto elementare, con una struttura temporale banale, ma che
viene usato come mattone di costruzione per altri processi, dove di solito indicato con -
a
(si vedano gli esempi precedenti). Viene anche usato come termine di paragone per capire le
propriet di esempi pi complessi. La seguente gura stata ottenuta col software R tramite
il comando x<-rnorm(1000); ts.plot(x).
Esempio 73 (continuazione sul WN) Calcoliamo le quantit fondamentali associate al
WN (le veriche sono lasciate per esercizio):
j
t
= 0 o
2
t
= o
2
1(t, :) = C (t, :) = o
2
c (t :)
dove il simbolo c (t :) della delta di Dirac stato gi usato nellesempio (70), quindi
j (t, :) = c (t :)
)
t
1
,...,tn
(r
1
, ..., r
a
) =
a
i=1
j (r
i
) where j (r) =
1
_
2o
2
c
i
2
2
2
)
t[c
(r[j) = j (r) .
Esempio 74 (random walk) Sia (\
a
)
a0
un white noise. Poniamo
A
0
= 0
A
a+1
= A
a
+\
a
, : _ 0.
Questa una random walk (passeggiata casuale, RW). Il white noise stato utilizzato come
mattone da costruzione: la RW (A
a
)
a0
soluzione di unequazione per ricorrenza lineare,
forzata da un white noise vedremo esempi pi generali tra un momento). La seguente gu-
ra stata ottenuta col software R tramite il comando x<-rnorm(1000); y<-cumsum(x);
ts.plot(y).
Esempio 75 (continuazione sulla RW) Le variabili A
a
non sono indipendenti (A
a+1
dipende in modo ovvio da A
a
). Usando la ricorrenza si verica subito che
A
a+1
=
a
i=0
\
i
.
Inoltre, si verica subito che
j
0
= 0
j
a+1
= j
a
, : _ 0
quindi j
a
= 0 per ogni : _ 0. Inne, vericare per esercizio che, se o
2
lintensit del WN
e o
a
la deviazione standard della RW, vale
o
a
=
_
:o, : _ 0.
Linterpretazione intuitiva di questo risultato che A
a
cresce (pur uttuando tra positivi
e negativi, si veda la gura sopra) come
_
:, grossolanamente parlando.
Esempio 76 (continuazione sulla RW) Per quanto riguarda la dipendenza temporale, in-
tanto vale C (t, :) = 1(t, :). Vale poi
1(:, :) = 1
_
_
a
i=0
\
i
)=0
\
)
_
_
=
a
i=0
n
)=0
1 [\
i
\
)
] =
a
i=0
n
)=0
c (i ,) o
2
.
Se : _ :, troviamo 1(:, :) = :o
2
, quindi in generale 1(:, :) = (: . :) o
2
. Si pu poi
vricare, per : _ :, che
j (:, :) =
_
:
:
.
Questo implica in particolare
j (:, 1) 0 as : .
Possiamo interpretare questo risultato dicendo che la RW perde memoria della posizione
iniziale.
Esempio 77 Per curiosit, vediamo almeno gracamente la random walk a valori nel piano
(dim=2):
N<-10000
W1<-rnorm(N,0,1)
W2<-rnorm(N,0,1)
X1<-1:N
X2<-1:N
X1[1]<-0
X2[1]<-0
X1<-cumsum(W1)
X2<-cumsum(W2)
plot(X1,X2, type=l)
3.1.1 Legame tra v.a. esponenziali e di Poisson
Variabili aleatorie di Erlang
Capita spesso di considerare la somma di : v.a. esponenziali indipendenti con lo stesso
parametro `: ad esempio listante in cui arriva in coda l:-esimo cliente, se tra un arrivo
e laltro passa un tempo esponenziale, e tali intertempi sono indipendenti ed ugualmente
distribuiti.
Date T
1
, ..., T
a
v.a. indipendenti con distribuzione esponenziale di parametro ` 0,
diciamo che o
a
= T
1
+... +T
a
una v.a. di Erlang di numerosit : e parametro `.
Lemma 3 La sua densit q
a
e la sua funzione di distribuzione G
a
sono date da
q
a
(r) = `
(`r)
a1
(: 1)!
c
Aa
per r 0
G
a
(r) = 1 c
Aa
_
1 +
`r
1!
+... +
(`r)
a1
(: 1)!
_
per r 0.
Proof. Dimostriamo il lemma per induzione. Per : = 1 la q
1
la densit esponenziale, quindi
laermazione vera. Supponiamo che laermazione del lemma sia vera per :, dimostriamola
per : + 1. Consideriamo la somma
o
a+1
= T
1
+... +T
a
+T
a+1
= o
a
+T
a+1
,
dove o
a
= T
1
+ ... + T
a
ha q
a
(r) = `
(`r)
a1
(: 1)!
c
Aa
come densit. Abbiamo ricordato sopra
che la densit della somma di due v.a. indipendenti la convoluzione delle densit. Quindi
q
a+1
(r) =
_
+o
o
q
a
(r j) )
T
n+1
(j) dj
dove abbiamo indicato con )
T
n+1
(j) la densit di T
a+1
. Per r 0 vale allora (si deve
prestare un attimo di attenzione agli estremi di integrazione, motivati dal fatto che le due
densit integrande sono nulle per i loro argomenti negativi)
q
a+1
(r) =
_
a
0
`
(`(r j))
a1
(: 1)!
c
A(aj)
`c
Aj
dj
=
`
2
c
Aa
(: 1)!
`
a1
_
a
0
(r j)
a1
dj =
`
2
c
Aa
(: 1)!
`
a1
_
a
0
t
a1
dt
=
`
2
c
Aa
(: 1)!
`
a1
r
a
:
= `
(`r)
a
:!
c
Aa
.
La dimostrazione per induzione che q
a
la densit completa. Per dimostrare che G
a
la
funzione di distribuzione si pu eseguire lintegrale di q
a
, o conoscendo gi lespressione data
sopra per G
a
basta far vedere che la sua derivata q
a
(derivando, i vari termini si cancellano
a due a due, escluso uno) e che G
a
(0) = 0. La dimostrazione completa.
Osservazione 46 Il valore medio e la varianza di o
a
sono pari rispettivamente a
:
`
e
:
`
2
(segue subito dalla denizione e dalle propriet del valor medio).
Il legame
Supponiamo che, sullasse dei tempi [0, ), accadano degli eventi ad istanti aleatori successivi
(es. gli arrivi di clienti ad una coda). Indichiamo con T
1
, ..., T
a
gli interarrivi tra un evento
e laltro (T
1
listante in cui accade il primo evento, T
1
+ T
2
listante del secondo, mentre
T
2
il tempo che intercorre tra il primo evento ed il secondo, e cos via). Fissato un tempo
t 0 deterministico, ci chiediamo quanti eventi sono accaduti entro t, ovvero nellintervallo
di tempo [0, t]. Indichiamo con
t
questo numero aleatorio (ad esempio il numero di clienti
arrivati entro il tempo t).
Teorema 25 Se le T
i
sono esponenziali 1rj(`) indipendenti, allora
t
una v.a. di Poisson
di parametro `t.
Proof. Ricordiamo che o
a
= T
1
+ ... + T
a
una v.a. di Erlang.
t
e la famiglia (o
a
)
a0
sono legate dal questa relazione logica:
t
_ / =o
I+1
t.
Questa dar la chiave di tutto. Dimostriamola mostrando la validit delle due implicazioni
separatamente. Se
t
_ /, ovvero se entro t arrivano al pi / chiamate, allora non ne possono
arrivare / + 1, quindi la / + 1-esima chiamata arriva dopo il tempo t, quindi o
I+1
t.
Viceversa, se o
I+1
t, cio se la / +1-esima chiamata arriva dopo il tempo t, allora entro il
tempo t sono arrivate meno di / + 1 chiamate, quindi al pi /, quindi
t
_ /.
Allora
1 (
t
_ /) = 1 (o
I+1
t) = 1 G
I+1
(t)
= c
At
_
1 +
`t
1!
+... +
(`t)
I
/!
_
.
Abbiamo cos trovato la funzione di distribuzione di
t
. Vale quindi
1 (
t
= /) = 1 (
t
_ /) 1 (
t
_ / 1) = c
At
(`t)
I
/!
come volevasi dimostrare.
Esempio 78 Durante le 8 ore di apertura di un buon negozio di bici, lintertempo di vendita,
cio il tempo tra due vendite successive, aleatorio ed ha media pari a 2 ore. Supponiamo che
sia distribuito secondo una legge esponenziale. Supponiamo che gli intertempi tra le vendite
successive della singola giornata siano indipendenti. Calcoliamo alcune cose di interesse.
La probabilit che nella singola giornata non si abbia nessuna vendita
1 (T 8) = c
1
2
8
= 0.018.
Abbiamo indicato con T il tempo tra una vendita e laltra; il suo parametro
` =
1
1 [T]
=
1
2
(misurando il tempo in ore).
La probabilit che in un giorno si eettuino almeno 3 vendite
1 (
8
_ 3) = 1 1 (
8
< 3) = 1
2
I=0
1 (
8
= /)
= 1
2
I=0
c
1
2
8
_
1
2
8
_
I
/!
= 0. 7619.
dove
8
indica il numero di vendite in 8 ore; abbiamo usato il teorema di legame con le v.a.
di Poisson.
Il numero medio di bici vendute in un giorno
1 [
8
] =
1
2
8 = 4.
Almeno questo si poteva immaginare anche senza la teoria.
A prima vista lenunciato pu essere di non facile lettura o interpretazione. Raguriamo-
lo. Generiamo 10 numeri esponenziali di parametro ` = 1,2, indicati con T, e cumuliamoli
in S:
T <- rweibull(10,1,2)
S <- cumsum(T)
S
1.04 3.80 7.45 9.75 10.58 16.83 19.87 22.51 27.30 28.20
Consideriamo la funzione costante a tratti che aumenta di ununit ad ogni istante o
a
(la
si pu disegnare usando lespediente della ecdf):
plot(ecdf(c(1.04,3.80,7.45,9.75,10.58,16.83,19.87,22.51,27.30,28.20)))
Se abbiamo precedentemente ssato, ad esempio, il tempo t = 15, il valore di questa
funzione allistante t
t
. Relativamente a questa simulazione,
t
= 5, ma naturalmente
dipende dalla simulazione. Il teorema aerma che
t
una v.a. di Poisson.
Processo di Poisson
Appoggiamoci al teorema precedente ed alla gura. Per ogni t _ 0, denita una v.a.
t
, il
numero di salti entro il tempo t, che per il teorema una Poisson di parametro `t. Vedendo
questa variabile al trascorrere di t, cio come processo stocastico (
t
)
t0
, abbiamo costruito
il cosidetto processo di Poisson (
t
)
t0
di intensit ` 0.
Esso pu essere denito o nel modo precedente (costruttivo) oppure tramite le seguenti
propriet (in modo analogo al MB):

0
= 0

t
c
, per ogni t _ : _ 0, una v.a. di Poisson di parametro `(t :)
gli incrementi
tn
t
n1
, ... ,
t
1
t
0
sono indipendenti, per ogni : _ 1 e 0 _ t
0
<
t
1
< ... < t
a
.
Lequivalenza tra le due denizioni richiede del lavoro, ma possiamo ad esempio sservare
che dalla denizione pi astratta discende che: i) se si prende : = 0, scopriamo che
t
una
v.a. di Poisson di parametro `t; ii) quindi i valori del processo di Poisson (
t
)
t0
sono i numeri
interi non negativi: questo signica che se tracciamo il graco di una generica realizzazione,
tale graco una curva costante a tratti; iii) ed inoltre non decrescente in quanto gli
incrementi sono anchessi di Poisson; quindi il graco una sorta di scalinata ascendente, con
salti posizionati irregolarmente. Ci avviciniamo quindi alla visione costruttiva, pur mancando
la dimostrazione del fatto che gli intertempi tra un salto ed il successivo sono v.a. esponenziali
di parametro ` indipendenti.
Il processo di Poisson serve ad esempio a descrivere il numero di arrivi ad un sistema di
servizio, se si pu assumere che gli intertempi di arrivo siano esponenziali.
Generalizzazioni di Poisson
Ci sono varie generalizzazioni interessanti. Data una densit di probabilit )(r) (non
nemmeno necessario che sia normalizzata ad 1) si pu usare questa al posto di ` nel seguente
modo: nella seconda propriet del processo di Poisson si richiede che

t
c
, per t _ : _ 0, una v.a. di Poisson di parametro
_
t
c
) (r) dr.
Ne deriva il cosidetto processo di Poisson non omogeneo, avente funzione di intensit ).
Serve ad esempio, per gli arrivi ad un servizio, a distinguere le ore di punta.
Unaltra generalizzazione quella al caso bidimensionale (o multidimensionale): punti di
Poisson nel piano. Per serve un cambio di punto di vista: bisogna introdurre un processo
(
)
R
2 indicizzato dagli insiemi del piano e richiedere:

~ T (`[[)

1
, ... ,
I
indipendenti se
1
, ... ,
I
sono insiemi disgiunti.
Qui [[ indica larea di . Oppure si pu generalizzare chiedendo
~ T
_
`
_
)(r)dr
_
.
Tali processi di Poisson, detti anche processi di punto (di tipo Poisson) nel piano, descrivono
vari problemi. Possono indicare il numero di individui colpiti da una certa epidemia, al
variare della zona in esame. Oppure, possono descrivere le posizioni aleatorie in cui avvengono
determinati avvenimenti. Infatti, in un certo senso opportuno, come se dietro un processo
di Poisson del piano ci fosse una famiglia di punti aleatori (1
i
), 1
i
R
2
, e la generica v.a.
fosse denita dal numero di punti che cadono in (si pensi al caso unidimensionale e
3.2. PROCESSI STAZIONARI 157
gli istanti legati ai tempi T
i
). Il software R permette una qualche analisi di questi processi,
tramite il package spatial.
Un modo approssimato di produrre dei punti di Poisson nel piano quello di produrre
dei punti distribuiti in modo uniforme. Per la densit uniforme ha senso solo su insiemi lim-
itati, per questo unapprossimazione. Si pu quindi prendere un grande intervallo [1, 1],
generare delle coppie (A, 1 ) di coordinate indipendenti, ciascuna uniforme in [1, 1].
3.2 Processi stazionari
Un processo stocastico si dice stazionario in senso lato se j
t
e 1(t +:, t) sono indipendenti
da t.
Ne segue che anche o
t
, C (t +:, t) e j (t +:, t) sono indipendenti da t. Quindi possiamo
parlare di:
i) media j del processo
ii) deviazione standard o
iii) funzione di covarianza C (:) := C (:, 0)
iv) funzione di autocorrelazione (nel senso improprio descritto sopra)
1(:) := 1(:, 0)
v) coeciente di autocorrelazione (o anche funzione di autocorrelazione, nel linguaggio
della Statistica)
j (:) := j (:, 0) .
Si noti che sparita una variabile temporale da ciascuna delle precedenti quantit. Le
funzioni di autocorrelazione ecc. restano funzioni, ma solo di una variabile, non pi di due.
Un processo stocastico si dice stazionario in senso stretto se la legge di un generico vettore
(A
a
1
+t
, ..., A
a
I
+t
) indipendente da t. Questa condizione implica la stazionariet in senso
debole. Il viceversa non vale in generale ma vale almeno per i processi gaussiani (si veda
sotto).
Esempio 79 (WN) Abbiamo
1(t, :) = o
2
c (t :)
quindi
1(:) = o
2
c (:) .
Osservazione 47 (RW) La RW non stazionaria, come si vede ad esempio dalla formula
o
a
=
_
:o.
Esempio 80 (equazione lineare con smorzamento) Si consideri la seguente variante con
smorzamento della RW:
A
a+1
= cA
a
+\
a
, : _ 0
dove (\
a
)
a0
un white noise di intensit o
2
e
c (1, 1) .
La seguente gura stata ottenuta col software R tramite i comandi (c = 0.9, A
0
= 0):
w <- rnorm(1000)
x <- rnorm(1000)
x[1]=0
for (i in 1:999) {
x[i+1] <- 0.9*x[i] + w[i]
}
ts.plot(x)
Esercizio 24 (continuazione) Il disegno ha alcuni aspetti simii a quello del WN, ma
meno aleatorio, pi persistente nelle direzioni in cui si muove. E una sorta di RW riportata
sistematicamente verso lorigine (questo leetto del termine di smorzamento).
Supponiamo di prendere A
0
indipendente dal WN, di media 0 e varianza o
2
0
. Mostri-
amo che (A
a
)
a0
stazionario (in senso lato) se o
2
0
scelto opportunamente rispetto a o
2
.
Abbiamo in primo luogo
j
0
= 0
j
a+1
= cj
a
, : _ 0
come si vede subito dallequazione per ricorrenza. Quindi j
a
= 0 per ogni : _ 0. La funzione
valor medio costante, prima verica della stazionariet.
Come calcolo preliminare, vediamo quando la varianza constate. Dallequazione per
ricorrenza discende (usando lindipendenza tra A
a
e \
a
, valida per ogni : ssato, che si
riconosce per induzione)
o
2
a+1
= c
2
o
2
a
+o
2
, : _ 0.
Se vogliamo o
2
a+1
= o
2
a
per ogni : _ 0 cio
o
2
a
= c
2
o
2
a
+o
2
, : _ 0
ovvero
o
2
a
=
o
2
1 c
2
, : _ 0.
dobbiamo prendere
o
2
0
=
o
2
1 c
2
.
Qui, tra laltro, vediamo per la prima volta il motivo dellipotesi [c[ < 1 fatta allinizio.
Supponendo o
2
0
=
o
2
1c
2
troviamo
o
2
1
= c
2
o
2
1 c
2
+o
2
=
o
2
1 c
2
= o
2
0
e cos via, o
2
a+1
= o
2
a
per ogni : _ 0, cio la funzione varianza constante. Ricordiamo che
questo solo un sintomo della stazionariet. La denizione di stazionariet si riferisce alla
media ed alla funzione 1(t, :).
Esercizio 25 (continuazione) Verichiamo almente che 1(t +:, t) non dipende da t,
imponendo ovviamente la condizione o
2
0
=
o
2
1c
2
, altrimenti non c speranza di avere la
stazionariet (in quanto essa implica che la varianza deve essere costante). Vale
1(t + 1, t) = 1 [(cA
t
+\
t
) A
t
] = co
2
a
=
co
2
1 c
2
che indipedente da t;
1(t + 2, t) = 1 [(cA
t+1
+\
t+1
) A
t
] = c1(t + 1, t) =
c
2
o
2
1 c
2
e cos via,
1(t +:, t) = 1 [(cA
t+a1
+\
t+a1
) A
t
] = c1(t +: 1, t)
= ... = c
a
1(t, t) =
c
a
o
2
1 c
2
che indipedente da t. Quindi il processo stazionario ed abbiamo anche scoperto che
1(:) =
c
a
o
2
1 c
2
.
Inoltre
j (:) = c
a
.
Il coeciente di autocorrelazione decade esponenzialmente in t.
3.2.1 Processi deniti anche per tempi negativi
Possiamo estendere un po le precedenti denizioni e chiamare processo a tempo discreto
anche una successione bilaterale di v.a. (A
a
)
aZ
, denita per tempi anche negativi. Lidea
intuitiva quella che il processo (sico, economico ecc.) che stiamo esaminando non inizia
ora, al presente, ad esistere ma attivo da molto tempo, nel lontano passato.
Questa nozione risulta particolarmente naturale per i processi stazionari. In tal caso la
funzione 1(:) (e cos C (:) e j (:)) denita anche per : negativi:
1(:) = 1 [A
a
A
0
] , : Z.
Per la stazionariet,
1(:) = 1(:)
in quanto 1(:) = 1 [A
a
A
0
] = 1 [A
a+a
A
0+a
] = 1 [A
0
A
a
] = 1(:). Vediamo quindi
che questa estensione non contiene molta informazione nuova; tuttavia ogni tanto utile e
semplica alcuni calcoli.
3.2.2 Serie temporli e grandezze empiriche
Una serie temporale una sequenza nita di numeri reali r
1
, ..., r
a
, dove di solito lindice i ha
il signicato di tempo. Sono serie temporali i dati mensili o annuali di tipo economico-sociale
rintracciabili su siti come Istat o Eurostat. Sono serie temporali anche le realizzazioni di
processi stocastici, accettando eventualmente in questa accezione che la sequenza di numeri
sia innita.
Idealmente, quando osserviamo una serie temporale r
1
, ..., r
a
del mondo reale, immagini-
amo che alle sue spalle ci sia un processo stocastico (A
I
)
IN
di cui essa sia una realizzazione.
Con questa immaginazione, applichiamo la teoria dei processi stocastici allanalisi della serie
temporale.
Il procedimento del tutto analogo a ci che si fa in statistica elementare quando, a
fronte di valori sperimentali di una grandezza sica, economica ecc., caratterizzata da na
certa casualit, imprevedibilit del suo risultato, si immagina che alle spalle di questi numeri
sperimentali ci sia una variabile aleatoria A, si cui essi siano valori possibili A (.) per qualche
. dello spazio su cui la v.a. denita.
C qui somiglianza ma anche una dierenza essenziale rispetto alla statistica elementare.
Se vogliamo stimare la media di una v.a. A, sappiamo che dobbiamo raccogliere un campione
r
1
, ..., r
a
da A e calcolare r =
1
a
(r
1
+... +r
a
). Se possediamo solo un valore sperimentale r
1
estratto da A, la stima della media troppo povera. Ora, nellambito dei processi stocastici,
se vogliamo stimare grandezze medie associate al processo (es. 1) dovremmo, in analogia col
caso di una v.a. A, possedere un campione estratto dal processo, cio : sue realizzazioni;
ogni realizzazione una stringa di numeri, quindi dovremmo possedere : stringhe di numeri,
: serie storiche.
La novit che, in ipotesi di stazionariet, basta una realizzazione, una serie storica,
per stimare le grandezze medie. Sarebbe come sperare di stimare media e varianza di una
v.a. A possedendo solo un suo valore sperimentale r
1
. Da questo punto di vista quindi pu
sembrare sorprendente ma la chiave la stazionariet, che rende simili, per certi versi, le v.a.
del processo. Una singola realizzazione fatta di un valore per ciascuna v.a. del processo, e
siccome le v.a. del processo sono per certi versi come tante copie di una A, una sola serie
storica somiglia in un certo senso ad un campione estratto da una singola A.
In altre parole, si sta sostituendo lindipendenza ed equidistribuzione (ipotesi alla base
del concetto di campione estratto da una v.a. A) con la stazionariet.
Per essere pi precisi, come vedremo tra poco, serve anche unipotesi aggiuntiva chiamata
ergodicit. Questo si pu capire intuitivamente. Lindipendenza ed equidistribuzione una
doppia ipotesi, appunto. La stazionariet un rimpiazzo dellequidistribuzione, ma non
dellindipendenza. Anzi, il processo stazionario pi semplice possibile quello fatto da ua
ripetizione della stessa identica v.a. A, processo in cui c dipendenza completa. Lipotesi di
ergodicit sar quella che rimpiazza lindipendenza (sar una sorta di indipendenza asintotica,
cio tra A
a
ed A
1
per : grande).
Si consideri allora la serie temporale r
1
, ..., r
a
. Ipotizziamo che provenga da un processo
stazionario (ed ergodico, concetto che deniremo pi avanti). Allora
j =
1
:
a
i=1
r
i
, o
2
=
1
:
a
i=1
(r
i
j)
2
vengono prese come approssimazioni di j e o
2
. Nel paragrafo sul teorema ergodico daremo
risultati rigorosi di approssimazione. Pi delicata lapprossimazione di 1(/) , C (/) , j (/).
La quantit
1(/) =
1
: /
aI
i=1
r
i
r
i+I
viene presa come approssimazione di 1(/). Si noti per che lapprossimazione sar ragionev-
ole solamente per / sensibilmente minore di :, altrimenti la numerosit : / del campione
che si sta usando troppo piccolo. Per prudenza i software iniziano calcolando

1(/) solo per
/ dellordine di log :; per si pu chiedere di dare i valori anche per / pi grandi, mantenendo
qualche dubbio sulla bnt del risultato.
Sarebbe ora naturale denire

C (/) come

1(/) j
2
ma c un problema:

1(/) calcolato
usando le sequenze
r
1
, ..., r
aI
r
I+1
, ..., r
a
mentre j usando tutta la sequenza r
1
, ..., r
a
. Quindi, pur essendo lecito prendere

1(/) j
2
come stimatore (per / basso e : alto va benissimo), forse preferibile lespressione pi
complicata ma pi simmetrica
C (/) =
1
: /
aI
i=1
(r
i
j
0
) (r
i+I
j
I
)
dove j
0
=
1
: /
aI
i=1
r
i
, j
I
=
1
: /
aI
i=1
r
i+I
.
Se ora si pone
o
2
0
=
1
: /
aI
i=1
(r
i
j
0
)
2
, o
2
I
=
1
: /
aI
i=1
(r
i+I
j
I
)
2
vale la disuguaglianza

C (/)
_ o
0
o
2
I
che alla base della seguente denizione:
j (/) =

C (/)
o
0
o
I
=
aI
i=1
(r
i
j
0
) (r
i+I
j
I
)
_
aI
i=1
(r
i
j
0
)
2
aI
i=1
(r
i+I
j
I
)
2
(3.1)
Questa lpprossimazione pi coerente di j (/). Infatti, oltre ad esserne una buona approssi-
mazione, vale
[j (/)[ _ 1
come per j (/). Se avessimo preso altre espressioni come denizione di j (/), come ad esempio
b
C(I)
b o
2
o addirittura
b
1(I)b j
2
b o
2
, che per certi versi potevano essere pi semplici, avremmo poi
potuto trovare valori di [j (/)[ eccedenti lunit, cosa assurda ma anche assai spiacevole per gli
usi pratici, visto che la propriet [j (/)[ _ 1 proprio la base, adimensionale, universale, che
permette di giudicare la presenza o meno di correlazione. Di fronte ad un valore j (/) = 0.95
non avremmo saputo dire se era alto o meno, visto che il valore massimo non era pi 1 ma
chiss quale, a seconda delle patologie create dalle espressioni usate per j (/).
Osservazione 48 Il comando acf del software R calcola j (/).
Osservazione 49 Il calcolo di j (/) basato sulla formula (3.1) ha senso anche senza staziona-
riet del processo (lo stesso vale per

C (/), ma non per j, o
2
,

1(/)). Si sta calcolando il
coeciente di correlazione tra due sequenze di numeri
r
1
, ..., r
aI
r
I+1
, ..., r
a
cosa che ha senso e pu essere utile qualunque sia la natura di queste sequenze. Se il co-
eciente di correlazione elevato, nel senso che prossimo ad 1, vuol dire che le due
sequenze sono linearmente legate, in modo approssimato. Questo fatto sar noto dalla sta-
tistica elementare, dalla regressione lineare, oppure pu essere visto ad occhio pensando che
lespressione
aI
i=1
(r
i
j
0
) (r
i+I
j
I
)
grande (non si pensi allunit di misura ed allo sparpagliamento dei numeri stessi, eliminato
dalla divisione per o
0
o
I
) se i numeri r
i
e r
i+I
si trovano, al variare di i, concordemente dalla
stessa parte rispetto a j
0
e j
I
, quindi le coppie (r
i
, r
i+I
) stanno approssimativamente su una
retta a coeciente angolare positivo.
Osservazione 50 Intanto, losservazione precedente mostra che se la serie storica ap-
prossimativamente periodica di periodo 1, allora quando si trasla proprio di 1, cio si
considerano le sequenze
r
1
, ..., r
a1
r
1+1
, ..., r
a
esse sono approssimativamente uguali e quindi si trova elevata correlazione. Il numero j (1)
alto, prossimo a 1.
Esempio 81 Vediamo cosa accade se c un trend. Immaginiamo ad esempio che la serie
storica abbia la forma
r
i
= a i +/ +-
i
, i = 1, 2, ..., :
con a 0, dove i numeri -
i
sono piccoli (rispetto ad a, soprattutto). Allora calcoliamo, per
un qualsiasi (basso), la correlazione delle due sequenze
a 1 +/ +-
1
, ..., a (: /) +/ +-
aI
a (/ + 1) +/ +-
I+1
, ..., a : +/ +-
a
.
La seconda sequenza si pu riscrivere
a/ +a 1 +/ +-
I+1
, ..., a/ +a (: /) +/ +-
a
cio data dalla costante a/ pi ua sequenza simile alla prima (visto che i numeri -
i
sono
piccoli). Due sequenze che dieriscono approssimativamente per una costante hanno corre-
lazione elevata. Si pu arrivare a questo risultato osservando anche che la seconda sequenza
approssimativamente la trasformazione lineare della prima:
(a (/ + 1) +/ +-
I+1
)
= (a 1 +/ +-
1
) +a/ + (-
I+1
-
1
)
e cos via per i termini successivi, per cui i punti
(a i +/ +-
i
, a (/ +i) +/ +-
I+i
)
stanno approssimtivamente (cio a meno dei numeri -
I+i
-
i
) sulla retta di equazione
j = r +a/.
In conclusione, i valori di j (/) sono tutti elevati. Abbiamo vericato in un esempio che
lautocorrelazione di una serie con trend positivo ha valori elevati per tutti i / (in pratica i
valori di j (/) decrescono un po, ma lentamente).
Esercizio 26 Cosa accade ad una serie storica con trend negativo?
Esempio 82 Nella sezione degli esercizi considereremo la seguente serie storica di ambito
economico:
La sua autocorrelazione empirica j (t) data da
Vediamo che assume valori elevati uniformemente. La ragione il trend..
3.3 Processi gaussiani
Denizione 39 Un processo (A
a
)
aN
si dice gaussiano se ogni suo vettore marginale (A
t
1
, ..., A
tn
)
congiuntamente gaussiano.
Per un processo (A
a
)
aN
equivalente richiedere che (A
1
, ..., A
a
) sia congiuntamente
gaussiano per ogni :. La struttura pi generale (A
t
1
, ..., A
tn
) sia adatta meglio a insiemi di
indici diversi da N.
La densit di un vettore gaussiano (A
t
1
, ..., A
tn
) individuata dal vettore dei valori medi
e dalla matrice di covarianza:
(1 [A
t
1
] , ..., 1 [A
tn
]) =
_
j
t
1
, ..., j
tn
_
_
Co
_
A
t
.
, A
t
__
i,)=1,...,a
= (C (t
i
, t
)
))
i,)=1,...,a
quindi le funzioni j
t
e C (:, t) determinano le densit di tutte le marginali del processo. Tutte
le probabilit associate al processo sono univocamente determinate da j
t
e C (:, t). Tra le
conseguenze di questo fatto c lequivalenza dei due concetti di stazionariet:
Proposizione 18 Per un processo gaussiano, stazionariet in senso debole e forte coinci-
dono.
Proof. Basta ovviamente vericare che la stazionariet in senso debole implica quella in
senso forte. Supponiamo che il processo sia stazionario in senso debole. Consideriamo il
generico vettore (A
t
1
+c
, ..., A
tn+c
). Dobbiamo vericare che la sua densit non dipende da :.
La sua densit gaussiana. Il vettore delle medie
(1 [A
t
1
+c
] , ..., 1 [A
tn+c
]) = (j, ..., j)
indipendente da : e la matrice di covarianza
_
Co
_
A
t
.
+c
, A
t
+c
__
i,)=1,...,a
= (C (t
i
+:, t
)
+:))
i,)=1,...,a
= (C (t
i
, t
)
))
i,)=1,...,a
3.4. UN TEOREMA ERGODICO 165
in quanto C (n, ) dipende solo da n (quindi C (n, ) = C (n +:, +:)). Anche la matrice
di covarianza non dipende da :, quindi la densit non dipende da :. La dimostrazione
completa.
Molto utile :
Proposizione 19 Sia (A
a
)
aN
un processo gaussiano e sia (1
a
)
aN
un processo tale che
1
a
=
o
)=1
a
a)
A
)
+/
a
cio trasformazione lineare di (A
a
)
aN
. Sui coecienti a
a)
supponiamo che, per ogni :,
siano non nulli solo per un numero nito di indici , (ma il risultato nale resta vero anche
per somme innite, sotto opportune condizioni di sommabilit). Allora anche (1
a
)
aN

gaussiano.
Proof. Fissiamo :. Consideriamo il vettore
1 = (1
1
, ..., 1
a
) .
Esso , per ipotesi trasformazione lineare (o meglio ane) di una stringa nita
A = (A
1
, ..., A
.n
)
cio esiste
a
, una matrice ed un vettore / tale che
1 = A +/.
Il vettore A gaussiano per ipotesi. Quindi anche 1 lo , per una propriet che abbiamo
dimostrato sui vettori gaussiani.
Avendo dimostrato che (1
1
, ..., 1
a
) gaussiano per ogni :, abbiamo che il processo (1
a
)
aN
gaussiano.
Molti modelli trattati in queste note sono trasformazioni lineari del white noise, che
un processo gaussiano, quindi tali modelli deniscono processi gaussiani. Quando essi sono
stazionari in senso lato, lo sono anche in senso stretto.
3.4 Un teorema ergodico
Dal capitolo sulle convergenze di v.a. ed i teoremi limite, ricordiamo che una successione 1
a
converge a 1 in media quadratica se
lim
ao
1
_
[1
a
1 [
2
_
= 0,
in probabilit se per ogni - 0
lim
ao
1 ([1
a
1 [ -) = 0
e tra i due concetti vale il legame:
Lemma 4 La convergenza di in media quadratica implica quella in probabilit.
Proof. Per la disuguaglianza di Chebyshev, abbiamo
1 ([1
a
1 [ -) _
1
_
[1
a
1 [
2
_
-
2
per ogni - 0. Pertanto, se 1
_
[1
a
1 [
2
_
tende a zero, allora anche 1 ([1
a
1 [ -) tende
a zero.
Ai vari teoremi limite premettiamo il seguente:
Lemma 5 Sia (A
a
)
a1
una successione di v.a. con momenti secondi niti ed ugual media
j. Se
lim
ao
1
:
2
a
i,)=1
Co (A
i
, A
)
) = 0 (3.2)
allora
1
a
a
i=1
A
i
converge a j in media quadratica ed in probabilit.
Proof. Vale
1
:
a
i=1
A
i
j =
1
:
a
i=1
(A
i
j)
quindi

1
:
a
i=1
A
i
j
2
=
1
:
2
a
i,)=1
(A
i
j) (A
)
j)
1
_
_
1
:
a
i=1
A
i
j
2
_
_
=
1
:
2
a
i,)=1
1 [(A
i
j) (A
)
j)] =
1
:
2
a
i,)=1
Co (A
i
, A
)
) .
Per ipotesi questultima quantit tende a zero, quindi la convergenza in media quadratica
dimostrata. Da questa poi discende la convergenza in probabilit.
Ci sono varie versioni di teoremi ergodici. La pi semplice la Legge dei Grandi Numeri,
che ricordiamo in una delle sue versioni cosidette deboli, cio relative alla convergenza in
media quadratica ed in probabilit.
Teorema 26 (Legge debole dei Grandi Numeri) Se (A
a
)
a1
una successione di v.a.
scorrelate (Co (A
i
, A
)
) = 0 per i ,= ,), con uguali media j e varianza o
2
nite, allora
1
a
a
i=1
A
i
converge a j in media quadratica
lim
ao
1
_
_
1
:
a
i=1
A
i
j
2
_
_
= 0
ed in probabilit: per ogni - 0
lim
ao
1
_
1
:
a
i=1
A
i
j
-
_
= 0.
Proof. Per la scorrelazione,
Co (A
i
, A
)
) = o
2
c
i)
quindi
1
:
2
a
i,)=1
Co (A
i
, A
)
) =
1
:
2
a
i,)=1
o
2
c
i)
=
o
2
:
0.
Per il Lemma 5, si ottengono i risultati desiderati.
Riunendo le precedenti dimostrazioni abbiamo anche ottenuto due stime quantitative
interessanti di per s:
1
_
_
1
:
a
i=1
A
i
j
2
_
_
=
o
2
:
1
_
1
:
a
i=1
A
i
j
-
_
_
o
2
-
2
:
.
Osservazione 51 Spesso questo teorema si enuncia nel caso particolare di v.a. indipendenti
ed identicamente distribuite, con varianza nita. La dimostrazione per non pi semplice
di quella vista ora.
Osservazione 52 Il teorema pu essere immediatamente generalizzato alle seguenti ipotesi:
(A
a
)
a1
una successione di v.a. scorrelate; i momenti j
a
= 1 [A
a
] and o
2
a
= \ ar [A
a
]
soddisfano
lim
ao
1
:
a
i=1
j
i
= j, o
2
a
_ o
2
for every : N
per qualche costante j e o
2
nite. Sotto queste ipotesi, vale lo stesso teorema, con una
dimostrazione solo di poco pi complicata.
Vediamo ora un vero e proprio teorema ergodico. In linea generale, un tale teorema af-
ferma che, se un processo stazionario e soddisfa una propriet aggiuntiva di ergodicit,
allora le sue medie temporali convergono alla media j. Le diverse versioni di questo teorema
deriscono sia per dettagli sulle convergenze sia per lipotesi di ergodicit: questo non un
concetto univoco, ma ci sono vari gradi di ergodicit. Comuque tutti sono delle generaliz-
zazioni della scorrelazione o indipendenza. Il teorema che segue ha come ipotesi ergodica la
scorrelazione asintotica.
Teorema 27 (teorema ergodico) Supponimo che (A
a
)
a1
sia un processo stocastico stazionario
in senso lato. Se
lim
ao
C (:) = 0 (3.3)
allora
1
a
a
i=1
A
i
converge a j in media quadratica ed in probabilit. Il risultato resta vero
sotto lipotesi pi generale:
lim
ao
1
:
a1
I=0
[C (/)[ = 0. (3.4)
Proof. Passo 1. Prima di tutto accertiamoci che la condizione (3.4) sia davvero pi generale
della (3.3), cio che (3.3) implichi (3.4). Questo forse un fatto noto dai corsi di analisi
(la convergenza (3.4) viene detta convergenza di Cesaro ed pi debole della convergenza
tradizionale, la (3.3)), comunque lo ridimostriamo.
Siccome vale (3.3), per ogni - 0 esiste un :
0
tale che per ogni : _ :
0
vale [C (:)[ _ -.
Quindi, per : _ :
0
,
1
:
a1
I=0
[C (/)[ _
1
:
a
0
1
I=0
[C (/)[ +
1
:
a1
I=a
0
- _
1
:
a
0
1
I=0
[C (/)[ +-.
Il numero

a
0
1
I=0
[C (/)[ indipendente da :, una costante, per cui esiste :
1
_ :
0
tale che
per ogni : _ :
1
1
:
a
0
1
I=0
[C (/)[ _ -.
Quindi, per : _ :
1
,
1
:
a1
I=0
[C (/)[ _ 2-.
Questo signica che lim
ao
1
a
a1
I=0
[C (/)[ = 0.
Passo 2. In base al passo 1, se dimostriamo che la condizione (3.4) implica la condizione
(3.2) del Lemma 5, abbiamo concluso la dimostrazione del teorema. Questa implicazione
vera in quanto

1
:
2
a
i,)=1
Co (A
i
, A
)
)
_
2
:
a1
I=0
[C (/)[ . (3.5)
Mostriamo questa disuguaglianza. Per la disuguaglianza triangolare ed essendo Co (A
i
, A
)
) =
Co (A
)
, A
i
) = C (i ,), abbiamo
i,)=1
Co (A
i
, A
)
)
_
a
i,)=1
[Co (A
i
, A
)
)[
_ 2
a
i=1
i
)=1
[Co (A
i
, A
)
)[
= 2
a
i=1
i
)=1
[C (i ,)[ .
Riscriviamo opportunamente questa doppia somma. Per ogni i = 1, ..., : vale, ponendo
/ = i ,
i
)=1
[C (i ,)[ =
i1
I=0
[C (/)[
quindi
a
i=1
i
)=1
[C (i ,)[ =
a
i=1
i1
I=0
[C (/)[ .
Scriviamo esplicitamente questultima doppia somma:
= [C (0)[ + ([C (0)[ +[C (1)[) + ([C (0)[ +[C (1)[ +[C (2)[) +... + ([C (0)[ +... +[C (: 1)[)
= :[C (0)[ + (: 1) [C (1)[ + (: 2) [C (2)[ +... +[C (: 1)[
=
a1
I=0
(: /) [C (/)[ _
a1
I=0
:[C (/)[ = :
a1
I=0
[C (/)[ .
Sostituendo questa riscrittura della doppia somma

a
i=1
i
)=1
[C (i ,)[ nella disug-
uaglianza precedente si ottiene
i,)=1
Co (A
i
, A
)
)
_ 2:
a1
I=0
[C (/)[
da cui discende la disuguaglianza (3.5), che implica la tesi. La dimostrazione completa.
3.4.1 Tasso di convergenza
Per quanto riguarda il tasso di convergenza, ricordiamo dalla dimostrazione della legge dei
grandi numeri che
1
_
_
1
:
a
i=1
A
i
j
2
_
_
_
o
2
:
.
Sotto opportune ipotesi, possiamo dimostrare lo stesso risultato nel caso del teorema ergodico.
Proposizione 20 Se (A
a
)
a1
un processo stazionario in senso lato tale che
c :=
o
I=0
[C (/)[ <
(questo implica lim
ao
C (:) = 0) allora
1
_
_
1
:
a
i=1
A
i
j
2
_
_
_
2c
:
.
Proof. E suciente mettere insieme alcuni frammenti della dimostrazione precedente:
1
_
_
1
:
a
i=1
A
i
j
2
_
_
=
1
:
2
a
i,)=1
Co (A
i
, A
)
) _
2
:
2
a
i=1
i
)=1
[Co (A
i
, A
)
)[
_
2
:
a1
I=0
[C (/)[ _
2c
:
.
Si noti che le ipotesi di questi due teoremi ergodici sono molto generali e si potrebbe
dimostrare che valgono per tutti gli esempi stazionari studiati in questo corso.
3.4.2 Funzione di autocorrelazione empirica
Spesso abbiamo bisogno della convergenza delle medie temporali di certe funzioni del porces-
so, e non solo del processo stesso:
1
:
a
i=1
q (A
i
) j
j
Dobbiamo allora vericare le ipotesi del teorema ergodico per il nuovo processo stocastico
(q (A
a
))
a1
. Ecco un esempio semplice.
Proposizione 21 Sia (A
a
)
a0
un processo stazionario in senso lato, con momento quarto
nito, tale che il valor medio 1
_
A
2
a
A
2
a+I
sia indipendente da : e
lim
Io
1
_
A
2
0
A
2
I
= 1
_
A
2
0
2
.
In altre parole, assumiamo che
lim
Io
Co
_
A
2
0
, A
2
I
_
= 0.
Allora
1
a
a
i=1
A
2
i
converge a 1
_
A
2
1
in media quadratica ed in probabilit.

Proof. Si consideri il processo 1
a
= A
2
a
. La funzione valor medio di (1
a
) 1
_
A
2
a
che
indipendente da : per la stazionariet di (A
a
). Per la funzione di autocorrelazione abbiamo
poi
C (:, : +/) = 1 [1
a
1
a+I
] 1
_
A
2
a
2
= 1
_
A
2
a
A
2
a+I
1
_
A
2
a
2
e qui abbiamo bisogno delle nuove ipotesi della proposizione. Quindi (1
a
) stazionario in sen-
so lato. Inne, grazie allipotesi lim
Io
1
_
A
2
0
A
2
I
= 1
_
A
2
0
2
, che signica lim
Io
C
Y
(/) =
0 dove C
Y
(/) la funzione di autocorrelazione di (1
a
), possiamo applicare il teorema ergodico.
Ancor pi interessante il seguente risultato, legato alla stima empirica della funzione di
autocorrelazione 1(:). Dato un processo (A
a
)
a1
, chiamiamo funzione di autocorrelazione
empirica lespressione
1
:
a
i=1
A
i
A
i+I
.
Teorema 28 Sia (A
a
)
a0
un processo stazionario in senso lato, con momento quarto nito,
tale che 1 [A
a
A
a+I
A
a+)
A
a+)+I
] sia indipendente da : e
lim
)o
1 [A
0
A
I
A
)
A
)+I
] = 1 [A
0
A
I
]
2
per ogni / = 0, 1, ...
3.5. ANALISI DI FOURIER DEI PROCESSI STOCASTICI 171
In altre parole, assumiamo che
lim
)o
Co (A
0
A
I
, A
)
A
)+I
) = 0.
Allora la funzione di autocorrelazione empirica
1
a
a
i=1
A
i
A
i+I
converge a 1(/) per :
in media quadratica ed in probabilit. Precisamente, per ogni / N, abbiamo
lim
ao
1
_
_
1
:
a
i=1
A
i
A
i+I
1(/)
2
_
_
= 0
ed analogamente per la convergenza in probabilit.
Proof. Dato / N, si consideri il nuovo processo 1
a
= A
a
A
a+I
. La sua funzione valor medio
costante in : per la stazionariet di (A
a
). Per la funzione di autocorrelazione abbiamo
1
Y
(:, : +,) = 1 [1
a
1
a+)
] = 1 [A
a
A
a+I
A
a+)
A
a+)+I
]
che indipendente da : per ipotesi. Inoltre, C
Y
(,) converge a zero. Quindi suciente
applicare il teorema ergodico, osservando che 1 [1
0
] = 1(/). La dimostrazione completa.
Con dimostrazioni simili si possono ottenere vari risultati di questo tipo per altre grandezze
di interesse pratico.
Circa le ipotesi aggiuntive delle proposizioni precedenti ed altre simili, vale:
Proposizione 22 Se il processo (A
a
)
a0
stazionario in senso stretto, allora 1
_
A
2
a
A
2
a+I
e 1 [A
a
A
a+I
A
a+)
A
a+)+I
] sono indipendenti da :.
La dimostrazione ovvia. Questo aggiunge importanza al concetto di stazionariet in
senso stretto ed alla gaussianit dei processi (per i quali le due nozioni di stazionariet sono
equivalenti).
Osservazione 53 Non c modo di vericare le ipotesi di ergodicit (scorrelazione asintotica,
nei nostri enunciati) negli esempi pratici, cio su una serie storica. Ha senso chiedersi se un
processo sia ergodico, non una serie storica. Quindi, quando applichiamo i criteri esposti in
questo paragrafo a serie storiche, facciamo un atto di ducia. Se pensiamo che il processo
in esame perda memoria della sua situazione iniziale allavanzare del tempo, questa ducia
ragionevole.
3.5 Analisi di Fourier dei processi stocastici
3.5.1 Premesse
In questa sezione conviene considerare anche processi stocastici a valori complessi, intendendo
con questo successioni (A
a
)
aZ
di v.a. A
a
: C. Le realizzazioni r
a
= A
a
(.), : Z, .
, verranno anche chiamate serie temporali, nome che daremo anche a generiche successioni
di numeri reali o complessi r = (r
a
)
aZ
. Scriveremo anche r(:) al posto di r
a
quando sar
conveniente. Il tempo sar sempre bilaterale.
Conviene introdurre lo spazio vettoriale |
2
di tutte le serie temporali r = (r
a
)
aZ
tali che
aZ
[r
a
[
2
< .
Il numero
aZ
[r
a
[
2
viene a volte interpretato come una forma di energia. Le serie temporali
che appartengono a |
2
sono dette serie a energia nita.
Un altro spazio importante |
1
delle serie temporali tali che
aZ
[r
a
[ < .
Si noti che questipotesi implica energia nita in quanto
aZ
[r
a
[
2
_ sup
aZ
[r
a
[
aZ
[r
a
[
e sup
aZ
[r
a
[ limitato perch i termini della serie convergente

aZ
[r
a
[ sono innitesimi,
quindi limitati.
Date due serie temporali )(:) e q(:), deniamo la loro convoluzione (una nuova serie
storica /(:))
/(:) = () + q)(:) =

IZ
) (: /) q (/) .
La denzione ha senso quando la serie converge, cosa che accade ad esempio se ) e q hanno
energia nita. Infatti, per la disuguaglianza di Schwartz,
IZ
) (: /) q (/)
IZ
[) (: /)[
2
IZ
[q (/)[
2
=

)Z
[) (,)[
2
IZ
[q (/)[
2
< .
3.5.2 Trasformata di Fourier a tempo discreto
Data una serie storica r = (r
a
)
aZ
|
2
, introduciamo la discrete time Fourier transform
(DTFT), che indicheremo con la notaione r(.) o con T [r] (.), denita da
r(.) = T [r] (.) =
1
_
2
aZ
c
i.a
r
a
, . [0, 2] .
La convergenza della serie verr discussa nel paragrafo successivo. C purtroppo una sovrap-
posizione di simboli. Usualmente nel calcolo delle probabilit . riservato per lelemento
dello spazio , levento casuale elementare. Qui storicamente invece . [0, 2] indica una
frequenza (angolare). Siccome non si scrive praticamente mai esplicitamente il simbolo .
(questa variabile c sempre ma sottaciuta), nel seguito di questa sezione . sar sempre la
frequenza . [0, 2], salvo venga detto il contrario esplicitamente. Anche il simbolo stato
usato in precedenza con altro signicato, quello di stima empirica di un parametro statistico;
di nuovo, in questa sezione, esso indicher la trasformata di Fourier.
La successione r
a
pu essere ricostruita dalla sua DTFT per mezzo della trasformata di
Fourier inversa
r
a
=
1
_
2
_
2
0
c
i.a
r(.) d..
Infatti
1
_
2
_
2
0
c
i.a
r(.) d.=
1
2
_
2
0
c
i.a
IZ
r
I
c
i.I
d.=
1
2
IZ
r
I
_
2
0
c
i.(aI)
d.
=
IZ
r
I
2c(: /)=r
a
Un passaggio richiede un teorema limite opportuno per poter scambiare serie e integrale.
Osservazione 54 Le serie temporali (tempo discreto) possono derivare da operazioni di cam-
pionamento discreto di segnali sici a tempo continuo. Se lincremento temporale tra due
campioni consecutivi 1, allora si usa i.: allesponente delle trasformate. Invece, se lin-
cremento temporale tra due campioni consecutivi t, conviene usare i.:t. La quantit
1
t
chimata frequenza di campionamento.
Osservazione 55 La funzione r(.) si pu considerare denita per ogni . R, ma 2-
periodica (o
2
t
-periodica). . detta frequenza angolare.
Osservazione 56 A volte (in particolare in sica), la DTFT denita senza il segno
allesponente; in tal caso il segno devessere presente nella trasformata inversa..
Osservazione 57 A volte si omette il fattore
1
_
2
nella denizione; noi lo abbiamo incluso
per simmetria con la trasformata inversa o per semplicit della formula di Plancherel (senza
1
_
2
, il fattore
1
2
appare in esse).
Osservazione 58 A volte si usa la seguente variante della DTFT:
r()) =
1
_
2
aZ
c
2i)a
r
a
, ) [0, 1] .
dove ) =
.
2
.
Dovendo comunque fare una scelta tra tutte queste varianti, usiamo l denizione di DTFT
scritta allinizio, mettendo in guardia il lettore che il confronto con altri testi va fatto modulo
determinate modiche.
Introduciamo inne il concetto di troncamento di una serie storica r = (r
a
)
aZ
. Fissata
una nestra di ampiezza 2, contenente i 2+1 punti da a inclusi, usando la funzione
indicatrice
1
[.,.]
(:) =
_
1 se _ : _
0 altrimenti
si introduce il troncamento r
2.
(:) della serie storica r
a
denito da
r
2.
(:) = r
a
1
[.,.]
(:) =
_
r
a
se _ : _
0 altrimenti
e la sua DTFT denita da
r
2.
(.) =
1
_
2
[a[.
c
i.a
r
a
.
Questo concetto non necessita dellipotesi r |
2
fatta allinizio del paragrafo, utilizzata
per denire la DTFT. In altre parole, mentre la denizione della DTFT richiede ipotesi
di sommabilit della serie storica (noi abbiamo usato lipotesi r |
2
), cio un opportuno
decadimento allinnito dei valori r
a
, la denizione di r
2.
(.) non richiede alcuna ipotesi di
questo tipo, applicabile a qualsiasi successione di numeri reali o complessi.
Osservazione 59 Se (A
a
)
aZ
un processo stocastico stazionario (non nullo) e (r
a
)
aZ

una sua tipica realizzazione, r
a
non tende a zero per : . Questo sarebbe incompatibile
con la stazionariet (nella prossima osservazione diamo delle giusticazioni per questaer-
mazione). Quindi non possiamo calcolare r(.) per le realizzazioni dei processi stazionari. Ma
possiamo calcolare r
2.
(.). Su questa operazione si fonda il teorema di Wiener-Khinchine
che vedremo tra poco.
Osservazione 60 Intuitivamente, si capisce che le realizzazioni di un processo stazionario
non nullo non tendono a zero, osservando che le v.a. A
a
hanno tutte la stessa varianza (non
nulla), quindi hanno valori distribuiti in un certo range, e non naturale pensare che al
crescere di : questi valori tendano a zero, per le singole realizzazioni, quando la loro varianza
rimane costante. Rigorosamente, sotto opportune ipotesi di ergodicit, si pu fare il seguente
ragionamento. Sia ` 0 un numero tale che 1 ([A
a
[ _ `) 0. Un tale ` esiste altrimenti
la v.a. A
a
sarebbe identicamente nulla. Consideriamo la funzione indicatrice dellinsieme
A
:= r : [r[ _ `
1
A
(r) =
_
1 se [r[ _ `
0 altrimenti
.
Consideriamo il processo 1
a
= 1
A
(A
a
). La v.a. 1
a
vale 1 se [A
a
[ _ `, zero altrimenti,
quindi 1
a
una Bernoulli di parametro j = 1 ([A
a
[ _ `). Il processo (1
a
)
aZ
somiglia
quindi al processo di Bernoulli salvo per il fatto che le v.a. non sono indipendenti. E per
stazionario, se (A
a
)
aZ
era stazionario in senso stretto (ogni trasformazione di un processo
stazionario in senso stretto stazionario in senso stretto, se la trasformazione ha una certa
propriet di misurabilit; non entramio in questo dettaglio). Se il processo (1
a
)
aZ
anche
ergodico, vale
1
:
(1
1
+... +1
a
) 1 [1
1
] = j
ovvero
1
:
(1
A
(A
1
) +... + 1
A
(A
a
)) 1 [1
1
] = j
Purtroppo noi conosciamo questo risultato solo nel senso della convergenza in media quadrat-
ica o in probabilit, non nel senso della convergenza lungo le tipiche realizzazioni. Se chi-
udiamo un occhio su questo (dicile) dettaglio, e supponiamo che, presa una realizzazione
(r
a
)
aZ
, in base al ragionamento precedente valga
1
:
(1
A
(r
1
) +... + 1
A
(r
a
)) j
vediamo che per inniti indici : deve essere 1
A
(r
a
) = 1 (altrimenti, se esistesse :
0
tale che
per ogni : _ :
0
vale 1
A
(r
a
) = 0, avremmo
1
a
(1
A
(r
1
) +... + 1
A
(r
a
)) 0). Quindi per
inniti indici : deve valere [r
a
[ _ `. Questo impedisce che sia lim
ao
r
a
= 0 e quindi ad
esempio che sia r |
2
.
3.5.3 Propriet della DTFT
1) Se r |
1
, la serie
1
_
2
aZ
c
i.a
r
a
converge assolutamente per ogni . [0, 2]. Infatti
aZ
c
i.a
r
a
_

aZ
[r
a
[ <
(ricordiamo che

c
i.a
= 1). Anzi, converge uniformemente in . e quindi denisce una

funzione continua di .:
aZ
sup
.[0,2]
c
i.a
r
a
=

aZ
sup
.[0,2]
c
i.a
[r
a
[ =

aZ
[r
a
[ < .
Ricordiamo per che |
1
|
2
, quindi questa prima osservzione non garantisce un signicato a
r(.) quando r |
2
.
2) La teoria 1
2
delle serie di Fourier garantisce che, se r |
2
, la serie

aZ
c
i.a
r
a
con-
verge in media quadratica rispetto ad ., cio esiste una funzione r(.) di quadrato integrabile
tale che
lim
.o
_
2
0
[ r
2.
(.) r(.)[
2
d. = 0.
In generale non pi vero che la serie
1
_
2
aZ
c
i.a
r
a
converga per i singoli . ssati.
3) Vale, nella teoria 1
2
, la formula di Plancherel
aZ
[r
a
[
2
=
_
2
0
[ r(.)[
2
d..
Proof.
_
2
0
[ r(.)[
2
d. =
_
2
0
r(.) ( r(.))
+
d.
=
1
2
_
2
0
_
aZ
c
i.a
r
a
__
nZ
c
i.n
r
n
_
+
d.
=
1
2
_
2
0
_
_

a,nZ
r
a
r
+
n
c
i.a
c
i.n
_
_
d.
=
1
2
a,nZ
r
a
r
+
n
_
2
0
c
i.(an)
d.
usando un opportuno teorema di scambio tra serie ed integrali,
=
1
2
a,nZ
r
a
r
+
n
2c(: :) =

aZ
r
a
r
+
a
=

aZ
[r
a
[
2
.
Il signicato della formula di Plancherel che lenergia contenuta in una serie temporale
e lenergia contenuta nella sua DTFT coincdono. Un fattore 2 appare in uno dei due
membri se si usano denizioni diverse di DTFT.
4) Se q(:) a valori reali, allora q (.) = q
+
(.).
Proof.
q (.)=
1
_
2
aZ
q(:)c
i(.)a
=
1
_
2
aZ
q(:)
_
c
i.a
_
+
=
_
1
_
2
aZ
q(:)c
i.a
_
+
=q
+
(.) .
5) La DTFT della convoluzione di due serie temporali corrisponde (a meno di un fattore,
per altre denizioni della DTFT) al prodotto delle DTFT delle due serie di partenza:
T [) + q] (.) =
_
2
) (.) q (.) .
Si noti il fattore
_
2, che non sarebbe stato presente se nella denizione di DTFT avessimo
omesso
1
_
2
.
Proof.
T[) + q] (.) =
1
_
2
aZ
() + q)(:)c
i.a
=
1
_
2
aZ
_
IZ
)(: /)q(/)
_
c
i.a
=
1
_
2
IZ
q(/)c
i.I
aZ
)(: /)c
i.(aI)
=
1
_
2
IZ
q(/)c
i.I

nZ
)(:)c
i.n
_
2
)(.) q(.)
usando un opportuno teorema sullo scambio di serie.
6) Combinando le propriet precedenti, se q a valori reali, abbiamo
T
_
IZ
) (: +/) q (/)
_
(.) = T
_
IZ
) (: /) q (/)
_
(.) =

) (.) q (.) =
_
2
) (.) q
+
(.) .
Questa propriet verr usata nel calcolo della DTFT della funzione di autocorrelazione.
3.5.4 DTFT generalizzata
In casi particolari si pu denire la DTFT anche per serie temporali che non soddisfano la
condizione

aZ
[r
a
[
2
< . Il metodo usare la denizione
r(.) = lim
.o
r
2.
(.)
se tale limite esiste (in qualche senso ragionevole). Se r |
1
il limite esiste uniformemente in
.. Se r |
2
il limite esiste in media quadratica. Ci accontenteremo in questo paragrafo che
esista il limite
lim
.o
_
2
0
r
2.
(.) ) (.) d.
per ogni funzione ) continua. Con questa nozione molto debole di limite ( una versione
abbreviata del concetto di limite nel senso delle distribuzioni), possiamo denire r anche per
certe r , |
2
.
Consideriamo ad esempio la successione
r
a
= a sin(.
1
:) .
Calcoliamo la DFTT della successione troncata:
r
2.
(.) =
1
_
2
[a[.
c
i.a
a sin(.
1
:) .
Ricordando che
sint =
c
it
c
it
2i
quindi che sin(.
1
:) =
c
..
1
n
c
..
1
n
2i
, vale
[a[.
c
i.a
a sin(.
1
:) =
1
2i
[a[.
c
i(..
1
)a
1
2i
[a[.
c
i(.+.
1
)a
.
Vederemo tra un attimo che questa succesione converge, per , nel senso detto sopra.
Siamo costretti, per proseguire, ad usare il concetto di funzione generalizzata, o dis-
tribuzione, che fuori dagi scopi di questo corso, ma che fa parte del bagaglio almeno intutivo
di alcuni percorsi di studio in ingegeria. Utilizzeremo la funzione generalizzata chamata c (t)
delta Dirac (da non confondersi con la semplice delta Dirac c (:) nel discreto, che abbiamo
usato in precedenza). Essa caratterizzata dalla propriet
_
o
o
c (t) ) (t) dt = ) (0) (3.6)
per ogni funzione continua ). Nessuna funzione nel senso usuale del termine ha questa
propriet. Un modo per farsi unidea intuitiva il seguente. Consideriamo una funzione, che
indichiamo con c
a
(t), uguale a zero per t fuori da
_
1
2a
,
1
2a
, intervallo di ampiezza
1
a
intorno
allorigine; ed uguale a : in
_
1
2a
,
1
2a
. Abbiamo
_
o
o
c
a
(t) dt = 1.
Ora,
_
o
o
c
a
(t) ) (t) dt = :
_ 1
2n
1
2n
) (t) dt
che la media integrale di ) attorno a 0. Per : , questa media converge a ) (0) se )
continua. In altre parole, vale
lim
ao
_
o
o
c
a
(t) ) (t) dt = ) (0)
che pu essere presa come una sorta di denizione rigorosa dellidentit (3.6), espressa me-
diante concetti tradizionali. E inoltre analoga al concetto di limite descritto allinizio del
paragrafo. In un certo senso, quindi, la funzione generalizzata c (t) il limite delle funzioni
tradizionali c
a
(t), ma usando un concetto di limite nuovo. Se si usassero le nozioni usuali
di limite vedremmo che c
a
(t) converge a zero per ogni t ,= 0, e a + per t = 0. In questo
senso molto vago, c (t) zero per t ,= 0, + per t = 0; ma questa uninformazione povera,
perch non permette di dedurre lidentit (3.6).
Lemma 6 Vale
lim
.o
1
2
[a[.
c
ita
= c (t)
nel senso che
lim
.o
_
2
0
1
2
[a[.
c
ita
) (t) dt = ) (0)
per ogni funzione continua ).
Da questo lemma discende che
lim
.o
[a[.
c
i.a
a sin(.
1
:) =

i
c (. .
1
)

i
c (. +.
1
) .
In altre parole:
3.6. DENSIT SPETTRALE DI POTENZA 179
Corollario 6 La successione
r
a
= a sin(.
1
:)
ha una DTFT generalizzata, nel senso che esiste il seguente limite
r(.) = lim
.o
r
2.
(.) =
_
_
2i
(c (. .
1
) c (. +.
1
))
secondo il signicato di limite descritto sopra.
Questo solo un esempio specico della possibilit di estendere la DTFT fuori da |
2
.
Questo esempio ha uninteressante interpretazione. Se il segnale r
a
ha una coonente periodica
(si noti che la DTFT lineare, quindi la DTFT della somma di componenti la somma delle
DTFT delle componenti) con frequenza angolare .
1
, allora la sua DTFT due picchi simmetrici
(due componenti delta di Dirac) a .
1
. In altre parole, la DTFT rivela le componenti
periodiche dei segnali tramite picchi.
Esercizio 27 Dimostrare che la successione
r
a
= a cos (.
1
:)
ha DTFT generalizzata
r(.) = lim
.o
r
2.
(.) =
_
_
2
(c (. .
1
) +c (. +.
1
)) .
3.6 Densit spettrale di potenza
Denizione 40 Dato un processo stazionario (A
a
)
aZ
con funzione di autocorrelazione 1(:) =
1 [A
a
A
0
], : Z, chiamiamo densit spettrale di potenza (power spectral density, PSD) la
funzione
o (.) =
1
_
2
aZ
c
i.a
1(:) , . [0, 2]
quando la serie converge.
In alternativa, si pu usare la denizione
o ()) =
1
_
2
aZ
c
2i)a
1(:) , ) [0, 1]
che produce visualizzazioni pi semplici in quanto pi semplice vedere ad occhio le frazioni
dellintervallo [0, 1].
Osservazione 61 Se

aZ
[1(:)[ < , la PSD converge uniformemente, ad una funzione
continua. Se

aZ
[1(:)[
2
< , la PSD converge in media quadratica. Esistono poi dei
casi ulteriori in cui la serie converge in qualche senso generalizzato o grazie a cancelazioni
particolari. Dal punto di vista pratico, pu essere comunque utile considerare una variante a
tempo nito, come

[a[.
c
i.a
1(:).
La funzione o ()) ha alcune propriet non immediatamene visibili dalla denizione. In
particolare essa assume valori reali non negativi. Noi lo vedremo rigorosamente attraverso
il teorema di Wiener-Khinchin, ma bene sapere che c unaltra via per stabilirlo. La
funzione 1(:) denita non-negativa, nel senso che

a
i,)=1
1(t
i
t
)
) a
i
a
)
_ 0 per ogni
t
1
, ..., t
a
e a
1
, ..., a
a
. La verica facile (come per il fatto che la matrice di covarianza di un
vettore aleatorio semi-denita positiva):
a
i,)=1
1(t
i
t
)
) a
i
a
)
=
a
i,)=1
1
_
A
t
.
A
t
a
i
a
)
=
a
i,)=1
1
_
a
i
A
t
.
a
)
A
t
= 1
_
_
a
i,)=1
a
i
A
t
.
a
)
A
t
_
_
= 1
_
_
a
i=1
a
i
A
t
.
a
)=1
a
)
A
t
_
_
= 1
_
_
_
a
i=1
a
i
A
t
.
_
2
_
_
_ 0.
Ora, un teorema sulle trasformate di Fourier dice che la trasformata di una funzione denita
non negativa, una funzione a valori non negativi.
3.6.1 Esempio: il white noise
Per esso abbiamo dimostrato in passato che
1(:) = o
2
c (:)
quindi
o (.) =
o
2
_
2
, . R.
La PSD costante. Da questo deriva il nome white noise (un rumore con tutte le componenti
di Fourier egualmente attive, come lo lo spettro della luce bianca, approssimativamente si
intende).
3.6.2 Esempio: serie periodica perturbata.
Descriviamo questo esempio solo numericamente, ma si riveda il paragrafo sulle trasformate
generalizzate, per un confronto di idee. Tramite il software R produciamo la seguente serie
temporale
t <- 1:100
x<- sin(t/3)+0.3*rnorm(100)
ts.plot(x)
La funzione di autocorrelazione empirica, mostra gi una notevole periodicit, confermata
dalla PSD numerica, opportunamente smussata dallo specico algoritmo usato da R:
par(mfrow=c(1,2)); acf(x), spectrum(y,span=c(2,3))
3.6.3 Noise di tipo pink, brown, blue, violet
In certe applicazioni si incontrano PSD di tipo speciale a cui sono stati dati nomi analoghi a
white noise. Usiamo la dizione inglese anche per essi. Si rammenti che il white noise ha PSD
costante. Il pink noise ha PSD
o ()) ~
1
)
.
Il brown noise:
o ()) ~
1
)
2
.
Il blue noise:
o ()) ~ ) 1
ed il violet noise
o ()) ~ )
2
1
dove tale che 0 < < 1, e come sempre

1
()) =
_
1 se 0 _ ) _
0 altrimenti
.
3.6.4 Il teorema di Wiener-Khinchin
Il seguente teorema spesso enunciato senza ipotesi precise. Una delle ragioni che si
pu dimostrare a diversi livelli di generalit, con diversi signicati delloperazione di limite
(si tratta di un limite di fuzioni). Daremo ora un enunciato rigoroso sotto ipotesi molto
precise sulla fuzione di autocorrelazione 1(:), dimostrando una convergenza piuttosto forte.
Lipotesi (un po strana, ma soddisfatta in tutti i nostri esempi) :
aN
1(:)
j
< per qualche j (0, 1) . (3.7)
Osservazione 62 Lipotesi precedente implica
aN
[1(:)[ <
in quanto
aN
[1(:)[ =

aN
[1(:)[
j
[1(:)[
1j
_ sup
aN
[1(:)[
1j
aN
[1(:)[
j
<
(la successione limitata essendo innitesima, come conseguenza del fatto che
aN
[1(:)[
j
<
). Quindi, sotto tale ipotesi, sappiamo che
1
_
2
aZ
c
i.a
1(:) converge uniformemente
a o (.) per . [0, 2].
Teorema 29 (Wiener-Khinchin) Se (A (:))
aZ
un processo stazionario in senso lato
che soddisfa lipotesi (3.7), allora
o (.) = lim
.o
1
2 + 1
1
_
A
2.
(.)
2
_
.
Il limite uniforme in . [0, 2]. Qui A
2.
il processo troncato A 1
[.,.]
. In particolare,
se ne deduce che o (.) reale non-negativa.
Proof. Diamo prima lidea euristica su cui basata la dimostrazione. I dettagli verranno
sviluppati nel seguito.
Per denizione di 1(t) e per stazionariet del processo, 1(t) = 1 [A (t +:) A (:)] per
ogni :, quindi se sommiamo questa uguaglianza 2 + 1 volte, per [:[ _ , troviamo
1(t) =
1
2 + 1
[a[.
1 [A (t +:) A (:)]
per ogni valore di t Z. Quindi anche
1(t) =
1
2 + 1
1
_
_

[a[.
A (t +:) A (:)
_
_
.
Eseguiamo ora la trasformata rispetto a t di ambo i membri: siccome o (.) =

1(.), usando
poi la linearit della trasformata, troviamo
o (.)=
1
2 + 1
1
_
_
T
_
_

[a[.
A (t +:) A (:)
_
_
(.)
_
_
. (3.8)
Abbiamo cambiato valore atteso e trasformata, cosa che si pu mostrare essere lecita. Fino
a qui (accettando questo scambio, che basato su teoremi esterni al corso) tutto rigoroso.
Lespressione
[a[.
A (t +:) A (:) simila alla convoluzione. Se fosse
aZ
A (t +:) A (:)
sarebbe esattamente (A + A) (t). Ma attenzione a non pensare che sia approssimativa-
mente corretto sostituire

[a[.
A (t +:) A (:) con

aZ
A (t +:) A (:). Se lo facessimo,
avremmo che il secondo membro della (3.8) sarebbe
1
2 + 1
1 [T (A + A) (.)] =
1
2 + 1
1
_
A (.)
2
_
che assurda, in quanto valendo per ogni implicherebbe al limite o (.) = 0. Lerrore in
questapprossimzione sta nel fatto che (A + A) (t) non ha senso tradizionale, essendo con-
voluzione di serie storiche (realizzazioni del processo A) che non stanno in |
2
(perch si tratta
di un processo stazionario, si vedano i commenti fatti in precedenza).
Pi ragionevole approssimare

[a[.
A (t +:) A (:) con
aZ
A
2.
(t +:) A
2.
(:) = (A
2.
+ A
2.
) (t) .
Con tale approssimazione troviamo a secondo membro della (3.8) sarebbe
1
2 + 1
1 [T (A
2.
+ A
2.
) (.)] =
1
2 + 1
1
_
A
2.
(.)
2
_
.
Questo il risultato voluto, tenendo presente che, siccome abbiamo svolto unapprossimazione
nel sostituire

[a[.
A (t +:) A (:) con (A
2.
+ A
2.
) (t), invece di unidentit esatta trovi-
amo unidentit valida solo al limite, appunto come formulata nellenunciato del teorema.
Questa lidea; ora si tratta di renderla rigorosa esaminando il resto nellapprossimazione
precedente.
Passo 1. Ripartiamo quindi dallidentit (3.8). Introduciamo il resto j
.,t
denito da
[a[.
A (t +:) A (:) =

aZ
A
2.
(t +:) A
2.
(:) +j
.,t
ed otteniamo per linearit
o (.)=
1
2 + 1
1 [T (A
2.
+ A
2.
) (.)] +r
.
(.)
=
1
2 + 1
1
_
A
2.
(.)
2
_
+r
.
(.)
dove
r
.
(.) =
1
2 + 1
1
_
T
_
j
.,t
_
(.)
.
Il teorema sar dimostrato se mostriamo che r
.
(.) converge a zero uniformemente in .
[0, 2]. A questo scopo dobbiamo esplicitare j
.,t
e quindi r
.
(.).
Passo 2. Vale
j
.,t
=

[a[.
A (t +:) A (:)
aZ
A
2.
(t +:) A
2.
(:)
=

a(.,t)
A (t +:) A (:)
dove ora tenteremo di descrivere linsieme di indici (, t).
Per 0 _ t _ 2 vale
aZ
A
2.
(t +:) A
2.
(:) =
.t
a=.
A (t +:) A (:) .
Per 2 _ t < 0 vale
aZ
A
2.
(t +:) A
2.
(:) =
.
a=.t
A (t +:) A (:) .
Inne, per t 2 o t < 2, vale A
2.
(t +:) A
2.
(:) = 0 per ogni :. In generale,
aZ
A
2.
(t +:) A
2.
(:) =

a[.
I
,.
+
I
]
A (t +:) A (:) .
dove
[
t
,
+
t
] =
_
_
O se t < 2
[ t, ] se 2 _ t < 0
[, t] se 0 _ t _ 2
O se t 2
Quindi
j
.,t
=

[a[.
A (t +:) A (:)

a[.
I
,.
+
I
]
A (t +:) A (:)
=

a(.,t)
A (t +:) A (:)
dove
(, t) = [, ] [
t
,
+
t
]
o esplicitamente
(, t) =
_
_
[, ] se t < 2
[, t 1] se 2 _ t < 0
O se t = 0
[ t + 1, ] se 0 < t _ 2
[, ] se t 2
Passo 3. Resta ora da dimostrare che
r
.
(.) =
1
2 + 1
1
_
T
_
j
.,t
_
(.)
=
1
2 + 1
1
_
_
T
_
_

a(.,t)
A (t +:) A (:)
_
_
(.)
_
_
= T
_
_
1
2 + 1
a(.,t)
1 [A (t +:) A (:)]
_
_
(.)
converge a zero uniformemente in . [0, 2] (come sopra, aermiamo senza dimostrazione
che lecito scambiare valore atteso e trasformata).
Lipotesi

aN
1(:)
j
< permette di dire che esiste una successione -
a
0, con
-
a
0, tale che
aN
1(:)
-
a
< .
Ad esempio basta prendere -
a
= 1(:)
1j
se 1(:) 0, -
a
= 1,: se 1(:) = 0. Useremo
lesistenza di -
a
tra un momento.
Scriviamo
a(.,t)
1 [A (t +:) A (:)] =

a(.,t)
1(t) = -
[t[
1(t)
-
[t[
[(, t)[
dove [(, t)[ la cardinalit di (, t). Se (2 + 1) .[t[ indica il pi piccolo tra (2 + 1)
e [t[, vale
[(, t)[ = (2 + 1) . [t[
quindi
1
2 + 1
a(.,t)
1 [A (t +:) A (:)]
=
[1(t)[
-
[t[
((2 + 1) . [t[) -
[t[
2 + 1
.
Dato c 0, sia t
0
tale che -
[t[
_ c per ogni t _ t
0
. Prendiamo
0
_ t
0
tale che
t
0
2.+1
_ c per
ogni _
0
. Non restrittivo assumere -
[t[
_ 1 per ogni t. Allora, per _
0
, se t _ t
0
vale
((2 + 1) . [t[) -
[t[
2 + 1
_
t
0
-
[t[
2 + 1
_
t
0
2 + 1
_ c
e se t _ t
0
vale
((2 + 1) . [t[) -
[t[
2 + 1
_
((2 + 1) . [t[)
2 + 1
c _ c.
Abbiamo dimostrato la seguente aermazione: per ogni c 0 esiste
0
tale che
((2 + 1) . [t[) -
[t[
2 + 1
_ c
per ogni _
0
, uniformemente in t. Quindi anche
1
2 + 1
a(.,t)
1 [A (t +:) A (:)]
_
[1(t)[
-
[t[
c
per ogni _
0
, uniformemente in t. Quindi
[r
.
(.)[ =
1
2 + 1
1
_
2
tZ
c
i.t
_
_

a(.,t)
1 [A (t +:) A (:)]
_
_
_
1
2 + 1
1
_
2
tZ
a(.,t)
1 [A (t +:) A (:)]
_
1
_
2
tZ
[1(t)[
-
[t[
c =
C
_
2
c
dove C =

tZ
[1(t)[
.
jIj
< . Questa la denizione di lim
.o
r
.
(.) = 0 uniformemente in
. [0, 2]. La dimostrazione completa.
Questo teorema fornisce uninterpretazione della PSD. La trasformata di Fourier

A
T
(.)
identica la struttura frequenziale del segnale. Il quadrato

A
T
(.)
2
elimina linformazione
riguardante la fase e mantiene quella riguardante lampiezza, ma nel senso dellenergia (il
quadrato). E il cosidetto spettro dellenergia. Cos, in base al teorema, la PSD relativa al
valore . lampiezza quadratica media della componente a frequenza ) =
.
2
.
Per questo la PSD un buon strumento per identicare componenti oscillatorie in una
serie temporale ed osservare la loro ampiezza. Dalla PSD, si pu avere una prima impressione
nelle fasi preliminari dellanalisi di una serie storica.
Osservazione 63 Sotto ipotesi pi forti che includono anche lergodicit, si pu dimostrare
che
o (.) = lim
.o
1
2 + 1
A
2.
(.)
2
senza valore atteso, ad esempio in probabilit. Si noti che
1
2.+1
A
2.
(.)
2
una quantit
aletoria mentre il suo limite deterministico.
Capitolo 4
Analisi e Previsione di Serie
Storiche
4.1 Introduzione
La teoria dei processi stocastici, tramite concetti quali autocorrelazione, stazionariet, gaus-
sianit, e cos via, fornisce schemi e idee con cui guardare agli esempi in modo matematico.
In questo capitolo tenteremo di applicare queste idee ad esempi concreti. Prenderemo in
esame esempi reali di serie storiche, di ambito economico/sociale/industriale (generalmente
reperibili su siti quali Istat ed Eurostat), ponendoci il problema di capirne le caratteristiche
e prevederne i valori futuri. In parte le nostre analisi poggeranno sui fondamenti di teoria
dei processi stocastici, ma senza dubbio dovremo assumere un atteggiamento pragmatico ed
accettare lintroduzione di idee intuitive, di metodi a volte basati forse pi sul buon senso
che sulla teoria. In sintesi:
la previsione di serie storiche unarte in cui si devono usare tutte le idee utili senza
preconcetti.
In questo primo paragrafo cerchiamo di enucleare alcune idee generali, prima di adden-
trarci nei metodi pi elaborati e specici che ci ore la teoria delle serie storiche. Per inciso,
visto che nel capitolo teorico sui processi stocastici il termine serie storica ha avuto vari
signicati, specichiamo che qui, con questo termine, si intende una sequenza nita
r
1
, ..., r
a
di numeri; di solito saranno numeri ottenuti tramite osservazioni di un fenomeno reale, valori
relativi ad una singola grandezza (sica, economica ecc.), quindi si immagina che siano col-
legati tra loro, abbiano una qualche logica oltre ad elementi di casualit. Essi rappresentano
il passato (o se vogliamo, lultimo r
a
pu essere il presente) ed il nostro scopo principale
quello di prevedere i valori futuri di questa grandezza, cio capire come prosegue nel futuro
questa serie storica. Nei problemi reali, spesso si hanno a disposizione pi serie storiche,
relative a grandezze collegate, ed altre informazioni quantitative e numeriche su fenomeni
e grandezze collegate; saper usare questa ricchezza sarebbe fondamentale per arricchire la
189
190 CAPITOLO 4. ANALISI E PREVISIONE DI SERIE STORICHE
previsione. Faremo dei cenni a questa possibilit che per dicile da implementare. In
linea di massima lo scopo che ci poniamo primariamente quello di:
prevedere i valori futuri della serie storica r
1
, ..., r
a
basandoci su tali valori passati
e non su una pi ampia mole di informazioni. E una visione chiaramente restrittiva ma
accessibile. Devieremo da questa visione restrittiva solo nella Sezione 4.4.
Una prima osservazione, sul problema di previsione appena enunciato, osservazione che
purtroppo pone unenorme restrizione, la seguente:
un metodo puramente matematico non pu basare le previsioni che sulla ripetizione di
ci che avvenuto in passato, cio sullanalisi del passato e la sua riproduzione nel
futuro.
Un mago pu azzardare previsioni innovative e inattese, ma non un algoritmo matematico,
salvo introdurre in esso degli elementi di aleatoriet che aggiungano variazioni casuali alla
previsione, ma cos facendo ci staremmo adando al caso, non alle opportunit che ore
la matematica. Un algoritmo matematico pu solo analizzare i dati passati e riprodurli nel
futuro. Entrambe queste fasi per, analisi e riproduzione, possono essere fatte in vario modo
e qui entra larte dellanalista che conoscendo i vari metodi, giudica quale pu essere pi
conveniente, prova, analizza per quanto pu i risultati dei vari metodi ecc. (il futuro ignoto,
quindi come possiamo giudicare se un metodo sta facendo una buona previsione? vedremo
dei surrogati della possibilit di giudicare le previsioni di un metodo).
Solo per dare lidea dei gradi di libert nelle mani dellanalista, citiamo il seguente punto
fondamentale:
conviene usare tutta la serie storica r
1
, ..., r
a
oppure solo una sua parte pi recente?
Se si osservano i valori mensili di certe grandezze economiche relative a periodi di tempo
molto lunghi, es. dal 1980 ad oggi, si vede chiaramente che sono accadute varie fasi molto
diverse tra loro. Allora, per prevedere il prossimo mese, sensato utilizzare anche i dati di
venti anni fa? Pu essere facile (anche se non necessariamente giusto) rispondere di no, che
non sensato; ma allora, dove si taglia? Quale sotto-stringa
r
I
, ..., r
a
si prende? C completa arbitrariet, a scelta dellanalista. Devessere chiaro che la matem-
atica non centra in queste scelte. Non si deve attribuire alla matematica un valore che non
ha. La matematica orir degli algoritmi; a quale serie applicarli lo dobbiamo decidere noi
(cos come dovremo fare altre scelte, tra i numerosi algoritmi ad esempio). Naturalmente
la matematica potrebbe venire in aiuto, nel fare queste scelte, se abbiamo la pazienza di
arontare nel dettaglio ogni segmento di questa attivit previsiva, ma questo dispendioso
in termini di tempo e fatica concettuale. Ad esempio, per decidere quale sotto-sequenza
r
I
, ..., r
a
usare, una scelta ad occhio e col buon senso magari la scelta migliore e richiede
pochi secondi, ma volendo si potrebbero fare delle analisi matematiche su tutte le possibili
serie r
I
, ..., r
a
, al variare di /, per capire quali sono pi omogenee, quindi pi rappresentative
4.1. INTRODUZIONE 191
di una fase attuale univoca del processo sico, economico ecc. in questione. Non c per una
bacchetta magica matematica per giudicare lomogeneit di una serie; ci possono essere varie
idee buone e parziali; per cui alla ne, visto il tempo che costano e la parzialit dei risultati,
magari si decide di fare il taglio della serie ad occhio.
Va sempre tenuto presente che
il processore pi potente resta la nostra mente.
In altre parole, i migliori previsori siamo noi, non i metodi matematici. Questa frase per
vera solo in parte o sotto opportune condizioni. Ad esempio, non detto che noi, come
strumento di previsione, siamo abbastanza istruiti, abbastanza allenati. Potrebbero sfuggirci,
ad esemio nella fase di analisi dei dati passati, degli aspetti che non sfuggono ad un metodo
matematico. Questo non signica che esso sia superiore, solo che noi non ci siamo allenati
abbastanza, non abbiamo ragionato su un numero suciente di esempi, comparando varie
situazioni. Un enorme vantaggio che abbiamo sui metodi matematici la capacit innata di
mettere in gioco tantissime variabili contemporaneamente. Prima si diceva che studieremo
la previsione di una serie basata solo sui valori di quella serie. Se ci adiamo al nostro
intuito invece che alla matematica e conosciamo il problema concreto da cui stata estratta
quella serie, non possiamo fare a meno di utilizzare un sacco di altre informazioni, per fare la
previsione, oltre a quelle che provengono dai dati passati della serie stessa. Questa potenza
per pone anche dei limiti: da un lato potrebbe portarci a dare previsioni meno obiettive;
dallaltro potrebbe deviare la nostra attenzione da unattenta analisi dei dati passati della
serie, troppo conndenti nelluso intuitivo di varie informazioni esogene. Torniamo al punto,
quindi, che potremmo non esserci allenati abbastanza, potremmo fare peggio di un algoritmo
matematico non perch non abbiamo la capacit di fare altrettanto bene ma perch siamo
distratti da troppe informazioni, non sappiamo di dover guardare ad alcune di esse ecc. In
conclusione:
fermo restando che il nostro metro di giudizio pu essere il migliore, completiamo la
nostra capacit previsiva tramite le informazioni oerete da metodi matematici.
Va aggiunto che, se proviamo in pratica a fare previsioni ad occhio, ci scontriamo con
un banale problema un po psicologico: magari abbiamo chiarissimo in che direzione deve
andare la previsione, nella sostanza, ma stabilire il valore esatto del numero r
a+1
ci mette
in imbarazzo. Intuiamo con chirezza, magari, che esso sar un po maggiore di r
a
(per fare
un esempio), ma ci blocchiamo di fronte al problema di dichiarare il suo valore numerico.
Siamo degli ottimi previsori vaghi. Abbiamo capacit impareggibili di previsione vaga, dei
pi svariati fenomeni, ma se dovessimo tradurle in singoli numeri precisi ci bloccheremmo,
cominceremmo a dire che per non siamo sicuri, che anche un po di pi o un po di meno
va bene lo stesso. Facciamo continuamente previsioni vaghe, senza accorgercene; si pensi a
quando attraversiamo una strada; ma se dovessimo quanticare velocit o distanza dei veicoli,
saremmo in grande dicolt. Allora, nella sua crudezza, lalgoritmo matematico ci toglie da
questo impaccio psicologico. Devessere chiaro che il valore preciso oerto dallalgoritmo non
ha nessuna propriet di assolutezza, non c nessun motivo per credere che sia pi giusto di
uno molto vicino a lui, solo che lalgoritmo lo pronucia e noi non riusciremmo a farlo.
Se, giustamente, questi ultimi commenti possono lasciare insoddisfatti perch sforano
nello psicologico, oppure perch sollevano (correttamente) il dubbio che il risultato numerico
di un algoritmo matematico di previsione non vada preso alla lettera, li si prenda allora come
il punto di partenza di un approfondimento della teoria a cui accenneremo:
quando si fa una previsione, andrebbe dichiarato un intervallo di condenza;
ed anche senza far riferimento a questo concetto prettamente statistico,
andrebbe dichiarato un ventaglio di valori possibili, non un singolo valore, magari
corredando di informazioni circa la zona pi probabile del ventaglio.
E un discorso non banale da quanticare, ma corrisponde proprio al fatto che con la
nostra intuizione facciamo previsioni a ventaglio, non puntuali, di solito, corredate da di-
verse plausibilit dei valori del ventaglio; tutto per a livello intuitivo, informale, lievemente
impreciso. Gli algoritmi matematici possono permetterci di quanticare queste opinioni.
Riprendiamo il discorso fatto sopra circa le due fasi di analisi e riproduzione, che i diversi
algoritmi eseguono in modo diverso. Che signica analizzare una serie data? Innanzi tutto,
vale sempre la pena di iniziare con unanalisi non strettamente matematica, ma fatta col buon
senso, fatta quindi dallanalista, ad occhio. Lanalista deve
ragurare la serie storica
nel modo pi chiaro possibile e soermarsi a
guardarla, valore per valore, a gruppi di valori, cercando somiglianze, ripetizioni, anom-
alie, riconoscendo anche signicati se possibile.
Ad esempio, se si tratta dei valori mensili delle vendite di un prodotto, e si vede che a
luglio c un picco (un valore pi alto del solito), tutti gli anni, questa uninformazione da
registrare, da tener presente nel seguito, forse interpretabile in modo ovvio se conosciamo la
natura del prodotto in questione. Molto importante, ad esempio, pu essere accorgersi che
certi picchi, pur ripetendosi di anno in anno, per cambiano lievemente di mese (un anno a
luglio, laltro a giugno). Si deve ammettere che tra le ingenuit maggiori che si riscontrano
in chi esegue analisi matematiche di serie storiche c quella di non essersi soermato a
sucienza a guardare col buon senso la serie, cercando di cogliere il maggior numero di
infomazioni possibili.
Certamente per bisogna anche essere istruiti circa quali informazioni bene cercare.
Qui si apre il discorso su cosa sia la fase di analisi di una serie storica. Lanalisi intuitiva
ad occhio, a cui abbiamo appena accennato pu voler dire molte cose, come abbiamo detto,
tutte forse molto importanti. Lanalisi pi propriamente matematica, invece, ha alcune linee
guida di carattere generale. La prima, indubbiamente,
capire se c un trend, e cercare di isolarlo, quanticarlo.
Il trend ci che non hanno le realizzazioni dei processi stazionari. E un concetto un po
vago da denire ma molto intuitivo. Se una serie, pur uttuando, ha una tendenza (=trend) a
crescere, o a decrescere, si dice che ha un trend, appunto. Magari il trend cambia nel tempo:
per un po c una tendenza a crescere, poi diventa a decrescere. Qui si annida la vaghezza del
concetto: quanto lungo devessere il periodo di tendenza alla crescita, per parlare di trend?
Cinque valori consecutivi in crescita sono un trend o solo una uttuazione? Ovviamente un
processo stazionario pu avere, in una sua realizzazione, cinque valori in crescita. Anche
dieci, ma la cosa diventa sempre pi improbabile. Isomma, col buon senso, di fronte ad una
serie specica, cercheremo di capire se certe manifestazioni di crescita o decrescita di sotto-
sequenze di valori vanno interpretate come trend oppure come uttuazioni. Regole vincolanti
non ce ne possono essere (verrebbero contraddette da certe realizzazioni di certi processi
stazionari, pur poco probabili). Ovviamente, in vari casi di serie concrete del mondo reale,
tutta la serie ha un trend evidente, quindi poco fa stavamo discutendo delle situazioni pi
intricate. Molto spesso, cio, il trend chiarissimo.
Il trend uninformazione spesso importante di per s, la prima informazione da evi-
denziare e comunicare ai nostri interlocutori, se stiamo analizzando una serie storica per
qualcuno. Ogni giorno, se apriamo i giornali, ci viene parlato del trend di certe grandezze
economiche o nanziarie. E linformazione per eccellenza.
Oltre che informazione di analisi della serie, essa forndamentale per fare previsioni. O
meglio, questo il primo esempio concettuale in cui vediamo che per fare previsioni serve
aver fatto analisi. Se conosciamo il trend e sappiamo estrapolarlo,
lestrapolazione del trend costituisce gi una prima previsione.
Per estrapolazione si intende un qualsiasi procedmento che prolunga una curva, nota su
un intervallo [0, T], oltre il valore T. Se la curva, su [0, T], un segmento di retta, ovviamente
come estrapolazione si prender il proseguimento della retta. Lo stesso di fa se la curva un
polinomio, almeno se di grado basso, come una parabola. Meno univoco come estrapolare
una curva pi complessa o solamente un numero nito di punti, che non cadano in modo
banale su una retta o un parabola. Comunque ci sono vari metodi, e ne studieremo alcuni.
Anche la fase di analisi del trend sar fortemente automatizzata: oltre a riconoscerne
lesistenza ad occhio, avremo vari strumenti che lo mettono in evidenza e sopratutto lo quan-
ticano, cio forniscono a partire da r
1
, ..., r
a
una nuova sequenza r
1
, ..., r
a
che sia il trend
della precedente. Essa non univoca, ogni algoritmo trova la sua univocamente secondo una
certa logica, ma ci sono varie logiche, vari algoritmi. Come sempre, quindi, si tratta di ausilii
allanalisi, non di verit assolute. Allanalista sempre rimandato il compito di giudicare e
scegliere.
A parte il trend, la cosa poi pi importante da cercare in una serie storica sono
le ripetizioni, le periodicit, la stagionalit, le ricorrenze cicliche, le somiglianze di un
periodo con un altro.
Di nuovo, alcune di queste si vedono ad occhio, altre possono essere evidenziate da algorit-
mi. Come per il trend, esse vanno identicate, quanticate e poi riprodotte nel futuro. Mentre
per il trend si tratta di estrapolare una tendenza, qui si tratta di ripetere un comportamento,
di copiarlo dal passato al futuro.
Queste sono alcune delle linee guida. Che fare ora, di fronte ad una serie storica: vi-
sualizzarla, meditarla, eventualmente tagliarla, identicare e quanticare trend e ripetizioni,
estrapolare il trend e ricopiare le ripetizioni? Questa una strada, tuttaltro che trascur-
abile. Per ce ne sono altre, che in sostanza sono lautomatizzazione di tutto questo in un
singolo algoritmo (esclusa la fase di visualizzazione e meditazione ad occhio). Due grandi
classi di algoritmi si propongono questo scopo: i modelli ARIMA e i metodi riassunti sotto
il nome Holt-Winters. I modelli regressivi sono poi una variante degli ARIMA che permette
di inglobare fattori esogeni. Questi algoritmi sono basati sullidea di modello:
si cerca un modello ricorsivo aderente ai dati, che ne cattura la struttura, e lo si usa
per la previsione.
I modelli ricorsivi hanno caratteristiche speciche adatte a catturare trend e ripetizioni
(periodicit, stagionalit), ma, ameno nel caso degli ARIMA, ache altri aspetti strutturali
magari meno evidenti (forse per anche meno comuni nella realt).
Volendo poi ci sono altri metodi oltre ad ARIMA ecc., come quelli markoviani (che tratter-
emo in un capitolo successivo), quelli legati alle reti neurali ed altri ancora. Non li tratteremo
qui. Iniziamo quindi questo capitolo studiando un po di teoria degli ARIMA, di Holt-Winters
dei metodi regressivi. Nello studio della teoria si vedr che essa ispirata alle idee esposte in
questa introduzione. Poi nella sezione di esercizi sulle serie storiche metteremo in pratica sia
la versione diretta della ricerca di trend e ripetizioni e loro uso per la predizione, sia i metodi
automatici che limplementano tramite equazioni ricorsive.
4.1.1 Metodi elementari
Concludiamo questa sezione introduttiva menzionando alcuni metodi davvero elementari per
la previsione, sottolineando anche i loro limiti.
Un metodo consiste semplicemente nel ripetere lultimo valore. Se la serie nota r
1
, ..., r
a
,
si prevede il prossimo valore ponendo (chiamiamo j
a+1
la previsione)
j
a+1
= r
a
. (4.1)
Un passo pi elaborato il metodo detto di media mobile: a due passi
j
a+1
=
r
a
+r
a1
2
e si generalizza in modo ovvio a pi passi (
an+a
n1
+a
n2
3
ecc.). Al limite ha anche senso la
media complessiva:
j
a+1
=
r
a
+r
a1
+... +r
1
:
(4.2)
Su questa si potrebbe fare un ragionamento a parte. Quando si hanno dei dati storici di una
grandezza come il volume mensile di vendite di un prodotto, rappresentati dalla serie storica
r
1
, ..., r
a
, si pu ignorare la struttura temporale e considerare r
1
, ..., r
a
come un campione
sperimentale estratto dalla v.a. A = volume mensile di vendite di quel prodotto. In senso
stretto un campione dovrebbe avere propriet di indipendenza delle componenti, in genere
violate per serie temporali, ma in mancanza di meglio accettiamo questa imprecisione e pen-
siamo a r
1
, ..., r
a
come ad un campione sperimentale. Che possiamo prevedere allora per il
prossimo valore j
a+1
? La media del campione la previsione pi immediata. Ogni previsione
che si discosti dalla media, ad esempio j+2o, non si capisce perch dovrebbe essere migliore.
Casomai, si pu discutere se invece della media non sia meglio la mediana. Oppure si pu
prendere la media teorica di una densit modellata sui dati, anche se nella maggior parte dei
asi questo equivale a prendere la media aritmetica. Varianti a parte, usare la media aritmet-
ica per prevedere j
a+1
corrisponde al considerare r
1
, ..., r
a
come un campione sperimentale
piuttosto che una serie storica, ignrando la struttura temporale dei dati. In situazioni ve-
ramente molto aleatorie e poco strutturate (cio senza trend e periodicit evidenti), questa
strategia quasi lunica che ha senso (anche se ad esempio gli AR ce la mettono tutta per
scoprire strutture nascoste). Aggiungiamo che, se si adotta questa strategia, cio quella del
calcolo della media dei dati, pi che mai doveroso corredare la previsione di un intervallo
di condenza.
Questi metodi sono tutti sottocasi degli AR che studieremo nella prossima sezione. Quan-
do chiediamo al software di calcolare i coecienti di un modello AR, i valori dei coecienti
presenti negli esempi appena descritti sono contemplati, quindi se non vengono scelti vuol
dire che ci sono valori migliori dei coecienti. Ad esempio, il software decide che invece di
j
a+1
=
an+a
n1
2
meglio usare j
a+1
= 0.7r
a
+0.3r
a1
, perch pi aderente ai dati. Quindi,
in linea teorica, usando gli AR si comprende anche luso di questi modelli elementari.
Tuttavia, va tenuto presente che il metodo della media mobile di fatto un modello ben
preciso. Sceglierlo signica credere che la cosa migliore per riassumere i dati passati sia fare
la media aritmetica. Nelle serie nanziarie questo ci che spesso si pensa. La ragione la
loro enorme casualit, tale che ad ogni istante in un certo senso la serie si scorda del passato
(non proprio cos) e pu crescere o decrescere allo stesso modo. Allora, predire ad esempio
il valore attuale (4.1) ha una sua logica, che pu essere pi veritiera della apparente struttura
identicata dai modelli AR (struttura identicata cercando di ttare i dati meglio possibile,
ma pu accadere che la struttura riscontrata in quei dati sia nta, casuale essa stessa).
La scelta della media complessiva (4.2) ha una sua logica. Se si immagina che i dati
non abbiano alcuna struttura temporale, siano cio puri campioni casuali di una grandezza
(come le misurazioni sperimentali di certe caratteristiche degli oggetti di un lotto), allora
inutile o addirittura fuorviante cercare forzatamente una struttura con un metodo come AR
o Holt-Winters. Megli considerare i numeri della serie come un campione sperimentale di una
singola grandezza aleatoria A e stimare dai dati la sua densit di probabilit o almeno le sue
princpali grandezze medie (media e deviazione standard in primis) In una tale situazione, la
miglior previsione del valore successivo, j
a+1
, la media di A, che abbiamo stimato con la
media aritmetica (4.2). Anche la mediana pu avere una sua logica.
Inne, se (come detto in precedenza) s ritiene che non tutta la serie storica sia rappresen-
tativa della situazione presente ma solo na nestra recente di valori r
I
, ..., r
a
, e come poco
fa si ritiene che la struttura temporale non sia interessante ma solo la distribuzione statistica
dei valori, allora si cercher di ttare una densit di probabilit ai soli valori r
I
, ..., r
a
, e la
predizione del valore sucessivo j
a+1
si far con la media artimetica di questi numeri. Questa
una motivazione alla base del metodo di media mobile che lo pu far preferire a metodi
basati su modelli pi elaborati ma magari meno veritieri, perch adattati ai valori specici
della serie come se essi avessero una struttura temporale che non c (se pesiamo che non ci
sia; qui entra il giudizio dellanalista).
4.1.2 Decomposizione di una serie storica
Poco sopra abbiamo sottolineato come trend e stagionalit siano le due caratteristiche prin-
cipali da cerare di identicare, mettere in evidenza, per poter fare previsioni. Immaginiamo
allora che valga una decomposizione di un processo A
a
(o una serie storica) in tre componenti,
secondo la formula
A
a
= T
a
+o
a
+-
a
.
Le tre componenti non sono denibili in modo rigoroso ed univoco, quindi il discorso che
stiamo facendo qui deve essere inteso come un discorso di sostanza, non una vera teoria.
Lidea che la componente T
a
racchiuda il trend, o
a
la stagionalit, ed -
a
sia una
componente stazionaria, magari un white noise, oppure un processo stazionario pi complesso.
Idealmente, la strategia di analisi sarebbe: identicare trend e stagionalit in A
a
, sottrarli,
cio calcolare
-
a
= A
a
T
a
o
a
ed analizzare poi il processo stazionario (o la serie storica) -
a
con strumenti propri dei processi
stazionari, ad esempio i modelli ARMA.
Alcuni dei metodi che vedremo saltano per il primo passaggio e creano modelli validi
direttamente per A
a
, modelli che inglobano trend e stagionalit. Questo vale sia per certi
ARIMA, sia per il metodo di Holt-Winters.
Se si volesse seguire la strada della decomposizione, bisogna trovare T
a
e o
a
, o meglio
trovare dei possibili T
a
e o
a
, visto che non sono univocamente denibili.
Un modo per trovare T
a
quello della regressione, lineare o non lineare; non ci dilunghiamo
su di esso ora perch usa strumenti che vanno appresi in altre parti del corso. Unaltro metodo
semplice quello della media mobile. Usando una nestra un po ampia, il metodo della
media mobile crea un prolo medio tra i dati. Si intende che lo dobbiamo usare sui dati noti
a partire dallinizio, non sugli ultimi per prevedere il futuro. Se r
1
, ..., r
a
la serie storica,
e :
0
la nestra della media mobile, usando i primi :
0
valori r
1
, ..., r
a
0
si calcola la media
j
0
=
a
1
+...+an
0
a
0
. Poi, usando r
1+1
, ..., r
a
0
+1
si calcola la media j
1
=
a
1+1
+...+a
n
0
+1
a
0
, e cos via,
in generale
j
I
=
r
1+I
+... +r
a
0
+I
:
0
.
I numeri j
0
, j
1
, ... hnno un graco molto pi regolare di r
1
, ..., r
a
, meno uttuante, che pu
essere preso come trend. La regolarit del graco aumenta con :
0
(per :
0
= 1 uttua come
la serie originaria, poi via via meno aumentando :
0
).
C arbitrariet di scelta anche circa il posizionamento temporale di questi valori. Ad
esempio, se r
1
, ..., r
a
sono i valori mensili di una grndezza a partire da gennaio 2000, e se
abbiamo scelto :
0
= 12, il valore j
0
rappresenter il trend di gennaio 2000, di dicembre 2000
(12 mesi dopo), di luglio 2000? A noi la scelta.
Trovato il trend T
a
con un metodo che ci convinca, lo sottraiamo e consideriamo la nuova
serie o processo
7
a
= A
a
T
a
.
Ora bisogna identicare la stagionalit. Intanto va identicato il periodo 1, cio ogni quanto
secondo noi le coe si ripetono (approssimativamente). A volte ci sono banali ragioni stagionali
o economiche per decidere 1 (es. 1 = 12 in molte ovvie situazioni), a volte potremmo trovare
1 a partire dai dati osservando i picchi dellautocorrelazione empirica, acf. Deciso 1, un
modo banale per calcolare la componente o
a
quello di fare la media dei valori sui periodi.
Ad esempio, per una serie mensile relativa agli anni 2000, ... , 2008, il valore o
1
di gennaio si
calcola facendo la media aritmetica dei valori di tutti i mesi di gennaio, e cos via. Per o
12+1
,
o
24+1
, si prendono gli stessi valori. La serie o
a
cos ottenuta sar esattamente periodica.
A questo punto si pu calcolare -
a
= A
a
T
a
o
a
, ragurarlo (se una serie storica) e
capire se abbastanza stazionario. Ad esso si possono applicare i modelli AR.
Il software R mette disposizione due comandi molto pratici per eseguire una decompo-
sizione di una serie: decompose e stl. A dierenza del caso dei metodi ARIMA e HW, pren-
deremo questi metodi un po empiricamente, senza svilupparne una vera teoria. Comunque,
spendiamo due parole su di essi. Il comando decompose calcola il trend T
a
col metodo del-
la media mobile, facendo una scelta simmetrica per la collocazione temporale delle medie
calcolate: usa per il calcolo di T
a
una nestra centrata in :, aperta un po a destra ed un
po a sinistra. Ottenuto il trend con la media mobile, lo sottrae e calcola o
a
mediando i
periodi, come abbiamo detto sopra. Concettualmente, decompose calcola il trend in modo
locale (usando cio una nestra), mentre calcola la stagionalit in modo gobale (usando cio
tutta la serie ed ottenendo un risultato sempre uguale sui diversi periodi).
Il comando stl invece eettua un calcolo locale sia del trend sia della stagionalit, con
un complesso sistema iterativo che non decriviamo. Si vedr leetto negli esempi.
4.1.3 La media di pi metodi
Lesperienza mostra a volte che facendo la media tra varie previsioni, si ottiene una previsione
migliore. Non c nessuna base teorica di questo fatto se non la seguente, che per basata
su ipotesi. Supponiamo che le diverse previsioni siano come le realizzazioni casuali di una
grandezza aleatoria 1, che ha come valor medio j
1
il valore giusto che vorremmo prevedere,
ma che per una serie di accidenti casuali produce valori diversi da j
1
. In questa ipotesi, se
j
1
, ..., j
a
sono varie previsioni, nel senso che sono un campione estratto da 1, allora la loro media arit-
metica j =
j
1
+...+jn
a
sar una stima di j
1
migliore dei singoli valori j
1
, ..., j
a
(pur essendoci
magari tra i vari valori j
1
, ..., j
a
alcuni pi vicini a j
1
di quanto non sia j, per non sappiamo
quali siano e quindi non li possiamo scegliere).
Nella pratica, j
1
, ..., j
a
sono ottenuti tramite algoritmi diversi, scelte diverse di opzioni
e parametri di certi algoritmi. Si pu immaginare che la variabilit di queste previsioni sia
simile in natura alla variabilit di un campione estratto da una variabile aleatoria? Non
ovvio credere in questa ipotesi. Tuttavia, a volte il metodo della media tra previsioni funziona.
decentemente.
In una cosa per cade il paragone col campione casuale. Mentre per un vero campione
casuale j
1
, ..., j
a
estratto da 1 non abbiamo alcun criterio di scelta di un singolo valore / che
sia pi vicino a j
1
di quanto non sia j, nel caso dei valori j
1
, ..., j
a
ottenuti da : algoritmi
diversi potremmo avere dei buoni motivi per ritenere che certe previsioni sono pi attendibili
di altre (ad esempio, vedremo dei metodi per giudicare gli algoritmi). Quindi non ovvio
preferire j ai pi accreditati dei valori j
1
, ..., j
a
.
In questultimo caso, idealmente potrebbe scattare unidea ancora migliore. Se potessimo
attribuire dei pesi
n
1
, ..., n
a
(cio dei numeri n
i
[0, 1] tali che

a
i=1
n
i
= 1) ai vari algoritmi di previsione, che riettano
il nostro grado di giudizio sulla loro attendibilit, allora la media pesata
n
1
j
1
+... +n
a
j
a
sarebbe una buona previsione, che mescolerebbe la losoa della media con la maggior
imortanza data ad alcuni degli algoritmi.
Il problema pratico quello di scegliere i pesi. Un modo pu essere quello puramente
soggettivo, magari ottenuto con un lavoro di gruppo: si attribuiscono i pesi soggettivamente.
Pu sembrare senza fondamento, ma si ricordi che comunque dovremmo fare delle scelte tra
le varie previsioni, quindi impossibile sfuggire alle scelte soggettive, e quella dei pesi pu
essere meno drastica della banale scelta di una previsione su tutte.
Altrimenti, in situazioni in cui le previsioni si eseguano pi volte successivamente nel
tempo, si pu acquisire un giudizio circa la bont dei vari algoritmi confrontando le loro
previsioni coi dati reali accaduti (di fatto questo simile ad uno dei metodi di giudizio che
studieremo, solo che quello lo faremo sui dati noti, mentre ci di cui stiamo parlando ora
un confronto coi dati futuri incogniti, che nel tempo diventano progressivamente noti). Si
potrebbero allora ranare via via dei pesi, magari riaggiornandoli ad ogni nuova previsione
che diventa realt, usando poi i pesi per le previsioni successive.
4.2 Modelli ARIMA
4.2.1 Modelli AR
Denizione 41 Si chiama modello autoregressivo di ordine j, o modello AR(j), lequazione
lineare
A
t
= c
1
A
t1
+... +c
j
A
tj
+-
t
e si chiama processo AR(j) la sua soluzione (pi precisamente il termine viene di solito
riferito alla soluzione stazionaria). Qui j lordine, c
1
, ..., c
j
sono i parametri o coecienti
(numeri reali), -
t
il termine di errore, usualmente ipotizzato essere un white noise di in-
tensit o
2
. Il modello viene considerato o sugli interi t Z, quindi senza condizioni iniziali,
o sugli interi non-negativi t N. In questo caso, la relazione precedente inizia da t = j e
devono essere specicate delle condizioni iniziali per i valori di A
0
, ..., A
j1
.
Esempio 83 Nel capitolo sui processi stocastici abbiamo esaminato il caso pi semplice, il
modello AR(1)
A
t
= cA
t1
+-
t
.
4.2. MODELLI ARIMA 199
Quando [c[ < 1, 1 [A
0
] = 0, \ ar [A
0
] =
o
2
1c
2
, la soluzione risulta un processo stazionario
in senso lato, ed anche in senso stretto se A
0
gaussiana. Il coeciente di autocorrelazione
decade esponenzialmente:
j (:) = c
a
.
Osservazione 64 Anche se una formula generale per j (:) non cos semplice per un
generico AR(j), il decadimento esponenziale continua ad essere vero.
Il modello precedente non contiene intercetta ed adatto a descrivere situazioni a media
nulla. Per descrivere casi a media non nulla si pu considerare la seguente generalizzazione.
Si pu pensare che, se A
t
il processo che ci interessa, e j la sua media (ipotizzata per
semplicit costante), allora (A
t
j) un processo a media nulla e per esso consideriamo il
modello AR(j) introdotto sopra
(A
t
j) = c
1
(A
t1
j) +... +c
j
(A
tj
j) +-
t
.
Allora A
t
soddisfa
A
t
= c
1
A
t1
+... +c
j
A
tj
+-
t
+ (j c
1
j ... c
j
j)
= c
1
A
t1
+... +c
j
A
tj
+/ +-
t
cio un modello di tipo AR(j) ma con intercetta
/ = (j c
1
j ... c
j
j) .
4.2.2 Esempi particolari
Nella sezione di esercizi sulle serie storiche, esamineremo situazioni concrete di carattere
economico-sociale-gestionale. Le serie storiche considerate in tale ambito sono spesso le serie
dei valori mensili di una grandezza economica, ed hanno a volte un carattere stagionale, cio
risultano maggiori sempre nelle stesse stagioni, di anno in anno. I modelli AR catturano
alcune caratteristiche di queste serie e forniscono, come vedremo in quella sezione, un buon
strumento per fare previsioni.
In vista di tali applicazioni, segnaliamo tre casi che spesso danno buoni risultati e ci fanno
capire perch viene in mente di usare i modelli ricorsivi AR per descrivere serie storiche.
Il primo semplicemente il caso AR(1), gi illustrato precedentemente, magari per con
intercetta per avere maggior essibilit:
A
a
= cA
a1
+/ +-
a
.
Abbiamo gi visto che per / = 0 ed [c[ < 1 c una soluzione stazionaria. Per altri valori
di c e / si possono per avere comportamenti diversi, quindi il modello pu essere usato per
descrivere altre situazioni.
Esempio 84 Ad esempio, si pensi al caso
A
a
= A
a1
+/ +-
a
.
Vale, iterativamente,
A
a
= A
a2
+/ +-
a1
+/ +-
a
= A
a2
+ 2/ +-
a1
+-
a
e cos via
A
a
= A
0
+/ : +-
1
+... +-
a
.
Questo mostra che A
a
ha un trend lineare di coeciente angolare / (infatti la somma -
1
+
... + -
a
una random walk che oscilla tra positivi e negativi con valori assoluti vagamente
attorno a
_
:, come gi osservato nel capitolo sui processi stocastici; quindi -
1
+... +-
a
non
riesce a contrastare la tendenza lineare del termine / :).
Osservazione 65 Nel pragrafo precedente avevamo visto che processi a media non nulla
possono essere descritti da modelli AR con unintercetta /. Nellesempio appena visto linter-
cetta / responsabile del trend. Queste due cose sono in contraddizione? No: unintercetta
pu avere vari eetti diversi, come produrre una media non nulla oppure un trend. La cosa
dipende dal legame tra tutti i coecienti, come mostrano lesempio precedente ed il successivo.
Esempio 85 In contrasto allesempio precedente, consideriamo il caso
A
a
= cA
a1
+/ +-
a
con
[c[ < 1.
Qui risulta, iterativamente,
A
a
= c(cA
a2
+/ +-
a1
) +/ +-
a
= c
2
A
a2
+ (c + 1) / +c-
a1
+-
a
e cos di seguito
A
a
= c
3
A
a3
+
_
c
2
+c + 1
_
/ +c
2
-
a2
+c-
a1
+-
a
...
A
a
= c
a
A
0
+
_
c
a1
+... +c + 1
_
/ +c
a1
-
1
+... +c-
a1
+-
a
.
Ora, essendo [c[ < 1, vale
c
a1
+... +c + 1
1
1 c
quindi no c alcun trend (il termine
_
c
a1
+... +c + 1
_
/ non cresce linearmente ma tende
alla costante
b
1c
). Il processo A
a
ha per una media non nulla.
Nel caso, per meno interessante, in cui [c[ 1, i modelli AR(1) hanno comportamenti
esponenziali.
Esempio 86 Consideriamo di nuovo
A
a
= cA
a1
+-
a
(ora / = 0) ma nel caso
[c[ 1.
Dalla formula
A
a
= c
a
A
0
+c
a1
-
1
+... +c-
a1
+-
a
vediamo intuitivamente che A
a
esponenzialmente grande in : in valore assoluto. Una gius-
ticazione precisa sarebbe un po noiosa in quanto dipende dallampiezza e segno relativi dei
vari termini A
0
, -
1
ecc. che, moltiplicati per potenze elevate di c, determinano la divergenza
esponenziale. In casi molto particolari possono anche esserci delle cancellazioni tra alcuni di
questi termini (es. se cA
0
= -
1
, vale c
a
A
0
+ c
a1
-
1
= 0) ma chiaro che si tratta di
poche situazioni particolari.
Tra i modelli pi utili per le applicazioni gestionali ci sono poi quelli con ritardo an-
nuale, orientati a catturare la periodicit annuale delle serie storiche di grandezze a carattere
stagionale.
Esempio 87 Il modello base di questo tipo
A
a
= cA
a12
+-
a
.
Anchesso, si pu dimostrare che ha soluzioni stazionarie se [c[ < 1 (ad esempio usando i
metodi della sezione 4.2.8). La logic dietro questo modello semplicemente che il valore ad
es. di gennaio 2007 pari a quello di gennaio 2006, lievemente ridotto, pi una perturbazione
causale. La lieve riduzione, dovuta ad [c[ < 1, non necessaria ed anzi poco realistica se
si osserva il fenomeno concreto (economico ecc.) su una scala di pochissimi anni, 3-4. La
stazionariet vale approssimativamente anche per c = 1, su orizzonti temporali cos brevi.
Esempio 88 Pi aderente a moti esempi il modello
A
a
= c
1
A
a1
+c
12
A
a12
+-
a
eventualmente anche con intercetta. Qui si sta immaginando, ad esempio, che il valore di
aprile 2007 sia in parte legato a quello di aprile 2006 ed in parte a marzo 2007. Si ammette
cio che ci sia uno strascico da un mese allaltro, senza sbalzi del tutto causali tra un mese ed
il successivo; pi una somiglianza con lo stesso mese dellanno precedente. Tra i sottosempi,
si pu riettere sul caso
A
a
= cA
a1
+ (1 c) A
a12
+-
a
con c (0, 1).
Naturalmente la precisione del modello aumenta se si cosidera anche il termine c
2
A
a2
,
oppure c
24
A
a24
. Ma daltra parte pi termini si mettono pi il modello smette di essere
un vero modello, una sorta di formula generale, mentre tenta di inseguire le particolarit
dei dati sperimentali a cui si cerca di adattarlo. Per fare previsioni, non aatto detto che
inseguire le prticolarit pi minute dei dati passati sia una buona strategia: alcune parti-
colarit saranno strutturali, quindi tenderanno a ripetersi, alte no. Non ci sono ovviamente
regole circa lecnomia da esercitare. Anche per questo fare previsioni unarte e non una
scienza rigorosa (e non esistono software che osino proporsi come buoni previsori automatici,
alla cieca dellarte e delle scelte che loperatore deve decidere di fare).
4.2.3 Loperatore di traslazione temporale
Sia o linsieme di tutte le successioni r = (r
t
)
tZ
di numeri reali.
Denizione 42 Chiamiamo operatore di traslazione temporale (in inglese time lag operator,
o backward shift) lapplicazione 1 : o o denita da
1r
t
= r
t1
, for all t Z.
Lapplicazione 1 trasforma successioni in successioni. Pi proprimente dovremmo scrivere
(1r)
t
= r
t1
, in quanto data una successione r = (r
t
)
tZ
o, 1 calcola una nuova successione
1r o, il cui valore (1r)
t
al tempo t dato da r
t1
. Per brevit si omettono le parentesi e
si scrive 1r
t
= r
t1
.
Questoperatore prende una sequenza e la trasla allindietro. Di fatto, esso verr usato
pi che altro come notazione: invece di scrivere r
t1
scriveremo 1r
t
. Apparentemente c
poco vantaggio, ma ogni tanto se ne vedono i pregi.
Se invece di o consideriamo linsieme o
+
delle successioni (r
t
)
tN
denite solo per tempi
non-negativi, non possiamo denire 1 in quanto, data r = (r
t
)
tN
, il suo primo valore r
0
,
mentre il primo valore di 1r dovrebbe essere r
1
, che non esiste. Ci nonostante, a patto
di trascurare il primo valore di 1r, useremo la notazione 1r
t
= r
t1
ache per le successioni
r = (r
t
)
tN
. In altre parole, 1r denito solo per t 0.
Osservazione 66 Loperatore 1 lineare.
Le potenze, positive o negative, di 1 verranno indicate con 1
I
. Esse sono la composizione
di 1 fatta / volte. Ad esempio, 1
3
r = 1(1(1r)), enfatizzando con le parentesi che si tratta
di applicazioni successive, cio composizioni, di 1. Vale
1
I
r
t
= r
tI
, per t Z
(o, per t _ max (/, 0), nel aso r = (r
t
)
tN
).
Con queste notationi, un modello AR(j) si pu scrivere nella forma
_
1
j
I=1
c
I
1
I
_
A
t
= -
t
.
Il vantaggio sta nel poter immaginare (per ora non rigorosamente) che valga
A
t
=
_
1
j
I=1
c
I
1
I
_
1
-
t
(4.3)
cio che sia possibile esprimere esplicitamente la soluzione A
t
tramite linput -
t
. Se -
t
rapp-
resenta lerrore (per noi principalmente cos), questa espressione esplicita non dice molto,
al massimo pu essere utile per scopi teorici: si ricordi ad esempio (capitolo sui processi) che
la random walk, che un AR(1), ammette la soluzione esplicita A
a
= A
0
+

a
i=1
-
i
, che
abbiamo usato per efettuare alcuni calcoli teorici. Oppure si veda il paragrafo 4.2.8 seguente.
Se per utilizzassimo i modelli AR(j) come modelli input-output, in cui -
t
un fattore, una
variabile espicativa, un cotrollo, ed A
t
la variabile di output, allora fondamentale sapere
come loutput dipende dallinput. Lequazione che denisce il modello AR(j) descrive come
A
t
dipende dai valori precedenti delloutput stesso, pi -
t
. Invece lequazione (4.3) direbbe
in modo pi esplicito come A
t
dipende dallinput.
Date queste motivazioni, resta il problema pratico di cosa voglia dire
_
1
j
I=1
c
I
1
I
_
1
-
t
.
A questo proposito si deve operare come se
_
1
j
I=1
c
I
1
I
_
1
fosse un polinomio nella
variabile reale 1.
Esempio 89 Ad esempio, se
1
j
I=1
c
I
1
I
= 1 c1
(caso AR(1) con c
1
= c), vale
_
1
j
I=1
c
I
1
I
_
1
= (1 c1)
1
=
o
i=1
c
i
1
i
quindi
A
t
=
o
i=1
c
i
1
i
-
t
=
o
i=1
c
i
-
ti
.
Da qui possiamo calcolare ad esempio
Co (A
t
, A
t+a
) =
o
i=1
o
)=1
c
i
c
)
Co (-
ti
, -
t+a)
)
=
o
i=1
o
)=1
c
i
c
)
o
2
c (i , +:)
=
o
i=1
c
i
c
ia
o
2
= c
a
o
2
1 c
2
da cui si vede che un processo stazionario (Co (A
t
, A
t+a
) indipendente da t; la media si
vede subito che zero) ed abbiamo
j
a
= c
a
.
Si leggano per le precisazioni dellosservazione seguente.
Osservazione 67 Questa in un certo senso unaltra dimostrazione di un fatto visto in un
esempio del capitolo sui processi stocastici. Per ci sono dei dettagli teorici da osservare. In
quel capitolo avevamo scelto opportunamente il dato iniziale ed avevamo ristretto lattenzione
a [c[ < 1. Qui non stato ssato alcn dato iniziale ed apparentemente non abbiamo messo
restrizioni su c. Circa il dato iniziale, va osservato che i procedmento descritto nellesempio
di questo capitolo tale da produrre automticamente la soluzione stazionaria, se c; non va
imposto un particolare dato iniziale. Nellinvertire
_
1
j
I=1
c
I
1
I
_
insito che si trover
la soluzione stazionaria. Per ci sono ipotesi che permettono di invertire questo operatore,
oppure lo vietano. Intuitivamente parlando, come se 1 dovesse essere preso uguale ad 1,
per cui lidentit (1 c1)
1
=

o
i=1
c
i
1
i
vale solo se [c[ < 1. Torneremo su questo punto
nella sezione 4.2.8 .
4.2.4 Modelli MA
Denizione 43 Si chiama modello a media mobile di ordine , o modello MA(), lequazione
lineare
A
t
= -
t
+,
1
-
t1
+... +,
q
-
tq
dove il signicato dei simboli simile a quanto descritto nella denizione di AR(j). Un
processo MA() una sua soluzione (di solito si intende quella stazionaria).
A dierenza del caso AR(j), qui il processo denito esplicitamente dal rumore, attraverso
una sua media pesata. Si noti che non una media dal tempo iniziale, ma una media su
una nestra di ampiezza che si sposta con t (da qui il nome).
In parte lutilit di questi modelli si riconosce quando -
t
non ha il signicato di rumore
ma di input, o addirittura il processo che si sta cercando di esaminare. Allora A
t
una
sua media pesata, che pu servire ad esempio per eettuare predizioni future. La regola pi
semplice per predire il valore futuro di una serie storica ricopiare il valore attuale, A
t
= -
t1
;
a ruota (come semplicit) segue il modello predittivo usalmente chiamato a media mobile,
dato da
A
t
=
-
t1
+... +-
tq
.
Usando loperatore 1 abbiamo
A
t
=
_
1 +
q
I=1
,
I
1
I
_
-
t
.
4.2.5 Modelli ARMA
Denizione 44 Si chiama modello ARMA(j, ) (AutoRegressive Moving Average di ordini
j e ) lequazione lineare
_
1
j
I=1
c
I
1
I
_
A
t
=
_
1 +
q
I=1
,
I
1
I
_
-
t
o esplicitamente
A
t
= c
1
A
t1
+... +c
j
A
tj
+-
t
+,
1
-
t1
+... +,
q
-
tq
.
Come sempre, chiamiamo processo ARMA(j, ) una soluzione (stazionaria) di questa equazione.
Il sigicato dei simboli simile a quello delle due denizioni precedenti.
Come per gli AR(j), il modello ora scritto si adatta bene alle situazioni a media nulla.
Se vogliamo esaminare con modelli simili un processo A
t
a media non nulla j, immaginiamo
che 7
t
= A
t
j soddis lequazione ARMA(j, )
7
t
= c
1
7
t1
+... +c
j
7
tj
+-
t
+,
1
-
t1
+... +,
q
-
tq
per cui A
t
= 7
t
+j risolver
A
t
= c
1
A
t1
+... +c
j
A
tj
+/ +-
t
+,
1
-
t1
+... +,
q
-
tq
dove lintercetta / data da
/ = j c
1
j ... c
j
j.
4.2.6 Operatore dierenza. Integrazione
Denizione 45 Chiamiamo operatore dierenza loperaotre : o o denito da
r
t
= r
t
r
t1
= (1 1) r
t
.
Usiamo queste notazioni anche nel caso di successioni r o
+
. Si veda la denizione di 1
per alcune delle notazioni usate qui.
Loperatore una specie di derivata discreta. La derivata di una fuzione lineare una
costante. Si pu allora immaginare che, prendendo la derivata discreta di un processo che
ha un trend lineare, si ottenga un processo stazionario. Queste frasi sono vaghe (salvo mettersi
in ipotesi troppo speciche, come il seguente esempio), per cui sfuggono ad un teorema, ma
resta lutilit pratica di eseguire su processi con trend per renderli pi stazionari. Si
guadagna anche sul fatto che il nuovo processo a media nulla, se la media del processo
originario era costante.
Esempio 90 Iniziamo col vericare che loperatore non distrugge la stazionariet. Sia A
un processo stazionario e sia 1
t
= A
t
. Mostriamo che 1 ancora stazionario. Vale
1 [1
t
] = 1 [A
t
] 1 [A
t1
] = 0
1 [1
t
1
t+a
] = 1 [(A
t
A
t1
) (A
t+a
A
t+a1
)]
= 1 [A
t
A
t+a
] 1 [A
t
A
t+a1
] 1 [A
t1
A
t+a
] +1 [A
t1
A
t+a1
]
= 1(:) 1(: 1) 1(: + 1) +1(:)
quindi la media costante, anzi nulla, e lautocorrelzione dipende solo da :. Il processo 1
stazionario ed anzi in pi di A ha che sempre a media nulla.
Esempio 91 Supponiamo ora che sia
A
t
= a t +-
t
dove -
t
stazionario. Questo un esempio molto schematico di processo con trend lineare.
Posto 1
t
= A
t
, troviamo
1
t
= a + (-
t
-
t1
) .
Questo un processo stazionario, per quanto visto sopra (per la sua media a).
Appena si deriva, nasce il problema invers dellintegrazione. Data r possiamo calcolare
j = r; viceversa, data j, possiamo trovare r che risolve j = r? Basta risolvere
j
t
= r
t
r
t1
trovando
r
t
= j
t
+r
t1
= j
t
+j
t1
+r
t2
= ... = j
t
+... +j
1
+r
0
.
Il risultato :
Proposizione 23 Se due successioni r ed j sono legate dalla relazione j = r, si pu
ricostruire la successione r dalla j, usando r
0
, tramite la formula
r
t
= j
t
+... +j
1
+r
0
.
I fatti precedenti si possono iterare. Loperatore dierenza seconda,
2
, denito da
2
r
t
= (1 1)
2
r
t
.
Per invertirlo, supponiamo che con j dato sia
j
t
= (1 1)
2
r
t
.
Allora introduciamo .:
j
t
= (1 1) .
t
.
t
= (1 1) r
t
quindi prima ricostruiamo .
t
da j
t
:
.
t
= j
t
+... +j
2
+.
1
dove
.
1
= (1 1) r
1
= r
1
r
0
poi ricostruiamo r
t
da .
t
:
r
t
= .
t
+... +.
1
+r
0
.
Proposizione 24 Se due successioni r ed j sono legate dalla relazione j = r, si pu
ricostruire la successione r dalla j, usando r
0
ed r
1
, tramite le formule
.
1
= r
1
r
0
.
t
= j
t
+... +j
2
+.
1
r
t
= .
t
+... +.
1
+r
0
.
Tutto questo si pu generalizzare a
o
, per ogni intero positivo d.
4.2.7 Modelli ARIMA
Denizione 46 Si chiama modello ARIMA(j, d, ) (AutoRegressive Integrated Moving Av-
erage di ordini j, d e ) lequazione lineare
_
1
j
I=1
c
I
1
I
_
(1 1)
o
A
t
=
_
1 +
q
I=1
,
I
1
I
_
-
t
.
Il sigicato dei simboli simile a quello delle denizioni precedenti.
Osservazione 68 Loperatore
_
1
j
I=1
c
I
1
I
_
(1 1)
o
pu essere riscritto nella forma
_
1
j+o
I=1
c
t
I
1
I
_
per opportuni nuovi coecienti c
t
I
, quindi un modello ARIMA(j, d, )
di tipo ARMA(j, +d). Questo punto di vista per fuorviante, ad esempio perch negli
ARIMA(j, d, ) non ci si interessa alle soluzioni stazionarie.
Se A risolve un modello ARIMA(j, d, ), allora 1
t
:= (1 1)
o
A
t
risolve il seguente
ARMA(j, ):
_
1
j
I=1
c
I
1
I
_
1
t
=
_
1 +
q
I=1
,
I
1
I
_
-
t
e A
t
si pu ottenere da 1
t
attraverso d integrazioni successive. Il numero d quindi lordine
di integrazione.
Il modo giusto di pensare a questi modelli il seguente. Il processo 1
t
, risolvendo un
ARMA(j, ), naturale che sia stazionario (in altre parole, ci interessa la soluzione stazionaria
di questo ARMA(j, )). Integrando poi d volte si trova A
t
, che per non pi stazionario (si
veda losservazione al termine del paragrafo). Le soluzioni a cui siamo interessati dei modelli
ARIMA(j, d, ) non sono stazionarie, ma sono quelle tali che 1
t
= (1 1)
o
A
t
stazionario.
Una tale soluzione A
t
viene d solito detta processo ARIMA(j, d, ).
Esempio 92 La random walk un ARIMA(0, 1, 0).
Possiamo incorporare una media non nulla (per la 1
t
= (1 1)
o
A
t
) in un modello
ARIMA(j, d, ) considerando il modello
_
1
j
I=1
c
I
1
I
_
(1 1)
o
A
t
=
_
1 +
q
I=1
,
I
1
I
_
-
t
+/ (4.4)
sempre con
/ = j c
1
j ... c
j
j.
Osservazione 69 Se 1
t
= (1 1) A
t
e 1
t
stazionario, non lo A
t
. Lintegrazione rompe
la stazionariet, per cui le soluzioni interessanti dei modelli ARIMA non sono stazionarie.
Cerchiamo di capire come mai lintegrazione produce non-stazionariet. A titolo di esempio,
abbiamo gi vericato nel capitolo sui processi stocastici che la random walk non stazionaria.
La non stazionariet della RW cos come di vari altri ARIMA di tipo complesso, cio non
appare semplicemente come un trend lineare ma pu apparire come una crescita del tipo
_
t
della deviazione standard, con i valori del processo che oscillano tra positivi e negativi.
A volte invce la non stazionariet si manfesta pi semplicemente con un trend. Il caso
p semplice da capire il caso con media non nulla (4.4). Se d = 1, A
t
ha un trend lineare;
se d = 2, ha un trend quadratico, e cos via. Infatti, supponiamo che 1
t
sia stazionario e a
media j 0 (il caso j < 0 identico) Allora (per d = 1)
A
t
= 1
t
+... +1
1
+A
0
= j t +7
t
7
t
:=

1
t
+... +

1
1
+A
0
dove le v.a.

1
t
= 1
t
j hanno media nulla. Il processo 7
t
pu crescere (in modulo) ma
non abbastanza da contrastare la crescita lineare del termine j t. Si pu infatti dimostrare
(si deve usare il teorema ergodico del capitolo sui processi, vericando che le ipotesi per gli
ARMA sono vere) che
1
t
+... +

1
1
t
to
1 [1
1
] = 0
cio 7
t
ha crescita sub-lineare. Si pu anche intuire come vanno le cose pensando al caso
(molto particolare) in cui le v.a.

1
t
sono indipendenti. Vale
\ ar
_
1
t
+... +

1
1
_
= t \ ar
_
1
1
_
quindi la deviazione standard di

1
t
+... +
1
1
cresce come
_
t, da cui si intuisce che

1
t
+... +
1
1
non pu crescere linearmente. Per d 1 valgono ragionamenti simili.
4.2.8 Stazionariet, legame tra modelli ARMA e modelli MA di ordine
innito, ipotesi generali della teoria
Abbiamo gi detto che, sotto opportune condizioni, esistono soluzioni stazionarie dei modelli
AR, MA ed in generale ARMA, chiamate processi AR, MA o ARMA seconda dei casi. Nel
caso pi sempice degli AR(1) abbiamo trovato che la condizione [c[ < 1.
Aggiungiamo alcune precisazioni. La parte MA di un modello non pone restrizioni alla
possibilit di avere soluzioni stazionarie. Limitatamente ai modelli MA, un modo di costruire
soluzioni stazionarie quello di far partire literazione da un tempo negativo molto grande,
, con valori iniziali nulli. Ci che si osserva per tempi positivi approssimativamente
stazionario, e migliora al tende di .
La parte AR invece pone restrizioni. Bisogna assumere che le radici complesse . del
polinomio
j (.) = 1
j
I=1
c
I
.
I
siano tutte fuori dalla palla unitaria chiusa del piano complesso, cio soddisno tutte la
condizione
[.[ 1. (4.5)
Esempio 93 Nel caso AR(1) il polinomio j (.) = 1 c. che ha, per c ,= 0, lunica radice
. =
1
c
(mentre per c = 0 non ha radici per cui la condizione precedente soddisfatta). Vale
1
c
1 se e solo se [c[ < 1. Cos si ritrova la condizione gi scoperta per la stazionariet.

Se vale la condizione precedente, la funzione
1
j(:)
analitica per [.[ _ 1 + - per qualche
- 0. Si consideri la funzione
q (.) =
1 +
q
I=1
,
I
.
I
1
j
I=1
c
I
.
I
=
1 +
q
I=1
,
I
.
I
j (.)
.
Anchessa analitica per [.[ _ 1 +- per qualche - 0 ed il suo svilppo di Taylor
q (.) =
o
)=0
,
)
.
)
converge quindi uniformemente in [.[ _ 1. In particolare vale
o
)=0
,
)
<
e quindi anche
o
)=0
,
)
2
< .
Imponiamo, per la validit di tutti fatti descritti in questa sezione, la condizione (4.5) sulle
radici di j (.).
Osservazione 70 Iniziamo con unosservazione che lasciamo a livello completamente intu-
itivo. Sia A un processo stazionario a media nulla, di tipo ARMA(j, ), denito anche per
tempi negtivi. Dalla relazione
_
1
j
I=1
c
I
1
I
_
A
t
=
_
1 +
q
I=1
,
I
1
I
_
-
t
ngendo di poter operare su j (1) := 1
j
I=1
c
I
1
I
come fosse un polinomio, otteniamo,
usando le notazioni precedenti
A
t
=
1 +
q
I=1
,
I
1
I
1
j
I=1
c
I
1
I
-
t
= q (1) -
t
.
Sempre euristicamente, eseguiamo lo sviluppo di Taylor di q ottenendo
A
t
=
o
)=0
,
)
1
)
-
t
=
o
)=0
,
)
-
t)
.
Abbiamo riscritto un processo ARMA(j, ) come un MA di ordine innito.
Vediamo pi rigorosamente le cose al viceversa: dato un white noise (-
t
)
tZ
deniamo A
t
tramite questa uguaglianza. E una denizione ammissibile e fornisce un processo stazionario,
soluzione del modello ARMA(j, ) di partenza?
Teorema 30 Sotto lipotesi (4.5) per le radici del polinomio j, la serie

o
)=0
,
)
-
t)
con-
verge in media quadratica e denisce un processo A
t
che stazionario e soluzione del mod-
ello ARMA(j, ) a cui sono associati i coecienti ,
)
. In particolare, esiste una soluzione
stazionaria di tale modello ARMA(j, ).
Proof. Non diamo tutti i dettagli della dimostrazione ma solo lidea.
Passo 1. Intanto, q analitica in un intorno aperto di [.[ _ 1 (come osservato nella
sezione 4.2.8) e quindi il suo sviluppo q (r) =

o
)=0
,
)
r
)
converge uniformemente in [.[ _
1. In particolare i coecienti ,
)
esistono. Consideriamo la serie

o
)=0
,
)
-
t)
. Vale, per
lindipendenza del WN (usiamo regole valide per somme nite anche nel caso innito; ad
esempio qui che tralasciamo alcuni dettagli della diostrazione rigorosa completa),
\ ar
_
_
o
)=0
,
)
-
t)
_
_
=
o
)=0
,
)
2
\ ar [-
t)
] = o
2
o
)=0
,
)
2
e questa serie nita, come osservato nella sezione 4.2.8. Da questo possibile dimostrare
che

o
)=0
,
)
-
t)
converge in media quadratica (bisogna usare il fatto che una successione di
Cauchy in media quadratica converge).
Passo 2. Chiamiamo A
t
il suo limite. E un processo stazionario. Che la media sia
costante facile, usando di nuovo regole sui valori medi delle serie che non abbiamo spiegato
nel corso:
1
_
_
o
)=0
,
)
-
t)
_
_
=
o
)=0
,
)
1 [-
t)
] = 0.
Poi vale, sempre per regole simili
1(:, t) = 1
_
_
o
)=0
,
)
-
t)

o
I=0
,
I
-
cI
_
_
=
o
)=0
o
I=0
,
)
,
I
1 [-
t)
-
cI
]
=
o
)=0
o
I=0
,
)
,
I
c (t : , +/)
che dipende quindi solo da t :. Quindi la stazionariet vericata.
Passo 3. Inne, dobbiamo vericare che
_
1
j
I=1
c
I
1
I
_
o
)=0
,
)
1
)
-
t
=
_
1 +
q
I=1
,
I
1
I
_
-
t
.
Euristicamente ovvio:
_
1
j
I=1
c
I
r
I
_
q (r) =
_
1 +
q
I=1
,
I
r
I
_
per denizione di q. Il problema quindi il passaggio da unidentit tra polinomi, eventual-
mente inniti (nel senso dello sviluppo di Taylor di funzioni analitiche) ad una tra polinomi
di operatori. Descriviamo gli ingredienti nel prossimo passo.
Passo 4. Siano a (.) e / (.) due polinomi, della forma
a (.) =
a
I=0
a
I
.
I
, / (.) =
n
I=0
/
I
.
I
.
Il loro prodotto un polinomio, che riscriviamo nella forma canonica tramite opportuni
coecienti c
I
:
a (.) / (.) =
a+n
I=0
c
I
.
I
.
Allora vale anche
_
a
I=0
a
I
1
I
_
n
I=0
/
I
1
I
r
__
t
=
a+n
I=0
c
I
1
I
r
t
per ogni successione r o. E suciente vericare lidentit per i monomi:
_
a
I
1
I
_
/
I
1
I
r
__
t
= a
I
/
I
1
I+I
r
t
.
Questo vero:
_
a
I
1
I
_
/
I
1
I
r
__
t
=
_
a
I
1
I
(/
I
r
I
)
_
t
= a
I
/
I
r
tII
a
I
/
I
1
I+I
r
t
= a
I
/
I
r
tII
.
Fatta la verica per i polinomi niti, bisogna estenderla ai caso degli sviluppi di Taylor
di funzioni analitiche. La verica un po tecnica e la omettiamo.
Pu essere istruttivo ora rileggere lesempio 89 sul modello AR(1).
4.2.9 Funzione di autocorrelazione, primi fatti
Assumimo che A sia un processo ARMA(j, ) a media nulla, soluzione stazionaria di
_
1
j
I=1
c
I
1
I
_
A
t
=
_
1 +
q
I=1
,
I
1
I
_
-
t
.
Proposizione 25 (equazioni di Yule-Walker) Per ogni , ,
1(,) =
j
I=1
c
I
1(, /) .
Proof. Ricordiamo che 1(:) = 1(:). Osserviamo che per ogni : ed : vale
1 [A
ta
1
n
A
t
] = 1 [A
ta
A
tn
] = 1(::) .
Allora dalla
1
__
1
j
I=1
c
I
1
I
_
A
t
A
t)
_
= 1
__
1 +
q
I=1
,
I
1
I
_
-
t
A
t)
_
discende
1(,)
j
I=1
c
I
1(, /) = 1
_
A
t)
_
1 +
q
I=1
,
I
1
I
_
-
t
_
.
Nel caso , la v.a. 1
I
-
t
= -
tI
indipendente da A
t)
, in quanto / _ < ,, quindi
1(,)
j
I=1
c
I
1(, /) = 0.
Corollario 7 Se A un processo AR(j) a media nulla, soluzione stazionaria di
_
1
j
I=1
c
I
1
I
_
A
t
= -
t
allora, per ogni , 0 vale
1(,) =
j
I=1
c
I
1(, /) .
Vediamo come le equazioni di Yule-Walker, per gli AR(j), permettano di calcolare la
funzione 1.
Esempio 94 Si consideri il processo AR(1):
A
t
= cA
t1
+-
t
.
Vale, per ogni , 0,
1(,) c1(, 1) = 0
ovvero
1(1) = c1(0)
1(2) = c1(1)
...
dove 1(0) = 1
_
A
2
0
. Quindi
1(,) = c
)
1(0) .
Resta da calcolare 1(0). Vale
\ ar [A
t
] = a
2
\ ar [A
t1
] +\ ar [-
t
]
quindi
1(0) = a
2
1(0) +o
2
che implica 1(0) =
o
2
1o
2
. Questo lo stesso risultato trovato pi volte in precedenza.
Esempio 95 Consideriamo ora un processo AR(2):
A
t
= c
1
A
t1
+c
2
A
t2
+-
t
.
Abbiamo
1(,) = c
1
1(, 1) +c
2
1(, 2)
pr ogni , 0, ovvero
1(1) = c
1
1(0) +c
2
1(1)
1(2) = c
1
1(1) +c
2
1(0)
...
Essendo 1(1) = 1(1), troviamo
1(1) =
c
1
1 c
2
1(0)
dalla prima equazione. Le altre poi permettono il calcolo di 1(2) e cos via. Dobbiamo solo
torvare 1(0), come nellesempio precedente. Abbiamo
\ ar [A
t
] = a
1
\ ar [A
t1
] +a
2
\ ar [A
t2
] +o
2
+ 2Co (A
t1
, A
t2
)
quindi
1(0) = a
1
1(0) +a
2
1(0) +o
2
+ 21(1) .
Questa una seconda equazione tra 1(0) ed 1(1), che messa insieme allequazione 1(1) =
c
1
1c
2
1(0) permette il calcolo di entrambe le quantit. E poco istruttivo arrivare alle formule
esplicite nali, quindi ci accontentiamo di aver vericato che le equazioni di Yule-Walker per-
mettono di calcolare lautocorrelazione (modulo il calcolo dei valori iniziali di 1 da equazioni
elementari).
Le equazioni di Yule-Walker hanno due usi principali. Il primo quello ovvio di conoscere
1 a partire dal modello. In questottica si suppone di aver formulto un modello ARMA e di
volerne capire le propriet.
La seconda applicazione, forse pi importante, quella della costruzione di un modello
data una serie storica. La serie storica viene usata per calcolare lacf (lautocorrelazione
empirica). Chiamiamola

1(,). Imaginiamo che essa soddis delle equazioni tipo Yule-Walker,
per ogni , 0:
1(,) =
j
I=1
c
I
1(, /) .
Consideriamo le prime j equazioni:
1(,) =
j
I=1
c
I
1(, /) , , = 1, 2, ..., j
e vediamole come equazioni, lineari, nelle incognite c
1
, c
2
, ..., c
j
. Risolvendole si trovano
questi coecienti, cio un modello AR empirico
_
1
j
I=1
c
I
1
I
_
A
t
= -
t
.
Questo metodo funziona in ipotesi di stazionariet del processo. Vedremo nei paragra pratici
sulluso del software che viene proposto un metodo alternativo (comando ar.ols, ols =
ordinary least squares) basato sullidea universale di ttare un modello ai dati tramite minimi
quadrati (si minimizza, al variare dei parametri incogniti del modello, la somma dei quadrati
dei residui, cio degli scarti tra i valori sperimentali veri e quelli forniti dal modello). Il metodo
dei minimi quadrati non richiede alcuna ipotesi di stazionariet, quindi pi essibile. Per
meno improntato allidea di struttura. Se vale la stazionariet, la ricerca dei coecienti
tramite le equazioni di Yule-Walker appare pi strutturale, meno soggetto alle uttuazioni
dovute ai valori particolari dellesperimento (anche se una quanticazione precisa di queste
frasi molto dicile, per cui vanno prese come indicazione di principio, che pu essere
disattesa in moti esempi). Certamente, se ad esempio si usano entrambi i metodi (nel caso
stazionario) ed i valori trovati per i coecieti sono simili, questa una bella indicazione di
bont del modello.
4.2.10 Funzione di autocorrelazione, complementi
Continuiamo ad assumere di esaminare un processo ARMA stazionario a media nulla, sotto
le ipotesi (4.5), per cui in particolare vale
A
t
=
o
i=0
,
i
1
i
-
t
.
Quindi possiamo calcolare 1
_
A
t)
_
1 +
q
I=1
,
I
1
I
_
-
t
anche per , _ , il caso non trattato

nella Proposizione 25.
Proposizione 26 Sotto le ipotesiprecedenti, per ogni , = 0, ..., vale
1(,)
j
I=1
c
I
1(, /) =
q)
i=0
,
i
,
i+)
o
2
.
Quindi, per ogni , _ 0 possiamo scrivere
1(,)
j
I=1
c
I
1(, /) =
o
i=0
,
i
,
i+)
o
2
1
i+)0,...,q
.
Proof. Posto ,
0
= 1, da una formula della dimostrazione della Proposizione 25 e dallidentit
A
t)
=

o
i=0
,
i
1
i
-
t)
, abbiamo
1(,)
j
I=1
c
I
1(, /) = 1
_
A
t)
q
I=0
,
I
1
I
-
t
_
=
o
i=0
q
I=0
,
i
,
I
1
_
1
i
-
t)
1
I
-
t
_
=
o
i=0
q
I=0
,
i
,
I
c
i+),I
o
2
=
o
i=0
,
i
,
i+)
o
2
1
i+)0,...,q
.
Questa una formula generale. Un approccio pi diretto al calcolo di 1
_
A
t)
_
1 +
q
I=1
,
I
1
I
_
-
t
anche per , _ consiste nella sostituzione del modello ARMA soddisfatto da A

t)
1
_
A
t)
_
1 +
q
I=1
,
I
1
I
_
-
t
_
= 1
__
j
I=1
c
I
1
I
A
t)
+
_
1 +
q
I=1
,
I
1
I
_
-
t)
__
1 +
q
I=1
,
I
1
I
_
-
t
_
.
I prodotti con fattori 1
I
-
t)
e 1
I
0
-
t
si calcolano facilmente. Il problema sono i prodotti del
tipo
1
_
1
I
A
t)
1
I
0
-
t
_
il pi dicile dei quali
1
_
1
1
A
t)
1
q
-
t
.
Se , _ , zero, altrimenti no, ma possiamo ripetere il trucco e procedere a ritroso passo a
passo. In esempi semplici possiamo calcolare 1(,) in questo modo.
Esempio 96 Si consideri
A
t
= cA
t1
+-
t
+,-
t1
.
Abbiamo
1(,) c1(, 1) = 0
per ogni , 1, ovvero
1(2) = c1(1)
1(3) = c1(2)
...
ma queste relazioni non permettono il calcolo di 1(1) ed 1(0) (mentre poi tutti gli altri
si calcolano iterativaemente). Per quanto riguarda 1(1), vale (usando il metodo illustrato
prima di sviluppare lesempio)
1(1) c1(0) = 1 [A
t1
(1 +,1) -
t
] = ,1 [A
t1
-
t1
]
= ,1 [(cA
t2
+-
t1
+,-
t2
) -
t1
] = ,o
2
.
Quindi 1(1) espresso in termini di 1(0). Inne
\ ar [A
t
] = a
2
\ ar [A
t1
] +o
2
+,
2
o
2
+ 2c,Co (A
t1
, -
t1
)
quindi
1(0) = a
2
1(0) +o
2
+,
2
o
2
+ 2c,Co (A
t1
, -
t1
) .
Inoltre,
Co (A
t1
, -
t1
) = Co (cA
t2
+-
t1
+,-
t2
, -
t1
) = o
2
quindi
1(0) = a
2
1(0) +o
2
+,
2
o
2
+ 2c,o
2
da cui calcoliamo 1(0).
4.2.11 Densit spettrale di potenza dei processi ARMA
Teorema 31 Sotto le ipotesi (4.5), se A un processo ARMA stazionario a media nulla,
che soddis le ipotesi del teorema di Wiener-Khinchin (Capitolo sui processi), allora
o (.) =
o
2
2
1 +
q
I=1
,
I
c
iI.
1
j
I=1
c
I
c
iI.
2
.
Proof. Ricordiamo che sotto lipotesi (4.5) la funzione q (r) =
1+
P
q
I=1
o
I
a
I
1
P
I=1
c
I
a
I
ha lo sviluppo di
Taylor q (r) =

o
)=0
,
)
r
)
in un intorno complesso l dellorigine che include il disco unitario
chiuso.
Abbiamo (indicando con Z
T
linsieme degli : Z tali che [:[ _ T,2)
A
T
(.) =
1
_
2
aZ
T
c
i.a
A
a
=
1
_
2
aZ
T
o
)=0
,
)
c
i.a
-
a)
A
+
T
(.) =
1
_
2
a
0
Z
T
o
)
0
=0
,
)
0 c
i.a
0
-
a
0
)
0
1
_
A
T
(.)

A
+
T
(.)
_
=
1
2
1
_
_

aZ
T
a
0
Z
T
o
)=0
o
)
0
=0
,
)
,
)
0 c
i.a
c
i.a
0
1
_
-
a)
-
a
0
)
0
_
_
=
o
2
2
aZ
T
o
)=0
o
)
0
=0
,
)
,
)
0 c
i.a
c
i.(a)+)
0
)
= [Z
T
[
o
2
2
o
)=0
o
)
0
=0
,
)
c
i.)
,
)
0 c
i.)
0
= [Z
T
[
o
2
2
a=0
,
a
c
i.a
2
.
La cardinalit [Z
T
[ di Z
T
ha la propriet lim
To
[Z
T
[ ,T = 1, quindi
o (.) =
o
2
2
a=0
,
a
c
i.a
2
.
Ora suciente usare la relazione
1+
P
q
I=1
o
I
a
I
1
P
I=1
c
I
a
I
=

o
)=0
,
)
r
)
per r = c
i.
. La dimostrazione
completa.
4.3. IL METODO DI HOLT-WINTERS 217
Osservazione 71 Si consideri il caso = 0. Scriviamo la formula con . = 2)
o ()) =
o
2
2
1
j
I=1
c
I
c
2iI)
2
.
Consideriamo il caso particolare in cui c solo il termine con / = j:
o ()) =
o
2
2
1
[1 c
j
c
2ij)
[
2
.
In questo caso i massimi si trovano per j) Z, cio ) =
1
j
e suoi multipli interi. la funzione
o ()) mostra con chiarezza la periodicit del modello
A
t
= a
j
A
tj
+-
t
.
Esempio 97 Per esempio, per il modello
A
t
= 0.8 A
t12
+-
t
troviamo
o ()) =
o
2
2
1
1 0.8 c
2i12)
2
0.0 0.1 0.2 0.3
0
1
2
3
4
x
y
PSD del modello A
t
= 0.8 A
t12
+-
t
4.3 Il metodo di Holt-Winters
Lo scopo principale di questa sezione quello di illustrare il metodo di Holt-Winters (HW),
partendo dalle versioni particolari dette dello smorzamento esponenziale (SE) e dello smorza-
mento esponenziale con trend (SET). Vista la grande variet di metodi di a quel punto dis-
porremo (includendo ovvimente gli ARIMA), si pone sempre pi urgentemente il problema
del confronto tra essi, che perci verr trattato al termine di questa sezione.
4.3.1 Metodo di Smorzamento Esponenziale (SE)
Indichiamo con r(t) il dato storico al tempo t, e con j (t) la previsione relativa al tempo t
(eettuata in un istante precedente; non la previsione che viene eettuata al momento t,
ma la previsione di ci che sarebbe dovuto accadere al tempo t eettuta prima del tempo t).
Cos j (t + 1) sar la previsione relativa al tempo t + 1, e cos via.
E utile pensare che t sia il tempo presente, t + 1 il futuro (primo tempo futuro), t 1 il
passato (ultimo tempo prima del presente).
Il Metodo di Smorzamento Esponenziale sceglie come previsione j (t + 1) del futuro una
media pesata tra la previsione j (t) del presente, fatta in precedenza, ed il valore attuale r(t)
della serie storica:
j (t + 1) = cr(t) + (1 c) j (t) .
Il parametro c (di solito) compreso tra 0 ed 1.
Se c = 1, signica che decidiamo come previsione futura il valore odierno: j (t + 1) = r(t),
cio la pura ripetizione del presente. Se ad esempio la serie r ha delle oscillazioni, queste
vengono riprodotte esattamente, in ritardo di ununit temporale.
Se c = 0, vale j (t + 1) = j (t), quindi j (t + 1) = j (t) = ... = j (1), cio la previsione
costante. Scegliamo come previsione una costante (nella migliore delle ipotesi la media dei
dati). Ignoriamo ogni struttura ulteriore, ogni variazione.
Se invece prendiamo c (0, 1), mediamo tra questi due estremi: otterremo una previsione
meno oscillante dei dati reali, ma non del tutto costante, lievemente concorde con lultimo
dato.
La prvisione j (t + 1) una media pesata tra un valore conservativo, j (t), ed uno innov-
ativo, r(t).
Unulteriore interpretazione viene dalla formula che si ottiene applicando la ricorsione:
j (t + 1) = cr(t) + (1 c) j (t)
= cr(t) + (1 c) (cr(t 1) + (1 c) j (t 1))
= cr(t) + (1 c) (cr(t 1) + (1 c) (cr(t 2) + (1 c) j (t 2)))
ecc. che si riscrive
j (t + 1) = cr(t) +c(1 c) r(t 1) +c(1 c)
2
r(t 2) +...
Vediamo che la previsione futura una media pesata di tutti i valori passati, con pesi che
descrescono esponenzialmente (da qui il nome SE). Si sceglie come previsione una media
pesata che d pi importanza agli ultimi valori rispetto ai precedenti. Quanta pi importanza,
lo decide c (c vicino ad 1 vuol dire molta pi importanza ai valori pi recenti).
Per certi versi somiglia ad un AR, ma lordine j teoricamente innito (anche se i pesi
esponenziali diventano insignicanti dopo un certo punto in poi), e la struttura dei pesi
ssata, dipendente solo da un parametro, c, invece che da j parametri indipendenti.
Difetto certo: se la serie storica r(t) ha un trend, per c = 0 il metodo darebbe una
costante, pessima previsione; per c = 1, viceversa fa il meglio che pu, ma pu solo inseguire
il trend in ritardo di ununit temporale (si pensi a due rette parallele).
4.3.2 Metodo di Smorzamento Esponenziale con Trend (SET)
Indichiamo sempre con r(t) il dato storico al tempo t e con j (t) la previsione relativa al tempo
t. Lidea ora di avere un comportamento rettilineo (trend lineare), almeno localmente. Se
siamo al tempo t, il presente, la previsione dei valori futuri j (t + 1), j (t + 2), ecc., in generale
j (t +i), con i = 1, 2, ecc. decisiamo che sia data dalla formula
j (t +i) = :(t) i +: (t)
(equazione della retta di coeciente angolare :(t) ed intercetta : (t). E utile pensare che
lasse delle ordinate sia collocato al tempo t, per farsi unidea graca.
Lidea di far dipendere : e : dal tempo basilare: vogliamo s una previsione con trend
lineare, ma dobbiamo poterla modicare nel tempo, se il trend cambia.
Mentre nel metodo precedente legavamo i valori futuri di j a quelli passati, ora leghiamo
i valori futuri delle grandezze ausiliarie : ed : a quelli passati. Continuiamo ad usare una
logica di media pesata tra un valore conservativo ed uno innovativo. Per il oeciente angolare
: la prima idea che viene in mente
:(t) = , (r(t) r(t 1)) + (1 ,) :(t 1)
media pesata tra il valore conservativo :(t 1) e quello innovativo r(t) r(t 1), che la
pendenza osservata sui dati dellultimo periodo. Ma cos ci si espone troppo alle uttuazioni
casuali dei dati: la pendenza r(t)r(t 1) pu deviare marcatamente dall pendenza media
dellultimo periodo. Serve una grandezza simile a r(t)r(t 1) ma pi stabile, meno esposta
alle uttuazioni causali. Essa : (t) : (t 1), come capiremo tra un momento.
Veniamo alla ricorsione per : (t). Se disegnamo un graco con due assi verticali delle
ordinate, uno al tempo t 1 ed uno al tempo t, vediamo che lintercetta al tempo t non deve
essere simile allintercetta al tempo t 1 ma al valore sulla retta :(t 1) i +: (t 1). I due
istanti t 1 e t distano di ununit, quindi : (t) giusto che sia legata a :(t 1) +: (t 1)
(cio i = 1). Questa la parte conservativa della ricorsione. La parte innovativa dire che
: (t) deve essere legato al valore vero r(t). Quindi : (t) sar una media pesata tra r(t) e
:(t 1) +: (t 1). In conclusione, le due equazioni ricorsive sono:
: (t) = cr(t) + (1 c) (:(t 1) +: (t 1))
:(t) = , (: (t) : (t 1)) + (1 ,) :(t 1) .
In pratica necessario calcolare prima : (t) dalla prima equazione, per poterlo sostituire nella
seconda.
Vediamo che il metodo proprio innovativo rispetto a SE ed anche agli AR.
Il metodo ottimo per catturare i trend. Ma se c anche unevidente periodicit, il
metodo non riesce a riconoscerla come tale, quindi la insegue come se fosse una modica
continua del trend, e commette troppi errori.
Inizializzazione di SE ed SET
Le equazioni per ricorrenza vanno inizializzate. Supponiamo che la serie temporale r(t)
parta da t = 1. Per SE, si tratta di stabilire j (1), la previsione al primo istante temporale.
In questo modo, se ci troviamo al tempo t = 1 (nostro presente) e conosciao quindi r(1),
potremo poi calcolare la previsione futura j (2):
j (2) = cr(1) + (1 c) j (1) .
Quando poi ci troveremo al tempo t = 2, che sar diventato il nostro presente, conosceremo
r(2) e potremo calcolare la previsione futura j (3):
j (3) = cr(2) + (1 c) j (2) .
E cos via. Il valore di inizializzazione j (1) abbastanza casuale da scegliere. Per semplicit
si pu prendere ad esempio j (1) = r(1).
Per SET, se ci troviamo al tempo t = 1 e vogliamo calcolare le previsioni j (1 +i),
i = 1, 2, ... servono i valori :(1) e : (1). Vista la natura di : descritta sopra (si pensi
al graco con lasse verticale per t = 1), naturale prendere : (1) = r(1). La pendenza
iniziale per indecidibile senza vedere il futuro, quindi scegliamo :(1) = 0, salvo abbiamo
informazioni diverse di tipo previsivo. Fatte queste scelte, possiamo calcolare le previsioni
j (1 +i) = :(1) i +: (1) , i = 1, 2, ...
Poi il tempo t = 2 diventer il nostro presente. Calcoleremo :(2) e : (2) con le formule (ora
r(2) noto)
: (2) = cr(2) + (1 c) (:(1) +: (1))
:(2) = , (: (2) : (1)) + (1 ,) :(1)
da usarsi nellordine scritto. Avendo calcolato :(2) e : (2), la previsione del futuro
j (2 +i) = :(2) i +: (2) , i = 1, 2, ...
Si noti che il valore
j (1 + 2) = :(1) 2 +: (1)
calcolato al tempo t = 1 ed il valore
j (2 + 1) = :(2) 1 +: (2)
sono entrambe delle previsioni relative al tempo t = 3. Ci deremo ovviamente pi della sec-
onda, in quanto basata su pi dati. per cos dire, :(2) 1+: (2) una sorta di aggiornamento
di :(1) 2 +: (1). Lo stesso vale per i valori successivi.
Si pu inizializzare SET in un secondo modo: attendere alcuni istanti in pi prima di
iniziare la previsione, ed utilizzarli per calcolare una retta di regressione, da usarsi come
stima iniziale della pendenza. Chiaramente, pi lungo il periodo iniziale che attendiamo,
pi precisa la stima della pendenza, quindi le previsioni inizieranno molto megli che con la
semplice posizione :(1) = 0. Ma anche vero che, se iniziamo allistante iniziale con :(1) =
0, dopo alcuni istanti questa anomalia sar stata automaticamente aggiustata dal metodo,
tramite le iterazioni che correggono di volta in volta : tramite i valori degli incrementi
: (t) : (t 1). Quindi alla ne le cose si equivalgono abbastanza: i primi istanti o non
vengono proprio previsti oppure sono previsti un po male; i successivi vengono previsti
piuttosto bene.
4.3.3 Smorzamento esponenziale con trend e stagionalit (Holt-Winters)
Di questo metodo esiste una versione per stagionalit additiva ed una per quella moltiplica-
tiva; descriviamo solo questultima, essendo laltra del tutto simile e forse pi elementare. Si
ipotizza il modello
r(t) = (at +/) 1(t) +- (t)
con 1(t) funzione periodica di periodo 1. Per capire nel modo pi semplice possibile come
sono state idete le equazioni ricorsive del modello, ngiamo di non avere il rumore - (t), quindi
di lavorare sullequazione
r(t) = (at +/) 1(t).
Idealmente, si introduce la grandezza ausiliaria j(t) =
a(t)
1(t)
che soddisfa
j(t) = at +/.
A questa possiamo applicare quindi lo smorzamento con trend. Detta j
j
la previsione di j e
detti :
j
, :
j
i valori calcolati dal metodo SET relativamente ad j, si trova
j
j
(t +i) = :
j
(t) i +:
j
(t)
dove (si noti che c j (t) e non r(t))
:
j
(t) = cj (t) + (1 c) (:
j
(t 1) +:
j
(t 1))
:
j
(t) = , (:
j
(t) :
j
(t 1)) + (1 ,) :
j
(t 1) .
Il problema che per innescare questo sistema bisogna conoscere j(t) e per questo bisognerebbe
conoscere
a(t)
1(t)
, mentre 1(t) per ora incognita. Lidea di stimare anche la funzione periodi-
ca 1 in modo iterativo, cos da aggiustarla se il caso. Allora al posto di j(t) si mette
o(t)
1(t1)
,
immaginando che nella struttura iterativa che troveremo alla ne il valore 1(t 1) sia noto
(e riteniamo sia una buona approssimazione di 1(t) in quanto cerchiamo una 1 periodica).
Poi bisogna creare unequazione iterativa per 1. Unidea ispirata alla losoa dello
smorzamento esponenziale
1 (t) =
r(t)
j(t)
+ (1 ) 1(t 1)
(si ricordi la denizione j(t) =
a(t)
1(t)
; se non si mettesse alcun termine legato al passato
useremmo lequazione 1 (t) =
a(t)
j(t)
). Per non conosciamo j(t). Noti per :
j
(t) ed :
j
(t),
:
j
(t) una stima di j(t). In denitiva, si arriva al sistema:
: (t) = c
r(t)
1(t 1)
+ (1 c) (:(t 1) +: (t 1))
:(t) = , (: (t) : (t 1)) + (1 ,) :(t 1)
1 (t) =
r(t)
:(t)
+ (1 ) 1(t 1)
dove abbiamo smesso di indicare j a pedice in quanto ormai usiamo queste equazioni come
equazioni nali per stimare r.
Inizializzazione di HW
Linizializzazione qui pi complessa. Serve 1 su un intero periodo per innescare literazione.
Allora si sacrica il primo periodo (a volte pi di uno), su quello si trova una retta di
regressione
. (t) = at +/
e la si usa come se fosse una stima di j(t). Quindi dalla denizione j(t) =
a(t)
1(t)
si stima
1(t) =
r(t)
at +/
.
In denitiva, per t = 1, 2, ..., 1 si prendono questi valori di 1 e poi si pone :(1) = a1 + /,
:(1) = a. Si comincia quindi a prevedere il valore al tempo 1 + 1.
4.3.4 Confronto tra modelli previsionali: i) cross-validation
In generale, con questo nome si intende lidea di suddividere il set di dati in due parti, la
prima chiamata training set, la seconda chiamata test set. Si usa poi il training set per
contruire il modello, con esso si eettuano le previsioni, e le si confrontano col test set. E
unidea utilizzabile in vari ambiti, non solo per le serie storiche.
Nel caso di serie storiche, bisogna scegliere due nestre temporali, successive una allal-
tra, prendendo come training set la prima, quella dei dati pi vecchi. Si veda lesempio
dellesercizio della lezione 13.
Il confronto tra due modelli si pu fare visivamente, oppure sulla base della deviazione
standard (o della varianza) degli errori o residui, quelli calcolati sul test set; si veda di nuovo
lesercizio della lezione 13.
Non necessario che le due serie (training e test sets) coprano tutta la serie nota. Pu
aver senso escludere una parte iniziale della serie nota, in quanto troppo vecchia e non pi
rappresentativa. Oppure escludere una parte nale (nel senso di non considerarla proprio,
non nel senso di prenderla come test set), se di nuovo anomala, non rappresentativa di
situazioni tradizionali; quanto accade nellesercizio della lezione 13: usando come test set
gli ultimi due anni, che coincidono proprio col periodo di crisi economica, tutti i metodi
sbagliano parecchio le previsioni e quindi risulta abbastanza vanicato il contronto tra essi.
(Per inciso, si noti come questa analisi sia una conferma della presenza della crisi eco-
nomica, nonche un modo per quanticarla: si vede ad esempio che i mesi coi valori pi alti
vengono sovrastimati, nella previsione, di un 30%, cio ci che si perso in quei mesi a causa
della crisi; invece i mesi medio-bassi sono rimasti pressoche inalterati.)
Quando parliamo di modello, in genere c lequivoco tra modello in quanto classe dipen-
dente da parametri, oppure specico esempio con certi valori dei parametri. Nel senso:
modello di Holt-Winters (come classe) oppure il modello HW con c = 0.3, , = 0.5, = 0.1
(singolo modello specico). Bene, la cross-validation confronta modelli nel primo senso, classi.
Infatti, quando andiamo a determinare i parametri del modello tramite training set, trovere-
mo parametri diversi da quelli del modello basato su tutta la serie storica (modello che usiamo
per le vere predizioni future). Quindi, alla ne della cross-validation, non avremo confrontato
quello specico modello HW con parametri calcolati su tutti i dati, con lo specico modello
AR calcolato sugli stessi. Avremo confrontato la classe HW con la classe AR, relativamente
alla serie storica in oggetto.
Quindi, forse, la cross-validation non va usata troppo di no. Nellesercizio n.9, i valori
di o sono quasi uguali (rispetto allunit di misura del problema, dellordine di 100) ed anche
gracamente le previsioni sembrano molto simili, pur essendo abbastanza sbagliate tutte
e due. Quindi non ha molto senso concludee che HW migliore per via del piccolissimo
vantaggio in o. Invece, una grossa dierenza in cross-validation pu essere una chiarissima
indicazione che un certo metodo inadatto per un certo tipo di serie storica. Ad esempio,
SET non certo adatto alla serie assai periodica dei motorcycles, lo capiamo a priori. Ma se
non avessimo questa (ovvia) intuizione, applicando la cross-validation avremmo una conferma
schiacciante.
4.3.5 Confronto tra modelli previsionali: ii) metodo del conitto di in-
teressi
Con questo nome, non tradizionale ed usato qui in senso scherzoso, indichiamo una variante
delle idee precedenti di uso estremamente comune. In essa non si suddivide il set di dati in
due parti, ma lo si usa sia come training set sia come test set! Sarebbe giusto replicare subito:
ma ovvio che un modello costruito su certi dati far delle buone previsioni di essi stessi (da
qui il nome del paragrafo). Ancor peggio: se ho una serie storica di 125 dati, posso costruire
un modello a 125 parametri che descrive i dati nel modo migliore possibile: la serie storica
stessa! Il suo errore di previsione relativo ai dati stessi nullo.
Ma ovviamente, tale modello (la serie stessa) del tutto inutile per previsioni future; non
ha catturato alcun elemento strutturale da poter replicare. E il problema dellovertting.
Da qui nasce la necessit di cercare un trade-o tra precisione del modello sui dati stessi
ed economia del modello in termini di numero di parametri. Il coeciente AIC risponde a
questa esigenza. Comunque non di questo che vogliamo parlare.
Nonostante la critica detta sopra, scelti a priori un certo numero di modelli base, tipo HW,
AR con AIC ottimale, decomposizione con stl per / = 6 (per esempio), si sta implicitamente
ponendo una limitazione al grado di precisione raggiungibile, al numero di parametri, per cui
ha senso valutare le performances relative di questi metodi, gli uni rispetto agli altri.
Ci non esclude che, ad esempio, variando / in stl, si migliorino le performances, ma in
tal caso bisogna stare attenti allovertting. Ad esempio, per / molto piccoli, la componente
periodica di stl quasi uguale alla serie stessa, e quindi stiamo cadendo nel paradosso descritto
sopra: essa ha praticamente gli stessi gradi di libert della serie originaria. I residui saranno
piccolissimi. Ma il suo potere previsivo per il futuro quasi nullo: possiamo al massimo
replicare lultimo anno tale e quale, cosa che potevamo fare anche senza stl.
Fatte tutte queste premesse, che mettono in guardia dal trarre conclusioni troppo sicure
dalle risposte oerte da questo metodo, vediamone limplementazione.
Passo 1: si applica la classe di modelli scelta (HW, AR ecc.) sulla serie training, trovando
i parametri del modello (es. c, ,, per HW, oppure lordine j ed i coecienti a
1
, ..., a
j
per
AR con AIC).
Passo 2: si calcolano i residui, relativi al periodo noto della serie ( come usare la serie
stessa come test set), esclusa la fase iniziale di inizializzazione; a volte, per calcolare i residui,
bisogna prima calcolare esplicitamente le previsioni, altre volte il calcolo della previsione
rimane implicito e si calcolano direttamente i residui. Torniamo in dettaglio su questo punto
tra un momento.
Passo 3: si calcola la deviazione standard o
.
dei residui, che descrive lo scostamento
tipico, lungo il periodo noto, tra previsioni date dal modello e dati veri. Se si fa tutto questo
relativamente a diversi modelli, sarebbe meglio escludere un intervallo comune iniziale di
valori (anche se non strettamente necessario, in quanto o
.
gi tiene conto del numero di
dati). Il modello migliore (secondo questa losoa del conitto di interessi) quello con o
.
pi basso.
Notiamo che equivalente calcolare la varianza dei residui, o
2
.
, oppure la varianza spiegata
1
o
2
.
o
2
A
dove o
2
A
la varianza dei dati. Naturalmente vince il modello con la maggior varianza
spiegata.
Alcuni commenti sul passo 2. In pratica, i residui dei modelli che stiamo studiando (es.
quelli dellesercizio della lezione 13) ci sono forniti dal software, usando i comandi appropriati
(vedere lhelp dei singoli comandi). Per, teoricamente, di cosa stiamo parlando? Vediamo i
tre metodi separatamente.
Decomposizione. La serie storica nota A
t
viene scomposta nella somma di trend,
stagionalit e residui
A
t
= T
t
+o
t
+-
t
.
Per residuo al tempo t, qui si intende ovviamente il numero -
t
. Potremmo anche dire che
T
t
+o
t
la previsione al tempo t, ma superuo.
AR. Si ipotizza che la serie storica nota A
t
soddis lequazione ricorsiva
A
t
= a
1
A
t1
+... +a
j
A
tj
+-
t
(eventualmente dopo aver sottratto un valor medio j). Per residuo al tempo t, qui si intende
il numero -
t
, calcolabile dai dati come dierenza tra il valore vero A
t
e quello previsto
a
1
A
t1
+... +a
j
A
tj
:
-
t
= A
t
(a
1
A
t1
+... +a
j
A
tj
) .
HW. Qui i residui si vedono in modo pi indiretto. Literazione coinvolge grandezze
ausiliarie, : (t), :(t), 1 (t), che usano i dati per essere aggiornate. Note queste grandezze al
tempo t 1, si calcola la previsione j (t) del valore al tempo t con la formula
j (t) = 1 (t) (:(t 1) +: (t 1))
e poi i residui con la formula
-
t
= A
t
j (t) .
Comunque, come dicevamo, lo fa il software, basta saperlo chiedere.
4.4. METODI REGRESSIVI 225
4.3.6 Esercizi sul confronto tra modelli previsionali
Gli esercizi che seguono si riferiscono allesercizio n. 9 della sezione seguente.
Esercizio 28 Applicare la cross-validation come nellesercizio n. 9, ma prevedendo un paio
di anni attorno al 2007, a partire dai precedenti.
Esercizio 29 Usare il metodo SET per lesempio dellesercizio n. 9 e valutare le sue prestazioni
rispetto a HW, tramite cross-validation.
Esercizio 30 Usare il metodo SET ed il metodo HW sulla serie dei cereali e valutare le
prestazioni con la cross-validation.
Esercizio 31 Relativamente ai dati dellesercizio dellesercizio n. 9,
i) estrarre i residui dai metodi HW, AR, stl
ii) ritagliare una nestra comune (escludere un tratto iniziale comune)
iii) calcolare la varianza spiegata nei tre casi, osservando quale migliore.
4.4 Metodi regressivi
Lesposizione qui di questo argomento pone dei problemi di consequenzialit, in quanto si basa
tecnicamente sulla regressione lineare multipla che verr descritta nel capitolo di statistica
multivariata. Ci limitiamo quindi ad alcune idee, che devono essere riprese.
4.4.1 AR come regressione lineare multipla
Un modello di regressione lineare multipla un modello della forma
1 = a
1
A
1
+... +a
j
A
j
+/ +-
dove le v.a. A
1
, ..., A
j
sono dette fattori, predittori, input, la v.a. 1 loutput, la grandez-
za da predire, da spiegare, la variabile dipendente, - un termine aleatorio di errore, e
a
1
, ..., a
j
, / sono i coeciendi del modello (/ lintercetta). La logica quella di avere una
v.a. 1 di cui vorremmo capire di pi; nel momento in cui valga un modello regressivo del
tipo descritto, capiamo che 1 inuenzata dai fattori A
1
, ..., A
j
, secondo lampiezza dei co-
ecienti a
1
, ..., a
j
. La variabilit di 1 , precedentemente oscura, viene parzialmente spiegata
dal modello (parzialmente, in quanto c sempre il termine di errore casuale -).
La forma algebrica di queste equazioni evidentemente molto simile a quella dei modelli
AR(j):
A
t
= c
1
A
t1
+... +c
j
A
tj
+/ +-
t
solo che qui le diverse variabili compongono un unico processo stocastico. Ma la logica
la stessa appea descritta per la regressione: si immagina che i valori assunti da A
t
siano
inuenzati, spiegati dai valori di A
t1
, ..., A
tj
, tramite i pesi c
1
, ..., c
j
, a meno dellerrore
-
t
.
E quindi chiaro che, una volta che saranno note le procedure di calcolo della regressione
lineare, queste possono essere applicate ai modelli AR(j). Siccome quelle procedure sono
improntate al metodo dei minimi quadrati, in sostanza come se si stesse applicando il
comando ar.ols ad una serie storica.
4.4.2 Implementazione con R
Anticipando luso del comando lm che esegue la regressione lineare multila, descriviamo
limplementazione con R di quanto ora spiegato. Iniziamo col modello AR(1)
r
I
= a
1
r
I1
+/ +-
I
.
Dato il vettore x di lunghezza :, si devono costruire due vettori di lunghezza : 1, ovvero
x0<-x[2:n]
x1<-x[1:(n-1)]
Poi si esegue la regressione REG<-lm(x0~x1). Essa pone in relazione lineare il primo termine
di x0 come output col primo termine di x1 come input, che sono r
2
e r
1
, e cos via, no
allultimo termine di x0 con lultimo termine di x1, che sono r
a
e r
a1
.
Per il modello AR(2)
r
I
= a
1
r
I1
+a
2
r
I2
+/ +-
I
si introducono
x0<-x[3:n]
x1<-x[2:(n-1)]
x2<-x[1:(n-2)]
e si esegue REG<-lm(x0~x1+x2). La scelta fatta dei vettori pone in relazione lineare il primo
termine di x0 come output, che r
3
. coi primi termini di x1 e x2 come input, che sono r
2
e
r
1
, e cos via.
Per il modello
r
I
= a
1
r
I1
+a
12
r
I12
+/ +-
I
si introducono
x0<-x[13:n]
x1<-x[12:(n-1)]
x12<-x[1:(n-12)]
e si esegue REG<-lm(x0~x1+x12). La scelta fatta dei vettori pone in relazione lineare il primo
termine di x0 come output, che r
13
. coi primi termini di x1 e x12 come input, che sono r
12
e r
1
, e cos via.
Dati questi comandi, possiamo leggere in summary(REG) le caratteristiche della regressione
appena eseguita, come ad esempio la varianza spiegata 1
2
, limportanza dei diversi fattori
(tanto maggiore quanto pi piccolo il corrispondente 1r( [t[)) e possiamo leggere i valori
dei coecienti a
1
, ..., /. Tali valori sono anche estraibili col comando REG$coefficients[i]
dove per i = 1 si ottiene lintercetta /, per i = 2 si ottiene il primo dei coecenti a e cos via.
Noti i coecienti, possiamo usare il modello per fare delle previsioni.
4.4.3 Previsione col modello regressivo
Bisogna distinguere tra due scopi previsivi entrambi importanti: il pi naturale ovviamente
quello di voler prevedere il futuro; ma per motivi tecnici anche molto importante osservare
come i metodi o modelli che stiamo usando si comportano nel prevedere il passato gi noto.
Questa bipolarit apparir spesso nel seguito.
Per uniformare un po le notazioni, introduciamo il seguente modo di lavorare, che per
non obbligatorio (si possono seguire notazioni e convenzioni diverse). Sia X il vettore di
lunghezza : che rappresenta la nostra serie storica. Introduciamo un vettore P che rappresenta
la previsione. Se vogliamo solamente vedere come metodo si comporta nel prevedere i dati
noti, prenderemo P della stessa lunghezza di X. Quindi un modo ovvio di crearlo P=X. Se
invece vogliamo prevedere il futuro, ad esempio i prossimi 12 mesi, prenderemo come P un
vettore di lunghezza : + 12, creabile con P=1:(n+12). Naturalmente i vettori P cos creati
non contengono ancora le previsioni: sono come dei contenitori vuoti.
Previsione dei valori futuri tramite modelli lineari
Iniziamo col problema della previsione futura. Procediamo per esempi.
Consideriamo il modello pi semplice:
r
I
= a
1
r
I1
+/ +-
I
.
e supponiamo di aver eseguito la regressione REG<-lm(x0~x1). Posto
a1<-REG$coefficients[2]
b<-REG$coefficients[1]
P[1:n]<-X
eseguiamo il ciclo di for
for (k in (n+1):(n+12)){
P[k]=a1*P[k-1]+b
}
Il vettore P conterr nella prima parte, da 1 a :, la serie storica nota, mentre nella seconda
parte, da :+1 a :+12, conterr la previsione dei prossimi 12 mesi. Per capire che abbiamo
calcolato le cose giuste, si ragioni passo a passo:
per / = : + 1, la previsione P[n+1] del modello lineare deve essere data dalla forma
del modello stesso, cio uguale ad a
1
r
a
+ /, ovvero a a1*X[n]+b, che coincide con
a1*P[n]+b in quanto abbiamo posto P[1:n]<-X;
per / = :+2, la previsione P[n+2] del modello lineare deve essere data dalla forma del
modello stesso, cio uguale ad a
1
r
a+1
+/, ma r
a+1
non lo conosciamo (i dati arrivano
solo no al tempo :), quindi al suo posto usiamo la previsione al tempo : + 1, quindi
a1*P[n+1]+b; e cos via.
La generalizzazione ad altri modelli pi complicati abbastanza immediata. Vediamo ad
esempio il modello
r
I
= a
1
r
I1
+a
12
r
I12
+/ +-
I
.
Eseguita REG<-lm(x0~x1+x12), poniamo
b<-REG$coefficients[1]
P[1:n]<-X
e poi eseguiamo il ciclo di for
for (k in (n+1):(n+12)){
P[k]=a1*P[k-1]+a12*P[k-12]+b
}
Tutto questo ha senso se : _ 12.
Fatte le previsioni, nasce il desiderio di ragurare la serie storica insieme alle previsioni.
Con i comandi
ts.plot(P, col = red)
lines(X, col=blue)
si ottiene in blu il graco dei dati noti ed in rosso la previsione dei 12 mesi successivi. Se
avessimo anche i dati noti dei 12 mesi successivi, detto X2 il vettore complessivo dei dati noti,
basterebbe usare X2 al posto di X nel precedente comando.
Una nota necessaria: in alcune applicazioni macroeconomiche le cose vanno bene come in
questo esempio, in quanto si studiano grandezze molto stabili nel tempo, ottenute mediando
su tantissimi sottosistemi (qui la grande distribuzione di alimentari a livello nazionale). Se
invece si studiano problemi a scala pi piccola, come le vendite di un prodotto di una media
impresa, le cose cambiano e le previsioni diventano assai meno precise.
Previsione mese per mese
Sopra, in esempi del tipo 24 dati noti e 12 futuri incogniti, abbiamo eseguito la previsione di
tutti i 12 mesi futuri in blocco. Stiamo immaginando di trovarci a dicembre di un certo anno
e voler prevedere le vendite dellanno successivo, per fare un esempio.
Diversamente, un modello lineare pu essere usato mese per mese, man mano che si hanno
nuovi dati veri. A ne dicembre 2008, eseguiamo pure la previsione di tutto il 2009, ma poi,
a ne gennaio 2009, noto il valore vero di gennaio, potremo migliorare le previsioni del resto
del 2009: ad esempio, per il mese di febbraio 2009, invece di usare la formula
P[febbr09]=a1*P[genn09]+a12*X[febb08]+b
useremo la formula pi precisa
P[febbr09]=a1*X[genn09]+a12*X[febb08]+b
in cui si fa uso del valore vero di gennaio 2009.
Limplementazione con R della previsione mese per mese va fatta appunto mese per mese,
non si pu scrivere in blocco allinizio: ogni mese si deve adattare la formula generale usando
i nuovi dati acquisiti ovunque possibile nella formula. Se ad esempio ci fosse un termine del
tipo a
6
r
I6
, cio una periodicit semestrale (rara ma presente in certi fenomeni pi legati a
scelte sistematiche), useremmo a6*P[k-6] no al sesto mese 2009, ma dal settimo potremmo
usare a6*X[k-6].
4.4.4 Variabili esogene, cross-correlazione, modelli ARX
Tra le caratteristiche uniche di questa metodologia (quella che implementa gli AR tramite la
regressione) c la possibilit di inserire, tra i predittori, serie storiche diverse da quella data,
serie che riteniamo possano essere utili per la previsione della serie data. Possiamo quindi
creare modelli del tipo (detti ARX, caso particolare degli ARIMAX)
r
I
= a
1
r
I1
+... +c
1
.
I1
+... +/ +-
I
dove .
1
, ..., .
a
unaltra serie storica (ovviamente si possono usare, come predittori, diverse
serie storiche). Ad esempio, si pu immaginare che il costo di certi beni di consumo siano
inuenzati dal prezzo del petrolio nel mese precedente. Allora r
I
il costo del bene in oggetto,
.
I1
il prezzo del petrolio nel mese precedente, r
I1
il costo del bene considerato, relativo
al mese precedente. E chiara la essibilit di questo metodo. Purtroppo la sua applicazione
pratica richiede pazienza ed arte.
Prima di buttarsi nelluso di tali modelli conviene assicurarsi che ci sia un legame tra le
serie storiche che si vogliono mettere insieme, qui chiamate .
1
, ..., .
a
e r
1
, ..., r
a
. Il concetto di
cross-correlazione introdotto nel capitolo sui processi stocastici molto utile a questo scopo.
Esso calcola la correlazione tra le due serie (opportunamente troncate), con tutte le traslazioni
possibili. In altre parole, per ogni / = 1, ..., : 1 calcola la correlazione tra le serie
.
1
, ..., .
aI
r
I+1
, ..., r
a
Naturalmente il risultato statisticamente sigicativo solo per / basso. Il software R, tramite
il comando ccf, esegue questo calcolo anche per / negativi. Attenzione quando lo si usa:
lordine con cui si danno le due serie al comando ccf essenziale; per / positivi si vedr la
correlazione tra luna e le traslazioni in avanti dellaltra, e viceversa, ma come essere sicuri
dellordine? Rileggendo lhelp del comando. Esso recita: The lag k value returned by ccf(x,y)
estimates the correlation between x[t+k] and y[t]. Quindi, supponiamo che si voglia scoprire
se una certa serie storica x inuisce su una y qualche mese dopo (i valori di x di gennaio si
ripercuotono sui valori di y di marzo, e cos via, ad esempio). Allora ccf(x,y) con k=-2 ci dice
come x[t-2] collegata a y[t].
Se la correlazione tra .
1
, ..., .
aI
e r
I+1
, ..., r
a
elevata (vicina ad 1), allora queste serie
hanno un legame. Se lo riteniamo sensato dal punto di vista applicativo, possiamo estrapolare
che .
1
, ..., .
aI
inuisca su r
I+1
, ..., r
a
e che quindi abbia senso impostare un modello ARX,
che spiega la serie r non solo attraverso la propria struttura ricorsiva, ma anche facendo uso
del predittore ..
Molto utile, come output della ccf, scoprire per quali / la correlazione maggiore.
Questi ci dicono con che ritardo la serie . inuisce su r (se di inuenza si pu parlare, si
vedano gli avvertimenti nel capitolo sulla regressione). Infatti, ad esempio, se ragionevole
pensare che il prezzo del petrolio inuenzi il prezzo di certi beni di consumo, il ritardo
temporale con cui questo avviene magari non ovvio a priori e pu essere desunto dalle serie
storiche guardando i picchi della ccf.
Un avvertimento. Relativente ad una serie di dati, se si aumenta lordine j del metodo
AR, oppure se si introducono predittori come ora descritto, chiaro che un poco aumenter
la precisione con cui il modello descrive i dati noti. Ma non detto che questo corrispoda ad
una realt stutturale. Quindi, se la precisione aumenta pochissimo dopo aver introdotto un
predittore questo probabilmente signica che esso non inuisce realmente, solo ttiziamente.
4.5 Fit di una densit
Uno dei problemi pi comuni nelle applicazioni della probabilit quello di trovare una
densit di probabilit che descriva adeguatamente un fenomeno, di cui si conoscono alcuni
dati sperimentali. Ad esempio, note le vendite giornaliere per 20 giorni lavorativi, si pu
tentare di trovare una densit che descriva i dati abbastanza accuratamente.
Avere tale densit utile per vari scopi, incluso quello di calcolare intervalli in cui cadranno
i valori con elevata probabilit, soglie utili per dimensionamento di servizi, magazzini, ecc.
Questo argomento di pu applicare ad esempio alle serie storiche. Prendiamo ad esempio
la serie storica delle esportazioni di veicoli, lezioni 3 e seguenti. Prendiamo la serie IT3
registrata nel le R della lezione 4 (si apra ad esempio il le R della lezione 12, che ci servir
anche nel seguito). Osserviamola con ts.plot: ha un andamento piuttosto complesso, non
facile da prevedere, come abbiamo poi visto nelle varie lezioni. Un modo un po sommario di
fare previsioni future pu essere il seguente:
1. si escludono gli anni troppo distanti nel tempo, non pi rappresentativi, conservando
solo gli ultimi, ad esempio si conservano solo gli ultimi 4 anni (globalmente c un trend
a crescere, ma negli ultimi 4 anni non cos accentuato)
2. si ignora la struttura temporale, leventuale stagionalit, e si usano i 48 dati come
fossero 48 registrazioni passate, tutte rappresentative di un generico mese futuro in cui
vogliamo prevedere le esportazioni
3. si cerca una densit che descriva i 48 dati
4. una volta trovata, possiamo ad esempio calcolare un intervallo in cui cadono le es-
portazioni con probabilit 90%; se ad esempio ci interessa sapere che le esportazioni
sono maggiori di una certa soglia minima ` al 90%, cerchiamo il quantile al 10% della
densit trovata.
Oppure, pi ranatamente, se si possiede un buon modello della serie storica, come
avviene ad esempio per la serie dei motorcycles, lezione 12 e seguenti (si trova nel le R della
lezione 12), si pu lavorare nel seguente modo:
1. si usa il modello prescelto per fare previsioni
2. si considerano i residui (del passato) e si cerca una densit che li descriva; anche qui
eventualmente si possono considerare solo i residui recenti, se sembra opportuno da una
loro analisi graca
3. una volta trovata una densit che descrive i residui, la si usa per calcolare intervalli
simili a quelli discussi sopra, ricordandosi che tali intervalli vanno centrati nel valore
previsto col modello di previsione.
4.5. FIT DI UNA DENSIT 231
4.5.1 Istogrammi e cumulative empiriche
Per prima cosa, raguriamo qualche istogramma del campione. Un istogramma una
sorta di densit empirica. Solo che non univocamente determinato a partire dai dati:
dipende dalle classi che si usano. I seguenti comandi vanno applicati al le R della lezione
12. Come detto sopra, visualizziamo la serie delle esportazioni di veicoli, detta IT3, col
comando ts.plot(IT3), decidiamo di usare solo gli ultimi 48 dati, li selezioniamo con
I.rec<-IT3[(168-48):168], li ri-plottiamo per sicurezza con ts.plot(I.rec), poi vediamo
due istogrammi con par(mfrow=c(1,2)) ; hist(I.rec); hist(I.rec,10):
Si pu anche fare un plot della cumulativa, con plot.ecdf(I.rec).
4.5.2 Metodi parametrici e metodi non parametrici
Luso di un metodo parametrico consiste nella scelta di una classe (Weibull, normale, ecc.)
caratterizzata da pochi parametri (di solito 2) e ricerca dei parametri pi opportuni in quella
classe; confrontando i risultati relativi a pi classi.
I metodi non parametrici consistono nella ricerca della densit in classi di funzioni denite
da moltissimi gradi di libert. In realt anche queste classi sono parametrizzate, ma con un
insieme di parametri di dimensione cos elevata (a volte teoricamente innita) da raggiungere
un elevatissimo grado di essibilit ed adattamento ai dati.
Gli istogrammi fatti sopra possono servire a orientarci nella ricerca della classe, per i
metodi parametrici.
Riguardo ai metodi non parametrici, i comandi sono:
require(KernSmooth)
density <- bkde(I.rec, kernel = normal, bandwidth=20)
plot(density, type=l)
Essi caricano il package KernSmooth (kernel smoothing) che non tra quelli usuali, quindi
non viene caricato di default. Questo package si occupa di trovare densit di probabilit non
parametriche, usando procedimenti di smoothing basati su opportuni kernel. Leggendo lhelp
vediamo che ci sono vari kernel. Nel graco successivo ne abbiamo usato un altro.
Il pregio di questo metodo di adattarsi ai dettagli dellistogramma. Ad esempio una
bi-modalit. Si possono sovrapporre con
hist(I.rec,10,freq=FALSE)
lines(density, type=l)
4.5.3 Stima dei parametri
Supponiamo di aver scelto una classe e di voler determinare i parametri ottimali.
Ci sono varie strade. Le due pi classiche sono il metodo di Massima Verosimiglianza ed il
metodo dei momenti. In alternativa, ad esempio, si possono ottimizzare i parametri secondo
un indicatore da noi scelto, come la distanza 1
1
descritta nel seguito. Qui descriviamo solo
la massima verosimiglianza.
Data una densit ) (r), dato un possibile risultato sperimentale r
t
, il numero ) (r
t
) non
la probabilit di r
t
(essa zero). Viene per detta la verosimiglianza di r
t
.
Dato poi un campione r
1
, ..., r
a
, il prodotto
1(r
1
, ..., r
a
) = ) (r
1
) ) (r
a
)
porta il nome di verosimiglianza di r
1
, ..., r
a
. Dietro la scelta del prodotto c un pregiudizio
di indipendenza del campione, che andr valutato caso per caso.
Quando la densit dipende da alcuni parametri, diciamo ad esempio a, :, scriveremo
) (r[a, :) ed anche 1(r
1
, ..., r
a
[a, :), alludendo informalmente ad una sorta di concetto di
densit condizionata (in statistica bayesiana esattamente cos).
Il metodo di massima verosimiglianza (ML, Maximum Likelihood) prescrive quanto segue:
dato il campione r
1
, ..., r
a
, trovare la coppia (a, :) che massimizza 1(r
1
, ..., r
a
[a, :).
Se si trattasse di probabilit, sarebbe come dire: sotto quale scelta dei parametri, il
campione pi probabile?
Siccome quasi tutte le densit sono legate alla funzione esponenziale e comunque a prodot-
ti, algebricamente conviene calcolare il logaritmo: log 1(r
1
, ..., r
a
[a, :). Massimizzare il
logaritmo equivalente.
Se la funzione derivabile in (a, :), e leventuale massimo allinterno del suo dominio di
denizione, deve valere
\
(o,c)
log 1(r
1
, ..., r
a
[a, :) = 0.
Queste sono le equazioni di ML. In vari casi, esse sono esplicitamente risolubili. In altri casi,
si deve ricorrere a metodi numerici di ottimizzazione.
Il software R formisce un comando in grado di calcolare le stime di ML dei parametri
di molte classi, sia nei casi esplicitamente risolubili sia in quelli numerici. E il comando
fitdistr. Applichiamolo ai nostri casi:
require(MASS)
fitdistr(I.rec, weibull)
fitdistr(I.rec, normal)
Questultimo calcola semplicemente:
mean(Medi)
sd(Medi)
4.5.4 Confronto graco tra densit e istogrammi e Q-Q plot
Il primo confronto graco da fare tra istogramma e densit ottenuta col t. Ad esempio
a<-...
s<-...
(i valori ottenuti con fitdistr(I.rec, weibull))
x<-...
(qui bisogna scegliere un intervallo opportuno, cosa che si fa osservando listogramma)
hist(I.rec,10,freq=FALSE)
y<-dweibull(x,a,s)
lines(x,y)
Il secondo confronto graco quello del qqplot. Per spiegare questo metodo bisogna
premettere il concetto di quantile, di per s fondamentale.
4.6. ESERCIZI SULLE SERIE STORICHE 233
E linverso della cdf. In tutti gli esempi da noi trattati, la cdf 1 (r) una funzione
continua e strettamente crescente (salvo magari essere costantemente nulla per r < 0, e
costantemente pari a 1 per r 1). Allora, dato c (0, 1), esiste uno ed un solo numero reale
c
tale che
1 (
c
) = c.
Il numero
c
verr detto quantile di ordine c. Se ad es. c = 5%, viene anche detto quinto
percentile (se c = 25%, 25
percentile, e cos via). Inoltre, 25
percentile, 50
percentile, 75
percentile vengono anche detti primo, secondo e terzo quartile.

La seconda premessa consiste nel dichiarare con chiarezza come si costruisce la cdf em-
pirica

1 (r): dato il campione r
1
, ..., r
a
, lo si ordina in modo crescente e, detto r
t
1
, ..., r
t
a
il
risultato, si pone
1
_
r
t
i
_
=
i
:
.
A volte si preferisce prendere
1
_
r
t
i
_
=
i 0.5
:
per trattare pi simmetricamente il primo e lultimo valore.
Se un campione provenisse da una cdf 1 (r), dovremmo avere che

1 (r
t
i
) circa uguale
a 1 (r
t
i
). Applicando ad ambo i termini la funzione inversa di 1, che la funzione quantile,
otteniamo che
b
1(a
0
.
)
dovrebbe essere circa uguale a r
t
i
=
1(a
0
.
)
. Ma allora i punti
_
r
t
i
,
b
1(a
0
.
)
_
staranno allincirca sulla bisettrice del primo quadrante. Basta quindi rappresentare questi
punti per avere unidea della bont della densit scelta. Il qqplot il graco di questi punti
_
r
t
i
,
b
1(a
0
.
)
_
.
Per tracciare un qqplot, quindi, bisogna disporre di due stringhe: i dati r
t
i
riordinati ed
i quantili .
n
, o numeri molto vicini (tanto limportante leetto graco, non il dettaglio
numerico). Il software ordina da solo i dati, quando si usa il comando qqplot. Basta quindi
usare il comando (ad es. per la Weibull):
qqplot(qweibull((1:48)/49,a,s),I.rec)
4.6 Esercizi sulle serie storiche
Nei seguenti esercizi si devono scaricare dati da rete, creare le, analizzare i dati ed eseguire
previsioni co software R. Dopo le sottosezioni degli esercizi c un breve appendice con sug-
gerimenti pratici sulluso di R, soprattutto per quanto riguarda la gestione delle cartelle e le
di ciascun esercizio ed il caricamento dati.
4.6.1 Esercizio n. 1 (veicoli 1; fasi iniziali)
Percorso da eseguire: aprire Eurostat, Statistics Database, Statistics by theme, Ex-
ternal trade, database, External trade detailed data, EU27 Trade since 1995 by BEC;
select data, FLOW: export, INDICATORS: VALUE_IN_EUROS, PARTNERS: US,
PERIOD: all, PRODUCT: 510 (TRANSPORT EQUIPMENT AND PARTS AND AC-
CESSORIES THEREOF / PASSENGER MOTOR CARS), REPORTER: DE, FR, GB,
IT; update, viewtable, period: sort ascending (se necessario); download come le Excel,
copiata la pagina su proprio le export_veicoli.xls foglio 1.
Predisposizione cartella di lavoro: dove risulta pi comodo, creare una cartella Es-
ercizio1, dove salvare export_veicoli.xls e creare un documento word (o simile) con
comandi, commenti, ecc.
Caricamento in R:
1) aprire R, pulire usando rimuovi tutti gli oggetti sotto varie.
2) Copiare su R il comando IT <- scan(clipboard,dec=,) senza dare linvio.
3) Copiare dal le export_veicoli.xls foglio 1, i dati italiani da gennaio 1995 a dicembre
2005.
4) Tornare su R e dare invio. I dati sono caricati. Per vederli: ts.plot(IT)
(Nota: se i dati su Excel sono scritti in modo particolare, R pu non riconoscerli come
numeri. Ad esempio, 11.849.488 non dovrebbe andargli bene, mentre 11849488 s.
Bisogna allora modicare lo stile su Excel, nella parte relativa a Numero)
5)Salvare questo le nella cartella Esercizio1, con salva area di lavoro, usando ad es. il
nome Esercizio1.RData.
6) Chiudere il software, rispondendo no a salva area di lavoro?.
7) Riaprire R tramite licona di R che ora visibile nella cartella suddetta (le Eser-
cizio1.RData).
La fase preliminare terminata.
Eseguita questa fase preliminare, provare di nuovo:
ts.plot(IT)
Arricchire il graco con le date:
IT2 <- ts(IT, frequency=12,start=c(1995,1)); ts.plot(IT2)
Nota: il comando ts(IT, frequency=12,start=c(1995,1)) non ha solo attribuito le
date ma ha eseguito una modica strutturale alla stringa di numeri IT: le ha attribuito
una frequenza, a nostra scelta (siamo noi a decidere che, trattandosi di valri mensili, la
frequenza naturale 12). Questo nuovo attributo, la serie IT2 se lo porter dietro sempre e
sar essenziale per il funzionamento di alcuni comandi R di analisi e previsione che possono
lavorare solo su serie con frequenza prestabilita.
Fatte queste operazioni generali, ottenuto cio nalmente il graco, lo si osservi con
attenzione, meditando su tutte le caratteristiche che saltano allocchio. Evidente ad esempio
il trend crescente. E anche evidente una periodicit annuale (ma su questa torneremo).
Qualcosa per non va bene in questo graco: cosa?
4.6.2 Esercizio n. 2 (veicoli 2; decomposizione, stagionalit)
Creare una cartella Esercizio2, copiarci export_veicoli.xls e creare un le per comandi
e commenti.
Aprire il le export_veicoli.xls, copiare lintera tabella su foglio 2, depurare la tabella
dei valori annuali cumulati (eliminare proprio le colonne).
Aprire R dalla cartella Esercizio1, salvarlo col nome Esercizio2.RData nella cartella
Esercizio2 (magari uscire e riaprire).
Copiare il comando IT3 <- scan(clipboard,dec=,) su R, senza dare linvio.
Copiare i dati italiani (gennaio 1995, dicembre 2005) di questa nuova tabella, tornare
su R e dare invio. I dati sono caricati. Salvare di nuovo il le con lo stesso nome (va
riscritto).
Per vedere i dati:
ts.plot(IT3)
Per vederli con le date:
IT4 <- ts(IT3, frequency=12,start=c(1995,1)); ts.plot(IT4)
Iniziamo lanalisi della serie storica. Primi elementi: autocorrelazione
acf(IT4)
acf(IT4,30)
Non evidenzia marcate periodicit. Come mai?
Possiamo esaminare se ci sono periodicit locali. Prendiamo solo i dati degli ultimi 4
anni:
IT5<-window(IT4,2002)
acf(IT5,30)
Nemmeno cos emerge nulla di rilevante.
Vediamo in un colpo solo trend, periodicit e residui:
plot(decompose(IT4))
I valori delle componenti sono rilevanti per capirne limportanza. Si possono vedere anche
numericamente scrivendo
decompose(IT4)
Il comando decompose esegue una decomposizione globale; la periodicit la stessa lungo
tutta la serie. Invece, il seguente comando esegue una decomposizione locale:
plot(stl(IT4, 6))
Cambiare il parametro 6 osservando le dierenze.
Da queste prime indagini non si capisce bene se ci sia una struttura annuale. Lacf
non la rileva. Questi due comandi di decomposizione producono comunque, di default, una
componente periodica, ma si osservi quanto essa piccola rispetto alle altre componenti. Il
trend invece rilevato in modo essenziale da questi due metodi. Si osservi anche che nulla
univoco: trend ecc. variano, se pur di poco, al variare del metodo e del parametro di stl.
La periodicit annuale di questa serie davvero poco evidente. Per assicurarci di come
stanno le cose, analizziao al microscopio, ad occhio, la struttura annuale:
par(mfrow=c(1,2))
ts.plot(window(IT4, start=c(2004,1), end=c(2004,12)),type=b)
Intanto commentiamo i comandi. Il comando par(mfrow=c(h,k)) crea nestre grache
con / righe e / colonne di sotto-disegni. Attende che gli vengano dati / / comandi di plot,
che metter nella griglia. Attenzione che il comando resta inserito, per cos dire, anche nelle
elaborazioni successive, per cui se nella nestra graca successiva si vuole ad esempio un plot
singolo, lo si deve richiedere esplicitamente con par(mfrow=c(1,1)).
Il comando window(IT4,...) ritaglia una nestra, quella relativa alle speciche scritte
nel comando. Si veda ?window per ulteriori dettagli.
La specica type=b (si veda ?plot per tutte le alterntive possibili) disegna il grco con
both l ines and points (altrimenti con type=l si ottenevano solo l ines e con type=p si ot-
tenevano solo points). Quando si vuole vedere un grco al mocroscopio conviene usare
entrambi perch danno entrambi informazioni: le linee danno la visione dinsieme, i punti
permettono di vedere i singoli valori (si noti che a volte due linee successive di un graco a
linee sono allineate o quasi e quindi non si percepisce dove sta il punto si suddivisione, se non
lo si disegna esplicitamente).
Fatti questi commenti sul software, torniamo allanalisi della serie. I due anni, 2004 e
2005, mostrano assai poco in comune. Hanno un generico trend crescente, ma questo solo
il sottoprodotto del trend generale crescente, non una stagionalit. Forse gli ultimi 3 valori
annuali hanno un pattern simile, ma poca cosa (volendo la si potrebbe estrapolare). Si
provino altri confronti, per capire di pi ad esempio
da cui emerge che agosto il mese peggiore (cos non stato per nel 2004!), mentre
ad esempio il pattern degli ultimi tre valori si perso, quindi forse non vale la pena di
evidenziarlo. Si facciano altre prove. E essenziale conoscere la serie che si studia nei minimi
dettagli.
Per scoprire empiricamente le opportunit oerte dal software R si provi anche decompose
moltiplicativo:
plot(decompose(IT4, type = multiplicative))
Cercare nella guida le formule di decompose, ad esempio digitando ?decompose, per capire
la dierenza teorica tra i due metodi.
Salvare il le nuovamente, altrimenti IT4 non rester registrato per il futuro.
Per riassumere questo esercizio: abbiamocercato in tutti i modi di capire se ci fosse una
stagionalit da sfruttare per le previsioni future. Forse c qualche traccia, ma non cos
accentuata.
4.6.3 Esercizio n. 3 (veicoli 3; previsione tramite decomposizione)
Creare una cartella Esercizio3 e creare un le per comandi e commenti.
Aprire R dalla cartella Esercizio2, salvarlo col nome Esercizio3.RData nella cartella
Esercizio3 (magari uscire e riaprire).
Sotto varie, vedere elenco degli oggetti: compaiono IT, IT3, IT4 e fore altri, dipenda
dai salvataggi eseguiti). Se non compaiono, sono stati sbagliati dei salvataggi negli
esercizi precedenti.
In questo esercizio cerchiamo di fare la previsione dei dati del 2006, utilizzando solo gli
strumenti visti no ad ora. Decidiamo, a titolo di esercizio, di vole prevedere tutto il 2006,
non solo il primo mese successivo ai valori noti.
Metodo 0: ricopiare gli ultimi valori. Nella sezione introduttiva abbiamo citato il metodo
banale di previsione j
a+1
= r
a
, la copia dellultimo valore. Volendo una previsione di un
anno, ricopiamo tutto lanno precedente, il 2005. Sappiamo ritagliarlo col comando
anno2005 <- window(IT4, start=c(2005,1), end=c(2005,12))
oppure, essendo lultimo, con il comando abbreviato
anno2005 <- window(IT4,2005)
Incolliamolo poi alla serie IT4:
IT6 <- c(IT4,anno2005)
ts.plot(IT6)
e poi arricchiamo con le date:
IT7 <- ts(IT6, frequency=12,start=c(1995,1)); plot(IT7)
Dal punto di vista graco non male. Cerchiamo ora di fare altre previsioni.
Metodo 1: ad occhio. Al posto del vettore anno2005, inserire un vettore
P<-c(...,...,...,...,...,...,...,...,...,...,...,...)
scelto da noi ad occhio come possibile previsione. Conviene fare questo esercizio per
realizzare le nostre capacit previsive e le dicolt che si incontrano (si rilegga lintroduzione
al capitolo). Modicare i valori del vettore P in modo da ottenere un risultato che torni bene
visivamente.
Metodo 2: tramite la scomposizione ottenuta con stl(IT4, k) (il parametro / a scelta).
Se indichiamo con A la serie storica, T il trend, o la componente stagionale, - lerrore, legati
da
A = T +o +-
dobbiamo estrapolare in avanti di un anno T ed o, che chiamiamo T
+
ed o
+
, e denire la
previsione
1 = T
+
+o
+
.
Intanto, si esegua (prendiamo / = 6 per provare)
DEC <- stl(IT4, 6); plot(DEC)
Poi si esegua
T <- DEC$ time.series[,2]; plot(T)
da cui riconosciamo che T il trend; analogamente
S <- DEC$ time.series[,1]; plot(S)
la componente stagionale. Dobbiamo ora estrapolare una previsione ragionevole T
+
ed
o
+
e poi sommarle. Circa o
+
, la cosa pi semplice e naturale ricopiare lultimo periodo:
S.star <- window(S,2005); ts.plot(S.star,type=b)
Circa T
+
, in questo primo esercizio sullargomento ci limitiamo ad usare una retta di
regressione, forse lo strumento pi semplice per estrapolare una curva. Il problema sta nella
scelta della nestra su cui fare la regressione. Riguardando il graco di T si vede che se
consideriamo lultimissimo periodo, diciamo solo il 2005, la retta sar pi pendente, se usiamo
invece 2004 e 2005 sar un po meno pendente e cos via. Non c ovviamente una regola
matematica, la matematica qui non centra niente. Dobbiamo decidere noi se riteniamo che
il futuro, lanno 2006, sar pi simile al 2005 o genericamente ad un passato pi ampio.
Forse si potrebbe propendere per luso del solo 2005 se si considera che la pendenza andata
sempre crescendo, di anno in anno, quindi usare per il 2006 una pendenza minore di quella del
2005 un controsenso. Al tempo stesso, lanalista che conosca il mercato specico di questo
prodotto industriale, potrebbe essere al corrente di informazioni tendenziali che lo portino ad
essere pi prudente.
In assenza di idee migliori, o comunque per sviluppare un tentativo no in fondo, estrapo-
liamo linearmente il solo 2005. Dobbiamo usare qui i comandi R relativi alla regressione, che
verranno ripresi pi avanti:
L <- length(IT4)
x<-(L-12):L; y <- IT4[(L-12):L]
reg <- lm(y ~x)
a <-reg$coefficients[2]; b<-reg$coefficients[1]
T.star <- a*((L+1):(L+12))+b
Vediamo intanto il risultato complessivo:
P <- S.star+ T.star
ITP <- c(IT4,P); ITP1 <- ts(ITP, frequency=12,start=c(1995,1)); plot(ITP1)
Forse ad occhio un po troppo ottimista. La scelta della regressione solo sul 2005
forse non corretta. La ragione forse che la stima del trend del 2005 fatta dal coman-
do stl potrebbe essere poco attendibile, toppo locale per cos dire, e quindi non andrebbe
estrapolata.
Si notino le innumerevoli possibilit di scelta che abbiamo: vari metodi, e solo nellultimo
possiamo cambiare / in stl, oppure la nestra su cui fare la regressione.
Esercizio: fate la vostra scelta. Ci si deve immergere nel senso di responsabilit che ha
un operatore a cui chiesto di fare una previsione, su cui si baseranno investimenti, politiche
aziendali. Fate una previsione su cui potreste sommettere.
4.6.4 Esercizio n. 4 (veicoli 4; modelli AR)
Creare una cartella Esercizio4, creare un le per comandi e commenti, aprire R dalla
cartella Esercizio3, salvarlo col nome Esercizio4.RData nella cartella Esercizio4 (magari
uscire e riaprire). Se lesercizio 3 stato svolto correttamente, chiedendo elenco degli
oggetti compaiono IT, IT3, IT4 (ed altri).
In questo esercizio iniziamo lo studio della serie IT4 tramite modelli ARIMA, o pi
precisamente modelli AR (auto regressivi). Si digiti
?ar
Dare una lettura molto sommaria al contenuto e forma di questo comando (alla lunga,
bisogner abituarsi a leggere lhelp di R).
Usare il comando (aic lindice di Akaike):
ar.best <- ar(IT4, aic = T)
ar.best
ed osservare il risultato:
Call:
ar(x = IT4, aic = T)
Coecients:
1 2 3 4 5 6 7 8 9 10 11 12
0.37 0.24 0.07 0.05 0.30 0.01 -0.14 -0.03 -0.09 -0.06 -0.10 0.31
Order selected 12 sigma^2 estimated as 4.715e+13
La varianza dei residui, ottenibile anche col comando ar.best$var, pari a 4.715c + 13.
Il comando ha scelto il modello col miglior AIC. Il modello
(A
a
j) = a
1
(A
a1
j) +. . . +a
12
(A
a12
j) +-
a
dove j =mean(IT4) e la varianza dellerrore appunto la varianza non spiegata.
Dobbiamo spiegare vari concetti. Cosa sia lindice di Akaike e cosa sia la variaza spiegata,
in vista del giudizio sul modello trovato che discuteremo sotto.
1) Il criterio di Akaike (Akaike Information Criterion, AIC) consiste nel calcolare
1C = 2/ +:log (1oo)
dove / il numero di parametri del modello ed : il numero di osservazioni, e scegliere il
modello col minor 1C. A volte il software calcola delle grandezze legate in modo ane
formula precedente (es. 2/ + :log (21oo,:) + : che dierisce dalla precedente per una
costante), che comunque assolvono lo stesso scopo di confrontare diversi modelli tra loro. La
quantit 1C pu anche essere negativa (log (1oo) pu essere arbitrariamente negativo).
Per questo, spesso il software calcola 1C rispetto ad un valore di riferimento (cio aggiunge
una costante) in modo da avere valori positivi. Se si stanno confrontando metodi, si pu
prendere l1C del modello migliore come punto di riferimento.
Se si minimizzasse solo 1oo lasciando libero il numero di parametri, si troverebbe il j
massimo possibile e si cadrebbe in overtting (pessimo per la predizione). Se si minimizzasse
solo /, si troverebbe sempre il modello banale A
a
= /, / dato dalla media dei dati. Diventa
come un problema di minimizzazione multiobiettivo. Si minimizza la somma per cercare una
situazione intermedia. Si prende log (1oo) invece che 1oo per riportare il valore di 1oo ad
un livello comparabile con / (questo commento vago, d solo lidea del problema).
2) La varianza spiegata un concetto di carattere generale, che ritroviamo nei pi svariati
contensi, e deve essere denito volta per volta a seconda del contesto. Per una serie storica
r
1
, ..., r
a
, da un lato c la varianza (empirica) della serie, che indichiamo con o
2
A
, dallaltro,
una volta trovato un modello (es. A
a
= T
a
+o
a
+-
a
), si pu calcolare la varianza (empirica)
dei residui -
1
, ..., -
a
, , che indichiamo con o
2
1
. Concettualmente, la prima, o
2
A
, rappresenta
limprevedibilit dei dati originari, la seconda, o
2
1
, limprevedibilit rispetto a ci che pu
prevedere il modello, cio limprevedibilit rimasta dopo aver scoperto il modello. Allora
la grandezza
S
2
T
S
2
^
rappresenta la percentuale di imprevedibilit rimasta dopo aver scoperto
il modello, mentre la percentuale di imprevedibilit spiegata dal modello, detta varianza
spiegata,
varianza spiegata = 1
o
2
1
o
2
A
Per convenzione, col termine varianza spiegata si intende la percentuale di varianza spiegata,
che ha il pregio di essere un numero tra 0 ed 1, quindi a carattere universale, per cos dire:
possiamo cio apprezzare la bont di un metodo sia rispetto ad un altro (per questo bastava
la varianza dei residui) sia rispetto ad una generica esperienza sviluppata su tanti esempi.
Volendo, si potrebbe anche impostare un test statistico, su questo indicatore universale.
Dopo queste precisazioni, torniamo allesercizio.
Avendo scoperto il modello, possiamo usarlo ad esempio per fare delle predizioni (pi
avanti).
La varianza della serie originaria
var(IT4)
[1] 1.546497e+14
Per cui la cosiddetta varianza spiegata, cio 1
ov(vccio&i)
ov(1T4)
,
varianza.spiegata <- 1- ar.best$var/var(IT4)
varianza.spiegata
[1] 0.695
Abbiamo catturato circa il 70% della variabilit delle esportazioni. Resta un 20% di
variabilit che per noi del tutto casuale, imprevedibile, non compresa.
Possiamo tracciare in sovrapposizione le due serie (quella dei valori veri e quella prodotta
dal modello):
ar.best.values <- IT4-ar.best$resid
ts.plot(ar.best.values,IT4,col=c(red,black))
Il risultato graco mostra i limiti della soluzione trovata (forse non per colpa nostra ma
a cusa dellarbitrariet delle uttuazioni). La previsione (in rosso) tende ad essere una sorta
di media locale dei valori, non cattura le uttuazioni.
Svolgiamo un esercizio di carattere accademico:
x<-rnorm(10000)
xx <- ts(x, frequency=12,start=c(1995,1)); ts.plot(xx)
ar(xx, aic = T)
Call:
ar(x = xx, aic = T)
Order selected 0 sigma^2 estimated as 0.9973
Il comando ar funziona: ha riconosciuto di avere a che fare con un white noise, cio un
AR(0).
Esercizio per esperti. Con un po di fatica di programmazione, possiamo calcolare la
serie prodotta dal modello, non come dierenza tra la serie vera ed i residui, ma usando
il modello stesso; e poi tracciare in sovrapposizione le due serie. Mostriamo tale risultato
e quello precedente in un unico disegno. Chi se la sente, svolga lesercizio senza leggere le
seguenti istruzioni.
ord<- ar.best$order
a <- ar.best$ar
P<-IT4
for (k in (ord+1):length(IT4)) {
P[k] <- sum(rev(a)*IT4[(k-ord):(k-1)])+mean(IT4)*(1-sum(a))
}
par(mfrow=c(2,1))
ts.plot(P,IT4,col=c(red,black))
ar.best.values <- IT4-ar.best$resid
ts.plot(ar.best.values,IT4,col=c(red,black))
4.6.5 Esercizio n. 5 (veicoli 5; proseguimento sugli AR)
Creare una cartella Esercizio5, creare un le per comandi e commenti, aprire R dalla
cartella Esercizio4, salvarlo col nome Esercizio5.RData nella cartella Esercizio5 (magari
uscire e riaprire). Se lesercizio 5 stato svolto correttamente, chiedendo elenco degli
oggetti compaiono per lo meno IT, IT3, IT4.
Primo scopo di questa lezione introdurre il comando ar.ols, spiegando cosa non va
nelluso di ar fatto precedentemente.
La serie che stiamo esaminando visibilmente non stazionaria; bisognerebbe quindi anal-
izzarla con metodi che accettano la non-stazionariet. La teoria AR tradizionale legata
alla stazionariet ed il metodo di t dei coecienti del comando ar, method = yule-walker
(di default), basato su formule teoriche che dipendono da questa ipotesi, le equazioni di
Yule-Walker descritte nella sezione ARIMA. Se la serie fosse stazionaria, il metodo di Yule-
Walker sarebbe plausibimente migliore. Ma il nostro esempio non stazionario ed il metodo
di Yule-Walker diventa privo di fondamento. Se per si usa un metodo di t pi banale, come
i minimi quadrati dei residui, il modello AR pu essere applicato anche a casi non stazionari.
Questo ci ch fa il comando ar.ols.
Si pu agire in due modi: o si usa method = ols (ordinary least squares) in ar, oppure
si usa direttamente la funzione ar.ols.
?ar.ols
(da leggere sommariamente)
ar.ols.best <- ar.ols(IT4, aic = T)
ar.ols.best
Call:
ar.ols(x = IT4, aic = T)
Coecients:
(riportiamo per brevit solo quelli con valore assoluto 0.1
5 6 9 10 11 12 15 17 18 19
0.29 0.11 -0.11 -0.11 -0.11 0.28 0.16 0.17 0.29 0.28
Intercept: 4842084 (834852)
La varianza dei residui solamente pari a 2.589c + 13 contro il 4 : 715c + 13 del metodo
ar. Il comando ha scelto il modello col miglior AIC ed usato proprio la somma dei quadrati
dei residui come criterio da minimizzare, per questo tale varianza migliorata. Il modello
(A
a
j) = a
1
(A
a1
j) +. . . +a
19
(A
a12
j) +-
a
dove j = mean(IT4). La varianza spiegata
varianza.spiegata <- 1- ar.ols.best$var/var(IT4)
varianza.spiegata
[1,] 0.83
Abbiamo catturato l83% della variabilit delle esportazioni, molto meglio che con laltro
metodo. Vediamo come appaiono i t:
ar.ols.best.values <- IT4-ar.ols.best$resid
ts.plot(ar.ols.best.values, IT4,col=c(red,black))
Il modello osa un po di pi, in termini di uttuazioni, ma bisogna ammettere che a livello
graco faremmo fatica ad esprimere una preferenza (questo mostra lutilit di certi indicatori
numerici come la varianza spiegata).
Apprendiamo ora una interessante ragurazione nuova legata ai modelli AR. Intanto
calcoliamo il modello ottimale AR(19):
ar.ols.19<-ar.ols(IT4, order.max=19)
poi calcoliamo
ar.ols.19$aic
Esso fornisce la dierenza tra l1C del modello con quel numero di parametri ed 1C
del modello migliore, quello ttato. Siccome parte da / = 0, per ragurarlo dobbiamo usare
i numeri da 0:
plot(0:(length(ar.ols.19$aic)-1),ar.ols.19$aic)
Ad esempio, si vede che con 2, 3 e 4 parametri si otterrebbe un 1C che si discosta
sensibilmente da quello ottimale mentre prendendo 5 parametri si ottiene un 1C decisamente
pi vicino a quello ottimale. Poi le cose peggiorano aumentando il numero dei parametri
(perch, pur diminuendo la varianza dei residui - che diminuisce sempre per denizione di
ottimo -, aumenta il numero di parametri e questo sbilancia in negativo l1C), no a quando,
inserendo il 12
parametro, 1C migliora decisamente, diventando quasi uguale a quello

ottimale. Aumentando ulteriormente il numero di parametri si complica il modello per niente,
no a quando, con 18-19 parametri c di nuovo un miglioramento. Per potremmo anche
accontentarci di un modello pi parsimonioso.
Concludiamo che IT4 si tta gi ragionevolmente con order.max =5, altrimenti order.max
=12.
Esercizio: eseguire questi comandi per lesempio del white noise ed osservare la crescita
sostanzialmente lineare di AIC (vedi denizione: il termine di RSS circa costante visto che
nessun modello migliora AR(0)).
Esercizio: eseguire il comando ar.ols con order.max =5 oppure order.max =12 e vedere
i miglioramenti in termini di varianza spiegata, anche a confronto con quello ottimo. Quale
scegliereste?
Soluzione.
ar.ols.5 <- ar.ols(IT4, order.max=5)
ar.ols.5
Call:
ar.ols(x = IT4, order.max = 5)
Coecients:
1 2 3 4 5
0.1862 0.1701 0.1041 0.1652 0.3993
Intercept: 1119648 (536239)
var.sp.5 <- 1- ar.ols.5$var/var(IT4)
var.sp.5
[1,] 0.7714451

ar.ols.12
Call:
ar.ols(x = IT4, order.max = 12)
Coecients:
1 2 3 4 5 6 7 8
0.1111 0.0989 0.0941 0.1154 0.3582 0.1207 -0.0415 -0.0006
9 10 11 12
-0.0744 -0.0395 -0.0457 0.3892
Intercept: 1799768 (601055)
var.sp.12 <- 1- ar.ols.12$var/var(IT4)
var.sp.12
[1,] 0.8006854
Ovviamente non c una regola di scelta, ma visto che 12 il numero di mesi dellanno e
quindi un modello di ordine 12 ha uninterpretazione pi naturale e potrebbe essere pi real-
istico per le predizioni rispetto ad un modello pi articioso che si adattato eccessivamente
ai dati particolari, visto inoltre che la sua varianza spiegata gi circa l80%, lo potremmo
preferire.
Riassumiamo come procedere con i modelli AR:
i) vedere lordine migliore con ar.ols(IT4, aic = T)
ii) vedere comunque come migliora AIC usando plot(0:(length(ar(IT4, aic =
T)$aic)-1),ar(IT4, aic = T)$aic)
iii) eventualmente scegliere (sulla base del graco AIC) modelli pi parsimoniosi di
quello ottimale ma gi sucientemente precisi.
Inne, eettuiamo la previsione con questi tre modelli: ar.ols.5, ar.ols.12, ar.ols.19. I
comandi sono:
pred.5 <- predict(ar.ols.5, n.ahead=12) ; ts.plot(IT4, pred.5$pred, lty=c(3,1))
Naturalmente la scelta dicile.
4.6.6 Esercizio n. 6 (veicoli 6; trend con SET; HW)
Creare una cartella Esercizio7, creare un le per comandi e commenti, aprire R dalla cartella
Esercizio6, salvarlo col nome Esercizio7.RData nella cartella Esercizio7.
Riprendiamo lesercizio 3 sulla previsione tramite decomposizione. Un punto debole di
quellesercizio era il metodo troppo sommario e casalingo di estrapolare il trend. Usiamo il
metodo SET a questo scopo.
Tramite la scomposizione ottenuta con stl(IT4, 6) (k=6 tanto per ssare un valore
intermedio) isoliamo trend e stagionalit:
T <- DEC$ time.series[,2]; plot(T)
S <- DEC$ time.series[,1]; plot(S)
Poi calcoliamo
HW <- HoltWinters(T,gamma=FALSE)
HW
Holt-Winters exponential smoothing with trend and without seasonal component.
Call:
HoltWinters(x = T, gamma = FALSE)
Smoothing parameters:
alpha: 1
beta : 1
gamma: FALSE
p <- predict(HW, 12, prediction.interval = TRUE)
plot(HW, p)
Il risultato in un certo senso non molto diverso da una regressione lineare, ma privo
di accorgimenti ad hoc e complicazioni viste allora. La previsione complessiva si ottiene
sommando la stagionalit:
S.star<-ts(window(S,2005), frequency=12,start=c(2006,1))
T.star <- p[,1]
P <- S.star+ T.star; ITP <- c(IT4,P); ts.plot(ITP)
Sore dello stesso ottimismo dellestrapolazione del trend eseguito con la regressione sul
2005. Si pu allentare questo ottimismo obbligando SET ad essere pi conservativo. Infatti,
il coeciente beta con cui viene riaggiornata la pendenza qui risultato uguale ad 1 ( quello
che il software, con le sue minimizzazioni di errore, ha decisio fosse la scelta migliore). Un
tale coeciente in pratica ignora il passato. Obblighiamolo noi a ricordare il passato:
HW.beta.new <- HoltWinters(T,beta=0.1,gamma=FALSE)
HW.beta.new
p.beta.new <- predict(HW.beta.new, 12, prediction.interval = TRUE)
plot(HW, p.beta.new)
Il risultato per solo poco diverso.
Vediamo uno scenario diverso, con / = 3:
T <- DEC$ time.series[,2]; S <- DEC$ time.series[,1]; HW <- HoltWinters(T,gamma=FALSE)
p <- predict(HW, 12, prediction.interval = TRUE); plot(HW, p)
S.star<-ts(window(S,2005), frequency=12,start=c(2006,1))
T.star <- p[,1]
P <- S.star+ T.star; ITP <- c(IT4,P); ts.plot(ITP)
Forse un po pi realistica della precedente.
Esaminiamo ora una variante. Cerchiamo il trend di IT4 direttamente col metodo SET,
senza prima decomporre:
HW.glob <- HoltWinters(IT4,gamma=FALSE)
plot(HW.glob)
Non va bene, un trend su scala temporale troppo breve.
Proviamo invece, a conclusione dellesercizio, ad applicare il metodo completo di Holt-
Winters (inclusa la periodicit) alla serie storica. Basta usare i comandi
HW.periodico <- HoltWinters(IT4)
HW.periodico
p.periodico <- predict(HW.periodico, 12, prediction.interval = TRUE)
plot(HW.periodico, p.periodico)
Non aatto irrealistica e non dierisce molto dai risultati dellesercizio precedente.
Con questo esercizio si conclude il nostro studio della serie IT4. Naturalmente ci sarebbero
altre cose da fare (es. il d dei residui), altre varianti da provare (es. fare la media di
varie previsioni), trarre le conclusioni su quale sia il metodo che ci sembra migliore, ed inne
prendere i dati veri del 2006 e confrontare! Si pu ad esempio calcolare la deviazione standard
della dierenza tra i dati veri e quelli previsti, per ciascun metodo, e vedere chi ha vinto.
4.6.7 Esercizio n. 7 (Motorcycles 1; decomposizione, AR)
Percorso: Eurostat, Statistics Database, Database by themes; Industry, trade and ser-
vices; Short-term business statistics (sts); Industry (NACE Rev.2) (sts_ind); Industry
production index (NACE Rev.2) (sts_ind_prod); Industry production index - monthly
data - (2005=100) (NACE Rev.2) (sts_inpr_m); select data: Italy; Nace R2: C3091
Manufacture of motorcycles; S_adj = GROSS; time= all (oppure dal 2000); update,
view table, sort ascending. Download come le Excel, copiata la pagina su proprio le
motorcycles.xls foglio 1.
Creare cartella Esercizio7 con le word o simile, le motorcycles.xls. Caricare stringa
dati da gennaio 2000 a dicembre 2007 (motorcycles relativi a Italia) in R con
Mot <- scan(clipboard,dec=,)
e trasformarla in M1 col comando
M1 <- ts(Mot, frequency=12, start=c(2000,1), end=c(2007,12))
Vericare con
plot(M1)
Salvare il le R col nome Esercizio7.RData, per il futuro.
Analisi della serie. La periodicit ora pi evidente, ad occhio. Esaminiamola quantita-
tivamente:
M1.dec <- decompose(M1); plot(M1.dec)
oppure:
M1.stl <- stl(M1, 6) ; plot(M1.stl)
acf(M1,30)
conferma lelevata periodicit annuale. Eseguiamo due analisi/predizioni, con metodi AR
e con Holt-Winters. La pi banale da eseguire Holt-Winters:
HW<-HoltWinters(M1)
HW
pred<-predict(HW,12)
ts.plot(M1, pred, lty=c(3,1))
Smoothing parameters:
alpha: 0.4034712
beta : 0.0482223
gamma: 0.8496734
Esaminiamo gli AR:
ar.ols.best <- ar.ols(M1, aic = T); ar.ols.best
Coecients:
1 2 3 4 5 6 7 8
0.3185 0.0216 0.1178 0.1493 -0.1315 0.0224 -0.0437 0.0281
9 10 11 12 13 14 15 16
-0.0486 0.0068 -0.0154 0.8868 -0.2547 -0.0119 -0.1464 -0.1458
17 18 19
0.0898 -0.0519 0.0354
Intercept: 1.425 (1.566)
Order selected 19 sigma^2 estimated as 148.9
Probabilmente 19 eccessivo. Esaminiamo lindice AIC:
M1.19<-ar.ols(M1, order.max=19)
plot(0:(length(M1.19$aic)-1),M1.19$aic)
Chiaramente 13 contiene un miglioramento drastico, mentre I ranamenti ulteriori pos-
sono essere trascurati a vantaggio delleconomicit del modello. Comunque per semplicit di
software usiamo tutto:
pred <- predict(ar.ols.best, n.ahead=12) ; ts.plot(M1, pred$pred, lty=c(3,1))
Praticamente lo stesso risultato di HW. Pur essendo due metodi completamente diversi,
il risultato stabile. E un ottimo risultato.
Salvare il le.
4.6.8 Esercizio n. 8 (Motorcycles 2; HW, AR; confronti)
Preparazione cartella: creare cartella Esercizio8 con le word o simile, le Esercizio8.RData
copiato dalla precedente. Controllare con list objects che ci sono Mot, M1.
Questo esercizio ha due scopi. Il primo quello di riassumere tre routines R apprese negli
esercizi passati, creando una sorta di schema di comandi che un analista pu rapidamente
usare in futuro su ogni serie (anche se sarebbe meglio soermarsi su ciascuno con attenzione.
Il secondo scopo illustrare il metodo di cross-validation per un confronto.
Previsioni. Sunto di tre metodi (serve per il futuro come schema di comandi):
Holt-Winters:
HW<-HoltWinters(M1); pred<-predict(HW,12); ts.plot(M1, pred, lty=c(3,1))
Modello AR (tipo ols) ottimale:
ar.ols.best <- ar.ols(M1, aic = T); pred <- predict(ar.ols.best, n.ahead=12)
; ts.plot(M1, pred$pred, lty=c(3,1))
Decomposione:
DEC <- stl(M1, 6); T <- DEC$ time.series[,2]; S <- DEC$ time.series[,1]
HW <- HoltWinters(T,gamma=FALSE); p <- predict(HW, 12); T.star <- p
S.star <- ts(window(S,2007), frequency=12, start=c(2008,1))
P <- S.star+ T.star; ts.plot(M1, P, lty=c(3,1))
Sono tutte ragionevoli e molto simili. E in eetti un esempio assai pi schematico di
quello degli esercizi 1-6.
Un motivo di questa concordanza il fatto che i dati recenti di questa serie storica sono
particolarmente regolari, in termini di trend e stagionalit. Come si sarebbero comportati i
metodi ad esempio sulla base dei dati no al 2004? Usiamo il procedimento di cross-validation,
prendendo la nestra 2000-2004 come training set, e lanno 2005 come test set.
Applichiamo i comandi alla serie ridotta, calcolando le previsioni, calcoliamo poi lo scarto
quadratico medio (SQM) tra previsioni e dati veri dellanno 2005. Vince il metodo con SQM
minore. Se lo scopo di questo studio capire quale modello tra i tre mediamente pi potente
nella previsione di questa serie storica, il procedimento andrebbe ripetuto con varie nestre
e magari andrebbero mediati i risultati, se non c univocit.
M.train <- window(M1, c(2000,1), c(2004,12)); M.test <- window(M1, c(2005,1),
c(2005,12))
HW.train<-HoltWinters(M.train); pred.train<-predict(HW.train,12)
ts.plot(window(M1, c(2000,1), c(2005,12)), pred.train, lty=c(3,1))
SQM.HW <- sd(M.test- pred.train); SQM.HW
10.45711
ar.ols.best.train <- ar.ols(M.train, ); pred.train <- predict(ar.ols.best.train,
n.ahead=12)
ts.plot(window(M1, c(2000,1), c(2005,12)), pred.train$pred, lty=c(3,1))
SQM.AR <- sd(M.test- pred.train$pred); SQM.AR
11.96519
Numericamente meglio HW, anche se dal disegno non sembra. Vediamo ad esempio con
la nestra 2000-2005:
c(2006,12))
HW.train<-HoltWinters(M.train); pred.HW<-predict(HW.train,12)
ar.ols.best.train <- ar.ols(M.train, aic = T); pred.AR <- predict(ar.ols.best.train,
n.ahead=12)
par(mfrow=c(1,2))
ts.plot(window(M1, c(2004,1), c(2006,12)), pred.HW, lty=c(3,1))
ts.plot(window(M1, c(2004,1), c(2006,12)), pred.AR$pred, lty=c(3,1))
SQM.HW <- sd(M.test- pred.HW); SQM.AR <- sd(M.test- pred.AR$pred)
c(SQM.HW, SQM.AR)
15.54804 22.12240
Davvero sorprendente come HW sia meglio di AR. Pu venire il dubbio che un modello
AR pi sintentico faccia meglio ma non cos:
c(2006,12))
HW.train<-HoltWinters(M.train); pred.HW<-predict(HW.train,12)
ar.ols.12.train <- ar.ols(M.train, order=12); pred.AR <- predict(ar.ols.12.train,
n.ahead=12)
par(mfrow=c(1,2))
ts.plot(window(M1, c(2004,1), c(2006,12)), pred.HW, lty=c(3,1))
ts.plot(window(M1, c(2004,1), c(2006,12)), pred.AR$pred, lty=c(3,1))
SQM.HW <- sd(M.test- pred.HW); SQM.AR <- sd(M.test- pred.AR$pred)
c(SQM.HW, SQM.AR)
15.54804 24.21524
Su questo problema HW davvero molto potente, come si pu vericare con altre com-
binazioni. Va per detto che HW un po una scatola nera, dal punto di vista modellistico,
mentre gli AR hanno una struttura pi esplicita.
4.6.9 Esercizio n. 9 (Veicoli e Motorcycles, densit dei residui)
Preparazione cartella: creare cartella Esercizio9 con le word o simile, aprire nuovo le
R
Aprire poi il le export_veicoli.xls dalla cartella Esercizio2, copiare il comando IT3 <-
scan(clipboard,dec=,) su R, senza dare linvio. Copiare i dati italiani (gennaio
1995, dicembre 2005), tornare su R e dare invio. Scrivere
IT4 <- ts(IT3, frequency=12,start=c(1995,1))
Aprire poi il le motorcycle.xls dalla cartella Esercizio7, copiare il comando Mot <-
scan(clipboard,dec=,) su R, senza dare linvio. Copiare i dati italiani (gennaio
2000, dicembre 2007), tornare su R e dare invio. Scrivere
M1 <- ts(Mot, frequency=12, start=c(2000,1))
Salvare il le R come le Esercizio9.RData
Cominciamo lesercizo ignorando la struttura della serie IT4, considerandola cio come un
campione speriementale delle esportazioni mensili di veicoli. Cerchiamone la distribuzione.
Oltre al calcolo dei due indicatori medi pi noti
mean(IT4); sd(IT4)
[1] 17723615
[1] 12435821
tracciamo un istogramma:
par(mfrow=c(1,2)) ; hist(IT4); hist(IT4,20)
La forma sicuramente pi Weibull che gaussiana, ma per sicurezza accertiamocene col
qqplot. Eseguiamo un t Weibull ed uno gaussiano:
require(MASS); fitdistr(IT4, weibull); fitdistr(IT4, normal)
Loading required package: MASS
shape scale
1.480863e+00 1.972954e+07
(9.522769e-02) (2.965822e+03)
mean sd
17723614.9 12388626.4
( 1078291.5) ( 762467.2)
Poi vediamo le due densit sovrapposte agli istogrammi:
a.w<- 1.48; s.w<-19729540; x<-(0:8000)*10000; y.w<-dweibull(x,a.w,s.w); hist(IT4,20,freq=FALSE);
lines(x,y.w)
m.g<-17723614.9; s.g<-12388626.4; x<-(0:8000)*10000; y.g<-dnorm(x,m.g,s.g);
hist(IT4,20,freq=FALSE); lines(x,y.g)
Esaminiamo I qqplot:
qqplot(qweibull((1:132)/133,a.w,s.w),IT4); qqplot(qnorm((1:132)/133,m.g,s.g),IT4)
(132 la numerosit dei dati)
Il t Weibull nettamente pi preciso, anche se non perfetto.
Mostriamo lutilit di questi calcoli. Calcoliamo il valore minimo delle esportazioni al
90%:
qweibull(0.1,a.w,s.w)
[1] 4312848
gen06 feb06 mar06
4.312.848 4.312.848 4.312.848
(ccc.)
Possiamo aermare che mediamente le esportazioni saranno pari a circa 17.723.614, con
valore minimo al 90% pari a circa 4.312.848. La deviazione standard di questa grandezza
molto elevata, 12435821, quindi sono stime molto imprecise.
Usiamo ora uno dei modelli, ad esempio AR(12). Dallesercizio 5:
pred.12 <- predict(ar.ols.12, n.ahead=12)
Questa la predizione. Di quanto pensiamo possa essere sbagliata, sulla base dei residui
del modello sui dati vecchi? ar.ols.12$resid restituisce i residui, che per iniziano da
gennaio 1996. Applichiamo le analisi precedenti a questi residui:
res <- ar.ols.12$resid[13:132]
par(mfrow=c(1,2)) ; hist(res); hist(res,20)
Com naturale, i residui sono un po pi gaussiani. Luso delle Weibull reso complicato dal
fatto che ci sono valori negativi; bisogna traslare tutto di min(res) pi qualcosa:
res2=res-min(res)+10
fitdistr(res2, weibull); fitdistr(res2, normal)
Loading required package: MASS
shape scale
1.883589e+00 2.281359e+07
mean sd
14397291.4 5551930.7
Poi vediamo le due densit sovrapposte agli istogrammi:
a.w<- 1.88; s.w<-22813590; x<-(0:8000)*10000; y.w<-dweibull(x,a.w,s.w); hist(res2,20,freq=FALSE);
lines(x,y.w)
m.g<-14397291.4; s.g<-5551930.7; x<-(0:8000)*10000; y.g<-dnorm(x,m.g,s.g);
hist(res2,20,freq=FALSE); lines(x,y.g)
qqplot(qweibull((1:132)/133,a.w,s.w),res2); qqplot(qnorm((1:132)/133,m.g,s.g),res2)
da cui abbandoniamo Weibull. Questi calcoli permettono ad esempio di calcolare il valore
minimo delle esportazioni al 90%, per i mesi successivi ai dati noti:
qnorm(0.1,m.g,s.g)+min(res)-10
[1] -7115085
che va aggiunto alla predizione
pred.12
gen06 feb06 mar06
36833568 42080786 48266104
(ccc.)
per cui il valore minimo delle esportazioni al 90%
gen06 feb06 mar06
29.718.483 34.965.701 41.151.019
(ccc.)
E molto pi realistico. In verit andrebbe peggiorato un po per la seguente ragione: abbiamo
usato tutti i residui per la stima della gaussiana ma gli ultimi sono maggiori dei primi:
par(mfrow=c(1,1))
ts.plot(res)
per cui sarebbe pi onesto usare solo i residui diciamoo dal 2000 in poi. Lasciamo il
calcolo per esercizio.
Consideriamo ora la serie Mot.
Esercizio: Ripetere tutti i ragionamenti precedenti per la serie Mot, usando HW come
modello. Nota: al posto del comando
res <- ar.ols.12$resid[13:132]
si deve usare
res<-HW$fitted[,1]-M1
4.7 Appendice
Riportiamo alcuni suggerimenti sulluso del programma R. Ricordiamo che si pu scaricare
gratuitamente da rete e che, sempre in rete, si trova una grande quantit di materiale su di
esso, a cui collaborano numerosissimi studiosi in tutto il mondo.
Gestione sul proprio PC delle cartelle di lavoro del corso.
1) Creare una cartella generale del corso, in una posizione facilmente raggiungibile (es. sul
desktop).
2) Creare varie sotto-cartelle coi nomi degli studi principali che svolgiamo; ad esempio la
cartella Lezione 2 oppure unemployment.
3) Salvare in essa i vari le relativi, tipicamente: i) un le Excel di dati, ii) un le word
(o simile) con comandi, commenti, risultati, gure, iii) una area di lavoro R.
Si lavora cos con vari le aperti: sicuramente una sessione di R ed un le word (o simile),
eventualmente un le Excel di dati ed Eurostat.
Gestione aree di lavoro R
Distinguiamo la prima volta che si attiva una sessione di lavoro su un tema, dalle volte
successive.
1) La prima volta si apre R, si pulisce usando rimuovi tutti gli oggetti sotto varie (infatti,
salvo la primissima volta, tutte le successive lapertura di R ricorder lultima sessione, che
riguarda un altro tema), si caricano i dati (nei modi illustrati a parte). Alla ne della sessione
di lavoro si salva con salva area di lavoro, ad es. col nome Lezione2.RData. Chiudendo il
software, conviene rispondere no a salva area di lavoro?.
2) Le volte successive basta aprire la cartella di interesse e cliccare sul le R di interesse
(ha licona colorata). In esso restano salvati i dati immessi, coi nomi scelti precedentemente.
Restano anche salvate alcune istruzioni date lultima volta. Se si vuole evitare che esse
vengano salvate (i dati restano invece sempre salvati), fare pulisci console prima di chiudere
(sempre rispondendo no a salva area di lavoro?). Con elenco degli oggetti, sotto varie,
si ottiene lelenco degli oggetti tipo data frame, vettori ecc. che sono salvati.
Caricamento veloce dei dati
Supponiamo di avere gi una stringa di dati (soli numeri) su Excel, e supponiamo di volerla
importare in R velocemente per analizzarla. Selezionarla e fare copia.
Scrivere su R il comando ( come fare incolla su R, attribuendo il nome X):
X <- scan(clipboard)
e dare invio. X un vettore numerico.
Se (caso pi frequente) Excel usa la virgola per separare i decimali, essa va convertita in
punto. Basta usare il comando:
X <- scan(clipboard,dec=,)
Capitolo 5
Sistemi Markoviani
5.1 Catene di Markov
5.1.1 Grafo, probabilit e matrice di transizione, probabilit di stato,
propriet di Markov
Denizione 47 Una catena di Markov, nel senso insiemistico o algebrico del termine,
denita da un grafo orientato (con un insieme di stati al pi numerabile) munito di probabilit
di transizione.
Spieghiamo i termini di questa denizione. Per grafo orientato intendiamo un insieme o
(al pi numerabile) di elementi, i vertici, detti stati, che usualmente disegneremo con cerchietti
o anche solo punti, e da archi orientati che uniscono alcuni degli stati, che disegneremo con
frecce. Sono ammesse anche le frecce che portano da uno stato in se stesso. Lunica regola
da rispettare che da ogni stato esca almeno una freccia. Queste ultime due convenzioni non
fanno parte della denizione usuale di grafo orientato, quindi qui con tale termine intendiamo
la struttura matematica appena descritta, anche se un po peculiare rispetto al linguaggio
tradizionale. Gli stati possono essere denominati come si vuole, a seconda dellesempio, ma
nellesposizione teorica li numereremo tramite gli interi positivi (stato 1, stato 2 ecc.).
Le probabilit di transizione sono numeri j
i)
[0, 1] associati a ciascuna coppa di stati
i, , o, incluso il caso , = i. Devono soddisfare unicamente la regola
)S
j
i)
= 1.
265
266 CAPITOLO 5. SISTEMI MARKOVIANI
Nellinterpretazione applicativa il numero j
i)
va pensato come la probabilit di eettuare la
transizione dallo stato i allo stato ,. Quindi il numero j
i)
va scritto, nel disegno del grafo,
sulla freccia che porta dallo stato i a ,. Quando manca una freccia, il caso j
i)
= 0.
Si possono riassumere questi elementi in una matrice
1 = (j
i)
)
i,)S
quadrata, con tante righe (o colonne) quanti gli stati (anche inniti). Viene detta matrice di
transizione. Una catena di Markov (per cos dire insiemistica o algebrica) denita quindi o
da una matrice di transizione o da un grafo orientato corredato di probabilit di transizione.
Per la caten di Markov della gura precedente la matrice
1 =
_
_
1,3 0 1,3
1 0 0
1,2 1,2 0
_
_
.
Arricchiamo questa visione, peraltro gi esaustiva per molte applicazioni, con alcuni
elementi pi propriamente stocastici.
Denizione 48 Dato un insieme o di stati, al pi numerabile e data una matrice di tran-
sizione 1 relativa a tali stati, chiamiamo processo (o catena) di Markov ad essi associata un
processo stocastico (A
a
)
aN
che assuma valori in o e tale che valga:
j
in,i
n+1
= 1 (A
a+1
= i
a+1
[A
a
= i
a
)
= 1 (A
a+1
= i
a+1
[A
a
= i
a
, A
a1
= i
a1
, ..., A
0
= i
0
)
per ogni valore degli indici e degli stati..
A posteriori questa denizione sintetica risulter chiara ma arriviamoci progressivamente
attraverso una serie di ragionamenti e costruzioni.
Introduciamo, a partire dagli elementi sopra descritti, un processo stocastico (A
a
)
aN
,
che chiameremo anchesso catena di Markov (ora in senso propriamente stocastico).
Operativamente, il processo stocastico denito in questo modo. La v.a. A
t
una vari-
abile discreta che assume come valore uno qualsiasi degli stati, con probabilit che indicheremo
con
j
(a)
i
:= 1 (A
a
= i) , i o, : N
5.1. CATENE DI MARKOV 267
(i il generico stato, un vertice del grafo). A
a
lo stato del sistema al tempo t e j
(a)
i
la
probabilit che il sistema si trovi nello stato i al tempo t. I valori j
(a)
i
non vengono specicati
a priori, non sono per cos dire i mattoni elementari di costruzione. Invece, vengono specicate
le probabilit condizionali
1 (A
a+1
= ,[A
a
= i) = j
i)
, i, , o, : N
interpretate appunto come probabilit di transizione. j
i)
la probabilit che il sistema eettui
la transizione da i a , al tempo :; pi precisamente, la probabilit che, trovandosi al tempo
: in i, transisca in , al passo successivo, cio si trovi in , al tempo : + 1. Il sistema eettua
una transizione da i a ,, al tempo :, con probabilit j
i)
. I numeri j
i)
sono dati ed hanno
la propriet

)
j
i)
= 1. Si sta quindi imaginando che al tempo : il sistema occupi lo stato
i, e debba eettuare una transizione, per portarsi in un qualche stato , al tempo : + 1; le
probabilit j
i)
quanticano la probabilit di eettuare la transizione a questo o quello stato.
Implicito in questa regola il fatto che tali probabilit non dipendano da t ma solo
dagli stati i e ,, fatto che si esprime dicendo che stiamo considerando catene di Markov
temporalmente omogenee. Si potrebbe studiare anche il caso non omogeneo ma esso sfugge
ad una semplice descrizione graca e quindi risulta piuttosto astratto.
Di una catena di Markov, intesa ora come processo (A
a
)
aN
, va inoltre specicata la
distribuzione di probabilit al tempo zero, oppure lo stato di partenza:
j
(0)
i
:= 1 (A
0
= i) , i o.
Se si specica che la catena parte dallo stato i
0
, signica che j
i
0
= 1, j
i
= 0 per ogni i ,= i
0
.
Il vettore
j
(0)
=
_
j
(0)
i
_
iS
non noto a partire da 1, uninformazione indipendente.
A questo punto, le probabilit di stato al tempo :, cio i numeri j
(a)
i
, si possono cal-
colare univocamente ed esplicitamente a partire dalla distribuzione iniziale e la matrice di
transizione:
j
(a)
i
=

i
n1
i
n2

i
0
j
(0)
i
0
j
i
0
i
1
j
i
n2
i
n1
j
i
n1
i
(5.1)
Infatti,
1 (A
a
= i) =

i
n1
1 (A
a
= i[A
a1
= i
a1
) 1 (A
a1
= i
a1
)
=

i
n1
j
i
n1
i
1 (A
a1
= i
a1
)
=

i
n1
j
i
n1
i
i
n2
1 (A
a1
= i
a1
[A
a2
= i
a2
) 1 (A
a2
= i
a2
)
=

i
n1
i
n2
j
i
n1
i
j
i
n2
i
n1
1 (A
a2
= i
a2
)
e cos via. Indicando con j
(a)
il vettore
_
j
(a)
i
_
iS
, vale in forma vettoriale
j
(a)
= j
(a1)
1 = ... = j
(0)
1
a
.
Le potenze della matrice di transizione, applicate a sinistra al vettore di stato iniziale,
forniscono le probabilit di stato ad ogni istante successivo.
Potrebbe sembrare che il processo (A
a
)
aN
sia cos univocamente determinato. Non
cos. Serve imporre una regola altrimenti non possibile calcolare univocamente probabilit
del tipo 1 (A
2
= /, A
1
= ,, A
0
= i). Si assume che valga la seguente regola, detta propriet
di Markov:
1 (A
a+1
= i
a+1
[A
a
= i
a
)
= 1 (A
a+1
= i
a+1
[A
a
= i
a
, A
a1
= i
a1
, ..., A
0
= i
0
)
per ogni valore degli indici e degli stati. Essa signica che la conoscenza dello stato presente
i
a
oppure la conoscenza del presente e di tutto il passato, producono le stesse previsioni
sul futuro. Il futuro idipendente dal passato, noto il presente. Se pensiamo al grafo ed al
processo costruito su di esso, lidea che quando il processo occupa, al tempo :, lo stato
i, per la determinazione futura del moto (cio degli stati che verranno occupati) serve solo
sapere che ci troviamo in i, non serve ricordare da quali stati siamo passati precedentemente.
Se cos non fosse, la descrizione algebrica tramite grafo crollerebbe, bisognerebbe introdurre
delle complicazioni per tenere memoria del passato.
Le catene di Markov sono quindi sistemi senza memoria.
Assunta la propriet di Markov, vale, per ogni valore di stati e tempi
1 (A
a
= i
a
, A
a1
= i
a1
, ..., A
0
= i
0
)
= 1 (A
a
= i
a
[A
a1
= i
a1
, ..., A
0
= i
0
) 1 (A
a1
= i
a1
, ..., A
0
= i
0
)
= 1 (A
a
= i
a
[A
a1
= i
a1
) 1 (A
a1
= i
a1
, ..., A
0
= i
0
)
= j
i
n1
in
1 (A
a1
= i
a1
, ..., A
0
= i
0
)
da cui si pu ripetere il conto ricorsivamente ed ottenere
1 (A
a
= i
a
, A
a1
= i
a1
, ..., A
0
= i
0
) = j
(0)
i
0
j
i
0
i
1
j
i
n1
in
.
Vediamo quindi che:
Proposizione 27 Sotto la propriet di Markov, la matrice di transizione 1 ed il vettore j
(0)
determinano tutte le marginali 1 (A
a
= i
a
, A
a1
= i
a1
, ..., A
0
= i
0
), quindi determinano
univocamente il processo stocastico (A
a
)
aN
.
Nota per gli esercizi. Per calcolare in un dato esempio la probabilit j
(a)
i
con i ed :
(basso) specicati si pu procedere in due modi. Il primo puramente algebrico e consiste
nel calcolo della potenza 1
a
. Laltro consiste nel capire gracamente la formula (5.1), iden-
ticando tutti i cammini che in : passi portano nello stato i, cammini che conviene elencare
esplicitamente, calcolando poi le probabilit lungo ciascun cammino e poi la loro somma. Se
la matrice di transizione ricca di zeri, cio ci sono poche frecce nel grafo, e se esse sono
strutturate bene rispetto ad i, forse si fa prima col secondo metodo che col primo. Se invece
si deve calcolare tutto j
(a)
, forse il primo metodo pi veloce. Vedremo vari esempi negli
esercizi proposti (risolti).
Esempio 98 Immaginiamo di voler costruire un automa che si comporti in modo simile ad
un essere vivente semplice, o reativamente ad una serie semplice di sue azioni. Supponi-
amo che lessere vivente possa trovarsi in 4 situazioni possibili, ad esempio, inerte, vigile ma
fermo, in fuga, in azione di attacco. Supponiamo poi che, dopo numerose osservazioni del
comportamento di questo essere, si possa dire quanto segue: se inerte, cos resta un tempo
arbitrario, dopo di che diventa vigile ma fermo; se vigile ma fermo, pu tornare inerte, op-
pure mettersi in fuga oppure allattacco; e dopo molte osservazioni si vede che nel 50% dei
casi torna inerte, nel 20% si mette in fuga, nel restante 30% in attacco; se in fuga, torna
fermo e vigile al termine della fuga; similmente, se in attacco, torna fermo e vigile al termine
dellattacco. Possiamo allora descrivere questo sistema con 4 stati: 1 = inerte, 2 = fermo
vigile, 3 = in fuga, 4 = in attacco. Le frecce presenti, con le relative probabilit, sono
1
1
2
2
12
1, 2
15
3, 2
310
4
3
1
2
4
1
2.
La matrice di transizione
1 =
_
_
_
_
0 1 0 0
1,2 0 1,5 3,10
0 1 0 0
0 1 0 0
_
_
_
_
.
Ovviamente da qui a costruire un automa ce ne passa, ma un inizio. Una catena di Markov
facile da simulare, quindi facile generare moti causali una volta costruita la catena as-
sociata ad un problema. Nella descrizione ora data manca, rispetto alla realt, un elemento
fondamentale: il tempo trascorso in uno stato prima di eettuare una transizione. Anche
questo tempo sar aleatorio. Ci sono due modi di introdurlo. Un primo modo consiste nel
mettere anche le frecce che mandano uno stato in se stesso, con opportune probabilit:
1 =
_
_
_
_
j
1
1 j
1
0 0
1
2
(1 j
2
) j
2
1
5
(1 j
2
)
3
10
(1 j
2
)
0 1 j
3
j
3
0
0 1 j
4
0 j
4
_
_
_
_
.
Si sta immaginando che il tempo ora esista e la catena di Markov esegua un passo ogni
intervallino t (di ampiezza da decidere). Ad esempio, dallo stato 1, con probabilit j
1
si
sposta nello stato 2 nel tempo t, altrimenti resta dov. Se j
1
piccolo, rester per molto
tempo nello stato 1, prima di eettuare la transizione. Cos, modulando i valori j
i
, si creano
temi aleatori di attesa negli stati, a piacere. Un altro modo di introdurre il tempo di attesa in
uno stato quello di usare i processi a salti della prossima sezione: si introducono degli orologi
aleatori, associati a tutte le transizioni possibili, che suonano dopo un tempo aleatorio di
caratteristiche statistiche date, provocando la relativa transizione nellistante in cui suonano
(poi vanno azzerati tutti e riavviati).
5.1.2 Misure invarianti
Denizione 49 Relativamente ad una catena data, cio ad una matrice di transizione 1
su un insieme di stati o, una misura invariante (detta anche distribuzione di probabilit
invariante, o stazionaria) un vettore
= (
i
)
iS
di numeri
i
[0, 1], con

iS

i
= 1, tale che
= 1.
Vale equivalentemente
= 1
a
per ogni : N.
Per questo si dicono invarianti (o stazionarie, o di equilibrio): se il sistema parte al tempo zero
con la distribuzione di probabilit , lo troviamo successivamente nei vari stati sempre con
la stessa probabilit (infatti 1
a
la distribuzione di probabilit al tempo :). Non signica
ovviamente che lo stato resti sempre lo stesso: il sistema transisce da uno stato allaltro ma
occupa il generico stato i sempre con la stessa probabilit
i
.
Linteresse per queste distribuzioni non per legato al fatto di partire da esse al tempo
zero ma di convergere verso di loro quando il tempo tende allinnito. Si sta pensando
alla situazione comune a tanti sistemi reali in cui c un transitorio dopo di cui si passa, al
limite, ad un regime stazionario. Bene: le distribuzioni stazionarie dovrebbero descrivere il
regime stazionario, quello che si osserva dopo che passato un po di tempo. Ad esempio:
allapertura di una banca c un momento iniziale di sovraollamento causato dalla gente che
attedeva lapertura allesterno. Dopo un certo numero di minuti per quel traco iniziale
stato smaltito e laollamento della banca diventa quello a regime, in cui entrano ed escono
persone in modo casale ma statisticamente regolare. Se pensiamo che A
a
descriva il numero
di persone in banca al tempo :, passato il transitorio, questo numero non costante, ma la
probabilit che valga i lo (allincirca).
Sotto ipotesi opportune che non possiamo discutere in questo momento vale
lim
ao
j
(a)
= .
Qunado questo vale, si dice che c convergenza allequilibrio. I teoremi che garantiscono
questo fatto vengono detti teoremi ergodici.
Nota per gli esercizi. Le misure invarianti si possono calcolare algebricamente risolven-
do lequazione = 1. Tuttavia, utile e istruttivo arrivare ad un sistema di equazioni che
permette il calcolo di per via graca, col metodo detto del bilancio di usso (naturalmente
il sistema che si ottiene col bilancio di usso equivalente al sistema = 1, ma pu ap-
parire lievemente diverso a prima vista). Si concentra lattenzione su uno stato i, osservando
le frecce entranti e quelle uscenti. Chiamiamo probabilit entrante il numero
IS,I,=i
I
j
Ii
ovvero la somma di tutte le probabilit entranti da ogni stato /, intendendo che passi da /
a i la percentuale j
Ii
della massa
I
che si trova in /. Anaogamente chiamiamo probabilit
uscente il numero

)S,),=i
i
j
i)
.
Questi due numeri devono uguagliarsi:
IS,I,=i
I
j
Ii
=

)S,),=i
i
j
i)
.
Questo il bilancio di usso nello stato i. Ripetendo questa operazione in tutti gli stati
si trova un sistema tante equazioni quante sono le incognite
i
. Tuttavia questo sistema
ridondante: unequazione qualsiasi pu essere ottenuta combinando opportunamente le altre.
In questo modo non si arriverebbe quindi a determinare univocamente (a parte i problemi
di non unicit di ci parleremo nel prossimo paragrafo). Si deve quindi aggiungere lequazione
iS
i
= 1.
Esercizio 32 Mostrare che le equazioni di bilancio di usso sono equivalenti al sistema =
1.
Osservazione 72 La particolarit di dover aggiungere lequazione

iS

i
= 1 presente
anche se si risolve il sistema = 1 (infatti i due sistemi sono equivalenti). Anzi, proprio
dallequazione = 1 che si vede chiaramente il problema:
(0)
= 0 sempre soluzione,
per cui se ne troviamo unaltra non nulla
(1)
, gi sono due e poi lo sono anche tutte le
combinazioni lineari c
(0)
+ ,
(1)
con c e , reali qualsiasi. E quindi ovvio che il solo
sistema = 1 non pu identicare ununica soluzione (a parte i problemi eventuali di non
unicit che esamineremo nel paragrafo della classicazione degli stati).
Citiamo due classi particolari che a volte permettono di semplicare il calcolo delle
distribuzioni invarianti.
Denizione 50 Si dice che soddisfa lequazione di equilibrio dettagliato, o che re-
versibile, se
i
j
i)
=
)
j
)i
per ogni i ,= ,.
Si dice che 1 bistocastica se

i
j
i)
= 1
(cio se 1
T
stocastica).
Proposizione 28 Se soddisfa lequazione di equilibrio dettagliato allora invariante.
Se 1 bistocastica, su uno spazio di stati o nito, di cardinalit :, allora la distribuzione
uniforme
i
=
1
:
per ogni i o
invariante.
Inne, se 1 una matrice simmetrica, allora bistocastica e la distribuzione uniforme
soddisfa lequazione di equilibrio dettagliato; quindi invariante.
Proof. Se vale lequazione di equilibrio dettagliato allora
(1)
i
=

)
)
j
)i
=

)
i
j
i)
=
i
quindi invariante. Se 1 bistocastica su uno spazio di stati o nito, detta la
distribuzione uniforme, vale
(1)
i
=

)
)
j
)i
=

)
1
:
j
)i
=
1
:
=
i
quindi invariante. Inne, se 1 una matrice simmetrica, allora 1
T
(essendo uguale a 1)
stocastica, quindi 1 bistocastica. Questo gi assicura che la distribuzione uniforme sia
invariante. Ma in pi vale
i
j
i)
=
1
:
j
i)
=
1
:
j
)i
=
)
j
)i
dove luguaglianza in mezzo deriva dalla simmetria di 1. Quindi la distribuzione uniforme
soddisfa anche lequazione di equilibrio dettagliato.
5.1.3 Classicazione degli stati
Limitiamo la discussione al caso di una catena nita, anche se molte cose valgono in generale.
Denizione 51 Se esiste un percorso
i i
1
i
2
i
a
,
con probabilit di transizione non nulle (cio j
i,i
1
j
i
.
i
2
j
in)
0) diciamo che i comunica
con ,. Scriviamo i ,.
Denizione 52 Uno stato i si dice transitorio se esiste uno stato , tale che i , ma non
vale , i. Gli altri stati si dicono ricorrenti (uno stato i ricorrente se, quando vale i ,,
allora vale anche , i). Uno stato si dice assorbente se comunica solo con se stesso (altri
possono portare a lui, ma non lui ad altri).
Denizione 53 Una classe (famiglia) di stati o
0
o si dice chiusa se non comunica con
gli stati ad essa esterni (i o
0
, i , implica , o
0
) (dallesterno si pu entrare in o
0
ma
da o
0
non si pu uscire).
Denizione 54 Una classe chiusa o
0
si dice irriducibile (o chiusa irriducibile) se non esiste
o
t
0
o
0
, o
t
0
strettamente pi piccola di o
0
, o
t
0
chiusa.
Ogni classe chiusa, ed in particolare ogni classe irriducibile, pu essere considerata come
una catena a se stante. Parleremo della catena ristretta alla classe chiusa.
Una catena di Markov nita si decompon quindi in un certo numero di classi irriducibili
C
(1)
, ..., C
(I)
pi un insieme T di stati transitori.
Teorema 32 i) Ogni catena di Markov nita ha almeno una misura invariante.
ii) Ogni misura invariante nulla sugli stati transitori.
iii) Se la catena irriducibile, ha una sola misura invariante. In particolare, ogni
classe irriduibile di una catena di Markov, se considerata come catena a se stante (cio
se consideriamo la catena ristretta a tale classe), ha ununica misura invariante.
iv) Se C
(1)
, ... , C
(I)
sono le classi irriduibili di o e
(1)
, ... ,
(I)
sono le relative misure
invarianti (uniche), le misure della forma
c
1
(1)
+ +c
I
(I)
sono tutte e sole le misure invarianti di o.
Non dimostriamo questo importante teorema, ma ne spieghiamo alcuni simboli. Supponi-
amo che C
(1)
sia una classe irriducibile strettamente pi piccola di o. Possiamo considerare la
catena ristretta a C
(1)
. It teorema dice che essa ha ununica misura invariante
(1)
. Tuttavia,
si deve osservare che
(1)
un vettore con un numero di componenti pari alla cardinalit di
C
(1)
. Aggiungendo zeri a tutte le altre componenti di o (quelle del complementare di C
(1)
,
fatto di altre classi irriducibili e dellinsieme degli stati transitori).
5.1.4 Convergenza allequilibrio e propriet ergodiche
Senza dimostrazioni, diamo per alcuni risultati riguardandi il concetto di convergenza alle-
quilibrio descritto nel paragrafo 5.1.2 ed aggiungiamo alcuni elementi di teoria ergodica per
le catene di Markov.
Denizione 55 Una matrice di transizione 1 si dice regolare se esiste : 0 tale che
(1
n
)
i)
0 per ogni i, , o.
Teorema 33 Se 1 regolare su uno spazio degli stati o nito, allora esiste una ed una sola
misura invariante e per essa vale la convergenza allequilibrio
lim
ao
j
(a)
i)
=
)
per ogni i, , o.
Proposizione 29 Se 1 irriducibile, su uno spazio degli stati o nito, ed esiste almeno uno
stato i tale che
j
ii
0
allora regolare.
Teorema 34 Se 1 irriducibile, su uno spazio degli stati o nito, (A
a
)
a1
indica un proces-
so di Markov associato a 1 (con qualsiasi distribuzione iniziale al tempo zero) e la dis-
tribuzione invariante di 1 (sappiamo che unica), allora per ogni funzione ) : o R vale
la convergenza in probabilit (anche quasi certa)
lim
ao
1
:
a
i=1
) (A
i
) = ())
dove ()) la media di ) rispetto a :
()) =

iS
) (i)
i
.
Si noti che
1
a
a
i=1
) (A
i
) una variabile aleatoria.
Se (A
a
)
a1
fosse un processo stazionario e fosse la legge di A
a
(cosa vera se A
1
avesse
legge , visto che invariante), allora sarebbe
()) = 1 [) (A
1
)]
cio il terema ergodico precedente avrebbe esattamente la forma di quello visto nel capitolo
sui processi stazionari.
Qui la situazione meno generale che in quel capitolo, perch stiamo esaminando catene
di Markov nite. Ma per certi versi pi generale, sia perch possiamo predere ) qualsiasi
(mentre nella versione base del teorema ergodico facevamo solo le medie
1
a
a
i=1
A
i
), sia per-
ch il processo (A
a
)
a1
non necessariamente stazionario. Inoltre, si noti che non assumiamo
alcuna scorrelazione asintotica. Il fatto di non aver bisogno dellipotesi di stazionariet una
propriet simile a quella del teorema 33: anche se non si parte con distribuzione , asintot-
icamente come se si avesse distribuzione . Ci dipende dallipotesi di irriducibilit. Se si
vuole per la vera e propria convergenza allequilibrio lirriducibilit non basta (basta cio per
le medie temporali ma non per i singoli valori temporali, come si pu capire facendo esempi
periodici). Per quanto riguarda poi la scorrelazione asintotica, di nuovo questa prodotta
automaticamente dallipotesi di irriducibilit.
5.2. ESERCIZI 275
5.2 Esercizi
Esercizio 33 Consideriamo la catena di Markov su 1 = 1, 2, 3, 4, 5 associata alla seguente
matrice di transizione
1 =
_
_
_
_
_
_
1,2 1,2 0 0 0
1,2 1,2 0 0 0
0 0 0 1 0
0 0 1,2 1,2 0
1,3 0 1,3 0 1,3
_
_
_
_
_
_
.
i) Qual la probabilit, partendo da 5, di essere in 4 dopo 4 passi?
ii) Classicare gli stati e trovare le classi irriducibili.
iii) Determinare tutte le probabilit invarianti della catena.
Esercizio 34 Consideriamo due agenti nanziari. Ogni ora, ciascun agente compie unazione,
scelta tra due possibilit e 1. Ci sono pertanto quattro possibilit di azioni scelte dai due
agenti: (, ), (, 1), (1, ), (1, 1) (ad esempio, (, 1) signica che il primo agente sceglie
ed il secondo 1).
Quando si realizza (, ), il primo agente guadagna 10 ed il secondo 0. Quando si realizza
(, 1), il primo guadagna 0 ed il secondo 10. Quando si realizza (1, ), il primo guadagna
0 ed il secondo 10. Quando si realizza (1, 1), il primo guadagna 10 ed il secondo 0.
I due agenti scelgono in modo indipendente luno dallaltro, scegliendo per in base al proprio
guadagno dellora precedente: se hanno guadagnato 10 conservano la scelta precedente, altri-
menti la modicano con probabilit 1/2.
i) Descrivere il problema con una catena a 4 stati, stabilire tutte le propriet di tale catena e
calcolare il guadagno medio di ciascun agente allequilibrio.
ii) Rispondere alle stesse domande nella seguente variante del caso precedente: i due agenti
scelgono in modo indipendente luno dallaltro; il primo, se guadagna 10 cambia, mentre se
guadagna 0 cambia con probabilit 1/2; il secondo, se guadagna 10 conferma la scelta prece-
dente, mentre se guadagna 0 cambia (si consiglia di rileggere pi volte questo testo).
iii) Calcolare, nel caso (ii), la probabilit di trovarsi in (, ) partendo da (1, 1) in : passi
(: qualsiasi), traendo delle conclusioni anche in relazione a fatti scoperti al punto (ii). Cal-
colare poi la probabilit di trovarsi in (, ) partendo da (, 1), in 8 ed in 9 passi. Cercare
inne di capire se vale la convergenza allequilibrio partendo da (, 1).
5.3 Processi di Markov a salti
5.3.1 Sistemi a eventi discreti
Portano questo nome tutti quei sistemi in cui possiamo classicare le situazioni possibili
secondo un numero nito o al pi numerabile di possibilit, dette stati del sistema; il sistema
si trova ad ogni istante in un certo stato, l resta per un certo tempo, poi eettua una
transizione ad un altro stato, e cos via.
Dal punto di vista matematico gli ingredienti sono gli stati e le transizioni (a cui aggiun-
geremo altri enti come i tempi aleatori di attesa per una transizione). Di fronte ad ogni nuovo
problema bisogna saper elencare gli stati e le transizioni possibili. Le catene di Markov della
sezione precedente sono un esempio, ma ora andremo oltre.
Esempio 99 Osserviamo una coda comune, come quella alla cassa in una banca. Supponi-
amo qui solo per semplicit che ci sia un solo sportello aperto e quindi tutti gli utenti si
mettano in coda a quellunica cassa. Se osserviamo questo sistema ad un generico istante
possiamo individuare le seguenti situazioni (stati) possibili:
1. la coda vuota e nessuno alla cassa a farsi servire; indichiamo con 0 questo stato (0
persone nel sistema)
2. la coda vuota e c una persona alla cassa che viene servita; indichiamo con 1 questo
stato (1 persona nel sistema)
3. ci sono k-1 persone in coda, pi quella in fase di servizio; indichiamo con k questo stato
(k persone nel sistema).
Si rietta riconoscendo che ogni altra descrizione equivalente. Gli stati sono quindi i
numeri interi non negativi: lo stato n sta a indicare che ci sono n persone nel sistema (n-1 in
coda, una che viene servita). Poi bisogna individuare le transizioni possibili. Se ammettiamo
che possa entrare una persona alla volta nella banca, pu avvenire la transizione
/ / + 1
(quando arriva una persona nuova). Inoltre avviene la transizione
/ / 1
quando il servizio di una persona viene completato e questa esce dal sistema. Non ci sono
altre transizioni possibili.
E necessario per fare unosservazione, per eliminare un dubbio che pu essere nato nelle-
sempio precedente. Dobbiamo considerare come stati solo le situazioni un po durature, non
quelle che si presentano per pochi istanti ed hanno una durata inessenziale rispetto al tempo
complessivo che trascorre. Ad esempio, quando una persona termina di essere servita, esce;
non consideriamo per tra gli stati quello in cui c una persona che sta uscendo: la durata di
questo avvenimento brevissima ed oltre tutto inessenziale. Analogamente non consideriamo
come stato la situazione in cui una persona sta entrando in banca. Analogamente, vero che
tra listante in cui una persona completa il servizio e listante in cui il cliente successivo arriva
alla cassa, passano alcuni secondi, ma anchessi sono inessenziali rispetto al tempo di servizio
di un cliente o rispetto ai tempi di attesa in coda; quindi non consideriamo come stato quella
situazione intermedia.
Inne, escludiamo unulteriore eventualit: quella che accadano due transizioni contem-
poraneamente. Ad esempio, escludiamo che possa contemporanemanete nire il servizio un
cliente ed entrarne un altro in banca. Dal punto di vista matematico questa contemporaneit
sar impossibile sotto le ipotesi di tempi aleatori esponenziali che imporremo tra breve. Al
di l di questa motivazione rigorosa, conviene semplicemente ritenere che sia impossibile dal
5.3. PROCESSI DI MARKOV A SALTI 277
punto di vista pratico che accada la contemporaneit esatta; questo semplica le cose, ad
esempio evita che si debbano introdurre complicate transizioni che tengano conto di eventi
simultanei.
Vediamo un altro semplice esempio.
Esempio 100 Una macchina svolge lavorazioni a ciclo continuo. Pu per trovarsi in vari
stati: quello di lavoro a massimo regime; quello di lavoro a regime ridotto a causa della
necessit di rareddamento; quello di fermo a causa di manutenzione. Usiamo quindi tre
stati, che ad esempio potremmo indicare con tre lettere (rispettivamente M, R, F). Poi bisogna
vedere che transizioni sono possibili. Supponiamo che un termostato (pi un sistema di
rareddamento) regoli il passaggio da M ad R, nei due sensi. Inoltre, supponiamo che sia da
M sia da R si possa passare ad F a causa di un guasto o deterioramento. Inne, supponiamo
che da F si passi solo a R, in quanto necessaria una prima fase di lavoro a regime ridotto di
riscaldamento o rodaggio, prima di mettersi a regime massimo. Le transizioni possibili sono
quindi
' 1, 1 '
' 1, 1 1
1 1.
Se poi le fasi di fermo fossero di diverso tipo, ad esempio alcune di manutenzione program-
mata ed altre di riparazione guasti, dovremmo sdoppiare lo stato F.
5.3.2 Stati e gra
Il modo pi semplice di ragurare una situazione del tipo descritto sopra di disegnare gli
stati possibili e tracciare delle frecce tra uno stato e laltro se esiste la transizione tra essi.
Un insieme di stati e frecce un grafo.
Nellesempio 99 gli stati sono tutti gli interi non negativi, quindi non possibile ragurare
completamente il grafo; ci si accontenta di tracciarne un pezzo rappresentativo. Si veda la
prima gura. La seconda gura descrive invece il sistema del secondo esempio.
Grafo dellesempio 1. Grafo dellesempio 2.
5.3.3 Tempi di permanenza aleatori
In certi esempi la durata della permanenza in un certo stato nota e deterministica: il
caso delle manutenzioni programmate, oppure di certi servizi che richiedono un tempo ben
preciso, o di certe lavorazioni industriali ben precise e programmate. In altri esempi la durata
aleatoria: il caso pi comune nelle code di servizio. Tutta la teoria che descriveremo in
questa scheda relativa al caso di permanenze aleatorie. Per variare un po i nostri esempi, a
volte includeremo nello schema delle permanenze aleatorie anche alcuni casi che lo sono assai
poco; si capir che questo ha valore puramente didattico, per esercitarsi con la matematica.
Introduciamo una variabile aleatoria per ciascuna transizione possibile. Ad esempio, se in
un grafo c la transizione dallo stato A allo stato B, introduciamo una v.a. T
1
che indica
il tempo che il sistema trascorre in A prima di eettuare la transizione in B.
Che tipo (gaussiano ecc.) di variabili si usano per questo scopo? Bisognerebbe analizzare
ogni specico esempio reale eettuando opportune rilevazioni statistiche e decidere sulla base
dei dati. Noi qui, per semplicit ed uniformit, operiamo una scelta drastica: tutti i tempi di
attesa T
1
saranno esponenziali. Un tempo di attesa esponenziale caratterizzato dal suo
parametro `
1
, reciproco del tempo medio di attesa:
1 [T
1
] =
1
`
1
.
Il numero `
1
pu essere interpetato come numero di eventi per unit di tempo, o tasso di
transizione; torneremo su questo pi avanti.
Siccome vale, per le esponenziali, la propriet di assenza di memoria, accade quanto segue:
supponiamo che il sistema sia fermo nello stato A gi da un po e che io, osservatore, inizi ora
ad osservare il sistema. Allora il sistema rimarr in A prima di transire a B per un tempo
esponenziale di parametro `
1
. In altre parole, il sistema non conserva memoria del fatto
di essere stato gi per un po in A; ad ogni istante come se ripartisse da capo. E chiaro
che questa unidealizzazione, quasi mai vericata negli esempi reali; rappresenta la maggior
restrizione della teoria che stiamo per svolgere, ma anche la sua potenza dal punto di vista del
calcolo esplicito. Se si abbandona il mondo delle v.a. esponenziali, non si riesce a calcolare
quasi pi nulla esplicitamente, per cui si deve ricorrere al metodo simulativo (creazione di un
programma al computer che simula levoluzione temporale del sistema).
Riassumiamo: ad ogni transizione 1 associamo un tempo aleatorio esponenziale
T
1
di parametro `
1
. Quindi possiamo scrivere il numero `
1
sulla freccia del grafo, per
ricordarcelo. Torniamo allesempio 99 del paragrafo precedente. Supponiamo che il tempo di
servizio T
I,I1
, cio il tempo che si deve attendere prima che una persona in fase di servizio
abbia nito, sia mediamente di 5 minuti:
1 [T
I,I1
] = 5 min.
mentre il tempo tra un arrivo e laltro, T
I,I+1
, cio il tempo che si deve attendere per larrivo
di un nuovo cliente nel sistema, abbia media 10 minuti:
1 [T
I,I+1
] = 10 min.
Tracceremo allora il grafo arricchito della gura 3. Infatti, il parametro `
I,I1
, reciproco del
tempo medio, 1/5, mentre `
I,I+1
1/10.
Grafo dellesempio 1, con tassi di transizione
Stiamo scordando qualcosa? No, per via dellassenza di memoria. Spieghiamoci meglio.
Se non valesse la propriet di assenza di memoria, i dati del grafo della gura 3 non sarebbero
esaustivi, non permetterebbero cio in ogni momento di capire cosa accadr al sistema. Se ci
troviamo nello stato k, grazie allassenza di memoria, tutto riparte da ora; quindi possiamo
sapere che tempo (aleatorio) dobbiamo attendere prima di eettuare la prossima transizione,
e sappiamo dal grafo quali transizioni sono possibili e dopo quanto tempo.
5.3.4 Catene di Markov e processi di Markov a salti
I sistemi a stati niti ora descritti, con tempi di attesa esponenziali, sono anche detti processi
di Markov a salti. A volte vengono detti anche catene di Markov, per quanto questo nome
sia meglio riservarlo alle catene a tempo discreto della sezione prcedente. Qui invece il tempo
varia con continuit: gli stati sono discreti, a certi istanti aleatori avvengono le transizioni,
ma gli istanti di transizione sono numeri reali positivi qualsiasi.
La continuit del tempo anche allorigine della propriet matematica secondo cui non
possono avvenire due transizioni contemporaneamente. Dati due tempi aleatori esponenziali
T
1
e T
2
, di parametri qualsiasi, si pu dimostrare che
1 (T
1
= T
2
) = 0.
5.3.5 Quale transizione tra varie possibili?
Fissiamo lattenzione sul solito esempio 99. Se siamo nello stato /, cio nel sistema ci sono /
utenti (/ 1 in coda ed uno in servizio), ci vuole un tempo T
I,I1
per completare il servizio
della persona alla cassa, e ci vuole il tempo T
I,I+1
per larrivo di un nuovo cliente in banca.
Ma questi due eventi, a partire dallo stato /, non avverranno entrambi: se nisce prima il
servizio, si passa allo stato / 1 e quindi non si pi nello stato / (quindi smette lattesa
della transizione / / + 1). Per lassenza di memoria, non importa quanto tempo siamo
rimasti in / in attesa dellarrivo di un nuovo cliente. Ora siamo in /1: a questo nuovo stato
sono associati due tempi, T
I1,I
che rappresenta il tempo di attesa dellarrivo di un nuovo
cliente, e T
I1,I2
che rappresenta il tempo di attesa del servizio del cliente che ora si trova
alla cassa.
Una immagine di sicuro eetto per consolidare losservazione precedente quella degli
orologi aleatori esponenziali che suonano allo scadere del loro tempo di attesa. Quando
siamo in uno stato /, accendiamo due orologi. Uno relativo alla transizione / / 1:
quando suona, dobbiamo eettuare quella transizione. Laltro relativo a / / + 1. Il
primo che suona detta la transizione da eettuare; laltro allora viene semplicemente spento.
Fatta la transizione (cosa istantanea) attiviamo i nuovi orologi aleatori relativi al nuovo stato
in cui ci troviamo.
5.3.6 Tempo di permamenza
Capita la questione precedente, ci accorgiamo che, se siamo nello stato / (continuiamo a
riferirci allesempio 99 per chiarezza), ci sono in realt tre tempi aleatori in gioco:
T
I,I1
, T
I,I+1
, T
jcvn
I
= min(T
I,I1
, T
I,I+1
) .
Il tempo T
jcvn
I
il tempo di permanenza nello stato /. Ci muoviamo da / quando suona il
primo orologio, cio allistante min(T
I,I1
, T
I,I+1
).
Il teorema sul minimo di v.a. esponenziali indipendenti dice che anche T
jcvn
I
una v.a.
esponenziale, ed il suo parametro
`
jcvn
I
= `
I,I1
+`
I,I+1
.
Non scriviamo per questo numero sul grafo sia perch sovrabbondante ( la somma dei
numeri gi scritti) sia perch ha un ruolo decisamente inferiore.
Come mai allora ne parliamo? Il problema quello di decidere i numeri `
1
negli esempi.
Quando esaminiamo un problema concreto, prima di tutto dobbiamo individuare gli stati
(come abbiamo sottolineato sin dallinizio), poi le transizioni possibili 1, e nalmente i
tassi di transizione `
1
. Ma chi sono? Sono i reciproci dei tempi medi di attesa. Qui nasce il
potenziale equivoco: attesa di cosa? Non lattesa della transizione fuori da . La transizione
fuori da avviene allistante T
jcvn
I
. Non quindi il tempo di permanenza in .
Bisogna ragionare relativamente alla specica transizione 1, isolandola dalle altre
possibili, per cos dire (se la si mescola si rischia di ricadere in T
jcvn
I
). Rivediamo il solito
esempio 99. Se ci sono / persone nel sistema, cio siamo nello stato /, esaminiamo la tran-
sizione / / 1. Essa avviene quando si completa il servizio della persona alla cassa, e
ci richiede un tempo medio di 5 minuti, quindi T
I,I1
un tempo aleatorio esponenziale di
parametro `
I,I1
= 1,5. E tutto abbastanza semplice, basta non confondersi e mettersi a
pensare al fatto che contemporaneamente attendiamo larrivo di un nuovo cliente ecc. Ogni
transizione va esaminata a se stante.
5.3.7 Prima luna o laltra?
Supponiamo che da uno stato si possa transire in 1 o C. Sono quindi attivi i tempi T
,1
e T
,C
, di tassi `
,1
e `
,C
, rispettivamente.
Ci chiediamo: pi probabile passare a 1 o a C? Pi quantitativamente, possiamo
chiederci: con che probabilit la transizione sar 1 (invece che C)? Tale probabilit
pari a
1 (T
,1
< T
,C
) .
Omettiamo il calcolo, non semplicissimo. Il risultato per fortuna semplice:
`
,1
`
,1
+`
,C
.
Ripetiamo. Una transizione prima o poi ci sar. La probabilit che si tratti della transizione
1
A
/,T
A
/,T
+A
/,C
, mentre la probabilit che si tratti della transizione C
A
/,C
A
/,T
+A
/,C
.
Questa formula si generalizza al caso di tante possibili transizioni in uscita da : se da
si pu andare in 1
1
, 1
2
, 1
3
, ... allora la probabilit che la transizione sia proprio 1
i

`
,1
.
`
,1
1
+`
,1
2
+...
.
5.3.8 Regime stazionario o di equilibrio
Alcune delle considerazioni che svolgeremo in questo paragrafo sono simili quelle sulle misure
invarianti delle catene di Markov. Tuttavia, per rendere pi indipendente la lettura delle varie
sezioni, accettiamo alcune ripetizioni.
Fino ad ora abbiamo solo discusso come descrivere un sistema a eventi discreti tramite
stati, transizioni, tassi. Ma cosa possibile calcolare? Ad esempio le probabilit degli stati
in regime stazionario.
Innanzi tutto bisogna capire intuitivamente di cosa stiamo parlando. Immaginiamo la
banca. Allapertura, la coda vuota. Questo non regime stazionario. Se, come accade
spesso, si sono accumulate fuori dalla banca molte persone, pochi istanti dopo lapertura
queste persone sono allinterno della banca, in coda. La coda in questo momento molto
lunga, in modo anomalo, per il fatto che non ci sono ancora stati servizi e si era accumulata
la gente fuori. Anche questo non regime stazionario.
Dopo un po, ad esempio una mezzora, le cose si sono rimesse a posto: la cassa ha smaltito
leccesso iniziale di clienti, ora lavora a regime, nuova gente arriva, ma non pi a gruppi come
al primo istante, bens con regolarit (pur aleatoria). Siamo in una situazione a regime, una
situazione di equilibrio.
Si noti bene che stazionariet ed equilibrio qui non signica (come in sistemi determinis-
tici) che lo stato non cambia pi. Lo stato cambia, casualmente, il sistema uttua tra i vari
stati, ma in modo statisticamente ripetitivo, senza ad es. permanere in valori anomali dello
stato.
Supponiamo di esaminare un sistema a eventi discreti quando esso si trovi a regime. Per
ciascuno stato introduciamo la probabilit di trovarsi nello stato , che indichiamo con
. Ad esempio, quando la banca a regime, introduciamo la probabilit di avere la banca

vuota,
0
; la probabilit di avere una persona allo sportello e nessuna in coda,
1
; e cos via.
Intuitivamente con
intendiamo la frequenza relativa di tempo in cui osserviamo lo stato

. Ad esempio, per quanto tempo rispetto ad unora di lavoro troveremo la banca vuota? Il
numero
0
una sorta di astrazione di questa frequenza relativa.
La frequenza relativa purtroppo legata al lasso di tempo che si considera e addirittura allesempio
particolare di osservazione; il numero j
invece ha un ruolo pi assoluto; per questo diciamo che

unastrazione della frequenza relativa.
Se indichiamo gli stati del sistema con
1
,
2
, ..., il vettore
(
1
,
2
, ...)
viene chiamato in vari modi, ad es. misura invariante, vettore delle probabilit invarianti,
misura dequilibrio, misura stazionaria e cos via.
Ci poniamo il problema di calcolare i numeri
. Esaminiamo come sempre lesempio

99, estrapolando poi una regola generale. Vogliamo calcolare i numeri
I
per ogni intero
/ _ 0. La possibilit di eettuare questo calcolo viene dal fatto che questi numeri sono legati
tra loro da equazioni, le cosidette equazioni di bilancio di usso. Prima diamo la regola, poi
cerchiamo di darne una ragionevole spiegazione. La regola si ricorda cos. Si deve immaginare
la probabilit
I
come una porzione di massa. Dallo stato / esce una certa percentuale di
questa massa, precisamente
I
(`
I,I1
+`
I,I+1
)
ovvero il prodotto di
I
per la somma dei tassi uscenti da /. Nello stato / entra poi un
percentuale della massa degli stati che possono transire in /. Possono transire in / gli stati
/ 1 e / + 1. Dallo stato / 1 transisce la percentuale
I1
`
I1,I
ovvero il prodotto della massa dello stato / 1 per il tasso di transizione da / 1 a /.
Analogamente, dallo stato / + 1 transisce
I+1
`
I+1,I
. Questo usso di massa deve essere
nullo, per essere allequilibrio, a regime. Deve valere cio
I
(`
I,I1
+`
I,I+1
) =
I1
`
I1,I
+
I+1
`
I+1,I
.
Questa lequazione del bilancio di usso nello stato /.
In astratto, considerando uno stato e gli stati 1
1
, 1
2
, 1
3
, ... ad esso collegati, deve valere
(`
,1
1
+`
,1
2
+...) =
1
1
`
1
1
,
+
1
2
`
1
2
,
+... (5.2)
5.3.9 Dimostrazione dellequazione (5.2)
Capita la struttura della formula, cerchiamo di dimostrarla almeno parzialmente. Indichiamo
con
(t)
levento il sistema si trova in allistante t, con 1
a
levento il sistema si trova
in 1
a
allistante t, per ogni :. Vale allora, per la formula di fattorizzazione
1
_
(t+.)
_
= 1
_
(t+.)
[
(t)
_
1
_
(t)
_
+
a
1
_
(t+.)
[1
(t)
a
_
1
_
1
(t)
a
_
dal momento che
(t.)
, 1
(t.)
1
, 1
(t.)
2
, ... una partizione (uno almeno vero e sono
disgiunti). Abbiamo fattorizzato la probabilit di trovarsi in un istante dopo t (cio al
tempo t + -), rispetto a dove si trova il sistema allistante t. Il sistema si trova in regime
stazionario, quindi 1
_
(t)
_
= 1
_
(t+.)
_
=
ecc, quindi
= 1
_
(t+.)
[
(t)
_
a
1
_
(t+.)
[1
(t)
a
_
1n
. (5.3)
Fin qui tutto rigoroso. Ora dobbiamo accettare che, per - piccolo, in prima approssimazione
valga
1
_
(t+.)
[
(t)
_
~ 1
_
T
jcvn
-
_
1
_
(t+.)
[1
(t)
a
_
~ 1 (T
1n,
< -) .
Intuitivamente, 1
_
(t+.)
[
(t)
_
la probabilit di trovarsi ancora in dopo un tempo -, par-
tendo da , quindi la probabilit che il tempo di permanenza in sia maggiore di -. Sim-
ilmente per la seconda uguaglianza. In realt queste non sono esattamente delle uguaglianze,
per il fatto che nel pur brevissimo tempo - pu accadere (ma ci avviene con bassissima
probabilit) che il sistema percorra un pi complicato cammino tra pi stati, non solo la
singola transizione considerata sopra. Accettiamo questa approssimazione. Ricordiamo poi
che
1 (T
1n,
< -) = 1 c
.A
Tn,/
quindi, per lo sviluppo di Taylor dellesponenziale, in prima approssimazione per - piccolo
vale
1 (T
1n,
< -) ~ -`
1n,
.
Similmente, ricordando che T
jcvn
ha parametro

a
`
,1n
,
1
_
T
jcvn
-
_
= c
.
P
n
A
/,Tn
~ 1 -
a
`
,1n
.
Sostituendo nellequazione (5.3) troviamo
=
_
1 -
a
`
,1n
_
a
-`
1n,
1n
da cui
-
a
`
,1n
= -
1n
`
1n,
da cui nalmente lequazione del bilancio di usso (5.2).
5.3.10 Il sistema delle equazioni di bilancio
Supponiamo di studiare un esempio con un numero nito di stati. Per esemplicare, sup-
poniamo inizialmente di avere solo due stati, e 1. Scriviamo il bilancio di usso sia in
sia in 1:
bilancio in :
`
,1
=
1
`
1,
bilancio in 1 :
1
`
1,
=
`
,1
.
Vediamo subito che queste due equazioni coincidono. Quindi una sola equazione, nelle due
incognite
e
1
. Serve unaltra equazione. essa
1
+
= 1.
In questo semplice esempio vediamo che per trovare
e
1
bisogna scrivere una equazione di
bilancio di usso (non tutte e due) ed aggiungere la condizione di probabilit totale unitaria.
Bisogna cio risolvere il sistema
_

`
,1
=
1
`
1,
1
+
= 1.
Vediamo per sicurezza il caso con tre stati, , 1 e C, per vedere se succede la stessa cosa.
Il bilancio nei tre stati :
bilancio in :
(`
,1
+`
,C
) =
1
`
1,
+
C
`
C,
bilancio in 1 :
1
(`
1,
+`
1,C
) =
`
,1
+
C
`
C,1
bilancio in C :
C
(`
C,
+`
C,1
) =
`
,C
+
1
`
1,C
.
Qui meno ovvio capire se sono tre equazioni indipendenti. Sommiamo per le prime due:
(`
,1
+`
,C
) +
1
(`
1,
+`
1,C
)
=
1
`
1,
+
C
`
C,
+
`
,1
+
C
`
C,1
ovvero
`
,C
+
1
`
1,C
=
C
`
C,
+
C
`
C,1
ovvero inne
C
(`
C,
+`
C,1
) =
`
,C
+
1
`
1,C
che proprio il bilancio di usso in C. Quindi esso sovrabbondante, gi incluso nei
precedenti. Di nuovo, quindi, per trovare la soluzione (j
, j
1
, j
C
) bisogna risolvere il sistema
formato dal bilancio in due stati pi lequazione della massa unitaria:
_
_
_
(`
,1
+`
,C
) =
1
`
1,
+
C
`
C,
1
(`
1,
+`
1,C
) =
`
,1
+
C
`
C,1
+
1
+
C
= 1.
Si dimostra che questo sistema ha sempre almeno una soluzione. La scelta degli stati in cui
fare il bilancio indierente. Il principio si generalizza ad un numero nito qualsiasi di stati.
Pi complessa la questione dellunicit. Ci sono esempi con pi di una soluzione. A
questo scopo, invece che lavorare a livello algebrico sul sistema, conviene prima esaminare gli
stati del grafo tramite i concetti di stato transitorio e ricorrente, classe irriducibile. Quando
ci si ridotti ad una classe irriducibile, l la soluzione unica. Non studiamo qui in dettaglio
questo problema: negli esempi cercheremo di trovare la soluzione del sistema; se unica, il
problema risolto.
5.4 Esempi dalla teoria delle code
Gli esempi del nostro corso si possono raggruppare in tre classi. La prima quella degli esempi
con pochissimi stati, in cui si risolve manualmente il sistema delle equazioni di bilancio di
usso. La seconda classe quella delle catene di nascita e morte, in cui c una formula
5.4. ESEMPI DALLA TEORIA DELLE CODE 285
esplicita per le probabilit invarianti. Inne, la terza classe quella delle catene che non
sono di nascita e morte ma nemmeno cos facili da svolgere esplicitamente i conti; per quelle
possiamo solo trovare delle relazioni da mettere nel calcolatore.
La maggor parte degli esempi che seguono presa dalla teoria delle code, da cui il titolo
della sezione, ma useremo anche altri esempi per chiarire le cose.
Iniziamo con un semplice esempio del primo tipo.
Esempio 101 Riprendiamo lesempio 100. Supponiamo che quando la macchina viaggia a
regime massimo (M), si surriscaldi progressivamente superando la soglia ammissibile dopo
un tempo aleatorio di media 15 minuti. A quel punto, il termostato comanda di passare
al regime ridotto (R). In quel regime la macchina continua a lavorare e si raredda; questa
operazione di rareddamento dura in media 3 minuti, dopo i quali la macchina torna a regime
massimo. In ogni regime pu capitare un guasto che porta la macchina in fermo (F). A
regime massimo, questo capita mediamente dopo 60 minuti di lavoro continuato (intendiamo
una fase ininterrotta a regime massimo); a regime ridotto, dopo 120 minuti. Inne, quando
la macchina ferma per riparazione, la riparazione dura in media 30 minuti. Calcolare la
probabilit a regime di avere la macchina ferma.
Soluzione. Il grafo quello indicato alla gura 4. Il bilancio in M e F
A
_
1
15
+
1
60
_
=
1
1
3
1
1
30
=
A
1
60
+
1
1
120
a cui aggiungiamo lequazione
A
+
1
+
1
= 1.
Esprimiamo
A
e
1
in funzione di
1
dalle prime due:
A
= 4
1
1
=
1
2

A
+
1
4

1
= 2
1
+
1
4

1
=
9
4

1
.
Ora sostituiamo nella terza equazione:
4
1
+
1
+
5
4

1
= 1
da cui
1
= 0.16
da cui inne
A
= 4 0.16 = 0.64
1
=
5
4
0.16 = 0.2.
La probabilit di fermo 0.2.
Esempio 2 con tassi di transizione.
Vediamo ora un esempio del terzo tipo.
Esempio 102 Una catena di montaggio composta da due stazioni di lavoro in sequenza.
Ogni pezzo che entra nel sistema viene mandato alla prima stazione, dove si mette in coda.
Quando stato lavorato viene mandato alla seconda stazione, dove pure si mette in coda.
Dopo la seconda lavorazione, esce dal sistema. Tra unentrata nel sistema e laltra passa
un tempo di media 10 minuti. La lavorazione della prima stazione richiede 5 minuti. La
lavorazione della seconda ne richiede 7. Descrivere il sistema con un processo di Markov a
salti.
Soluzione. Se osserviamo il sistema ad un generico istante, vediamo un certo numero :
di pezzi in coda alla prima stazione ed un certo numero / in coda alla seconda, includendo
nelle code i pezzi in corso di lavorazione (per semplicit di linguaggio). Quindi il generico
stato del sistema una coppia (:, /) di interi non negativi. Dallo stato (:, /) si passa a
(: + 1, /) se entra nel sistema un nuovo pezzo, e ci avviene con tasso
1
10
. Dallo stato (:, /)
si passa a (: 1, / + 1) quando la prima stazione completa la lavorazione in corso; questo
avviene con tasso
1
5
. Inne, dallo stato (:, /) si passa in (:, / 1) se la seconda stazione
completa la lavorazione in corso; questo avviene con tasso
1
7
. Si osservi che in un problema
di questa complessit non viene richiesto il calcolo della distribuzione invariante.
Nel prossimo paragrafo aronteremo in modo sistematico gli esempi del secondo tipo, cio
i processi di nascita e morte.
5.4.1 Processi di nascita e morte
Si chiamano cos tutti quelli che hanno come stati i numeri interi non negativi e come tran-
sizioni possibili quelle tra primi vicini (come nellesempio 99). Quindi gli stati sono i numeri
/ = 0, 1, 2, ... e le transizioni possibili sono solamente
0 1, 1 2, 2 3, ...
..., 3 2, 2 1, 1 0.
Il bilancio di usso nel generico stato /
I
(`
I,I1
+`
I,I+1
) =
I1
`
I1,I
+
I+1
`
I+1,I
.
Questo vale per / _ 1, mentre per / = 0 esso semplicemente
0
`
0,1
=
1
`
1,0
.
Nel seguito supponiamo che tutti i numeri ` siano strettamente positivi, altrimenti bisogna
ragionare caso per caso. Ricaviamo
1
in funzione di
0
da questa equazione e sostituiamolo
nella seconda equazione (quella di bilancio nello stato / = 1), ricavando anche
2
in funzione
di
0
:
1
=
0
`
0,1
`
1,0
1
(`
1,0
+`
1,2
) =
0
`
0,1
+
2
`
2,1
2
=

1
(`
1,0
+`
1,2
)
0
`
0,1
`
2,1
=
0
A
0,1
A
1,0
(`
1,0
+`
1,2
) `
0,1
`
2,1
=
0
`
0,1
`
1,2
`
2,1
`
1,0
.
Queste notevolissime semplicazioni si ripetono ad ogni passo: se ora prendiamo il bilancio
nello stato / = 2 e sostituiamo tutto in funzione di
0
, troviamo
3
=
0
`
0,1
`
1,2
`
2,3
`
3,2
`
2,1
`
1,0
.
Per induzione si pu vericare che
a
=
0
`
0,1
`
a1,a
`
a,a1
`
1,0
.
Ora bisogna trovare
0
imponendo la condizione
o
a=0
a
= 1.
Introduciamo la notazione
a
0
= 1, a
a
=
`
0,1
`
a1,a
`
a,a1
`
1,0
.
Poniamo inoltre
a =
o
a=0
a
a
.
La condizione

o
a=0
a
= 1 corrisponde alla condizione
0
a = 1. Pu accadere che sia
a < oppure a = +. Se a = +, vediamo che impossibile imporre la condizione
o
a=0
a
= 1 (implicherebbe
0
= 0, ma allora varrebbe anche
a
=
0
a
a
= 0 per ogni :,
quindi

o
a=0
a
= 0).
Se invece a < , vale
0
=
1
a
,
a
=
a
a
a
.
Avendo posto a
0
= 1, anche la formula
0
=
1
o
un caso particolare di
a
=
on
o
. Abbiamo
trovato:
Teorema 35 Per un processo di nascita e morte con tutti i tassi `
a,a1
e `
a,a+1
strettamente
positivi, posto
a
0
= 1, a
a
=
`
0,1
`
a1,a
`
a,a1
`
1,0
,
se vale
a =
o
a=0
a
a
<
allora il sistema raggiunge il regime stazionario descritto dalla distribuzione invariante
a
=
a
a
a
, : _ 0.
In generale dicile calcolare a. Vediamo alcuni casi notevoli in cui questo possibile.
5.4.2 Tassi costanti
Supponiamo che sia
`
a,a1
= j, `
a,a+1
= `.
Poniamo
j =
`
j
.
Vale
a
a
= j
a
.
Se j < 1, la serie geometrica

o
a=0
j
a
converge, ed ha
1
1j
come somma. Se invece j _ 1, la
serie diverge. Nel caso j < 1 vale allora a =
1
1j
e quindi
a
= (1 j) j
a
.
La distribuzione invariante ha legge geometrica di parametro j.
Pensiamo ad una coda, come nellesempio 99. La condizione j < 1 equivale a ` < j,
quindi a
1 [T
o
] 1 [T
c
]
dove T
o
indica il tempo che intercorre tra un arrivo e laltro, T
c
il tempo necessario per
un servizio. Abbiamo scoperto che se il tempo medio di servizio minore del tempo tra
un arrivo e laltro, si stabilisce il regime stazionario e siamo in grado di calcolare la dis-
tribuzione invariante. Quando invece 1 [T
o
] _ 1 [T
c
], cio intercorre meno tra un arrivo e
laltro rispetto ai servizi, il servente non in grado di far fronte agli arrivi e non si instaura
un regime stazionario, bens la coda diverge allinnito (il numero di persone in coda cresce
indenitamente).
Le code descritte da questo esempio sono le code con un servente solo, dette ',',1.
5.4.3 Tassi di crescita costanti, tassi di decrescita lineari
Supponiamo che sia
`
a,a1
= : j, `
a,a+1
= `.
Poniamo di nuovo
j =
`
j
.
Vale
a
a
=
j
a
:!
.
La serie

o
a=0
j
n
a!
converge per ogni valore di j, ed ha c
j
come somma. Quindi si instaura
sempre il regime stazionario e vale
a
= c
j
j
a
:!
.
Questa, tra laltro, una distribuzione di Poisson di parametro j.
Questo esempio si incontra nelle code con inniti serventi (ovviamente unidealizzazione
della realt). Infatti, supponiamo che il tempo tra un arrivo e laltro abbia media
1
j
e che
nel sistema ci siano inniti serventi disponibili, ciascuno che serve con tempo medio
1
A
. Ogni
nuovo cliente che entra nel sistema ha subito un servente libero a disposizione, quindi inizia
subito il servizio. Non c coda. Si passa dallo stato / allo stato / 1 quando un cliente tra
tutti quelli in fase di servizio (cio tutti quelli nel sistema, quindi / clienti) completa il suo
servizio. Se ci sono appnto / clienti in fase di servizio, ed indichiamo con T
(1)
c
, ..., T
(I)
c
i loro
tempi di servizio, listante in cui il primo cliente termina il servizio
T = min
_
T
(1)
c
, ..., T
(I)
c
_
che, per un noto teorema, una v.a. esponenziale di parametro pari alla somma dei parametri,
quindi pari a / j. Ecco quindi che il tasso di transizione da / a / 1 / j.
Le code di questo esempio vengono a volte indicate con ',',.
5.4.4 Coda con c serventi
Esaminiamo ora il caso intermedio, di un sistema con c serventi, 1 < c < , denotato col
simbolo ',',c. Il tasso di arrivo sia sempre ` e quello di servizio di un singolo servente
sempre j.
Se nel sistema ci sono c clienti o pi di c, tutti i serventi sono attivi, quindi liberano una
persona con tasso cj (stesso ragionamento del caso precedente). Se per nel sistema ci sono
/ < c persone, solo / serventi stanno lavorando, quindi liberano una persona con tasso /j. Il
grafo quello della gura 5, dove abbiamo preso ` =
1
2
, j =
1
3
. Si noti che in questo esempio
numerico vale j < `, cio il singolo servitore pi lento di un singolo arrivo. Ma giocando
in squadra, riescono a raggiungere il regime stazionario. Infatti, posto
j =
`
cj
vale
a
0
= 1, a
1
=
`
j
, a
2
=
`
2
(1 j) (2 j)
=
`
2
2 j
2
, ...
no a
a
c1
=
`
c1
(c 1)! j
c1
e poi, da c in avanti,
a
c
=
`
c
c! j
c
a
c+1
=
`
c+1
c! c j
c+1
a
c+2
=
`
c+2
c! c
2
j
c+2
e cos via,
a
c+I
=
`
c+I
c! c
I
j
c+I
=
`
c
c!j
c
j
I
.
Quindi
a =
c1
a=0
`
a
:! j
a
+
o
I=0
`
c
c!j
c
j
I
=
c1
a=0
`
a
:! j
a
+
`
c
c!j
c
1
1 j
.
Una volta calcolato questo numero (se c basso, lo si calcola a mano facilmente), la dis-
tribuzione invariante
a
=
1
a
`
a
:!j
a
per : = 0, 1, ..., c 1
a
=
c+I
=
1
a
`
c
c!j
c
j
I
per : _ c ovvero / _ 0
(attenzione: nella seconda relazione : e / sono legati dalla formula : = c +/).
A parte la formula nale, va notato che la condizione per la convergenza della serie, e
quindi per il raggiungimento del regime stazionario, j < 1 ovvero
` < cj.
Il tasso di arrivo pu anche superare il tasso di servizio, ma non deve superare il tasso di c
serventi simultanei.
Figura 5.1: Coda con 3 serventi.
5.4.5 Nascita e morte con un numero nito di stati
Consideriamo la situazione dei processi di nascita e morte ma con stati 0, 1, ..., . La teoria e
le formule nali sono quasi identiche: infatti abbiamo ricavato tutto partendo iterativamente
da / = 0.
Per pi semplice il discorso legato allesistenza del regime stazionario: esiste sempre.
La distribuzione invariante esiste sempre. La grandezza a ora data dalla somma nita
a =
.
a=0
a
a
che quindi sempre nita, per cui si trova sempre
a
=
a
a
a
, : = 0, 1, ..., .
Tra le piccole varianti notevoli c il fatto che possiamo calcolare esplicitamente la prob-
abilit invariante nel caso
`
a,a1
= j, `
a,a+1
= `.
Infatti, ponendo sempre j =
A
j
, vale anche ora a
a
= j
a
e si conosce il valore della seguente
somma:
a =
.
a=0
j
a
=
1 j
.+1
1 j
.
Quindi in questo caso
a
=
1 j
1 j
.+1
a
a
, : = 0, 1, ..., .
5.4.6 Valori medi notevoli
Consideriamo un processo di nascita e morte. Pensiamo ad esempio ad una coda, per avere
un linguaggio pi immediato. Ci chiediamo: qual, allequilibrio, il numero medio di utenti
nel sistema? Questa sicuramente una delle principali grandezze che desideriamo conoscere
(il gestore del servizio ragioner sulla bont del suo sistema di servizio in base a numeri di
questo tipo).
Detto il numero aleatorio di utenti nel sistema, allequilibrio, vale per denizione di
valor medio
1 [] =
o
a=0
:
a
in quanto
a
proprio 1 ( = :). In generale non ci sono formule esplicite. Vediamo per
alcuni esempi.
Numero medio di utenti, tassi costanti
Nel caso
`
a,a1
= j, `
a,a+1
= `
essendo
a
= (1 j) j
a
vale
1 [] = (1 j)
o
a=0
:j
a
=
j
(1 j)
Abbiamo usato il seguente fatto:
o
a=0
:j
a
= j
o
a=1
:j
a1
= j
d
dj
o
a=1
j
a
= j
d
dj
o
a=0
j
a
= j
d
dj
1
1 j
=
j
(1 j)
2
.
Per inciso, la formula 1 [] =
j
(1j)
la media di una v.a. geometrica di parametro j.
Numero medio di utenti, inniti serventi
Se
`
a,a1
= : j, `
a,a+1
= `
vale
a
= c
j
j
a
:!
quindi
1 [] = c
j
o
a=0
:
j
a
:!
= c
j
o
a=1
:
j
a
:!
= jc
j
o
a=1
j
a1
(: 1)!
= jc
j
o
a=0
j
a
:!
= jc
j
c
j
= j.
Il numero medio semplicemente j. In realt lo sapevamo: avendo osservato che la v.a.
una Poisson di parametro j, gi sappiamo che la sua media j.
Esercizio 35 Cercare una formula, per quanto poco esplicita, per la media 1 [] nel caso di
una coda con c serventi.
Numero medio di utenti in attesa
Questo titolo solo un esempio delle diverse varianti del problema precedente. Vogliamo
sottolineare il fatto che le formule precedenti davano il numero medio di utenti nel sistema,
incluso quindi quello in fase di servizio. Se la richiesta un po diversa, come il numero medio
di utenti in attesa, bisogna eettuare delle modiche.
Indichiamo con
cict
il numero aleatorio di utenti nel sistema e con
ott
il numero di
quelli in attesa.
Lintuito potrebbe portare a dire che
ott
=
cict
1 e quindi 1 [
ott
] = 1 [
cict
] 1.
Se cos fosse, non ci sarebbe nulla di nuovo da calcolare. Questa intuizione quasi giusta
ma non completamente. Infatti, la relazione
ott
=
cict
1 non vale se
cict
= 0, in
quanto non
ott
= 1 in tal caso. Escluso questo caso, essa vera. Quindi non vale
1 [
ott
] = 1 [
cict
] 1, per lerrore moderato.
Se vogliamo la formula esatta, si pu usare il seguente lemma.
Lemma 7
1 [
ott
] = 1 [
cict
] 1 +
0
.
Proof. Per denizione di
ott
e di valor medio, vale
1 [
ott
] =
o
a=1
(: 1)
a
.
Questo si pu scomporre e riscrivere come segue:
=
o
a=1
:
a
a=1
a
=
o
a=0
:
a
a=0
a
+
0
= 1 [
cict
] 1 +
0
.
A seconda della quantit media che interessa, bisogna svolgere calcoli di questo tipo;
questo era solo un esempio.
Tempo medio di permanenza di un utente nel sistema
Questo un altro valor medio di importanza fondamentale per le applicazioni. Il suo calcolo
completamente diverso. Naturalmente stiamo sempre supponendo di essere allequilibrio.
Bisogna evitare di confondersi tra tempo di permanenza, tempo di attesa e tempo di
servizio. Il primo la somma degli altri due.
Esaminiamo una coda ',',1. Dobbiamo immaginare di essere un utente che arriva nel
sistema: quanto tempo dovremo restare in esso, tra attesa e servizio? Un tempo aleatorio.
Se capiamo la struttura di questo tempo aleatorio, possiamo calcolarne il valor medio.
Quando arriviamo nel sistema possono esserci gi / utenti. Attenderemo il tempo del loro
servizio pi il tempo nel nostro servizio. In una coda ',',1 gli utenti vengono serviti uno
dopo laltro. Indichiamo con T
(1)
, ..., T
(I)
i tempi di servizio dei / utenti davanti a noi, e con
T
(I+1)
il nostro tempo di servizio. Il nostro tempo di permanenza T
jcvn
pari a
T
jcvn
= T
(1)
+... +T
(I)
+T
(I+1)
.
Insistiamo per sul fatto che questa uguaglianza valida se, al nostro arrivo nel sistema, ci
sono / persone davanti a noi. E, per cos dire, unuguaglianza condizionata. Comunque, in
tal caso, vale
1 [T
jcvn
] =
(/ + 1)
j
se j il tasso di servizio (abbiamo usato la linearit del valor medio).
Rimuoviamo ora la condizione che ci fossero esattamente / utenti davanti a noi. Il numero
di utenti al nostro arrivo aleatorio. Usiamo un analogo della formula di fattorizzazione, ma
per i valori medi:
1 [T
jcvn
] =
o
I=0
1 [T
jcvn
[ = /] 1 ( = /)
dove abbiamo indicato con il numero aleatorio di utenti davanti a noi al momento del
nostro arrivo. Abbiamo calcolato sopra
1 [T
jcvn
[ = /] =
(/ + 1)
j
e daltra parte vale 1 ( = /) =
I
allequilibrio. Quindi
1 [T
jcvn
] =
o
I=0
(/ + 1)
j

I
=
1
j
o
I=0
/
I
+
1
j
o
I=0
I
=
1
j
j
(1 j)
+
1
j
.
Si provi a titolo di esercizio ad impostare il calcolo del tempo medio di permanenza per
le code con pi serventi.
5.4.7 Lancio di un dato al suono dellorologio
Questa variante della teoria precedente si incontra alcune volte negli esempi. Supponiamo
che, quando suona un orologio esponenziale che detta lordine di eettuare una transizione,
estraiamo a sorte tra due o pi possibilit ed andiamo nello stato estratto.
Ad esempio, supponiamo che il 10 per cento dell volte che una persona ha completato il
servizio, si accorge di aver dimenticato di dire qualcosa e quindi si rimette in coda. Gli stati
del sistema sono sempre gli interi / _ 0, con transizioni tra primi vicini, ma quando starebbe
per accadere la transizione / / 1 (servizio completato ed uscita dellutente dal sistema),
con probabilit 1/10 lutente si rimette immediatamente in coda. Quindi solo 9 volte su 10 si
realizza eettivamente la transizione / / 1, mentre una volta su dieci gli utenti restano
/.
In questi casi, a volte si riesce a ragionare semplicemente con buon senso, aggiustando i
tassi di transizione come detta il buon senso. Altrimenti la regola di moltiplicare il tasso
per la probabilit corrisponendente. Supponiamo di essere nello stato e che al suonare
dellorologio di tasso ` dobbiamo decidere se andare in 1 o C con probabilit j
1
e j
C
,
j
1
+j
C
= 1. Allora come se avessimo due frecce, una che porta da a 1 con tasso ` j
1
,
laltra che porta da a C con tasso ` j
C
. Lo schema
_
j
T
1
j
C
C
equivale alle transizioni
C
Aj
C

Aj
T
1. (5.4)
Anche se non lo dimostriamo, questo non stupisce, sia per la sua intuibilit, sia per lanalogia
con unaltra regola gi vista, che per cos dire il viceversa. Supponiamo infatti di partire
dalle due transizioni (5.4). Introducuiamo il tempo di permanenza in
T
jcvn
= min(T
,1
, T
,C
) .
Esso ha tasso `
jcvn
= `
,1
+ `
,C
. Possiamo interpretare la diramazione (5.4) come un
singolo orologio T
jcvn
seguito dalla scelta casuale tra 1 e C, operata secondo la regola

spiegata in un paragrafo precedente: la probabilit di andare in 1 j
,1
=
A
/,T
A
/,T
+A
/,C
e cos
via. Ma allora il prodotto
`
jcvn
j
,1
vale proprio `
,1
. E il viceversa di quanto detto sopra.
5.4.8 Il processo di Poisson
Il processo degli arrivi ad una coda di servizio, con tempo aleatorio tra un arrivo e laltro di
tipo esponenziale di parametro `, un processo di Poisson. Praticamente in tutti i nostri
esempi di code il processo degli arrivi di Poisson.
La denizione formale e generale di processo di Poisson ovviamente pi articolata, ma
qui ci basta lintuizione associata alle code.
La denominazione Poisson deriva dal fatto che, detto
t
il numero di utenti arrivati
nellintervallo [0, t], la v.a.
t
di Poisson di parametro `t. Questo fatto stabilito da un
noto e non banale teorema di legame tra v.a. esponenziali e v.a. di Poisson.
Il numero ` detto tasso del processo. Esso ha varie interpretazioni. Da un lato, gi sap-
piamo che ` il reciproco del tempo medio tra un arrivo e laltro. Una seconda interpretazione
fondamentale quella di numero medio di arrivi nellunit di tempo: infatti
` =
1 [
t
]
t
.
Per questo detto tasso del processo.
Due processi di Poisson indipendenti si combinano in un unico processo di Poisson di tasso
pari alla somma dei tassi. Si rietta sulla possibile giusticazione. Questo fatto si applica ad
esempio alle code in cui si sa che arrivano utenti di due categorie (es. macchine a benzina e
macchine diesel ad un distributore), con diversi tassi di arrivo.
5.4.9 Il processo in uscita da una coda
A volte si conosce la struttura di questo processo, a volte no. Lunica osservazione che
facciamo la seguente: se siamo allequilibrio, il numero medio di uscite per unit di tempo
pari al numero medio di entrate. Il tasso, cio, lo stesso, sia in entrata che in uscita.
Non dimostriamo questa importante propriet ma invitiamo ad una riessione intuitiva: se
il numero delle uscite fosse inferiore (mediamente) alle entrate, in numero degli utenti nel
sistema crescerebbe indenitamente, quindi non sarmmo allequilibrio; viceversa, se il numero
delle uscite fosse superiore alle entrate, dopo un po il sistema si svuoterebbe denitivamente,
quindi anche in questo caso non saremmo allequilibrio.
5.5 Esercizi
Esercizio 36 Una stampante (del settore di produzione di una casa editrice) lavora a ci-
clo continuo. Ogni tanto per la qualit della stampa non pi ammissibile (alla lunga si
sporcano alcune componenti), per cui si deve interrompere la stampa ed eseguire una comp-
lessa manutenzione. Si osserva che il deterioramento accade dopo un tempo di funzionamento
T
)
, esponenziale, di media 30 giorni, mentre la manutenzione richiede un tempo aleatorio
esponenziale mediamente di un giorno.
0) [Non necessario risolvere questo punto, ma pu aiutare] Descrivere questo sistema
con un modello markoviano al ne di calcolare la probabilit a regime di trovare la stampante
funzionante.
1) La casa editrice, occupandosi anche di quotidiani, non pu sopportare il fermo della
stampante per cui ne tiene una seconda pronta per essere utilizzata non appena la prima
richiede manutenzione. Questa seconda stampante per meno sosticata, per cui si rompe
dopo un tempo di lavoro aleatorio esponenziale di media 5 giorni e richiede un tempo espo-
nenziale di media 1 giorno per ripartire. Appena la macchina principale viene riattivata, si
interrompe luso della secondaria. Se la secondaria si rompe prima che la principale sia riatti-
vata, la squadra di riparatori insiste solamente sulla principale, occupandosi della secondaria
solo dopo aver fatto ripartire la principale. Descrivere il sistema con un modello markoviano.
5.5. ESERCIZI 297
2) Calcolare la probabilit a regime di trovarsi con entrambe le macchine ferme. Se si vuole
che questa probabilit sia inferiore allo 0.001, bisogna che il tempo medio di sopravvivenza
delle due macchine sia pi alto: quali valori sono sucienti? La disequazione nale nelle due
variabili non deve essere risolta, ma solo scritta.
3) Supponiamo che la macchina secondaria venga sostituita da un modello nuovo di cui
ancora non si conoscono bene le caratteristiche. Si osserva che, quando la macchina principale
ferma e la secondaria lavora, nel 90% dei casi viene aggiustata la macchina principale prima
che si rompi anche la secondaria. Che tempo medio di funzionamento ha la nuova macchina
secondaria? Non suciente una risposta numerica su sola base intuitiva; casomai, si pu
interpretare intuitivamente il risultato ottenuto con metodi rigorosi.
4) Proseguendo il punto 1, supponiamo per che il reparto manutenzione abbia una seconda
squadra, meno veloce di quella descritta sopra, che esegue una riparazione (della macchina
principale o della secondaria, indierentemente) con un tempo medio di 2 giorni. La squadra
pi lenta entra in gioco solo se quella pi veloce gi impegnata. Inoltre, se quella veloce
completa una riparazione mentre quella lenta sta lavorando, la lenta cede il lavoro alla veloce.
Descrivere ora il sistema con un modello markoviano. Quando entrambe le macchine sono
rotte, quanto si deve attendere mediamente prima che la stampa riparta?
Esercizio 37 Un docente chiede ai propri studenti di realizzare un progetto come prova orale.
Ogni studente pu decidere in qualsiasi momento di richiedere al docente il comando del
progetto da eseguire. Dopo un tempo T
jvcj
lo studente consegna il progetto. Il docente impiega
un tempo aleatorio esponenziale T
ccvv
a correggere ciascun progetto.
1) Semplichiamo la situazione precedente ignorando la fase di richiesta e realizzazione
del progetto. Quindi guardiamo le cose solo dal punto di vista del docente che riceve i progetti
e li deve correggere. Supponiamo che il docente riceva i progetti niti con intertempi aleatori
esponenziali T
iatcv
e che corregga un progetto per volta. Supponiamo che i valori medi di
T
ccvv
e T
iatcv
siano di : gg. e 3 gg. rispettivamente. Come deve scegliere : (numero anche
non intero), il docente, per avere al massimo un progetto da correggere per il 90% del tempo,
a regime?
2) Continuiamo nellottica semplicata del punto 1. Il docente modica la sua strategia e
lavora contemporaneamente alla correzione di tutti i progetti ricevuti (ed inizia la correzione
di ogni progetto appena lo riceve). Per ciascun progetto la correzione dura un tempo T
ccvv
di media 5 gg. Calcolare il numero medio di compiti da correggere, a regime. Si ricorda lo
sviluppo di Taylor della funzione esponenziale: c
a
=

o
I=0
a
I
I!
.
3) Ora prendiamo in considerazione il problema completo descritto allinizio, con le richi-
este da parte degli studenti ed i loro tempi T
jvcj
di esecuzione dei progetti stessi ed eliminiamo
le speciche descritte ai punti 1 e 2. Supponiamo che tra una richiesta e la successiva passi
un tempo esponenziale di media 3 gg. Supponiamo che il tempo T
jvcj
di esecuzione di ciascun
studente sia esponenziale ed abbia media 7 gg. Supponiamo che il docente corregga i compiti
secondo le modalit del punto 2. Descrivere ora il sistema, in cui si deve tener conto sia del
numero di richieste attive sia del numero di compiti da correggere.
5.6 Processi nel continuo
5.6.1 Processi a tempo continuo
Si chiama processo stocastico a tempo continuo ogni famiglia (A
t
)
t0
di variabili aleatorie
indicizzata dal tempo t [0, ). Un esempio: A
t
= velocit del vento nella zona industriale
di Livorno allistante t. Con lo stesso nome si indicano anche i casi in cui il tempo varia su
tutto lasse reale: (A
t
)
tR
; oppure su un intervallo [0, T]: (A
t
)
t[0,T]
e cos via per situazioni
simili a queste.
Due visioni, come nel caso a tempo discreto:
ssato t, A
t
una variabile aleatoria;
se osserviamo una storia particolare, che accade in un esperimento (anche ideale),
osserviamo una realizzazione (detta anche una traiettoria del processo).
Una realizzazione una funzione di t, che varia nel continuo (prima, una realizzazione,
cio una serie storica, era una successione discreta). Se pensiamo alle realizzazioni come i
possibili risultati degli esperimenti (esperimenti protratti nel tempo), vediamo un processo
stocastico come una funzione aleatoria. Il caso sceglie una certa funzione tra tutte quelle
possibili.
5.6.2 Pi generale che tempo continuo?
E per interessante in certe applicazioni considerare variabili aleatorie indicizzate da para-
metri pi generali, ad esempio lo spazio, o lo spazio-tempo. Continueremo a chiamarli processi
stocastici, oppure pi specicamente campi aleatori. Ad esempio un campo aleatorio una
famiglia
_
l
(t,a,j,:)
_
t,a,j,:R
indicizzata da tempo e spazio. Un esempio concreto pu essere
la velocit dellaria nel punto (r, j, .) dello spazio, allistante t (nello studio delle predizioni
atmosferiche si deve considerare questa grandezza aleatoria al variare di tempo e spazio).
Inne, per alcune applicazioni speciche sono interessanti le famiglie di variabili aleatorie
indicizzate da insiemi: (A
)
R
u. Ad esempio: A
= quantit dacqua piovana che cade

nella regione ; oppure
[o,b]
= numero di chiamate telefoniche che arriva ad una centrale
nel periodo di tempo [a, /].
In denitiva, volendo dare una denizione generale, un processo stocastico una famiglia
di variabili aleatorie indicizzata da un qualche insieme di parametri.
5.6.3 Il moto browniano
Vuole essere lanalogo della random walk, ma a tempo continuo. Nella RW si sommano
incrementi indipendenti, a tempi discreti. Qui allora richiederemo che il processo sia somma
di incrementi indipendenti, ma incrementi relativi a tempi qualsiasi.
Inoltre, nella RW, gli incrementi erano v.a. gaussiane. Qui si chiede lo stesso, sempre
a tempi qualsiasi. Ecco le sue propriet fondamentali, che lo deniscono (in modo non
costruttivo come per la RW).
5.6. PROCESSI NEL CONTINUO 299
Denizione 56 Un processo stocastico (1
t
)
t0
si dice moto browniano (standard) se:
i) 1
0
= 0
ii) per ogni coppia di tempi t _ : _ 0, lincremento 1
t
1
c
una v.a. (0, t :)
iii) gli incrementi 1
tn
1
t
n1
, ... , 1
t
1
1
t
0
sono indipendenti, per ogni : _ 1 e
0 _ t
0
< t
1
< ... < t
a
iv) le traiettorie siano funzioni continue.
Possiamo visualizzare, simulare, delle traiettorie di un MB? Come sempre, le simulazioni
impongono una discretizzazione (lo stesso vale anche se volessimo ragurare la funzione sint).
Fissiamo quindi una sequenza di tempi t
1
< t
2
< ... < t
a
rispetto a cui vogliamo i valori di
una traiettoria. Per semplicit. prendiamo i tempi equispaziati:
t
I
=
/
, / = 1, ..., :.
Vale
1
t
I
=
_
1 1
^
1 0
^
_
+
_
1 2
^
1 1
^
_
+
_
1 3
^
1 2
^
_
+...
cio il MB al generico tempo t
I
=
I
.
somma di gaussiane indipendenti e con la stessa
distribuzione, cio una RW! Basta quindi rappresentare una RW.
Si pu essere quantitativamente pi precisi. Supponiamo ad esempio di voler ragurare
una traiettoria browniana per t [0, 5], usando 5000 punti. Prendiamo = 1000, / =
1, ..., 5000. Ciascun incremento
_
1I+1
^
1I
^
_
una
_
0,
/ + 1
_
=
_
0,
1
_
cio una gaussiana di deviazione standard
_
1
.
=
_
1
1000
. Ecco allora i comandi:
L<-5000; W<-rnorm(L,0,sqrt(1/1000)); X<-1:L
X[1]<-0; X<-cumsum(W); ts.plot(X)
Facciamo una verica incrociata. Il valore nale della simuolazione precedente 1
5
, il MB
al tempo 5. In base alle sue propriet, devessere una v.a. (0, 5). Ripetiamo allora 1000
volte la simulazione precedente, vediamo un istogramma e calcoliamo media e deviazione.
Ecco i risultati:
LL<- 1000; B <- 1:LL; L<-5000
for (i in 1:LL) {
W<-rnorm(L,0,sqrt(1/1000)); B[i]<-sum(W)}
hist(B,50)
White noise a tempo continuo?
Tempo discreto: RW = cumulato del WN, ovvero:
white noise = incrementi della RW.
Tempo continuo:
white noise = derivata del MB.
Per si pu dimostrare che le realizzazioni del MB non sono derivabili (non esiste nito il
limite del rapporto incrementale). Lidea viene dal fatto che
\ ar
_
1
t
1
c
t :
_
=
1
(t :)
2
\ ar [1
t
1
c
] =
t :
(t :)
2
=
1
t :
che diverge per t :. Per dare senso al concetto di white noise, serve il concetto di derivata
nel senso delle distribuzioni, che non sviluppiamo.
Moralmente, il white noise a tempo continuo un processo \
t
tale che: i) \
t

_
0, o
2
_
,
ii) \
t
1
, ..., \
t
^
sono indipendenti. Ma al tempo stesso: o
2
= . La prima gura di questi
appunti rende lidea, pur essendo unapprossimazione discreta.
5.6.4 Dinamiche stocastiche
Idea comune a tanti modelli: la dinamica di un sistema descritto da unequazione alle
dierenze nite (come i processi ARIMA) o da unequazione dierenziale, per sono presenti
delle incertezze:
dati iniziali aleatori (non si conosce lesatta congurazione iniziale)
parametri aleatori (es. non si conosce il valore esatto di una certa concentrazione
chimica)
c rumore di fondo
ci sono variabili che non sappiamo descrivere in modo deterministico.
Esempio 103 evoluzione di una frattura in una lastra di vetro esposta al vento. Linuenza
del vento viene descritta da un processo stocastico
t
(es. pressione allistante t), dato a
priori, con propriet statistiche ragionevoli; lampiezza a
t
della frattura risolve una certa
equazione dierenziale del tipo
da
t
dt
= ) (a
t
,
t
) .
La classe pi importante di dinamiche stocastiche nel continuo quella delle equazioni
dierenziali stocastiche. Sono equazioni dierenziali del tipo:
dA
t
dt
= / (A
t
, t) +o (A
t
, t)
d1
t
dt
un analogo nel continuo delle equazioni ricorsive nel discreto, col white noise discreto \
a
rimpiazzato da
o1I
ot
(white noise nel continuo).
La soluzione (A
t
)
t0
un processo stocastico. Possiamo simulare delle traiettorie di
(A
t
)
t0
discretizzando lequazione. Nella sezione 5.7 vedremo che possiamo anche calcolare
la densit di probabilit di A
t
risolvendo unequazione alle derivate parziali di tipo parabolico,
detta equazione di Fokker-Planck.
In questa sezione introduttiva mostriamo alcuni esempi numerici.
Equilibrio stocastico
Lequazione dierenziale
dA
t
dt
= A
t
, A
0
= r
0
uno dei modelli pi semplici di sistema con un breve transitorio seguito da una situazione
di equilibrio. La soluzione A
t
= c
t
r
0
, che tende esponenzialmente allequilibrio A = 0.
Se aggiungiamo un white noise
dA
t
dt
= A
t
+o
d1
t
dt
, A
0
= r
0
otteniamo ugualmente un sistema che rilassa allequilibrio (la parte viscosa o dissipativa
A
t
continua ad agire) ma il sistema uttua in modo casuale attorno al vecchio equilibrio
deterministico. Possiamo considerare un equilibrio statistico, questa nuova situazione.
I due graci sono stati ottenuti coi comandi
N<-2000; x0<-1; h<-0.01; s<-0.1
W<-rnorm(N,0,sqrt(h))
X.det<-1:N; X<-1:N; X.det[1]<-x0; X[1]<-x0
for (n in 1:(N-1)) {
X.det[n+1] <- X.det[n] - h*X.det[n]
X[n+1] <- X[n] - h*X[n] + s*W[n]
}
plot(c(0,N*h),c(-1,1)); lines(c(0,N*h),c(0,0), type=l)
T<-(1:N)*h; lines(T,X.det); lines(T,X,col=red)
Notiamo un dettaglio della discretizzazione. Abbiamo usato il metodo di Eulero esplic-
ito (per semplicit). Indichiamo con 0 < t
1
< t
2
< ... gli istanti di discretizzazione, che
prendiamo della forma t
a
= : / (/ il passo di discretizzazione), e scriviamo
A
t
n+1
A
tn
/
= A
tn
+o
1
t
n+1
1
tn
/
ovvero
A
t
n+1
= A
tn
/ A
tn
+o
_
1
t
n+1
1
tn
_
.
La v.a.
_
1
t
n+1
1
tn
_
(0, /). Per questo abbiamo usato il comando W<-rnorm(N,0,sqrt(h)).
Un sistema a due stati
Lequazione dierenziale
dA
t
dt
= A
t
A
3
t
, A
0
= r
0
ha la propriet che le soluzioni tendono ai due punti ssi A = 1 e A = 1 (salvo la soluzione
uscente da r
0
= 0 che resta nulla). Ogni soluzione ha un destino preciso, A = 1 oppure
A = 1.
Aggiungendo un rumore
dA
t
dt
= A
t
A
3
t
+o
d1
t
dt
, A
0
= r
0
si ottiene un sistema che tende provvisoriamente ad uno dei due punti ssi, per uttua
intorno ad esso, e quando una uttuazione sucientemente grande, transisce allaltro punto
sso; e cos via allinnito. In sica chiamato leetto tunneling: ci sono due buche di
potenziale ed il sistema, a causa delle uttuazioni, ogni tanto cambia buca.
o piccola o grande
5.6.5 Fit tramite unequazione dierenziale
Data una serie storica, si pu tentare un suo t tramite unequazione dierenziale, oltre che
tramite modelli ARIMA ed altri visti in precedenza.
Se la serie storica ha propriet gaussiane, si pu tentare con unequazione lineare del tipo
dA
t
dt
= À
t
+o
d\
t
dt
che produce processi gaussiani. Ci aspettiamo per che il risultato sia simile a quello ottenuto
con gli AR(1), se si pensa alla discretizzazione di Eulero:
A
t
n+1
= A
tn
/ À
tn
+o
_
1
t
n+1
1
tn
_
cio
A
t
n+1
= (1 / `) A
tn
+o\
t
n+1
avendo posto \
t
n+1
= 1
t
n+1
1
tn
.
Fit nel caso non gaussiano
Assai pi dicile trovare un modello quando i dati non hanno una statistica gaussiana.
Dagli esempi precedenti sono emersi due elementi chiave di una serie storica: le sue
propriet statistiche, la sua struttura di autocorrelazione.
Se decidiamo di soprassedere su un t preciso delle propriet statistiche, si possono usare
i metodi lineari precedenti anche nel caso non gaussiano, cercando di catturare al meglio la
struttura di autocorrelazione.
Se abbiamo una serie storica stazionaria, con autocorrelazione relativamente semplice a
memoria breve (come quella precedente, che va a zero dopo pochi valori), ed invece vogliamo
catturare bene le propriet statistiche non gaussiane, possiamo usare la teoria delle equazioni
di Fokker-Planck, che descriveremo nella prossima sezione.
5.7 Equazioni dierenziali stocastiche
Consideriamo lequazione dierenziale (o pi precisamente il problema di Cauchy)
dr(t)
dt
= / (t, r(t)) , r(0) = r
0
.
Se tutti i termini, cio / (t, r) e r
0
, sono deterministici, la soluzione sar deterministica. Se
invece o il dato iniziale r
0
oppure / (t, r) aleatoria, la soluzione sar un processo stocastico.
Il caso di un dato iniziale r
0
aleatorio interessante ma piuttosto elementare, per cui ci
concentriamo sul caso di / (t, r) aleatoria. Consideriamo un caso molto particolare, in cui
lequazione ha la forma
dr(t)
dt
= / (r(t)) +o (r(t)) (t) , r(0) = r
0
.
dove / dipende solo da r e (t) un processo stocastico assegnato, diciamo di media nulla e
varianza unitaria, per cui o misura la sua deviazione standard. Per essere ancora pi specici,
supponiamo che (t) sia un white noise. Non diamo la denizione rigorosa di white noise,
accontentandoci di descrivere alcuni risultati e svolgere alcune simulazioni. Notiamo solo che
molto spesso unequazione di tale tipo viene scritta nella forma
dr(t) = / (r(t)) dt +o (r(t)) d1(t)
dove 1(t) un moto browniano. Infatti, abbiamo gi osservato altrove che il white noise la
derivata del moto browniano: (t) =
o1(t)
ot
, uguaglianza che lega le due formulazioni delle-
quazione. Il motivo che spinge a scrivere solamente d1(t) e non
o1(t)
ot
che le traiettorie del
moto browniano non sono derivabili, quindi in un certo senso lequazione non unequazione
dierenziale ma solo unequazione per incrementi dr(t), d1(t).
Accettando che con una certa fatica matematica si possa dar senso a tutte le espressioni ed
equazioni dette sopra, vediamo i risultati. La soluzione r(t) un processo stocastico. Senza
entrare nei dettagli, si pu dimostrare che un processo di Markov. Cosa molto importante,
ad ogni istante t 0 la v.a. r(t) ha densit di probabilit j (t, r) che soddisfa una certa
equazione. Prima di scriverla sottolineiamo un fatto teorico non banale: anche se il dato
inziale r
0
deterministico, cio il processo stocastico r(t) al tempo t
0
= 0 vale identicamente
r
0
, con probabilit uno, quindi non ha densit, tuttavia ha densit ad ogni istante t 0. Si
parla infatti di processo di diusione. E come se allistante t
0
= 0 ci fossero innite particelle
tutte concentrate nel punto r
0
, che poi immediatamente si muovono in diverse direzioni con
traiettorie erratiche (tipo moto browniano), per cui ad ogni successivo istante t 0 troviamo
le particelle distribuite un po ovunque (non in modo uniforme), distribuite secondo una
densit j (t, r).
5.7. EQUAZIONI DIFFERENZIALI STOCASTICHE 305
La funzione j (t, r) soddisfa lequazione alle derivate parziali
0j (t, r)
0t
=
1
2
0
2
0r
2
_
o
2
(r) j (t, r)
_
0
0r
(/ (r) j (t, r))
detta equazione di Fokker-Planck. Abbiamo scritto tutto nel caso di r uni-dimensionale,
ma la teoria si generalizza senza dicolt. Ci sono varianti di questa teoria per dinamiche
stocastiche markoviane di vario tipo, non necessariamente descritte da equazioni dierenziali
stocastiche del tipo enunciato sopra. In certi casi lequazione che corrisponde a Fokker-Planck
si chiama Master Equation.
A volte interessa la soluzione r(t) che esce dal dato iniziale deterministico r
0
, ma altre
volte pu essere pi interessante ragionare su soluzioni r(t) non legate a dati iniziali specici,
ma aventi la propriet di essere stazionarie: in particolare, aventi densit j (t, r) indipendente
da t. In tal caso la densit j (r) risolve lequazione
1
2
0
2
0r
2
_
o
2
(r) j (r)
_
d
dr
(/ (r) j (r)) = 0
che decisamente pi semplice della precedente. Nel caso uni-dimensionale si pu impostare
una risoluzione generale. Infatti scriviamola nella forma
d
dr
_
1
2
d
dr
_
o
2
(r) j (r)
_
/ (r) j (r)
_
= 0
da cui ricaviamo
1
2
d
dr
_
o
2
(r) j (r)
_
/ (r) j (r) = C
1
per una opportuna costante C
1
. Prendiamo il caso particolare C
1
= 0 e supponiamo per un
momento o
2
(r) 0.Col metodo delle variabili separate si ottiene in pochi passi
1
2
d
dr
_
o
2
(r) j (r)
_
= / (r) j (r)
d
_
o
2
(r) j (r)
_
o
2
(r) j (r)
= 2
/ (r)
o
2
(r)
dr
log
_
o
2
(r) j (r)
_
= 2
_
/ (r)
o
2
(r)
dr
j (r) =
1
7 o
2
(r)
exp
_
2
_
a
0
/ (t)
o
2
(t)
dt
_
per unopportuna costante 7 0. Riassumendo, data /(r), se risulta
7 :=
_
+o
o
1
o
2
(r)
exp
_
2
_
a
0
/ (t)
o
2
(t)
dt
_
dr <
allora
j (r) =
1
7 o
2
(r)
exp
_
2
_
a
0
/ (t)
o
2
(t)
dt
_
una soluzione stazionaria dellequazione di Fokker-Planck. E la densit di probabilit, ad
ogni istante di tempo, di un processo stocastico stazionario che risolve lequazione dierenziale
scritta sopra. Si pu inoltre dimostrare che la densit j (r), se esiste, lunica soluzione del
problema precedente.
Le ultime elaborazioni dei calcoli valgono sotto lipotesi o
2
(r) 0. Per ragionando caso
per caso in genere si riescono ad estendere i risultati anche quando o
2
(r) = 0 per certe r,
ad es. o
2
(r) = 0 per r _ 0. Naturalmente si intender che la formula scritta sopra vale
nellintervallo delle r in cui o
2
(r) 0.
5.7.1 Applicazione diretta
Un primo modo di applicare questa teoria quello diretto: se sappiamo gi che il processo
stocastico r(t) da noi esaminato soddisfa lequazione stocastica scritta sopra, allora possiamo
simularne varie cartteristiche tramite gli strumenti precedenti. Ad esempio, supponiamo di
studiare una macromolecola immersa in un uido fermo insieme a tante altre macromolecole
e supponiamo di riassumere la sica del fenomeno nellequazione
dr(t) = `r(t)dt +od1(t)
pensando che ad ogni istante la macromolecola subisce uno spostamento dr(t) dato da due
componenti: lo spostamento od1(t) dovuto agli urti con le macromolecole circostanti, meno il
termine `r(t)dt che si fa carico genericamente dellattrito o dissipazione dovuta allinterazione
col uido. Quindi lequazione gi in nostro possesso. Possiamo scrivere lequazione di
Fokker-Planck
0j (t, r)
0t
=
o
2
2
0
2
j (t, r)
0r
2
+
0
0r
(`rj (t, r))
e tentare di simularla con programmi appositi per equazioni alle derivate parziali (in questo
caso particolarissimo si pu anche risolvere esplicitamente). per lo meno, possiamo aermare
che
j (r) = 7
1
exp
_
2`
o
2
r
2
_
una soluzione stazionaria di Fokker-Planck e quindi una densit invariante. Si noti che
una densit gaussiana di media zero e varianza
o
2
2A
.
Inoltre possiamo simulare le traiettorie dellequazione del moto, ad esempio un po roz-
zamente col metodo di Eulero esplicito:
r(t +t) = (1 `t) r(t) +o [1(t +t) +1(t)]
generando gli incrementi [1(t +t) +1(t)] come numeri gaussiani indipendenti di media
zero e varianza t (deviazione standard
_
t):
x[k + 1] = (1 lambda + h) + x[k]
+sqrt(h) + sigma + rnorm(1, 0, 1)
dove abbiamo indicato con h il numero t.
5.7.2 Identicazione sperimentale dei parametri
Proseguiamo lesempio precedente ma supponendo che sia noto solo il modello
dr(t) = `r(t)dt +od1(t)
nella sua struttura, non numericamente i parametri ` e o. Supponiamo per di conoscere
una realizzazione sperimentale (una serie storica)
r
1
, r
2
, ...
Allora possiamo da questa stimare ` e o.
Da un lato, per certi scopi, suciente conoscere il rapporto
o
2
2A
, cio la varianza della
distribuzione stazionaria. Allora, invocando un teorema ergodico, il numero
1
:
a
I=1
(r
I
r)
2
uno stimatore di
o
2
2A
. Qui come sempre r =
1
a
a
I=1
r
I
.
Se per volessimo svolgere simulazioni dellequazione del moto, dovremmo conoscere sepa-
ratamente ` e o. Si pu allora osservare che ` legato al tempo di rilassamento (decadimento)
allequilibrio: in assenza del termine od1(t) lequazione del moto sarebbe
dr(t)
dt
= `r(t)
la cui soluzione r(t) = r
0
c
At
, che impiega un tempo dellordine di
1
A
a diventare molto
piccola: r(
1
A
) = r
0
c
1
= 0.36 r
0
. Si capisce che si sta parlando dellordine di grandezza del
tempo di rilassamento, altrimenti bisognerebbe stabilire a priori cosa si intende per molto
piccolo. A volte si preferisce parlare del tempo di dimezzamento.
Stabilito che
1
A
lordine di grandezza del tempo di rilassamento, si pu calcololare la
funzione di autocorrelazione della serie r
1
, r
2
, ... e calcolare da essa un numero che corrisponda
al tempo di rilassamento della serie storica (tempo di scorrelazione). Da qui si pu stimare
`. Poi, stimato `, si stima o dal momento che
o
2
2A
stato pure stimato.
Questo procedimento un po vago, nel senso che non prescrive esattamente come calcolare
lanalogo di
1
A
sulla serie storica. Per ha il pregio di far capire lidea. Per unidenticazione
pi precisa di ` si pu usare il seguente fatto, che non ci mettiamo a giusticare nei dettagli:
Co (r
t
, r
0
) = Co
_
r
0
c
At
, r
0
_
+Co
__
t
0
c
A(tc)
d1(:), r
0
_
= c
At
o
2
2`
+ 0
quindi, detta j lautocorrelazione,
j (r
t
, r
0
) = c
At
.
In altre parole, la funzione c
At
proprio uguale allautocorrelazione (in questo semplicissimo
modello lineare). Da qui, ad esempio calcolando lautocorrelazione sperimentale al tempo
t = 1, si stima `, o grossolanamente ad occhio, o con la formula
` = lim
to
log j (r
t
, r
0
)
t
.
Si noti che bisogna fare molta attenzione alla scala temporale vera nel calcolo dellautocorre-
lazione sperimentale.
Unultima osservazione: se lequazione dierenziale fosse stata pi complessa (non lin-
eare), non avremmo potuto calcolare j (r
t
, r
0
). Allora suciente simulare con R lequazione
dierenziale calcolando lacf e cercando (anche solo per tentativi) dei valori dei parametri che
forniscono una acf simile a quella sperimentale.
5.7.3 Applicazione inversa
Supponiamo di avere una serie storica sperimentale r
1
, r
2
, ..., stazionaria, e di volerla descri-
vere tramite un modello dinamico del tipo visto sopra:
dr(t) = / (r(t)) dt +o (r(t)) d1(t).
Dalle serie storiche possiamo ricavare due classi di informazioni:
lautocorrelazione sperimentale (acf)
la funzione di distribuzione cumulativa empirica (ecdf).
Chiamiamo 1(r) una funzione che corrisponda alla ecdf: ad esempio, dopo aver esaminato
la ecdf possiamo aver scelto un modello Weibull, gaussiano ecc., che chiamiamo 1(r). Sia
)(r) la densit corrispondente: )(r) = 1
t
(r).
Poniamo
1
7o
2
(r)
exp
_
2
_
a
0
/ (t)
o
2
(t)
dt
_
= )(r).
Nel senso: ) assegnata, / e o sono incognite. Risparmiando i calcoli, che si possono
ricostruire con un po di pazienza, si trova la seguente equazione, nelle incognite / e o
2
:
2/ (r) =
d
dr
o
2
(r) + (r) o
2
(r) .
dove abbiamo posto
(r) =
d
dr
log ) (r) .
Osservazione 73 Ecco i calcoli:
exp
_
2
_
a
0
/ (t)
o
2
(t)
dt
_
= 7o
2
(r) )(r)
2
_
a
0
/ (t)
o
2
(t)
dt = log
_
7o
2
(r) )(r)
_
2
/ (r)
o
2
(r)
=
o
oa
_
o
2
(r) )(r)
_
o
2
(r) )(r)
)(r)
o
oa
o
2
(r) +o
2
(r)
o
oa
)(r)
)(r)
= 2/ (r)
d
dr
o
2
(r) +o
2
(r)
d
dr
log )(r) = 2/ (r) .
Si noti che possiamo giocare su molti gradi di libert. Quindi la prima scelta che viene
in mente
o
2
= costante
da cui
o
oa
o
2
(r) = 0, 2/ (r) = (r) o
2
, quindi
/(r) =
o
2
2
d
dr
log ) (r) .
Esempio 104 Se ad esempio ) (r) una gaussiana di media nulla e deviazione 0,
)(r) = C exp
_
r
2
20
2
_
allora
d
dr
log ) (r) =
r
0
2
quindi
/(r) =
o
2
20
2
r.
Lequazione trovata
dr(t) =
o
2
20
2
r(t)dt +od1(t).
Chiamato ` il rapporto
o
2
20
2
, si trova il modello del paragrafo precedente. Controlliamo la
compatibilit dei risultati. Nel paragrafo precedente avevamo detto che la varianza era
o
2
2A
,
che per ` =
o
2
20
2
diventa
o
2
2

2
20
2
= 0
2
. Questa la varianza qui ipotizzata.
Osservazione 74 Abbiamo un grado di libert in pi: possiamo scegliere la costante o a
piacere. La stimiamo in modo da avere il tempo di decadimento del modello teorico pari a
quello della acf.
Esaminiamo un caso pi dicile. Supponiamo che dalle osservazioni sperimentali emerga
come plausibile o opportuna una densit )(r) di tipo esponenziale:
)(r) =
_
`c
Aa
per r _ 0
0 per r < 0
.
Se tentiamo di seguire la strada precedente dobbiamo calcolare log )(r) che non ha senso per
r < 0. Questo fa venire in mente un altro problema: la scelta o costante non pu funzionare
in quanto lequazione dierenziale produrrebbe inevitabilmente delle traiettorie ogni tanto
negative, e questo sarebbe incompatibile con una densit ) concentrata sui numeri positivi.
Quindi la strategia di o costante non va pi bene. Questo il motivo per cui non abbiamo
scelto o costante sin dallinizio, anche se questo avrebbe semplicato molti passaggi.
Prendiamo allora una funzione o (r) che tende a zero per r 0
+
, in modo che leetto
del moto browniano svanisca quando ci si avviciana allorigine. Per ora prendiamo
o (r) = o r
c
.
Allora considerando lequazione solo per r 0, dove
(r) = `
calcoliamo 2/ (r) =
o
oa
o
2
(r) + (r) o
2
(r), ovvero
/ (r) = o
2
cr
2c1
`
2
o
2
r
2c
.
Prendiamo ad esempio c =
1
2
:
o (r) = o
_
r
/ (r) =
o
2
2

ò
2
2
r.
Lequazione
dr(t) =
_
o
2
2

ò
2
2
r(t)
_
dt +o
_
r(t)d1(t).
E interessante simularla con R. Lo schema di Eulero esplicito per questa equazione
x[k + 1] = x[k] + 0.5 + sigma^2 + h
0.5 + lambda + sigma^2 + x[k] + h
+ sigma + sqrt(h + x[k]) + rnorm(1, 0, 1).
Purtroppo c un problema numerico: anche se in teoria la soluzione sta sempre nel semi-
asse positivo, discretizzando pu capitare che un incremento del moto browniano la portino
nel semiasse negativo ed in tal caso il termine sqrt(h + x[k]) non sarebbe ben denito. Il
modo giusto di risolvere questo problema consisterebbe nello scrivere un codice pi accurato
di Eulero esplicito, a passo variabile, che abbrevia il passo se si supera lo zero. Per i nostri
5.8. SOLUZIONE DEGLI ESERCIZI 311
scopi troppo complesso. Usiamo uno stratagemma: se x[k + 1] diventa negativo, lo poniamo
uguale a zero.
Il parametro o a scelta. Vediamo se lo si pu usare per avere una acf simulata somigliante
alla ecf empirica. Si pu agire ad occhio per tentativi oppure calcolare sulla ecf empirica il
numero
` = lim
to
log j
cnj
(r
t
, r
0
)
t
che rappresenta il tasso di decadimento a zero della ecf empirica, poi cercare o in modo che
la stessa quantit sulla serie simulata sia uguale. Attenzione sempre alla scala dei tempi.
5.8 Soluzione degli esercizi
Soluzione esercizio 33. i) In 4 passi ci sono i seguent modi di andare da 5 a 4:
5 5 5 3 4
5 5 3 4 4
5 3 4 3 4
5 3 4 4 4
per cui la probabilit richiesta vale
1
3

1
3

1
3
1 +
1
3

1
3
1
1
2
+
1
3
1
1
2
1 +
1
3
1
1
2

1
2
= 0.342 59.
ii) Gli stati 1 e 2 comunicano tra loro e con nessun altro, quindi formano una classe chiusa
irriducibile. Lo stesso vale per 3 e 4. Lo stato 5 porta in 1 (ed in 3), da cui non pu tornare,
quindi transitorio.
iii) Nella classe 1, 2 la matrice bistocastica, quindi la misura invariante (
1
,
2
) =
_
1
2
,
1
2
_
. Nella classe 3, 4 il bilancio di usso in 3 ci d lequazione
1
2
4
=
3
a cui dobbiamo
unire la
3
+
4
= 1. Sostituendo al prima nella seconda troviamo
1
2
4
+
4
= 1 da cui
4
=
2
3
, e quindi
3
=
1
3
. Le misure invarianti del sistema complessivo hanno quindi la forma
c
_
1
2
,
1
2
, 0, 0, 0
_
+ (1 c)
_
0, 0,
1
3
,
2
3
, 0
_
=
_
c
2
,
c
2
,
1 c
3
,
2 1 c
3
, 0
_
al variare di c [0, 1].
Soluzione esercizio 34. i) Detti 1 = (, ), 2 = (, 1), 3 = (1, 1), 4 = (1, ) i
quattro stati, vale ad esempio
1 ((, ) (, )) = 1 (secondo agente non cambia) = 1,2
1 ((, ) (, 1)) = 1 (secondo agente cambia) = 1,2
1 ((, ) (1, 1)) = 0
1 ((, ) (1, )) = 0
(per il fatto che quando siamo in (, ) il primo agente resta in sicuramente) e cos via.
La matrice di transizione
1 =
_
_
_
_
1,2 1,2 0 0
0 1,2 1,2 0
0 0 1,2 1,2
1,2 0 0 1,2
_
_
_
_
(si disegni anche il grafo). E ununica classe irriducibile, quindi c ununica misura invari-
ante. La matrice bistocastica, quindi la misura invariante uniforme: = (1,4, 1,4, 1,4, 1,4).
La matrice regolare (ad esempio perch irriducibile e con un elemento diagonale positivo),
quindi c convergenza allequilibrio. Non vale il bilancio dettagliato (es. j
41
1
2
,= j
14
1
2
).
Il guadagno medio allequilibrio del primo agente
(,)
10 +
(1,1)
10 = 5.
Per simmetria questo anche il guadagno medio del secondo agente.
ii) Ora vale, ad esempio,
1 ((, ) (, )) = 0
1 ((, ) (, 1)) = 0
1 ((, ) (1, 1)) = 1
1 ((, ) (1, )) = 0
(per il fatto che quando siamo in (, ) entrambi gli agenti cambiano sicuramente) e cos via,
facendo attenzione che ora la situazione non pi simmetrica tra i due agenti. La matrice di
transizione
1 =
_
_
_
_
0 0 1 0
0 1,2 1,2 0
1 0 0 0
1,2 0 0 1,2
_
_
_
_
(si disegni anche il grafo). Gli stati (, ) e (1, 1) formano una classe irriducibile con
matrice ridotta
_
0 1
1 0
_
bistocastica e quindi misura invariante uniforme, ma non regolare,
in quanto le sue potenze sono
_
0 1
1 0
_
stessa oppure
_
1 0
0 1
_
. Gli altri sue stati sono
transitori. Lunica misura invariante pertanto = (1,2, 0, 1,2, 0). Il guadagno medio del
primo agente
(,)
10 +
(1,1)
10 = 10
mentre quello del secondo agente nullo.
iii) Se : dispari, la probabilit 1, altrimenti zero. Si vede quindi che j
(a)
3,1
non tende
a
1
, coerentemente con la scoperta fatta sopra della non regolarit.
Se si parte da (, 1), indispensabile connettersi a (1, 1) in modo da avere poi un
numero dispari di passi davanti, altrimenti il contributo nullo. Quindi va bene andare
subito in (1, 1) (poi nei restanti 9 passi si arriva in (, 1)), tragitto che ha probabilit 1/2.
Oppure eettuare
(, 1) (, 1) (, 1)
e poi andare in (1, 1), tragitto che ha probabilit
1
2

1
2

1
2
. Oppure eettuare
(, 1) (, 1) (, 1) (, 1) (, 1)
e poi andare in (1, 1), tragitto che ha probabilit
_
1
2
_
5
. E cos via, quindi la probabilit
richiesta
_
1
2
_
1
+
_
1
2
_
3
+
_
1
2
_
5
+
_
1
2
_
7
= 0.664 06.
Se si vuole la probabilit in 9 passi, con ragionamenti analoghi si trova
_
1
2
_
2
+
_
1
2
_
4
+
_
1
2
_
6
+
_
1
2
_
8
= 0.332 03.
Si intuisce che non c convergenza allequilibrio. Rigorosamente, vale
j
(9)
21
=
1
2
j
(8)
21
e si intuisce che in generale valga
j
(2a+1)
21
=
1
2
j
(2a)
21
per cui non pu accadere che j
(a)
21

1
2
.
Soluzione esercizio 36
0) Due stati, F = funziona, NF = non funziona
Il bilancio di usso
1
30
1
=
.1
che inserito nella condizione
1
+
.1
= 1 produce
1
+
1
30
1
= 1,
31
30
1
= 1,
1
=
30
31
,
.1
=
1
31
. La probabilit a regime di trovare la stampante funzionante
1
=
30
31
.
1) Stati: 1
1
1
2
= entrambe funzionano, 1
1
1
2
= la macchina principale (detta '1) fun-
ziona, la secondaria no, 1
1
1
2
= la macchina principale non funziona ma la secondaria s,
1
1
1
2
= entrambe non funzionano. Transizioni e tassi:
Nello stato 1
1
1
2
attivo solo lorologio della macchina principale (laltra funzionante
ma ferma); quindi c solo la transizione 1
1
1
2
1
1
1
2
ed il tasso `
1
=
1
30
(il tempo
misurato in giorni).
Nello stato 1
1
1
2
sono attivi due orologi, uno della riparazione di '1, laltro di rottura
di '2. Quindi 1
1
1
2
1
1
1
2
con tasso j = 1, 1
1
1
2
1
1
1
2
con tasso `
2
=
1
5
.
Nello stato 1
1
1
2
attivo solo lorologio di riparazione di '1, quindi 1
1
1
2
1
1
1
2
con tasso j = 1.
Nello stato 1
1
1
2
sono attivi due orologi, uno della riparazione di '2, laltro di rottura
di '1. Quindi 1
1
1
2
1
1
1
2
con tasso j = 1, 1
1
1
2
1
1
1
2
con tasso `
1
=
1
30
.
2) Le equazioni del bilancio di usso sono (ponendo = 1
1
1
2
, 1 = 1
1
1
2
, C = 1
1
1
2
,
1 = 1
1
1
2
):
`
1
=
1
+
1
1
(1 +`
2
) = `
1
C
= `
2
1
+`
1
1
(1 +`
1
) =
C
1 =
+
1
+
C
+
1
da cui
`
1
=
1
+
1
1
(1 +`
2
) = `
1
1
(1 +`
1
) = `
2
1
+`
1
1
ovvero
1
= `
2
1
1 =
+
1
+
1
(1 +`
1
) +
1
da cui
1 =

1
(1 +`
2
)
`
1
+
1
+`
2
1
(2 +`
1
)
da cui
1
=
1
1+A
2
A
1
+ 1 +`
2
(2 +`
1
)
=
`
1
1 +`
1
+`
2
+`
1
`
2
(2 +`
1
)
da cui
1
=
`
1
`
2
1 +`
1
+`
2
+`
1
`
2
(2 +`
1
)
quindi inne
C
=
`
1
`
2
(1 +`
1
)
1 +`
1
+`
2
+`
1
`
2
(2 +`
1
)
.
La condizione
`
1
`
2
(1 +`
1
)
1 +`
1
+`
2
+`
1
`
2
(2 +`
1
)
_ 0.001.
Il valore di
C
con i nostri dati invece 5. 524 9 10
3
.
3) Quando ci troviamo nello stato 1
1
1
2
sono attivi due orologi, uno della riparazione di
'1, laltro di rottura di '2. Quindi 1
1
1
2
1
1
1
2
con tasso j = 1, 1
1
1
2
1
1
1
2
con tasso
`
2
=
1
A
, dove ' il tempo medio di funzionamento richiesto. Sappiamo che
j
j +`
2
= 0.9
ovvero
1
1+A
2
= 0.9, 1 +`
2
=
1
0.9
, `
2
=
1
0.9
1 =
0.1
0.9
, ' =
0.9
0.1
= 9.
4) Modichiamo dove necessario gli stati precedenti. Nello stato 1
1
1
2
le squadre di
riparazione sono ferme, quindi non ci sono ambiguit. Nello stato 1
1
1
2
si arriva solo da
1
1
1
2
, quindi lavora la squadra veloce: non ci sono ambiguit e continua ad essere j = 1 il
tasso di ritorno a 1
1
1
2
. Nello stato 1
1
1
2
lavora sicuramente la squadra veloce: ci si arriva
da 1
1
1
2
ed in ogni caso la squadra veloce che prende il lavoro da svolgere. Invece nello
stato 1
1
1
2
non possiamo sapere quale squadra lavora '
1
, quindi dobbiamo sdoppiare 1
1
1
2
in 1
1
o
1
1
2
e 1
1
o
2
1
2
a seconda che la macchina '
1
venga riparata dalla squadra o
1
oppure
o
2
. Da 1
1
1
2
si va per forza in 1
1
o
1
1
2
(con tasso `
2
). Da 1
1
1
2
si va per forza in 1
1
o
2
1
2
(con tasso `
1
). Da 1
1
o
1
1
2
si va in 1
1
1
2
con tasso j = 1 ed in 1
1
1
2
con tasso j
2
= 0.5.
Inne, da 1
1
o
2
1
2
si va in 1
1
1
2
con tasso j
2
= 0.5 ed in 1
1
1
2
con tasso j = 1.
Quando ci si trova in 1
1
1
2
si deve attendere un tempo esponenziale di parametro 1.5
(per il teorema sul minimo di v.a. esponenziali). Quindi si deve attendere mediamente un
tempo pari a
1
1.5
= . 666 67 giorni.
Soluzione esercizio 37
1) Consideriamo il numero di progetti pervenuti da correggere. E una catena di nascita
e morte a tempo continuo, con tasso di crescita ` =
1
1[T
.nIcr
]
=
1
3
qq
1
e tasso di descrecita
j =
1
1[Tcorr]
=
1
a
qq
1
. La catena raggiunge il regime stazionario se : < 3. Si calcolano le
probabilit invarianti
I
= (1 j) j
I
dove j =
a
3
. Vogliamo che, a regime, con probabilit 0.9 il numero di progetti da correggere
sia _ 2. Quindi deve essere
0
+
1
= 0.9.
Lequazione diventa
(1 j) (1 +j) = 0.9
ovvero 1 j
2
= 0.9, j
2
= 0.1, :
2
= 0.1 3
2
, : = 0.316 23 3 = 0.948 69.
2) Il numero di progetti da correggere sempre una catena di nascita e morte ma i tassi
di decrescita dipendono dallo stato. Se il numero di progetti /, il docente sta lavorando a
/ correzioni, quindi completa la prima di esse con tasso /
1
5
.
Vale ora
a
I
=
1
3
I
/!
1
5
I
=
_
5
3
_
I
/!
0
=
_
o
I=0
_
5
3
_
I
/!
_
1
= c
5
3
,
I
= c
5
3
_
5
3
_
I
/!
Il numero medio di compiti
o
I=0
/c
5
3
_
5
3
_
I
/!
=
o
I=1
/c
5
3
_
5
3
_
I
/!
= c
5
3
o
I=1
_
5
3
_
I
(/ 1)!
= c
5
3
5
3
o
I=1
_
5
3
_
I1
(/ 1)!
= c
5
3
5
3
o
I=0
_
5
3
_
I
/!
=
5
3
.
3) Gli stati sono ora le coppie (:, /) dove : il numero di richieste attive (cio le richieste
eettuate e non ancora consegnate) e / il numero di compiti da correggere. Si passa da
(:, /) a (: + 1, /) con tasso
1
3
. Si passa da (:, /) a (: 1, / + 1) con tasso
a
7
. Si passa da
(:, /) a (:, / 1) con tasso
I
5
.
Capitolo 6
Statistica Multivariata
6.1 La matrice di correlazione
La statistica multivariata in generale si pone lo scopo di esaminare i legami che intercorrono
tra un numero nito di variabili. Per esempio, si vuole capire quali si esse sono pi collegate.
Date le v.a.
A
1
, ..., A
j
che formano un vettore aleatorio, possiamo calcolare la matrice di covarianza di questo
vettore:
Q = (Co (A
i
, A
)
))
i,)=1,...,j
Essa fornisce una prima serie di informazioni sui legami tra le variabili, con lunica fodamen-
tale limitazione che si tratta di legami a due a due, non a gruppi pi numerosi o globalmente
tra tutte. Comunque, la matrice di covarianza la prima informazione da mettere in gioco. Si
pu preferire la matrice di correlazione, in cui avendo eliminato la scala diventa pi evidente
ed assoluta literpretazione dei numeri:
(Corr (A
i
, A
)
))
i,)=1,...,j
=
_
Co (A
i
, A
)
)
o
A
.
o
A
_
i,)=1,...,j
.
La statistica multivariata, essendo una parte della statistica, ovviamente interessata
allanalisi di dati sperimentali, pi che di v.a. nel senso teorico. I dati relativi ad una stringa
A
1
, ..., A
j
di v.a. hanno la forma di una matrice:
A
1
... A
j
1 r
1,1
... r
1,j
2 r
2,1
... r
2,j
... ... ... ...
: r
a,1
... r
a,j
Ogni unit sperimentalmente esaminata, per esempio lunit n.1, ha fornito una stringa di
j numeri, uno per ciascuna variabile, e precisamente
r
1,1
... r
1,j
.
319
320 CAPITOLO 6. STATISTICA MULTIVARIATA
Le righe corrispodono quindi alle unit esaminate negli esperimenti, le colonne alle variabili.
Da una simile tabella, piuttosto complessa, si vorrebbero estrarre informazioni sui legami tra
le variabili. In realt c un altro scopo parallelo, che ora con la tabella diventa evidente:
esaminare le unit, le loro somiglianze, se sono divise in gruppi, ad esempio.
Ora, data una simile matrice, si pu calcolare la sua matrice di covarianza o di correlazione,
in R coi comandi
cov(A); cor(A)
dove A il nome dato alla matrice. Queste matrici sono la versione empirica di quelle
teoriche ricordate sopra. Sono anchesse matrici j j. Nella matrice cov(A), lelemento di
posto (i, ,) la covarianza empirica tra i vettori numerici
r
i,1
... r
i,j
r
),1
... r
),j
ed una stima della quantit teorica Co (A
i
, A
)
).
La matrice di correlazione empirica cor(A) fornisce immediatamente delle informazioni
sui legami tra le variabili, a due a due, informazioni basate sulle osservazioni sperimentali di
quelle particolari unit. Nella sezione di esercizi useremo continuamente questo comando e
vedremo anche una visualizzazione del risultato.
Per andare oltre, servono nuovi elementi di statistica. Il metodo delle componenti prin-
cipali quello che pi immediatamente si aanca al calcolo di cor(A). Esso raggiunge il
duplice scopo di mostrare visivamente i legami tra le variabili, anche un po nel senso di
gruppo (cio non solo a due a due), ed al tempo stesso le relazioni tra le unit esaminate, gli
idividui.
Le relazioni tra le unit vengono approfondite tramite altre strategie, genericamente chia-
mate di classicazione e clustering, che hanno lo scopo di riconoscere se le unit sono ra-
gionevolmente suddivisibili in due o pi gruppi abbastanza omogenei; ed hanno nche lo scopo
di assegnare a gruppi prestabiliti delle nuove unit. Esamineremo alcuni metodi per questi
scopi.
Tornando ai legami tra variabili, nasce spesso il desiderio di capire se certe variabili
inuiscono su altre, scoprire quali sono le variabili che provocano certi eetti e quali invece
sono irrilevanti. In linea di massima la statistica non in grado di dimostrare la presenza
di relazioni causa-eetto tra variabili; in grado di quanticare il legame che intercorre tra
loro. Ipotizzando una relazione causa-eetto, la regressione lineare multipla quantica tale
relazione, scoprendo il valore dei coecienti di un modello input-output tra le grandezze
in gioco, modello che poi pu essere usato per scopi di previsione, ad esempio (ed infatti
torneremo sulla previsione delle serie storiche anche con questo strumento).
Inne, vedremo che il metodo delle componenti principali scopre nuove variabili, a volte
interpretabili nellambito dellapplicazione specica a volte no, che racchiudono la reale vari-
abilit dei dati pi delle v.a. A
1
, ..., A
j
originarie. In un certo senso, le nuove variabili
possono essere pensate come dei predittori di quelle originarie. Su questa falsariga si innesta
il metodo dellanalisi fattoriale, che date delle v.a. osservate A
1
, ..., A
j
cerca di individuarne
di nuove, non osservate, che siano fattori (predittori) di quelle osservate.
6.1. LA MATRICE DI CORRELAZIONE 321
6.1.1 Elevata correlazione non sinonimo di causalit
Questo un principio importante. Quando si riscontra unelevata correlazione tra due
variabili A ed 1 , nulla indica che A agisca su 1 , che A sia la causa delle variazioni di
1 .
Unovvia ragione di tipo logico che la correlazione unoperazione simmetrica. Non
si vede come sia possibile quindi dedurne una causalit asimmetrica, in cui una delle due
variabili sia la causa (dovrebbe essere vero anche il viceversa, ma questo assurdo nella
maggior parte dei problemi causa-eetto).
Cosa pu allora indicare unelevata correlazione tra A ed 1 ? Almeno tre cose possibili:
A agisce su 1
1 agisce su A
c una causa comune 7; quando 7 cambia, provoca cambiamenti di A e di 1 si-
multaneamente; noi osserviamo questi cambiamenti simultanei, quindi osserviamo una
correlazione tra A e 1 .
Facciamo un esempio banale di errore che si commetterebbe attribuendo ad unelevata
correlazione lindicazione di una relazione causa-eetto: se si prende un gruppo di paesi
industrializzati con un livello di sviluppo simile, si pu osservare che il numero A di cittadini
impegnati nellistruzione correlato al numero 1 di cittadini impegnati nei trasporti. Ma
questo semplicemente eetto delle dimensioni delle nazioni: una nazione pi grossa avr
pi insegnanti e pi trasporti, una pi piccola ne avr meno. Invece, chiaro che A non la
causa di 1 e viceversa.
E daltra parte vero che unelevata correlazione improbabile tra due campioni indipen-
denti, come mostra il paragrafo seguente. Quindi a fronte di unelevata correlazione non
possiamo ignorare il fatto che un legame ci sia; resta per aperto il problema di quale sia
(cio se sia diretto oppure indiretto).
Analisi Monte Carlo della correlazione di campioni indipendenti
Supponiamo che A
1
, ..., A
a
sia un campione estratto da A ed 1
1
, ..., 1
a
un campione estratto
da 1 , indipendenti. Per semplicit, supponiamo che le v.a. siano tutte gaussiane e, visto
che di correlazione si tratta, supponiamole standardizzate (questo non restrittivo: la cor-
relazione di due v.a. o due campioni uguale a quella delle v.a. o campioni standardizzati).
Che valori pu assumere la correlazione? Fissato :, generiamo con R due stringhe di tal tipo
e calcoliamone la correlazione, e ripetiamo questo volte. Tracciamo un istogramma dei
valori.
n=10; N=10000
COR <- 1:N
for (i in 1:N) {
x<- rnorm(n); y<- rnorm(n)
COR[i]<-cor(x,y)
}
hist(COR,30)
La forma evidentemente simmetrica, come ci si poteva aspettare. Vediamo ad occhio
che valori superiori (in valore assoluto) a 0.75 hanno una probabilit abbastanza piccola. Si
potrebbe calcolare empiricamente una soglia al 95%: un numero ` che viene superato a destra
solo con probabilit 0.025 (e ` a sinistra con probabilit 0.025, quindi globalmente 0.05).
Basta ordinare il campione e prendere il valore di posto 9750:
sort(COR)[9750]
[1] 0.637
La conclusione : adottando il livello di signicativit 95%, per due stringhe di lunghezza
10, un valore di correlazione superiore in modulo a 0.637 non pu ritenersi casuale, cio
compatibile con lindipendenza delle due stringhe; indice di un legame.
Il numero 0.637 sembra piuttosto alto, ma ci dovuto al fatto che le stringhe sono corte.
Ripetiamo lo studio per strighe lunghe 20:
n=20; N=10000; COR <- 1:N
for (i in 1:N) {
COR[i]<-cor(x,y)
}
hist(COR,30)
sort(COR)[9750]
[1] 0.445
Listogramma decisamente pi stretto e la soglia molto pi bassa: una correlazione
superiore in modulo a 0.445 non casuale. Per curiosit vediamo il caso 30:
6.2. IL METODO DELLE COMPONENTI PRINCIPALI 323
n=30; N=10000; COR <- 1:N
for (i in 1:N) {
COR[i]<-cor(x,y)
}
hist(COR,30)
sort(COR)[9750]
[1] 0.3693759
6.2 Il metodo delle componenti principali
Supponiamo di esaminare j grandezze di interesse pratico, descritte da variabili aleatorie
(gaussiane, anche se questa richiesta non necessaria) A
1
, ..., A
j
. Un esempio possono essere
cinque potenziali indicatori di benessere nelle diverse regioni italiane:
A
1
= PLIC (posti letto in istituti di cura)
A
2
= SC (spese complessive per famiglia)
A
3
= SA.SC (proporzione di SC dedicata agli alimentari)
A
4
= TD (tasso di disoccupazione)
A
5
= TMI (tasso di mortalit infantile)
In tal caso, ad ogni regione italiana 1 possiamo associare un vettore con cinque coordinate:
1
_
A
1
(1) A
2
(1) A
3
(1) A
4
(1) A
5
(1)
_
In generale, ad ogni dato (visto come j-upla di valori, relativi, nellesempio, alla stessa
regione italiana, uno per ogni variabile aleatoria) associeremo allo stesso modo un punto in
uno spazio vettoriale di dimensione j, che ha per base proprio A
1
, ..., A
j
:
1
_
A
1
(1) ... A
j
(1)
_
Per non falsare lindagine conveniente standardizzare i dati: calcoliamo per ogni indica-
tore A
a
la sua media j
a
e la sua deviazione standard o
a
e costruiamo una nuova tabella di
dati dove sostituiamo ad ogni valore r di ogni indicatore A
a
il valore standardizzato
aj
n
on
.
In questo modo ora ogni indicatore ha la stessa media 0 e la stessa deviazione standard 1, e
la matrice di covarianza Q coincide quindi con la matrice di correlazione.
Per j = 2, se la coppia (A
1
, A
2
) un vettore gaussiano, abbiamo visto che i punti si
dispongono a formare una nuvola ellissoidale, e tale rappresentazione graca ci suggerisce
alcune interpretazioni dei dati e della loro correlazione (ad esempio, se r
1
cresce allora anche
r
2
tende a crescere). Per j = 3 otterremo invece una gura tridimensionale, che risulta di
ben pi dicile comprensione, mentre per valori di j superiori una qualsiasi rappresentazione
graca completa risulta impossibile (e inimagginabile). Il problema che ci poniamo quindi
quello di trovare, se esiste, un modo per avere (possibilmente in due sole dimensioni) una
visualizzazione graca dinsieme della distribuzione dei dati e della correlazione tra le variabili
in esame per j maggiori di 2 o 3. Descriviamo il metodo chiamato Analisi delle Componenti
Principali (abbreviato in PCA).
6.2.1 Diagonalizzazione di Q
Abbiamo visto nello studio delle gaussiane multidimensionali come le superci di livello di una
gaussiana j-dimensionale siano degli ellissoidi in dimensione j. Questo ci dice che, almeno
nel caso gaussiano, i dati tenderanno a disporsi a formare un ellissoide, e saranno al solito
pi concentrati pi ci si avvicina al centro dellellissoide: nel nostro esempio sugli indicatori
di benessere, ci troviamo quindi con 20 punti disposti su una nuvoletta simile a unellissoide
in 5 dimensioni. Nessuno riesce a visualizzare una tale gura, e lidea di base del metodo
PCA quella di operare un cambio di variabili, cio un cambio di base nel nostro spazio
vettoriale di dimensione j, che grosso modo ruoti la nuvola elissoidale in modo da poterla
vedere dallangolazione migliore, cio in modo da averne una proiezione bidimensionale dove
i dati sono il pi distinti possibile tra loro.
Esempio 105 Giusto per rendere lidea, facciamo un esempio tridimensionale. Supponiamo
di avere 3 variabili aleatorie e un migliaio di rilevazioni, e supponiamo che il corrispondente
migliaio di punti si disponga nello spazio tridimensionale secondo un ellissoide con i tre assi
lunghi rispettivamente 100, 100 e 1 (in qualche unit di misura). Se guardassimo la gura di
taglio, vedremo solo una sottilissima striscetta di punti tutti accalcati, e non saremo in grado
di vedere eventuali relazioni tra loro. Se invece guardiamo la gura di piatto vediamo un cer-
chio pieno, che ci d unidea molto pi realistica della disposizione tridimensionale dei dati, e
ci permette di cogliere meglio eventuali relazioni tra di essi. Il fatto che uno dei tre assi della
gura ellissoide sia molto piccolo (rispetto agli altri) ci dice che le variabili aleatorie variano
di poco in quella direzione: scartando tale direzione (che quello che facciamo proiettando
lellissoide tridimensionale sul cerchio bidimensionale visto di piatto) abbiamo cio la min-
ima perdita di informazioni, e otteniamo quindi la migliore visualizzazione bidimensionale
dinsieme dei dati.
Esempio 106 Supponiamo ora che i dati dellesempio precedente si dispongano invece in
maniera sferica: da qualunque angolazione li guardiamo (ad esempio da sopra il polo nord)
ci risulter sempre un cerchio (delimitato in tal caso dallequatore), ma in ogni caso vedremo
sovrapposti molti dati, anche molto diversi tra loro (tutti quelli del diametro polo nord-polo
sud vengono proiettati nello stesso punto!). Questo ci dice che, comunque la proiettiamo,
la visualizzazione bidimensionale dei dato che ne risulter sar molto imprecisa, perch in
ogni caso perderemo (cio non riusciremo a distinguere) una consistente fetta della varianza
complessiva dei dati. Questo sar, come vedremo, un esempio in cui il metodo PCA non
risulta utile ed ecace.
Torniamo alle nostre j variabili aleatorie (gaussiane). La matrice Q di covarianza (o di
correlazione, dato che abbiamo standardizzato le variabili) una matrice simmetrica, e quindi
sappiamo dal teorema spettrale che diagonalizzabile, cio che esiste una base ortonormale
di autovettori nella quale la matrice assume la forma:
Q
t
=
_
_
_
_
`
1
0 ... 0
0 `
2
... 0
... ... ... ...
0 0 ... `
j
_
_
_
_
Siccome Q una matrice denita non-negativa, sappiamo anche che gli autovalori `
1
, . . . , `
j
sono tutti non negativi. Supponiao
`
1
_ `
2
_ . . . _ `
j
_ 0
e indichiamo con c
1
, . . . , c
j
ei corrispondenti autovettori. Idichiamo con n
1
, . . . , n
j
i vettori
della base canonica, es. n
1
= (1, 0, ..., 0). Ci sono coecienti c
)
i
tali che
c
i
=
j
)=1
c
)
i
n
)
ed ovviamente essi sono semplicemente le coordinate dei vettori c
i
nella base canonica:
c
i
=
_
c
1
i
, ..., c
j
i
_
.
Ora, invece di eseguire la combinazione lineare di n
1
, . . . , n
j
combiniamo le v.a. A
1
, . . . , A
j
:
\
i
:=
j
)=1
c
)
i
A
)
.
Cerchiamo di capire di che si tratta , con un esempio. Se 1 una regione italiana, descritta
dai 5 indicatori A
1
(1), ..., A
5
(1), il valore \
i
(1) lampiezza (con segno) della proiezione del
punto
_
A
1
(1) ... A
j
(1)
_
sul vettore c
i
. Al variare della regione 1, i numeri \
i
(1) sono
come dei punti aleatori sulla retta individuata dal vettore c
i
. Quanto vale la loro varianza?
Teorema 36 `
i
= \ ar[\
i
].
Proof.
\ ar[\
i
] = Co
_
_
j
)=1
c
)
i
A
)
,
j
)
0
=1
c
)
0
i
A
)
0
_
_
=
j
),)
0
=1
c
)
i
c
)
0
i
Co
_
A
)
, A
)
0
_
=
j
),)
0
=1
c
)
i
c
)
0
i
Q
))
0
da cui con un po di pazienza si riconosce che \ ar[\
i
] la componente di posto (i, i) nella
matrice ottenuta trasformando Q tramite il cambio di base relativo al sistema c
1
, . . . , c
j
. Ma
allora tale componente vale `
i
, visto che in tale base la matrice Q diagonale, con elementi
`
i
sulla diagonale.
Gli autovalori `
i
di Q sono le varianze lungo le direzioni degli autovettori di Q. Siccome
abbiamo ordinato gli autovalori `
i
in modo decrescente, c
1
la direzione (a volte non univo-
camente denita) in cui abbiamo a varianza massima, c
2
quella con la varianza subito minore
e cos via. Potremmo essere pi precisi ed enunciare e dimostrare un teorema secondo cui le
direzioni scelte sono quelle che massimizzano via via la varianza, tolte quelle gi trovate. Per
se si pensa allinterpretazione geometrica con gli ellissoidi, gi chiaro che c
1
la direzione
dellasse principale, c
2
quella del successivo perpendicolare ad c
1
e cos via.
E chiaro allora che la visione dei punti sperimentali secondo il piano generato da c
1
, c
2
la migliore, quella in cui i punti appaiono pi sparpagliati (hanno maggior varianza). E
cos per lo spazio tridimensionale generato da c
1
, c
2
, c
3
, e cos via, ma solo in dimensione 2 la
visualizzazione ecace.
I vettori c
1
, . . . , c
j
, o a volte le relative v.a. \
1
, . . . , \
j
denite come sopra, si chia-
mano componenti principali (nel seguito tenderemo a confondere n
1
, . . . , n
j
con A
1
, . . . , A
j
ed c
1
, . . . , c
j
con \
1
, . . . , \
j
).
A titolo di esempio, riprendendo gli indicatori di benessere, elenchiamo le coordinate di \
1
rispetto alla vecchia base A
1
, . . . , A
5
, le coordinate della variabile aleatoria A
1
=PLIC nella
nuova base, e le coordinate di uno stesso dato (la Toscana) rispetto alle due basi:
\
1
=
_
_
_
_
_
_
0.310
0.491
0.512
0.506
0.379
_
_
_
_
_
_
A
A
1
=
_
_
_
_
_
_
0.310
0.769
0.553
0
0
_
_
_
_
_
_
\
che signica anche
\
1
= 0.310 111C 0.491 oC + 0.512o .oC + 0.506 T1 + 0.379 T'1
A
1
= 0.310 \
1
+ 0.769 \
2
0.553 \
3
Tosc =
_
_
_
_
_
_
0.126
1.093
0.796
0.645
1.356
_
_
_
_
_
_
A
=
_
_
_
_
_
_
1.824
0.002
0.867
0.298
0.096
_
_
_
_
_
_
\
.
Nel prossimo paragrafo si chiarir come abbiamo trovato queste componenti.
Considerando la nuova base come i nuovi indicatori (sulla cui interpretazione torneremo
in seguito), cio le nostre nuove variabili aleatorie, la matrice diagonale che abbiamo trovato
proprio la matrice di correlazione tra queste nuove variabili (i dati sono sempre gli stessi,
ma ora sono visti nella nuova base, cio hanno altre coordinate): i valori sulla diagonale (gli
autovalori) sono le varianze delle nuove variabili, mentre lessere diagonale ci dice che queste
nuove variabili sono tutte tra loro scorrelate. Essendo scorrelate, la varianza della somma
delle nuove variabili aleatorie la somma delle varianze, cio la somma degli autovalori:
possiamo quindi interpretare ogni autovalore come la parte di varianza totale spiegata dalla
corrispondente nuova variabile aleatoria (torneremo in seguito su questo punto).
6.2.2 I comandi di R
Il programma R svolge tutti i conti visti n qui in automatico con un solo comando. Una
volta importata la tabella di dati (standardizzati) in una certa matrice A, basta la seguente
linea di comando:
pca<-princomp(A)
R calcola la matrice di covarianza, la diagonalizza con una base ortonormale e ne ordina
gli autovettori in ordine di autovalori decrescenti. Osserviamo che il nome pca vale come
qualsiasi altro, nonostante lallusione al metodo; il comando di R princomp(A).
Con il comando:
biplot(pca)
si ottiene unimmagine del piano principale, molto ricca di informazioni (si pensi allelenco
seguete di considerazioni, tutte immediate a partire da una sola immagine):
Essa contiene tre elementi: i due nuovi assi, la proiezione dei dati e quella dei vecchi
assi. Gli assi orizzontale e verticale sono rispettivamente la prima e la seconda componente
principale Co:j.1 = \
1
e Co:j.2 = \
2
.
La proiezione di ogni dato corrisponde al punto del piano principale le cui coordinate sono
le prime due coordinate del dato nella nuova base: ad esempio, tornando ai cinque potenziali
indicatori di benessere del 2002, alla Toscana corrisponde il punto
To:c =
_
1.824
0.002
_
Allo stesso modo le vecchie variabili aleatorie (cio i vettori della vecchia base) sono rapp-
resentate in proiezione sul piano principale, con vettori evidenziati in rosso: ad esempio, ad
A
1
= 111C corrisponde il vettore
111C = 0.310 \
1
+ 0.769 \
2
=
_
0.310
0.769
_
.
Una prima analisi qualitativa pu essere svolta in base ai rapporti tra i vettori che rap-
presentano i nostri indicatori (ortogonalit, parallelismo con versi concordi o discordi, ecc.),
e ai raggruppamenti e alle posizioni dei dati. Nel nostro esempio, guardando la gura, al-
cune delle considerazioni che possiamo fare (per quanto naturali e pi o meno note, visto che
conosciamo abbastanza bene la situazione nazionale del benessere) sono:
SC, TD e SA.SC sono tutti essenzialmente paralleli, a indicare una forte correlazione
tra di loro: potremmo ad esempio leggere la loro direzione comune come un indicatore
complessivo di benessere economico.
Il verso di SC e opposto a quelli di TD e SA.SC, segno che questi indicatri sono correlati
negativamente: come ci si aspetta, una maggior disoccupazione media si riette su una
minore spesa complessiva media (a TD alto corrisponde SC basso, e viceversa), mentre
se la spesa complessiva media e molto bassa questa sar, come e naturale, in gran
parte dedicata agli alimentari (a SC basso corrsiponde SA.SC alto, e viceversa). Allo
stesso modo, la correlazione positiva tra TD e SA.SC indica che nelle zone di pi alta
disoccupazione le (poche) spese sono destinate per lo pi ai generi alimentari.
PLIC e TM sono abbastanza paralleli tra loro (in analogia a quanto visto sopra potrem-
mo leggere la loro direzione comune come un indicatore complessivo di salute), ma
correlati negativamente, come naturale.
PLIC e TM sono abbastanza perpendicolari agli altri indicatori, segno che i due gruppi,
e quindi le due direzioni indicatore complessivo di benessere economico e indicatore
complessivo di salute, sono abbastanza scorrelati tra loro. Tuttavia notiamo le lievi
correlazioni positive nelle direzioni che ci aspettiamo: maggiori posti letto dove ci sono
maggiori spese complessive, e maggior mortalit infantile dove c pi disoccupazione e
le spese sono in prevalenza alimentari.
Larea di maggior benessere e quella nella direzione positiva di SC, con un po di sposta-
mento verso PLIC. In tale zona si trovano fortemente raggruppate varie regioni (Veneto,
Trentino Alto Adige, Lombardia, Piemonte, Emilia Romagna, Marche e Toscana), che
pertanto risultano molto simili rispetto agli indicatori considerati.
Le altre regioni del centro-nord (Liguria, Friuli, Lazio) non eccellono in SC ma eccellono
in PLIC, a indicare una buona cura sanitaria nonostante un tenore di vita medio pi
modesto rispetto al gruppo precedente.
Particolarmente negativo, sia rispetto allasse del benessere economico che a quello
della salute, risulta il raggruppamento composto da Campania, Sicilia, Basilicata e
Puglia, in maniera molto pi accentuata rispetto ad altre regioni meridionali o insulari
(come Calabria e Sardegna) che nellimmaginario colettivo potremmo invece credere ad
esse simili. Questo potrebbe indicare uno sforzo di miglioramento di alcune regioni,
e potrebbe ad esempio suggerire lanalisi di altri dati pi mirati per averne verica o
smentita.
Osservazione 75 Il parallelismo non indicazione sicura di correlazione. Infatti, due vet-
tori diversi possono avere la stessa proiezione su un piano. Bisogna sempre accertarsi dalla
matrice di correlazione che ci sia davvero correlazione. La perpndicolarit invece non si
guadagna per proiezione, quindi se visibile nel piano principale, c davvero.
Lorientazione delle variabili di partenza rispetto alle componenti principali pu inoltre
suggerire delle potenziali interpretazioni delle due componenti principali. Tornando al nostro
esempio, osserviamo la gura con davanti i dati visualizzati col comando pca$loadings. E
ragionevole associare Co:j.1 alle tre variabili SC, SA.SC e TD, in quanto ha componenti
maggiori in tali direzioni (circa 0.5, in valore assoluto, contro i circa 0.3 nelle altre direzioni).
Allo stesso modo, ha senso associare Co:j.2 a PLIC e TMI (0.4 e 0.8 contro 0.2 e 0.3). Una
possibile interpretazione delle prime due componenti principali, cio delle nuove variabili
aleatorie, potrebbe quindi essere quella dove la prima descrive il benessere di topo economico
e la seconda quello relativo alla salute.
Per quanticare le osservazioni fatte sulla correlazione (positiva o negativa) o meno tra
gli indicatori di partenza, importante osservare direttamente la matrice di correlazione delle
variabili di partenza, tramite il comando:
cor(A)
Nellesempio sugli indicatori di benessere, possiamo cos vericare quantoavevamo gi
stabilito: la forte correlazione (con il giusto segno) tra SC, SA.SC e TD, lassenza di legame
tra PLIC e SC e TD, la correlazione negativa ma non troppo marcata tra PLIC e TMI, e via
dicendo. Notiamo, rispetto a quanto gi a detto basandoci sulla gura, la correlazione (anche
se non forte) di TMI non solo con PLIC, ma quasi allo stesso modo anche con le tre variabili
economiche, negativa o positiva nel modo che ci aspettiamo. Una rappresentazione graca si
ottiene col comando
plot(A)
che mostra, per ciascuna coppia di variabili, il graco di dispersione dei dati, altro stru-
mento da cui si pu intuire la presenza di legame o meno tra le variabili aleatorie. Ad
esempio, tornando agli indicatori di benessere, se si esegue questo comando si nota la visual-
izzazione graca del legame tra TD e SA.SC da un lato, e dellassenza di legame tra PLIC e
SC dallaltro.
Con il comando:
pca$loadings
compare una tabella in cui possibile vedere le coordinate di ogni vettore della nuova base
rispetto alla vecchia base (leggendo la tabella colonna per colonna) e le coordinate dei vettori
della vecchia base rispetto alla nuova base (leggendo la tabella riga per riga). Questi numeri,
i loadings, contengono potenzialmente molto signicato, su cui torneremo pi diusamente
nellambito dellAnalisi Fattoriale. Se sono grandi, indicano che una variabile pesa molto
sullaltra e questo pu contribuire allinterpretazione delle componenti principali. Tuttavia,
la gura ottenuta con biplot(pca) gi fornisce questo tipo di informazioni in modo pi
immediato. Per questo i loadings sono pi essenziali nel caso dellAnalisi Fattoriale, in cui
non ci sono ragurazioni cos espressive.
inoltre possibile vedere le deviazioni standard delle nuove variabili aleatorie, cio le
radici quadrate degli autovalori di A, semplicemente digitando
pca
6.2.3 Classiche tramite PCA
Dato un punto sperimentale, ad esempio la regione Toscana, espresso nelle coordinate A, la
sua proiezione su c
1
rappresenta la sua prima coordinata nella nuova base, e cos per le altre
proiezioni. Esse si calcolano coi prodotto scalari
(r, c
i
)
dove r il vettore che denisce il punto nella base A. Questa regola vale se gli autovettori
c
i
sono normalizzati (lunghezza 1), altrmenti bisogna dividere per la loro lunghezza. Ad
esempio, si pu vericare che
_
0.310 0.491 0.512 0.506 0.379
_
A

_
_
_
_
_
_
0.126
1.093
0.796
0.645
1.356
_
_
_
_
_
_
A
= 1.824
v<-c(-0.310,-0.491,0.512,0.506,0.379)
x<-c(0.126,1.093,-0.796, -0.645,-1.356)
x%*%v
[1,] -1.823569
Questo metodo pu essere usato per fare delle classiiche tra gli individui (unit speri-
mentali) esaminati col metodo. Ogni individuo avr un punteggio, dato dalla sua proiezione
sulla prima componente principale, per cui i diversi individui risulteranno ordinati in una
classica e muniti di punteggio. Si veda ad esempio lesercizio 4.
Si pu naturalmente calcolare la classica anche rispetto alla seconda componente prin-
cipale, e cos via. Il punto avere uninterpretazione del risultato. Se riteniamo che la prima
componente descriva una caratteristica per noi utile (a priori non misurabile) degli individui
esaminati, la classica avr il signicato corrispondente.
6.2.4 Il miglior punto di vista
Convinciamoci ora del fatto che le nuove variabili \
1
, . . . , \
a
siano eettivamente gli assi
dellellissoide :-dimensionale. Lasse principale dellellissoide chiaramente la direzione in
cui i dati sono pi dispersi, cio la direzione lungo la quale la varianza massima. Quindi
noi vogliamo trovare quel versore n per il quale \ ar[n] sia la massima possibile. Scriviamo
n nella nuova base \
1
, . . . , \
a
:
n = n
1
\
1
+. . . +n
a
\
a
, con n
2
1
+. . . +n
2
a
= 1
Siccome per variabili aleatorie scorrelate si ha \ ar[A + 1 ] = \ ar[A] + \ ar[1 ], possiamo
facilmente calcolarne la varianza:
\ ar[n] = \ ar[n
1
\
1
+. . . +n
a
\
a
] = n
2
1
\ ar[\
1
] +. . . +n
c
a
\ ar[\
a
] =
= n
2
1
`
1
+. . . +n
2
a
`
a
_ `
1
(n
2
1
+. . . +n
2
a
) = `
1
cio la varianza di un qualsiasi vettore-direzione n minore (al pi uguale) rispetto a `
1
,
cio quella di \
1
! Quindi \
1
la direzione lungo cui c massima varianza: lasse principale
dellellissoide. Tra tutte le direzioni ortogonali a \
1
, cerchiamo quella con la massima varianza
(rimasta): con lo stesso procedimento, questa risulta essere \
2
. E cos via no a determinare
che la base \
1
, . . . , \
a
esattamente composta dai versori che individuano le direzioni degli
assi ortogonali dellellissoide :-dimensionale.
Possiamo ora proiettare il nostro ellissoide :-dimensionale sul piano (detto piano princi-
pale) individuato da \
1
e \
2
, cio le due nuove variabili che pi evidenziano la dispersione
dei dati: questo langolazione sotto la quale guardare la gura :-dimensionale per avere la
migliore visione (bidimensionale) dinsieme della distribuzione (:-dimensionale) dei dati.
6.2.5 Ecacia del metodo PCA
Il comando plot(pca) illustra la varianza lungo le diverse componenti principali, cio le
lunghezze degli assi principali della nostra gura ellissoidale, da cui e possibile farsi unidea
della dimensione dei dati, cio di quante componenti sono necessarie o utili per analizzare
i dati. Tornando al nostro solito esempio, chiaro come Comp.4 e Comp.5 siano inutili, e
quindi la dimensione dei dati sia 2 o 3. Questo signica che lellissoide 5-dimensionale ha in
realt solo 2 o 3 dimensioni eettive, e quindi che una rappresentazione ottimale dei dati si
ottiene con una opportuna proiezione in dimensione 2 o 3. Detto altrimenti, per rappresentare
le 5 variabili iniziali in realt bastano solo 2 o 3 variabili aleatorie (cio Comp.1, Comp.2 e,
eventualmente, Comp.3).
Si possono avere i dati numerici precisi con il comando
summary(pca)
La prima riga riporta la deviazione standard di ogni componente principale. Essendo
le componenti principali tra loro scorrelate, la varianza della somma delle nuove variabili
aleatorie la somma delle rispettive varianze: possiamo quindi calcolare per ogni componente
principale la parte di varianza totale da essa spiegata, valore che viene riportato nella seconda
riga. Ad esempio, per gli indicatori di benessere in esame, Comp.1 spiega circa il 67% della
varianza totale, mentre Comp.2 e Comp.3 rispettivamente il 17% e l11%. La terza riga
riporta la varianza cumulativa, che e semplicemente la somma delle percentuali di varianza
spiegata da quella componente principale e da tutte le precedenti (per cui e ovvio che lultima
componente abbia varianza cumulativa 1).
La varianza cumulativa il pricipale parametro dellecacia del metodo PCA, dato che
quantica quanto accurata e la visualizzazione dei dati data dal piano principale. Nel nostro
esempio, le prime due componenti principali (cio il piano principale) spiegano complessiva-
mente l84% della varianza totale, e quindi la rappresentazione e decisamente soddisfacente.
Una rappresentazione tridimensionale, contando quindi anche Comp.3, sarebbe praticamente
perfetta (95%!). In genere, si considera il metodo PCA ecace quando il piano principale rap-
presenta l80 - 90% della varianza totale dei dati, cio quando la parte di informazione persa
(rappresentata dalla varianza delle altre componenti principali: Comp.3, Comp.4, eccetera)
si aggira sul 10 - 20% del totale. Tuttavia, anche quando la rappresentazione bidimensionale
data dal piano principale e insuciente, il metodo PCA contribuisce comunque a compren-
dere meglio i dati analizzati, in particolare indicandone leettiva dimensione, cio quante
variabili al minimo bastano per rappresentarli ecacemente.
6.3 Modelli lineari
Questa sezione dedicata alla descrizione sintentica di una coppia di metodi di statistica
multivariata: la regressione lineare multipla e lanalisi fattoriale.
6.3.1 Introduzione: modelli lineari di legame tra variabili aleatorie
La teoria che stiamo per esporre vuole descrivere relazioni matematiche tra variabili aleatorie:
in tali relazioni appariranno variabili di input, dette ad esempio fattori o predittori, e variabili
di output, dette ad esempio risposte oppure osservabili. Le relazioni pi semplici sono quelle
lineari o ani, che ora descriveremo.
Supponiamo che certe variabili di output 1
i
, i = 1, ..., :, siano legate a certe variabili di
input A
)
, , = 1, ..., :, dalle relazioni ani
1
i
= a
i1
A
1
+... +a
ia
A
a
+/
i
+o
i
-
i
i = 1, ..., :
dove i numeri a
i)
sono i coecienti della relazione, i numeri /
i
sono le intercette (in senso
generalizzato), mentre le espressioni o
i
-
i
sono variabili aleatorie che rappresentano gli errori
presenti nella relazione, errori ascrivibili a diverse cause, o di aleatoriet intrinseca o di
mancanza nostra di conoscenza e precisione nella descrizione dei legamo tra le A e le 1 . Per
comodit, in tali errori separiamo una parte aleatoria -
i
a media nulla (leventuale media
non nulla dellerrore supponiamo di averla inglobata in /
i
) e varianza unitaria, per cui i
coecienti o
i
rappresentano le deviazioni standard degli errori (questa convenzione diversa
da quella adottata in certe parti del capitolo sulle serie temporali, ma non dovrebbe generarsi
confusione).
Una risposta, pi fattori
Il caso di una sola v.a. di output 1 ed uno o pi fattori in input A
1
, ..., A
a
quello esaminato
dalla regressione lineare semplice (un fattore) o multipla (pi fattori).
Esempio 107 Riprendiamo lesempio della Sezione 6.2. Sappiamo che SA.SC, la proporzione
delle spese medie familiari dedicata ai soli alimenti, (approssimativamente, si intende) di-
rettamente proporzionale a TD, il tasso di disoccupazione. Posto 1 =SA.SC, A
1
=TD, si
potrebbe studiare la regressione lineare semplice del tipo
1 = a
1
A
1
+/ +o-
usando il comando lm(Y~X). Precisamente, se A <- read.table(le=indicatori_benessere.txt)
il le di dati, dopo aver costruito delle variabili X<-A[,4], Y<-A[,3], poi si pu fare
lm(Y~X). Posto ad es. M1<-lm(Y~X), si possono poi visualizzare dei risultati scrivendo M1,
oppure summary(M1), oppure plot(M1).
Anticipiamo alcune cose che approfondiremo nei paragra successivi sulla regressione:
eseguendo la regressione semplice dellesercizio, o anche solo calcolando il coecente 1
2
(che
6.3. MODELLI LINEARI 333
viene pari a 0.8198) si vede che il legame lineare c, buono, ma non fortissimo. Una parte della
variabilit di 1 resta inspiegata. In eetti, a buon senso, non il solo tasso di disoccupazione
che inuenza quanto le famiglie dedicano agli alimenti rispetto al totale delle loro spese. Ci
saranno altri fattori, legati ad altri aspetti generali del loro benessere economico o sviluppo
sociale, come il grado di istruzione. Individuato un secondo potenziale fattore A
2
, si pu
esaminare il modello di regressione multipla
1 = a
1
A
1
+a
2
A
2
+/ +o-.
Si potrebbe rappresentare questa situazione col seguente diagramma:
A
1
A
2
Lo studio della regressione multipla con R immediato: basta usare il comando lm(Y~X1+X2).
Esercizio 38 Cercare in rete un altro potenziale fattore associato ad SA.SC ed eseguire con
R la regressione multipla. Quanto viene il coeciente 1
2
? E migliorato rispetto al caso di
un fattore solo? Se non si ha voglia di cercare nuove grandezze in rete, si provi ad eseguire
la regressione lm(SA.SC~TD + SC).
Il coeciente 1
2
(nella regressione multipla, ad esempio quella relativa allesercizio appena
enunciato) ha di nuovo il signicato di varianza spiegata. E chiaro che aumenta aggiungendo
pi fattori, anche se sono insignicanti; per aumenta poco o tanto a seconda della rilevanza
di ci che si aggiunto.
Il numero 1r( [t[) il cosidetto j-value di un test che spiegheremo. Lidea empirica :
se 1r( [t[) piccolo, il fattore rilevante, altrimenti no. Quanto piccolo, soggettivo; 0.05
una scelta condivisa da molti.
Esercizio 39 Si eseguano le tre regressioni lm(SA.SC~TD + SC), lm(SA.SC~TD), lm(SA.SC~SC).
Confrontare i valori di 1
2
e 1r( [t[). Trarre qualche conclusione basandosi sul buon senso.
Un fattore, pi risposte
Una situazione diametralmente opposta alla precedente quella in cui c una sola A e
diverse 1
i
, ad esempio tre grandezze A, 1
1
, 1
2
tali che 1
1
sia inuenzata da A ed anche 1
2
sia inuenzata dallo stesso A.
1
1
1
2
Se disponiamo di dati sperimentali per tutte queste grandezze, basta esaminare un modello
lineare per la coppia (A, 1
1
) e poi unaltro, separatamente, per la coppia (A, 1
2
). In questo
caso non ci sarebbe nulla di nuovo rispetto al paragrafo precedente, le cui considerazioni
andrebbero applicate separatamente a ciascuna 1
i
. Il discorso si generalizza senza problemi
al caso di pi input e pi output.
Completamente diverso invece il caso in cui le due grandezze 1
1
, 1
2
sono misurabili,
disponiamo di loro dati sperimentali, mentre A non misurabile, anzi forse non nemmeno
completamente ben denita. Immaginiamo ad esempio, sempre con riferimento allesempio
della Sezione 6.2, di sospettare che ci sia un fattore A che inuenza 1
1
=SA.SC e 1
2
=SC.
Abbiamo le misurazionii delle grandezze 1
1
e 1
2
ma non di A, di cui anzi non ci chiaro
nemmeno il signicato. la domanda : c un fattore, che ancora dobbiamo scoprire, mettere
allo scoperto, che inuenza entrambe SA.SC e SC? Un fattore nascosto? Che spiega (si suol
dire) la variabilit di SA.SC e SC? Cosa c dietro il fatto che certe regioni hanno una minore
spesa complessiva familiare ed una maggior proporzione di spesa per alimentari, rispetto ad
altre regioni in cui queste grandezze sono invertite?
A modo suo, il metodo PCA serve anche a questo scopo: esso ha individuato una nuova
grandezza aleatoria, Comp1, a cui abbiamo attribuito un signicato del tipo benessere eco-
nomico, legata ad entrambe SC e SA.SC. Discuteremo sotto il metodo dellanalisi fattoriale,
alternativo a PCA, tornando per anche su PCA in relazione al problema ora posto.
6.3.2 Regressione lineare semplice
Iniziamo lo studio della regressione col caso della regressione lineare semplice, cio con un
solo fattore, probabilmente gi nota dai corsi di statistica elementare. Premettiamo un breve
riassunto su covarianza e correlazione, gi esposte altrove, ma che pu essere utile.
Covarianza e coeciente di correlazione
Date due v.a. A ed 1 , chiamiamo covarianza il numero
Co (A, 1 ) = 1 [(A 1 [A]) (1 1 [1 ])] .
La covarianza generalizza la varianza: se A ed 1 sono uguali, vale
Co (A, A) = \ ar [A] .
Analogamente alla varianza, vale la formula (di facile dimostrazione)
Co (A, 1 ) = 1 [A1 ] 1 [A] 1 [1 ] .
Ricordiamo che, se A ed 1 sono indipendenti allora 1 [A1 ] = 1 [A] 1 [1 ], ma non vale il
viceversa. Da questi fatti si deduce la seguente propriet:
Proposizione 30 Se A ed 1 sono indipendenti allora Co (A, 1 ) = 0.
Il viceversa per non vero: non basta vericare la singola condizione numerica Co (A, 1 ) =
0 per dedurre lindipendenza. Tuttavia, nella pratica, c una certa (e giusticata) tendenza
a ritenere che la condizione Co (A, 1 ) = 0 sia un notevole sintomo di indipendenza.
Inoltre, si pu dimostrare che, se la coppia (A, 1 ) gaussiana (il concetto di coppia gaussiana
verr introdotto in seguito), allora la condizione Co (A, 1 ) = 0 implica lindipendenza. Anche
questo fatto aiuta a confondere indipendenza e covarianza nulla.
Quando, per due v.a. aleatorie A ed 1 , vale Co (A, 1 ) = 0, diciamo che sono incorrelate
(o scorrelate). La proposizione aerma quindi che indipendenza implica non correlazione.
La covarianza legata alla varianza della somma: vale in generale, cio per v.a. A ed 1
qualsiasi,
\ ar [A +1 ] = \ ar [A] +\ ar [1 ] + 2Co (A, 1 ) .
La dimostrazione immediata, semplicemente la ben nota regola del quadrato della somma.
Ma da questa di capisce subito come mai abbiamo aermato, in un paragrafo della scheda n.
5, che lindipendenza tra A ed 1 implica \ ar [A +1 ] = \ ar [A] + \ ar [1 ]. Qui abbiamo
ottenuto un risultato persino un po pi generale:
Proposizione 31 Se A ed 1 sono incorrelate (in particolare se sono indipendenti), allora
\ ar [A +1 ] = \ ar [A] +\ ar [1 ] .
Tra le regole di calcolo per la covarianza segnaliamo la linearit in ciascuno dei suoi
argomenti: se A, 1 e 7 sono tre v.a. ed a, /, c sono tre numeri reali, allora
Co (aA +/1 +c, 7) = aCo (A, 7) +/Co (1, 7)
e lo stesso vale per Co (7, aA +/1 +c), visto che la covarianza simmetrica nei suoi due
argomenti.
La covarianza sore dello stesso difetto della varianza: non ha lunit di misura e lordine
di grandezza delle v.a. originarie. Per questo e non solo per questo, si introduce il coeciente
di correlazione denito da
j (A, 1 ) =
Co (A, 1 )
o
A
o
Y
.
Leetto della divisione per o
A
o
Y
ancora pi drastico: la grandezza j (A, 1 ) adimension-
ale, ed acquista un valore assoluto, non pi relativo allunit di misura e lordine di grandezza
tipico dei valori di A ed 1 . Si pu dimostrare che vale
1 _ j (A, 1 ) _ 1.
Cercheremo tra un momento, tramite lo studio della regressione lineare semplice, di sviluppare
unintuizione circa il signicato di valori di j (A, 1 ) vicini a +1, a -1 ed a 0.
Mentre per la covarianza vale Co (À, j1 ) = `jCo (A, 1 ), per il coeciente di correlazione
vale j (À, j1 ) = j (A, 1 ). Questo un modo matematico di apprezzare lindipendenza dallunit
di misura e dallordine di grandezza del coeciente di correlazione, in contrasto con quanto accade
per la covarianza.
Regressione lineare semplice
Ipotizziamo che tre v.a. A, 1 ed - siano legate dalla relazione lineare
1 = aA +/ +o-
dove a, / e o sono numeri reali (o 0). Interpretiamo questa scrittura pensando che A ed
1 siano legate da una relazione lineare (gracamente una retta di equazione j = ar +/, per
cui a si dir coeciente angolare e / intercetta), perturbata per da un errore casuale o-. La
v.a. A verr detta input, o predittore, o fattore, la 1 output, o quantit da predire.
Supporremo sempre che - sia standardizzato:
1 [-] = 0, \ ar [-] = 1.
La deviazione standard dellerrore inglobata in o, la sua eventuale media in /. Supporremo
inoltre che - ed A siano indipendenti o almeno incorrelate:
Co (A, -) = 0.
Chiameremo modello lineare (semplice) la relazione precedente. Diremo anche modello di
regressione lineare (semplice), e chiameremo retta di regressione la retta j = ar +/.
Ci poniamo due scopi:
1. trovare formule che permettano di calcolare approssimativamente a, / e o a partire da
dati sperimentali, quando si ipotizza il modello lineare ma non si conoscono i coecienti;
2. interpretare rigorosamente il concetto di coeciente di correlazione nellambito del
modello lineare.
Raggiungeremo entrambi gli scopi calcolando valori medi, varianze e covarianze tra le diverse
grandezze in gioco. Vale, per linearit e per la propriet 1 [-] = 0,
1 [1 ] = a1 [A] +/.
Vale inotre, per le regole sulla varianza (qui usiano la scorrelazione tra A ed -),
\ ar [1 ] = a
2
\ ar [A] +o
2
.
Inne, per analoghe ragioni vale
Co (1, A) = Co (aA +/ +o-, A)
= aCo (A, A) +oCo (-, A)
da cui
Co (1, A) = a\ ar [A] .
Riscriviamo queste formule in modo adatto al calcolo (iterativo) dei coecienti a partire dai
valori medi:
a =
Co (1, A)
\ ar [A]
/ = 1 [1 ] a1 [A]
o
2
= \ ar [1 ] a
2
\ ar [A] .
Supponiamo di avere : dati sperimentali, che in questo contesto signica avere : coppie
(r
1
, j
1
), ... , (r
a
, j
a
) (: individui sono stati esaminati e per ciascuno sono stati trovati i valori
di due grandezze A ed 1 ). Possiamo calcolare i numeri
r =
1
:
a
i=1
r
i
, j =
1
:
a
i=1
j
i
1
:
a
i=1
(r
i
r)
2
,
1
:
a
i=1
(j
i
j)
2
1
:
a
i=1
(r
i
r) (j
i
j)
e considerarli come approssiamzioni (stime) rispettivamente di
1 [A] , 1 [1 ]
\ ar [A], \ ar [1 ]
Co (A, 1 ) .
Tramite queste approssimazioni possiamo stimare a, / e o.
Interpretazione di j (A, 1 )
Cerchiamo di legare il coeciente di correlazione al coeciente angolare: vale
Cc(Y,A)
\ ov[A]
=
Cc(Y,A)
o
^
o
Y
o
Y
o
^
quindi
a = j (1, A)
o
Y
o
A
.
Innanzi tutto questo chiarisce che a non il coeciente di correlazione, come invece per una
sorta di gioco di parole si spesso portati a credere. Del resto, j (1, A) pu variare solo tra
-1 e 1, mentre la pendenza di una retta pu essere maggiore di quella delle bisettrici.
Vale per la regola: a 0 se e solo se j (1, A) 0 (ed analogamente per valori negativi).
Quindi j (1, A) 0 indice di legame lineare diretto, cio con coeciente angolare positivo,
mentre j (1, A) < 0 indice di legame lineare inverso (nel senso: una variabile cresce se
laltra cala), cio con coeciente angolare negativo. Almeno il segno di j (1, A) facilmente
interpretabile.
Supponiamo di standardizzare sia A sia 1 . In realt non importa che sottraiamo la
media, ma essenziale che dividiamo per la deviazione standard, in modo da ricondurci ad
avere o
A
= 1 e o
Y
= 1. In questo caso
a = j (1, A) .
Questo pu orire uninterpretazione pi stretta. In realt per, anche cos piuttosto faticoso
capire il ruolo di condizioni tipo j (1, A) = 0.9 rispetto a j (1, A) = 0.2.
Linterpretazione pi precisa viene invece dallo studio dellerrore. Abbiamo visto sopra
che
o
2
= \ ar [1 ] a
2
\ ar [A] .
Sostituendo a = j (1, A)
o
Y
o
^
si trova
o
2
= \ ar [1 ]
_
1 j
2
(1, A)
_
.
Questo dice che la varianza dellerrore, cio la grandezza che misura quanto preciso sia il
legame lineare tra A ed 1 , tanto maggiore quanto pi vicino a zero j (1, A): valori vicini
a zero di j (1, A) implicano un cattivo legame lineare (errore elevato). Viceversa, valori di
j (1, A) vicini a 1 (non importa il segno!), implicano o
2
piccolo e quindi un legame lineare
stretto.
Quindi, salvo che si esegua una standardizzazione di entrambe le variabili, j (1, A) non
legato tanto allinclinazione della retta di regressione quanto piuttosto alla precisione con
cui essa descrive il legame tra le variabili.
Nel ragionamento precedente bisogna osservare che la grandezza o piccolezza di o
2
relativa anche alla grandezza o piccolezza di \ ar [1 ]. Questa solo una questione di unit
di misura delle quantit aleatorie che stiamo esaminando. Il discorso diventa indipendente
dallunit di misura e dallordine di grandezza dei valori tipici di 1 se introduciamo la varianza
standardizzata dellerrore:
o
2
\ ar [1 ]
.
Per essa vale
o
2
\ ar [1 ]
= 1 j
2
(1, A)
portando ad un ragionamento pi universale circa il legame tra entit dellerrore e valore di
j (1, A).
Inne, introduciamo alcuni nuovi nomi. Essi si ispirano allidea che con un modello
lineare stiamo cercando di dare una spiegazione della variabilit della grandezza 1 . Abbiamo
una grandezza 1 , essa varia in modo imprevedibile, aleatorio, e noi vorremmo capire se
queste variazioni sono almeno in parte spiegabili tramite un legame lineare con un predittore
A: quando osserviamo ad es. valori di 1 pi grandi della media, questo non dovuto
semplicemente al caso, ma al fatto che il predittore ha assunto valori ad es. pi grandi del
solito (se a 0). Tutto per pur sempre corrotto dallerrore, per cui la spiegazione della
variabilit di 1 oerta dalla retta di regressione non mai una spiegazione completa.
In questottica, 1 ha una sua varianza, una sua variabilit. Lespressione aA + / riesce
a spiegarne una parte, laltra resta non spiegata. La parte non spiegata di 1 la dierenza
tra 1 e la parte spiegata, cio aA + /. Quindi la parte non spiegata di 1 proprio lerrore
o- (non c niente di nuovo, solo una questione di linguaggio).
Con questo nuovo linguaggio, chiamiamo varianza spiegata la percentuale della varianza
che stata spiegata da aA+/ e varianza non spiegata la percentuale complementare. Siccome
la parte di 1 non spiegata o-, la varianza non spiegata
o
2
\ ar [1 ]
.
Quindi la varianza spiegata
1
o
2
\ ar [1 ]
.
Ma questa pari a j
2
(1, A)! Siamo arrivati al seguente risultato:
Proposizione 32 Il coeciente di correlazione al quadrato, j
2
(1, A), la varianza spiegata
1
o
2
\ ov[Y ]
dalla relazione lineare.
Pi j
2
(1, A) alto (vicino a 1) pi la relazione lineare riesce a spiegare la variabilit di
1 .
6.3.3 Regressione lineare multipla
Supponiamo di avere una tabella di numeri del tipo
A
1
... A
j
1
1 r
1,1
... r
1,j
j
1
2 r
2,1
r
2,j
j
2
... ...
: r
a,1
r
a,j
j
a
dove le colonne rappresentano diverse variabili (ad esempio A
1
= reddito, ... , A
j
= numero
anni istruzione, 1 = spese per mostre e musei), le righe rappresentano diversi individui
(ad esempio singole persone, oppure citt o regioni di una nazione) ed i valori numerici sono
noti, sono stati misurati.
Ci chiediamo se le variabili A
1
, ..., A
j
inuiscono su 1 . Ci chiediamo se 1 dipende da
A
1
, ..., A
j
. Un maggior reddito induce a maggiori spese per mostre e musei? Ed un maggior
gradi di istruzione (l misurato semplicemente come numero di anni si studio)?
Immaginiamo che le variabili siano legate da una relazione funzionale, a meno di errore:
1 = ) (A
1
, ..., A
j
) +-.
Pi specicamente, per semplicit, supponiamo che la relazione sia lineare:
1 = a
1
A
1
+... +a
j
A
j
+/ +-
(/ detta intercetta, e nel caso j = 1 il coeciente a := a
1
detto coeciente angolare).
A partire dalla matrice dei dati, relativamente ad una scelta dei coecienti a
1
, ..., a
j
, /,
possiamo calcolare i residui
-
i
= j
i
(a
1
r
i,1
+... +a
j
r
i,j
+/)
al variare dellindividuo i = 1, ..., :. Possiamo poi calcolare lo scarto quadratico medio dei
residui, ancora funzione dei parametri a
1
, ..., a
j
, /,
oQ' (a
1
, ..., a
j
, /) =
1
:
a
i=1
-
2
i
=
1
:
a
i=1
(j
i
(a
1
r
i,1
+... +a
j
r
i,j
+/))
2
.
La grandezza oQ' (a
1
, ..., a
j
, /) misura la bont del modello lineare 1 = a
1
A
1
+... +a
j
A
j
+
/ +-: se piccola, il modello buono. Allora, innanzi tutto cerchiamo i parametri a
1
, ..., a
j
, /
che la rendono minima. Essi forniscono il migliore tra i modelli lineari. Indichiamo con
a
1
, ..., a
j
,
/ i parametri ottimali. Chiamiamo

1 = a
1
A
1
+... +a
j
A
j
+
/ +-
il modello di regressione lineare multipla (regressione lineare semplice nel caso : = 1) associ-
ato alla tabella precedente. La varianza dellerrore, o dei residui,
o
2
.
= oQ'
_
a
1
, ..., a
j
,
/
_
=
1
:
a
i=1
-
2
i
dove
-
i
= j
i
_
a
1
r
1,i
+... +a
j
r
j,i
+
/
_
.
La varianza spiegata, o indice 1
2
,
1
2
= 1
o
2
.
o
2
Y
dove o
2
Y
la varianza dei dati j
1
, ..., j
a
. Lidea che i dati j
1
, ..., j
a
hanno una loro variabilit,
descritta da o
2
Y
, in situazione di completa ignoranza; ma quando abbiamo a disposizione un
modello, esso spiega i dati j
1
, ..., j
a
in una certa misura, cio a meno degli errori -
1
, ..., -
a
.
Quindi la variabilit di questi errori la variabilit inspiegata, residua. Da qui il nome di
(percentuale di) varianza spiegata per il numero 1
o
2
s
o
2
Y
.
Calcolo dei coecienti
Il metodo con cui abbiamo denito a
1
, ..., a
j
,
/ si dice metodo dei minimi quadrati. Si possono

scrivere delle formule esplicite per il calcolo di questi coecienti. Infatti, siccome vogliamo
minimizzare la funzione oQ' (a
1
, ..., a
j
, /), che per brevit indichiamo con ) (a
1
, ..., a
j
, /),
deve valere
0)
0a
)
_
a
1
, ..., a
j
,
/
_
= 0, , = 1, ..., j
0)
0/
_
a
1
, ..., a
j
,
/
_
= 0.
Vale
0)
0a
)
=
2
:
a
i=1
(j
i
(a
1
r
i,1
+... +a
j
r
i,j
+/)) r
i,)
=
2
:
j, r
)
+
2
:
a
1
r
,1
, r
,)
+... +
2
:
a
j
r
,j
, r
,)
+ 2/r
)
0)
0/
=
2
:
a
i=1
(j
i
(a
1
r
1,i
+... +a
j
r
j,i
+/))
= 2j + 2a
1
r
1
+... + 2a
j
r
j
+ 2/
dove j la media degli j
1
, ..., j
a
e, per ciascun , = 1, ..., j, r
)
la media degli r
1,)
, ..., r
a,)
;
ed inoltre abbiamo posto
j, r
,)
=
a
i=1
j
i
r
i,)
, r
,I
, r
,)
=
a
i=1
r
i,I
r
i,)
.
Quindi deve valere
a
1
r
,1
, r
,)
+... +a
j
r
,j
, r
,)
+:/r
)
= j, r
,)
, i = 1, ..., j
a
1
r
1
+... +a
j
r
j
+/ = j
Questo un sistema di j + 1 equazioni lineari in j + 1 incognite, che il software risolve con
facilit.
Si pu anche introdurre la matrice quadrata a j + 1 righe e colonne ed il vettore n
=
_
_
_
_
r
,1
, r
,1
... r
,j
, r
,1
r
,1
, 1
... ... ... ...
r
,1
, r
,j
... r
,j
, r
,j
r
,j
, 1
r
,1
, 1 ... r
,j
, 1 1
_
_
_
_
, n =
_
_
_
_
j, r
,1
...
j, r
,j
j, 1
_
_
_
_
dove 1 indica il vettore con tutti 1, ed j il vettore delle j
i
. Allora il calcolo del vettore
=
_
_
_
_
a
1
...
a
j
/
_
_
_
_
si pu vedere come la risoluzione di
= n.
Inne, la matrice si ottiene col prodotto
= A
T
A
dove
A =
_
_
_
_
r
1,1
... r
1,j
1
r
2,1
r
2,j
1
...
r
a,1
r
a,j
1
_
_
_
_
.
Si noti che questa la matrice iniziale dei dati dove al posto delle j
i
abbiamo messo 1. Inoltre,
n = A
T
j.
Quindi il problema ha la forma
A
T
A = A
T
j.
Il caso in cui le A
i
sono aleatorie
Quando scriviamo il modello
1 = a
1
A
1
+... +a
j
A
j
+/ +-
abbiamo due opzioni di ragionamento, entrambe perseguibili ed utili.
La prima che i valori assunti dalle variabili A
i
siano deterministici, ad esempio ssati
dallo sperimentatore che vuole esaminare leetto di queste variabili sulla 1 . In questo caso,
solo la 1 , in un certo senso, aleatoria, se pensiamo aleatorio lerrore -.
Oppure, possiamo immaginare che le A
i
siano aleatorie quanto - (e quindi 1 ) e noi
eseguiamo misurazioni di tutte queste grandezze aleatorie. In questa seconda ottica, ha senso
eseguire il seguente calcolo.
Calcoliamo la covarianza tra 1 ed A
)
:
Co (1, A
)
) = Co (a
1
A
1
+... +a
j
A
j
+/ +-, A
)
)
= a
1
Co (A
1
, A
)
) +... +a
j
Co (A
j
, A
)
) +Co (-, A
)
) .
Ricordiamo che la matrice Q = (Co (A
i
, A
)
)) detta matrice di covarianza del vettore
aleatorio A. Supponiamo che - sia indipendente (o almeno scorrelato) da ciascuna A
)
.
Troviamo
Co (1, A
)
) =
j
i=1
Q
i)
a
i
=
j
i=1
Q
)i
a
i
(ricordiamo che Q simmetrica). Detto c il vettore di coordinate Co (1, A
)
) ed a il vettore
di coordinate a
i
abbiamo trovato
Qa = c.
Quindi
a = Q
1
c.
Questo risultato fornisce un modo per calcolare i coecienti a
i
a partire da una matrice
di dati. Si calcola la matrice di covarianza empirica

Q della matrice di dati riguardante le
variabili A
i
, si calcola il vettore c delle covarianze empriche tra le variabili A
)
ed 1 , e si
calcolano i valori
a =

Q
1
c.
Poi, per calcolare /, serve una nuova equazione. Essa si trova semplicemente calcolando
il valor medio a destra e sinistra dellequazione che denisce il modello:
1 [1 ] = a
1
1 [A
1
] +... +a
j
1 [A
j
] +/.
Allora vale
/ = 1 [1 ] (a
1
1 [A
1
] +... +a
j
1 [A
j
])
da cui si pu calcolare un valore empirico

/ a partire dai dati.
Con un po di sforzo si potrebbe riconoscere che il risultato identico a quello ottenuto
sopra con i minimi quadrati. Ci si chiede allora: cosa ha sostituito, qui, la richiesta fatta
sopra che i valori ottimali fossero quelli che minimizzavano SQM? Lindipendenza tra - e le
A
i
. Se per certi valori dei parametri risulta - indipendente dalle A
i
, signica che il modello
buono, nel senso che abbiamo sfruttato nel modo migliore le informazioni contenute nelle
A
i
, senza ritrovarci parte di quelle informazioni nel resto -. Il resto contiene ci che non
siamo riusciti a spiegare, e non nullo, ma limportante che non contenga residui legati alle
variabili A
i
, altrimenti signica che cera unaltro modo di usare le A
i
pi eciente.
6.3.4 Predizione con modelli regressivi
Nel Paragrafo 6.1.1 abbiamo sottolineato come levidenza di elevata correlazione non implichi
in alcun modo lesitenza di un legame causa-eetto. Quando impostiamo un modello di re-
gressione, invece, stiamo ipotizzando che certe variabili giochino il ruolo di fattori, predittori,
ed altre di output. Mentre nel calcolo della correlazione e nella PCA le variabili sono esam-
inate tutte in modo simmetrico, la simmetria rotta a priori da noi quando impostiamo un
modello regressivo.
Dobbiamo pertanto assicurarci che esista davvero una tale relazione causa-eetto, quando
facciamo la regressione? Altrimenti non ha senso farla? Dipende dagli scopi. Se lo scopo
del modello regressivo solo quello di eettuare previsioni e non di sostenere lesistenza di
una relazione causa-eetto che magari non hanno alcun senso, allora va benissimo applicare
i metodi di regressione anche a variabili che non hanno un legame causa-eetto, ma sono
semplicemente ben correlate.
Cosa si intende per predizione con modelli regressivi: sulla base di dati noti, si identica
quantitativamente il legame tra certi fattori A
1
, ..., A
o
ed una variabile da predire 1 (si
calcolano i coecienti del modello); in queste situazioni note, si conoscono i valori assunti
da tutte le variabili (A
1
, ..., A
o
, 1 ); poi, si applica il modello a situazioni nuove, dove si
conoscono solo i valori assunti dalle variabili (A
1
, ..., A
o
), usanto il modello per calcolare
(predire) il valore di 1 .
Bene, ha perfettamente senso applicare questa strategia anche quando le variabili in gioco
non sono legate da relazioni causa-eetto; basta che sia buona la loro correlazione.
A parte una banale logica strumentale (il modello funziona bene come scatola nera per
fare predizioni), ci pu essere una logica dietro questo fatto? Pensiamo al caso in cui due
variabili A ed 1 sono molto correlate, ma non c relazione causa-eetto; e supponiamo invece
che ci sia una variabile 7 che sia causa di entrambe, ma non la possiamo misurare, magari
non labbiamo nemmeno individuata. Troviamo la formula regressiva 1 = aA + / (che non
ha alcun signicato sico/economico ecc.). In situazioni nuove, misurata A, prevediamo che
1 abbia il valore dato da questa formula. Che logica c dietro? Perch speriamo che questa
equazione fornisca prodizioni sensate, se A non inuenza 1 ? La ragione che, se misuriamo
valori di A di un certo tipo, questi sono stati causati da certi valori di 7 (sconosciuti), che
hanno prodotto contemporaneamente certi valori di 1 , compatibili con la formula 1 = aA+/
in quanto questa stata determinata da valori sperimentali che seguivano la stessa logica. In
un certo senso, come se scomponessimo la freccia
A 1
in due passi
A 7 1
dove la freccia A 7 va intesa come linversione della relazione di causa-eetto 7 A
(si ricostruisce la causa che ha provocato un certo eetto). La scomposizione ovviamente
solo ideale, non conosciamo 7, quindi non svolgiamo realmente questi passaggi. Quella che
abbiamo illustrato serve solo a spiegare come mai possiamo sperare che la conoscenza di A
possa dire qualcosa su 1 .
A livello teorico questa spiegazione ha almeno un difetto: ipotizzando che 7 inuisca su
A, se diversi valori di 7 producono lo stesso valore di A ma non di 1 , dallosservazione di
quel valore di A non possibile risalire a quale 7 lo ha prodotto, e quindi quale 1 debba
essere poi generato. In altre parole, la freccia
A 7
potrebbe essere multivoca, quindi potrebbe non essere possibile ottenere univocamente 1 da
A. Un po lerrore nel modello 1 = aA +/ +o- pu farsi carico di questo, ma non oltre una
certa misura.
6.3.5 Analisi fattoriale
Qualche calcolo a mano sullAnalisi Fattoriale
Consideriamo alcuni esempi semplicissimi di Analisi Fattoriale (FA, Factorial Analysis), col
solo scopo di far capire alcune idee strutturali del problema.
Consideriamo il modello
1
1
= a
1
A +/
1
+-
1
1
2
= a
2
A +/
2
+-
2
cio un fattore e due output. Ma immaginiamo di avere dati solo delle variabili (1
1
, 1
2
).
Anzi, A non sappiamo nemmeno a priori cosa sia, che variabile sia, se ci sia. E possibile
risalire alla A, ai coecienti del modello?
Il problema quello descritto sopra: misuriamo due variabili 1
1
, 1
2
, magari ben correlate,
ma che la logica ci dice non essere in relazione causa-eetto. Ci chiediamo invece se ci sia,
alle loro spalle, a monte di esse, una variabile A che sia loro causa, che le spieghi, nel
senso che spieghi come mai 1
1
ed 1
2
variano in modo coordinato (sono correlate). Si tratta
di spiegare le variazioni (coordinate) degli output. In termini matematici, spiegare la matrice
di covarianza Q
Y
di 1 .
Abbiamo enfatizzato il problema illustrando il caso in cui A sia causa di 1
1
e 1
2
, ma non
necessario che sia proprio cos. Magari si tratta solo di rintracciare una variabile riassuntiva
A, di cui 1
1
e 1
2
siano manifestazioni misurabili. Ad esempio A pu essere il grado di
benessere economico, e le 1
i
essere varie misurazioni di indicatori di benessere (spese per
cultura, per vacanze ecc.).
Si noter che in tutti i nostri esempi prendiamo sempre meno fattori che output, altri-
menti varrebbe la risposta banale: un fattore per ogni output. Se accettassimo di cercare un
numero di fattori pari (o addirittura superiore) agli output, fattori che spieghino gli output,
la risposta banale sarebbe prendere come fattori gli output stessi. Essi spiegherebbero per-
fettamente tutta la variabilit degli output. Solo imponendo il vincolo che i fattori sono di
meno, sopravvive un problema non ovvio di spiegare delle variazioni coordinate degli output.
Se abbiamo una tabella di dati per le variabili 1 = (1
1
, 1
2
) calcoliamo dai dati la matrice
di correlazione
Q
Y
=
_
o
2
Y
1
Co (1
1
, 1
2
)
Co (1
1
, 1
2
) o
2
Y
2
_
.
Non abbiamo altro (eventualmente i valori medi delle 1
1
, 1
2
) per tentare di risalire al modello.
A livello teorico, se vale un modello di questo genere, con -
1
, -
2
, A indipendenti (ricor-
diamo che questa richiesta, nella regressione, rimpiazzava la minimizzazione dei quadrati),
vale
Co (1
1
, 1
2
) = a
1
a
2
o
2
A
o
2
Y
1
= a
2
1
o
2
A
+o
2
.
1
o
2
Y
2
= a
2
2
o
2
A
+o
2
.
2
.
Supponiamo o
2
A
= 1 altrimenti questa grandezza la si fa rientrare nei coecenti incogniti a
1
e a
2
. Quindi
a
1
a
2
= Co (1
1
, 1
2
)
a
2
1
+o
2
.
1
= o
2
Y
1
a
2
2
+o
2
.
2
= o
2
Y
2
.
Sono tre equazioni nelle quattro incognite (a
1
, a
2
, o
.
1
, o
.
2
). Ci sono quindi (almeno in linea di
principio, visto che un problema nonlineare, quindi non del tutto banale) innite soluzioni.
Il software cerca quella che rende minima la somma dei residui o
2
.
1
+o
2
.
2
.
Se per erano tre output ed un solo fattore, cio il modello
1
1
= a
1
A +/
1
+-
1
1
2
= a
2
A +/
2
+-
2
1
3
= a
3
A +/
3
+-
3
avevamo
Co (1
1
, 1
2
) = a
1
a
2
Co (1
1
, 1
3
) = a
1
a
3
Co (1
2
, 1
3
) = a
2
a
3
o
2
Y
1
= a
2
1
+o
2
.
1
o
2
Y
2
= a
2
2
+o
2
.
2
o
2
Y
3
= a
2
3
+o
2
.
3
.
Sono 6 equazioni nelle 6 incognite (a
1
, a
2
, a
3
, o
.
1
, o
.
2
, o
.
3
) per cui in linea di principio c una
sola soluzione. Con 4 output certamente sovradeterminato; in questi casi, di non risolubilit,
il criterio costruire con i parametri (a
1
, a
2
, a
3
, o
.
1
, o
.
2
, o
.
3
) una matrice di covarianza pi
vicina possibile (in una certa metrica) alla matrice Q
Y
.
Vediamo anche il caso di due fattori e tre output:
1
1
= a
11
A
1
+a
12
A
2
+/
1
+-
1
1
2
= a
21
A
1
+a
22
A
2
+/
2
+-
2
1
3
= a
31
A
1
+a
32
A
2
+/
3
+-
3
Qui vale, sempre prendendo i fattori standardizzati, e supponendoli indipendenti tra loro e
dagli errori,
Co (1
1
, 1
2
) = a
11
a
21
+a
12
a
22
Co (1
1
, 1
3
) = a
11
a
31
+a
12
a
32
ccc.
cio 6 equazioni in 9 incognite. Il principio sempre lo stesso.
6.3.6 Forma matriciale del problema
Si pu sintetizzare tutto con le matrici. Immaginiamo le variabili 1
i
raccolte nel vettore
aleatorio 1 = (1
1
, ..., 1
a
), le A
i
nel vettore A = (A
1
, ..., A
o
), gli errori -
i
nel vettore - =
(-
1
, ..., -
a
), quindi
1 = A +/ +-.
Con calcoli simili a quelli precedenti o a quelli del capitolo 1 delle note in inglese, nelle ipotesi
di indipendenza e standardizzazione di A dette sopra, si ottiene la relazione
Q
Y
=
T
+Q
.
che ricorda la ben nota relazione Q
Y
= Q
A
T
. Qui Q
A
lidentit in quanto A ha
componenti indipedenti e standard ( come un vettore gaussiano standard). Invece Q
.
la
covarianza del rumore, matrice diagonale (a causa dellindipendenza dei rumori)
Q
.
=
_
_
o
2
.
1
0 0
0 ... 0
0 0 o
2
.n
_
_
.
Si noti che, nella bae di partenza, la matrice Q
Y
non diagonale, mentre Q
.
s. Se cambi-
assimo base diagonalizzando Q
Y
, perderemmo la diagonalit di Q
.
, quindi questo non un
passaggio utile.
Il problema visto sopra allora si pu riassumere cos: data Q
Y
e date le dimensioni
d < :, trovare una matrice con : righe e d colonne ed una matrice diagonale Q
.
tali che
Q
Y
=
T
+Q
.
. Se accettassimo d = :, basterebbe prendere =
_
Q
Y
, Q
.
= 0. Ma questo
non possibile: d < :.
A seconda dei valori di d ed :, il problema risolubile univocamente, oppure per innite
matrici (ed in tal caso si minimizza la varianza globale dellerrore), oppure non risolubile
esattamente, nel qual caso si cercano e Q
.
tali che
d
_
Q
Y
,
T
+Q
.
_
sia minima, avendo indicato con d (., .) unopportuna distanza tra matrici.
6.3.7 Loadings, rotazioni, interpretazioni
La matrice detta matrice dei loadings, esattamente come per PCA.
Supponiamo di aver trovato una soluzione (, Q
.
) del problema Q
Y
=
T
+Q
.
. Sia l
una matrice ortogonale, un cambio di base, una rotazione, tale che ll
T
lidentit. Allora
(l, Q
.
) unaltra soluzione:
(l) (l)
T
+Q
.
= ll
T
T
+Q
.
=
T
+Q
.
= Q
Y
.
In termini di modello 1 = A +/ +- si tratta di averlo scritto nella forma
1 = (l) A
t
+/ +-
A
t
= l
T
A.
In altre parole, ruotando i fattori e modicando , si risolve il problema nello stesso
modo. Che vantaggio pu avere una soluzione rispetto ad unaltra, che dieriscano per una
rotazione? Se si riesce a trovare una rotazione in cui sia particolarmente ricca di zeri (o
valori molto piccoli), questo pu venire a vantaggio di una buona interpretazione dei fattori,
dellattribuire un signicato ai fattori. Ragioniamo su un esempio.
Si pensi allesempio della lezione 22. Suggestionati dallanalisi svolta con PCA, che sug-
gerisce la presenza di due fattori, immaginiamo ci siano appunto due fattori A
1
, A
2
che
inuenzano le quattro variabili TD, RD, PE, HC, che spiegano la particolare struttura di
variabilit di queste grandezze tra le nazioni europee:
T1 = a
11
A
1
+a
12
A
2
+/
1
+-
1
11 = a
21
A
1
+a
22
A
2
+/
2
+-
2
ccc.
Immaginiamo di eseguire una FA e di trovare una soluzione (, Q
.
). Il software, nel calcolare
(, Q
.
), ovviamente ignora ogni possibile interpretazione applicativa (per il SW, che si parli
di TD o di risultati calcistici la stessa cosa). Quindi, a priori, il SW non aiuta lo studioso
a dare uninterpretazione dei risultati. Ma supponiamo che tramite una rotazione si ottenga
una matrice con numeri nettamente distinti, in numeri grandi e numeri piccoli. Un loading
piccolo signica che c poca relazione tra il fattore e la variabile che esso lega. Ad esempio,
se venisse che a
11
piccolo, vorrebbe dire che il fattore A
1
non legato a T1, ma serve per
spiegare le altre variabili. Questo minore o maggiore grado di associazione di un fattore a
certe variabili pu contribuire a dare un nome, un signicato, a quel fattore.
6.3.8 FA e PCA
Di fatto, PCA eettua operazioni vagamente simili a quelle di FA, e quindi risulta un buon
strumento per lidenticazione di fattori comuni. Il metodo PCA si pu vedere come la
diagonalizzazione della matrice di covarianza Q
Y
:
Q
Y
= l1l
T
dove
1 =
_
_
`
1
0 0
0 ... 0
0 0 `
a
_
_
.
Ora, delle : dimensioni, prendiamo le prime d, prime secondo lordine degli autovalori `
i
, cio
le prime d componenti principali (es. d = 2). Indichiamo con \ = (\
1
, ..., \
o
) le coordinate
rispetto alla base c
1
, ..., c
o
dei primi d autovettori di Q
Y
, e con - = (-
o+1
, ..., -
a
) le rimanenti
coordinate. Vale (la prima uguaglianza il semplice cambio di base)
1 = l
_
A
-
_
= A +1-
dove la matrice fatta dalle prime d colonne di l, 1 dalle ultime : d. In altre parole,
Anche PCA pu essere visto come un modello lineare, della forma
1
1
= a
11
\
1
+... +a
1o
\
o
+r
1
...
1
a
= a
a1
\
1
+... +a
ao
\
o
+r
a
dove il vettore r = (r
1
, ..., r
a
) dei residui dato da
r = 1-.
Le prime componenti principali \ = (\
1
, ..., \
o
) giocano lo stesso ruolo dei fattori della
FA. Il resto r = 1- , in molti esempi, piccolo, in quanto le ultime componenti principali
sono quelle con minore varianza.
Ricordiamo che PCA si applica a dati standardizzati. Per questo non compare /.
Lunica dierenza tra il modello 1 = \ +1- oerto da PCA ed il modello 1 = A +-
della FA (omettiamo / anche in FA per fare il confronto), sta nel fatto che nella FA si richiede
che gli errori siano indipendenti. Invece gli errori che saltano fuori da PCA sono piccoli ma
non necessariamente indipendenti. Per questo, i risultati dei due metodi non coincidono.
Per dicile incontrare problemi in cui dieriscano in modo nettissimo.
6.4. METODI DI CLASSIFICAZIONE E CLUSTERING 349
6.3.9 I comandi di R. Linguaggio
Si cerchino i comandi factanal e varimax.
Communality of variable 1
1
: a
2
11
+... +a
2
1o
. Uniqueness of variable 1
1
: o
2
.
1
.
Quindi la varianza di 1
1
la somma dei due. In altre parole, il rapporto tra la communality
e la varianza di 1
1
la varianza spiegata dal modello, relativamente alla variable 1
1
.
Lo stesso vale per tutte le variabili in output.
6.4 Metodi di classicazione e clustering
6.4.1 Regressione logistica
Denizione 57 Un modello di regressione logistica tra j fattori A
1
, ..., A
j
ed un output 1
una relazione del tipo
1 ~ 1(1, j)
q (j) = a
1
A
1
+... +a
j
A
j
+/.
Abbiamo sintetizzato il modello in una denizione concisa perch questo concetto risulta
in genere particolarmente oscuro e impreciso. Ora per cerchiamo di capirlo in modo pi
progressivo.
Come in tutti i modelli regressivi, anche nella regressione logistica ci sono dei fattori
A
1
, ..., A
j
misurabili, ed un output 1 anchesso misurabile, tutti relativamente ad un insieme
di unit sperimentali. Tuttavia, nella regressione logistica loutput 1 dicotomico: 0 o 1,
mentre i predittori assumono valori reali generici, come nella regressione lineare multipla
tradizionale.
Si pensa che, dati i valori dei predittori, loutput 1 0, 1 sia casuale ma con legge
univocamente determinata dai predittori. 1 una v.a. di Bernoulli, quindi la sua legge
identicata dal parametro j = 1 (1 = 1). Questo numero univocamente determinato dai
predittori, funzione deterministica dei valori assunti dai predittori.
Inoltre, il modo di dipendere dai predittori, nel modello di regressione logistica, non
qualsiasi ma avviene solo attraverso una loro combinazione ane, detta predittore lineare
j = a
1
A
1
+... +a
j
A
j
+/.
Non stiamo aermando che j = j, ma che j dipende da A
1
, ..., A
j
solo attraverso una
combinazione ane j di questo tipo, e non tramite espressioni magari quadratiche o altro.
Mettiamo a confronto regressione logistica (RLog) e regressione lineare multipla (RLM)
tradizionale, per spiegare meglio il modello RLog. Nella RLM, dati i valori r
1
, ..., r
j
dei
predittori, noti i coecienti a
1
, ..., a
j
, /, loutput una v.a. gaussiana 1 di media j = j
(media uguale al predittore lineare) e varianza o
2
, quindi rappresentabile nella forma
1 = a
1
r
1
+... +a
j
r
j
+/ +-
con - ~
_
0, o
2
_
. Invece, nella RLog, dati i valori r
1
, ..., r
j
dei predittori, noti i coecienti
a
1
, ..., a
j
, /, loutput una v.a. di Bernoulli 1 , di parametro j che dipende da j attraverso
una certa funzione.
Pensiamo ad un esempio: supponiamo che gli individui siano le nazioni europee e che, per
una certa nazione, sia 1 = 1 se la nazione migliora la propria condizione economica (1 = 0
altrimenti) durante lanno 2011. I predittori potrebbero essere gli investimenti in ricerca, e
cos via del 2010. Noti i valori dei predittori, la casualit non certo esaurita, quindi 1 resta
aleatorio, ma la sua legge (cio j) ora determinata, nota. Nel modello RLog si suppone che
la probabilit j di miglioramento sia nota quando sono noti i predittori. Inoltre si suppone
che j dipenda dai predittori solo attraverso la loro combinazione ane j.
Un altro esempio: gli individui sono esemplari di complessi sistemi meccanici o elettronici,
1 = 1 se il sistema funziona per un anno, i predittori possono essere valori misurati di
caratteristiche meccaniche ecc. di sottoparti, del materiale ecc.
Essendo j una probabilit, non possiamo pensare che la relazione tra j ed j sia del tipo
j = j, cio
j = a
1
r
1
+... +a
j
r
j
+/
altrimenti otterremmo per j valori anche esterni a [0, 1]. Si deve adottare un modello del tipo
q (j) = a
1
r
1
+... +a
j
r
j
+/
dove q una funzione denita in [0, 1] a valori reali, invertibile. In modo che sia
j = q
1
(a
1
r
1
+... +a
j
r
j
+/) .
Una scelta molto comune la funzione detta logit
q (j) = log
_
j
1 j
_
.
Per j 0 essa tende a , mentre per j 1 tende a +; ed strettamente crescente,
oltre che regolare. La sua funzione inversa
q
1
(j) =
exp(j)
1 + exp (j)
[Infatti log
_
j
1j
_
= j,
j
1j
= exp (j), j = (1 j) exp(j), j (1 + exp (j)) = exp(j), j =
exp(j)
1+exp(j)
.] In denitiva, il modello
1 ~ 1(1, j) con j =
exp(j)
1 + exp (j)
dove j = a
1
r
1
+... +a
j
r
j
+/.
Quando i coecienti a
1
, ..., a
j
, / sono divenuti noti, preso un nuovo individuo, calcolati i valori
dei suoi predittori r
1
, ..., r
j
, si calcola la probabilit j relativa a quellindividuo (probabilit
di questo o quellaccadimento, dipende dal problema). Se j molto elevata, siamo abbastanza
sicuri che per quellindividuo sar 1 = 1, mentre se molto bassa, conteremo che sia 1 = 0;
nel mezzo ovviamente c molta indecisione sul valore di 1 di quellindividuo, pur valendo
comunque che se j 1,2 pi probabile 1 = 1 e viceversa.
Nella teoria generale dei modelli lineari generalizzati, il numero j = a
1
r
1
+... +a
j
r
j
+/
viene detto predittore lineare, la funzione q
1
viene detta link function e la funzione q viene
detta mean function. Nella regressione logistica, la link function la funzione logistica,
rappresentata in gura.
-4 -2 0 2 4
0.5
1.0
x
y
Funzione logistica
exp(j)
1+exp(j)
.
Resta il problema di trovare i coecienti. Si devono avere : individui di cui si conoscano
i valori dei predittori A
i
e di 1 . Si usa il metodo della massima verosimiglianza. Noti i valori
r
1
, ..., r
j
dei predittori di un individuo, abbiamo detto che 1 1(1, j), con j = q
1
(j),
j = a
1
r
1
+ ... + a
j
r
j
+ /. Quindi 1 (1 = 1) = j, 1 (1 = 0) = 1 j. Se indichiamo uno dei
due numeri 0 o 1 con j, si pu scrivere in una sola formula
1 (1 = j) = j
j
(1 j)
1j
.
Supponiamo come abbiamo detto che, per un individuo noto, sia noto anche il valore di 1 ,
che chiamiamo con j. Il numero j
j
(1 j)
1j
la verosimiglianza relativa a quellindivid-
uo. In astratto, la verosimiglianza funzione di molte grandezze: r
1
, ..., r
j
, j, a
1
, ..., a
j
, /.
Trattandosi di un individuo con r
1
, ..., r
j
, j noti, ben precisi, la verosimiglianza funzione di
a
1
, ..., a
j
, /. Se poi consideriamo gli : individui indipendenti, ed indichiamo con r
(i)
1
, ..., r
(i)
j
,
j
(i)
i loro valori noti, vale
1
_
1
(1)
= j
(1)
, ..., 1
(a)
= j
(a)
_
=
a
i=1
_
j
(i)
_
j
(.) _
1 j
(i)
_
1j
(.)
dove
j
(i)
= q
1
_
j
(i)
_
, j
(i)
= a
1
r
(i)
1
+... +a
j
r
(i)
j
+/.
Questa la verosimiglianza del campione sperimentale, funzione di a
1
, ..., a
j
, /. Il metodo
di massima verosimiglianza consiste nel cercare i valori di a
1
, ..., a
j
, / che rendono massima
la verosimiglianza, cio
a
i=1
_
j
(i)
_
j
(.) _
1 j
(i)
_
1j
(.)
. Tecnicamente, conviene massimizzare il
logaritmo della verosimiglianza ( equivalente), cio
a
i=1
_
j
(i)
log j
(i)
+
_
1 j
(i)
_
log
_
1 j
(i)
__
.
Il software esegue la massimizzazione con un procedimento iterativo.
Classicazione tramite regressione logistica
Il metodo della regressione logistica serve ad esempio per eettuare una classicazione non
perentoria. Loutput 1 pu assumere due valori, che per comodit espositiva chiamiamo e
1. Assume con probabilit j.
A partire da un set di dati, cio di individui di cui si conoscano sia i predittori sia la classe,
o 1, a cui appartengono, si calcolano i coecienti del modello. Poi, esaminando nuovi
individui che vogliamo classicare sulla base della sola conoscenza dei predittori, calcoliamo
il numero j di un individuo, ed assegnamolo alla classe che ha probabilit maggiore ( se
j 1,2). Eseguita cos una classicazione perentoria, ma corredata dal numero j stesso,
che fornisce unindicazione del grado di sicurezza che abbiamo, nella classicazione appena
eseguita.
E la stessa logica della predizione tramite modello regressivo, Paragrafo 6.3.4. Invece che
desiderare una predizione numerica di una grandezza 1 associata a certe unit sperimentali,
desideriamo sapere se quelle unit appartengono ad una categoria o ad unaltra.
Modelli lineari generalizzati
Sono una generalizzazione del modello base, gaussiano,
1 = a
1
A
1
+... +a
j
A
j
+/ +-
e di quello bernoulliano (detto modello binomiale, in questo contensto) appena visto
1 ~ 1(1, j) con j =
exp(j)
1 + exp (j)
dove j = a
1
r
1
+... +a
j
r
j
+/.
In generale, si ipotizza che loutput 1 abbia distribuzione di una certa classe, ad esempio
appunto gaussiana, Bernoulli, Poisson, ecc., e si ipotizza che un suo parametro fondamentale
0, di solito la media (j per la gaussiana, j per la Bernoulli, ` per la Poisson) sia legato ai
fattori attraverso una formula del tipo
0 = q
1
(j)
dove
j = a
1
r
1
+... +a
j
r
j
+/
chiamiato predittore lineare. Chiamiamo link function la funzione q. Nella regressione
logistica si prende come q la funzione logit. Nella regressione tradizionale, q lidentit.
Il comando di R che esegue la regressione per i modelli lineari generalizzati glm.
6.4.2 Formulazione probabilistica del problema decisionale e regola di Bayes
Per capire il prossimo metodo di classicazione, utile qualche premessa di teoria delle
decisioni.
Lidea base della teoria delle decisioni si pu descrivere tramite le nozioni forndamentali
del calcolo delle probabilit: luniverso degli eventi, le partizioni, la formula di fattorizzazione
e quella di Bayes.
Supponiamo di avere un universo , una partizione (C
I
) (ad esempio la suddivisione di
in un insieme C
1
ed il suo complementare C
2
= C
c
1
), e dobbiamo prendere una decisione:
quale degli eventi C
I
si vericato (o si vericher)? Abbiamo usato la lettera C come
classe, immaginando di voler eettuare una classicazione.
Supponiamo di conoscere le (cosidette) probabilit a priori dei C
I
, i numeri 1 (C
I
). A
volte sono note da statistiche precedenti (come nellesempio 1 che vedremo tra poco), altre
volte, pi che conoscerle, le si ipotizza. Ad esempio, a volte si suppongono tutte uguali (C
I
equiprobabili a priori) per sottolineare il nostro grado di ignoranza iniziale circa quale dei C
I
si quello giusto.
Ipotizziamo che gli eventi C
I
inuiscano su (o comunque siano collegati ad) un evento
che possiamo osservare e che vediamo che si vericato. Supponiamo di conoscere le
probabilit condizionali
1 ([C
I
)
per tutti i /. Tramite il teorema di Bayes, allora, possiamo calcolare le probabilit a posteriori
dei 1
I
, i numeri
1 (C
i
[) =
1 ([C
i
) 1 (C
i
)
I
1 ([C
I
) 1 (C
I
)
.
Queste sono le probabilit dei C
I
nel momento in cui sappiamo che levento si vericato.
La regola decisionale di Bayes : scegliere tra i C
I
quello con la massima probabilit a
posteriori. In simboli: C
cjt
i
:= arg max
C
.
1 (C
i
[), ovvero
C
cjt
i
:= arg max
C
.
1 ([C
i
) 1 (C
i
)
in quanto il denominatore uguale per tutti i 1 (C
i
[). Va notato che, se pur in casi
plausibilmente rari, potrebbero esistere due diversi C
i
che massimizzano questa espressione.
In questo caso il metodo non in grado di prendere una decisione e si pu ad esempio dire
(anche se in un senso lievemente improprio) che il metodo ha commesso un errore, per cui
includeremo questa eventualit negli eventi di errore studiati sotto.
Esempio 1. Si sa a priori che lo 0.2% della popolazione sore di una certa malattia dopo
i 50 anni. Quella malattia non ovvia da diagnosticare. Se la malattia presente, una certa
analisi la evidenzia nel 90% dei casi. Se non presente, lanalisi produce un falso positivo
nel 15% dei casi. Un medico esegue lanalisi a un paziente, che risulta positivo. Il medico
che decisione prende? (intendiamo: pi propenso a credere che il paziente abbia o non
abbia la malattia?). Soluzione: indichiamo con C
1
levento: ha la malattia, con levento:
risulta positivo allanalisi; conosciamo: 1 (C
1
) = 0.002, 1 (C
2
) = 0.998, 1 ([C
1
) = 0.9,
1 ([C
2
) = 0.15, quindi calcoliamo
1 ([C
1
) 1 (C
1
) = 0.9 0.002 = 0.001 8
1 ([C
2
) 1 (C
2
) = 0.15 0.998 = 0.149 7.
la conclusione che il medico ancora pi propenso a credere che il paziente sia sano.
Quellanalisi poco discriminante. Non si deve per pensare che lanalisi non sia servita a
niente. Ora, per la prossima analisi, si parte da una probabilit a priori diversa: il paziente
cade in una categoria di persone che ha probabilit
0.001 8
0.001 8+0.149 7
= 0.01 di essere ammalata,
0.149 7
0.001 8+0.149 7
= 0.99 di essere sana (proporzioni ben diverse da quelle iniziali).
Osservazione: nel caso equiprobabile, essendo 1 (C
i
) uguale per tutti, il criterio diventa
semplicemente
C
cjt
i
:= arg max
C
.
1 ([C
i
) .
Esempio 2. Una rete di trasmissione invia messaggi codicati con 0 e 1. Sulla rete c
un disturbo, che con probabilit 0.1 modica 1 in 0 e con probabilit 0.1 modica 0 in 1. Se
riceviamo un 1, cosa decidiamo che sia stato spedito? Soluzione. Per ignoranza, supponiamo
che siano equiprobabili linvio di 0 o di 1. Indichiamo con C
1
levento: stato inviato
1, con levento: abbiamo ricevuto 1; conosciamo: 1 (C
1
) = 1 (C
2
) = 0.5, 1 ([C
1
) =
0.9, 1 ([C
2
) = 0.1. Siccome le alternative C
1
e C
2
sono equiprobabili, basta confrontare
1 ([C
1
) con 1 ([C
2
) e scegliere il pi grande. Quindi ovviamente decidiamo che stato
spedito 1. Questo esempio, cos formulato, appare ovvio e poco istruttivo; interessante sarebbe
proseguirne lanalisi in unaltra direzione: la probabilit di errore, data da
1
cvv
= 1 ([C
2
) 1 (C
2
) +1 (
c
[C
1
) 1 (C
1
)
piuttosto alta (vale 1
cvv
= 0.1) e renderebbe troppo incerta la trasmissione di messaggi,
quindi bisogna inventare procedimenti per limitare la possibilit di sbagliare. Da qui nascono
i codici di correzione derrore.
6.4.3 Classicazione: idee generali
Abbiamo un insieme di osservazioni possibili, che per ssare le idee supponiamo sia R
j
.
Linterpretazione che di ciascun individuo (nazione, provincia ecc.) osserviamo il valore di
j fattori A
1
, ..., A
j
, quindi un individuo rappresentato da un punto r = (r
1
, ..., r
j
) R
j
.
Abbiamo due classi, C
1
e C
2
. Ogni individuo appartiene alluna o allaltra.
Gli individui si dividono in due gruppi, il gruppo detto di training (training set) ed il
gruppo detto di test (test set). Di tutti gli individui conosciamo la stringa (r
1
, ..., r
j
), ma
solo degli individui del training set conosciamo la classe. Vorremmo inventare un procedi-
mento per classicare gli individui del test set. Naturalmente vorremmo poter fare questa
classicazione sulla base dei valori (r
1
, ..., r
j
) di questi individui, e sulla base dellanalogia
con la classicazione, nota, degli altri individui (quelli training).
Si tratta allora di suddividere R
j
in due regioni, che chiamiamo
1
e
2
, un po analoga-
mente alle classi corrispondenti C
1
e C
2
. Tutti gli individui test la cui stringa (r
1
, ..., r
j
) cade
in
1
, vengono classicati di classe C
1
, gli altri di classe C
2
:
(r
1
, ..., r
j
)
1
classe C
1
(r
1
, ..., r
j
)
2
classe C
2
.
Come eettuare la suddivisione di R
j
in due regioni? Dobbiamo basarci sui dati noti, cio
sul training set. Immaginiamo: abbiamo in R
j
due insieme di punti, tutti relativi a individui
del training set: i punti 1
1
, ..., 1
I
degli individui di classe
1
e quelli 1
I+1
, ..., 1
a
di quelli di
classe
2
. Abbiamo indicato con : il numero di individui del training set. Lideale sarebbe,
o potrebbe sembrare che sia, dividere R
j
in due regioni
1
e
2
tali che
1
contenga tutti i
punti 1
1
, ..., 1
I
ed
2
tutti i punti 1
I+1
, ..., 1
a
. Questa strategia ha vari difetti:
non univoca (innite regioni hanno questa propriet ed proprio del tutto arbitrario
sceglierne una);
non tiene conto del fatto che le sole variabili A
1
, ..., A
j
non dovrebbero permettere una
classicazione sicura (salvo problemi molto particolari e privi di aleatoriet), quindi
deve essere possibile che un individuo di classe
1
stia nella regione
2
e viceversa;
facile immaginare disposizioni dei punti 1
i
tali che, per dividerli come detto sopra,
siamo costretti a immaginare regioni molto contorte; se immaginiamo che dietro il
nostro tentativo di classicazione ci sia una realt sica, una struttura, un legame reale
tra le variabili A
1
, ..., A
j
e la classe (a meno di errore ed altre variabili non identicate
o considerate), molto strano che questo legame passi attreverso complicate formule
matematiche (quelle necessarie a descrivere una regione molto contorta); di solito i
legami sici tra grandezze hanno natura polinomiale o comunque abbastanza semplice.
Quindi si rinuncia al requisito che
1
contenga tutti i punti 1
1
, ..., 1
I
e
2
tutti gli altri. Si
vuole che ci avvenga per la maggior parte dei punti, salvaguardando contemporaneamente
qualche criterio di struttura e semplicit geometrica delle due regioni. Una scelta molto
comune, che vedremo, che le due regioni siano dei semispazi, cio la divisione in due di R
j
sia realizzata da un iperpiano.
Il discorso astratto si estende al caso di pi classi, senza modiche particolarmente
rilevanti, se non notazionali. Le suddivisioni per saranno pi complicate.
6.4.4 Classicazione bayesiana
Quello descritto no ad ora il problema e lo schema di classicazione in generale. Discutiamo
ora lapproccio bayesiano, ispirato alla teoria bayesiana delle decisioni. Supponiamo che
sia nota la distribuzione di probabilit congiunta del vettore aleatorio A = (A
1
, ..., A
j
),
condizionata allessere di classe C
1
o C
2
: indichiamo con )
A
(r[C
i
) la densit congiunta di
A, r = (r
1
, ..., r
j
) R
j
, quando lindividuo in esame di classe C
i
. Queste densit devono
essere note, eventualmente ricavate dal training set nel seguente modo: si prendono i punti
1
1
, ..., 1
I
e si cerca di estrapolare da essi una densit di probabilit, )
A
(r[C
1
); e lo stesso di
fa per i punti 1
I+1
, ..., 1
a
, trovando una )
A
(r[C
2
).
Per Bayes (immaginiamo di usare un analogo della formula di Bayes nel caso di densit)
1 (C
1
[r) =
)
A
(r[C
1
) 1 (C
1
)
)
A
(r[C
1
) 1 (C
1
) +)
A
(r[C
2
) 1 (C
2
)
ed analogamente per 1 (C
2
[r). Bisogna conoscere o aver ssato a priori le due probabilit
1 (C
i
).
Quindi, il metodo di classicazione bayesiano funziona cos: se di un nuovo individuo
misuriamo r = (r
1
, ..., r
j
), gli associamo la classe C
i
che massimizza )
A
(r[C
1
) 1 (C
1
). Nel
caso di pi di due classi, il discorso identico.
Date le classi C
i
e le densit )
A
(r[C
i
), per ogni i resta denita la regione
i
data da tutti
i punti r = (r
1
, ..., r
j
) R
j
che portano alla classicazione C
i
. Nel caso di due classi,
1
= r R
j
: )
A
(r[C
1
) 1 (C
1
) )
A
(r[C
2
) 1 (C
2
)
2
= r R
j
: )
A
(r[C
2
) 1 (C
2
) )
A
(r[C
1
) 1 (C
1
) .
6.4.5 Il caso gaussiano e la Linear Discriminant Analysis
Se ad esempio si usano le gaussiane come modello per le densit congiunte )
A
(r[C
i
), cio
)
A
(r[C
i
) =
1
_
(2)
a
det Q
i
exp
_
1
2
(r j
i
)
T
Q
1
i
(r j
i
)
_
allora la disuguaglianza )
A
(r[C
1
) 1 (C
1
) )
A
(r[C
2
) 1 (C
2
) diventa, passando ai logaritmi,
(r j
2
)
T
Q
1
2
(r j
2
) (r j
1
)
T
Q
1
1
(r j
1
) log (det Q
1
) log (det Q
2
) .
Si trova una condizione della forma
r
T
_
Q
1
2
Q
1
1
_
r +...
con termini lineari e costanti, quindi, a seconda delle propriet della matrice Q
1
2
Q
1
1
, si
trovano regioni curvilinee di vario tipo. Questa la Quadratic Discriminant Analysis, su cui
non entriamo in dettaglio.
Se per si ipotizza che le due gaussiane abbiano la stessa covarianza Q (il legame tra i
predittori sia lo stesso per le due classi), e che dieriscano solo i valori medi dei predittori, i
termini quadratici si semplicano e troviamo
2r
T
Q
1
(j
1
j
2
) j
T
1
Q
1
j
1
j
T
2
Q
1
j
2
.
Si tratta di un semispazio. In altre parole, R
j
viene suddiviso dalliperpiano
r = c
= Q
1
(j
1
j
2
) , c =
1
2
_
j
T
1
Q
1
j
1
j
T
2
Q
1
j
2
_
.
La matrice Q ed i vettori j
i
si stimano dai dati:
1. prima si usano i punti 1
1
, ..., 1
I
per stimare j
1
(si prende come stimatore il punto medio
di 1
1
, ..., 1
I
) e si usano i punti 1
I+1
, ..., 1
a
per stimare j
2
;
2. poi si centrano i punti, cio si calcolano i punti 1
t
i
= 1
i
j
1
per i = 1, ..., / , 1
t
i
= 1
i
j
2
per i = / + 1, ..., j ;
3. inne si calcola la matrice di covarianza empirica usando tutti i punti 1
t
i
.
Limmagine delliperpiano serve solo idealmente per capire il risultato. Infatti, per eseguire
la classicazione di un nuovo individuo, rappresentato da una nuova stringa r = (r
1
, ..., r
j
),
basta:
1. calcolare = Q
1
(j
1
j
2
) e c =
1
2
_
j
T
1
Q
1
j
1
j
T
2
Q
1
j
2
_
(usando gli oggetti stimati)
2. assegnare il nuovo individuo alla classe C
1
se r c, mentre alla classe C
2
se r < c.
Naturalmente la prima delle due operazioni si pu svolgere una volta per tutte, essendo
la stessa per tutti i nuovi individui. Osserviamo che la situazione di mancata classicazione,
cio il caso r = c, in pratica non pu mai avvenire.
Quella appena descritta la Linear Discriminant Analysis. Per utilizzarla col software R
bisogna prima caricare il package MASS, col comando require(MASS), poi usare il comando
lda (si consiglia di leggerlo con ?lda).
6.4.6 Clustering
Le tecniche di classicazione appena descritte partono dallesistenza di classi prestabilite e si
pongono il problema di assegnare nuovi individui alle classi (classicare nuovi individui). Essi
per inglobano gi una sorta di clustering, nella fase di creazione delle classi. Ad esempio,
nella regressione logistica, gli individui di cui noto tutto (valore delle variabili che fungono
da predittori, e della variabile di classe, cio 0 o 1) vengono usati per determinare il modello (i
coecienti della parte lineare regressiva), che poi verr usato per classicare nuovi individui di
cui siano noti solo i valori dei predittori. Ma la creazione del modello in pratica la creazione
di due classi che separano il meglio possibile gli individui noti, quindi unoperazione di
clustering. C per una dierenza concettuale ripetto al clustering che stiamo per descrivere:
nel creare un modello di regressione logistica, quindi nel creare due classi, si usano individui
di cui noto il valore della classe (0 o 1). Invece, nei metodi che descriveremo ora, a priori
nulla distingue gli individui in classi. Si immagina per che essi possano essere membri di
classi dierenti; allora il metodo dovr identicare le classi e attribuire ad esse gli individui;
inne, il metodo dovrebbe fornire un giudizio sullappartenenza di un individuo ad una classe,
cio dovrebbe dare una dichiarazione di quanto sicura la sua classicazione, oppure vaga.
Si pensi ad un insieme \ di punti Q del piano (Q \), sparpagliati, ciascuno rapp-
resentante un individuo (descritto quindi da due variabili, due predittori). Ci saranno casi
in cui i punti sono un po separati in due gruppi, o pi di due gruppi, pur essendo vaga la
separazione. Si pensi alle case di due citt limitrofe in zone molto abitate: si va da una citt
allaltra quasi senza soluzione di continuit, per il grado di addensamento diverso nelle due
zone proprie delle citt rispetto alla parte intermedia, dove c ancora un po di campagna
qua e l. Abbiamo quindi questo insieme di punti. Ipotizziamo che esso sia suddividibile in
due classi (il caso con tre o pi classi simile, ma torneremo su questo punto). Vediamo
alcune idde generali per trovare una buona suddivisione.
Alcune idee dei paragra precedenti sarebbero perfettamente adatte: cercare una retta, o
una parabola (linear o quadratic discriminant analysis) che separa bene linsieme dei punti.
Sviluppiamo altre idee.
Immaginiamo che le due classi siano come due nuvole un po ellittiche, pur con vaghezza
(magari senza una vera soluzione di continuit tra le nuvole). Iniziamo col cercare i centri
delle nuvole. Avendo deciso che sono due, si cercano due centri, '
1
e '
2
(qui entra in gioco il
numero di classi deciso a priori: se avessimo deciso di dividere in tre classi, avremmo cercato
tre centri). Si inizi mettendo a caso due punti '
1
e '
2
nel piano, in assenza di suggerimenti
migliori (se invece c unidea migliore la si usi). Poi si trovino gli insiemi di Voronoi di
questi due punti, che chiamiamo \
1
e \
2
: \
i
linsieme dei punti del piano che distano da
'
i
meno che dallaltro centro. Sono due semipiani. Se partivamo da tre centri '
1
, '
2
, '
3
trovavamo una divisione in tre angoli, e cos via. Poi, chiamiamo \
1
e \
2
gli insiemi dei
punti originari che cadono in \
1
e \
2
rispettivamente: \
i
linsieme dei punti Q \ che
appartengono a \
i
, quindi che distano da '
i
meno che dallaltro centro. Questa gi una
suddivisione possibile, per relativa ad una scelta iniziale dei centri, fatta a caso o comunque
non ancora ottimizzata in alcun modo.
Diamo un punteggio alla suddivisione trovata: calcoliamo la somma delle distanze al
quadrato di tutti i punti di \
1
da '
1
d
2
1
=

QW
1
d
2
(Q, '
1
)
ed analogamente per \
2
: d
2
2
=

QW
2
d
2
(Q, '
2
). Questa suddivisione caratterizzata dal
numero d
2
1
+d
2
2
; se tale numero alto, la suddivisione viene considerata poco buona (i punti
di ciascun gruppo distano troppo dal loro centro). In generale, per / gruppi, il numero da
calcolare
I
i=1
QW
.
d
2
(Q, '
i
) .
Si vorrebbero trovare i punti '
i
che rendono minima questa espressione. Si possono inventare
vari algoritmi che cercano di trovare dei buoni centri '
i
. Lalgoritmo /-means lavora su centri
'
i
che vengono presi, ad ogni passo dellalgoritmo iterativo, pari alla media aritmetica dei
punti di \
i
(poi vengono ricalcolati i \
i
, poi i loro punti medi '
i
e cos via). Lalgoritmo /-
medoids utilizza invece come centri alcuni dei punti di \ stesso, aggiornando iterativamente
i medoidi (alla ricerca dei migliori) attravero scambi causali tra i medoidi e gli altri punti di
\. Gli algoritmi dieriscono poi, tra altre cose, per la distanza d (Q, '
i
) che viene utilizzata
(rimandiamo alla letteratura specializzata per questi ed altri dettagli).
Questi algoritmi hanno un difetto: raggruppano secondo la minima distanza dai centri,
quindi tendono a costruire dei raggruppamenti equilibrati, della stessa grandezza. Questa
simmetria pu essere poco adatta a certe applicazioni, in cui si capisce ad occhio che i punti
Q \ sono divisi in gruppi di ampiezza dierente, per esempio una grossa nuvola con una
piccola nuvola satellite. Gli algoritmi descritti no ad ora forzerebbero la suddivisione ad
essere abbastanza simmetrica, attribuendo una parte di punti della grossa nuvola alla parte
\
i
relativa al piccolo satellite. C allora una variante, detta algoritmo EM (Expectation-
Maximization) basata sulle misture di gaussiane e la massima verosimiglianza, che permette
di trovare partizioni diseguali, pi aderenti a certe dituazioni pratiche.
In genere il software, come input di un particolare metodo di clustering (/-means ecc.),
chiede i punti Q \ (una tabella di dati come quella di PCA) ed il numero di classi / in cui
vogliamo suddividerli. Come output fornisce le classi trovate, in genere elencando gli elementi
delle classi, e fornendo una ragurazione graca dei punti separati in gruppi, ragurazione
spesso legata a PCA. Infatti, se i punti Q \ stanno in uno spazio a dimensione maggiore di
2, il modo pi naturale innanzi tutto mostrare questi punti attraverso una visione che li dis-
tingua il pi possibile (e questo svolto da PCA), sovrapponendo poi ad essa la suddivisione
in gruppi. Esistono anche visualizzazioni tridimensionali a colori.
Oltre a questo, il software fornisce in output dei parametri numerici che servono a giudicare
la suddivisione ottenuta, il pi comune dei quali la silhoutte. Tramite questi numeri abbiamo
una quanticazione della bont o vaghezza dei cluster ottenuti che, oltre ad essere un metro
di giudizio di tipo assoluto, pu essere utilizzato in modo comparativo per decidere il numero
/. Esso era stato scelto a priori, ma con quale criterio? Ci saranno casi in cui, o per ragioni
di evidenza graca o per motivi applicativi, sapremo come decidere / a priori; altri in cui si
va per tentativi e si sceglie / a posteriori: quello che massimizza la silhouette.
6.5. ESERCIZI 359
Descriviamo la silhouette secondo una delle sue possibili denizioni. La silhouette di un
singolo individuo Q \, relativa alla partizione \
1
, ..., \
I
trovata con un qualsiasi metodo
tipo /-means ecc., data dallespressione
: (Q) =
/ (Q) a (Q)
max (a (Q) , / (Q))
.
Indicando con \ (Q) il cluster, tra i vari \
1
, ..., \
I
, che contiene il punto Q, il numero a (Q)
la distanza media quadratica di Q dagli altri punti del proprio cluster \ (Q):
a (Q) =

Q
0
W(Q)
d
_
Q, Q
t
_
2
.
Il numero / (Q) invece la distanza media quadratica di Q dai punti del cluster successivo,
cos denito: si calcolano i numeri
Q
0
W
.
d
_
Q, Q
t
_
2
per ogni \
i
,= \ (Q) e si prende il minimo; questo / (Q). Si verica che il numero : (Q)
soddisfa
1 _ : (Q) _ 1.
Pi : (Q) vicino a 1, pi si ritiene che la clusterizzazione di Q sia buona. Infatti, supponiamo
che : (Q) sia vicino a 1. Innanzi tutto questo implica che / (Q) a (Q) positivo, quindi
max (a (Q) , / (Q)) = / (Q) e vale
: (Q) =
/ (Q) a (Q)
/ (Q)
= 1
a (Q)
/ (Q)
.
Ora, se questo rapporto vale quasi 1, signica che a (Q) molto piccolo rispetto a / (Q), cio
che la distanza media di Q dai suoi compagni di gruppo decisamente minore di quella dai
membri del gruppo successivo. Questo sintomo di buona clusterizzazione di Q.
La silhouette di un singolo individuo Q serve a giudicare quali individui sono stati raggrup-
pati bene e quali no. Poi, mediando sugli individui di un gruppo \
i
si ottiene la silhouette
media di \
i
, che descrive quanto preciso o vago sia il gruppo \
i
. Inne, mediando sui gruppi
si ottiene una silhouette media complessiva della clusterizzazione \
1
, ..., \
I
, che pu essere
utilizzata per confrontare vari / tra loro (oltre che vari metodi anche di natura diversa).
Si suggerisce, col software R, luso del comando pam, che svolge la cluster analysis con
metodo dei medoidi.
6.5 Esercizi
6.5.1 Esercizio n. 1
Problema: cosa incide sul tasso di disoccupazione (TD)? Vorremmo creare una tabella
con alcune colonne A
1
, ..., A
a
(fattori che forse inuiscono sul TD) e la colonna 1 =TD,
e come righe (unit sperimentali) le diverse nazioni europee. Dalla sua analisi speriamo
di comprendere le cause di una maggiore o minore disoccupazione. Bisogna allora
prendere il TD ad un certo tempo, es. anno 2009.
Percorso: Eurostat, Statistics Database, Statistics A - Z, Unemployment, Database,
LFS series - Detailed annual survey results, Total unemployment - LFS series, Unem-
ployment rates by sex, age groups and nationality, select data, age: 25-64, citizen: total,
geo: all; sex: total, time 2009; poi update ecc. come negli esercizi sulle serie storiche,
scaricare e salvare su le Excel.
Cosa pu inuire sulla disoccupazione? La spesa in research and developement?
Percorso: Eurostat, Statistics Database, Statistics A - Z, Research and development,
Database, Research and development, Statistics on research and development, R&D
expenditure at national and regional level, Total intramural R&D expenditure (GERD)
by sectors of performance, time: geo: all, sector: Higher education sector , 2005, unit:
Percentage of GDP. Update ecc, scaricare e salvare su le Excel.
Che altro?
Percorso: Eurostat, High-tech industry and knowledge-intensive services (stessa pag-
ina di Research and development), High-tech industries and knowledge-intensive ser-
vices: economic statistics at national level, Venture capital investments, Economic sta-
tistics on high-tech industries and Knowledge Intensive Services at the national level
(htec_eco_sbs) , geo: all, indicator: Number of enterprises, nace: High-technology
sectors, time: 2005. Update ecc, scaricare e salvare su le Excel.
Creare su Excel una tabella con le nazioni di cui si hanno tutti i dati, eliminando
i riassunti europei, con i nomi delle nazioni nella prima colonna ed i nomi delle tre
variabili (abbreviate in TD, RD, I) nella prima riga. Accorgimenti: mettere un nome
ttizio anche in cima alle nazioni; usare nomi brevi per le nazioni e soprattutto senza
separatore.
Creare un le EsercizioMultiv1.RData (seguire in generale lo standard degli esercizi
sulle serie storiche), caricare la tabella col comando (per indicazioni vedere lappendice
agli esercizi sulle serie storiche; in breve, conviene salvare la tabella su le di testo
con lopzione limiti di tabulazione, salvare tale le nella cartella dellesercizio, da R
cambiare directory portandosi in tale cartella, poi eseguire il seguente comando):
U<-read.table(clipboard,dec=,,header=T,row.names=1)
Digitando U e invio, si vede la tabella su R. Riportiamo qui la tabella scomposta in due
6.5. ESERCIZI 361
parti, per motivi di spazio:
TD RD I
Belg 6.6 0.41 16943
Bulg 6.0 0.05 5274
Czec 5.9 0.23 33179
Denm 5.1 0.60 10202
Germ 7.3 0.41 81825
Esto 12.3 0.39 1396
Gree 8.4 0.28 11330
Spai 16.0 0.33 44985
Fran 7.5 0.40 77990
Ital 6.5 0.33 136767
Latv 15.3 0.23 1736
Lith 12.2 0.41 2184
TD RD I
Luxe 4.1 0.02 1231
Hung 8.8 0.24 34104
Neth 2.8 0.54 26300
Aust 4.0 0.61 15700
Pola 6.8 0.18 47776
Portu 9.0 0.29 17288
Roma 5.7 0.06 16214
Sloven 5.2 0.24 4232
Slovak 10.5 0.10 2071
Finl 6.5 0.66 6823
Swed 6.0 0.79 37834
UK 5.6 0.45 132887
Norw 2.2 0.47 12116
Calcoliamo la matrice di correlazione tra le tre variabili:
cor(U)
TD RD I
TD 1 -0.197 -0.109
RD -0.197 1 0.148
I -0.109 0.148 1
Risultato pessimo: sostanziale scorrelazione tra le tre variabili!
Ma c un errore banale, che potrebbe essere alla base di questo fallimento: la vari-
abile I non una percentuale, ma un totale. E vagamente proporzionale alla dimensione
della nazione. Va percentualizzato. Bisogna trovare la popolazione e dividere per essa
(moltiplicando per un fattore che riporti a numeri circa unitari).
Errore a parte, con
plot(U)
si ottiene il seguente disegno. I disegni relativi ad I sono ovviamente insensati. Il disegno
tra TD e RD invece corretto (corrisponde a dati utilizzati nel modo giusto) ma assai
deludente. Pensavamo che una maggiore spesa in R&D provocasse un minore TD. Un po
vero, il coeciente di correlazione vale circa -2 e dal graco si vede una lieve struttura a
retta decrescente. La molto vaga, il risultato non netto; giocano molti altri fattori, c
unenorme variabilit attorno alla retta di regressione, variabilit inspiegata.
Esercizio per il futuro: quali altri fattori concorrono?
Insoddisfatti per linsuccesso, cerchiamo di vedere I dati pi da vicino. Un modo (un po
esotico) il seguente, che anticipa un metodo che vedremo estensivamente.
Riprendiamo il foglio Excel, standardizziamo i dati, solo relativi a TD e RD. La stan-
dardizzazione su Excel facile e sicura: basta inserire due righe al fondo della tabella, nella
prima delle quali mettere le medie delle colonne, nella seconda le deviazioni standard, poi si
costruisce una seconda tabella delle dimensioni della prima, in cui si mettono i valori stan-
dardizzati, cio depurati della media e divisi per la deviazione standard (conviene fare la
verica mettendo anche qui le due righe in fondo con media e deviazione standard, che ora
devono essere 0 ed 1, numericamente parlando, per tutte le colonne).
Carichiamo la tabella come
US<-read.table(clipboard,dec=,,header=T,row.names=1)
Poi eseguiamo:
PCA<-princomp(US); biplot(PCA)
Il SW mette in orizzontale la linea principale lungo cui si sviluppano I dati. Fuori da essa
emergono gli outliers. Sono paesi particolari, a cui forse vanno applicati ragionamenti a
parte.
Esercizio: eliminare un po di outliers (a mano su Excel e ricaricare) e calcolare la matrice
di correlazione.
In attesa di idee sui fattori della disoccupazione, approfondiamo a livello tecnico serie tem-
porali e regressione insieme. Usiamo la regressione multipla per creare modelli di serie
temporali.
Percorso: Eurostat, Statistics Database, Statistics A Z, Transport, Database, Air
Transport, Air transport measurement passengers, Overview of the air passenger
transport by country and airports, Air passenger transport by reporting country, select
data: geo: Italy, schedule:total, time: all, ecc. Total; update, ecc., scaricare e salvare
su le Excel.
6.5. ESERCIZI 363
Sul le Excel, depurare di valori annuali o quadrimestrali. Tenere solo i dati dal 2000 al
2010 inclusi. Riempire lanno mancante 2001 con i valori 2000 proporzionati tramite il
valore annuale 2001, che disponibile (valore 2000 per totale 2001 diviso totale 2000).
A<-scan(clipboard,dec=,)
Salvare il le EsercizioMultiv2.RData.
A1 <- ts(A, frequency=12,start=c(2000,1)); ts.plot(A1)
Eseguire prime analisi:
acf(A1)
plot(stl(A1,6))
che confermano lelevata periodicit, del resto evidente, nonch una essione intorno al
2008. I residui sono piccolissimi (vedi barra).
Possiamo tranquillamente applicare HW, AR ottimizzato ecc. Applichiamo comunque a
priori lipotesi che il modello sia del tipo
A
a
= aA
a1
+/A
a12
+c
ed utilizziamo la regressione lineare, per far questo. Creiamo tre variabili X1, X12, Y
estraendo le nestre giuste:
L<-length(A1); Y<-A1[13:L]; X1<-A1[12:(L-1)]; X12<-A1[1:(L-12)]
Per curiosit e rassicurazione, si vedano
par(mfrow=c(2,1)); ts.plot(Y); ts.plot(X12)
Eseguiamo ora la regressione lineare multipla:
mod1 <- lm(Y ~X1+X12)
Vediamo i coecienti a, b, c:
summary(mod1)
Call:
lm(formula = Y ~X1 + X12)
Residuals:
Min 1Q Median 3Q Max
-1508798 -293779 32857 348593 957401
Coecients:
Estimate Std. Error t value Pr([t[)
(Intercept) 1.413e+05 1.820e+05 0.776 0.439
X1 2.417e-01 4.536e-02 5.328 4.88e-07 ***
X12 7.777e-01 4.755e-02 16.356 < 2e-16 ***
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 498100 on 117 degrees of freedom
Multiple R-squared: 0.9393, Adjusted R-squared: 0.9383
F-statistic: 905.3 on 2 and 117 DF, p-value: < 2.2e-16
Entrambi a e b sono molto signicativi. La sua varianza spiegata R^2 elevatissima,
quindi il modello molto buono.
Il suo utilizzo predittivo richiede un po di fatica. Indichiamo con P il vettore delle
previsioni dei due anni successivi, in realt (per motivi che si capiranno nel ciclo di for)
arricchito dei dati storici:
P<-1:(L+12); P[1:L]<-A1
Estraiamo i coecienti:
6.5. ESERCIZI 365
a<-mod1$coefficient[2]; b<-mod1$coefficient[3]; c<-mod1$coefficient[1]
(vericare che sono quelli giusti). Calcoliamo iterativamente le previsioni:
for (n in (L+1):(L+12)) { P[n] <- a*P[n-1] +b*P[n-12] + c }
P1 <- ts(P, frequency=12,start=c(2000,1))
par(mfrow=c(1,1)); ts.plot(A1, window(P1, start=c(2011,1)) , lty=c(3,1))
Esercizio: con lo stesso metodo, posizionarsi a dicembre 2007 (come fosse il presente) ed
eseguire la previsione dellanno successivo, confrontandola gracamente con i valori reali.
Esercizio: applicare HW ed AR ottimizzato (ed eventualmente stl) ed osservare i risul-
tati, traendo qualche conclusione.
Domanda: cosa pu far preferire il risultato ottenuto con il modello dellesercitazione
odierna?
Dal sito ISTAT, precisamente da http://sitis.istat.it/sitis/html/ (SITIS il Sistema Indicatori
Territoriali), preleviamo i dati regionali relativi ai seguenti indicatori (da Consulta i dati,
sotto le voci Sanit assistenza e previdenza, Condizioni economiche delle famiglie, Mercato
del lavoro:
PLIC = numero di posti letto in istituti di cura
SC = spese generali
SA.SC = spese per alimenti rispetto alle spese generali
TD = tasso di disoccupazione
TMI = tasso di mortalit infantile.
Tutti i dati sono gi percentualizzati rispetto al numero di abitanti. Li abbiamo inoltre
standardizzati, direttamente su Excel.
Esercizio. I dati riportati nel seguito sono stati prelevati negli anni scorsi. Rintracciare i
dati nuovi, pi recenti, e ripetere con essi le analisi.
PLIC SC SA.SC TD TMI
Piem 0.088 0.471 -0.707 -0.607 -0.395
Vaos -1.545 0.348 -0.642 -0.813 1.578
Lomb 0.202 1.397 -0.836 -0.790 -0.538
TrAA 0.677 0.435 -1.269 -0.966 -0.075
Vene 0.088 1.334 -1.210 -0.848 -0.497
FrVG 0.639 -0.005 -1.028 -0.804 -1.301
Ligu 1.190 -0.247 0.470 -0.429 -0.354
EmRo 0.658 1.177 -1.315 -0.863 -0.347
Tosc 0.126 1.092 -0.795 -0.644 -1.355
Umbr -1.431 0.675 -0.140 -0.524 -1.287
Marc 0.278 1.090 -0.265 -0.702 -0.0006
Lazi 2.329 0.546 -0.080 -0.113 -0.014
Abru 0.335 -0.373 0.402 -0.456 0.040
Moli 0.658 -1.289 0.065 0.451 -1.151
Camp -1.811 -1.314 2.031 1.664 0.414
Pugl -0.766 -0.926 1.038 0.648 1.109
Basi -0.747 -1.154 0.661 0.844 2.001
Cala -0.500 -1.727 1.571 2.153 0.632
Sici -0.918 -1.130 1.332 1.517 1.783
Sard 0.449 -0.403 0.717 1.285 -0.238
Questa tabella stata prima costruita su Excel copiando i dati da Istat (abbreviando i
nomi per comodit grache successive, evitando gli spazi tra pi parole di un nome), poi
stata standardizzata direttamente su Excel, come spiegato nellesercizio 1.
Domanda: evidenziare pregi e difetti della tabella standardizzata rispetto a quella
originaria.
Carichiamo i dati in R con la procedura riassunta nellesercizio 1: si mette il le di
testo indicatori_benessere.txt (salvato da Excel) nella cartella del presente esercizio, si esegue
cambia cartella dal menu le, posizionandosi nella cartella giusta, poi si usa
IB <- read.table(file=indicatori_benessere.txt)
Oppure si provi il comando
IB<-read.table(clipboard,dec=,,header=T,row.names=1)
Osservare la tabella su R (con IB invio). Fare
cor(IB)
PLIC 1 0.32 -0.41 -0.36 -0.44
SC 0.32 1 -0.84 -0.85 -0.48
SA.SC -0.41 -0.84 1 0.90 0.51
TD -0.36 -0.85 0.90 1 0.48
TMI -0.44 -0.48 0.51 0.48 1
plot(IB)
6.5. ESERCIZI 367
Le correlazioni sono abbastanza buone, se confrontate coi valori descritti nella prima
sezione di questo capitolo.
Ha senso fare una regressione tipo T1 = a + o.oC + /? E viceversa? Ragionare sul
signicato della regressione. Eseguiamo
PCA <- princomp(IB), poi biplot(PCA)
Questo disegno estremamente istruttuivo: si rivedano le numerose considerazioni de-
scritte nella sezione teorica su PCA.
plot(PCA)
summary(PCA)
Importance of components:
Comp.1 Comp.2 Comp.3 Comp.4 Comp.5
Standard deviation 1.778 0.910 0.711 0.401 0.297
Proportion of Variance 0.666 0.174 0.106 0.033 0.018
Cumulative Proportion 0.666 0.840 0.947 0.981 1
Questo esercizio ed il seguente sono dovuti agli studenti del corso 2010-11, come ricordato
anche nella prefazione. In questi esercizi si suggerisce o di reperire autonomamente dati simili
facendo opportune ricerche, oppure semplicemente di copiare queste tabelle su Excel.
Esaminiamo i seguenti dati relativi alle variabili TD = tasso di disoccupazione, RD =
Research & Developement,PE = Spesa nella pubblica istruzione (rispetto al PIL), HC =
Health Care.
TD RD PE HC
Belg 6,6 0,41 5,93 9,99
Bulg 6,0 0,05 4,51 7,09
Czec 5,9 0,23 4,26 6,96
Denm 5,1 0,6 8,30 9,60
Germ 7,3 0,41 4,53 10,54
Esto 12,3 0,39 4,88 5,08
Spai 16,0 0,33 4,23 8,36
Fran 7,5 0,4 5,65 11,03
Latv 15,3 0,23 5,06 6,76
Lith 12,2 0,41 4,90 6,23
TD RD PE HC
Luxe 4,1 0,02 3,78 7,62
Hung 8,8 0,24 5,47 8,09
Neth 2,8 0,54 5,48 9,72
Aust 4,0 0,61 5,48 10,26
Pola 6,8 0,18 5,47 6,20
Portu 9,0 0,29 5,39 9,63
Roma 5,7 0,06 3,48 5,10
Solven 5,2 0,24 5,67 8,23
Slovak 10,5 0,1 3,85 7,34
Finl 6,5 0,66 6,31 8,39
Swed 6,0 0,79 6,97 8,93
Norw 2,2 0,47 7,02 8,65
Dopo aver salvato questa tabella su un le di testo (anche con le virgole), la si copia, si
scrive
M<-read.table(clipboard,dec=,,header=T,row.names=1)
su R e si da invio. Controllare chiedendo M.
cor(M); plot(M)
TD RD PE HC
TD 1 -0.186 -0.336 -0.343
RD -0.186 1 0.741 0.531
PE -0.336 0.741 1 0.466
HC -0.343 0.531 0.466 1
6.5. ESERCIZI 369
Abbiamo sempre standardizzato i dati su Excel ma questo si pu fare anche su R:
Ms<-M; for (i in 1:4) { Ms[,i]<-( M[,i]-mean(M[,i]))/sd(M[,i]) }
PCA <- princomp(Ms); biplot(PCA)
Il risultato molto interessante. Un utile esercizio potrebbe essere quello di mettere
insieme questi indicatori con altri ancora trovati in altri momenti. Con
summary(PCA)
si legge:
Cumulative Proportion 0.587 0.803 0.942 1
Eseguire anche
plot(PCA)
Se interpretiamo lasse orizzontale come una variabile del tipo: spese per il bene pubbli-
co, possiamo chiederci la classica delle nazioni. Chiediamo:
PCA$loadings
Loadings:
Comp.1 Comp.2 Comp.3 Comp.4
TD 0.345 0.884 0.247 -0.194
RD -0.556 0.413 -0.147 0.706
PE -0.565 0.203 -0.454 -0.658
HC -0.502 0.844 -0.174
Queste sono le componenti di una base rispetto allaltra. Proviamo:
0.345^2+0.884^2+0.247^2+0.194^2
[1] 0.999126
0.345^2+0.556^2+0.565^2+0.502^2
[1] 0.99939
E cos via. Lampiezza (e segno) dei numeri danno indicazione del legame. Es: TD
rappresentato pi che altro da Comp.2; Comp.1 cattura soprattutto RD, PE, HC (in egual
misura), un po meno TD; e cos via. Tutte cose del resto chiare dal disegno. Non visibili nel
disegno sono i ruoli di Comp.3 e Comp. 4.
La classica data dalle proiezioni delle nazioni su Comp.1, cambiate di segno perch,
come si vede dai loadings e dal disegno, Comp.1 orientata nel verso opposto al signicato in-
tuitivo di ampia spesa. La proiezione di un vettore su uno normalizzato il prodotto scalare
dei due. Il vettore Comp.1 ha componenti (nella base canonica) 0.345, -0.556 ecc. mentre le
componenti delle nazioni (nella base canonica) sono i numeri della tabella (standardizzata).
Pertanto, ad esempio, i punteggi di Belg e Bulg sono:
-sum(Ms[1,]* PCA$loadings[,1])
[1] 1.093552
-sum(Ms[2,]* PCA$loadings[,1])
[1] -1.355473
Possiamo introdurre un vettore punteggio, P,
P <- 1:nrow(Ms)
e riempirlo con
for (i in 1:nrow(Ms)) { P[i] <- -sum(Ms[i,]* PCA$loadings[,1]) }
Digitando poi P si vede che cos si perdono i nomi delle nazioni. Un trucco per leggere i
punteggi a anco delle nazioni
P<-Ms; for (i in 1:nrow(Ms)) { P[i,1] <- -sum(Ms[i,]* PCA$loadings[,1]) };
P
ed ora nella prima colonna ci sono i punteggi, che qui ricopiamo cambiando a mano il
nome alla colonna:
punteggio
Belg 1.09
Bulg -1.35
Czec -1.03
Denm 2.78
Germ 0.51
Esto -1.45
Spai -1.30
Fran 1.15
Latv -1.57
Lith -1.04
punteggio
Luxe -1.46
Hung -0.35
Neth 1.49
Aust 1.73
Pola -0.88
Portu 0.18
Roma -2.39
Solven 0.13
Slovak -1.89
Finl 1.48
Swed 2.36
Norw 1.80
Con pazienza si possono ordinare in una classica.
Esaminiamo i seguenti dati. Premessa: per capire le leggi che possono regolare il mercato
del lavoro, conviene mettersi in un periodo neutro, 2002-07. Idea originale: esaminare gli
incrementi nel tempo piuttosto che i valori assoluti (anchessi sono stati esaminati). I dati
che seguono sono gli incrementi 2002-07 di 6 variabili, standardizzati, depurati di due degli
6.5. ESERCIZI 371
outliers (Slovacchia e Romania).
X.TD X.SP X.TAX X.BP X.PIL X.LC
Belg 0,70 -0,03 0,34 -0,71 -0,68 -0,62
Bulg -2,32 0,47 -1,54 0,52 0,77 0,12
Czec 0,30 -0,83 0,12 0,13 0,19 -0,12
Denm 0,38 -0,80 0,28 -0,79 -0,68 -0,55
Germ 0,56 -1,07 0,45 -0,93 -0,86 -0,76
Esto -0,75 -0,03 -0,22 2,03 1,38 1,13
Gree 0,35 0,90 1,22 0,03 -0,20 -0,34
Spai -0,14 0,54 0,61 -0,68 -0,40 -0,43
Fran 0,38 0,34 -0,49 -0,78 -0,75 -0,55
Ital -0,08 0,60 0,39 -0,63 -0,84 -0,66
Latv -1,24 0,47 0,06 1,84 1,73 1,98
Lith -1,83 0,47 -0,44 1,05 1,15 0,61
Ire 0,70 1,57 -0,33 0,31 -0,45 -0,32
Hung 1,08 0,03 -0,60 -0,04 -0,16 0,31
Neth 0,76 0,13 1,50 -0,79 -0,68 -0,58
Aust 0,41 -0,40 1,17 -0,64 -0,69 -0,70
Pola -1,91 -0,27 0,83 -0,68 -0,01 -0,17
Portu 1,69 0,94 1,00 -0,49 -0,76 -0,61
Sloven 0,41 -0,87 -0,66 -0,12 -0,25 -0,07
Finl 0,06 -0,13 -0,88 -0,66 -0,63 -0,54
Swed 0,70 -1,10 -1,32 -0,60 -0,64 -0,55
UK 0,53 1,40 1,72 -0,79 -0,78 -0,35
dove:
X.TD Tasso di disoccupazione 25-64 anni
X.SP Rapporto spesa pubblica/pil
X.TAX Percentuale di tasse sul lavoro sui bassi salari
X.BP Busta paga netta media annuale per un lavoratore single senza gli
X.PIL Pil pro-capite a parit di potere di acquisto
X.LC Aumento proporzionale del costo del lavoro
plot(D); cor(D)
X.TD 1 -0.040 0.295 -0.515 -0.719 -0.545
X.SP -0.040 1 0.276 0.190 0.079 0.124
X.TAX 0.295 0.276 1 -0.328 -0.3249 -0.264
X.BP -0.515 0.190 -0.328 1 0.938 0.917
X.PIL -0.719 0.079 -0.3249 0.938 1 0.936
X.LC -0.545 0.124 -0.264 0.917 0.936 1
PCA <- princomp(D); biplot(PCA)
(le tre frecce a sinistra sono BP, PIL, LC). plot(PCA):
PCA$loadings
Loadings:
Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6
X.TD 0.544 0.806 0.143 -0.183
X.SP 0.636 0.130 -0.752
X.TAX 0.272 0.735 -0.284 0.547
X.BP -0.495 0.166 0.423 0.141 -0.596 0.417
X.PIL -0.485 0.208 -0.837
X.LC -0.386 0.135 0.253 0.226 0.796 0.291
Molti loadings sono pari a zero. Non uno zero in senso stretto: recita lhelp:
?loadings
Small loadings are conventionally not printed (replaced by spaces), to draw the eye to the
pattern of the larger loadings.
In questo modo linterpretazione delle componenti pu risultare pi facile.
6.5. ESERCIZI 373
Pare che certe agenzie di rating usino (o abbiano utilizzato in passato) i seguenti indicatori,
tra altri, per assegnare le nazioni in questa o quella categoria:
1) PIL (Prodotto Interno Lordo valore complessivo dei beni e servizi prodotti)
2) debito pubblico (debito dello Stato nei confronti di chi ha sottoscritto obbligazioni
quali, in Italia, BOT e CCT destinate a coprire il fabbisogno nanziario) sullo stesso
3) decit del bilancio pubblico.
Pi di recente, pare vengano utilizzati anche parametri come la dierenza tra attivit e
passivit nanziarie e lentit dei debiti delle famiglie e delle imprese in relazione al PIL.
Si trovino i dati di alcuni di questi indicatori in rete, relativamente al periodo che si ritiene
pi opportuno, o usando dati incrementali, o medie o altro secondo la propria intuizione.
Si costruisca una tabella con le nazioni scelte come righe, gli indicatori scelti come prime
p colonne, e come colonna (p+1)-esima una colonna di 0 e 1 cos pensata.
Si possono eseguire vari esercizi. Si pu prendere come ultima colonna una classicazione
binaria proposta, relativamente ad un certo anno, da una agenzia di rating. Oppure si pu
scegliere la classicazione in nazioni che hanno gi subito bancarotta rispetto a quelle che non
lhanno subita. Oppure una classicazione ideale in cui ad esempio Grecia e Irlanda hanno 1,
in quanto sono le nazioni verso cui lEuropa sta gi eettuando operazioni massicce di aiuto
economico.
Si utilizzino poi i comandi della regressione logistica per assegnare una probabilit di
fallimento alle varie nazioni esaminate.
Esempio articiale di prova. Partiamo dalla solita tabella degli indicatori di benessere (per
lo scopo che abbiamo, la loro standardizzazione non era necessaria). Assegnamo punteggio 1
alle nazioni del Nord Italia: Piem, Vaos, Lomb, TrAA, Vene, FrVG, Ligu. EmRo.
Piem 0.088 0.471 -0.707 -0.607 -0.395
Vaos -1.545 0.348 -0.642 -0.813 1.578
Lomb 0.202 1.397 -0.836 -0.790 -0.538
TrAA 0.677 0.435 -1.269 -0.966 -0.075
Vene 0.088 1.334 -1.210 -0.848 -0.497
FrVG 0.639 -0.005 -1.028 -0.804 -1.301
Ligu 1.190 -0.247 0.470 -0.429 -0.354
EmRo 0.658 1.177 -1.315 -0.863 -0.347
Tosc 0.126 1.092 -0.795 -0.644 -1.355
Umbr -1.431 0.675 -0.140 -0.524 -1.287
Marc 0.278 1.090 -0.265 -0.702 -0.0006
Lazi 2.329 0.546 -0.080 -0.113 -0.014
Abru 0.335 -0.373 0.402 -0.456 0.040
Moli 0.658 -1.289 0.065 0.451 -1.151
Camp -1.811 -1.314 2.031 1.664 0.414
Pugl -0.766 -0.926 1.038 0.648 1.109
Basi -0.747 -1.154 0.661 0.844 2.001
Cala -0.500 -1.727 1.571 2.153 0.632
Sici -0.918 -1.130 1.332 1.517 1.783
Sard 0.449 -0.403 0.717 1.285 -0.238
Geo
1
1
1
1
1
1
1
1
0
0
0
0
0
0
0
0
0
0
0
0
Copiare la tabella su un le txt, salvarlo col nome IBplus nella cartella della lezione, da
R cambiare directory e caricarlo col comando
IB <- read.table(file=IBplus.txt,header=T)
Su R, scrivere
IB
per vericare.
Costruiamo i vettori con le singole variabili:
PLIC<-IB[,1]; SC<-IB[,2]; SA.SC<-IB[,3]; TD<-IB[,4]; TMI<-IB[,5]; Nord<-IB[,6]
Provare, a titolo di esempio, ad eseguire la regressione:
reg<- lm(TD ~PLIC+SC+SA.SC+TMI)
e poi chiedere informazioni con summary(reg). In sisntesi, lesito :
Estimate Pr([t[)
(Intercept) 1.065e- 1.00000
PLIC 6.308e-04 0.99576
SC -3.006e- 0.13320
SA.SC 6.481e-01 0.00496 **
TMI 8.899e-03 0.94400
Multiple R-squared: 0.8465, Adjusted R-squared: 0.8055
p-value: 5.793e-06
Si vede che, pur non essendoci un chiaro signicato causa/eetto, come metodo previsivo
pu funzionare (salvo il fatto che I dati erano riferiti allo stesso anno; andrebbe rifatto usando
6.5. ESERCIZI 375
anni diversi). Veniamo alla regressione logistica: si usano i Generalized Linear Models con
distribuzione in uscita binomiale
Nordism<-glm(Nord ~SC+SA.SC+TD,family=binomial)
predict(Nordism,type = response)
Nordism
Piem 0.88
Vaos 0.99
Lomb 0.67
TrAA 0.99
Vene 0.97
FrVG 0.99
Ligu 0.24
EmRo 0.99
Tosc 0.27
Umbr 0.040
Marc 0.24
Lazi 2.7 e-06
Abru 0.65
Moli 3.3 e-07
Camp 2.2 e-16
Pugl 1.0 e-11
Basi 1.1 e-12
Cala 2.2 e-16
Sici 2.2 e-16
Sard 2.2 e-16
Geo
1
1
1
1
1
1
1
1
0
0
0
0
0
0
0
0
0
0
0
0
Si tenga presente che non sono punteggi, non seguono una scala lineare, ma rappresentano
la probabilit di essere classicati Regione del Nord Italia. Come verica osserviamo PCA
svolta a suo tempo:
Esercizio: eseguire la regressione Nord~SC + SA.SC + TD e fare predict.

Elementi Di Probabilità, Statistica e Processi Stocastici (Dispense Flandoli)

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Elementi Di Probabilità, Statistica e Processi Stocastici (Dispense Flandoli)

Caricato da

Copyright:

Formati disponibili

Elementi di Probabilit, Statistica e Processi Stocastici

cio eventi che aermano che A

) (r) dr dal caso di funzioni ) facili (es. continue a tratti) su

). Queste due corrispondenze sono biunivoche. Quindi

dove 7 ~ (0, 1), e per questa vale

per tutti i valori t per cui tale valore atteso nito.

ed ora, per lindipendenza (di A ed 1 , che implica quella di c

e cos via, per cui

la funzione indicatrice di (che vale uno in e zero fuori). La funzione A

] sono ben deniti e sarebbe naturale denire 1 [A] =

], ma se entrambi fossero pari a + troveremmo una forma indeterminata.

con le usuali convenzioni tra somma di numeri niti ed inniti.

] < , nel qual caso

< . Osserviamo che, posto

< per ogni ` 0, denita

= 1 (e la matrice jacobiana di una trasformazione lineare la matrice

un intervallo di condenza di livello 1 c (a volte si dice livello c, ma questo provoca un

in media quadratica ed in probabilit.

= 1). Anzi, converge uniformemente in . e quindi denisce una

dove tale che 0 < < 1, e come sempre

1 se e solo se [c[ < 1. Cos si ritrova la condizione gi scoperta per la stazionariet.

anche per , _ , il caso non trattato

anche per , _ consiste nella sostituzione del modello ARMA soddisfatto da A

percentile, e cos via). Inoltre, 25

percentile vengono anche detti primo, secondo e terzo quartile.

parametro, 1C migliora decisamente, diventando quasi uguale a quello

ar.ols.12 <- ar.ols(IT4, order.max=12)

. Ad esempio, quando la banca a regime, introduciamo la probabilit di avere la banca

intendiamo la frequenza relativa di tempo in cui osserviamo lo stato

invece ha un ruolo pi assoluto; per questo diciamo che

. Esaminiamo come sempre lesempio

seguito dalla scelta casuale tra 1 e C, operata secondo la regola

= quantit dacqua piovana che cade

/ i parametri ottimali. Chiamiamo

/ si dice metodo dei minimi quadrati. Si possono

Potrebbero piacerti anche