Dispensa

Teoria della Probabilità
Andrea Pascucci1
13 dicembre 2021
1 Email: andrea.pascucci@unibo.it Dipartimento di Matematica, Università di Bologna, Piazza di Porta S. Donato 5,

40126 Bologna, Italy
2
Indice
1 Introduzione 9
Una rivoluzione della matematica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
La probabilità nel passato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
La probabilità nel presente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
Nota bibliografica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
Alcuni simboli e notazioni usati frequentemente . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
I Variabili aleatorie e distribuzioni 17

2 Misure e spazi di probabilità 19
2.1 Spazi misurabili e spazi di probabilità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.1.1 Spazi misurabili . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.1.2 Spazi di probabilità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.1.3 Algebre e σ -algebre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.1.4 Additività finita e σ -additività . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.2 Spazi finiti e problemi di conteggio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.2.1 Cardinalità di insiemi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.2.2 Tre esperimenti aleatori di riferimento: estrazioni da un’urna . . . . . . . . . . . . . . 31
2.2.3 Metodo delle scelte successive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.2.4 Disposizioni e combinazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.2.5 Probabilità binomiale e ipergeometrica. . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.2.6 Esempi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.3 Probabilità condizionata e indipendenza di eventi . . . . . . . . . . . . . . . . . . . . . . . . 44
2.3.1 Probabilità condizionata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.3.2 Indipendenza di eventi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.3.3 Prove ripetute e indipendenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
2.3.4 Esempi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
2.4 Distribuzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
2.4.1 σ -algebra generata e completamento di uno spazio di probabilità . . . . . . . . . . . . 57
2.4.2 σ -algebra di Borel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
2.4.3 Distribuzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
2.4.4 Distribuzioni discrete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
2.4.5 Distribuzioni assolutamente continue . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
2.4.6 Funzioni di ripartizione (CDF) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
2.4.7 Teorema di estensione di Carathéodory . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
2.4.8 Dalle CDF alle distribuzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
2.4.9 Funzioni di ripartizione su Rd . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
2.4.10 Sintesi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
3
4 INDICE
2.5 Appendice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
2.5.1 Dimostrazione della Proposizione 2.3.30 . . . . . . . . . . . . . . . . . . . . . . . . . . 75
2.5.3 Dimostrazione del Teorema 2.4.29 di Carathéodory . . . . . . . . . . . . . . . . . . . 78
2.5.4 Dimostrazione del Teorema 2.4.33 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
3 Variabili aleatorie 87
3.1 Variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
3.1.1 Variabili aleatorie e distribuzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
3.1.2 Esempi di variabili aleatorie discrete . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
3.1.3 Esempi di variabili aleatorie assolutamente continue . . . . . . . . . . . . . . . . . . . 98
3.1.4 Altri esempi di variabili aleatorie notevoli . . . . . . . . . . . . . . . . . . . . . . . . . 102
3.2 Valore atteso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
3.2.1 Integrale di variabili aleatorie semplici . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
3.2.2 Integrale di variabili aleatorie non-negative . . . . . . . . . . . . . . . . . . . . . . . . 107
3.2.3 Integrale di variabili aleatorie a valori in Rd . . . . . . . . . . . . . . . . . . . . . . . . 108
3.2.4 Integrazione con distribuzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
3.2.5 Valore atteso e Teorema del calcolo della media . . . . . . . . . . . . . . . . . . . . . . 113
3.2.6 Disuguaglianza di Jensen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
3.2.7 Spazi Lp e disuguaglianze notevoli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
3.2.8 Covarianza e correlazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
3.2.9 Regressione lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
3.2.10 Vettori aleatori: distribuzioni marginali e distribuzione congiunta . . . . . . . . . . . 124
3.3 Indipendenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
3.3.1 Dipendenza deterministica e indipendenza stocastica . . . . . . . . . . . . . . . . . . 127
3.3.2 Misura prodotto e Teorema di Fubini . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
3.3.3 Indipendenza fra σ -algebre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
3.3.4 Indipendenza fra vettori aleatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
3.3.5 Indipendenza e valore atteso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
3.4 Distribuzione e valore atteso condizionato ad un evento . . . . . . . . . . . . . . . . . . . . . 138
3.5 Funzione caratteristica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
3.5.1 Il teorema di inversione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
3.5.2 Distribuzione normale multidimensionale . . . . . . . . . . . . . . . . . . . . . . . . . 149
3.5.3 Sviluppo in serie della funzione caratteristica e momenti . . . . . . . . . . . . . . . . 153
3.6 Complementi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
3.6.1 Somma di variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
3.6.2 Esempi notevoli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
4 Successioni di variabili aleatorie 161

4.1 Convergenza per successioni di variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . . 161
4.1.1 Disuguaglianza di Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
4.1.2 Relazioni fra le diverse definizioni di convergenza . . . . . . . . . . . . . . . . . . . . 164
4.2 Legge dei grandi numeri . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
4.2.1 Cenni al metodo Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
4.2.2 Polinomi di Bernstein . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
4.3 Condizioni necessarie e sufficienti per la convergenza debole . . . . . . . . . . . . . . . . . . 172
4.3.1 Convergenza di funzioni di ripartizione . . . . . . . . . . . . . . . . . . . . . . . . . . 172
4.3.2 Compattezza nello spazio delle distribuzioni . . . . . . . . . . . . . . . . . . . . . . . 175
4.3.3 Convergenza di funzioni caratteristiche e Teorema di continuità di Lévy . . . . . . . . 176
4.3.4 Esempi notevoli di convergenza debole . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
4.4 Legge dei grandi numeri e Teorema centrale del limite . . . . . . . . . . . . . . . . . . . . . . 179
INDICE 5
5 Probabilità condizionata 185

5.1 Il caso discreto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
5.1.1 Esempi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
5.2 Attesa condizionata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192
5.2.1 Proprietà dell’attesa condizionata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
5.2.2 Funzione attesa condizionata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
5.2.3 Least Square Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
5.3 Probabilità condizionata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
5.3.1 Funzione distribuzione condizionata . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
5.3.2 Dalla legge congiunta alle marginali condizionate: il caso assolutamente continuo . . 208
5.4 Appendice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213
5.4.1 Dimostrazione del Teorema 5.3.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213
II Processi e calcolo stocastico - Work in progress! 217

6 Processi stocastici 219
6.1 Processi stocastici: legge e distribuzioni finito-dimensionali . . . . . . . . . . . . . . . . . . . 219
6.2 Processi misurabili . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222
6.3 Unicità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223
6.4 Esistenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225
6.5 Filtrazioni e martingale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227
6.6 Dimostrazione del Teorema di estensione di Kolmogorov . . . . . . . . . . . . . . . . . . . . 231
6.7 Riassunto delle notazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235
7 Processi di Markov 237

7.1 Legge di transizione e processi di Feller . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237
7.2 Proprietà di Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 240
7.3 Processi a incrementi indipendenti e martingale . . . . . . . . . . . . . . . . . . . . . . . . . . 243
7.4 Distribuzioni finito-dimensionali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244
7.5 Generatore infinitesimale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 248
8 Processo di Poisson 253

8.1 Definizione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253
8.2 Proprietà di Markov e di Feller . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 256
8.3 Proprietà di martingala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 258
8.4 Appendice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 260
9 Processi continui 263

9.1 Continuità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263
9.2 Spazio di Wiener e versione canonica di un processo continuo . . . . . . . . . . . . . . . . . . 264
9.3 Teorema di continuità di Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 266
10 Moto Browniano 271

10.1 Definizione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271
10.2 Proprietà di Markov e di Feller . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273
10.2.1 Distribuzioni finito-dimensionali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 275
10.3 Martingale Browniane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276
6 INDICE
11 Tempi d’arresto 279

11.1 Il caso discreto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279
11.1.1 Optional sampling, disuguaglianze massimali e lemma di upcrossing . . . . . . . . . 283
11.2 Il caso continuo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 286
11.2.1 Ipotesi usuali e tempi d’arresto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 286
11.2.2 Ampliamento di filtrazioni e processi di Markov . . . . . . . . . . . . . . . . . . . . . 288
11.2.3 Ampliamento di filtrazioni e processi di Lévy . . . . . . . . . . . . . . . . . . . . . . . 291
11.2.4 Risultati generali sui tempi d’arresto . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292
12 Proprietà di Markov forte 295

12.1 Proprietà di Feller e di Markov forte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295
12.1.1 Principio di riflessione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297
12.2 Il caso omogeneo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299
13 Martingale continue 303

13.1 Optional sampling e continuità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303
13.2 Martingale càdlàg . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 307
13.3 Martingale continue di quadrato sommabili: lo spazio M c,2 . . . . . . . . . . . . . . . . . . . 308
13.4 Martingale locali: lo spazio M c,loc . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 309
13.5 Martingale uniformemente in L2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 311
14 Teoria della variazione 315

14.1 Integrale di Riemann-Stieltjes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315
14.2 Integrale di Lebesgue-Stieltjes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 319
14.3 Semi-martingale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321
14.3.1 Il moto Browniano come semi-martingala . . . . . . . . . . . . . . . . . . . . . . . . . 322
14.3.2 Semi-martingale a variazione limitata . . . . . . . . . . . . . . . . . . . . . . . . . . . 323
14.4 Decomposizione di Doob e processo variazione quadratica . . . . . . . . . . . . . . . . . . . . 324
14.5 Moto Browniano multi-dimensionale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 326
14.6 Dimostrazione del Teorema di decomposizione di Doob . . . . . . . . . . . . . . . . . . . . . 328
15 Integrazione stocastica secondo Itô 333

15.1 Integrale rispetto al moto Browniano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333
15.1.1 Dimostrazione del Lemma 15.1.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 338
15.2 Integrale rispetto a martingale continue di quadrato sommabile . . . . . . . . . . . . . . . . 339
15.2.1 Integrale di processi indicatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 339
15.2.2 Integrale di processi semplici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 342
15.2.3 Integrale di processi in L2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343
15.2.4 Integrale di processi in L2loc . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 347
15.2.5 Integrale stocastico e integrale di Riemann-Stieltjes . . . . . . . . . . . . . . . . . . . 350
15.3 Integrale rispetto a semi-martingale continue . . . . . . . . . . . . . . . . . . . . . . . . . . . 351
15.3.1 Processi di Itô uno-dimensionali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353
16 Formula di Itô 355

16.1 Formula di Itô per semi-martingale continue . . . . . . . . . . . . . . . . . . . . . . . . . . . 355
16.1.1 Formula di Itô per il moto Browniano . . . . . . . . . . . . . . . . . . . . . . . . . . . 356
16.1.2 Formula di Itô per processi di Itô . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 358
16.2 Alcune conseguenze della formula di Itô . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 360
16.2.1 Disuguaglianze di Burkholder-Davis-Gundy . . . . . . . . . . . . . . . . . . . . . . . . 360
16.2.2 Processo variazione quadratica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363
16.3 Il caso multi-dimensionale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 364
16.3.1 Processi di Itô multi-dimensionali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 365
INDICE 7
16.3.2 Formula di Itô multi-dimensionale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 366

16.3.3 Caratterizzazione di Lévy del moto Browniano . . . . . . . . . . . . . . . . . . . . . . 369
16.4 Dimostrazione della formula di Itô . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 370
17 Equazioni differenziali stocastiche 375

17.1 Risolubilità forte e debole . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 376
17.2 Unicità forte e debole . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 378
18 Soluzioni forti 381

18.1 Unicità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 381
18.2 Esistenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 384
18.3 Proprietà di Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 388
18.4 Stime a priori di sommabilità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 389
18.5 Regolarità e dipendenza dal dato iniziale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 392
18.6 Equazioni stocastiche lineari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 393
19 Problema di Cauchy per equazioni paraboliche 397

19.1 Principio del massimo e unicità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 398
19.1.1 Problema di Cauchy-Dirichlet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 398
19.1.2 Problema di Cauchy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 400
19.2 Soluzione fondamentale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 403
19.2.1 Operatori backward e forward . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 405
19.2.2 Soluzioni non-negative del problema di Cauchy . . . . . . . . . . . . . . . . . . . . . . 405
19.3 Il metodo della parametrice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 405
19.3.1 Stime Gaussiane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 407
19.3.3 Stime del potenziale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 413
19.3.4 Dimostrazione del Teorema 19.2.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 417
20 Soluzioni deboli di SDE: il problema della martingala 423

20.1 Teorema di Girsanov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423
21 Relazione fra SDE e PDE 425

21.1 Equazione di Kolmogorov backward . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 425
21.2 Equazione di Kolmogorov forward . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 425
21.3 Integrale stocastico backward . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 426
21.4 SPDE di Krylov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 426
21.5 Teorema di Gyöngy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 426
22 Metodi numerici stocastici 427
23 Applicazioni 429
23.1 Valutazione di derivati finanziari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 429
23.2 Filtraggio stocastico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 429
A 431
A.1 Teoremi di Dynkin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 431
A.2 Assoluta continuità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433
A.2.1 Teorema di Radon-Nikodym . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433
A.2.2 Rappresentazione di aperti di R mediante intervalli . . . . . . . . . . . . . . . . . . . 436
A.2.3 Derivabilità di funzioni integrali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 437
A.2.4 Assoluta continuità di funzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 439
8 INDICE
A.3 Uniforme integrabilità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 442
B Temi d’esame risolti 445

Dicembre 2016 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 446
Gennaio 2017 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 450
Febbraio 2017 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 454
Giugno 2017 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 458
Luglio 2017 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 461
Settembre 2017 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 464
Dicembre 2017 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 467
Gennaio 2018 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 471
Febbraio 2018 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 475
Maggio 2018 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 479
Luglio 2018 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 483
Settembre 2018 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 488
Dicembre 2018 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 491
Gennaio 2019 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 496
Febbraio 2019 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 501
Maggio 2019 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 506
Giugno 2019 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 512
Settembre 2019 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 518
Dicembre 2019 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 522
Gennaio 2020 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 526
Febbraio 2020 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 530
Dicembre 2020 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 534
Gennaio 2021 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 538
Febbraio 2021 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 542
Maggio 2021 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 545
Luglio 2021 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 549
Settembre 2021 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 553
C Tavole riassuntive delle principali distribuzioni 559
Indice analitico 561
Riferimenti bibliografici 565

Capitolo 1
Introduzione
“For over two millennia, Aristotle’s logic has ruled over the thinking of western intellectuals. All precise theo-
ries, all scientific models, even models of the process of thinking itself, have in principle conformed to the straight-
jacket of logic. But from its shady beginnings devising gambling strategies and counting corpses in medieval
London, probability theory and statistical inference now emerge as better foundations for scientific models, espe-
cially those of the process of thinking and as essential ingredients of theoretical mathematics, even the foundations
of mathematics itself. We propose that this sea change in our perspective will affect virtually all of mathematics in
the next century.”
D. Mumford, The Dawning of the Age of Stochasticity [53]
“In conclusione, cosa ci hanno mostrato Tversky e Kahneman1 con la loro convincente serie di esperimenti?
Che l’essere umano, anche quello intelligente, colto e perfino con delle nozioni di statistica, non è un animale
probabilistico. La teoria della probabilità si è sviluppata molto tardi nella storia del pensiero scientifico, non è
insegnata nelle scuole, a volte non è capita molto bene neppure da coloro che dovrebbero applicarla.”
V. D’Urso, F. Giusberti, Esperimenti di psicologia [23]
Una rivoluzione della matematica

Nella matematica “classica” (quella che tuttora costituisce la maggior parte dei contenuti insegnati nel-
le scuole superiori e università) i concetti matematici rappresentano e descrivono quantità deterministiche:
quando si parla, per esempio, di una variabile reale o di un oggetto geometrico si pensa rispettivamente
a un numero che può essere ben determinato e a una figura che può essere definita analiticamente e rap-
presentata in modo esatto. Da sempre, la matematica è ritenuto il linguaggio e lo strumento più potente
con cui descrivere i fenomeni fisici e naturali in modo da interpretare e acquisire conoscenze su molte-
plici aspetti della realtà. Ma i modelli che la matematica può fornire sono sempre semplificazioni e non
forniscono quasi mai una descrizione completa del fenomeno che si vuole studiare.
Consideriamo il seguente esempio banale: se vado al supermercato e compro un 1Kg di farina, posso
essere soddisfatto dal fatto di sapere che il pacco pesa 1Kg perché c’è scritto sulla confezione; se non mi
fido, posso pesarlo con la mia bilancia e scoprire che magari non è esattamente 1Kg ma qualche grammo
in più o in meno; poi potrei anche chiedermi se la mia bilancia sia veramente affidabile e precisa fino al
grammo e quindi rassegnarmi al fatto che forse non saprò mai il vero peso del pacco di farina. In questo
caso ovviamente poco importa... Tuttavia l’esempio aiuta a capire che molti fenomeni (o forse tutta la
realtà) possono essere interpretati come la somma o combinazione di più fattori classificabili in fattori
1 Premio Nobel per l’economia nel 2002.
9
10 CAPITOLO 1. INTRODUZIONE
deterministici (nel senso di osservabili a livello macroscopico) e fattori stocastici (nel senso di casuali, aleatori,
non osservabili o non prevedibili).
Il termine “stocastico” deriva dal greco στόχος che significa bersaglio (del tiro a segno) o, in senso figu-
rato, congettura. A volte, come nell’esempio della farina, il fattore deterministico è prevalente nel senso che,
per vari motivi, non val la pena considerare altri fattori e si preferisce trascurarli oppure non si hanno gli
strumenti per includerli nella propria analisi: in questo modo forse semplicistico, per analogia, si potrebbe
descrivere l’approccio della fisica classica e di tutte le teorie formulate prima del XX secolo che puntano a
dare una descrizione a livello macroscopico e osservabile. D’altra parte, esistono molti fenomeni in cui il
fattore stocastico non solo non è trascurabile ma è addirittura dominante: un esempio eclatante è fornito
dalle principali teorie della fisica moderna, in particolare la meccanica quantistica. Rimanendo vicini alla
realtà quotidiana, ormai non esiste ambito applicativo della matematica in cui si possa trascurare il fatto-
re stocastico: dall’economia alla medicina, dall’ingegneria alla meteorologia, i modelli matematici devono
necessariamente includere l’incertezza; infatti il fenomeno in oggetto può essere intrinsecamente aleatorio
come il prezzo di un titolo azionario o il segnale in un sistema di riconoscimento vocale o guida automa-
tica, oppure può non essere osservabile con precisione o di difficile interpretazione come un segnale radio
disturbato, un’immagine tomografica o la posizione di una particella subatomica.
C’è anche un livello più generale in cui non si può ignorare il ruolo della probabilità nello sviluppo
della società odierna: si tratta di quella che è ormai ritenuta un’emergenza educativa, l’esigenza sempre
più pressante che si diffondano e rafforzino le conoscenze di tipo probabilistico. Una vera e propria opera
di alfabetizzazione in questo campo può evitare che banali misconcezioni, come per esempio quella dei
numeri “ritardatari” nel gioco del lotto, abbiano gli effetti devastanti a livello sociale ed economico che
oggi osserviamo: basti pensare che, in base ai dati ufficiali dei Monopoli di Stato, i soldi spesi dagli italiani
per giochi d’azzardo (e parliamo solo dei giochi legali) nel 2017 hanno superato il tetto dei 100 miliardi di
euro, il quadruplo rispetto al 2004.
Un segnale positivo è dato dall’evoluzione dell’insegnamento della probabilità nelle scuole superiori:
fino a pochi anni fa la probabilità era assente dai programmi scolastici ed ora sta velocemente incremen-
tando la propria presenza nei libri di testo e nelle prove d’esame, provocando anche un certo sconcerto
nel corpo docente a causa di un cosı̀ rapido aggiornamento dei contenuti. È bene sottolineare che la ma-
tematica stocastica (la probabilità) non vuole destituire la matematica classica ma ha in quest’ultima le
proprie fondamenta e la potenzia approfondendo i legami con le altre discipline scientifiche. Paradossal-
mente, il mondo della formazione superiore e universitaria sembra avere un’inerzia maggiore per cui tende
a rallentare il processo di passaggio dal pensiero deterministico a quello stocastico. In parte questo è com-
prensibile: la difesa dello status quo è ciò che normalmente avviene di fronte ad ogni profonda rivoluzione
scientifica e, a tutti gli effetti, stiamo parlando di una vera e propria rivoluzione, silenziosa e irreversibile, che
coinvolge tutti gli ambiti della matematica. A questo riguardo è illuminante la frase, posta all’inizio di que-
sta introduzione, del matematico anglo-statunitense David Mumford, medaglia Fields2 nel 1974 per i suoi
studi nel campo della geometria algebrica. Nell’articolo da cui è stata tratta la frase, Mumford conferma il
fatto che la teoria della probabilità si è sviluppata molto tardi nella storia del pensiero scientifico3 .
2 L’International Medal for Outstanding Discoveries in Mathematics, o più semplicemente medaglia Fields, è un premio riconosciu-
to a matematici che non abbiano superato l’età di 40 anni in occasione del Congresso internazionale dei matematici della International
Mathematical Union (IMU), che si tiene ogni quattro anni. È spesso considerata come il più alto riconoscimento che un matematico
possa ricevere: assieme al premio Abel è da molti definita il “Premio Nobel per la Matematica”, sebbene l’accostamento sia improprio
per varie ragioni, tra cui il limite di età insito nel conferimento della medaglia Fields (fonte Wikipedia).
3 The classical subdivisions of mathematics are geometry, algebra, and analysis. The perception of space (through senses and mu-
scular interaction) is the primitive element of our experience on which geometry is based. Analysis, I would argue, is the outgrowth of
the human experience of force and its children, acceleration and oscillation. Algebra seems to stem from the grammar of actions, i.e.,
the fact that we carry out actions in specific orders, concatenating one after the other, and making various ”higher order“ actions out
of simpler more basic ones. I believe there is a fourth branch of human experience which creates reproducible mental objects, hence
creates math: our experience of thought itself through our conscious observation of our mind at work. The division of mathematics
corresponding to this realm of experience is not logic but probability and statistics. (D. Mumford, [53])
11
La probabilità nel passato

Il termine probabilità deriva dal latino probabilitas che descrive la caratteristica di una persona (per
esempio, il testimone in un processo) di essere affidabile, credibile, onesto (probus). Questo differisce in
parte dal significato moderno di probabilità intesa come studio di metodi per quantificare e stimare gli
eventi casuali. Benché lo studio dei fenomeni in situazione d’incertezza abbia suscitato interesse in tutte le
epoche (a partire dai giochi d’azzardo), la teoria della probabilità come disciplina matematica ha origini
relativamente recenti. I primi studi di probabilità risalgono al XVI secolo: se ne occuparono, fra i primi,
Gerolamo Cardano (1501-1576) e Galileo Galilei (1564-1642).
Tradizionalmente la nascita del concetto moderno di probabilità viene attribuita a Blaise Pascal (1623-
1662) e Pierre de Fermat (1601-1665). In realtà il dibattito sulla natura stessa della probabilità è stato
molto lungo e articolato; esso ha interessato trasversalmente i campi della conoscenza dalla matematica
alla filosofia, e si è protratto fino ai giorni nostri producendo diverse interpretazioni e impostazioni. Per
maggiore chiarezza e precisione, è opportuno anzitutto distinguere la Teoria della Probabilità (che si occupa
della formalizzazione matematica dei concetti e dello sviluppo della teoria a partire da alcuni assunti) dalla
Statistica (che si occupa della determinazione o della stima della probabilità degli eventi aleatori, anche
utilizzando i risultati della Teoria della Probabilità). In questa breve premessa ci limitiamo a riassumere
in estrema sintesi alcune delle principali interpretazioni del concetto di probabilità: alcune di esse sono
maggiormente motivate dal calcolo e altre dalla teoria della probabilità. Partiamo dal considerare alcuni
eventi aleatori, posti in ordine crescente di complessità:
• E1 = “lanciando una moneta, si ottiene testa”;
• E2 = “il sig. Rossi non avrà incidenti in auto nei prossimi 12 mesi”;
• E3 = “entro 10 anni ci saranno auto a guida completamente autonoma”.
Esaminiamo tali eventi alla luce di alcune interpretazioni del concetto di probabilità:
• definizione classica: la probabilità di un evento è il rapporto tra il numero dei casi favorevoli e il
numero dei casi possibili. Per esempio, nel caso E1 la probabilità è pari a 12 = 50%. È la definizione
più antica di probabilità, attribuita a Pierre Simon Laplace (1749-1827). Questa definizione si limita
a considerare i fenomeni che ammettono un numero finito di casi possibili e nei quali i casi siano
equiprobabili: con questa interpretazione non è chiaro come studiare gli eventi E2 e E3 ;
• definizione frequentista (o statistica): si suppone che l’evento consista nel successo di un esperimento
riproducibile un numero indefinito di volte (per esempio, se l’esperimento è il lancio di una moneta,
l’evento potrebbe essere “ottenere testa”). Se Sn indica il numero di successi su n esperimenti, si
definisce (sarebbe meglio dire, si calcola) la probabilità come
Sn
lim .
n→∞ n
Alla base di questa definizione c’è la Legge empirica del caso (che, in termini teorici, corrisponde alla
Legge dei grandi numeri) per cui, per esempio, nel caso del lancio di una moneta si osserva empi-
ricamente che Snn approssima il valore 50% per n che tende all’infinito. La definizione frequentista
amplia notevolmente il campo di applicazione a tutti gli ambiti (fisica, economia, medicina etc) in cui
si posseggano dati statistici riguardanti eventi passati che si sono verificati in condizioni analoghe:
per esempio, si può calcolare la probabilità dell’evento E2 con una stima statistica in base a dati sto-
rici (come normalmente fanno le compagnie assicuratrici). L’approccio frequentista non permette di
studiare il terzo evento che non è l’esito di un “esperimento aleatorio riproducibile”;
• definizione soggettiva (o Bayesiana4 ): la probabilità è definita come una misura del grado di convin-
zione che un soggetto ha riguardo al verificarsi di un evento. In questo approccio, la probabilità non
4 Thomas Bayes (1701-1761).
è una proprietà intrinseca e oggettiva dei fenomeni casuali ma dipende dalla valutazione di un sog-
getto. Operativamente5 , la probabilità di un evento è definita come il prezzo che un individuo ritiene
equo pagare per ricevere 1 se l’evento si verifica e 0 se l’evento non si verifica: per esempio, la probabilità
di un evento è pari al 70% per un individuo che ritiene equo scommettere 70 per ricevere 100 nel
caso l’evento si verifichi e perdere tutto in caso contrario. La definizione è resa significativa assumen-
do un criterio di coerenza o razionalità dell’individuo che deve attribuire le probabilità in modo tale
che non sia possibile ottenere una vincita o una perdita certa (nel gergo finanziario odierno, si par-
lerebbe di assenza di possibilità di arbitraggio); occorre poi porre particolare attenzione per evitare
paradossi del tipo seguente: nell’esempio del lancio di una moneta, un individuo può essere disposto
a scommettere 1 euro per riceverne 2 in caso di “testa” e 0 in caso di “croce” (e quindi attribuendo
probabilità pari al 50% all’evento “testa”) ma lo stesso individuo potrebbe non essere disposto a gio-
care 1 milione di euro sulla stessa scommessa. L’approccio soggettivo è stato proposto e sviluppato da
Frank P. Ramsey (1903-1930), Bruno de Finetti (1906-1985) e successivamente da Leonard J. Savage
(1917-1971): esso generalizza i precedenti e permette di definire anche la probabilità di eventi come
E3 .
Il dibattito sulle possibili interpretazioni della probabilità si è protratto per lungo tempo ed è tuttora
aperto. Ma nella prima metà del secolo scorso c’è stato un punto di svolta decisivo, dovuto al lavoro del
matematico russo Andrej N. Kolmogorov (1903-1987). Egli per primo ha gettato le basi per la formaliz-
zazione matematica della probabilità, inserendola a pieno titolo nel novero delle discipline matematiche.
Kolmogorov ha messo in secondo piano i difficili problemi del fondamento logico e del dualismo fra la
visione oggettiva e soggettiva, concentrandosi sullo sviluppo della probabilità come teoria matematica. Il
contributo di Kolmogorov è fondamentale perché, aggirando i problemi epistemologici, ha sprigionato tut-
ta la potenza del ragionamento astratto e logico-deduttivo applicato allo studio della probabilità e ha cosı̀
agevolato il passaggio dal calcolo della probabilità alla teoria della probabilità. A partire dal lavoro di Kol-
mogorov e grazie al contributo di molti grandi matematici del secolo scorso, sono stati conseguiti risultati
profondi e aperti campi di ricerca ancora completamente inesplorati.
Ora è bene sottolineare che la formalizzazione matematica della probabilità richiede un considerevole
grado di astrazione. Pertanto, è assolutamente naturale che la teoria della probabilità risulti ostica, se
non incomprensibile, al primo impatto. Kolmogorov utilizza il linguaggio della teoria della misura: un
evento è identificato con un insieme E i cui elementi rappresentano singoli esiti possibili del fenomeno
aleatorio considerato; la probabilità P = P (E) è una misura, ossia una funzione d’insieme che gode di alcune
proprietà: per fissare le idee, si pensi alla misura di Lebesgue. L’utilizzo del linguaggio astratto della teoria
della misura è guardato da alcuni (anche da alcuni matematici) con sospetto perché sembra indebolire
l’intuizione. Tuttavia questo è il prezzo inevitabile che si deve pagare per poter sfruttare tutta la potenza
del ragionamento astratto e sintetico che è poi la vera forza dell’approccio matematico.
In queste libro presentiamo i primi rudimenti di teoria della probabilità secondo l’impostazione assio-
matica di Kolmogorov. Ci limiteremo a introdurre ed esaminare i concetti di spazio di probabilità, distribu-
zione e variabile aleatoria. Facendo un parallelo fra probabilità e analisi matematica, il contenuto di questo
testo corrisponde grossomodo all’introduzione dei numeri reali in un primo corso di analisi matematica:
ciò significa che faremo solo i primissimi passi nel vasto campo della Teoria della Probabilità.
La probabilità nel presente

Come affermato nella frase di David Mumford posta all’inizio dell’introduzione, al giorno d’oggi la
teoria della probabilità è considerata un ingrediente essenziale per lo sviluppo teorico della matematica e per
i fondamenti della matematica stessa. A titolo d’esempio, l’importante articolo di rassegna [52] racconta, con
dovizia di particolari, gli incredibili sviluppi della ricerca nella teoria processi stocastici dalla metà del
secolo scorso in poi.
5 Per quantificare, ossia tradurre in numero, il grado di convinzione di un soggetto su un evento, l’idea è di esaminare come il
soggetto agisce in una scommessa riguardante l’evento considerato.
13
Dal punto di vista applicativo, la teoria della probabilità è lo strumento utilizzato per modellizzare e
gestire il rischio in tutti gli ambiti in cui si studiano fenomeni in condizioni d’incertezza. Facciamo qualche
esempio:
• Fisica e Ingegneria dove si fa ampio uso dei metodi numerici stocastici di tipo Monte Carlo, forma-
lizzati fra i primi da Enrico Fermi e John von Neumann;
• Economia e Finanza, a partire dalla famosa formula di Black-Scholes-Merton per la quale gli autori
hanno ricevuto il premio Nobel. La modellistica finanziaria richiede generalmente un background
matematico-probabilistico-numerico avanzato: il contenuto di questo libro corrisponde grossomodo
all’Appendice A.1 di [58];
• Telecomunicazioni: la NASA utilizza il metodo di Kalman-Bucy per filtrare i segnali provenienti da

satelliti e sonde inviati nello spazio. Da [56], pag.2: “In 1960 Kalman and in 1961 Kalman and Bucy
proved what is now known as the Kalman-Bucy filter. Basically the filter gives a procedure for estimating
the state of a system which satisfies a “noisy” linear differential equation, based on a series of “noisy” obser-
vations. Almost immediately the discovery found applications in aerospace engineering (Ranger, Mariner,
Apollo etc.) and it now has a broad range of applications. Thus the Kalman-Bucy filter is an example of
a recent mathematical discovery which has already proved to be useful - it is not just “potentially” use-
ful. It is also a counterexample to the assertion that “applied mathematics is bad mathematics” and to the
assertion that “the only really useful mathematics is the elementary mathematics”. For the Kalman-Bucy
filter - as the whole subject of stochastic differential equations - involves advanced, interesting and first class
mathematics”.
• Medicina e Botanica: il più importante processo stocastico, il moto Browniano, prende il nome da
Robert Brown, un botanico che verso il 1830 osservò il movimento irregolare di particelle colloidali
in sospensione. Il moto Browniano è stato utilizzato da Louis Jean Baptist Bachelier nel 1900 nella
sua tesi di dottorato di ricerca per modellare i prezzi delle azioni ed è stato oggetto di uno dei più
famosi lavori di Albert Einstein pubblicato nel 1905. La prima definizione matematicamente rigorosa
di moto Browniano è stata data da Norbert Wiener nel 1923.
• Genetica: è la scienza che studia la trasmissione dei caratteri e i meccanismi con i quali questi vengo-
no ereditati. Gregor Johann Mendel (1822-1884), monaco agostiniano ceco considerato il precursore
della moderna genetica, diede un fondamentale contributo di tipo metodologico applicando per la
prima volta il calcolo delle probabilità allo studio dell’ereditarietà biologica.
• Informatica: i computer quantistici sfruttano le leggi della meccanica quantistica per l’elaborazione
dei dati. In un computer attuale l’unità di informazione è il bit: mentre possiamo sempre determinare
lo stato di un bit e stabilire con precisione se è 0 o 1, non possiamo determinare con altrettanta
precisione lo stato di un qubit, l’unità di informazione quantistica, ma solo le probabilità che assuma
i valori 0 e 1.
• Giurisprudenza: il verdetto emesso da un giudice di un tribunale si basa sulla probabilità di colpe-

volezza dell’imputato stimata a partire dalle informazioni fornite dalle indagini. In questo ambito
il concetto di probabilità condizionata gioca un ruolo fondamentale e un suo uso non corretto è alla
base di clamorosi errori giudiziari: per maggiori informazioni si veda, per esempio, [59].
• Meteorologia: per la previsione oltre il quinto giorno è fondamentale poter disporre di modelli me-
teorologici di tipo probabilistico; i modelli probabilistici girano generalmente nei principali centri
meteo internazionali perché necessitano di procedure statistico-matematiche molto complesse e one-
rose a livello computazionale. A partire dal 2020 il Data Center del Centro europeo per le previsioni
meteorologiche a medio termine (European Center Medium Weather Forecast, in sigla ECMWF) ha sede
a Bologna.
• Applicazioni militari: da [67] p.139: “In 1938, Kolmogorov had published a paper that established the
basic theorems for smoothing and predicting stationary stochastic processes. An interesting comment on
the secrecy of war efforts comes from Norbert Wiener (1894-1964) who, at the Massachusetts Institute of
Technology, worked on applications of these methods to military problems during and after the war. These
results were considered so important to America’s Cold War efforts that Wiener’s work was declared top
secret. But all of it, Wiener insisted, could have been deduced from Kolmogorov’s early paper.”
Infine la probabilità è alla base dello sviluppo delle più recenti tecnologie di Machine Learning e tutte le re-
lative applicazioni all’intelligenza artificiale, auto a guida autonoma, riconoscimento vocale e di immagini
etc (si veda, per esempio, [31] e [63]). Al giorno d’oggi, una conoscenza avanzata di Teoria della Probabi-
lità è il requisito minimo per chiunque voglia occuparsi di matematica applicata in uno degli ambiti sopra
menzionati.
Per concludere, penso si possa convenire sul fatto che se studiamo matematica è anzitutto perché ci piace
e non tanto perché ci garantirà un lavoro futuro. Certamente la matematica non ha bisogno di giustificarsi
con le applicazioni. Ma è anche vero che non viviamo sulla luna e un lavoro prima o poi dovremo trovarlo.
Allora è importante conoscere le applicazioni reali della matematica: esse sono numerose, richiedono cono-
scenze avanzate, assolutamente non banali tanto da poter soddisfare anche il gusto estetico di un cosiddetto
“matematico puro”. Infine, per chi volesse cimentarsi con la ricerca pura, la teoria della probabilità è cer-
tamente uno dei campi più affascinanti e meno esplorati, in cui il contributo delle migliori giovani menti è
fondamentale e fortemente auspicabile.
Nota bibliografica
Esistono molti eccellenti testi di introduzione alla Teoria della Probabilità: fra i miei preferiti, e che sono
stati la maggiore fonte di ispirazione e di idee, ci sono quelli di Bass [7], Durrett [22], Klenke [39] e Wil-
liams [76]. Di seguito elenco in ordine alfabetico altri importanti testi di riferimento: Baldi [2], Bass [5],
Bauer [9], Biagini e Campanino [11], Billingsley [12], Caravenna e Dai Pra [15], Feller [26], Jacod e Protter
[35], Kallenberg [37], Letta [49], Neveu [54], Pintacuda [61], Shiryaev [69], Sinai [70]. Questo libro può
essere considerato un ulteriore tentativo di raccogliere in maniera ordinata, sintetica e completa le nozioni
basilari di probabilità in modo da agevolare studi successivi più avanzati. Fra le numerose monografie di
introduzione alla ricerca nel campo della teoria dei processi stocastici e del calcolo differenziale stocastico,
mi limito a citare Baldi [3], Bass [6], Baudoin [8], Doob [19], Durrett [20], Friedman [28], Karatzas e Shreve
[38], Stroock [71].
15
Alcuni simboli e notazioni usati frequentemente

• A := B significa che A è, per definizione, uguale a B
U
• indica l’unione disgiunta
S
• An ↗ A indica che (An )n∈N è una successione crescente di insiemi tale che A = An
n∈N
T
• An ↘ A indica che (An )n∈N è una successione decrescente di insiemi tale che A = An
n∈N
• ♯A oppure |A| indica la cardinalità dell’insieme A. A ↔ B se |A| = |B|
• Bd = B(Rd ) è la σ -algebra di Borel in Rd ; B := B1
• mF (risp. mF + , bF ) la classe delle funzioni F -misurabili (risp. F -misurabili e non-negative, F -

misurabili e limitate)
• N famiglia degli insiemi trascurabili (cfr. Definizione 2.1.16)
• insiemi numerici:
– numeri naturali: N = {1, 2, 3, ...}, N0 = N ∪ {0}, In := {1, . . . , n} per n ∈ N

¯ = R ∪ {±∞}, reali positivi R>0 = ]0, +∞[, non-negativi R≥0 = [0, +∞[
– numeri reali R, reali estesi R
• Lebd indica la misura di Lebesgue d-dimensionale; Leb := Leb1
• funzione indicatrice di un insieme A


1 se x ∈ A


1A (x) := 
0
 altrimenti
• prodotto scalare Euclideo:
d
X
⟨x, y⟩ = x · y = xi y i , x = (x1 , . . . , xd ), y = (y1 , . . . , yd ) ∈ Rd
i=1
Nelle operazioni matriciali, il vettore d-dimensionale x viene identificato con la matrice colonna d ×1.
• massimo e minimo di numeri reali:
x ∧ y = min{x, y}, x ∨ y = max{x, y}
• parte positiva e negativa:

x+ = x ∨ 0, x− = (−x) ∨ 0
• argomento del massimo e del minimo di f : A −→ R:
arg max f (x) = {y ∈ A | f (y) ≥ f (x) per ogni x ∈ A}

x∈A
arg min f (x) = {y ∈ A | f (y) ≤ f (x) per ogni x ∈ A}
x∈A
Abbreviazioni
v.a. = variabile aleatoria
q.c. = quasi certamente. Una certa proprietà vale q.c. se esiste N ∈ N (insieme trascurabile) tale che la
proprietà è vera per ogni ω ∈ Ω \ N
q.o. = quasi ovunque (rispetto alla misura di Lebesgue)
Segnaliamo l’importanza dei risultati con i seguenti simboli:

[!] significa che bisogna porre molta attenzione e cercare di capire bene, perché si sta introducendo un
concetto importante, un’idea o una tecnica nuova
[!!] significa che il risultato è molto importante
[!!!] significa che il risultato è fondamentale
Parte I
Variabili aleatorie e distribuzioni
17
Capitolo 2
Misure e spazi di probabilità
The philosophy of the foundations of

probability must be divorced from
mathematics and statistics, exactly
as the discussion of our intuitive
space concept is now divorced from
geometry.
William Feller
Si parla genericamente di Probabilità in riferimento a fenomeni incerti, il cui esito non è noto con
sicurezza. Come sottolinea Costantini [17], non è semplice dare una definizione generale e negli ultimi
secoli molti studiosi hanno cercato risposte a domande del tipo:
1) cos’è la Probabilità?
2) come si calcola1 la Probabilità?
3) come “funziona”2 la Probabilità?
D’altra parte, solo in tempi relativamente recenti si è iniziato a comprendere la differente natura di tali
quesiti e il fatto che debbano essere indagati con metodi e strumenti specifici di discipline diverse e ben
distinte:
1) in Filosofia si indaga il concetto di Probabilità e il suo possibile significato, cercando di darne una
definizione e studiarne la natura da un punto di vista generale. L’approccio filosofico ha portato a
interpretazioni e definizioni anche molto differenti;
2) la Statistica è la disciplina che studia i metodi per la stima e la valutazione della Probabilità a partire
da osservazioni e dati disponibili sul fenomeno aleatorio considerato;
3) la Teoria della Probabilità è la disciplina puramente matematica che applica il ragionamento astratto
e logico-deduttivo per formalizzare la Probabilità e le sue regole, partendo da assiomi e definizioni
primitive (come lo sono, per analogia, i concetti di punto e di retta in Geometria).
1 Sono molti i casi in cui è importante calcolare o almeno stimare la probabilità di un evento incerto. Per esempio, un giocatore
d’azzardo è interessato a conoscere la probabilità di ottenere una certa mano al gioco del Poker; una compagnia di assicurazioni deve
stimare la probabilità che un proprio assicurato abbia uno o più incidenti nel corso di un anno; un’industria che produce auto vuole
stimare la probabilità che il prezzo dell’acciaio non superi un certo valore; una compagnia aerea può fare overbooking in base alla
probabilità che un certo numero di viaggiatori non si presenti all’imbarco.
2 In altri termini, è possibile formalizzare i principi e le regole generali della Probabilità in termini matematici rigorosi, in analogia
con quanto si fa per esempio nella geometria Euclidea?
19
20 CAPITOLO 2. MISURE E SPAZI DI PROBABILITÀ
Quando si affronta per la prima volta lo studio della Probabilità, confusione e fraintendimenti possono de-
rivare dal non distinguere adeguatamente i diversi approcci (filosofico, statistico e matematico). In questo
testo assumiamo esclusivamente il punto di vista matematico: il nostro scopo è fornire un’introduzione alla
Teoria della Probabilità.
2.1 Spazi misurabili e spazi di probabilità

La Teoria della Probabilità studia i fenomeni il cui esito è incerto: questi vengono detti fenomeni aleatori
(o esperimenti aleatori). Esempi banali di fenomeni aleatori sono il lancio di una moneta o l’estrazione di
una carta da un mazzo. Gli esiti di un fenomeno aleatorio non sono necessariamente tutti “equivalenti”
nel senso che, per qualche motivo, un esito può essere più “probabile” (plausibile, verosimile, atteso etc)
di un altro. Si noti che, poiché per definizione nessuno degli esiti possibili può essere scartato a priori,
la Teoria della Probabilità non si propone di prevedere l’esito di un fenomeno aleatorio (cosa impossibile!)
ma stimare, nel senso di misurare, il grado di attendibilità (la probabilità) dei singoli esiti possibili o della
combinazione di alcuni di essi. Questo è il motivo per cui gli strumenti matematici e il linguaggio su cui
si basa la moderna Teoria della Probabilità sono quelli della teoria della misura che è anche il punto di
partenza della nostra trattazione. La Sezione 2.1.1 è dedicata al richiamo delle prime definizioni e concetti
di teoria della misura; nella successiva Sezione 2.1.2 ne diamo l’interpretazione probabilistica.
2.1.1 Spazi misurabili

Definizione 2.1.1 (Spazio misurabile). Uno spazio misurabile è una coppia (Ω, F ) dove:
i) Ω è un insieme non vuoto;
ii) F è una σ -algebra su Ω, ossia F è una famiglia non vuota di sottoinsiemi di Ω che soddisfa le seguenti
proprietà:
ii-a) se A ∈ F allora Ac := Ω \ A ∈ F ;
ii-b) l’unione numerabile di elementi di F appartiene ad F .
La proprietà ii-a) si esprime dicendo che F è una famiglia chiusa rispetto al passaggio al complementare;
la proprietà ii-b) si esprime dicendo che F è una famiglia σ -∪-chiusa (chiusa rispetto all’unione numerabile).
Osservazione 2.1.2. Dalla proprietà ii-b) segue anche che se A, B ∈ F allora A ∪ B ∈ F , ossia F è ∪-chiusa
(chiusa rispetto all’unione finita). Infatti dati A, B ∈ F , si può costruire la successione C1 = A, Cn = B per
ogni n ≥ 2; allora
∞
[
A∪B = Cn ∈ F .
n=1
Una σ -algebra F è non vuota per definizione e quindi esiste A ∈ F e, per la ii-a), si ha Ac ∈ F : allora anche
Ω = A ∪ Ac ∈ F e, ancora per ii-a), ∅ ∈ F . Osserviamo che {∅, Ω} è la più piccola σ -algebra su Ω; viceversa,
l’insieme delle parti P(Ω) è la più grande σ -algebra su Ω.
Notiamo anche che l’intersezione finita o numerabile di elementi di una σ -algebra F appartiene a F :
infatti se (An ) è una famiglia finita o numerabile in F , combinando le proprietà ii-a) e ii-b), si ha che
\ [ c
An = Acn ∈ F.
n n
Di conseguenza, si dice che F è ∩-chiusa e σ -∩-chiusa.

2.1. SPAZI MISURABILI E SPAZI DI PROBABILITÀ 21
Definizione 2.1.3 (Misura). Una misura sullo spazio misurabile (Ω, F ) è una funzione
µ : F −→ [0, +∞]
tale che:
iii-a) µ(∅) = 0;
iii-b) µ è σ -additiva su F , ossia per ogni successione (An )n∈N di elementi disgiunti di F vale3
∞  ∞
]  X
µ  An  =
 µ (An ) .
n=1 n=1
Osservazione 2.1.4. Ogni misura µ è additiva nel senso che, per ogni famiglia finita A1 , . . . , An di insiemi
disgiunti in F , vale  n 
]  X n
µ  Ak  = µ (Ak ) .
k=1 k=1
Infatti, posto Ak = ∅ per k > n, si ha
 n  ∞ 
]  ] 
µ  Ak  = µ  Ak  =
k=1 k=1
(per la σ -additività)
∞
X
= µ (Ak ) =
k=1
(per il fatto che µ(∅) = 0)

n
X
= µ (Ak ) .
k=1
Definizione 2.1.5. Una misura µ su (Ω, F ) si dice finita se µ(Ω) < ∞ e si dice σ -finita se esiste una succes-
sione (An ) in F tale che [
Ω= An e µ(An ) < +∞, n ∈ N.
n∈N
Esempio 2.1.6. Il primo esempio di misura σ -finita che si incontra nei corsi di analisi matematica è la
misura di Lebesgue; essa è definita sullo spazio Euclideo d-dimensionale, Ω = Rd , munito della σ -algebra
degli insiemi misurabili secondo Lebesgue.
2.1.2 Spazi di probabilità

Definizione 2.1.7 (Spazio di probabilità). Uno spazio con misura (Ω, F , µ) in cui µ(Ω) = 1 è detto spazio
di probabilità: in questo caso, di solito utilizziamo la lettera P al posto di µ e diciamo che P è una misura di
probabilità (o semplicemente una probabilità).
In uno spazio di probabilità (Ω, F , P ), ogni elemento ω ∈ Ω è detto esito; ogni A ∈ F è chiamato evento
e il numero P (A) è detto probabilità di A. Inoltre diciamo che Ω è lo spazio campionario e F è la σ -algebra
degli eventi.
Nel caso in cui Ω sia finito o numerabile, assumiamo sempre F = P(Ω) e diciamo che (Ω, P(Ω), P ) (o,
più semplicemente, (Ω, P )) è uno spazio di probabilità discreto. Se invece Ω non è numerabile, parliamo di
spazio di probabilità continuo (o generale).
3 Ricordiamo che il simbolo U indica l’unione disgiunta. Osserviamo che U A ∈ F poiché F è una σ -algebra.
n
n∈N
Esempio 2.1.8. [!] Consideriamo il fenomeno aleatorio del lancio di un dado regolare a sei facce. Lo spazio
campionario
Ω = {1, 2, 3, 4, 5, 6}
rappresenta gli stati possibili (esiti) dell’esperimento aleatorio considerato. Intuitivamente, un evento è
un’affermazione relativa all’esito dell’esperimento, per esempio:
i) A = “il risultato del lancio è un numero dispari”;
ii) B = “il risultato del lancio è il numero 4”;
iii) C = “il risultato del lancio è maggiore di 7”.
Ad ogni affermazione corrisponde un sottoinsieme di Ω:
i) A = {1, 3, 5};
ii) B = {4};
iii) C = ∅.
Questo spiega perché matematicamente abbiamo definito un evento come un sottoinsieme di Ω. In parti-
colare, B è detto un evento elementare poiché è costituito da un singolo esito. È bene porre attenzione nel
distinguere l’esito 4 dall’evento elementare {4}.
Le operazioni logiche fra eventi hanno una traduzione in termini di operazioni insiemistiche, per esempio:
• “A oppure B” corrisponde a A ∪ B;
• “A e B” corrisponde a A ∩ B;
• “non A” corrisponde a Ac = Ω \ A;
• “A ma non B” corrisponde a A \ B.
Esempio 2.1.9. Un corridore ha la probabilità del 30% di vincere la gara dei 100 metri, la probabilità del
40% di vincere la gara dei 200 metri e la probabilità del 50% di vincere almeno una delle due gare. Qual è
la probabilità che vinca entrambe le gare?
Posto
i) A = “il corridore vince la gara dei 100 metri”,
ii) B = “il corridore vince la gara dei 200 metri”,
i dati del problema sono: P (A) = 30%, P (B) = 40% e P (A ∪ B) = 50%. Si chiede di determinare P (A ∩ B).
Usando le operazioni insiemistiche (al riguardo si veda anche il successivo Lemma 2.1.24) si prova che
P (A ∩ B) = P (A) + P (B) − P (A ∪ B) = 20%.
Osservazione 2.1.10. Lo spazio campionario Ω è, per definizione, un generico insieme non vuoto: è lecito
domandarsi che senso abbia assumere un tale grado di generalità. In effetti vedremo che nei problemi più
classici Ω sarà semplicemente un insieme finito oppure lo spazio Euclideo Rd . Tuttavia, nelle applicazioni
più interessanti può anche capitare che Ω sia uno spazio funzionale (come, per esempio, lo spazio delle
funzioni continue). Spesso Ω avrà anche una certa struttura, per esempio quella di spazio metrico, per avere
a disposizione alcuni strumenti utili allo sviluppo della teoria.
Esempio 2.1.11 (Probabilità uniforme discreta). Sia Ω finito. Per ogni A ⊆ Ω indichiamo con |A| la
cardinalità di A e poniamo
|A|
P (A) = . (2.1.1)
|Ω|
Allora P è una misura di probabilità, detta probabilità uniforme, e per definizione vale
1
P ({ω}) = , ω ∈ Ω,
|Ω|
ossia ogni esito è “equiprobabile”. La probabilità uniforme corrisponde al concetto classico di probabilità
secondo Laplace, come ricordato nella premessa. Per esempio, nel caso del lancio di un dado regolare a sei
facce, è naturale considerare la probabilità uniforme
1
P ({ω}) = , ω ∈ Ω := {1, 2, 3, 4, 5, 6}.
6
Osservazione 2.1.12. Uno spazio di probabilità in cui ogni evento elementare è equiprobabile e ha proba-
bilità positiva, è necessariamente finito. Di conseguenza, per esempio, non è possibile definire la probabilità
uniforme su N: infatti dovrebbe essere P ({n}) = 0 per ogni n ∈ N e di conseguenza, per la σ -additività, anche
P (N) = 0 che è assurdo.
Osservazione 2.1.13. [!] In uno spazio di probabilità discreto (Ω, P ), consideriamo la funzione
p : Ω −→ [0, 1], p(ω) = P ({ω}), ω ∈ Ω.
È chiaro che p è una funzione non-negativa che gode della proprietà
X X
p(ω) = P ({ω}) = P (Ω) = 1. (2.1.2)
ω∈Ω ω∈Ω
Si noti che le somme in (2.1.2) sono serie a termini non-negativi e pertanto il loro valore non dipende
dall’ordine degli addendi. La seconda uguaglianza in (2.1.2) è conseguenza della σ -additività di P .
Possiamo dire che esiste
P una relazione biunivoca fra p e P nel senso che, data una qualsiasi funzione
non-negativa p tale che p(ω) = 1, e posto
ω∈Ω
X
P (A) := p(ω), A ⊆ Ω,
ω∈A
si ha che P è una probabilità discreta su Ω.

In altri termini, una probabilità discreta è definita univocamente dalle probabilità dei singoli eventi elemen-
tari. Dal punto di vista operativo, è molto più semplice definire la probabilità dei singoli eventi elementari
(ossia p) che non definire esplicitamente P assegnando la probabilità di tutti gli eventi. Si pensi che, per
esempio, se Ω ha cardinalità 100 allora p è definita dai cento valori p(ω), con ω ∈ Ω, mentre P è definita su
P(Ω) che ha cardinalità 2100 ≈ 1030 .
Osservazione 2.1.14 (Probabilità nella scuola secondaria). [!] L’osservazione precedente ci suggerisce un
modo ragionevole e sintetico per introdurre il concetto di probabilità nella scuola secondaria: anzitutto,
in base ai programmi ministeriali, almeno fino al quart’anno di scuola secondaria superiore è sufficiente
considerare il caso di spazi campionari finiti (o, al massimo, numerabili)
Ω = {ω1 , . . . , ωN },
con N ∈ N, descrivendo i concetti di esito ed evento come nell’Esempio 2.1.8. Poi si può spiegare che intro-
durre una misura di probabilità P su Ω significa assegnare le probabilità dei singoli esiti: precisamente, si
fissano alcuni numeri p1 , . . . , pN tali che
p1 , . . . , pN ≥ 0 e p1 + · · · + pN = 1, (2.1.3)
dove pi indica la probabilità dell’i-esimo evento elementare, ossia
pi = P ({ωi }), i = 1, . . . , N .
Infine, per definizione, per ogni evento A si pone

X
P (A) = P ({ω}). (2.1.4)
ω∈A
Questa definizione di spazio di probabilità (Ω, P ) è equivalente alla definizione generale (Definizione 2.1.7,
ovviamente nel caso di Ω finito). La cosiddetta probabilità classica o uniforme è quella in cui gli esiti sono
equiprobabili, p1 = p2 = · · · = pN , per cui dalla (2.1.3) si deduce che il loro valore comune è N1 . Dunque
la probabilità classica è solo un caso molto particolare, anche se significativo, fra le infinite misure di
probabilità che si possono scegliere: in quel caso, chiaramente la (2.1.4) si riduce alla formula dei “casi
favorevoli su casi possibili”.
Esempio 2.1.15. Diamo una soluzione alternativa al problema dell’Esempio 2.1.9. Possiamo usare come
spazio campionario Ω = {vv, vp, pv, pp}, dove vv è l’esito in cui il corridore vince entrambe le gare, vp è
l’esito in cui il corridore vince la prima gara e perde la seconda, e cosı̀ via: quindi A = {vv, vp} e B = {vv, pv}.
Se p = p(ω) indica la probabilità dei singoli esiti, in base ai dati del problema otteniamo il sistema lineare



 p(vv) + p(vp) = 30%

p(vv) + p(pv) = 40%




p(vv) + p(vp) + p(pv) = 50%

da cui ricaviamo p(vv) = P (A ∩ B) = 20%, p(vp) = 10%, p(pv) = 20% e p(pp) = 1 − p(vv) − p(vp) − p(pv) = 50%.
Concludiamo la sezione con un paio di definizioni che useremo spesso in seguito.
Definizione 2.1.16 (Insiemi trascurabili e quasi certi). In uno spazio di probabilità (Ω, F , P ) diciamo che:
• un sottoinsieme N di Ω è trascurabile per P se N ⊆ A con A ∈ F tale che P (A) = 0;
• un sottoinsieme C di Ω è quasi certo per P se il suo complementare è trascurabile o, equivalentemente,

se esiste B ∈ F tale che B ⊆ C e P (B) = 1.
Indichiamo con N la famiglia degli insiemi trascurabili in (Ω, F , P ).
Gli insiemi trascurabili e quasi certi non sono necessariamente eventi e quindi in generale la probabilità
P (A) non è definita per A trascurabile o quasi certo.
Definizione 2.1.17 (Spazio completo). Uno spazio di probabilità (Ω, F , P ) è completo se N ⊆ F .
Osservazione 2.1.18. In uno spazio completo gli insiemi trascurabili (e di conseguenza anche i quasi certi)
per P sono eventi. Pertanto in uno spazio completo si ha che
• N è trascurabile se e solo se P (N ) = 0;
• C è quasi certo se e solo se P (C) = 1.
Chiaramente la proprietà di completezza dipende dalla misura di probabilità considerata. Vedremo in se-
guito che è sempre possibile “completare” uno spazio di probabilità (cfr. Osservazione 2.4.3) e spiegheremo
l’importanza della proprietà di completezza (si veda, per esempio, l’Osservazione 3.1.11).
2.1.3 Algebre e σ -algebre

Il suffisso “σ -” (per esempio, in σ -algebra o σ -additività) è usato per specificare che una definizione o
una proprietà è valida per quantità numerabili e non solo finite. In analogia con il concetto di σ -algebra,
diamo la seguente utile
Definizione 2.1.19 (Algebra). Un’algebra è una famiglia non vuota A di sottoinsiemi di Ω tale che:
i) A è chiusa rispetto al passaggio al complementare;
ii) A è ∪-chiusa (ossia chiusa rispetto all’unione finita).
Ogni σ -algebra è un’algebra. Se A, B ∈ A allora A ∩ B = (Ac ∪ Bc )c ∈ A e di conseguenza A è ∩-chiusa.
Esempio 2.1.20. [!] In R si consideri la famiglia A formata dalle unioni finite di intervalli (non necessaria-
mente limitati) del tipo
]a, b], −∞ ≤ a ≤ b ≤ +∞,
dove per convenzione
]a, a] = ∅, ]a, b] = {x ∈ R | x > a}
nel caso b = +∞.
Si i
Notiamo che A è un’algebra ma non una σ -algebra poiché, per esempio, 0, 1 − n1 = ]0, 1[ < A .
n≥1
Poiché ci sarà utile considerare misure definite su algebre, diamo la seguente estensione del concetto di
misura (cfr. Definizione 2.1.3).
Definizione 2.1.21 (Misura). Sia A una famiglia di sottoinsiemi di Ω tale che ∅ ∈ A . Una misura su A è
una funzione
µ : A −→ [0, +∞]
tale che:
i) µ(∅) = 0;
ii) µ è σ -additiva su A nel senso che per ogni successione (An )n∈N di elementi disgiunti di A , tale che
An ∈ A , vale
U
A :=
n∈N
∞
X
µ (A) = µ (An ) .
n=1
Proviamo alcune proprietà basilari delle misure (e quindi, in particolare, delle misure di probabilità).
Proposizione 2.1.22. Sia µ una misura su un’algebra A . Valgono le seguenti proprietà:
i) Monotonia: per ogni A, B ∈ A tali che A ⊆ B vale
µ(A) ≤ µ(B), (2.1.5)
e, se inoltre µ(A) < ∞, vale

µ(B \ A) = µ(B) − µ(A). (2.1.6)
In particolare, se P è una misura di probabilità si ha
P (Ac ) = 1 − P (A); (2.1.7)
ii) σ -subadditività: per ogni A ∈ A e (An )n∈N successione in A , vale

[ ∞
X
A⊆ An =⇒ µ(A) ≤ µ (An ) .
n∈N n=1
Dimostrazione. Proviamo la i): se A ⊆ B allora, per l’additività di µ ed essendo B \ A ∈ A , si ha
µ(B) = µ(A ⊎ (B \ A)) = µ(A) + µ(B \ A).
Dal fatto che µ(B \ A) ≥ 0 segue la (2.1.5) e, nel caso particolare in cui µ(A) < ∞, segue anche la (2.1.6).
Per provare la ii), poniamo
n
[
e1 := A1 ∩ A,
A en+1 := A ∩ An+1 \
A Ak .
k=1
Osserviamo che A en ⊆ An . Inoltre gli insiemi Aen appartengono all’algebra A poiché sono ottenuti con
operazioni finite da elementi di A e, per ipotesi, vale
]
en = A ∈ A .
A
n∈N
Allora, per monotonia si ha

 
 ] 
µ(A) = µ  en  =
A 
n∈N
(per σ -additività e poi ancora per monotonia)

∞
X ∞
X
= en ) ≤
µ(A µ (An ) .
n=1 n=1
Esempio 2.1.23. La (2.1.7) è utile per risolvere problemi del tipo seguente: calcoliamo la probabilità di
ottenere almeno un 6 lanciando 8 volte un dado. Definiamo Ω come l’insieme delle possibili sequenze di
lanci: allora |Ω| = 68 . Possiamo determinare la probabilità dell’evento che ci interessa (chiamiamolo A) più
facilmente considerando Ac , ossia l’insieme delle sequenze che non contengono 6: infatti si avrà |Ac | = 58 e
quindi per la (2.1.7)
58
P (A) = 1 − P (Ac ) = 1 − 8 .
6
Lemma 2.1.24. Sia A un’algebra. Una funzione
µ : A −→ [0, +∞]
tale che µ(∅) = 0, è additiva se e solo se vale
µ(A ∪ B) + µ(A ∩ B) = µ(A) + µ(B), A, B ∈ F . (2.1.8)
Dimostrazione. Se µ è additiva allora
µ(A ∪ B) + µ(A ∩ B) = µ(A) + µ(B \ A) + µ(A ∩ B) = µ(A) + µ(B).
Viceversa, dalla (2.1.8) con A, B disgiunti si ha l’additività di µ.
Osservazione 2.1.25. Nel caso di misure di probabilità, la (2.1.8) si riscrive utilmente nella forma
P (A ∪ B) = P (A) + P (B) − P (A ∩ B) (2.1.9)

Esempio 2.1.26. Lanciando due dadi, qual è la probabilità che almeno uno dei due lanci abbia un risultato
minore o uguale a 3?
Poniamo In = {k ∈ N | k ≤ n} e consideriamo lo spazio campionario Ω = I6 × I6 delle possibili coppie di
risultati dei lanci. Sia A = I3 × I6 (e rispettivamente B = I6 × I3 ) l’evento in cui il risultato del primo dado
(rispettivamente del secondo dado) sia minore o uguale a 3. Ci è chiesto di calcolare la probabilità di A ∪ B.
Notiamo che A, B non sono disgiunti e nella probabilità uniforme P , contando gli elementi, abbiamo
3·6 1 3·3 1
P (A) = P (B) = = , P (A ∩ B) = = .
6·6 2 6·6 4
Allora per la (2.1.9) otteniamo
3
P (A ∪ B) = P (A) + P (B) − P (A ∩ B) = .
4
Osservazione 2.1.27. La (2.1.8) si generalizza facilmente al caso di tre insiemi A1 , A2 , A3 ∈ F :
P (A1 ∪ A2 ∪ A3 ) = P (A1 ) + P (A2 ∪ A3 ) − P ((A1 ∩ A2 ) ∪ (A1 ∩ A3 ))

= P (A1 ) + P (A2 ) + P (A3 ) − P (A1 ∩ A2 ) − P (A1 ∩ A3 ) − P (A2 ∩ A3 )
+ P (A1 ∩ A2 ∩ A3 ).
In generale, si prova per induzione la seguente formula

 n  n
[  X X
P  Ak  = (−1)k−1 P (Ai1 ∩ · · · ∩ Aik )
k=1 k=1 {i1 ,...,ik }⊆{1,...,n}
dove l’ultima somma è intesa su tutti i sottoinsiemi di {1, . . . , n} con k elementi.
Esempio 2.1.28. Siano A, B eventi in (Ω, F , P ). Se P (A) = 1 allora P (A ∩ B) = P (B). Infatti per l’additività
finita di P si ha
P (B) = P (A ∩ B) + P (Ac ∩ B) = P (A ∩ B)
poiché, per la (2.1.5), P (Ac ∩ B) ≤ P (Ac ) = 0.
2.1.4 Additività finita e σ -additività

In uno spazio di probabilità generale, la σ -additività è una proprietà più forte dell’additività. Capiremo
fra poco, con la Proposizione 2.1.31, l’importanza di richiedere la σ -additività nella definizione di misura
di probabilità: questo è un punto abbastanza delicato come vediamo nel prossimo esempio.
Esempio 2.1.29 (Probabilità uniforme continua). Supponiamo di voler definire il concetto di probabilità
uniforme sull’intervallo reale Ω = [0, 1]. Dal punto di vista intuitivo, risulta naturale porre
P ([a, b]) = b − a, 0 ≤ a ≤ b ≤ 1. (2.1.10)
Allora ovviamente P (Ω) = 1 e la probabilità dell’evento [a, b] (che può essere interpretato come l’evento
“un punto scelto a caso in [0, 1] appartiene ad [a, b]”) dipende solo dalla lunghezza di [a, b] ed è invariante
per traslazione. Notiamo che P ({x}) = P ([x, x]) = 0 per ogni x ∈ [0, 1], ossia ogni esito ha probabilità nulla,
e P altro non è che la misura di Lebesgue. Giuseppe Vitali provò nel 1905 (cf. [75]) che non è possibile
estendere la misura di Lebesgue a tutto l’insieme delle parti P(Ω) o, in altri termini, non esiste P definita
sull’insieme delle parti di [0, 1], che sia σ -additiva e soddisfi la (2.1.10). Se questo è vero ne viene che, nel
caso di spazi di probabilità generali, diventa necessario introdurre una σ -algebra di eventi su cui definire P :
in generale, tale σ -algebra sarà più piccola dell’insieme delle parti di Ω.
Nel nostro contesto, il risultato di Vitali può essere enunciato nel modo seguente: non esiste una misura
di probabilità P su ([0, 1], P([0, 1])) che sia invariante per traslazioni, ossia tale che P (A) = P (Ax ) per ogni
A ⊆ [0, 1] e x ∈ [0, 1], dove
Ax = {y ∈ [0, 1] | y = a + x oppure y = a + x − 1 per un certo a ∈ A}.
La dimostrazione procede per assurdo ed è basata sull’assioma della scelta. Consideriamo su [0, 1] la rela-
zione di equivalenza x ∼ y se e solo se (x − y) ∈ Q: per l’assioma della scelta, da ogni classe di equivalenza
è possibile selezionare un rappresentante e fatto ciò, indichiamo con A l’insieme formato da tali rappre-
sentanti. Ora, per ipotesi, P (Aq ) = P (A) per ogni q ∈ Q ∩ [0, 1] e inoltre Aq ∩ Ap = ∅ per q , p in Q ∩ [0, 1].
Dunque otteniamo ]
[0, 1] = Aq
q∈Q∩[0,1]
e se P fosse σ -additiva, si avrebbe

X X
1 = P ([0, 1]) = P (Aq ) = P (A).
q∈Q∩[0,1] q∈Q∩[0,1]
Tuttavia l’ultima somma può solo assumere il valore 0 (nel caso in cui P (A) = 0) oppure divergere (nel caso
in cui P (A) > 0) e ciò porta ad un assurdo. Si noti che l’assurdo è conseguenza della richiesta di additività
numerabile (ossia σ -additività) di P .
Notazione 2.1.30. Nel seguito scriveremo
An ↗ A e Bn ↘ B
S
per indicare che (An )n∈N è una successione crescente di insiemi tale che A = An , e (Bn )n∈N è una
T n∈N
successione decrescente di insiemi tale che B = Bn .
n∈N
La σ -additività ha le seguenti importanti caratterizzazioni.
Proposizione 2.1.31. [!] Sia A un’algebra su Ω e
µ : A −→ [0, +∞]
una funzione additiva. Le seguenti proprietà sono equivalenti:
i) µ è σ -additiva;
ii) µ è σ -subadditiva4 ;
iii) µ è continua dal basso, ossia per ogni successione (An )n∈N in A tale che An ↗ A, con A ∈ A , vale
lim µ(An ) = µ (A) .

n→∞
Inoltre, se vale i) allora si ha anche

4 Per ogni A ∈ A e per ogni successione (A )
n n∈N di elementi di A tale che A ⊆
S
An , vale
n∈N
∞
X
µ(A) ≤ µ (An ) .
n=1
iv) µ è continua dall’alto, ossia per ogni successione (Bn )n∈N in A , tale che µ(B1 ) < ∞ e Bn ↘ B ∈ A , vale
lim µ(Bn ) = µ (B) .

n→∞
Infine, se µ(Ω) < ∞ allora i), ii), iii) e iv) sono equivalenti.
Dimostrazione. Preliminarmente osserviamo che µ è monotona: questo si prova come la Proposizione 2.1.22-
i).
[i) ⇒ ii)] È il contenuto della Proposizione 2.1.22-ii).
[ii) ⇒ iii)] Sia A ∋ An ↗ A ∈ A . Per monotonia si ha
lim µ(An ) ≤ µ(A).

n→∞
D’altra parte, poniamo

C1 = A1 , Cn+1 = An+1 \ An , n ∈ N.
Allora (Cn ) è una successione disgiunta in A e vale
]
µ(A) = µ Ck ≤
k≥1
(per la σ -subadditività di µ)
∞
X n
X
≤ µ(Ck ) = lim µ(Ck ) =
n→∞
k=1 k=1
(per l’additività finita di µ)
= lim µ(An ).
n→∞
[iii) ⇒ i)] Sia (An )n∈N una successione di elementi disgiunti di A , tale che A := An ∈ A . Posto
U
n∈N
n
[
Ān = Ak ,
k=1
si ha Ān ↗ A e Ān ∈ A per ogni n. Allora, per l’ipotesi di continuità dal basso di µ, si ha
µ(A) = lim µ(Ān ) =

n→∞

n
X ∞
X
= lim µ(Ak ) = µ(Ak ),
n→∞
k=1 k=1
osservando che il limite delle somme parziali esiste, finito o no, poiché µ ha valori non-negativi.
[iii) ⇒ iv)] Supponiamo valga la iii). Se Bn ↘ B allora An := B1 \ Bn è tale che An ↗ A := B1 \ B. Se µ(B1 ) < ∞,
per la proprietà (2.1.6) che vale sotto la sola ipotesi di additività, si ha5
µ (B) = µ (B1 \ A)
∞ ∞ ∞ ∞
5 Nel dettaglio: si ha B \ S A = B ∩ T Ac = T (B ∩ Ac ) = T B .
1 n 1 n 1 n n
n=1 n=1 n=1 n=1
= µ(B1 ) − µ(A) =
(per l’ipotesi di continuità dal basso di µ)
= µ(B1 ) − lim µ(An ) = lim (µ(B1 ) − µ(An )) = lim µ(Bn ).

n→∞ n→∞ n→∞
[iv) ⇒ iii)] Sotto l’ipotesi che µ(Ω) < ∞, il fatto che iv) implichi iii) si dimostra come nel punto prece-
dente ponendo Bn = Ω \ An e utilizzando il fatto che se (An )n∈N è crescente allora (Bn )n∈N è decrescente e
ovviamente µ(B1 ) < ∞.
2.2 Spazi finiti e problemi di conteggio

In questa sezione assumiamo che Ω sia finito e consideriamo alcuni problemi in cui si usa la probabilità
discreta uniforme dell’Esempio 2.1.11. Questi vengono detti problemi di conteggio perché, ricordando la
(2.1.1), il calcolo delle probabilità si riconduce alla determinazione della cardinalità degli eventi.
Il calcolo combinatorio è lo strumento matematico che permette di svolgere questi calcoli. Sebbene si
tratti di problemi che hanno una formulazione elementare (data in termini di monete, dadi, carte etc) spesso
il calcolo può risultare molto complicato e può intimorire al primo impatto. Su questo aspetto è importante
sdrammatizzare perché si tratta di una complicazione di tipo tecnico più che sostanziale, che non deve
creare un’ingiustificata preoccupazione. Inoltre la probabilità uniforme discreta è soltanto un caso molto
particolare il cui interesse è decisamente limitato e marginale rispetto alla teoria della probabilità nel suo
complesso. Per questi motivi, a meno che non ci sia un interesse specifico per l’argomento, questa sezione
può essere saltata o letta molto velocemente in prima istanza.
2.2.1 Cardinalità di insiemi

Cominciamo col ricordare alcune nozioni di base sulla cardinalità di insiemi finiti. Nel seguito usiamo
la seguente
Notazione 2.2.1.
In = {k ∈ N | k ≤ n} = {1, 2, . . . , n}, n ∈ N.
Si dice che un insieme A ha cardinalità n ∈ N, e si scrive |A| = n oppure ♯A = n, se esiste una funzione
biettiva da In ad A. Inoltre per definizione |A| = 0 se A = ∅. Scriviamo A ↔ B se |A| = |B|. In questa sezione
consideriamo solo insiemi con cardinalità finita.
Provare per esercizio le seguenti proprietà:
i) |A| = |B| se e solo se esiste una funzione biettiva da A a B;
ii) se A, B sono disgiunti allora

|A ⊎ B| = |A| + |B|
e più in generale tale proprietà si estende al caso di un’unione disgiunta finita;
iii) per ogni A, B vale

|A × B| = |A||B| (2.2.1)
La (2.2.1) si può provare usando la ii) ed il fatto che
]
A×B = {x} × B
x∈A
dove l’unione è disgiunta e |{x} × B| = |B| per ogni x ∈ A;

2.2. SPAZI FINITI E PROBLEMI DI CONTEGGIO 31
iii) indichiamo con AB l’insieme delle funzioni da B ad A. Allora si ha

AB = |A||B| (2.2.2)
poiché AB ↔ A × · · · × A.
| {z }
|B| volte
2.2.2 Tre esperimenti aleatori di riferimento: estrazioni da un’urna

Quando si utilizza il calcolo combinatorio per lo studio di un esperimento aleatorio, la scelta dello
spazio campionario è importante perché può semplificare il conteggio dei casi possibili e dei casi favore-
voli. La scelta più conveniente, da questo punto di vista, dipende in generale dal fenomeno aleatorio in
considerazione. Tuttavia, è spesso utile ripensare l’esperimento aleatorio (o, eventualmente, ciascun sotto-
esperimento aleatorio in cui può essere scomposto) come un’opportuna estrazione di palline da un’urna
(con remissione, senza reimmmissione, simultanea) che ora descriviamo.
Si consideri un’urna contenente n palline, etichettate con e1 , e2 , . . . , en . Si estraggono k palline dall’urna
in uno dei tre modi seguenti:
1) estrazione con reimmissione, con k ∈ N, in cui, per l’estrazione successiva, la pallina estratta viene
reinserita nell’urna;
2) estrazione senza reimmissione, con k ∈ {1, . . . , n}, in cui la pallina estratta non viene reinserita nell’urna;
3) estrazione simultanea, con k ∈ {1, . . . , n}, in cui le k palline vengono estratte simultaneamente.
Si noti che:
• nell’estrazione con reimmissione il numero totale di palline nell’urna e la sua composizione si man-
tengono costanti nelle successive estrazioni; dato che si estrae una pallina per volta, si tiene conto
dell’ordine di estrazione; inoltre è possibile che ci siano delle ripetizioni, ovvero è possibile estrarre più
volte la stessa pallina;
• nell’estrazione senza reimmissione ad ogni estrazione il numero totale di palline nell’urna si riduce di
un’unità e quindi ogni volta si modifica la composizione dell’urna stessa; anche in questo caso si tiene
conto dell’ordine di estrazione; invece le ripetizioni non sono più possibili (infatti una volta estratta,
la pallina non viene più reinserita nell’urna);
• l’estrazione simultanea corrisponde all’estrazione senza reimmissione in cui non si tiene conto dell’or-
dine di estrazione.
Possiamo dunque riassumere quanto detto finora nel seguente schema:
Ripetizione
Senza Con
ripetizione ripetizione
Ordine
Estrazione Estrazione
Si tiene conto dell’ordine senza con
reimmissione reimmissione
Estrazione
Non si tiene conto dell’ordine
simultanea
−
Tabella 2.1: Classificazione del tipo di estrazioni da un’urna

Torneremo in seguito sul quarto caso corrispondente alla casella vuota e, in particolare, sul perché non
sia stato considerato (si veda l’Osservazione 2.2.13). Per ognuno dei tre tipi di estrazione descritti sopra
vogliamo determinare uno spazio campionario Ω, con cardinalità più piccola possibile, che permetta di
descrivere tale esperimento aleatorio. Affronteremo tale questione nella Sezione 2.2.4 in cui vedremo che
Ω sarà dato rispettivamente da:
1) l’insieme DRn,k delle disposizioni con ripetizione di k elementi di {e1 , . . . , en }, nel caso dell’estrazione con
reimmissione;
2) l’insieme Dn,k delle disposizioni semplici di k elementi di {e1 , . . . , en }, nel caso dell’estrazione senza
reimmissione;
3) l’insieme Cn,k delle combinazioni di k elementi di {e1 , . . . , en }, nel caso dell’estrazione simultanea.
Prima di introdurre questi tre insiemi fondamentali, illustriamo un metodo generale che utilizzeremo per
determinare la cardinalità di DRn,k , Dn,k , Cn,k e di altri insiemi finiti.
2.2.3 Metodo delle scelte successive

In questa sezione illustriamo un algoritmo, noto come metodo delle scelte successive (o schema delle scelte
successive o anche principio fondamentale del calcolo combinatorio), che permette di determinare la cardinalità
di un insieme una volta caratterizzati univocamente i suoi elementi tramite un numero finito di scelte
successive.
Metodo delle scelte successive. Dato un insieme finito A di cui si vuole determinare la cardinalità |A|, si
procede come segue:
1) al primo passo, si considera una partizione di A in n1 ∈ N sottoinsiemi A1 , . . . , An1 , tutti aventi la stessa
cardinalità; tale partizione è ottenuta facendo una “scelta”, ovvero distinguendo gli elementi di A in base
ad una proprietà che essi possiedono;
2) al secondo passo, per ogni i = 1, . . . , n1 , si procede come al punto 1) con l’insieme Ai al posto di A, conside-
rando una partizione Ai,1 , . . . , Ai,n2 di Ai in n2 sottoinsiemi tutti aventi la stessa cardinalità, con n2 ∈ N
che non dipende da i;
3) si procede in questo modo fino a quando, dopo un numero finito k ∈ N di passi, gli elementi della partizione
hanno cardinalità è pari a 1.
La cardinalità di A è allora data da
|A| = n1 n2 · · · nk .
Per esempio, applichiamo il metodo delle scelte successive per dimostrare la validità della formula

AB = |A||B| .
Sia n = |A| la cardinalità di A e indichiamo con a1 , . . . , an i suoi elementi. Analogamente, sia k = |B| la
cardinalità di B e indichiamo con b1 , . . . , bk i suoi elementi. Dato che AB è l’insieme delle funzioni da B ad
A, possiamo caratterizzare univocamente ogni funzione in AB tramite le seguenti k = |B| scelte successive:
1) come prima scelta fissiamo il valore che le funzioni di AB assumono in corrispondenza di b1 ; abbia-
mo n = |A| possibilità (quindi n1 = n), ossia questa prima scelta determina una partizione di A in n
sottoinsiemi (non serve scrivere quali sono questi sottoinsiemi, ma solo quanto vale n1 );
2) come seconda scelta fissiamo il valore che le funzioni di AB assumono in corrispondenza di b2 ;
abbiamo n = |A| possibilità (quindi n2 = n);
3) · · ·
4) come k-esima e ultima scelta (con k = |B|) fissiamo il valore che le funzioni di AB assumono in
corrispondenza di bk ; abbiamo n = |A| possibilità (quindi nk = n).
Dal metodo delle scelte successive si deduce che

AB = |A| · · · |A| = |A||B| .
| {z }
k = |B| volte
Nel seguito, quando applicheremo il metodo delle scelte successive, procederemo come nei punti 1)-4),
limitandoci a dire quale scelta viene effettuata ad ogni passo e quante possibilità (o modi) ci sono per
fare questa scelta; mentre non faremo riferimento alla partizione che ogni scelta determina, dato che è in
generale chiaro quale essa sia.
2.2.4 Disposizioni e combinazioni

In questa sezione consideriamo un insieme con n ∈ N elementi
E = {e1 , e2 , . . . , en }
che rappresenta un’urna, contenente n palline numerate, con la quale si effettuano gli esperimenti aleatori
di estrazione.
Definizione 2.2.2 (Disposizioni con ripetizione). Dato k ∈ N, diciamo che
DRn,k := E × · · · × E = {(ω1 , . . . , ωk ) | ω1 , . . . , ωk ∈ E}
| {z }
k volte

è l’insieme delle disposizioni con ripetizione di k elementi di E. Per la (2.2.2) vale DRn,k = nk .
L’insieme DRn,k è lo spazio campionario naturale per descrivere l’esito di k estrazioni con reimmissione
da un’urna che contiene n palline: ogni elemento (ω1 , . . . , ωk ) indica la sequenza delle palline estratte. Più
in generale, DRn,k esprime i modi in cui possiamo scegliere, in maniera ordinata e ripetuta, k oggetti presi
da un insieme di n oggetti.
Esempio 2.2.3. Sia E = {a, b, c}. Allora |DR3,2 | = 32 e precisamente
DR3,2 = {(a, a), (a, b), (a, c), (b, a), (b, b), (b, c), (c, a), (c, b), (c, c)}.
Esempio 2.2.4. Determiniamo i “casi possibili” dei seguenti esperimenti aleatori (le soluzioni sono a fondo
pagina6 ):
i) si sceglie a caso una parola (anche senza senso) composta da 8 lettere dell’alfabeto italiano (che ha 21
lettere);
ii) si gioca una schedina al totocalcio, in cui per ognuna delle 13 partite si può scegliere tra 1, 2 o X;
iii) si lancia 10 volte un dado (non truccato) a sei facce.
Definizione 2.2.5 (Disposizioni semplici). Dato k ≤ n, diciamo che
Dn,k = {(ω1 , . . . , ωk ) | ω1 , . . . , ωk ∈ E, distinti}
è l’insieme delle disposizioni semplici di k elementi di E. Vale

n!
Dn,k = n(n − 1) · · · (n − k + 1) = . (2.2.3)
(n − k)!

6 Soluzioni relative all’Esempio 2.2.4: i) DR 8 13 10
21,8 = 21 ; ii) DR3,13 = 3 ; iii) DR6,10 = 6 .
L’insieme Dn,k è lo spazio campionario naturale per descrivere l’esito di k estrazioni senza reimmissione
da un’urna che contiene n palline: ogni elemento (ω1 , . . . , ωk ) indica la sequenza delle palline estratte. Più
in generale, Dn,k esprime i modi in cui possiamo disporre, in maniera ordinata e non ripetuta, un numero
k di oggetti scelti da un insieme di n oggetti.
La formula (2.2.3) si può dimostrare tramite il metodo delle scelte successive, caratterizzando il generico
elemento (ω1 , . . . , ωk ) di Dn,k come segue:
1) come prima scelta fissiamo ω1 : abbiamo n = |E| possibilità e quindi n1 = n;
2) come seconda scelta fissiamo ω2 , diverso da ω1 : abbiamo n − 1 possibilità e quindi n2 = n − 1;
3) · · ·
4) come k-esima e ultima scelta fissiamo ωk : abbiamo n − k + 1 possibilità, dato che abbiamo già scelto
ω1 , . . . , ωk−1 e quindi nk = n − k + 1.
Dal metodo delle scelte successive si deduce dunque la validità di (2.2.3).

3!
Esempio 2.2.6. Sia E = {a, b, c}. Allora |D3,2 | = 1! = 6 e precisamente
D3,2 = {(a, b), (a, c), (b, a), (b, c), (c, a), (c, b)}.
Esempio 2.2.7. Qual è la probabilità di fare una cinquina secca (per cui conta l’ordine di estrazione) al gioco
del lotto (in cui si estraggono senza reimmissione cinque numeri dai primi novanta naturali), supponendo
di giocare un’unica cinquina (ad esempio la sequenza ordinata 13, 5, 45, 21, 34)? Quanto vale invece la
probabilità di fare una cinquina semplice (per cui non conta l’ordine di estrazione)?
Soluzione. La probabilità di fare una cinquina secca è semplicemente D 1 ≈ 1.89 · 10−10 .
| 90,5 |
Se invece si considera una cinquina semplice, dobbiamo innanzitutto contare in quanti modi differenti si possono ordinare 5
|D |
numeri, pari a D5,5 = 5!. Allora la probabilità di una cinquina semplice dopo 5 estrazioni è D 5,5 ≈ 2.27 · 10−8 .
| 90,5 |
Definizione 2.2.8 (Permutazioni). Indichiamo con Pn := Dn,n l’insieme delle permutazioni di n oggetti.
Vale
|Pn | = n!
L’insieme Pn esprime i modi in cui possiamo riordinare, ossia disporre in maniera ordinata e non
ripetuta, un numero n di oggetti.
Definizione 2.2.9 (Combinazioni). Dato k ≤ n, indichiamo con Cn,k l’insieme delle combinazioni di k
elementi di E, definito come la famiglia dei sottoinsiemi di E di cardinalità k:
Cn,k = {A ⊆ F | |A| = k} .
L’insieme Cn,k è lo spazio campionario naturale per descrivere l’esito dell’estrazione simultanea di k
palline da un’urna che ne contiene n: ogni elemento {ω1 , . . . , ωk } indica un gruppo di k palline estratte.
Più in generale, Cn,k esprime tutti i gruppi di k oggetti scelti da un insieme di n oggetti, in maniera non
ordinata e non ripetuta.
Esempio 2.2.10. Sia E = {a, b, c}. Allora |C3,2 | = 3 e precisamente
C3,2 = {{a, b}, {a, c}, {b, c}}.
Proposizione 2.2.11. Si ha !
|Dn,k | n! n
Cn,k = = = . (2.2.4)
|Pk | k!(n − k)! k
Dimostrazione. A differenza del calcolo di |DRn,k | e |Dn,k |, non è possibile scomporre il calcolo di |Cn,k | in una
sequenza di scelte successive. Tuttavia, dimostrare la (2.2.4) equivale a dimostrare la seguente uguaglianza:
|Dn,k | = |Cn,k | |Pk |. (2.2.5)
Dimostriamo la (2.2.5) applicando il metodo delle scelte successive all’insieme Dn,k , caratterizzando il
generico elemento ω = (ω1 , . . . , ωk ) di Dn,k in base al seguente schema:
1) come prima scelta fissiamo il sottoinsieme {ω1 , . . . , ωk } di E formato dalle componenti di ω: abbiamo
|Cn,k | possibilità e quindi n1 = |Cn,k |;
2) come seconda e ultima scelta fissiamo la permutazione dei k elementi ω1 , . . . , ωk che descrive l’ordine
in cui sono disposti in ω: abbiamo |Pk | possibilità e quindi n2 = |Pk |.
Dal metodo delle scelte successive si deduce la validità di (2.2.5) e dunque di (2.2.4).
Gli insiemi DRn,k , Dn,k (e dunque anche Pn = Dn,n ) e Cn,k sono importanti non solo perché sono gli spazi
campionari dei tre esperimenti aleatori introdotti nella Sezione 2.2.2, ma anche perché le cardinalità di tali
insiemi spesso corrispondono ai numeri n1 , n2 , . . . , nk del metodo delle scelte successive; per esempio, per il
calcolo di |Dn,k | in (2.2.5) abbiamo scelto n1 = |Cn,k | ed n2 = |Pk |.
Possiamo completare la tabella della Sezione 2.2.2, riportando anche gli spazi campionari e le loro
cardinalità (ovvero i “casi possibili”).
Ripetizione
Senza Con
ripetizione ripetizione
Ordine
Estrazione senza reimmissione Estrazione con reimmissione
Si tiene conto dell’ordine Ω = Dn,k Ω = DRn,k
n!
|Ω| = (n−k)! |Ω| = nk
Estrazione simultanea
Non si tiene conto dell’ordine Ω = Cn,k −
|Dn,k |
= nk

|Ω| = k!
Tabella 2.2: Classificazione del tipo di estrazioni da un’urna e relazione con disposizioni e combinazioni
Riportiamo qui di seguito alcune osservazioni conclusive riguardanti la Tabella 2.2.
Osservazione 2.2.12. Nonostante gli esperimenti aleatori introdotti siano tre, in realtà sarebbe sufficiente
considerare solamente i primi due: l’estrazione senza reimmissione e l’estrazione con reimmissione. Infatti
l’estrazione simultanea può essere vista come un caso particolare dell’estrazione senza reimmissione in cui
non si tiene conto dell’ordine. Più precisamente, ad ogni elemento di Cn,k , ovvero ad ogni sottoinsieme di
k palline scelta fra n, corrispondono k! elementi (o k-uple) di Dn,k , di conseguenza vale che
casi favorevoli in Cn,k k! (casi favorevoli in Cn,k ) casi favorevoli in Dn,k

= = .
casi possibili in Cn,k k! (casi possibili in Cn,k ) casi possibili in Dn,k
Osservazione 2.2.13. La casella vuota nella tabella sopra riportata corrisponde all’insieme delle cosiddet-
te combinazioni con ripetizione, ossia all’insieme di tutti i gruppi, non ordinati ed eventualmente ripetuti,
di k oggetti scelti da un insieme di n oggetti. L’esperimento aleatorio corrispondente è l’estrazione con
reimmissione in cui non si tiene conto dell’ordine: questo esperimento aleatorio può essere descritto an-
che dallo spazio campionario DRn,k munito della probabilità uniforme discreta. Al contrario, sullo spazio
delle combinazioni con ripetizione la probabilità non può essere quella uniforme discreta. Infatti ad ogni
combinazione con ripetizione non corrisponde sempre lo stesso numero di elementi di DRn,k (come invece
accade nel caso di Cn,k e Dn,k ) e la costante di proporzionalità dipende da quante ripetizioni ci sono all’in-
terno della combinazione: le combinazioni con più ripetizioni sono meno probabili. Per questa ragione su
tale spazio non vale la formula “casi favorevoli/casi possibili”, ovvero non si possono usare le tecniche del
calcolo combinatorio.
Esempio 2.2.14. Riconsideriamo il calcolo della probabilità di una cinquina semplice al gioco del lotto:
poiché non conta l’ordine di estrazione dei numeri, siamo nel caso dell’estrazione simultanea, quindi è
naturale considerare Ω = C90,5 . In effetti la probabilità della cinquina è |C 1 | che coincide con il risultato
90,5
5!
che avevamo già trovato usando le disposizioni semplici, ossia .
|D90,5 |
Esercizio 2.2.15. Calcoliamo la probabilità di ottenere una cinquina semplice dopo k ≥ 5 estrazioni.
Soluzione. Poniamo Ω = C90,k . Indichiamo con A l’evento che ci interessa, ossia la famiglia degli insiemi di k numeri in cui 5
sono fissati e i rimanenti k − 5 sono qualsiasi fra i restanti 85 numeri. Allora si ha
|C85,k−5 |
P (A) = .
|C90,k |
Per esempio, P (A) ≈ 6 · 10−6 per k = 10 e P (A) ≈ 75% per k = 85.
Esercizio 2.2.16. Consideriamo un mazzo di 40 carte. Calcoliamo la probabilità dell’evento A definito in

ognuno dei modi seguenti:
(1) in 5 estrazioni senza reimmissione si ottengono 5 denari;
(2) in 5 estrazioni con reimmissione si ottengono 5 denari;
(3) in 5 estrazioni senza reimmissione si ottengono nell’ordine i numeri da 1 a 5 di qualsiasi seme, anche
diversi fra loro.
Soluzione. (1) L’estrazione è senza reimmissione, ma l’evento A = “si ottengono 5 denari” non tiene conto dell’ordine. Quindi
tale estrazione può essere vista anche come un’estrazione simultanea. Perciò possiamo scegliere come spazio campionario
Ω = C40,5 (scegliere Ω = D40,5 andrebbe comunque bene). L’esito ω = {ω1 , ω2 , ω3 , ω4 , ω5 } corrisponde dunque all’insieme
delle carte estratte. Allora A ↔ C10,5 (le possibile scelte, non ordinate e non ripetute, di 5 denari) e quindi
10
P (A) = 5 ≈ 0.04 %.
40
5
(2) Questa volta l’estrazione è con reimmissione, quindi occorre considerare Ω = DR40,5 (in realtà, anche in questo caso
l’evento A non tiene conto dell’ordine; tuttavia quando c’è ripetizione l’unico spazio che possiamo scegliere per poter utilizzare
le tecniche del calcolo combinatorio è lo spazio delle disposizioni con ripetizione). L’esito ω può essere identificato con la
sequenza (ω1 , ω2 , ω3 , ω4 , ω5 ), ordinata e con possibili ripetizioni, delle carte estratte. In questo caso A ↔ DR10,5 (le possibile
scelte, ordinate e ripetute, di 5 denari) e quindi
105
P (A) = 5 ≈ 0.1 %.
40
(3) In questo caso l’estrazione è senza reimmissione e l’evento A = “si ottengono nell’ordine i numeri da 1 a 5 di qualsiasi seme,
anche diversi fra loro” tiene conto dell’ordine, quindi lo spazio campionario naturale è Ω = D40,5 . Abbiamo che A ↔ DR4,5
(si sceglie in modo ordinato la sequenza dei semi delle 5 carte estratte) e quindi
|DR4,5 |
P (A) = ≈ 10−3 %.
|D40,5 |
2.2.5 Probabilità binomiale e ipergeometrica.

Presentiamo ora due esempi fondamentali che, come vedremo più avanti, sono legati a due misure di
probabilità molto importanti, la binomiale e l’ipergeometrica. Cominciamo col ricordare alcune proprietà
del coefficiente binomiale. Assumiamo per convenzione
0! = 1 e 00 = 1. (2.2.6)
Ricordiamo che per k, n ∈ N0 , con k ≤ n, !

n n!
= .
k k!(n − k)!
Dalla definizione segue direttamente che
! ! ! ! !
n n n n n
= , = = 1, = n.
k n−k 0 n 1
Inoltre, per k, n ∈ N con k < n, vale ! ! !

n n−1 n−1
= + . (2.2.7)
k k−1 k
Come esercizio, utilizzando la (2.2.7) provare per induzione la formula binomiale (o formula di Newton)7
n !
X n k n−k
(a + b)n = a b , a, b ∈ R. (2.2.8)
k
k=0
Come casi particolari della (2.2.8):

• se a = b = 1 si ha
n !
X n
= 2n . (2.2.9)
k
k=0
n
Ricordando che se |A| = n allora k = |Cn,k | è pari al numero di sottoinsiemi di A di cardinalità k, la
(2.2.9) mostra che |P(A)| = 2n .
• ricordando la convenzione (2.2.6) per i casi p = 0 e p = 1, vale
n !
X n k
p (1 − p)n−k = 1, p ∈ [0, 1]. (2.2.10)
k
k=0
In altri termini, posto per semplicità

!
n k
pk := p (1 − p)n−k , k = 0, . . . , n,
k
si ha che p0 , . . . , pn sono numeri non-negativi con somma pari a 1. Quindi, per l’Osservazione 2.1.13,
ponendo P ({k}) = pk si definisce una misura di probabilità sullo spazio campionario Ω = {0, . . . , n},
detta probabilità binomiale.
Diamo un’interpretazione della probabilità binomiale nel seguente
7 Una dimostrazione alternativa, di carattere combinatorio, della formula di Newton è la seguente: il prodotto (a + b)(a + b) · · · (a + b)
di n fattori si sviluppa in una somma di monomi di grado n del tipo an−k bk con 0 ≤ k ≤ n. Quanti sono i monomi di un certo tipo (cioè
con k fisso)? Il monomio an−k bk si ottiene scegliendoil valore b da k degli n fattori disponibili nel prodotto (a + b)(a + b) · · · (a + b) (e,
quindi, scegliendo a dai rimanenti n − k), ovvero in nk modi.
Esempio 2.2.17 (Binomiale). [!]

Consideriamo un’urna che contiene b palline bianche ed r palline rosse, con b, r ∈ N. Effettuiamo n estra-
zioni con reimmissione. Calcoliamo la probabilità dell’evento Ak che consiste nell’estrazione di esattamente
k palline bianche, con 0 ≤ k ≤ n.
Determiniamo lo spazio campionario: a priori non importa l’ordine di estrazione, ma osservando che
c’è il reinserimento (ossia la ripetizione di una possibile pallina già estratta), siamo portati a conside-
rare Ω = DRb+r,n . L’esito ω può essere identificato con la k-upla che identifica la sequenza, ordinata e
con eventuali ripetizioni, delle palline estratte (supponendo di aver numerato le palline per identificarle).
Caratterizziamo il generico esito ω ∈ Ak tramite le seguenti scelte successive:
i) scegliamo la sequenza (ordinata e con eventuali ripetizioni) delle k palline bianche estratte dalle b
presenti nell’urna: ci sono |DRb,k | modi possibili;
ii) scegliamo la sequenza (ordinata e con eventuali ripetizioni) delle n − k palline rosse estratte dalle r
presenti nell’urna: ci sono |DRr,n−k | modi possibili;
iii) scegliamo in quali delle n estrazioni sono state estratte le k palline bianche; ci sono |Cn,k | modi
possibili8 .
In definitiva
n bk r n−k
!
|DRb,k ||DRr,n−k |
P (Ak ) = |Cn,k | = ,
|DRb+r,n | k (b + r)n
o, equivalentemente, !
n k
P (Ak ) = p (1 − p)n−k , k = 0, 1, . . . , n,
k
b
dove p = b+r è la probabilità di estrarre una pallina bianca, secondo la probabilità uniforme.
Osservazione 2.2.18. Come spiegheremo meglio in seguito, la probabilità binomiale si può interpretare
come la probabilità di avere k successi ripetendo n volte un esperimento che ha solo due esiti: successo con
probabilità p e insuccesso con probabilità 1 − p. Per esempio, la probabilità di ottenere esattamente k teste
lanciando n volte una moneta è pari a nk pk (1 − p)n−k con p = 21 , ossia nk 21n .

Esempio 2.2.19 (Ipergeometrica). Consideriamo un’urna che contiene b palline bianche ed r palline rosse,
con b, r ∈ N. Effettuiamo n ≤ b + r estrazioni senza reimmissione. Calcoliamo la probabilità dell’evento Ak
che consiste nell’estrazione di esattamente k palline bianche, con max{0, n−r} ≤ k ≤ min{n, b}. La condizione
max{0, n − r} ≤ k ≤ min{n, b} equivale a richiedere che valgano simultaneamente le tre condizioni seguenti:
• 0 ≤ k ≤ n;
• k ≤ b, ovvero il numero di palline bianche estratte non superi b;
• n − k ≤ r, ovvero il numero di palline rosse estratte non superi r.
Determiniamo lo spazio campionario: dato che non importa l’ordine di estrazione possiamo considerare
Ω = Cb+r,n (alternativamente, possiamo scegliere Ω = Db+r,n ). L’esito ω corrisponde all’insieme delle palline
estratte (supponendo di aver numerato le palline per identificarle). Caratterizziamo il generico esito ω ∈ Ak
tramite le seguenti scelte successive:
i) scegliamo le k palline bianche estratte dalle b presenti nell’urna: ci sono |Cb,k | modi possibili;
ii) scegliamo le n − k palline rosse estratte dalle r presenti nell’urna: ci sono |Cr,n−k | modi possibili.
In definitiva
b r
|Cb,k ||Cr,n−k | k n−k
P (Ak ) = = b+r
, max{0, n − r} ≤ k ≤ min{n, b}.
|Cb+r,n |
n
8 Infatti ogni sottoinsieme di cardinalità k di I identifica k estrazioni delle n, e viceversa. Ad esempio, se n = 4 e k = 2, il
n
sottoinsieme {2, 3} di I4 = {1, 2, 3, 4} corrisponde alla 2a e alla 3a estrazione, e viceversa.
2.2.6 Esempi
Proponiamo una serie di esempi utili a prendere familiarità con i problemi di conteggio.
Esempio 2.2.20. Consideriamo un gruppo di k ≥ 2 persone nate nello stesso anno (di 365 giorni). Calcolare
la probabilità che almeno due persone del gruppo siano nate nello stesso giorno.
Soluzione. Possiamo riformulare il problema come segue: un’urna contiene 365 palline numerate da 1 a 365; la pallina numero
N corrisponde all’N -esimo giorno dell’anno; si estraggono con reimmissione k palline; qual è la probabilità che di estrarre due
volte lo stesso numero? Abbiamo dunque ricondotto il problema all’estrazione con reimmissione di k palline da un’urna che
ne contiene 365. Sappiamo che lo spazio campionario naturale è Ω = DR365,k . Sia A l’evento che ci interessa, ovvero A =
“almeno due persone sono nate nello stesso giorno”. Allora Ac ↔ D365,k e quindi
|D365,k | 365!
P (A) = 1 − P (Ac ) = 1 − = 1− .
|DR365,k | (365 − k)! · 365k
Si vede che P (A) ≈ 0.507 > 12 per k = 23 e P (A) ≈ 97% per k = 50.
Esempio 2.2.21. Si estraggono (senza reimmissione) 2 carte da un mazzo di 40 carte identificate dal seme
(spade, coppe, bastoni, denari) e dal tipo (asso, 2, 3, 4, 5, 6, 7, fante, cavallo, re). Calcoliamo la probabilità
dell’evento A definito in ognuno dei modi seguenti:
(1) le due carte sono, nell’ordine, una carta di denari e una di coppe;
(2) le due carte sono, nell’ordine, una carta di denari e un 7;
(3) le due carte sono una carta di denari e un 7, indipendentemente dall’ordine.

Soluzione.
(1) Poniamo Ω = D40,2 . L’esito ω = (ω1 , ω2 ) corrisponde alla coppia delle carte estratte. Caratterizziamo il generico esito
ω = (ω1 , ω2 ) ∈ A tramite le seguenti scelte successive:
i) scegliamo la prima carta estratta (ovvero ω1 ) fra le carte di denari: ci sono 10 scelte possibili;
ii) scegliamo la seconda carta estratta (ovvero ω2 ) fra le carte di coppe: ci sono 10 scelte possibili.
In definitiva
100 5
P (A) = = ≈ 6.4%.
|D40,2 | 78
Se invece non si fosse tenuto conto dell’ordine di estrazione, avremmo potuto considerare, in alternativa, lo spazio campionario
Ω = C40,2 . In tal caso l’esito ω = {ω1 , ω2 } corrisponde all’insieme delle carte estratte. Quindi, procedendo come prima,
100 5
= = 2P (A).
|C40,2 | 39
(2) Poniamo Ω = D40,2 . Non possiamo determinare |A| tramite le due scelte successive i)-ii) del punto (1), in quanto pro-
cedendo in questo modo conteremmo anche la coppia (7D, 7D) che invece deve essere esclusa visto che le carte non vengono
reinserite nel mazzo. Invece di applicare direttamente ad A il metodo delle scelte successive, notiamo che A è unione disgiunta
di A1 = D9,1 × D4,1 (la prima carta è una carta di denari diversa da 7 e la seconda carta è uno dei quattro 7) e A2 = D3,1 (la
prima carta è il 7 di denari e la seconda carta è uno dei rimanenti tre 7). Dunque
9·4 3 1
P (A) = P (A1 ) + P (A2 ) = + = .
|D40,2 | |D40,2 | 40
1 .
(3) Poiché non conta l’ordine P (A) è il doppio rispetto al caso (2), quindi P (A) = 20
Esempio 2.2.22. Si divida un mazzo di 40 carte in due mazzi da 20. Calcoliamo la probabilità dell’evento
A definito in ognuno dei modi seguenti:
(1) il primo mazzo contiene esattamente un 7;

(2) il primo mazzo contiene almeno un 7.

Soluzione. Poniamo Ω = C40,20 . L’esito ω può essere pensato come l’insieme delle carte del primo mazzo.
(1) Caratterizziamo il generico esito ω ∈ A tramite le seguenti scelte successive:
i) scegliamo l’unico 7 che appartiene al primo mazzo: ci sono 4 modi possibili;
ii) scegliamo le rimanenti 19 carte del primo mazzo, che non devono essere dei 7: ci sono |C36,19 | modi possibili.
In definitiva
4|C36,19 | 120
P (A) = = ≈ 25%.
|C40,20 | 481
(2) Abbiamo
|C36,20 |
P (A) = 1 − P (Ac ) = 1 − ≈ 95.7%. (2.2.11)
|C40,20 |
Per capire meglio, vediamo dei modi alternativi per risolvere il problema: potremmo tentare di caratterizzare il generico esito
ω ∈ A tramite le seguenti scelte successive:
i) scegliamo un 7 che sicuramente appartiene al primo mazzo: ci sono 4 modi possibili;
ii) scegliamo le rimanenti 19 carte del primo mazzo fra le rimanenti 39: ci sono |C39,19 | modi possibili.
In questo caso troveremmo
4|C39,19 |
P (A) = =2
|C40,20 |
che è ovviamente un risultato sbagliato. L’errore sta nel fatto che le scelte successive non identificano univocamente ω, nel
senso che lo stesso ω viene “contato” più di una volta: per esempio, un ω che contiene il 7D (7 di denari) e il 7S (7 di spade)
viene individuato scegliendo 7D nella scelta i) e 7S nella scelta ii) ma anche invertendo i ruoli di 7D e 7S.
Se non vogliamo usare l’evento complementare, possiamo in alternativa calcolare |A| tramite il principio di somma, espri-
mendo A come unione degli eventi disgiunti Ak =“il primo mazzo contiene esattamente un numero k di 7”, per k = 1, 2, 3, 4. Il
generico esito ω ∈ Ak è determinato univocamente dalle seguenti scelte successive:
i) fra i 7 ne scegliamo k che sono quelli che appartengono al primo mazzo: ci sono |C4,k | modi possibili;
ii) scegliamo le rimanenti 20 − k del primo mazzo, che non devono essere dei 7: ci sono |C36,20−k | modi possibili.
Quindi
|C4,k ||C36,20−k |
P (Ak ) = , k = 1, 2, 3, 4,
|C40,20 |
e come risultato finale riotteniamo la (2.2.11).
Esempio 2.2.23. Da un’urna che contiene b palline bianche ed r palline rosse, con b, r ∈ N, vengono estratte
senza reimmissione k palline, con k ≤ b+r. Calcoliamo la probabilità dell’evento Bk che consiste nell’estrarre
una pallina bianca alla k-esima estrazione.
Soluzione. Poniamo Ω = Db+r,k . L’esito ω può essere identificato con il vettore che indica la sequenza ordinata e senza
ripetizioni delle k estrazioni (supponendo di aver numerato le palline per identificarle). Allora
Bk ↔ {(ω1 , . . . , ωk ) | ωk “bianca”}.
Per determinare |Bk | utilizziamo il metodo delle scelte successive, caratterizzando una generica k-upla (ω1 , . . . , ωk ) tramite il
seguente schema:
i) scegliamo la pallina bianca della k-esima estrazione, ossia ωk : ci sono b modi possibili;
ii) scegliamo la sequenza (ordinata e senza ripetizioni) delle k −1 estrazioni precedenti: ci sono |Db+r−1,k−1 | modi possibili.
In definitiva, posto b + r = n, si ha
(n−1)!
b|Dn−1,k−1 | b (n−k)! b
P (Bk ) = = = .
|Dn,k | n! n
(n−k)!
Dunque P (Bk ) = b+rb coincide con la probabilità di estrarre una pallina bianca alla prima estrazione, ovvero P (B ) = P (B ).
k 1
Questo fatto si può spiegare osservando che Bk è in corrispondenza biunivoca con l’insieme {(ω1 , . . . , ωk ) | ω1 “bianca”}.
Esempio 2.2.24. Si consideri un mazzo di 40 carte, da cui si estraggono senza reimmissione k carte, con
k ≤ 40. Calcoliamo la probabilità che alla k-esima estrazione venga estratta una carta di denari.
Soluzione. L’esempio è simile al precedente: posto Ω = D40,k e Ak = “si estrae una carta di denari alla k-esima estrazione”, la
probabilità di Ak è data da
10|D39,k−1 | 1
P (Ak ) = = .
|D40,k | 4
Esempio 2.2.25. Da un’urna che contiene b palline bianche ed r palline rosse, vengono estratte con reim-
missione 2 palline. Calcoliamo la probabilità dell’evento A definito in ognuno dei modi seguenti:
(1) le due palline hanno lo stesso colore;
(2) almeno una delle due palline è rossa.
Soluzione. Poniamo Ω = DRb+r,2 . L’esito ω può essere identificato con la coppia (ω1 , ω2 ) che indica la sequenza ordinata (e
con eventuale ripetizione) delle due estrazioni (supponendo di aver numerato le palline per identificarle).
(1) Abbiamo che A è unione disgiunta di A1 = DRb,2 (le due palline sono bianche) e A2 = DRr,2 (le due palline sono rosse).
Dunque
|DRb,2 | |DRr,2 | b2 + r 2
P (A) = P (A1 ) + P (A2 ) = + = .
|DRb+r,2 | |DRb+r,2 | (b + r)2
(2) Si ha P (A) = 1 − P (Ac ) con Ac = DRb,2 (le due palline sono bianche) e quindi
b2
P (A) = 1 − .
(b + r)2
Esempio 2.2.26. Consideriamo un mazzo di carte da poker da 52 carte, identificate dal seme (cuori ♥,
quadri ♦, fiori ♣, picche ♠) e dal tipo (un numero da 2 a 10 oppure J, Q, K, A). Calcoliamo la probabilità di
avere un tris servito, ovvero di ricevere dal mazziere 5 carte di cui 3 sono dello stesso tipo, mentre le altre
due di tipo diverso tra loro e dalle prime tre.
Soluzione. Poniamo Ω = C52,5 . Sia A l’evento di cui dobbiamo calcolare la probabilità, ovvero
A = “avere un tris servito”.
Caratterizziamo il generico esito ω ∈ A tramite le seguenti scelte successive:

i) scegliamo il tipo delle carte che formano il tris: ci sono 13 tipi possibili;
ii) scegliamo i tre semi del tris: ci sono |C4,3 | scelte possibili;
iii) scegliamo i tipi delle altre 2 carte fra i rimanenti 12 tipi possibili: ci sono |C12,2 | scelte possibili;
iv) scegliamo il seme delle altre 2 carte fra i 4 possibili: ci sono 4 · 4 = 16 modi possibili.
In definitiva
13 · 4 · |C12,2 | · 16
P (A) = ≈ 2.11%.
|C52,5 |
Come abbiamo detto in precedenza, nonostante la maggior parte degli esperimenti aleatori descritti
dalla probabilità uniforme discreta possa essere formulata su uno dei tre spazi campionari DRn,k , Dn,k ,
Cn,k , ci sono casi in cui questo non è possibile. Tuttavia, è sempre possibile scomporre l’esperimento alea-
torio in opportuni sotto-esperimenti aleatori che possono essere formulati su DRn,k , Dn,k o Cn,k , di modo
che l’esperimento aleatorio di partenza possa essere descritto sul loro prodotto cartesiano. Vediamo più
precisamente come si procede nei tre esempi che seguono.
Esempio 2.2.27. Consideriamo un mazzo di 30 carte (per esempio, denari, coppe e spade). Dopo averlo
diviso in tre mazzi da 10 carte, calcoliamo la probabilità dell’evento A definito in ognuno dei modi seguenti:
(1) i tre assi sono in mazzi differenti;
(2) i tre assi sono nello stesso mazzo.

Soluzione. Poniamo Ω = C30,10 × C20,10 : l’esito ω = (ω1 , ω2 ) può essere pensato come la coppia in cui ω1 è l’insieme delle
carte del primo mazzo e ω2 è l’insieme delle carte del secondo mazzo.
(1) Caratterizziamo il generico esito ω ∈ A tramite le seguenti scelte successive:
i) scegliamo i mazzi in cui sono gli assi: ci sono |P3 | = 6 modi possibili;
ii) scegliamo le rimanenti 9 carte del primo mazzo, che non devono essere degli assi: ci sono |C27,9 | modi possibili;
iii) scegliamo le rimanenti 9 carte del secondo mazzo, che non devono essere degli assi: ci sono |C18,9 | modi possibili.
In definitiva
6|C27,9 ||C18,9 | 50
P (A) = = ≈ 24.6%.
|C30,10 ||C20,10 | 203
(2) In modo analogo caratterizziamo il generico esito ω ∈ A tramite le seguenti scelte successive:
i) scegliamo il mazzo in cui sono gli assi: ci sono 3 modi possibili;
ii) scegliamo le rimanenti 7 carte del mazzo in cui sono gli assi, che non devono essere degli assi: ci sono |C27,7 | modi
possibili;
iii) scegliamo le 10 carte di un secondo mazzo, che non devono essere degli assi: ci sono |C20,10 | modi possibili.
In definitiva
3|C27,7 ||C20,10 | 18
P (A) = = ≈ 8.8%.
|C30,10 ||C20,10 | 203
Esempio 2.2.28. Una moneta (non truccata) viene lanciata dieci volte. Dopodiché si lancia un dado a dieci
facce (su cui sono riportati i numeri interi da 1 a 10). Calcoliamo la probabilità dell’evento
A = “il lancio della moneta, il cui numero è fornito dall’esito del dado, ha dato testa”.
In altre parole, l’evento A si verifica se, dopo aver scelto a caso uno dei 10 lanci (tramite il lancio del dado),
il risultato di quel lancio è testa.
Soluzione. Intuitivamente la probabilità è 12 . Consideriamo Ω = DR2,10 × I10 (si noti che al posto dell’insieme I10 è possibile
utilizzare indifferentemente DR10,1 , D10,1 o C10,1 , dato che |I10 | = |DR10,1 | = |D10,1 | = |C10,1 |). L’esito ω = (ω1 , . . . , ω10 , k)
corrisponde alla sequenza ω1 , . . . , ω10 dei risultati dei lanci e alla scelta k del lancio fra i 10 effettuati. Caratterizziamo il
generico esito ω ∈ A tramite le seguenti scelte successive:
i) scegliamo il numero k del lancio: ci sono 10 valori possibili;
ii) scegliamo il risultato degli altri 9 lanci: ci sono |DR2,9 | modi possibili.
In definitiva
10|DR2,9 | 10 · 29 1
P (A) = = = .
|DR2,10 × I10 | 10 · 210 2
Esempio 2.2.29.
i) In quanti modi è possibile sistemare 3 monete (distinte: chiamiamole per esempio m1 , m2 e m3 ) in 10
scatole, sapendo che ogni scatola può contenere solo una moneta?
ii) Una volta disposte le monete, qual è la probabilità che la prima scatola contenga una moneta?
iii) Rispondere ai quesiti precedenti nel caso in cui ogni scatola possa contenere al più 2 monete.
Soluzione. 1) Possiamo immaginare che l’esperimento si svolga come segue: un’urna contiene 10 palline numerate da 1 a
10; ogni pallina corrisponde ad una scatola (supponiamo che le scatole siano state anch’esse numerate da 1 a 10); quindi
si estraggono senza reimmissione tre palline: il numero della i-esima pallina estratta indica la scatola in cui verrà messa la
moneta mi , con i = 1, 2, 3. Abbiamo dunque ricondotto l’esperimento all’estrazione senza reimmissione di 3 palline da un’urna
che ne contiene 10. Sappiamo che lo spazio campionario naturale è Ω = D10,3 . Il punto 1) chiede di calcolare i “casi possibili”,
ovvero |D10,3 | = 10!
7! = 720.
3 . Per dimostrarlo, indichiamo con A l’evento di cui vogliamo calcolare la probabilità,

2) Intuitivamente (?) la probabilità è 10
ovvero
A = “la prima scatola contiene una moneta” = “la pallina numero 1 è stata estratta”.
Si ha che
|A| |A|
P (A) = =
|D10,3 | 720
o, alternativamente,
|Ac | |Ac |
P (A) = 1 − P (Ac ) = 1 − = 1− .
|D10,3 | 720
Resta dunque da determinare |A| oppure |Ac |. Si noti che Ac è l’evento in cui le tre monete non sono messe nella prima scatola
e quindi equivale a disporre le 3 monete nelle rimanenti 9 scatole (equivalentemente, nelle tre estrazioni dall’urna, non esce la
pallina numero 1), ossia Ac ↔ D9,3 . Quindi |Ac | = |D9,3 |, da cui
|D9,3 | 7 3
P (A) = 1 − = 1− = .
|D10,3 | 10 10
Alternativamente, |A| può essere determinato con il metodo delle scelte successive procedendo come segue:
• scelgo la moneta da mettere nella prima scatola: 3 scelte possibili;
• scelgo dove mettere le restanti due monete nelle rimanenti nove scatole: |D9,2 | modi possibili.
Quindi |A| = 3|D9,2 |, perciò
3|DR9,2 | 3
P (A) = = .
720 10
3) Poniamo Ω = Ω1 ⊎ Ω2 , dove:
• Ω1 contiene i “casi possibili” in cui le prime due monete sono nella stessa scatola, e, di conseguenza, la terza moneta è
in una delle rimanenti nove scatole: ci sono 10 · 9 casi possibili di questo tipo, quindi |Ω1 | = 10 · 9;
• Ω2 contiene i “casi possibili” in cui le prime due monete sono in scatole diverse, mentre la terza moneta è in una
qualsiasi delle dieci scatole: ci sono |D10,2 | · 10 casi possibili di questo tipo, quindi |Ω2 | = |D10,2 | · 10.
Dato che Ω = Ω1 ⊎ Ω2 , abbiamo che
|Ω| = |Ω1 | + |Ω2 | = 10 · 9 + |D10,2 | · 10 = 990.
Riassumendo, in questa sezione abbiamo esaminato la probabilità uniforme discreta che è essenzial-
mente definita come rapporto fra “casi favorevoli” e “casi possibili”. Il calcolo della probabilità uniforme si
riduce a un problema di conteggio che può essere risolto con gli strumenti del calcolo combinatorio. In tale
contesto, un utile algoritmo per il conteggio di “casi favorevoli” e “casi possibili” è il cosiddetto “metodo
delle scelte successive”. Gli errori più comuni che si commettono nell’utilizzo di tale metodo sono:
• contare esiti che non esistono (vedi Esempio 2.2.21);
• contare più di una volta lo stesso esito (vedi Esempio 2.2.22);
• non contare tutti gli esiti.
Abbiamo anche visto che, nel caso della probabilità uniforme discreta, è spesso utile ripensare il fenomeno
aleatorio come un esperimento (o, eventualmente, una sequenza di esperimenti) in cui si estraggono (con
reimmissione, senza reimmissione, simultaneamente) k palline da un’urna che contiene n palline distinte.
Nell’ambito di questo tipo di problemi abbiamo infine introdotto due esempi notevoli di probabilità: la
binomiale e l’ipergeometrica.
2.3 Probabilità condizionata e indipendenza di eventi

I concetti di indipendenza e probabilità condizionata sono centrali nella Teoria della Probabilità. Po-
tremmo dire che finora abbiamo semplicemente rivisto alcuni concetti di calcolo combinatorio e teoria
della misura dandone l’interpretazione probabilistica. Ora, con l’indipendenza e la probabilità condiziona-
ta, introduciamo concetti completamente nuovi e peculiari della Teoria della Probabilità: essi permettono
di analizzare come l’informazione riguardo al verificarsi di un evento influenza la probabilità di un altro
evento.
2.3.1 Probabilità condizionata

Come già spiegato, la Teoria della Probabilità si occupa dei fenomeni il cui esito è incerto: ora l’in-
certezza su un fatto significa “mancanza di conoscenza parziale o totale” del fatto stesso. In altri termini,
l’incertezza è dovuta ad una mancanza di informazioni sul fenomeno poiché esso avverrà nel futuro (per
esempio, il prezzo di domani di un titolo azionario) oppure poiché è già avvenuto ma non è stato possibi-
le osservarlo (per esempio, l’estrazione di una carta che non ci viene mostrata oppure la traiettoria di un
elettrone). Chiaramente può accadere che alcune informazioni diventino disponibili e in tal caso lo spazio
di probabilità che descrive il fenomeno deve essere “aggiornato” per tener conto di esse. A questo scopo si
introduce il concetto di probabilità condizionata. Consideriamo dapprima il seguente
Esempio 2.3.1. [!] Da un’urna che contiene 2 palline bianche e 2 palline nere, si estraggono in sequenza e
senza reinserimento due palline:
i) calcolare la probabilità che la seconda pallina sia bianca;
ii) sapendo che la prima pallina estratta è nera, calcolare la probabilità che la seconda pallina sia bianca;
iii) sapendo che la seconda pallina estratta è nera, calcolare la probabilità che la prima pallina sia bianca.
Utilizzando il calcolo combinatorio, è abbastanza facile risolvere il quesito i). Consideriamo lo spazio cam-
pionario Ω = D4,2 delle possibili estrazioni, tenendo conto dell’ordine. Allora |Ω| = |D4,2 | = 12 e l’evento
A =“la seconda pallina è bianca” ha 6 elementi, quindi P (A) = 12 .
Il quesito ii) è elementare dal punto di vista intuitivo: poiché abbiamo l’informazione che la prima
pallina estratta è nera, alla seconda estrazione l’urna è composta da due palline bianche e una nera e
quindi la probabilità cercata è 32 . Condizionatamente all’informazione data, l’evento A ha ora probabilità
maggiore di 21 .
Al contrario, l’ultimo quesito non sembra avere una soluzione intuitiva. Si potrebbe pensare che la
seconda estrazione non influisce sulla prima perché avviene dopo ma ciò non è corretto. Poiché ci viene
data un’informazione sulla seconda estrazione, bisogna pensare che le due estrazioni siano già avvenute
e in tal caso l’informazione sull’esito della seconda estrazione influisce sulla probabilità dell’esito della prima:
infatti sapendo che la seconda estratta è una pallina nera, è come se nella prima estrazione tale pallina
nera fosse stata “prenotata” e non potesse essere estratta; quindi ci sono due possibilità su tre di estrarre
una pallina bianca. In effetti, anche utilizzando il calcolo combinatorio è facile provare che la probabilità
cercata è 32 .
Ora formalizziamo le idee precedenti.
Definizione 2.3.2 (Probabilità condizionata). In uno spazio di probabilità (Ω, F , P ) sia B un evento non
trascurabile, ossia tale che P (B) > 0. La probabilità di A condizionata a B è definita da
P (A ∩ B)
P (A | B) := , A ∈ F. (2.3.1)
P (B)
Osservazione 2.3.3. La Definizione 2.3.2 si motiva nel modo seguente: se sappiamo che l’evento B è acca-
duto allora lo spazio campionario si “riduce” da Ω a B e, condizionatamente a tale informazione, è naturale
definire la probabilità di A come in (2.3.1) poiché:
2.3. PROBABILITÀ CONDIZIONATA E INDIPENDENZA DI EVENTI 45
i) solo gli eventi di A che stanno anche in B possono accadere;

ii) poiché il nuovo spazio campionario è B, dobbiamo dividere per P (B) in modo che P (B | B) = 1.
Proposizione 2.3.4. Nello spazio di probabilità (Ω, F , P ) sia B un evento non trascurabile. Si ha:
i) P (· | B) è una misura di probabilità su (Ω, F );
ii) se A ∩ B = ∅ allora P (A | B) = 0;
P (A)
iii) se A ⊆ B allora P (A | B) = P (B)
e di conseguenza P (A | B) ≥ P (A);
iv) se B ⊆ A allora P (A | B) = 1;
v) se P (A) = 0 allora P (A | B) = 0.
Dimostrazione. Le proprietà seguono direttamente dalla Definizione 2.3.2: provare i dettagli è un esercizio
molto utile e istruttivo.
Esempio 2.3.5. [!] Riprendiamo il punto ii) dell’Esempio 2.3.1 e consideriamo gli eventi B =“la prima
pallina estratta è nera” e A =“la seconda pallina estratta è bianca”. Per via intuitiva avevamo detto che
la probabilità di A condizionata a B è pari a 32 : ora calcoliamo P (A | B) utilizzando la Definizione 2.3.2.
Chiaramente P (B) = 21 , mentre sullo spazio campionario D4,2 ci sono 4 possibili estrazioni in cui la prima
4
pallina è nera e la seconda è bianca e quindi P (A ∩ B) = 12 = 13 . Ne viene che
P (A ∩ B) 2
P (A | B) = =
P (B) 3
che conferma il risultato intuitivo.
Ora risolviamo il punto i) dell’Esempio 2.3.1 utilizzando il concetto di probabilità condizionata per
evitare l’uso del calcolo combinatorio. La difficoltà del quesito è nel fatto che il risultato della seconda
estrazione dipende dal risultato della prima estrazione e quest’ultimo è incognito: per questo motivo, a
prima vista, sembra impossibile9 calcolare la probabilità dell’evento A. L’idea è di partizionare lo spazio
campionario e considerare separatamente i casi in cui B accade o meno per sfruttare la definizione di pro-
babilità condizionata: abbiamo già provato che P (A | B) = 32 e in modo analogo si vede che P (A | Bc ) = 13 .
Allora si ha
P (A) = P (A ∩ B) + P (A ∩ Bc )
= P (A | B)P (B) + P (A | Bc )P (Bc )
2 1 1 1 1
= · + · =
3 2 3 2 2
che conferma quanto già visto.
Proposizione 2.3.6 (Formula della probabilità totale). [!]
Per ogni evento B tale che 0 < P (B) < 1, vale
P (A) = P (A | B)P (B) + P (A | Bc )(1 − P (B)), A ∈ F. (2.3.2)
Più in generale, se (Bi )i∈I è una partizione10 finita o numerabile di Ω, con P (Bi ) > 0 per ogni i ∈ I, allora
vale X
P (A) = P (A | Bi )P (Bi ), A∈F (2.3.3)
i∈I
9 Un’indagine svolta al quarto anno di alcuni licei di Bologna ha evidenziato un numero significativo di studenti che, di fronte a
questo quesito hanno risposto che non è possibile calcolare la probabilità dell’evento A. Per mettere in crisi questo tipo di convinzione
si può far osservare agli studenti che non c’è ragione per cui le palline nere abbiano maggiore probabilità di essere estratte per seconde
e quindi intuitivamente deve valere P (A) = 12 .
10 Ossia (B )
i i∈I è una famiglia di eventi a due a due disgiunti, la cui unione è uguale a Ω. A volte (Bi )i∈I è chiamato un sistema di
alternative.
Dimostrazione. Dimostriamo la (2.3.3), di cui la (2.3.2) è un caso particolare. Poiché

]
A= (A ∩ Bi ),
i∈I
per la σ -additività di P si ha X X
P (A) = P (A ∩ Bi ) = P (A | Bi )P (Bi ).
i∈I i∈I
Vediamo un altro esempio tipico di applicazione della Formula della probabilità totale.
Esempio 2.3.7. Consideriamo due urne: l’urna α contiene 3 palline bianche e 1 rossa; l’urna β contiene 1
pallina bianca e 1 rossa. Calcoliamo la probabilità che, scelta a caso un’urna ed estratta una pallina, essa
sia bianca.
Prima soluzione. Indichiamo con A l’evento di cui vogliamo calcolare la probabilità e con B l’evento in cui viene scelta l’urna
α. Sembra naturale porre
1 3 1
P (B) = , P (A | B) = , P (A | Bc ) = .
2 4 2
Allora per la (2.3.2) otteniamo
3 1 1 1 5
P (A) = · + · = .
4 2 2 2 8
Notiamo che abbiamo formalmente calcolato P (A) senza neppure specificare lo spazio di probabilità!
Seconda soluzione. Diamo ora una seconda soluzione più dettagliata: poniamo
Ω = {αb1 , αb2 , αb3 , αr, βb, βr}
dove αb1 è l’esito in cui viene scelta la prima urna ed estratta la prima pallina bianca e gli altri esiti sono definiti in modo
analogo. Chiaramente
A = {αb1 , αb2 , αb3 , βb}
ma in questo caso la probabilità corretta da utilizzare non è quella uniforme su Ω. Infatti B, l’evento in cui viene scelta l’urna
α, deve avere probabilità 21 e gli elementi di B sono equiprobabili: ne segue che P ({ω}) = 81 per ogni ω ∈ B. Analogamente
P (Bc ) = 12 e gli elementi di Bc sono equiprobabili da cui
1
P ({βb}) = P ({βr}) = .
4
Possiamo dunque calcolare
5
P (A) = P ({αb1 }) + P ({αb2 }) + P ({αb3 }) + P ({βb}) =
8
in accordo con quanto precedentemente trovato.
Esercizio 2.3.8. Si lancia un dado e di seguito si lancia una moneta un numero di volte pari al risultato del
lancio del dado. Qual è la probabilità di ottenere esattamente due teste?
Esempio 2.3.9. Un’urna contiene 6 palline bianche e 4 nere. Estraendo 2 palline senza reinserimento, qual
è la probabilità che siano entrambe bianche (evento A)?
Possiamo interpretare il quesito come un problema di conteggio, utilizzando la probabilità uniforme P
sullo spazio Ω = C10,2 delle combinazioni di due palline estratte fra le 10 disponibili. Allora si ha
6!
|C6,2 | 2!4! 6·5
P (A) = = 10!
= . (2.3.4)
|C10,2 | 2!8!
10 · 9
6
Ora notiamo che 10 = P (A1 ) dove A1 è l’evento “la prima pallina estratta è bianca”. D’altra parte, se A2
è l’evento “la seconda pallina estratta è bianca”, allora 95 è la probabilità di A2 condizionata ad A1 , ossia
5
9 = P (A2 | A1 ). In definitiva, osservando anche che A = A1 ∩ A2 , la (2.3.4) equivale a
P (A1 ∩ A2 ) = P (A1 )P (A2 | A1 )

e quindi ritroviamo proprio la formula (2.3.1) che definisce la probabilità condizionata.
Più in generale, dalla definizione di probabilità condizionata si ottiene direttamente il seguente utile
risultato.
Proposizione 2.3.10 (Formula di moltiplicazione). [!]
Siano A1 , . . . , An eventi tali che P (A1 ∩ · · · ∩ An−1 ) > 0. Vale la formula
P (A1 ∩ · · · ∩ An ) = P (A1 )P (A2 | A1 ) · · · P (An | A1 ∩ · · · ∩ An−1 ) (2.3.5)
Esercizio 2.3.11. Utilizzare la formula (2.3.5) per calcolare la probabilità che, estratte 3 carte da un mazzo
di 40, il valore di ognuna non sia superiore a 5.
Soluzione. Indicato con Ai , i = 1, 2, 3, l’evento “la i-esima carta estratta è minore o uguale a 5”, la probabilità cercata è uguale
a
20 19 18
P (A1 ∩ A2 ∩ A3 ) = P (A1 )P (A2 | A1 )P (A3 | A1 ∩ A2 ) = · · .
40 39 38
|C |
Risolvendo l’esercizio come un problema di conteggio, troveremmo la soluzione equivalente |C20,3 | .
40,3
Esempio 2.3.12. Calcoliamo la probabilità di fare un ambo al lotto con i numeri 1 e 3 (evento A), sapendo
che l’estrazione è già avvenuta e tre dei cinque numeri estratti sono dispari (evento B).
Soluzione. Poniamo Ω = C90,5 : l’esito ω = {ω1 , . . . , ω5 } può essere pensato come l’insieme dei numeri estratti. Si ha che ω ∈ A
se 1, 3 ∈ ω e dunque A ↔ C88,3 . Inoltre B ↔ C45,3 × C45,2 (corrispondente alla scelta di tre numeri dispari e due pari fra i 90)
e A ∩ B ↔ C43,1 × C45,2 (corrispondente alla scelta del terzo numero dispari, oltre a 1 e 3, e di due pari fra i 90). Allora si ha
|C88,3 | 43|C45,2 |
P (A) = ≈ 0.25% e P (A | B) = ≈ 0.3%.
|C90,5 | |C45,3 ||C45,2 |
Osservazione 2.3.13. In base alla formula (2.3.2) della probabilità totale, se 0 < P (B) < 1 possiamo determi-
nare univocamente P (A) a partire da P (B), P (A | B) e P (A | Bc ). Notiamo anche che la (2.3.2) implica che P (A)
appartiene all’intervallo di estremi P (A | B) e P (A | Bc ): quindi, indipendentemente dalla conoscenza di P (B),
si ha che P (A | B) e P (A | Bc ) forniscono delle stime del valore di P (A). In particolare se P (A | B) = P (A | Bc )
allora vale anche P (A) = P (A | B) o equivalentemente P (A ∩ B) = P (A)P (B).
Consideriamo ora un problema relativo alla rilevazione dell’opinione degli studenti sulla qualità della
didattica. Definiamo i seguenti eventi aleatori:
• A: un professore riceve un giudizio positivo nella rilevazione dell’opinione degli studenti;
• B: un professore è “bravo” (ammesso di sapere cosa ciò significhi).
Generalmente gli eventi A e B non coincidono: allora possiamo interpretare le probabilità condizionate
P (A | B) e P (B | A) nel modo seguente:
• P (A | B) è la probabilità che un professore “bravo” riceva un giudizio positivo;
• P (B | A) è la probabilità che un professore che riceve un giudizio positivo sia “bravo”.
Riflettendo attentamente sul significato di queste due probabilità condizionate, risulta chiaro che a volte si
può essere interessati a ricavarne una a partire dalla conoscenza dall’altra: tipicamente nella realtà, si può
avere una stima generale (in base a dati storici) di P (A | B) ed essere interessati a conoscere P (B | A) in base
al risultato della rilevazione appena effettuata. Una risposta a questo problema è data dal classico Teorema
di Bayes.
Teorema 2.3.14 (Formula di Bayes). [!]

Siano A, B eventi non trascurabili. Vale
P (A | B)P (B)
P (B | A) = (2.3.6)
P (A)
Dimostrazione. La (2.3.6) equivale a
P (B | A)P (A) = P (A | B)P (B)
e segue direttamente dalla definizione di probabilità condizionata.
Esempio 2.3.15. Riprendiamo l’Esempio 2.3.7: sapendo che è stata estratta una pallina bianca, qual è la
probabilità che sia stata scelta l’urna α?
Soluzione. Come prima indichiamo con A l’evento “viene estratta una pallina bianca” e con B l’evento “viene scelta l’urna α”.
Avevamo già calcolato P (A) = 58 , mentre assumiamo P (A | B) = 43 e P (B) = 12 . Allora per la formula di Bayes abbiamo
P (A | B)P (B) 3
P (B | A) = = .
P (A) 5
Esercizio 2.3.16. Supposto P (A | B) , P (A | Bc ), provare che
P (A) − P (A | Bc )
P (B) = , (2.3.7)
P (A | B) − P (A | Bc )
e quindi è possibile determinare univocamente P (B) a partire da P (A), P (A | B) e P (A | Bc ).
Esercizio 2.3.17 (Rilevazione della didattica). Supponiamo di sapere che storicamente i professori “bravi”
ricevono un giudizio positivo nel 95% dei casi e i professori “meno bravi” ricevono un giudizio positivo nel
10% dei casi (alcuni professori sono furbi...). Se i giudizi sul corso di laurea sono positivi all’80%, qual è la
probabilità che
i) i professori che hanno ricevuto un giudizio positivo siano veramente “bravi”?
ii) i professori che hanno ricevuto un giudizio negativo in realtà siano “bravi”?
Si osservi che, combinando la formula di Bayes con la formula (2.3.7), otteniamo
P (A | B)P (B) P (A | B) (P (A) − P (A | Bc ))

P (B | A) = = .
P (A) P (A) (P (A | B) − P (A | Bc ))
2.3.2 Indipendenza di eventi

Definizione 2.3.18. In uno spazio di probabilità (Ω, F , P ), diciamo che due eventi A, B sono indipendenti in
P se
P (A ∩ B) = P (A)P (B). (2.3.8)
Il concetto di indipendenza è relativo alla misura di probabilità considerata11 . Esso esprime il fatto che
l’informazione sull’accadere dell’evento B non influenza la probabilità di A: infatti, se P (B) > 0, la (2.3.8) è
equivalente a
P (A | B) = P (A),
11 A volte è necessario dichiarare esplicitamente la misura di probabilità P considerata. Infatti nelle applicazioni possono intervenire
diverse misure di probabilità contemporaneamente: non è detto che due eventi indipendenti in una misura di probabilità lo siano in
un’altra misura di probabilità.
ossia
P (A ∩ B) P (A)
=
P (B) P (Ω)
che può essere interpretata come una relazione di proporzionalità
P (A ∩ B) : P (B) = P (A) : P (Ω).
Analogamente, se
P (A ∩ B) > P (A)P (B) (2.3.9)
allora A, B si dicono positivamente correlati in P poiché la (2.3.9) implica12
P (A | B) > P (A), P (B | A) > P (B),
ossia la probabilità di A aumenta condizionatamente all’informazione sull’avvenire di B e viceversa.
Osservazione 2.3.19. Chiaramente, il fatto che A, B siano indipendenti non significa che siano disgiunti,
anzi: se P (A) > 0, P (B) > 0 e vale la (2.3.8) allora anche P (A ∩ B) > 0 e quindi A ∩ B , ∅. D’altra parte, se
P (A) = 0 allora anche P (A ∩ B) = 0 (per la (2.1.5) e il fatto che A ∩ B ⊆ A) e quindi la (2.3.8) vale per ogni B,
ossia A è indipendente da ogni evento B.
Osservazione 2.3.20. Abbiamo definito il concetto di indipendenza ma non quello di dipendenza. Se due
eventi A, B non sono indipendenti non diciamo che sono dipendenti: definiremo in seguito un concetto di
dipendenza che è ben distinto e in qualche modo slegato da quello di indipendenza.
Esempio 2.3.21. Due atleti hanno rispettivamente la probabilità del 70% e 80% di battere un record in una
gara. Qual è la probabilità che almeno uno dei due batta il record?
Se A è l’evento “il primo atleta batte il record”, B è l’evento “il secondo atleta batte il record” e assumia-
mo che A e B siano indipendenti allora si ha
P (A ∪ B) = P (A) + P (B) − P (A ∩ B) =
(per l’indipendenza)
= P (A) + P (B) − P (A)P (B)

= 150% − 70% · 80% = 94%.
Esempio 2.3.22. Il fatto che due eventi siano indipendenti non significa che “non hanno nulla a che fare”.
Si consideri il lancio di due dadi e gli eventi “la somma dei lanci è 7” (evento A) e “il risultato del primo
lancio è 3”. Allora A e B sono indipendenti nella probabilità uniforme.
Esempio 2.3.23. Vedremo tra breve che il concetto di indipendenza risulta naturale per descrivere un espe-
rimento che viene ripetuto in modo che ogni ripetizione non influenzi la probabilità delle altre ripetizioni
(per esempio, un sequenza di lanci di un dado o di una moneta). In questo caso risulta naturale utilizzare
uno spazio campionario che sia un prodotto cartesiano. Per esempio, sia Ω = Ω1 × Ω2 finito, munito della
probabilità uniforme P : consideriamo A = E1 × Ω2 e B = Ω1 × E2 con Ei ⊆ Ωi , i = 1, 2. Allora
|E1 ||E2 | |E1 × Ω2 ||Ω1 × E2 |

P (A ∩ B) = P (E1 × E2 ) = = = P (A)P (B)
|Ω| |Ω|2
e quindi A e B sono indipendenti in P . Approfondiremo il legame fra i concetti di indipendenza e prodotto

di misure a partire dalla Sezione 3.3.
12 Nel caso in cui A, B non siano trascurabili in P .
Esercizio 2.3.24. Al cinema due persone α, β decidono quale film vedere, tra due disponibili, in maniera
indipendente e con le seguenti probabilità:
1 1
P (α1 ) = , P (β1 ) =
3 4
dove α1 indica l’evento “α sceglie il primo film”. Calcolare la probabilità che α e β vedano lo stesso film.
Prima soluzione. Indichiamo con A l’evento di cui vogliamo calcolare la probabilità. Abbiamo
P (A) = P (α1 ∩ β1 ) + P (α2 ∩ β2 ) =
(per l’ipotesi di indipendenza e poiché P (α2 ) = 1 − P (α1 ))

7
= P (α1 )P (β1 ) + P (α2 )P (β2 ) = .
12
Questo esempio elementare mostra che è possibile calcolare la probabilità di un evento che dipende da eventi indipendenti,
a partire dalla conoscenza delle probabilità dei singoli eventi e, soprattutto, senza la necessità di costruire esplicitamente lo
spazio di probabilità.
Seconda soluzione. È anche utile procedere nel modo “classico”, risolvendo l’esercizio come un problema di conteggio: in questo
caso dobbiamo prima costruire lo spazio campionario
Ω = {(1, 1), (1, 2), (2, 1), (2, 2)}
dove (i, j) indica l’esito “α sceglie il film i e β sceglie il film j” con i, j = 1, 2. Per ipotesi conosciamo le probabilità degli eventi
α1 = {(1, 1), (1, 2)}, β1 = {(1, 1), (2, 1)},
tuttavia questo non è sufficiente a determinare univocamente la probabilità P , ossia a determinare le probabilità dei singoli
esiti. In effetti per fare ciò, è necessario utilizzare anche l’ipotesi di indipendenza (in P ) di α1 e β1 , da cui ricaviamo per
esempio
1
P ({(1, 1)}) = P (α1 ∩ β1 ) = P (α1 )P (β1 ) = .
12
Analogamente possiamo calcolare tutte le probabilità degli esiti e di conseguenza risolvere il problema. Notiamo che questa
procedura basata sul conteggio risulta più laboriosa e meno intuitiva.
Proposizione 2.3.25. Se A, B sono indipendenti allora anche A, Bc sono indipendenti.

Dimostrazione. Si ha
P (A ∩ Bc ) = P (A \ B) = P (A \ (A ∩ B)) =
(per la (2.1.6))
= P (A) − P (A ∩ B) =
(per l’ipotesi di indipendenza di A, B)
= P (A) − P (A)P (B) = P (A)P (Bc ).
Esercizio 2.3.26. Al cinema due persone α, β decidono quale film vedere fra tre disponibili, nel modo
seguente:
i) α sceglie un film a caso con le seguenti probabilità
1 1 1
P (α1 ) = , P (α2 ) = , P (α3 ) =
2 3 6
dove αi indica l’evento “α sceglie il film i-esimo” per i = 1, 2, 3;
ii) β lancia una moneta e se il risultato è “testa” allora sceglie lo stesso film di α, altrimenti sceglie un
film a caso, indipendentemente da α.
Calcoliamo la probabilità P (A) dove A è l’evento “α e β vedono lo stesso film”.
Soluzione. Indichiamo con T l’evento “il risultato del lancio della moneta è testa”. Si ha P (T ) = 12 e per ipotesi P (A | T ) = 1 e
P (βi | T c ) = 31 per i = 1, 2, 3. Inoltre, poiché P (· | T c ) è una misura di probabilità, si ha
3
X
P (A | T c ) = P (αi ∩ βi | T c ) =
i=1
(per l’ipotesi di indipendenza della scelta di α e β condizionatamente all’evento T c )

3
X
= P (αi | T c )P (βi | T c )
i=1
3
1X 1
= P (αi | T c ) = ,
3 3
i=1
3
P (αi | T c ) = 1 essendo P (· | T c ) una misura di probabilità. Allora per la (2.3.2) si ha
P
poiché
i=1
1 1 1 2
P (A) = P (A | T )P (T ) + P (A | T c )(1 − P (T )) = 1 · + · = .
2 3 2 3
Per esercizio, provare a calcolare la probabilità che α e β scelgano il primo film, ossia P (α1 ∩ β1 ).
Consideriamo ora il caso di più di due eventi.
Definizione 2.3.27. Sia (Ai )i∈I una famiglia di eventi. Diciamo che tali eventi sono indipendenti se vale
 
 \  Y
P  Aj  = P (Aj )
j∈J j∈J
per ogni J ⊆ I, con J finito.

Consideriamo tre eventi A, B, C: gli Esercizi 2.3.41 e 2.3.42 mostrano che in generale non c’è implicazione
fra la proprietà
P (A ∩ B ∩ C) = P (A)P (B)P (C) (2.3.10)
e le proprietà
P (A ∩ B) = P (A)P (B), P (A ∩ C) = P (A)P (C), P (B ∩ C) = P (B)P (C). (2.3.11)
In particolare, una famiglia di eventi a due a due indipendenti non è in generale una famiglia di eventi
indipendenti.
Concludiamo la sezione con un utile risultato. Data una successione di eventi (An )n≥1 , indichiamo con13
\[
(An i.o.) := Ak .
n≥1 k≥n
Si noti che
(An i.o.) = {ω ∈ Ω | ∀n ∈ N ∃k ≥ n tale che ω ∈ Ak },
ossia (An i.o.) è l’evento costituito dagli ω ∈ Ω che appartengono ad un numero infinito di An .
13 i.o. sta per infinitely often.
Lemma 2.3.28 (Borel-Cantelli). [!] Sia (An )n≥1 una successione di eventi nello spazio (Ω, F , P ):
i) se X
P (An ) < +∞
n≥1
allora P (An i.o.) = 0;
ii) se gli An sono indipendenti e X
P (An ) = +∞
n≥1
allora P (An i.o.) = 1.
Dimostrazione. Per la continuità dall’alto di P si ha
[ !
P (An i.o.) = lim P Ak ≤
n→∞
k≥n
(per σ -subadditività, Proposizione 2.1.22-ii))

X
≤ lim P (Ak ) = 0
n→∞
k≥n
per ipotesi. Questo prova la prima parte della tesi.

Per quanto riguarda ii), proviamo che
[ !
P Ak = 1 (2.3.12)
k≥n
per ogni n ∈ N, da cui seguirà la tesi. Fissati n, N con n ≤ N , si ha
[N ! \N !
P Ak = 1 − P Ack =
k=n k=n
(per indipendenza)
N
Y
= 1− (1 − P (Ak )) ≥
k=n
(per la disuguaglianza elementare 1 − x ≤ e−x valida per x ∈ R)
N
X !
≥ 1 − exp − P (Ak ) .
k=n
La (2.3.12) segue passando al limite per N → ∞.
Riassumendo, la probabilità condizionata e l’indipendenza sono i primi concetti veramente nuovi, esclu-
sivi della teoria della probabilità e che non si incontrano in altre teorie matematicamente “affini” come la
teoria della misura o il calcolo combinatorio.
Lo scopo di entrambi i concetti è quello di esprimere la probabilità P (A ∩ B) in termini di probabilità
dei singoli eventi A e B. Ciò è ovviamente possibile se A, B sono indipendenti in P poiché in questo caso si
ha
P (A ∩ B) = P (A)P (B).
Più in generale, se non c’è indipendenza fra A e B possiamo scrivere
P (A ∩ B) = P (A | B)P (B)
Molti problemi si risolvono molto più facilmente usando le precedenti identità (e altre utili formule come
quella della probabilità totale, di moltiplicazione e di Bayes) invece del calcolo combinatorio.
2.3.3 Prove ripetute e indipendenti

Definizione 2.3.29. [!] In uno spazio di probabilità (Ω, F , P ), sia (Ch )h=1,...,n una famiglia finita di eventi
indipendenti ed equiprobabili, ossia tali che P (Ch ) = p ∈ [0, 1] per ogni h = 1, . . . , n. Allora diciamo che
(Ch )h=1,...,n è una famiglia di n prove ripetute e indipendenti con probabilità p.
Intuitivamente possiamo immaginare di ripetere n volte un esperimento che può avere due esiti, succes-
so o insuccesso: Ch rappresenta l’evento “l’esperimento h-esimo ha successo”. Per esempio, in una sequenza
di n lanci di una moneta, Ch può rappresentare l’evento “al lancio numero h ottengo testa”.
Per ogni n ∈ N e p ∈ [0, 1], è sempre possibile costruire uno spazio discreto (Ω, P ) su cui è definita una
famiglia (Ch )h=1,...,n di n prove ripetute e indipendenti con probabilità p. Il seguente risultato mostra anche
che su uno spazio di probabilità discreto non è possibile definire una successione (Ch )h∈N di prove ripetute e
indipendenti a meno che non sia banale, ossia con p = 0 oppure p = 1.
Proposizione 2.3.30. Per ogni n ∈ N e p ∈ [0, 1], esiste uno spazio discreto (Ω, P ) su cui è definita in modo
canonico una famiglia (Ch )h=1,...,n di n prove ripetute e indipendenti con probabilità p.
Se (Ch )h∈N è una successione di eventi indipendenti su uno spazio discreto (Ω, P ), tali che P (Ch ) = p ∈
[0, 1] per ogni h ∈ N, allora necessariamente p = 0 oppure p = 1.
Dimostrazione. Si veda la Sezione 2.5.1.
Vediamo ora due esempi significativi.
Esempio 2.3.31 (Probabilità di primo successo alla prova k). [!]
Sia (Ch )h=1,...,n una famiglia di n prove ripetute e indipendenti con probabilità p. L’evento “il primo successo
è alla k-esima prova” è definito da
Ak := C1c ∩ C2c ∩ · · · ∩ Ck−1
c
∩ Ck , 1 ≤ k ≤ n,
e per l’indipendenza vale
P (Ak ) = (1 − p)k−1 p, 1 ≤ k ≤ n. (2.3.13)
Per esempio, Ak rappresenta l’evento secondo cui, in una sequenza di n lanci di una moneta, si ottiene testa
per la prima volta al k-esimo lancio. Notiamo che P (Ak ) in (2.3.13) non dipende da n: intuitivamente, Ak
dipende solo da ciò che è successo fino alla k-esima prova ed è indipendente dal numero totale n di prove.
Esempio 2.3.32 (Probabilità di k successi su n prove). [!]
Consideriamo una famiglia (Ch )h=1,...,n di n prove ripetute e indipendenti con probabilità p. Calcoliamo la
probabilità dell’evento Ak “esattamente k prove hanno successo”.
1◦ modo: Con riferimento allo spazio canonico della Proposizione 2.3.30 e in particolare alla formula (2.5.1),
abbiamo Ak = Ωk . Dunque
!
X
k n−k n k
P (Ak ) = P ({ω}) = |Ωk |p (1 − p) = p (1 − p)n−k , 0 ≤ k ≤ n.
k
ω∈Ωk
Vedremo che P (Ak ) è legato al concetto di distribuzione binomiale nell’Esempio 2.4.17.

2◦ modo: L’evento Ak è del tipo
Ci1 ∩ · · · ∩ Cik ∩ Cick+1 · · · ∩ Cicn
al variare di {i1 , . . . , ik }, famiglia di indici di In : le possibili scelte di tali indici sono esattamente |Cn,k |. Inoltre,
per l’indipendenza, si ha
P Ci1 ∩ · · · ∩ Cik ∩ Cick+1 · · · ∩ Cicn = pk (1 − p)n−k
e dunque ritroviamo il risultato
!
n k
P (Ak ) = p (1 − p)n−k , 0 ≤ k ≤ n. (2.3.14)
k
Osservazione 2.3.33. Ripensiamo all’Esempio 2.2.17 relativo al calcolo della probabilità di estrarre (con
reinserimento) esattamente k palline bianche da un’urna che ne contiene b bianche e r rosse. Se Ch è l’evento
b
“la pallina della h-esima estrazione è bianca” allora p = P (Ch ) = b+r e la (2.3.14) fornisce la probabilità
cercata, in accordo con quanto avevamo ottenuto nell’Esempio 2.2.17 tramite il calcolo combinatorio.
Si noti che nell’approccio basato sul calcolo combinatorio si usa la probabilità uniforme, come sempre nei
problemi di conteggio. Invece, nell’approccio basato sulla famiglia di prove ripetute e indipendenti, impli-
citamente utilizziamo lo spazio canonico della Proposizione 2.3.30 senza tuttavia la necessità di dichiarare
esplicitamente lo spazio campionario e la misura di probabilità (che comunque non è quella uniforme).
2.3.4 Esempi
Proponiamo alcuni esempi ed esercizi riassuntivi su indipendenza e probabilità condizionata.
Esempio 2.3.34.
• Il signor Rossi ha due figli: qual è la probabilità che entrambi i figli siano maschi (evento A)?
Considerando come spazio campionario
Ω = {(M, M), (M, F), (F, M), (F, F)} (2.3.15)
con ovvio significato dei simboli, è chiaro che P (A) = 41 . La situazione è riassunta nella seguente
tabella in cui le celle rappresentano i quattro casi possibili e le relative probabilità sono indicate
all’interno dei cerchi: si ha A = {(M, M)}.
Maschio Femmina
1 1
Maschio (M, M) 4 (M, F) 4
1 1
Femmina (F, M) 4 (F, F) 4
• Il signor Rossi ha due figli. Sapendo che uno di questi è maschio (evento B), qual è la probabilità che
entrambi i figli siano maschi?
La risposta “intuitiva” (la probabilità è pari a 21 ) purtroppo è sbagliata. Per rendersene conto è suf-
ficiente considerare ancora lo spazio campionario Ω: ora, avendo l’informazione che (F, F) non è
possibile (ossia ha probabilità nulla “condizionatamente” all’informazione data che è il verificarsi
dell’evento B) e supposto che gli esiti (M, M), (M, F), (F, M) siano equiprobabili, se ne conclude che
la probabilità cercata è pari a 31 . La tabella seguente mostra come si ridistribuisce la probabilità
condizionatamente all’informazione che si verifica B.
Maschio Femmina
1 1
1
• Il signor Rossi ha due figli. Sapendo che il primogenito è maschio (evento C, differente da B del punto
precedente), qual è la probabilità che entrambi i figli siano maschi?
La risposta “intuitiva” (la probabilità è pari a 21 ) è corretta perché in questo caso FM e FF hanno
entrambe probabilità nulla (“condizionatamente” all’informazione data che è il verificarsi dell’evento
C). In altri termini, sapendo che il primogenito è maschio, tutto dipende dal fatto che il secondogenito
sia maschio o femmina, ossia da due eventi equiprobabili con probabilità pari a 21 . La tabella seguente
mostra come si ridistribuisce la probabilità condizionatamente all’informazione che si verifica C.
Maschio Femmina
1 1
Indicando con P la probabilità uniforme su Ω in (2.3.15), abbiamo

1 3 1
P (A) = P ({MM}) = , P (B) = P ({MM, MF, FM}) = , P (C) = P ({MM, MF}) = ,
4 4 2
e quindi, in base alla Definizione 2.3.2, vale
P (A) 1 P (A) 1
P (A | B) = = , P (A | C) = = ,
P (B) 3 P (C) 2
in accordo con quanto avevamo congetturato sopra per via intuitiva.

Esercizio 2.3.35. Dimostrare la Proposizione 2.3.4.
Esercizio 2.3.36. Usando la formula di Bayes provare che
P (A | B)P (B)
P (B | A) = (2.3.16)
P (A | B)P (B) + P (A | Bc )(1 − P (B))
e quindi è possibile determinare univocamente P (B | A) a partire da P (B), P (A | B) e P (A | Bc ).

Esercizio 2.3.37. Sappiamo che il 4% di una certa popolazione α è malato. Effettuando un test sperimentale
per rilevare se un individuo di α è malato, si osserva che il test ha la seguente affidabilità:
i) se l’individuo è malato, il test dà esito positivo nel 99% dei casi;
ii) se l’individuo è sano, il test dà esito positivo nel 2% dei casi.
In base a questi dati, qual è la probabilità che un individuo di α, positivo al test, sia veramente malato?
Supponiamo poi di utilizzare il test su un’altra popolazione β: considerando valide le stime di affidabilità
i) e ii), e osservando che il test dà esito positivo sul 6% della popolazione β, qual è la probabilità che un
individuo di β sia malato?
Soluzione. Indichiamo con T l’evento “il test su un individuo dà esito positivo” e con M l’evento “l’individuo è malato”. Per
ipotesi, P (M) = 4%, P (T | M) = 99% e P (T | M c ) = 2%. Allora per la (2.3.16) con B = M e A = T vale
P (M | T ) ≈ 67.35%
e dunque c’è un alto numero di “falsi positivi”. Questo è dovuto al fatto che la percentuale dei malati è relativamente bassa:
notiamo che in generale
P (T | M)P (M)
P (M | T ) = −→ 0+ per P (M) → 0+
P (T | M)P (M) + P (T | M c )(1 − P (M))
mentre P (M | T ) → 1− per P (M) → 1− . Osserviamo che in base ai dati possiamo anche calcolare, tramite la (2.3.2), la
percentuale dei test positivi
P (T ) = P (T | M)P (M) + P (T | M c )(1 − P (M)) ≈ 5.88%.
Per quanto riguarda il secondo quesito, abbiamo che per ipotesi P (T | M) = 99% e P (T | M c ) = 2%. Se il dato osservato è
che P (T ) = 6% allora dalla (2.3.7) ricaviamo
P (T ) − P (T | M c )
P (M) = ≈ 4.12%
P (T | M) − P (T | M c )
Il risultato si può interpretare dicendo che, prese per valide le stime di affidabilità i) e ii) del test, si ha che su un 6% di test
positivi circa il 33% sono falsi positivi.
Esercizio 2.3.38. Provare nel dettaglio quanto affermato nell’Esempio 2.3.22.

Esercizio 2.3.39. In riferimento all’Esercizio 2.3.24, costruire una misura di probabilità Q su Ω, diversa da
P , rispetto alla quale valga ancora
1 1
Q(α1 ) = , Q(β1 ) =
3 4
ma α1 e β1 non siano indipendenti in Q.
Esercizio 2.3.40. Consideriamo un mazzo di 40 carte: verificare che, rispetto alla probabilità uniforme,
i) gli eventi “estrarre una carta dispari” (evento A) ed “estrarre un 7” (evento B) non sono indipendenti;
ii) gli eventi “estrarre una carta dispari” (evento A) ed “estrarre una carta di denari” (evento B) sono
indipendenti.
Esercizio 2.3.41 ((2.3.11) non implica (2.3.10)). Consideriamo il lancio di tre dadi e gli eventi Aij definiti
da “il risultato del dado i-esimo è uguale a quello del dado j-esimo”. Allora A12 , A13 , A23 sono a due a due
indipendenti ma non sono indipendenti.
Esercizio 2.3.42 ((2.3.10) non implica (2.3.11)). Consideriamo il lancio di due dadi e, posto Ω = I6 × I6 , gli
eventi
A = {(ω1 , ω2 ) | ω2 ∈ {1, 2, 5}}, B = {(ω1 , ω2 ) | ω2 ∈ {4, 5, 6}}, C = {(ω1 , ω2 ) | ω1 + ω2 = 9}.
Allora vale la (2.3.10) ma non la (2.3.11).

Esercizio 2.3.43. Supponiamo che n oggetti siano messi a caso in r scatole, con r ≥ 1. Calcoliamo la
probabilità che “esattamente k oggetti siano messi nella prima scatola” (evento Ak ).
Soluzione. Se Ch è l’evento “l’h-esimo oggetto viene messo nella prima scatola” allora p = P (Ch ) = 1r . Inoltre P (Ak ) è data
dalla (2.3.14).
2.4 Distribuzioni
In questa sezione ci occupiamo della costruzione e caratterizzazione delle misure sullo spazio Euclideo,
con particolare attenzione alle misure di probabilità su Rd , chiamate distribuzioni. Il risultato fondamentale
in questa direzione è il Teorema di Carathéodory che enunciamo nella Sezione 2.4.7 e utilizzeremo spesso
nel seguito. L’idea è di definire una distribuzione dapprima su una famiglia particolare A di sottoinsiemi
dello spazio campionario Ω (per esempio, la famiglia degli intervalli nel caso Ω = R) e poi estenderla su
un’opportuna σ -algebra che contiene A . Il problema della scelta di tale σ -algebra è legato alla cardinalità
di Ω: se Ω è finito o numerabile, dare una probabilità su Ω è equivalente ad assegnare le probabilità dei
singoli esiti (cf. Osservazione 2.1.13); di conseguenza è naturale assumere P(Ω) come σ -algebra degli
eventi. Il caso generale, come abbiamo già visto nell’Esempio 2.1.29, è decisamente più complesso; infatti
la cardinalità di P(Ω) può essere “troppo grande” perché sia possibile definire su di essa una misura di
probabilità14 .
14 Se la cardinalità di Ω è finita, diciamo |Ω| = n, allora P(Ω) = 2n e se Ω ha cardinalità numerabile allora P(Ω) ha la cardinalità
del continuo (di R). Tuttavia se Ω = R, per il Teorema di Cantor la cardinalità di P(R) è strettamente maggiore della cardinalità di R.
2.4. DISTRIBUZIONI 57
2.4.1 σ -algebra generata e completamento di uno spazio di probabilità

Consideriamo un generico insieme non vuoto Ω. Osserviamo che se (Fi )i∈I è una famiglia (non neces-
sariamente numerabile) di σ -algebre su Ω allora l’intersezione
\
Fi
i∈I
è ancora una σ -algebra. Questo giustifica la seguente
Definizione 2.4.1. Data una famiglia A di sottoinsiemi di Ω, indichiamo con σ (A ) l’intersezione di tutte
le σ -algebre che contengono A . Poiché σ (A ) è la più piccola σ -algebra che contiene A , diciamo che A è la
σ -algebra generata da A .
Esempio 2.4.2. Nel caso in cui A = {A} sia formata da un solo insieme A ⊆ Ω, scriviamo σ (A) invece di
σ ({A}). Notiamo che vale
σ (A) = {∅, Ω, A, Ac }.
L’intersezione di σ -algebre è ancora una σ -algebra, ma un risultato analogo non vale per l’unione: date
due σ -algebre F1 e F2 , si ha F1 ∪ F2 ⊆ σ (F1 ∪ F2 ) e inclusione può essere stretta.
In generale è difficile dare una rappresentazione esplicita della σ -algebra generata da una famiglia
A : chiaramente σ (A ) deve contenere i complementari e le unioni numerabili di elementi di A ma, come
vedremo nella prossima sezione, ci sono casi in cui con queste operazioni non si ottengono tutti gli elementi
di σ (A ). Per questo motivo è utile introdurre delle tecniche che permettano di dimostrare che se una certa
proprietà vale per gli elementi di una famiglia A allora vale anche per tutti gli elementi di σ (A ): questo
tipo di risultati sono l’oggetto dell’Appendice A.1.
Osservazione 2.4.3 (Completamento di uno spazio di probabilità). Ricordiamo che uno spazio di pro-
babilità (Ω, F , P ) è completo se N ⊆ F ossia gli insiemi trascurabili (e quelli quasi certi) sono eventi. Si
può sempre “completare” uno spazio (Ω, F , P ) estendendo P alla σ -algebra σ (F ∪ N ) nel modo seguente.
Anzitutto si prova15 che σ (F ∪ N ) = Fˆ dove
Fˆ := {A ⊆ Ω | A △ B ∈ N per un certo B ∈ F }.
Qui A △ B = (A \ B) ∪ (B \ A) indica la differenza simmetrica di insiemi. Dato A ∈ Fˆ , poniamo Pˆ (A) := P (B)

dove B ∈ F è tale che A △ B ∈ N . Non è difficile verificare che:
• tale definizione è ben posta (non dipende dalla scelta di B);
• Pˆ è una misura di probabilità su (Ω, Fˆ );
• Pˆ (B) = P (B) per ogni B ∈ F ;
• (Ω, Fˆ , Pˆ ) è uno spazio completo.
Il completamento di uno spazio dipende dalla σ -algebra e dalla misura di probabilità fissate: al riguardo,
si veda l’Esercizio 2.4.14.
15 È chiaro che F ∪ N ⊆ Fˆ ⊆ σ (F ∪ N ) e quindi è sufficiente verificare che Fˆ è una σ -algebra per provare che Fˆ = σ (F ∪ N ). Ciò
segue dal fatto che:
i) Ac △ Bc = A △ B;
! !
S S S
ii) An △ Bn ⊆ (An △ Bn ) .
n∈N n∈N n∈N
2.4.2 σ -algebra di Borel

Introduciamo la σ -algebra che utilizzeremo sistematicamente quando lo spazio campionario è Rd . In
realtà, poiché non comporta alcuna difficoltà aggiuntiva e risulterà comodo in seguito, consideriamo il caso
in cui lo spazio campionario sia un generico spazio metrico (M, ϱ): al di là degli spazi Euclidei, un esempio
non banale è M = C[0, 1], lo spazio delle funzioni continue sull’intervallo [0, 1], munito della distanza del
massimo
ϱmax (f , g) = max |f (t) − g(t)|, f , g ∈ C[0, 1].
t∈[0,1]
In uno spazio metrico (M, ϱ), la σ -algebra di Borel Bϱ è la σ -algebra generata dalla topologia (la famiglia
degli aperti) indotta da ϱ.
Definizione 2.4.4 (σ -algebra di Borel). La σ -algebra di Borel Bϱ è la più piccola σ -algebra che contiene gli
aperti di (M, ϱ). Gli elementi di Bϱ sono chiamati Boreliani.
Notazione 2.4.5. Nel seguito indicheremo con Bd la σ -algebra di Borel nello spazio Euclideo Rd . È noto
che Bd è strettamente contenuta nella σ -algebra L dei misurabili secondo Lebesgue16 . Nel caso d = 1,
scriviamo semplicemente B invece di B1 .
Osservazione 2.4.6. [!] Per definizione, Bϱ contiene tutti i sottoinsiemi di M che si ottengono a partire
dagli aperti mediante le operazioni di passaggio al complementare e unione numerabile: per esempio, i
singoletti sono Boreliani17 , ossia {x} ∈ Bϱ per ogni x ∈ M.
Tuttavia, con le sole operazioni di passaggio al complementare e unione numerabile non si ottengono tutti gli
elementi di Bϱ . Addirittura in [12] si mostra che anche con una successione numerabile di operazioni di
passaggio al complementare e unione numerabile non si ottiene Bϱ . Più precisamente, data una famiglia
H di sottoinsiemi di uno spazio Ω, indichiamo con H ∗ la famiglia che contiene gli elementi di H , i
complementari degli elementi di H e le unioni numerabili di elementi di H . Inoltre definiamo H0 = H
e, per ricorrenza, la successione crescente di famiglie
∗
Hn = Hn−1 , n ∈ N.
Per induzione si vede che Hn ⊆ σ (H ) per ogni n ∈ N; tuttavia (cfr. [12] p. 30) nel caso in cui Ω = R e H è
come nell’Esercizio 2.4.7-ii), si ha che
[∞
Hn
n=0
è strettamente incluso in B = σ (H ).
Esercizio 2.4.7. Sia d = 1. Provare che B = σ (H ) dove H è una qualsiasi delle seguenti famiglie di
sotto-insiemi di R:
i) H = { ]a, b] | a, b ∈ R, a < b};
ii) H = { ]a, b] | a, b ∈ Q, a < b} (si noti che H è numerabile e pertanto si dice che la σ -algebra B è
numerabilmente generata);
iii) H = { ] − ∞, a] | a ∈ R}.
Un risultato analogo vale in dimensione maggiore di uno, considerando i pluri-intervalli.

16 (Rd , L , Leb ) è il completamento (cfr. Osservazione 2.4.3) rispetto alla la misura di Lebesgue Leb di Rd , B , Leb .
d d d d
17 Infatti
\
{x} = D(x, 1/n)
n≥1
dove i dischi D(x, 1/n) := {y ∈ M | ϱ(x, y) < 1/n} ∈ Bϱ essendo aperti per definizione.
2.4.3 Distribuzioni
Sia Bϱ la σ -algebra di Borel su uno spazio metrico (M, ϱ). Chiaramente, il caso Euclideo M = Rd è di
particolare interesse e dovrà sempre essere tenuto come punto di riferimento.
Definizione 2.4.8 (Distribuzione). Una distribuzione è una misura di probabilità su (M, Bϱ ).
Per fissare le idee, è bene dare la seguente interpretazione “fisica” del concetto di distribuzione µ. Pen-
siamo allo spazio campionario Rd come all’insieme delle possibili posizioni nello spazio di una particella
che non è osservabile con precisione: allora H ∈ Bd si interpreta come l’evento secondo cui “la particella è
nel Boreliano H” e µ(H) è la probabilità che la particella sia in H.
Attenzione! Il concetto di distribuzione sarà compreso pienamente solo quando avremo introdotto le va-
riabili aleatorie: ora non abbiamo ancora le nozioni sufficienti per apprezzare fino in fondo le distribuzioni.
Pertanto ci limitiamo ad accennare alcuni esempi che riprenderemo con più calma in seguito.
Cominciamo col provare alcune proprietà generali delle distribuzioni.
Proposizione 2.4.9 (Regolarità interna ed esterna). Sia µ una distribuzione su (M, Bϱ ). Per ogni H ∈ Bϱ
si ha
µ(H) = sup{µ(C) | C ⊆ H, C chiuso}

= inf{µ(A) | A ⊇ H, A aperto}.
La dimostrazione della Proposizione 2.4.9 è rimandata alla Sezione 2.5.2. Una conseguenza immediata
è il seguente
Corollario 2.4.10. Due distribuzioni µ1 e µ2 su (M, Bϱ ) sono uguali se e solo se µ1 (H) = µ2 (H) per ogni
aperto H (oppure per ogni chiuso H).
Osservazione 2.4.11. Se µ è una distribuzione su (M, Bϱ ) allora
A := {x ∈ M | µ({x}) > 0}
è finito o al più numerabile. Infatti, poniamo
An = {x ∈ M | µ({x}) > 1/n}, n ∈ N.
Allora, per ogni x1 , . . . , xk ∈ An si ha

k
1 = µ(M) ≥ µ({x1 , . . . , xk }) ≥
n
S
e di conseguenza An ha al più n elementi. Allora la tesi segue dal fatto che A = An dove l’unione è finita
n≥1
o numerabile.
Il caso “estremo” in cui µ concentra tutta la misura in un solo punto è illustrato nell’esempio seguente.
Esempio 2.4.12. Fissato x0 ∈ Rd , la distribuzione delta di Dirac δx0 centrata in x0 , è definita da

1 se x0 ∈ H,

H ∈ Bd .

δx0 (H) = 
0 se x < H,

0
Si noti in particolare che δx0 ({x0 }) = 1 e si pensi all’interpretazione “fisica” di questo fatto.
Prima di considerare altri esempi notevoli di distribuzioni, osserviamo che combinando opportunamen-
te delle distribuzioni si ottiene ancora una distribuzione.
Proposizione 2.4.13. Sia (µn )n∈N una successione di distribuzioni su (M, Bϱ ) e (pn )n∈N una successione di
numeri reali tali che
X∞
pn = 1 e pn ≥ 0, n ∈ N. (2.4.1)
n=1
Allora µ definita da
∞
X
µ(H) := pn µn (H), H ∈ Bϱ ,
n=1
è una distribuzione.
Dimostrazione. È facile verificare che µ(∅) = 0 e µ(M) = 1. Rimane da provare la σ -additività: si ha
  ∞  
 ]  X  ] 
µ  Hk  = pn µn  Hk  =
k∈N n=1 k∈N
(per la σ -additività delle µn )

∞
X ∞
X
= pn µn (Hk ) =
n=1 k=1
(riordinando i termini poiché si tratta di una serie a termini non-negativi)

X ∞
∞ X ∞
X
= pn µn (Hk ) = µ (Hk ) .
k=1 n=1 k=1
Esercizio 2.4.14. Ricordiamo il concetto di completamento di uno spazio, definito nell’Osservazione 2.4.3.
Su R consideriamo la distribuzione delta di Dirac δx centrata in x ∈ R, la σ -algebra banale {∅, R} e la
σ -algebra di Borel B. Provare che lo spazio (R, {∅, R}, δx ) è completo mentre lo spazio (R, B, δx ) non è
completo. Il completamento di (R, B, δx ) è lo spazio (R, P(R), δx ).
2.4.4 Distribuzioni discrete

D’ora in poi ci concentriamo sul caso M = Rd .
Definizione 2.4.15. Una distribuzione discreta è una distribuzione della forma
∞
X
µ(H) := pn δxn (H), H ∈ Bd , (2.4.2)
n=1
dove (xn ) è una successione di punti distinti di Rd e (pn ) soddisfa le proprietà in (2.4.1).
Osservazione 2.4.16. Ad una distribuzione discreta della forma (2.4.2) è naturale associare la funzione
µ̄ : Rd −→ [0, 1],
definita da
µ̄(x) = µ({x}), x ∈ Rd ,
o più esplicitamente 
 pn

 se x = xn ,
µ̄(x) = 
0
 altrimenti.
Poiché X
µ(H) = µ̄(x), H ∈ Bd , (2.4.3)
x∈H∩{xn |n∈N}
la distribuzione µ è univocamente associata alla funzione µ̄ che viene a volte chiamata funzione di distribu-
zione di µ. Come vedremo nei prossimi esempi, in generale è molto più semplice assegnare la funzione di
distribuzione µ̄ che non la distribuzione stessa µ: infatti µ è una misura (ossia una funzione d’insieme) a
differenza di µ̄ che è una funzione su Rd .
Consideriamo alcuni esempi notevoli di distribuzioni discrete.
Esempio 2.4.17.
i) (Bernoulli) Sia p ∈ [0, 1]. La distribuzione di Bernoulli di parametro p si indica con Bep ed è definita
come combinazione lineare di due delta di Dirac:
Bep = pδ1 + (1 − p)δ0 .
Esplicitamente si ha



 0 se 0, 1 < H,

1 se 0, 1 ∈ H,

H ∈ B,

Bep (H) = 
se 1 ∈ H, 0 < H,



 p

1 − p se 0 ∈ H, 1 < H.
e la funzione di distribuzione è semplicemente

p

 se x = 1,
µ̄(x) = 
1 − p
 se x = 0.
ii) (Uniforme discreta) Sia H = {x1 , . . . , xn } un sottoinsieme finito di Rd . La distribuzione uniforme discreta
su H si indica con UnifH ed è definita da
n
1X
UnifH = δxk ,
n
k=1
ossia 
1


n se x ∈ H,
UnifH ({x}) = 
0
 altrimenti.
iii) (Binomiale) Siano n ∈ N e p ∈ [0, 1]. La distribuzione binomiale di parametri n e p è definita su R da

n !
X n k
Binn,p = p (1 − p)n−k δk ,
k
k=0
ossia la funzione di distribuzione è


n
 k pk (1 − p)n−k per k = 0, 1, . . . , n,


µ̄(k) = Binn,p ({k}) = 
0
 altrimenti.
Per un’interpretazione della distribuzione binomiale si ricordi l’Esempio 2.2.17.

iv) (Geometrica) Fissato p ∈ ]0, 1], la distribuzione geometrica di parametro p è definita da

∞
X
Geomp = p(1 − p)k−1 δk ,
k=1
ossia la funzione di distribuzione è


p(1 − p)k−1 per k ∈ N,


µ̄(k) = Geomp ({k}) = 
0
 altrimenti.
Notiamo che
∞
X ∞
X
p(1 − p)k−1 = p (1 − p)h =
k=1 h=0
(poiché per ipotesi 0 < p ≤ 1)

p
= = 1.
1 − (1 − p)
Per un’interpretazione della distribuzione geometrica si ricordi l’Esempio 2.3.31.
iv) (Poisson) La distribuzione di Poisson di parametro λ > 0, centrata in x ∈ R, è definita da
∞
X λk
Poissonx,λ := e−λ δx+k . (2.4.4)
k!
k=0
Nel caso x = 0, si parla semplicemente di distribuzione di Poisson di parametro λ > 0 e la si indica

con Poissonλ : in questo caso la funzione di distribuzione è
 −λ k
 e k!λ per k ∈ N0 ,


µ̄(k) = Poissonλ ({k}) = 
0
 altrimenti.
2.4.5 Distribuzioni assolutamente continue

Consideriamo una funzione Bd -misurabile18
Z
γ : Rd −→ [0, +∞[ tale che γ(x)dx = 1. (2.4.5)
Rd
Allora µ definita da Z
µ(H) = γ(x)dx, H ∈ Bd , (2.4.6)
H
è una distribuzione. Infatti è ovvio che µ(∅) = 0 e µ(Rd ) = 1. Inoltre se (Hn )n∈N è una successione di
Boreliani disgiunti allora, per le proprietà dell’integrale di Lebesgue19 , si ha
] Z XZ X
µ Hn = U γ(x)dx = γ(x)dx = µ(Hn ),
n≥1 Hn n≥1 Hn n≥1
n≥1
che prova che µ è σ -additiva.

18 Ossia tale che γ −1 (H) ∈ B per ogni H ∈ B.
d
19 In particolare, qui usiamo il Teorema di Beppo-Levi.
Definizione 2.4.18 (Distribuzione assolutamente continua). Una funzione Bd -misurabile γ che soddi-
sfi le proprietà in (2.4.5) è detta funzione di densità (o, semplicemente, densità). Diciamo che µ è una
distribuzione assolutamente continua su Rd , e scriviamo µ ∈ AC, se esiste una densità γ per cui valga la
(2.4.6).
Nel seguito utilizzeremo anche l’abbreviazione20 PDF per le funzioni di densità. Si noti l’analogia fra le
proprietà (2.4.5) di una densità γ e le proprietà (2.4.1).
Osservazione 2.4.19. [!] La PDF di una µ ∈ AC non è univocamente determinata: lo è a meno di insiemi di
Borel che hanno misura di Lebesgue nulla; infatti il valore dell’integrale in (2.4.6) non cambia modificando
γ su un insieme di misura nulla secondo Lebesgue.
Inoltre se γ1 , γ2 sono PDF di µ ∈ AC allora γ1 = γ2 q.o. (rispetto alla misura di Lebesgue). Infatti
poniamo
An = {x | γ1 (x) − γ2 (x) ≥ 1/n} ∈ Bd , n ∈ N.
Allora Z Z Z
Leb(An )
≤ (γ1 (x) − γ2 (x)) dx = γ1 (x)dx − γ2 (x)dx = µ(An ) − µ(An ) = 0,
n An An An
da cui Leb(An ) = 0 per ogni n ∈ N. Ne segue che anche

∞
[
{x | γ1 (x) > γ2 (x)} = An
n=1
ha misura di Lebesgue nulla, ossia γ1 ≤ γ2 q.o. Analogamente si prova che γ1 ≥ γ2 q.o.
Osservazione 2.4.20. [!] Salvo diversamente specificato, quando considereremo un integrale di Lebesgue,
assumeremo sempre che la funzione integranda sia B-misurabile (e quindi, in particolare, misurabile se-
condo Lebesgue). Dunque nel seguito, a meno che non sia esplicitamente indicato, “misurabile” significa
“B-misurabile” e anche nella definizione di spazio Lp (spazio delle funzioni sommabili di ordine p) è as-
sunta implicitamente la B-misurabilità. Ciò risulta conveniente per molti motivi: per esempio, la com-
posizione di funzioni B-misurabili è ancora B-misurabile (fatto non necessariamente vero per funzioni
misurabili secondo Lebesgue).
Osservazione 2.4.21. [!] Se µ su Rd è assolutamente continua allora µ assegna probabilità nulla ai Boreliani
trascurabili secondo Lebesgue: precisamente si ha
Z
Lebd (H) = 0 =⇒ µ(H) = γ(x)dx = 0. (2.4.7)
H
In particolare, se H è finito o numerabile allora µ(H) = 0. In un certo senso le distribuzioni in AC sono

“complementari” alle distribuzioni discrete (ma attenzione all’Osservazione 2.4.23 seguente!): infatti que-
ste ultime assegnano probabilità positiva proprio ai singoli punti o a infinità numerabili di punti di Rd . La
(2.4.7) è una condizione necessaria21 affinché µ ∈ AC e fornisce un test pratico molto utile per verificare che
µ non ammette densità: se esiste H ∈ Bd tale che Lebd (H) = 0 e µ(H) > 0 allora µ < AC.
Ogni funzione di densità identifica una distribuzione: in pratica, assegnare una funzione di densità è
il modo più semplice e usato comunemente per definire una distribuzione assolutamente continua, come
mostrano i seguenti esempi notevoli.
Esempio 2.4.22.
20 PDF sta per “Probability Density Function” ed è anche il comando usato in Mathematica per le funzioni di densità.
21 In realtà, per il Teorema A.2.1.3 di Radon-Nikodym, la (2.4.7) è condizione necessaria e sufficiente per l’assoluta continuità.
i) (Uniforme) La distribuzione uniforme UnifK su K, dove K ∈ Bd ha misura di Lebesgue 0 < Lebd (K) <
∞, è la distribuzione con densità
1
γ= 1 .
Lebd (K) K
Allora Z
1 Lebd (H ∩ K)
UnifK (H) = dx = , H ∈ Bd .
H∩K Lebd (K) Lebd (K)
Cosa succede se Lebd (K) = ∞? È possibile definire una probabilità uniforme su Rd ?
ii) (Esponenziale) La distribuzione esponenziale Expλ di parametro λ > 0 è la distribuzione con densità

λe−λx se x ≥ 0,


γ(x) = 
0
 se x < 0.
Allora Z
Expλ (H) = λ e−λx dx, H ∈ B.
H∩[0,+∞[
Si noti che Expλ (R) = Expλ (R≥0 ) = 1 per ogni λ > 0.
iii) (Normale reale) La distribuzione normale reale Nµ,σ 2 di parametri µ ∈ R e σ > 0 è la distribuzione su B
con densità
1 1 x−µ 2
γ(x) = √ e− 2 ( σ ) , x ∈ R.
2πσ 2
Allora Z
1 1 x−µ 2
Nµ,σ 2 (H) = √ e− 2 (σ ) dx, H ∈ B.
2πσ 2 H
La N0,1 , corrispondente a µ = 0 e σ = 1, è detta distribuzione normale standard.
Osservazione 2.4.23. [!] Non tutte le distribuzioni sono del tipo analizzato finora (ossia discrete o assolu-
tamente continue). Per esempio in R2 si consideri il “segmento”
I = {(x, 0) | 0 ≤ x ≤ 1}
e la distribuzione
µ(H) = Leb1 (H ∩ I), H ∈ B2 ,
dove Leb1 indica la misura di Lebesgue 1-dimensionale (o più precisamente la misura di Hausdorff22 1-
dimensionale in R2 ). Chiaramente µ < AC poiché µ(I) = 1 e I ha misura di Lebesgue nulla in R2 ; d’altra
parte µ non è una distribuzione discreta perché µ({(x, y)}) = 0 per ogni (x, y) ∈ R2 .
L’idea è che una distribuzione può concentrare la probabilità su sottoinsiemi di Rd di dimensione (nel
senso di Hausdorff23 ) minore di d: per esempio, una superficie sferica (che ha dimensione di Hausdorff
uguale a 2) in R3 . Le cose possono complicarsi ulteriormente poiché la dimensione di Hausdorff può essere
frazionaria (al riguardo si veda l’Esempio 2.4.36).
22 Si veda, per esempio, il Capitolo 2 in [46].
23 Cf. Capitolo 2.5 in [46].
2.4.6 Funzioni di ripartizione (CDF)

Il concetto di densità visto nella sezione precedente permette di identificare una distribuzione (che,
ricordiamolo, è una misura di probabilità) mediante una funzione su Rd (che, matematicamente, è più ma-
neggevole rispetto ad una misura): ovviamente ciò è possibile se la distribuzione è assolutamente continua.
Un risultato analogo vale per le distribuzioni discrete (cfr. Osservazione 2.1.13).
In questa sezione presentiamo un approccio molto più generale e introduciamo il concetto di funzione di
ripartizione che ci permetterà di identificare una generica distribuzione tramite una funzione. Per ora ci li-
mitiamo a considerare il caso uno-dimensionale: nella Sezione 2.4.9 tratteremo il caso multi-dimensionale.
Definizione 2.4.24. La funzione di ripartizione di una distribuzione µ su (R, B) è definita da
Fµ (x) := µ(] − ∞, x]), x ∈ R.
Utilizziamo anche l’abbreviazione24 CDF per le funzioni di ripartizione.
Esempio 2.4.25.
i) La CDF della delta di Dirac δx0 è


0 se x < x0 ,


F(x) = 
1
 se x ≥ x0 .
n
1 P
ii) La CDF della distribuzione discreta Unifn := n δk è
k=1



0 se x < 1,
k

F(x) = 
 n se k ≤ x < k + 1, per 1 ≤ k ≤ n − 1, (2.4.8)

1

se x ≥ n.
Si veda la Figura 2.1 per il caso n = 5.
Figura 2.1: Grafico della CDF di una v.a. con distibuzione Unif5
24 CDF sta per “Cumulative Distribution Function” ed è anche il comando usato in Mathematica per le funzioni di ripartizione.
iii) Come mostrato in Figura 2.2, le funzioni di densità e di ripartizione della distribuzione Unif[1,3] sono
rispettivamente 

0 x ≤ 1,
1 
 x−1

γ = 1[1,3] e F(x) =   2 1 < x ≤ 3,
2 
1

x > 3.
1.0
0.8
0.6
0.4
0.2
1 2 3 4
Figura 2.2: Funzione di densità (linea continua) e di ripartizione (linea tratteggiata) della distribuzione
Unif[1,3]
iv) Come mostrato in Figura 2.3 (nel caso λ = 2), le funzioni di densità e di ripartizione della distribu-
zione Expλ sono rispettivamente
γ(x) = λe−λx e F(x) = 1 − e−λx , x ≥ 0, (2.4.9)
e sono nulle per x < 0.
2.0
1.5
1.0
0.5
-1 1 2 3
Figura 2.3: Funzione di densità (linea continua) e di ripartizione (linea tratteggiata) della distribuzione
Exp2
Figura 2.4: A sinistra: grafico della densità normale standard. A destra: grafico della CDF normale stan-
dard. Notare la scala differente nell’asse delle ordinate.
v) La CFD di Nµ,σ 2 è
Z x t−µ 2
1 − 21
F(x) = √ e σ dt, x ∈ R.
2πσ 2 −∞
Per la normale standard si ha

! !
1 x
F(x) = erf √ + 1 , x ∈ R,
2 2
dove Z x
2 2
erf(x) = √ e−t dt, x ∈ R,
π 0
è la funzione errore. La Figura 2.4 mostra la densità e la CDF della distribuzione normale standard.
Teorema 2.4.26. [!] La CDF Fµ di una distribuzione µ gode delle seguenti proprietà:
i) Fµ è monotona (debolmente) crescente;
ii) Fµ è continua a destra, ossia vale
Fµ (x) = Fµ (x+) := lim+ Fµ (y);

y→x
iii) vale
lim Fµ (x) = 0 e lim Fµ (x) = 1;
x→−∞ x→+∞
Dimostrazione. Per la i): se x ≤ y si ha ] − ∞, x] ⊆ ] − ∞, y] e quindi, per la monotonia di µ, Fµ (x) ≤ Fµ (y).

Per la ii): consideriamo una successione decrescente (xn )n∈N che tende a x per n → ∞: si ha
\
] − ∞, x] = ] − ∞, xn ]
n∈N
e quindi per la continuità dall’alto di µ (cf. Proposizione 2.1.31-iii))

Fµ (x) = µ(] − ∞, x]) = lim µ(] − ∞, xn ]) = lim Fµ (xn ).
n→∞ n→∞
La tesi segue dall’arbitrarietà della successione (xn )n∈N . I due limiti in iii) seguono rispettivamente dalla
continuità dall’alto e dal basso di µ.
Osservazione 2.4.27. [!] Nelle ipotesi della proposizione precedente, data la monotonia di Fµ , esiste anche
il limite da sinistra
Fµ (x−) := lim− Fµ (y),
y→x
ma in generale vale solo

Fµ (x−) ≤ Fµ (x), x ∈ R.
Infatti per ogni successione crescente (xn )n∈N che tende a x per n → ∞, si ha
[
] − ∞, xn ] = ] − ∞, x[
n∈N
e dunque in questo caso, per la continuità dal basso di P (cf. Proposizione 2.1.31-ii)), si ha
Fµ (x−) = µ(] − ∞, x[) e µ({x}) = ∆Fµ (x) := Fµ (x) − Fµ (x−). (2.4.10)
Dunque µ assegna probabilità positiva nei punti in cui Fµ è discontinua e in tali punti la probabilità è uguale al
salto di Fµ . D’altra parte, è facile vedere che una funzione monotona crescente
F : R −→ R
ammette solo un’infinità al più numerabile di punti di discontinuità. Infatti, posto
1
An = {x ∈ R | |x| ≤ n, ∆F(x) ≥ }, n ∈ N,
n
si ha che la cardinalità |An | è finita poiché
|An | X
≤ ∆F(x) ≤ F(n) − F(−n) < ∞.
n
x∈An
Poiché l’insieme dei punti di discontinuità di F è uguale all’unione degli An al variare di n ∈ N, si conferma
quanto già detto nell’Osservazione 2.4.11 ossia che per ogni distribuzione µ, l’insieme dei punti tali che µ({x}) >
0 è finito o al più numerabile.
Esercizio 2.4.28. Provare che la CDF della distribuzione normale Nµ,σ 2 è strettamente monotona crescente.
2.4.7 Teorema di estensione di Carathéodory

Ricordiamo il concetto di misura (Definizione 2.1.21) su un’algebra (Definizione 2.1.19). Uno dei risul-
tati su cui si fonda tutta la teoria della probabilità è il seguente
Teorema 2.4.29 (Teorema di Carathéodory). [!!!] Sia µ una misura σ -finita su un’algebra A . Esiste ed è
unica la misura σ -finita che estende µ alla σ -algebra generata da A .
Dimostrazione. La dimostrazione è lunga e articolata; nella Sezione 2.5.3 dimostriamo una versione più
generale del Teorema 2.4.29, che sarà più facile da applicare in seguito.
Il Teorema di Carathéodory è un risultato di esistenza dell’estensione di µ da A alla σ -algebra σ (A ) e
di unicità dell’estensione. È notevole il fatto che non sia richiesta alcuna ipotesi su Ω che è un qualunque
insieme non vuoto: infatti la dimostrazione è basata su argomenti puramente insiemistici.
2.4.8 Dalle CDF alle distribuzioni

La costruzione di un modello probabilistico su R (che rappresenti un fenomeno aleatorio, sia esso la
posizione di una particella in un modello della fisica oppure il prezzo di un titolo rischioso in un modello
della finanza oppure la temperatura in un modello meteorologico) consiste nell’assegnare una particolare
distribuzione. Dal punto di vista pratico e intuitivo, il primo passo è stabilire come la distribuzione assegna
la probabilità agli intervalli che sono gli eventi più semplici a cui pensare: avevamo fatto cosı̀ nell’Esempio
2.1.29, quando avevamo definito la distribuzione uniforme. In realtà sappiamo (dal Corollario 2.4.10) che
una distribuzione reale è identificata da come agisce sugli intervalli o equivalentemente, poiché
µ(]a, b]) = Fµ (b) − Fµ (a),
dalla funzione di ripartizione. Allora sembra naturale domandarsi se, data una funzione F che soddisfi le
proprietà che una CDF deve avere, esista una distribuzione µ che abbia F come CDF.
La risposta è affermativa ed è contenuta nel seguente Teorema 2.4.33 che dimostriamo come corollario
del Teorema 2.4.29 di Carathéodory. Facciamo prima qualche richiamo preliminare.
Definizione 2.4.30 (Funzione assolutamente continua (AC)). Una funzione F è assolutamente continua25
su [a, b] (in simboli, F ∈ AC[a, b]) se si scrive nella forma
Zx
F(x) = F(a) + γ(t)dt, x ∈ [a, b], (2.4.11)
a
con γ ∈ L1 ([a, b]).
Il seguente risultato, la cui dimostrazione è data in appendice (cfr. Proposizione A.2.3.3), afferma che le
funzioni assolutamente continue sono derivabili quasi ovunque.
Proposizione 2.4.31. Sia F ∈ AC[a, b] come in (2.4.11). Allora F è derivabile q.o. e vale F ′ = γ q.o.: di
conseguenza si ha Zx
F(x) = F(a) + F ′ (t)dt, x ∈ [a, b]. (2.4.12)
a
In altri termini, le funzioni assolutamente continue costituiscono la classe di funzioni per cui vale il teorema
fondamentale del calcolo integrale ossia, in parole povere, le fuzioni che sono uguali all’integrale della propria
derivata. È bene osservare che anche se F è derivabile q.o. con F ′ ∈ L1 ([a, b]), non è detto che valga la formula
(2.4.12). Un semplice contro-esempio è dato dalla funzione F = 1[1/2,1] : si ha F ′ = 0 q.o. su [0, 1] ma
Z 1
1 = F(1) − F(0) , F ′ (x)dx = 0.
0
Vedremo nell’Esempio 2.4.36, che F può anche essere continua, derivabile q.o. con F ′ ∈ L1 ([a, b]) e questo
ancora non assicura la validità della formula (2.4.12).
Esercizio 2.4.32. Si verifichi che la funzione



 0 x ≤ 0,
√


F(x) = 
 x 0 < x < 1,

1

x ≥ 1,
è assolutamente continua su [0, 1].

25 La vera definizione di funzione assolutamente continua è data nell’Appendice A.2.4: in realtà, la Definizione 2.4.30 è una
caratterizzazione equivalente dell’assoluta continuità.
Il principale risultato di questa sezione è il seguente
Teorema 2.4.33. [!!] Sia F : R −→ R una funzione monotona (debolmente) crescente e continua a destra
(ossia F gode delle proprietà i) e ii) della Teorema 2.4.26). Allora:
i) esiste ed è unica una misura µF su (R, B) che sia σ -finita e soddisfi
µF (]a, b]) = F(b) − F(a), a, b ∈ R, a < b; (2.4.13)
ii) se F verifica anche

lim F(x) = 0 e lim F(x) = 1,
x→−∞ x→+∞
(ossia F gode della proprietà iii) della Teorema 2.4.26) allora µF è una distribuzione;
iii) infine, F è assolutamente continua se e solo se µF ∈ AC: in tal caso, F ′ è una densità di µF .
Osservazione 2.4.34. È bene sottolineare che il Teorema 2.4.33 contiene anche un risultato di unicità, per
cui ad una CDF è associata un’unica misura per cui valga la (2.4.13). Per esempio, la misura associata alla
funzione F(x) = x è la misura di Lebesgue e lo stesso vale prendendo F(x) = x + c per ogni c ∈ R.
Osservazione 2.4.35. Ci sono due casi particolarmente importanti nelle applicazioni:
1) se F è costante a tratti e indichiamo con xn i punti di discontinuità di F (che, per l’Osservazione 2.4.27,
sono una quantità finita o al più numerabile) allora, per la (2.4.10), µF è la distribuzione discreta
X
µF = ∆F(xn )δxn
n
dove ∆F(xn ) indica l’ampiezza del salto di F in xn ;
2) se F è assolutamente continua allora µF ∈ AC con densità uguale alla derivata F ′ .
Esempio 2.4.36. La funzione di Vitali

V : R −→ [0, 1]
è continua, monotona crescente, tale che V (x) = 0 per x ≤ 0, V (x) = 1 per x ≥ 1 e con derivata prima V ′ che
esiste quasi ovunque ed è uguale a zero: per una costruzione della funzione di Vitali si veda, per esempio,
[46] pag.192. Poiché V soddisfa le ipotesi del Teorema 2.4.33, esiste ed è unica la distribuzione µV tale che
µV (]a, b]) = V (b) − V (a).
Poiché V è continua, si ha µV ({x}) = 0 per ogni x ∈ [0, 1] (cf. (2.4.10)) e quindi µV non è una distribuzione
discreta. Se fosse µV ∈ AC esisterebbe una densità γ tale che
Z x
V (x) = µV ([0, x]) = γ(y)dy, x ≥ 0.
0
Per la Proposizione 2.4.31 dovrebbe essere γ = V ′ = 0 quasi ovunque e ciò è assurdo. Dunque µV non
è neppure una distribuzione assolutamente continua, benché la sua CDF V sia continua e derivabile quasi
ovunque.
Per chi vuole approfondire la questione, il fatto è che µV assegna probabilità 1 all’insieme di Cantor (per
maggiori dettagli si veda p.37 in [46]) che è un sottoinsieme dell’intervallo [0, 1], che ha misura di Lebesgue
log 2
nulla e dimensione di Hausdorff pari a log 3 .
Figura 2.5: Grafico della funzione di Vitali
Esercizio 2.4.37. Sia data la funzione




 0 per x < 0,
x

F(x) = 
 3 per 0 ≤ x < 1,

1

per x ≥ 1.
Si verifichi che F è una CDF. Se µF è la distribuzione associata, si calcoli µF ([0, 1]), µF ([0, 1[) e µF (Q). Infine
si verifichi che µF = 32 δ1 + 31 Unif[0,1] .
Esercizio 2.4.38. Per ogni n ∈ N sia




 0 per x < 0,

 n
Fn (x) = 
 x per 0 ≤ x < 1,

1

per x ≥ 1.
Si provi che Fn è una CDF assolutamente continua e si determini la densità γn della distribuzione µn
associata. Posto
F(x) := lim Fn (x)
n→∞
si verifichi che F è una CDF e si determini la distribuzione associata. Posto
γ(x) := lim γn (x),

n→∞
la funzione γ è una densità?
Esercizio 2.4.39. Data una numerazione (qn )n∈N dei razionali di [0, 1], definiamo la distribuzione

2−n se x = qn ,


µ({x}) = 
0
 altrimenti.
La CDF Fµ è continua nel punto 1? Determinare Fµ (1) e Fµ (1−).

Soluzione. Se n̄ ∈ N è tale che qn̄ = 1 allora ∆Fµ (1) = 21n̄ . Poiché Fµ (1) = 1 allora Fµ (1−) = 1 − 21n̄ .
2.4.9 Funzioni di ripartizione su Rd

Il caso multi-dimensionale è analogo al caso scalare con qualche piccola differenza.
Definizione 2.4.40. La funzione di ripartizione di una distribuzione µ su (Rd , Bd ) è definita da
Fµ (x) := µ(] − ∞, x1 ] × · · · ×] − ∞, xd ]), x = (x1 , . . . , xd ) ∈ Rd . (2.4.14)
Esempio 2.4.41. Riportiamo i grafici di alcune CDF bidimensionali:

i) Dirac centrata in (1, 1) in Figura 2.6;
Figura 2.6: Grafico della CDF di Dirac bidimensionale centrata in (1, 1).
ii) Uniforme sul quadrato [0, 1] × [0, 1] in Figura 2.7. La densità è la funzione indicatrice γ = 1[0,1]×[0,1] ;
iii) Normale standard bidimensionale in Figura 2.8, con densità
2
x2 − y
e− 2 2
γ(x, y) = , (x, y) ∈ R2 .
2π
Esempio 2.4.42. [!] Consideriamo la CDF bidimensionale
e−y(x+1) − 1
!
−y
F(x, y) = 1 − e + 1R≥0 ×R≥0 (x, y),
x+1
e supponiamo di sapere che F è assolutamente continua, ossia

Zx Zy
F(x, y) = γ(ξ, η)dξdη
−∞ −∞
per una certa γ ∈ mB + . Allora, come nel caso uno-dimensionale (cfr. Teorema 2.4.33-iii)), una densità per
F si ottiene semplicemente differenziando:
∂x ∂y F(x, y) = ye−xy 1R≥0 ×R≥0 (x, y).

Figura 2.7: Distribuzione Unif[0,1]×[0,1] : grafico della densità (a sinistra) e della CDF (a destra).
Figura 2.8: Distribuzione normale standard bidimensionale: grafico della densità (a sinistra) e della CDF
(a destra).
Ora enunciamo un teorema che è la naturale estensione dei risultati visti in dimensione uno. Osservia-
mo prima che, fissati k ∈ {1, . . . , d}, a ≤ b reali e x ∈ Rd , vale
µ(] − ∞, x1 ] × · · · ×] − ∞, xk−1 ]×]a, b]×] − ∞, xk+1 ] × · · · ×] − ∞, xd ])
(k)
= Fµ (x1 , . . . , xk−1 , b, xk+1 , . . . , xd ) − Fµ (x1 , . . . , xk−1 , a, xk+1 , . . . , xd ) =: ∆]a,b] Fµ (x),
e più in generale
(1) (d)
µ(]a1 , b1 ] × · · · ×]ad , bd ]) = ∆]a · · · ∆]a Fµ (x). (2.4.15)
1 ,b1 ] d ,bd ]
Teorema 2.4.43. La CDF Fµ di una distribuzione d-dimensionale µ gode delle seguenti proprietà:
i) Monotonia: per ogni scelta di bk > ak ≥ −∞, 1 ≤ k ≤ d, si ha
(1) (d)
∆]a · · · ∆]a Fµ (x) ≥ 0; (2.4.16)
1 ,b1 ] d ,bd ]
ii) Continuità a destra: per ogni x ∈ Rd vale

lim Fµ (y) = Fµ (x),
y→x+
dove y → x+ significa che yk → xk+ per ogni k = 1, . . . , d;

iii) se xk → −∞ per un k = 1, . . . , d allora Fµ (x) → 0 e se xk → +∞ per ogni k = 1, . . . , d allora Fµ (x) → 1.
Viceversa, se
F : Rd −→ [0, 1]
è una funzione che gode delle proprietà i), ii) e iii) allora esiste una distribuzione su Rd tale che F = Fµ ,
ossia valga la (2.4.14).
Dimostrazione. La dimostrazione è del tutto analoga al caso uno-dimensionale. Notiamo solo che la (2.4.16)
segue direttamente dalla (2.4.15), essendo µ a valori non-negativi.
Osservazione 2.4.44. La proprietà (2.4.16) di monotonia non è del tutto banale. Nel caso d = 2, si scrive
esplicitamente nel modo seguente
(1) (2)
0 ≤ ∆]a ∆]a F(x) = F(b1 , b2 ) − F(b1 , a2 ) − (F(a1 , b2 ) − F(a1 , a2 ))
1 ,b1 ] 2 ,b2 ]
(2) (1)
= F(b1 , b2 ) − F(a1 , b2 ) − (F(b1 , a2 ) − F(a1 , a2 )) = ∆]a ∆]a F(x).
2 ,b2 ] 1 ,b1 ]
Per esempio, la funzione




1 se x1 , x2 ≥ 1,

2/3 se x1 ≥ 1 e 0 ≤ x2 < 1,


F(x1 , x2 ) = 
2/3 se x2 ≥ 1 e 0 ≤ x1 < 1,





0 altrimenti,
pur essendo “monotona in ogni direzione”, non verifica la i) del teorema precedente. In effetti si ha
(1) (2)
∆]1/2,1] ∆]1/2,1] F(x) = −1/3,
e quindi se esistesse la distribuzione relativa a F, essa assegnerebbe probabilità negativa al quadrato
]1/2, 1]×]1/2, 1] e ciò è ovviamente assurdo.
Esercizio 2.4.45. Siano I := [0, 1] × {0} ⊆ R2 e µ la distribuzione uniforme su I, definita da
µ(H) = Leb1 (H ∩ I), H ∈ B2 ,
dove Leb1 indica la misura di Lebesgue uno-dimensionale26 . Si determini la CDF di µ.
26 Un po’ impropriamente, dato A ∈ B, stiamo identificando Leb (A) con Leb (A × {0}).
1 1
2.5. APPENDICE 75
2.4.10 Sintesi
Come si costruisce e definisce una misura di probabilità? Il primo strumento generale di teoria della
misura è il Teorema di Carathéodory in base al quale ogni misura definita su un’algebra A si estende in
modo unico alla σ -algebra generata da A . Per esempio, in base a tale teorema, la misura definita per ogni
intervallo [a, b] come la lunghezza b − a, si estende in modo unico alla misura di Lebesgue sulla σ -algebra
di Borel.
Un ruolo particolarmente importante giocano le misure di probabilità definite su Rd , Bd , chiamate
anche distribuzioni. Fra di esse le distribuzioni discrete sono combinazioni lineari (anche numerabili) di
delta di Dirac: esempi notevoli sono le distribuzioni di Bernoulli, uniforme discreta, binomiale e di Pois-
son. Altre importanti distribuzioni sono quelle assolutamente continue, ossia quelle che si rappresentano in
termini di integrale di Lebesgue di una certa funzione, detta densità: esempi notevoli sono le distribuzioni
uniforme, esponenziale e normale (ma ne vedremo tante altre...).
Le distribuzioni discrete e quelle assolutamente continue sono definite in termini di funzioni reali: la
funzione di distribuzione nel primo caso e la densità nel secondo caso. Questo è un fatto rilevante perché è
molto più facile maneggiare una funzione di variabile reale (o, in generale, in Rd ) che non una distribuzione
(che è una misura e ha come argomento i Boreliani). D’altra parte esistono distribuzioni che non sono nè
discrete nè assolutamente continue.
Per caratterizzare una generica distribuzione in termini di una funzione reale abbiamo introdotto il
concetto di funzione di ripartizione (o CDF). Una CDF gode di alcune proprietà generali: nel caso uno-
dimensionale, una CDF è monotona crescente (e di conseguenza derivabile q.o.), continua a destra e ha limi-
te a +∞ e −∞ rispettivamente pari a 1 e 0. Abbiamo dimostrato che è equivalente assegnare una distribuzione
o la sua CDF.
Infine il fatto che una distribuzione µ abbia densità è equivalente al fatto che la sua CDF F sia assoluta-
mente continua, ossia al fatto che valga
Zx
µ(]a, x]) = F(x) − F(a) = F ′ (t)dt, a < x,
a
e in tal caso F′ è una densità di µ.
2.5 Appendice
2.5.1 Dimostrazione della Proposizione 2.3.30
Proposizione 2.3.30 Per ogni n ∈ N e p ∈ [0, 1], esiste uno spazio discreto (Ω, P ) su cui è definita in modo
canonico una famiglia (Ch )h=1,...,n di n prove ripetute e indipendenti con probabilità p.
Se (Ch )h∈N è una successione di eventi indipendenti su uno spazio discreto (Ω, P ), tali che P (Ch ) = p ∈
[0, 1] per ogni h ∈ N, allora necessariamente p = 0 oppure p = 1.
Dimostrazione. Poniamo
Ω = {ω = (ω1 , . . . , ωn ) | ωi ∈ {0, 1}}
e consideriamo la partizione
n
[
Ω= Ωk , Ωk := {ω ∈ Ω | ω1 + · · · + ωn = k}. (2.5.1)
k=0
Chiaramente ogni ω appartiene ad uno e un solo Ωk e quindi Ωk ∩ Ωh = ∅ per k , h, e inoltre Ωk ↔ Cn,k

(l’elemento (ω1 , . . . , ωn ) di Ωk è univocamente individuato dalla scelta delle k fra n componenti che sono
uguali a 1) ossia !
n
|Ωk | = , k = 0, . . . , n. (2.5.2)
k
Definiamo P ponendo
P ({ω}) = pk (1 − p)n−k ω ∈ Ωk , k = 0, . . . , n.
Allora P è una probabilità poiché
n n X n !
X X X n k
P (Ω) = P (Ωk ) = P ({ω}) = p (1 − p)n−k = 1,
k
k=0 k=0 ω∈Ωk k=0
per la (2.2.10).
Proviamo che gli eventi
Ch = {ω ∈ Ω | ωh = 1}, h = 1, . . . , n,
formano una famiglia di n prove ripetute e indipendenti con probabilità p. Infatti siano r ∈ N, r ≤ n, e
h1 , . . . , hr ∈ In distinti. Si ha27
 r  n
  r 
\  X  \ 
P  Chi  =
  P Ωk ∩  Chi 
 
i=1 k=r i=1
 r 
n
X \ 
= Ωk ∩  Chi  pk (1 − p)n−k =

k=r i=1

!
r
Chi è esattamente uguale a n−r
T
(osservando che, analogamente alla (2.5.2), la cardinalità di Ωk ∩ k−r )
i=1
n !
X n−r k
= p (1 − p)n−k =
k−r
k=r
(col cambio di indice j = k − r)

n−r !
X n−r j
= pr p (1 − p)n−j−r = pr .
j
j=0
Dunque abbiamo provato che, per r = 1,
P (Ch ) = p, h = 1, . . . , n,
e per 1 < r ≤ n si ha  r 
\  r
Y
r
P  Chi  = p =

 
 P Chi .
i=1 i=1
Quindi (Ch )h=1,...,n è una famiglia di n prove ripetute e indipendenti con probabilità p.
Per quanto riguarda la seconda parte dell’enunciato: sia (Ck )k∈N una successione di eventi indipendenti
su uno spazio discreto (Ω, P ), tali che P (Ck ) = p ∈ [0, 1] per ogni k ∈ N. Non è restrittivo supporre p ≥ 12
perché altrimenti basta considerare la successione degli eventi complementari. In questo caso dimostriamo
che necessariamente p = 1. Infatti supponiamo per assurdo che sia p < 1. Fissiamo un generico esito ω ∈ Ω:
per c c
ogni
n ∈ N poniamo C̄n = Cn oppure C̄n = Cn a seconda che sia ω ∈ Cn oppure ω ∈ Cn . Notiamo che
1
P C̄n ≤ P (Cn ) poiché abbiamo assunto P (Cn ) = p ≥ 2 . Per ogni n ∈ N gli eventi C̄1 , . . . , C̄n sono indipendenti
e
\n
{ω} ⊆ C̄k
k=1
r
!
27 Si noti che l’indice nella sommatoria parte da r poiché Ω ∩ T
Chi = ∅ se k < r (perché?).
k
i=1
2.5. APPENDICE 77
da cui
n
Y
P ({ω}) ≤ P C̄k ≤ pn .
k=1
Passando al limite in n otteniamo P ({ω}) = 0 e questo è assurdo per l’arbitrarietà di ω ∈ Ω.

Proposizione 2.4.9 Sia µ una distribuzione su uno spazio metrico (M, Bϱ ). Per ogni H ∈ Bϱ si ha
µ(H) = sup{µ(C) | C ⊆ H, C chiuso} (2.5.3)

= inf{µ(A) | A ⊇ H, A aperto}. (2.5.4)
A parole, si dice che ogni Boreliano è regolare internamente (per la (2.5.3)) ed esternamente (per la (2.5.4))
per µ.
Dimostrazione. Indichiamo con R l’insieme dei Boreliani regolari (internamente ed esternamente) per µ. È
chiaro che H ∈ R se e solo se per ogni ε > 0 esistono un chiuso C e un aperto A tali che
C ⊆ H ⊆ A, µ(A \ C) < ε.
Proviamo anzitutto che R è una σ -algebra:
• poiché l’insieme vuoto è aperto e chiuso, si ha ∅ ∈ R;
• se H ∈ R allora per ogni ε > 0 esistono un chiuso Cε e un aperto Aε tali che Cε ⊆ H ⊆ Aε e µ(Aε \Cε ) < ε.
Passando al complementare, si ha Acε ⊆ H c ⊆ Cεc , con Acε chiuso, Cεc aperto e Cεc \ Acε = Aε \ Cε . Questo
prova che H c ∈ R;
• sia (Hn )n∈N una successione in R e H =

S
Hn . Allora, per ogni ε > 0 esistono due successioni,
n≥1
ε
Sn,ε )n∈N di chiusi e (An,ε )n∈N di aperti, tali che Cn,ε ⊆ Hn ⊆ An,ε e µ(An,ε \ Cn,ε ) < 3n . Posto Aε =
(C
An,ε , si ha che Aε è aperto e H ⊆ Aε . D’altra parte, per la continuità dal basso di µ (cfr. Proposizione
n≥1
ε
2.1.31), esiste k ∈ N tale che µ(C \ Cε ) ≤ 2 dove
∞
[ n
[
C := Cn,ε , Cε := An,ε .
n=1 n=1
Chiaramente, Cε è chiuso e Cε ⊆ H. Infine si ha

∞ ∞
X ε X ε ε
µ(Aε \ Cε ) ≤ µ(Aε \ C) + µ(C \ Cε ) ≤ µ(An,ε \ Cn,ε ) + ≤ + = ε.
2 3n 2
n=1 n=1
Questo prova che R è una σ -algebra. Proviamo ora che R contiene tutti i chiusi: dato C chiuso poniamo
ϱ(x, C) = inf ϱ(x, y) e
y∈C
An = {x ∈ M | ϱ(x, C) < 1/n}, n ∈ N.
T
Allora An è aperto e An ↘ C: infatti, se x ∈ n≥1 An allora ϱ(x, C) = 0 e quindi x ∈ C, essendo C chiuso.
Allora, per la continuità dall’alto di µ si ha limn→∞ µ(An ) = µ(C).
La tesi segue dal fatto che Bϱ è la più piccola σ -algebra che contiene gli aperti (e i chiusi) e quindi
Bϱ ⊆ R.
2.5.3 Dimostrazione del Teorema 2.4.29 di Carathéodory

Diamo una versione leggermente più generale (e decisamente più comoda da applicare) del Teorema
2.4.29: in questa sezione seguiamo la trattazione di [39]. Introduciamo la definizione di pre-misura su una
generica famiglia di sottoinsiemi di Ω.
Definizione 2.5.1 (Pre-misura). Sia A una famiglia di sottoinsiemi di Ω tale che ∅ ∈ A . Una pre-misura
su A è una funzione
µ : A −→ [0, +∞]
tale che
i) µ(∅) = 0;
ii) µ è additiva su A nel senso che per ogni A, B ∈ A , disgiunti e tali che A ∪ B ∈ A , vale
µ (A ⊎ B) = µ(A) + µ(B);
iii) µ è σ -sub-additiva su A nel senso che per ogni A ∈ A e (An )n∈N successione di elementi in A , vale
[ X
A⊆ An =⇒ µ(A) ≤ µ (An ) .
n∈N n∈N
Si dice che µ è σ -finita se esiste una successione (An )n∈N in A tale che Ω =
S
An e µ(An ) < ∞ per ogni
n∈N
n ∈ N.
Definizione 2.5.2 (Semianello). Una famiglia A di sottoinsiemi di Ω è un semianello se:
i) ∅ ∈ A
ii) A è ∩-chiusa;
iii) per ogni A, B ∈ A la differenza B \ A è unione finita e disgiunta di insiemi di A .
Esempio 2.5.3. [!] La famiglia A degli intervalli limitati del tipo
]a, b], a, b ∈ R, a ≤ b,
è un semianello (ma non è un’algebra). La famiglia formata dalle unioni finite di intervalli (anche illimitati)
del tipo
]a, b], −∞ ≤ a ≤ b ≤ +∞,
è un’algebra (ma non è una σ -algebra). Tali famiglie generano la σ -algebra di Borel di R.
Ricordiamo che una misura µ è una funzione σ -additiva e tale che µ(∅) = 0 (cfr. Definizione 2.1.21).
Osserviamo che, per la Proposizione 2.1.31, µ è una pre-misura su un’algebra A se e solo se µ è una misura
su A . Inoltre il seguente lemma fornisce un risultato naturale la cui dimostrazione, che rinviamo alla fine
della sezione, non è del tutto ovvia.
Lemma 2.5.4. Se µ è una misura su un semianello A allora µ è una pre-misura su A .
Teorema 2.5.5 (Teorema di Carathéodory - versione generale). Sia µ una pre-misura σ -finita su un semia-
nello A . Esiste ed è unica la misura σ -finita che estende µ a σ (A ).
Osservazione 2.5.6. Il Teorema 2.4.29 è un corollario del Teorema 2.5.5: infatti ogni algebra è un semia-
nello e, per il Lemma 2.5.4, ogni misura su un semianello è una pre-misura.
2.5. APPENDICE 79
Dimostrazione del Teorema 2.5.5. L’unicità è un corollario del Teorema A.1.3 di Dynkin: per i dettagli, si
vedano il Corollario A.1.5 e l’Osservazione A.1.6. Qui proviamo l’esistenza dell’estensione: in questa di-
mostrazione non utilizziamo l’ipotesi che µ sia σ -finita; d’altra parte se µ è σ -finita allora anche la sua
estensione lo è. Dividiamo la prova in alcuni passi.
Passo 1. Introduciamo la famiglia dei ricoprimenti di B ⊆ Ω che siano finiti o numerabili e costituiti da
elementi di A : [
U (B) := {R ⊆ A | R al più numerabile e B ⊆ A}.
A∈R
Definiamo
µ∗ : P(Ω) −→ [0, +∞]
ponendo X
µ∗ (B) = inf µ(A), (2.5.5)
R ∈U (B)
A∈R
con la convenzione inf ∅ = +∞.
Lemma 2.5.7. µ∗ è una misura esterna ossia verifica le seguenti proprietà:
i) µ∗ (∅) = 0;
ii) µ∗ è monotona;
iii) µ∗ è σ -sub-additiva.
Inoltre µ∗ (A) = µ(A) per ogni A ∈ A .
Dimostrazione. Poiché ∅ ∈ A la i) è ovvia. Se B ⊆ C allora U (C) ⊆ U (B) da cui segue cheSµ∗ (B) ≤ µ∗ (C) e
questo prova la ii). Infine, data una successione (Bn )n∈N di sottoinsiemi di Ω e posto B = Bn , proviamo
n∈N
che X
µ∗ (B) ≤ µ∗ (Bn ).
n∈N
È sufficiente considerare il caso < ∞ per ogni n ∈ N, da cui segue in particolare che U (Bn ) , ∅.
µ∗ (Bn )
Allora, fissato ε > 0, per ogni n ∈ N esiste Rn ∈ U (Bn ) tale che
X ε
µ(A) ≤ µ∗ (Bn ) + n .
2
A∈Rn
Ora R := Rn ∈ U (B) e quindi

S
n∈N
X X X X
µ∗ (B) ≤ µ(A) ≤ µ(A) ≤ µ∗ (Bn ) + ε
A∈R n∈N A∈Rn n∈N
da cui la tesi per l’arbitrarietà di ε.

Infine proviamo che µ∗ coincide con µ su A . Per ogni A ∈ A si ha µ∗ (A) ≤ µ(A) per definizione. Viceversa,
poiché µ è σ -sub-additiva su A , per ogni R ∈ U (A) si ha
X
µ(A) ≤ µ(B)
B∈R
da cui segue che µ(A) ≤ µ∗ (A).

Passo 2. Indichiamo con M (µ∗ ) la famiglia degli A ⊆ Ω tali che
µ∗ (E) = µ∗ (E ∩ A) + µ∗ (E ∩ Ac ), ∀E ⊆ Ω.
Gli elementi di M (µ∗ ) sono detti µ∗ -misurabili. Proveremo che M (µ∗ ) è una σ -algebra e µ∗ è una misura su
M (µ∗ ). Cominciamo col seguente risultato parziale.
Lemma 2.5.8. M (µ∗ ) è un’algebra.
Dimostrazione. Chiaramente ∅ ∈ M (µ∗ ) e M (µ∗ ) è chiusa rispetto al passaggio al complementare. Proviamo

che l’unione di A, B ∈ M (µ∗ ) appartiene a M (µ∗ ): per ogni E ⊆ Ω si ha
µ∗ (E) = µ∗ (E ∩ A) + µ∗ (E ∩ Ac )
= µ∗ (E ∩ A ∩ B) + µ∗ (E ∩ A ∩ Bc ) + µ∗ (E ∩ Ac ∩ B) + µ∗ (E ∩ Ac ∩ Bc )
| {z } | {z }
≥µ∗ (E∩A∪B) =µ∗ (E∩(A∪B)c )
poiché
(E ∩ A ∪ B) ⊆ (E ∩ A ∩ B) ∪ (E ∩ A ∩ Bc ) ∪ (E ∩ Ac ∩ B).
Questo prova che
µ∗ (E) ≥ µ∗ (E ∩ (A ∪ B)) + µ∗ (E ∩ (A ∪ B)c ).
D’altra parte µ∗ è sub-additiva e quindi A ∪ B ∈ M (µ∗ ).
Lemma 2.5.9. µ∗ è una misura su M (µ∗ ).
Dimostrazione. È sufficiente provare che µ∗ è σ -additiva su M (µ∗ ). Per ogni A, B ∈ M (µ∗ ) con A ∩ B = ∅, si
ha
µ∗ (A ⊎ B) = µ∗ ((A ⊎ B) ∩ A) + µ∗ ((A ⊎ B) ∩ Ac ) = µ∗ (A) + µ∗ (B).
Dunque µ∗ è additiva su M (µ∗ ). Inoltre, sappiamo già dal Punto 1 che µ∗ è σ -sub-additiva e dunque la tesi
segue dalla Proposizione 2.1.31.
Lemma 2.5.10. M (µ∗ ) è una σ -algebra.
Dimostrazione. Sappiamo già che M (µ∗ ) è ∩-chiusa. Se verifichiamo che M (µ∗ ) è una famiglia monotona
(cfr. Definizione A.1.1) la tesi seguirà dal Lemma A.1.2. A tal fine è sufficiente provare che se (An )n∈N è
una successione in M (µ∗ ) e An ↗ A allora A ∈ M (µ∗ ). Grazie alla sub-additività di µ∗ , basta provare che
µ∗ (E) ≥ µ∗ (E ∩ A) + µ∗ (E ∩ Ac ), E ⊆ Ω. (2.5.6)
Poniamo A0 = ∅ e osserviamo che
µ∗ (E ∩ An ) = µ∗ ((E ∩ An ) ∩ An−1 ) + µ∗ ((E ∩ An ) ∩ Acn−1 )

= µ∗ (E ∩ An−1 ) + µ∗ (E ∩ (An \ An−1 )).
Di conseguenza si ha
n
X
µ∗ (E ∩ An ) = µ∗ (E ∩ (Ak \ Ak−1 )) (2.5.7)
k=1
e, per la monotonia di µ∗ ,
µ∗ (E) = µ∗ (E ∩ An ) + µ∗ (E ∩ Acn )
≥ µ∗ (E ∩ An ) + µ∗ (E ∩ Ac ) =
2.5. APPENDICE 81
(per la (2.5.7))
n
X
= µ∗ (E ∩ (Ak \ Ak−1 )) + µ∗ (E ∩ Ac ).
k=1
Mandando n all’infinito e usando la σ -sub-additività di µ∗ , si ha

∞
X
µ∗ (E) ≥ µ∗ (E ∩ (Ak \ Ak−1 )) + µ∗ (E ∩ Ac ) ≥ µ∗ (E ∩ A) + µ∗ (E ∩ Ac ),
k=1
che prova la (2.5.6) e conclude la prova.
Passo 3. Come ultimo passo proviamo che
σ (A ) ⊆ M (µ∗ ).
Poiché M (µ∗ ) è una σ -algebra, è sufficiente provare che A ⊆ M (µ∗ ): inoltre, essendo µ∗ sub-additiva, basta
provare che per ogni A ∈ A e E ⊆ Ω, con µ∗ (E) < ∞, vale
µ∗ (E) ≥ µ∗ (E ∩ A) + µ∗ (E ∩ Ac ). (2.5.8)
Fissato ε > 0, esiste un ricoprimento (An )n∈N di E formato da elementi di A e tale che
X
µ(An ) ≤ µ∗ (E) + ε. (2.5.9)
n∈N
Poiché A è un semianello, si ha An ∩ A ∈ A e quindi, per il Lemma 2.5.7,
µ∗ (An ∩ A) = µ(An ∩ A). (2.5.10)

(n) (n)
D’altra parte, ancora per il fatto che A è un semianello, per ogni n ∈ N esistono B1 , . . . , Bk ∈ A tali che
n
kn
(n)
]
An ∩ Ac = An \ A = Bj .
j=1
Allora
 
]kn 
∗ c (n) 
∗
µ (An ∩ A ) = µ  Bj  ≤
 
 
j=1
(essendo µ∗ sub-additiva)
kn
(n)
X
≤ µ∗ (Bj ) =
j=1
(poiché µ∗ = µ su A per il Lemma 2.5.7)
kn
(n)
X
= µ(Bj ) =
j=1
(essendo µ additiva)
= µ(An ∩ Ac ). (2.5.11)
Ora proviamo la (2.5.8): per la σ -sub-additività di µ∗ si ha

X
µ∗ (E ∩ A) + µ∗ (E ∩ Ac ) ≤ (µ∗ (An ∩ A) + µ∗ (An ∩ Ac )) ≤
n∈N
(per la (2.5.10) e la (2.5.11))

X X
≤ (µ(An ∩ A) + µ(An ∩ Ac )) = µ(An ) ≤
n∈N n∈N
(per la (2.5.9))
≤ µ∗ (E) + ε.
La tesi segue dall’arbitrarietà di ε. Questo conclude la prova del Teorema 2.5.5.
Proviamo ora che la σ -algebra M (µ∗ ), costruita nel Passo 2 della dimostrazione del Teorema di Ca-
rathéodory, contiene gli insiemi trascurabili. Notiamo che in generale M (µ∗ ) è strettamente più grande di
σ (A ): è questo il caso della misura di Lebesgue se A è la famiglia degli intervalli limitati del tipo
]a, b], a, b ∈ R, a ≤ b.
In questo caso, σ (A ) è la σ -algebra di Borel e M (µ∗ ) è la σ -algebra dei misurabili secondo Lebesgue.
D’altra parte, vediamo anche che gli elementi di M (µ∗ ) differiscono da quelli di σ (A ) solo per insiemi
µ∗ -trascurabili.
Corollario 2.5.11. [!] Sotto le ipotesi del Teorema di Carathéodory, nello spazio con misura (Ω, M (µ∗ ), µ∗ )
si ha:
i) se µ∗ (M) = 0 allora M ∈ M (µ∗ ) e quindi (Ω, M (µ∗ ), µ∗ ) è uno spazio con misura completo;
ii) per ogni M ∈ M (µ∗ ), tale che µ∗ (M) < ∞, esiste A ∈ σ (A ) tale che M ⊆ A e µ∗ (A \ M) = 0.
Dimostrazione. Per la sub-additività e la monotonia di µ∗ , se µ∗ (M) = 0 e E ⊆ Ω si ha
µ∗ (E) ≤ µ∗ (E ∩ M) + µ∗ (E ∩ M c ) = µ∗ (E ∩ M c ) ≤ µ∗ (E),
e questo prova la i).

È chiaro che, per definizione di µ∗ , per ogni n ∈ N esiste An ∈ σ (A ) tale che M ⊆ An e
1
µ∗ (An ) ≤ µ∗ (M) + . (2.5.12)
n
An ∈ σ (A ), si ha M ⊆ A e, passando al limite in (2.5.12) e grazie alla continuità dall’alto di µ∗
T
Posto A =
n∈N
su M (µ∗ ), abbiamo µ∗ (A) = µ∗ (M). Allora, poiché M ∈ M (µ∗ ), si ha
µ∗ (A) = µ∗ (A ∩ M) + µ∗ (A ∩ M c ) = µ∗ (M) + µ∗ (A \ M)
da cui µ∗ (A \ M) = 0.
Concludiamo la sezione con la

2.5. APPENDICE 83
Dimostrazione del Lemma 2.5.4. Se µ è una misura sul semianello A allora le proprietà i) e ii) di pre-misura
sono ovvie. Proviamo che µ è monotona: se A, B ∈ A con A ⊆ B allora, per la proprietà iii) di semianello,
esistono C1 , . . . , Cn ∈ A tali che
]n
B\A = Ck .
k=1
Quindi si ha
µ(B) = µ(A ⊎ (B \ A)) = µ(A ⊎ C1 ⊎ · · · ⊎ Cn )
n
X
= µ(A) + µ(Ck ) ≥ µ(A),
k=1
da cui la monotonia di µ.
La dimostrazione della proprietà iii), ossia la σ -sub-additività di µ, è una versione un po’ più complicata
della dimostrazione della Proposizione 2.1.22-ii): tutta la complicazione è dovuta al fatto che µ è definita
su un semianello (invece che su un’algebra come nella Proposizione 2.1.22) e questo limita le operazioni
insiemistiche che possiamo utilizzare. Siano A ∈ A e (An )n∈N successione in A tali che
[
A⊆ An .
n∈N
Poniamo A
e1 = A1 e
n−1
[ n−1
\
en = An \
A Ak = (An \ (An ∩ Ak )) , n ≥ 2. (2.5.13)
k=1 k=1
(n) (n)
Allora, per le proprietà ii) e iii) di semianello, esistono Jn ∈ N e C1 , . . . , CJn ∈ A tali che
Jn
(n)
]
en =
A Cj .
j=1
Ora, A
en ⊆ An e quindi, per monotonia e additività, si ha
Jn
(n)
X
µ(An ) ≥ µ(A
en ) = µ(Cj ). (2.5.14)
j=1
Inoltre, per la (2.5.13),

Jn
(n)
[ ] ]]
A⊆ An = en =
A Cj
n∈N n∈N n∈N j=1
e quindi
 
Jn
 ] ] 
(n) 
µ(A) = µ  A ∩ Cj  =
 
 
n∈N j=1
(n)
(poiché A ∩ Cj ∈ A e, per ipotesi, µ è una misura e quindi, in particolare, σ -additiva)
Jn
(n)
XX
= µ A ∩ Cj ≤
n∈N j=1
(per monotonia)
Jn
(n)
XX
≤ µ Cj =
n∈N j=1
(per la (2.5.14))
X
≤ µ(An )
n∈N
e questo conclude la prova.
2.5.4 Dimostrazione del Teorema 2.4.33

Teorema 2.4.33 [!!] Sia F : R −→ R una funzione monotona (debolmente) crescente e continua a destra
(ossia F gode delle proprietà i) e ii) della Teorema 2.4.26). Allora:
i) esiste ed è unica una misura µF su (R, B) che sia σ -finita e soddisfi
µF (]a, b]) = F(b) − F(a), a, b ∈ R, a < b;
ii) se F verifica anche

lim F(x) = 0 e lim F(x) = 1,
x→−∞ x→+∞
(ossia F gode della proprietà iii) della Teorema 2.4.26) allora µF è una distribuzione;
iii) infine, F è assolutamente continua se e solo se µF ∈ AC: in tal caso, F ′ è densità di µF .
Dimostrazione. [Parte i)] Consideriamo il semianello A dell’Esempio 2.5.3, formato dagli intervalli limitati
del tipo
]a, b], a, b ∈ R, a ≤ b,
e su A definiamo µF ponendo
µF (]a, b]) = F(b) − F(a).
La tesi segue dal Teorema 2.5.5 di Carathéodory una volta provato che µF è una pre-misura σ -finita (cfr.
Definizione 2.5.1). Per definizione, µF (∅) = 0 e chiaramente µF è σ -finita. Inoltre µF è additiva poiché, se
]a, b], ]c, d] sono intervalli disgiunti tali che la loro unione è un intervallo allora necessariamente28 b = c,
cosicché
µF (]a, b]⊎]b, d]) = µF (]a, d]) = F(d) − F(a) = (F(b) − F(a)) + (F(d) − F(b)) = µF (]a, b]) + µF (]b, d]) .
Infine proviamo che µF è σS -sub-additiva. Basta considerare ]a, b] ∈ A e una successione (An )n∈N in A ,
del tipo An = ]an , bn ], tale che An = ]a, b] e provare che
n∈N
∞
X
µF (A) ≤ µF (An ).
n=1
Fissiamo ε > 0: per la continuità a destra di F, esistono δ > 0 e una successione di numeri positivi (δn )n∈N
tali che
ε
F(a + δ) ≤ F(a) + ε, F(bn + δn ) ≤ F(bn ) + n . (2.5.15)
2
28 Non è restrittivo assumere a ≤ d.
2.5. APPENDICE 85
La famiglia (]an , bn + δn [)n∈N è un ricoprimento29 aperto del compatto [a + δ, b] e quindi ammette un sotto-
ricoprimento finito: per fissare le idee, indichiamo con (nk )k=1,...,N gli indici di tale sotto-ricoprimento.
Allora, per la prima disuguaglianza in (2.5.15), si ha
F(b) − F(a) ≤ ε + F(b) − F(a + δ)
≤ ε + µF (]a + δ, b]) ≤
(poiché µF è finitamente additiva e quindi anche finitamente sub-additiva)
N
X
≤ε+ µF ]ank , bnk + δnk ]
k=1
∞
X
≤ε+ (F(bn + δn ) − F(an )) ≤
n=1
(per la seconda disuguaglianza in (2.5.15))

∞ ∞
X ε X
≤ε+ + (F(bn ) − F(an ))
2n
n=1 n=1
X∞
= 2ε + (F(bn ) − F(an )) ,
n=1
e la tesi segue dall’arbitrarietà di ε > 0.

[Parte ii)] Poiché
µF (R) = lim F(x) − lim F(x) = 1,
x→+∞ x→−∞
dove la prima uguaglianza è per costruzione e la seconda per ipotesi, allora µF è una misura di probabilità
su R, ossia una distribuzione.
[Parte iii)] Se F è assolutamente continua, per la Proposizione 2.4.31, per ogni a < b si ha
Zb
µF (]a, b]) = F(b) − F(a) = F ′ (x)dx.
a
Notiamo che F ′ ≥ 0 q.o. perché limite del rapporto incrementale di una funzione monotona crescente:
passando al limite per a → −∞ e b → +∞, per il Teorema di Beppo-Levi, si ha
Z
1 = µF (R) = F ′ (x)dx
R
e quindi F′ è una densità. Consideriamo la distribuzione definita da

Z
µ(H) := F ′ (x)dx, H ∈ B.
H
Allora µF coincide con µ sul semianello A degli intervalli limitati del tipo ]a, b]. Poiché A genera B, per il
risultato di unicità del Teorema di Carathéodory, si ha µF = µ su B e quindi µF ∈ AC con densità F ′ .
Viceversa, se µF ∈ AC con densità γ allora
Zx
F(x) − F(a) = γ(t)dt, a < x,
a
e quindi F è assolutamente continua e, per la Proposizione 2.4.31, F ′ = γ q.o.

29 Poiché, per ogni n ∈ N, ]a , b + δ [ contiene ]a , b ].
n n n n n
Capitolo 3
Variabili aleatorie
The theory of probability as a

mathematical discipline can and
should be developed from axioms in
exactly the same way as geometry
and algebra.
Andrej N. Kolmogorov
Le variabili aleatorie descrivono quantità che dipendono da un fenomeno o esperimento aleatorio: per esem-
pio, se l’esperimento è il lancio di due dadi, la quantità (variabile aleatoria) che interessa studiare potrebbe
essere il risultato della somma dei due lanci. Il fenomeno aleatorio è modellizzato con uno spazio di proba-
bilità (Ω, F , P ) (nell’esempio, lo spazio discreto Ω = I6 × I6 con la probabilità uniforme) e la quantità che
interessa è descritta dalla variabile aleatoria X che ad ogni esito ω ∈ Ω (ossia ad ogni possibile esito del
fenomeno aleatorio) associa il valore X(ω): nell’esempio, ω = (ω1 , ω2 ) ∈ I6 × I6 e X(ω) = ω1 + ω2 .
3.1 Variabili aleatorie

Consideriamo uno spazio di probabilità (Ω, F , P ) e fissiamo d ∈ N. Dati H ⊆ Rd e una funzione X :
Ω −→ Rd , indichiamo con
(X ∈ H) := {ω ∈ Ω | X(ω) ∈ H} = X −1 (H)
la contro-immagine di H mediante X. Intuitivamente (X ∈ H) rappresenta l’insieme degli esiti ω (ossia,
gli stati del fenomeno aleatorio) tali che X(ω) ∈ H. Riprendendo l’esempio del lancio dei dadi, se H = {7}
allora (X ∈ H) rappresenta l’evento “il risultato della somma del lancio di due dadi è 7” ed è costituito da
tutte le coppie (ω1 , ω2 ) tali che ω1 + ω2 = 7. Nel caso d = 1, useremo anche le seguenti notazioni:
(X > c) := {ω ∈ Ω | X(ω) > c}, (X = c) := {ω ∈ Ω | X(ω) = c}, c ∈ R.
Inoltre, se X, Y sono due funzioni da (Ω, F , P ) a valori in Rd , scriviamo
(X = Y ) := {ω ∈ Ω | X(ω) = Y (ω)}.
Si noti che non è detto che (X ∈ H) sia un evento, ossia non è detto che (X ∈ H) ∈ F (a parte il caso
banale degli spazi di probabilità discreti, in cui assumiamo che F = P(Ω) e quindi tutti i sottoinsiemi di
Ω sono eventi). In particolare, senza ipotesi ulteriori non ha senso scrivere P (X ∈ H). D’altra parte nelle
applicazioni si è interessati a calcolare la probabilità di (X ∈ H): ciò giustifica la seguente definizione di
variabile aleatoria.
87
88 CAPITOLO 3. VARIABILI ALEATORIE
Definizione 3.1.1. Una variabile aleatoria (abbreviato in v.a.) su (Ω, F , P ) a valori in Rd è una funzione
X : Ω −→ Rd
tale che (X ∈ H) ∈ F per ogni H ∈ Bd : scriviamo X ∈ mF e diciamo anche che X è F -misurabile. Indi-
chiamo con mF + la classe delle funzioni F -misurabili e non-negative; inoltre bF è la classe delle funzioni
F -misurabili e limitate. Nel caso particolare in cui (Ω, F ) = (Rn , Bn ), X è semplicemente una funzione
Borel-misurabile.
Osservazione 3.1.2. In questo capitolo ci limiteremo a considerare v.a. a valori in Rd . Tuttavia è bene
conoscere anche la seguente definizione generale: dato uno spazio misurabile (E, E ), una variabile aleatoria
su (Ω, F , P ) a valori in E è una funzione
X : Ω −→ E
F -misurabile nel senso che X −1 (E ) ⊆ F ossia (X ∈ H) ∈ F per ogni H ∈ E .
Come abbiamo spiegato sopra, nel caso di spazi discreti la condizione di misurabilità è automaticamente
soddisfatta e ogni funzione X : Ω −→ Rd è una v.a. In generale, la condizione (X ∈ H) ∈ F fa sı̀ che P (X ∈ H)
sia ben definito e quindi si possa parlare della probabilità che X assuma valori nel Boreliano H.
Osservazione 3.1.3. [!] Se
X : Ω −→ Rd
è una funzione qualsiasi, H ⊆ Rd e (Hi )i∈I è una famiglia qualsiasi di sottoinsiemi di Rd , allora si ha
 
c [  [
−1 c −1 −1 
X (H ) = X (H) , X  Hi  =
 X −1 (Hi ) .
i∈I i∈I
Come conseguenza, si ha che n o

σ (X) := X −1 (Bd ) = X −1 (H) | H ∈ Bd
è una σ -algebra, chiamata σ -algebra generata da X. Osserviamo che X ∈ mF se e solo se σ (X) ⊆ F .
Esempio 3.1.4. Consideriamo X : I6 −→ R definita da

1 se n è pari,


X(n) = 
0 se n è dispari.

Possiamo interpretare X come la v.a. che indica se il risultato del lancio di un dado è un numero pari o
dispari. Allora si ha
σ (X) = {∅, Ω, {2, 4, 6}, {1, 3, 5}}
ossia σ (X) contiene proprio gli eventi “significativi” per la v.a. X. Nei modelli probabilistici per le appli-
cazioni, σ (X) è chiamata la σ -algebra delle informazioni su X e viene utilizzata per rappresentare l’insieme
delle informazioni riguardanti il valore aleatorio X. Ciò si spiega, almeno parzialmente, col fatto che σ (X)
contiene gli eventi del tipo (X ∈ H) con H ∈ B: questi sono gli eventi “rilevanti” ai fini di studiare la
quantità aleatoria X, nel senso che conoscere la probabilità di questi eventi equivale a conoscere con quale
probabilità X assuma i propri valori.
Lemma 3.1.5. Sia H è una famiglia di sottoinsiemi di Rd tale che σ (H ) = Bd . Se X −1 (H ) ⊆ F allora
X ∈ mF .
Dimostrazione. Sia
E = {H ∈ Bd | X −1 (H) ∈ F }.
Allora E è una σ -algebra e poiché E ⊇ H per ipotesi, allora E ⊇ σ (H ) = Bd da cui la tesi.
3.1. VARIABILI ALEATORIE 89
Corollario 3.1.6. Siano Xk : Ω −→ R con k = 1, . . . , d. Le seguenti proprietà sono equivalenti:
i) X := (X1 , . . . , Xd ) ∈ mF ;
ii) Xk ∈ mF per ogni k = 1, . . . , d;
iii) (Xk ≤ x) ∈ F per ogni x ∈ R e k = 1, . . . , d.
Dimostrazione. È semplice provare che i) implica ii); il viceversa segue dal Lemma 3.1.5, dal fatto che
d
\
((X1 , . . . , Xd ) ∈ H1 × · · · × Hd ) = (Xk ∈ Hk )
k=1
e H := {H1 × · · · × Hd | Hk ∈ B} è una famiglia di sottoinsiemi di Rd tale che σ (H ) = Bd .

Infine, ii) e iii) sono equivalenti ancora per il Lemma 3.1.5, poiché la famiglia degli intervalli del tipo
] − ∞, x] genera B (cfr. Esercizio 2.4.7-iii)).
Presentiamo ora i primi semplici esempi di v.a., scrivendo anche esplicitamente la σ -algebra σ (X)
generata da X e l’immagine X(Ω) = {X(ω) | ω ∈ Ω} che è l’insieme dei valori possibili di X.
Esempio 3.1.7.
i) Dato c ∈ Rd , consideriamo la funzione costante X ≡ c. Si ha
σ (X) = {∅, Ω}
e quindi X è una v.a. In questo caso X(Ω) = {c} e ovviamente c rappresenta l’unico valore che X può
assumere. Dunque si tratta di una variabile “non proprio aleatoria”.
ii) Dato un evento A ∈ F , la funzione indicatrice di A è definita da


1 ω ∈ A,


X(ω) = 1A (ω) = 
0 ω ∈ Ac .

X è una v.a. poiché

σ (X) = {∅, A, Ac , Ω},
e in questo caso X(Ω) = {0, 1}.
iii) Sia (Ch )h=1,...,n una famiglia di n prove ripetute e indipendenti. Consideriamo la v.a. S che conta il
numero di successi fra le n prove: in altri termini
n
X
S(ω) = 1Ch (ω), ω ∈ Ω.
h=1
Con riferimento allo spazio canonico della Proposizione 2.3.30 si ha anche

n
X
S(ω) = ωh , ω ∈ Ω.
h=1
e, ricordando la formula (2.5.1), abbiamo (S = k) = Ωk con k = 0, 1, . . . , n. Quindi σ (X) contiene ∅ e

tutte le unioni degli eventi Ω0 , . . . , Ωn . In questo caso S(Ω) = {0, 1, . . . , n}.
iv) Sia (Ch )h=1,...,n una famiglia di n prove ripetute e indipendenti. Consideriamo la v.a. T che indica il
“primo tempo” di successo fra le n prove: in altri termini
T (ω) = min{h | ω ∈ Ch }, ω ∈ Ω,
e poniamo per convenzione min ∅ = n + 1. In questo caso T (Ω) = {1, . . . , n, n + 1}. Con riferimento allo
spazio canonico della Proposizione 2.3.30, si ha anche
T (ω) = min{h | ωh = 1}, ω ∈ Ω.
σ (X) contiene ∅ e tutte le unioni degli eventi (T = 1), . . . , (T = n + 1). Notiamo che
(T = 1) = C1 , (T = n + 1) = C1c ∩ · · · ∩ Cnc
e, per 1 < k ≤ n,
(T = k) = C1c ∩ · · · ∩ Ck−1
c
∩ Ck .
Proposizione 3.1.8. Valgono le seguenti proprietà delle funzioni misurabili:
i) siano
X : Ω −→ Rd , f : Rd −→ Rn ,
con X v.a. e f ∈ mBd . Allora si ha
σ (f ◦ X) ⊆ σ (X), (3.1.1)
e di conseguenza f (X) ∈ mF ;
ii) se (Xn )n∈N è una successione in mF allora anche
inf Xn , sup Xn , lim inf Xn , lim sup Xn ,

n n n→∞ n→∞
appartengono a mF .
Dimostrazione. La (3.1.1) segue da f −1 (Bn ) ⊆ Bd e il fatto che f (X) ∈ mF ne è immediata conseguenza.
La ii) segue dal fatto che, per ogni a ∈ R, si ha
[ ! \
inf Xn < a = (Xn < a), sup Xn < a = (Xn < a),
n n
n n
e
lim inf Xn = sup inf Xk , lim sup Xn = inf sup Xk .
n→∞ n k≥n n→∞ n k≥n
Osservazione 3.1.9. Dalla i) della Proposizione 3.1.8 segue in particolare che se X, Y ∈ mF e λ ∈ R allora
X + Y , XY , λX ∈ mF . Infatti basta osservare che X + Y , XY e λX sono funzioni continue (e quindi B-
misurabili) della coppia (X, Y ) che è una v.a. per il Corollario 3.1.6.
Inoltre, per ogni successione (Xn )n∈N di v.a. si ha
A := {ω ∈ Ω | esiste lim Xn (ω)} = {ω ∈ Ω | lim sup Xn (ω) = lim inf Xn (ω)} ∈ F . (3.1.2)
n→∞ n→∞ n→∞
Definizione 3.1.10 (Convergenza quasi certa). Se A in (3.1.2) è quasi certo, ossia P (A) = 1, allora si dice
che (Xn )n∈N converge quasi certamente.
Ricordiamo dall’Osservazione 2.4.3 che uno spazio (Ω, F , P ) è completo se N ⊆ F , ossia gli insiemi
trascurabili (e quasi certi) sono eventi. L’ipotesi di completezza è spesso utile come mostrano i seguenti
esempi.
Osservazione 3.1.11 (Proprietà quasi certe e completezza). Consideriamo una “proprietà” P = P(ω)
la cui validità dipende da ω ∈ Ω: per fissare le idee, nell’Osservazione 3.1.9 P(ω)=“esiste lim Xn (ω)”.
n→∞
Diciamo che P è quasi certa (o vale q.c.) se l’insieme
A := {ω ∈ Ω | P(ω) è vera}
è quasi certo: ciò significa che esiste C ∈ F tale che P (C) = 1 e C ⊆ A o, equivalentemente, esiste N
trascurabile tale che P(ω) è vera per ogni ω ∈ Ω \ N .
Nel caso di uno spazio completo, P vale q.c. se e solo se P (A) = 1. Se lo spazio non è completo, non
è detto che A ∈ F e quindi P (A) non è definita. Nel caso particolare dell’Osservazione 3.1.9, il fatto che
A ∈ F è conseguenza della (3.1.2) e del fatto che le Xn sono v.a.
Definizione 3.1.12 (Uguaglianza quasi certa). Date due funzioni (non necessariamente variabili aleatorie)
X, Y : Ω −→ Rd ,
q.c.
diciamo che X = Y quasi certamente, e scriviamo X = Y q.c. (o X = Y ), se l’insieme (X = Y ) è quasi certo.
Osservazione 3.1.13. Per l’Osservazione 2.1.18, in uno spazio completo
q.c.
X=Y ⇐⇒ P (X = Y ) = 1.
Senza l’ipotesi di completezza, non è detto che (X = Y ) sia un evento (a meno che, per esempio, X e Y non
siano entrambe v.a.). Di conseguenza P (X = Y ) non è ben definita e, senza l’ipotesi di completezza, non è
corretto affermare che X = Y q.c. equivale a P (X = Y ) = 1. Notiamo anche che, in uno spazio completo,
se X = Y q.c. e Y è una v.a. allora anche X è una v.a.: ciò non è necessariamente vero se lo spazio non è
completo.
3.1.1 Variabili aleatorie e distribuzioni

Sia
X : Ω −→ Rd
una variabile aleatoria sullo spazio di probabilità (Ω, F , P ). Ad X è associata in modo naturale la distribu-
zione definita da
µX (H) := P (X ∈ H), H ∈ Bd . (3.1.3)
È facile verificare che µX in (3.1.3) è una distribuzione, ossia una misura di probabilità su Rd : infatti si ha
µX (Rd ) = P (X ∈ Rd ) = 1 e inoltre, per ogni successione disgiunta (Hn )n∈N in Bd , si ha
∞   ∞  ∞ 
]   ]  ] 
−1 −1
µX  Hn  = P X  Hn  = P  X (Hn ) =
      
n=1 n=1 n=1
(per la σ -additività di P )
∞
X X∞
= P X −1 (Hn ) = µX (Hn ).
n=1 n=1
Definizione 3.1.14 (Legge, CDF e densità di una v.a.). Data una v.a.
X : Ω −→ Rd
su (Ω, F , P ), la distribuzione µX definita da (3.1.3) è detta distribuzione (o legge) di X. Per indicare che X
ha distribuzione µX scriveremo
X ∼ µX .
La funzione definita da1

FX (x) := P (X ≤ x), x ∈ Rd ,
è detta funzione di ripartizione o CDF di X. Notiamo che FX è la CDF di µX . Infine, se µX ∈ AC con densità
γX , diremo che X è assolutamente continua e ha densità γX : in tal caso vale
Z
P (X ∈ H) = γX (x)dx, H ∈ Bd .
H
Per comprendere la definizione precedente, suggeriamo di esaminare nel dettaglio il seguente
Esempio 3.1.15. [!] Sullo spazio di probabilità (Ω, F , P ) ≡ (R, B, Expλ ), dove λ > 0 è fissato, consideriamo
le v.a. 
−1 se ω ≤ 2,

2

X(ω) = ω , Y (ω) =  Z(ω) = ω, ω ∈ R.
1
 se ω > 2,
Per determinare la legge di X, calcoliamo la relativa CDF: per x < 0 si ha P (X ≤ x) = 0, mentre per x ≥ 0 si
ha
Z √x √
2
FX (x) = P (X ≤ x) = Expλ ({ω ∈ R | ω ≤ x}) = λe−λt dt = 1 − e−λ x .
0
Ne segue che X è assolutamente continua con densità

√
dF (x) λe−λ x
γX (x) = X = √ 1R≥0 (x).
dx 2 x
La v.a. Y assume solo due valori: −1 e 1. Inoltre

Z 2
P (Y = −1) = Expλ (] − ∞, 2]) = λe−λt dt = 1 − e−2λ ,
0
Z +∞
P (Y = 1) = Expλ (]2, +∞]) = λe−λt dt = e−2λ .
2
Ne segue che Y è una v.a. discreta con legge

Y ∼ 1 − e−2λ δ−1 + e−2λ δ1 .
Per esercizio, provare che Z ∼ Expλ .
Osservazione 3.1.16 (Esistenza). [!] Assegnata una distribuzione µ su Rd , esiste una v.a. X su uno spazio
di probabilità (Ω, F , P ) tale che µ = µX . Basta infatti considerare (Rd , Bd , µ) e la variabile aleatoria identità
X(ω) ≡ ω, per ogni ω ∈ Rd . D’altra parte, la scelta di (Ω, F , P ) e X non è unica: in altri termini, variabili
aleatorie differenti, anche definite su spazi di probabilità diversi, possono avere la medesima distribuzione.
Per esempio, consideriamo:
i) Lancio di un dado: Ω1 = I6 := {1, 2, 3, 4, 5, 6} con probabilità uniforme e X(ω) = ω;
ii) Lancio di due dadi: Ω2 = I6 × I6 con probabilità uniforme e Y (ω1 , ω2 ) = ω1 .
Allora X e Y hanno la stessa legge (che è la distribuzione uniforme discreta UnifI6 ) ma sono variabili aleatorie
differenti e definite su spazi di probabilità diversi.
d
1 Al solito, (X ≤ x) = T (X ≤ x ).
k k
k=1
Dunque la legge di una v.a non fornisce la conoscenza completa della v.a. stessa. Conoscere la distri-
buzione di una v.a. X significa conoscere “come è distribuita la probabilità fra i vari valori che X può
assumere” e questo, per molte applicazioni, è più che sufficiente; anzi, spesso i modelli probabilistici sono
definiti a partire dalla distribuzione (o, equivalentemente, assegnando la CFD oppure la densità, nel caso
assolutamente continuo) piuttosto che attraverso la definizione esplicita dello spazio di probabilità e della
v.a. considerata.
Definizione 3.1.17 (Uguaglianza in legge). Siano X, Y variabili aleatorie (non necessariamente sullo stesso
spazio di probabilità). Diciamo che X e Y sono uguali in legge (o distribuzione) se µX = µY . In tal caso,
scriviamo
d
X = Y.
Esercizio 3.1.18. Provare le seguenti affermazioni:
q.c. d
i) se X = Y allora X = Y ;
d
ii) esistono X, Y v.a. definite sullo stesso spazio (Ω, F , P ) tali che X = Y ma P (X = Y ) < 1;
d d
iii) se X = Y e f ∈ mB allora f ◦ X = f ◦ Y .
Soluzione.
i) Utilizziamo il fatto che P (X = Y ) = 1 e, ricordando l’Esercizio 2.1.28, per ogni z abbiamo
P (X ∈ H) = P ((X ∈ H) ∩ (X = Y )) = P ((Y ∈ H) ∩ (X = Y )) = P (Y ∈ H).
ii) In uno spazio (Ω, F , P ) siano A, B ∈ F tali che P (A) = P (B). Allora le v.a. indicatrici X = 1A e Y = 1B hanno entrambe
distribuzione di Bernoulli uguale a
P (A)δ1 + (1 − P (A)) δ0 ,
poiché assumono solo i valori 1 e 0 rispettivamente con probabilità P (A) e 1 − P (A). Per quanto riguarda la CDF, si ha



 0 se x < 0,
c ) se 0 ≤ x < 1,

FY (x) = FX (x) = P (X ≤ x) =  P (A



1 se x ≥ 1.

iii) Per ogni H ∈ B si ha

P (f ◦ X)−1 (H) = P X −1 f −1 (H) =
d
(poiché per ipotesi X = Y )

= P Y −1 f −1 (H) = P ((f ◦ Y )−1 (H)).
Esaminiamo ora alcuni esempi di distribuzioni di v.a. con particolare riferimento al caso di v.a. assolu-
tamente continue e discrete. Abbiamo già detto che X è assolutamente continua se
Z
P (X ∈ H) = γX (x)dx, H ∈ B,
H
R
dove la densità γX è una funzione B-misurabile, non-negativa (ossia γX ∈ mB + ) e tale che γX (x)dx = 1.
Rd
Diciamo che una v.a. X è discreta se la sua legge è una distribuzione discreta (cfr. Definizione 2.4.15),
ossia è una combinazione finita o numerabile di Delta di Dirac:
X
µX = pk δxk , (3.1.4)
k≥1
dove (xk ) è una successione di punti distinti di Rd e (pk ) è una successione di numeri non-negativi con
somma pari a uno. Se µ̄X indica la funzione di distribuzione di µX , allora si ha
P (X = xk ) = µ̄X (xk ) = pk , k ∈ N.
Osservazione 3.1.19. I grafici della densità γX (nel caso di distribuzioni assolutamente continue) e della
funzione di distribuzione µ̄X (nel caso di distribuzioni discrete) danno una rappresentazione semplice e
immediata di come è distribuita la probabilità fra i valori possibili di X: illustriamo questo fatto nella
sezione seguente con alcuni esempi.
3.1.2 Esempi di variabili aleatorie discrete

Esempio 3.1.20 (Binomiale). [!] Per una v.a S con distribuzione binomiale, S ∼ Binn,p (si veda l’Esempio
2.4.17-iii)), si ha !
n k
P (S = k) = p (1 − p)n−k , k = 0, 1, . . . , n. (3.1.5)
k
S rappresenta il “numero di successi in n prove ripetute e indipendenti con probabilità p” (cfr. Esempio
3.1.7-iii)). Esempi di variabili aleatori binomiali sono:
i) con riferimento all’Esempio 2.2.17, in cui si considera l’estrazione con reinserimento da un’urna che
contiene b palline bianche e r palline rosse, la v.a. S che rappresenta il “numero di palline bianche
estratte in n estrazioni” ha distribuzione Binn, b ;
b+r
ii) con riferimento all’Esempio 2.3.43, in cui si suppone di disporre a caso n oggetti in r scatole, la v.a. S
che rappresenta il “numero di oggetti nella prima scatola” ha distribuzione Binn, 1 .
r
In Figura 3.1, riportiamo il grafico della funzione di distribuzione k 7→ P (X = k) di una v.a. X ∼ Binn,p con
n = 40 e p = 10%: tale grafico permette di visualizzare molto chiaramente i valori possibili di X, ossia X(Ω),
in ascissa e le corrispondenti probabilità in ordinata.
Figura 3.1: Grafico della funzione di distribuzione di una variabile aleatoria binomiale
Esempio 3.1.21 (Overbooking). Supponiamo che la probabilità che un viaggiatore non si presenti all’im-
barco all’aeroporto sia pari al 10%, indipendentemente dagli altri viaggiatori. Quante prenotazioni per
un volo da 100 passeggeri si possono accettare volendo che la probabilità che tutti i viaggiatori presenti
all’imbarco trovino posto sia maggiore del 99%?
Soluzione. Supponiamo di accettare n prenotazioni e consideriamo la v.a. X “numero di passeggeri presenti all’imbarco”: allora
9 è la probabilità che un viaggiatore si presenti. Dobbiamo determinare il valore massimo di n tale che
X ∼ Binn,p dove p = 10
n
X
P (X > 100) = P (X = k) < 1%.
k=101
Si verifica direttamente2 che P (X > 100) = 0.57% se n = 104 e P (X > 100) = 1.67% se n = 105. Dunque possiamo accettare
104 prenotazioni.
λ
Esempio 3.1.22 (Poisson). Sia λ > 0 una costante fissata. Per ogni n ∈ N, n ≥ λ, poniamo qn = n e
consideriamo Xn ∼ Binn,qn . Per ogni k = 0, 1, . . . , n, poniamo
k
λ n−k
!
n k n! λ

pn,k := P (Xn = k) = qn (1 − qn )n−k = 1− (3.1.6)
k k!(n − k)! n n
n
λ
λk n(n − 1) · · · (n − k + 1) 1 − n
= · ·
nk
k! k
1− λ n
e osserviamo che
e−λ λk
lim pn,k = =: pk , k ∈ N0 .
n→∞ k!
Ritroviamo quindi la distribuzione di Poisson
∞
X
Poissonλ = pk δk
k=0
dell’Esempio 2.4.17-iv).
Intuitivamente X ∼ Poissonλ può essere pensata come il limite di una successione di v.a. Xn ∼ Binn,qn .
In altri termini, la distribuzione di Poisson di parametro np approssima per n → +∞ (e p → 0+ ) la distribu-
zione binomiale Binn,p e pertanto scriviamo
Binn,p ≈ Poissonnp n → +∞, p → 0+ .
Questo risultato verrà formalizzato in seguito nell’Esempio 4.3.12. Notiamo che nella pratica, per n gran-
de, il valore di pn,k in (3.1.6) è “difficile” da calcolare a causa della presenza dei fattoriali3 nel coefficien-
te binomiale nk . Pertanto risulta utile utilizzare la distribuzione di Poisson come approssimazione della

binomiale.
In Figura 3.2, riportiamo il grafico della funzione di distribuzione k 7→ P (X = k) di una v.a. X ∼ Poissonλ
con λ = 3.
Esempio 3.1.23. Un macchinario produce bulloni e per ogni bullone prodotto c’è la probabilità dello 0.01%
che sia difettoso (indipendentemente dagli altri). Calcolare la probabilità che in una scatola da 1000 bulloni
ce ne siano meno di 3 difettosi.
2 Mostreremo più avanti (cfr. Osservazione 4.4.8) come è possibile semplificare il calcolo di P (X > 100) nel caso di X ∼ Bin
n,p con n
grande.
3 Per esempio 70! > 10100 . Per calcolare n! per n ≫ 1 si può utilizzare l’approssimazione di Stirling
√ n
n
n! ≈ 2πn .
e
Figura 3.2: Grafico della funzione di distribuzione di una variabile aleatoria di Poisson
Soluzione. La v.a. X che indica il numero di bulloni difettosi in una scatola da 1000 bulloni, ha distribuzione binomiale
Bin1000,p dove p = 0.01% è la probabilità che il singolo bullone sia difettoso. Allora
2 2 !
X X 1000 k
P (X < 3) = P (X = k) = p (1 − p)1000−k ≈ 99.9846%.
k
k=0 k=0
Utilizzando l’approssimazione con una v.a. di Poisson, diciamo Y ∼ Poissonλ dove λ = np = 0.1, otteniamo
2 2
X X λk
P (Y < 3) = P (Y = k) = e−λ ≈ 99.9845%.
k!
k=0 k=0
Esempio 3.1.24 (Geometrica). Per una v.a T con distribuzione geometrica di parametro p, T ∼ Geomp con
p ∈ ]0, 1], si ha4
P (T = k) = p(1 − p)k−1 , k ∈ N.
La v.a. T rappresenta il “primo tempo di successo” in una famiglia di prove ripetute e indipendenti con
probabilità p: al riguardo si ricordi l’Esempio 3.1.7-iv) e l’Esempio 2.3.31.
Proviamo ora una proprietà fondamentale della distribuzione geometrica, nota come proprietà di assenza
di memoria.
Teorema 3.1.25. Se T ∼ Geomp si ha
P (T > n) = (1 − p)n , n ∈ N, (3.1.7)
e vale la seguente proprietà di assenza di memoria:
P (T > n + k | T > n) = P (T > k), k, n ∈ N. (3.1.8)
Viceversa, se T è una v.a. a valori in N e vale la (3.1.8) allora T ∼ Geomp dove p = P (T = 1).
Dimostrazione. Se T ∼ Geomp allora per ogni n ∈ N vale
∞
X ∞
X ∞
X
k−1
P (T > n) = P (T = k) = p(1 − p) = p(1 − p)h
k=n+1 k=n+1 h=n
4 Per convenzione poniamo 00 = 1.
∞
X 1
= p(1 − p)n (1 − p)h = p(1 − p)n = (1 − p)n ,
1 − (1 − p)
h=0
e questo prova la (3.1.7). Allora, poiché (T > k + n) ⊆ (T > n), si ha

P (T > k + n) (1 − p)k+n
P (T > n + k | T > n) = = = (1 − p)k = P (T > k).
P (T > n) (1 − p)n
Viceversa, supponiamo che T sia una v.a. a valori in N per cui vale la (3.1.8). Notiamo che la (3.1.8) ha
senso sotto l’ipotesi implicita che P (T > n) > 0 per ogni n ∈ N e per k = 1 si ha
P (T > n + 1)
P (T > 1) = P (T > n + 1 | T > n) =
P (T > n)
da cui
P (T > n + 1) = P (T > n)P (T > 1)
e quindi
P (T > n) = P (T > 1)n .
Inoltre, posto p = P (T = 1) = 1 − P (T > 1), si ha
P (T = k) = P (T > k − 1) − P (T > k) = P (T > 1)k−1 − P (T > 1)k
= P (T > 1)k−1 (1 − P (T > 1)) = p(1 − p)k−1 ,
che prova la tesi.
Corollario 3.1.26. Siano T ∼ Geomp e n ∈ N. Vale
P (T = n + k | T > n) = P (T = k), k ∈ N,
ossia la legge della v.a. T rispetto alla probabilità P è uguale alla legge della v.a. (T − n) rispetto alla probabilità
condizionata P (· | T > n).
P (T = n + k | T > n) = P (T > n + k − 1 | T > n) − P (T > n + k | T > n) =
(per il Teorema 3.1.25)
= P (T > k − 1) − P (T > k) = P (T = k).
Esercizio 3.1.27. In un gioco del lotto, una volta alla settimana si estraggono 5 numeri da un’urna che
contiene 90 palline numerate. Qual è la probabilità che il numero 13 non venga estratto per 52 settimane
consecutive? Sapendo che il 13 non è stato estratto per 52 settimane, qual è la probabilità che non sia
estratto per la 53esima settimana consecutiva?
|C | 5 la probabilità che in un’estrazione venga estratto il 13. Se T indica la prima
Soluzione. Indichiamo con p = |C89,4 | = 90
90,5
settimana in cui viene estratto il 13 allora per la (3.1.7) abbiamo
P (T > 52) = (1 − p)52 ≈ 5.11%
Equivalentemente avremmo potuto considerare la v.a. binomiale X ∼ Bin52,p che indica il numero di volte in cui, fra 52
estrazioni, viene estratto il 13 e calcolare !
52 0
P (X = 0) = p (1 − p)52
0
che dà lo stesso risultato. Per la seconda domanda, dobbiamo calcolare
85
P (T > 53 | T > 52) = P (T > 1) = ,
90
dove la prima uguaglianza segue dalla (3.1.8).
Esempio 3.1.28 (Ipergeometrica). Una variabile aleatoria X con distribuzione ipergeometrica rappresenta
il numero di palline bianche estratte in n estrazioni senza reimmissione da un’urna che contiene N palline
di cui b bianche: al riguardo si ricordi l’Esempio 2.2.19. In particolare, siano n, b, N ∈ N con n, b ≤ N . Allora
X ∼ Ipern,b,N se5
b N −b
k n−k
P (X = k) = N
k = 0, 1, . . . , n ∧ b. (3.1.9)
n
Esercizio 3.1.29. Sia (bN )N ∈N una successione in N0 tale che
bN
lim = p ∈ ]0, 1[.
N →∞ N
Se γN , N ∈ N, indica la funzione di distribuzione ipergeometrica di parametri n, bN , N , e γ indica la

funzione di distribuzione binomiale di parametri n e p, allora si ha
lim Ipern,bN ,N ({k}) = Binn,p ({k})

N →∞
per ogni n ∈ N e k = 0, 1, . . . , n. Intuitivamente, se il numero di palline bianche b e il numero totale di

palline N sono grandi, allora la reimmissione o meno di una pallina dopo l’estrazione modifica in modo
trascurabile la composizione dell’urna.
Soluzione. È un calcolo diretto: per maggiori dettagli si veda, per esempio, l’Osservazione 1.40 in [15].
3.1.3 Esempi di variabili aleatorie assolutamente continue

Esempio 3.1.30 (Esponenziale). Una v.a. con distribuzione esponenziale X ∼ Expλ gode di una proprietà
di assenza di memoria analoga a quella vista nel Teorema 3.1.25 per la distribuzione geometrica:
P (X > t + s | X > s) = P (X > t) , t, s ≥ 0. (3.1.10)
Infatti, poiché (X > t + s) ⊆ (X > s), si ha
P (X > t + s)
P (X > t + s | X > s) = =
P (X > s)
(per la (2.4.9))
e−λ(t+s)
= = e−λt = P (X > t) .
e−λs
La distribuzione esponenziale appartiene ad un’ampia famiglia di distribuzioni che introduciamo nel’E-
sempio 3.1.34.
Diamo un semplice ma utile risultato.
Proposizione 3.1.31 (Trasformazioni lineari e densità). Sia X una v.a. in Rd , assolutamente continua con
densità γX . Allora per ogni matrice A invertibile, di dimensione d × d, e b ∈ Rd , la v.a. Z := AX + b è
assolutamente continua con densità
1
γZ (z) = γX A−1 (z − b) .
|det A|
5 Per convenzione poniamo n = 0 per k > n.
k
Dimostrazione. Per ogni H ∈ Bd si ha

Z
−1
P (Z ∈ H) = P X ∈ A (H − b) = γX (x)dx =
A−1 (H−b)
(col cambio di variabili z = Ax + b)

Z
1
= γX A−1 (z − b) dz
|det A| H
e questo prova la tesi.
Esempio 3.1.32 (Uniforme). Consideriamo un esempio di v.a. con distribuzione uniforme su K ∈ Bd con
misura di Lebesgue positiva come nell’Esempio 2.4.22-i). In particolare, sia K il triangolo in R2 di ver-
tici (0, 0), (1, 0) e (0, 1). Sia (X, Y ) ∼ UnifK , con densità γ(X,Y ) (x, y) = 21K (x, y): con la Proposizione 3.1.31
possiamo facilmente calcolare la densità di (X + Y , X − Y ). Infatti, essendo
! ! !
X +Y X 1 1
=A , A= ,
X −Y Y 1 −1
si ha det A = −2 e !!
2 z
γ(X+Y ,X−Y ) (z, w) = 1K A−1 = 1AK (z, w)
| det A| w
dove AK è il triangolo di vertici6 (0, 0), (1, 1) = A · (1, 0) e (1, −1) = A · (0, 1).
Esempio 3.1.33 (Normale). Ricordiamo che X ha distribuzione normale di parametri µ ∈ R e σ > 0, ossia
X ∼ Nµ,σ 2 , se
Z
1 1 x−µ 2
P (X ∈ H) = √ e− 2 ( σ ) dx, H ∈ B.
H 2πσ 2
Notiamo che P (X ∈ H) > 0 se e solo se Leb(H) > 0, essendo la densità un esponenziale e quindi strettamente
positiva. Ovviamente P (X = x) = 0 per ogni x ∈ R perché X è assolutamente continua.
Anche se X può assumere un qualsiasi valore reale, è bene sapere che la probabilità è sostanzialmente
concentrata intorno al valore µ. Infatti, si ha
P (|X − µ| ≤ σ ) ≈ 68.27%
P (|X − µ| ≤ 2σ ) ≈ 95.45% (3.1.11)
P (|X − µ| ≤ 3σ ) ≈ 99.73%
e questo significa che i valori estremi (neanche tanto lontani da µ) sono molto improbabili (si veda la7
Figura 3.3). Per questo motivo si usa dire che la densità Gaussiana ha le “code sottili”.
A prima vista, il fatto che i valori in (3.1.11) siano indipendenti da µ e σ può sembrare un po’ strano.
X−µ
D’altra parte P (|X − µ| ≤ λσ ) = P (|Z| ≤ λ) dove Z = σ e per la Proposizione 3.1.31 si ha
X ∼ Nµ,σ 2 =⇒ Z ∼ N0,1 .
In altre termini, si può sempre standardizzare una v.a. normale con una semplice trasformazione lineare.
!
6 Qui A · (1, 0) ≡ A 1 .
0
7 La Figura 3.3 è tratta da
commons.wikimedia.org/wiki/File:Standard deviation diagram.svg♯/media/File:Standard deviation diagram.svg
0.4
0.3
0.2
34.1% 34.1%
0.1
2.1% 2.1%
0.1% 13.6% 13.6% 0.1%
0.0
3 2 1 0 1 2 3
Figura 3.3: Probabilità nella distribuzione normale
Notiamo che la densità Gaussiana di Z ∼ N0,1 è una funzione pari e quindi, per ogni λ > 0 si ha
P (Z ≥ −λ) = P (−Z ≤ λ) = P (Z ≤ λ)
e di conseguenza
P (|Z| ≤ λ) = P (Z ≤ λ) − P (Z ≤ −λ)
= P (Z ≤ λ) − (1 − P (Z ≥ −λ))
= 2FZ (λ) − 1, (3.1.12)
dove FZ indica la CDF di Z.
Esempio 3.1.34 (Gamma). Ricordiamo la definizione della funzione Gamma di Eulero:
Z +∞
Γ (α) := xα−1 e−x dx, α > 0. (3.1.13)
0
Osserviamo che Γ assume valori positivi, Γ (1) = 1 e Γ (α + 1) = αΓ (α) poiché, integrando per parti, si ha
Z +∞ Z +∞
Γ (α + 1) = xα e−x dx = αxα−1 e−x dx = αΓ (α).
0 0
Ne segue in particolare che Γ (n + 1) = n! per ogni n ∈ N. Un altro valore notevole si ha per α = 21 :

Z +∞ e−x
Γ 12 = √ dx =
0 x
(col cambio di variabile x = y 2 )
Z +∞ √
2
=2 e−y dy = π.
0
Notiamo anche che, fissato λ > 0, col cambio di variabile x = λt in (3.1.13) otteniamo
Z +∞
Γ (α) := λα t α−1 e−λt dt, α > 0.
0
Ne segue che la funzione

λα α−1 −λt
γα,λ (t) := t e 1R>0 (t), t ∈ R, (3.1.14)
Γ (α)
è una densità per ogni α > 0 e λ > 0.
0.20
0.15
0.15
0.10
0.10
0.05
0.05
5 10 15 20 5 10 15 20
Figura 3.4: A sinistra: grafico della densità γα,2 per α = 1 (linea continua), α = 4 (linea tratteggiata) α = 6
(linea punteggiata). A destra: grafico della densità γ2,λ per λ = 12 (linea continua), λ = 41 (linea tratteggiata)
λ = 61 (linea punteggiata).
Definizione 3.1.35. La distribuzione con densità γα,λ in (3.1.14) è detta distribuzione Gamma di parametri
α, λ > 0:
λα
Z
Gammaα,λ (H) = t α−1 e−λt dt, H ∈ B.
Γ (α) H∩R>0
Notiamo che la distribuzione Esponenziale è un caso particolare della Gamma con α = 1:
Gamma1,λ = Expλ .
La distribuzione Gamma gode della seguente proprietà di invarianza di scala:
Lemma 3.1.36. Se X ∼ Gammaα,λ e c > 0 allora cX ∼ Gammaα, λ . In particolare λX ∼ Gammaα,1 .

c
Dimostrazione. Utilizziamo la funzione di ripartizione per determinare la distribuzione di cX:

y
λα e−λt
Z
c
P (cX ≤ y) = P (X ≤ y/c) = dt =
0 Γ (α)t 1−α
(col cambio di variabile x = ct)
y λ
λα e − c x
Z
= dx = Gammaα, λ (] − ∞, y]).
0 cα Γ (α)x1−α c
3.1.4 Altri esempi di variabili aleatorie notevoli

Esempio 3.1.37 (Distribuzione χ2 ). Sia X ∼ N0,1 . Vogliamo determinare la distribuzione della v.a. Z = X 2
tramite lo studio della sua CDF FZ . Poiché Z ≥ 0 si ha FZ (x) = 0 per x ≤ 0, mentre per x > 0 si ha
√ √
FZ (x) = P (X 2 ≤ x) = P − x ≤ X ≤ x =
(per simmetria)
√
Z x y2 √
1
=2 √ e− 2 dy = 2 FX ( x) − FX (0)
0 2π
dove FX è la CDF di X. Ne risulta che FZ è assolutamente continua e quindi per il Teorema 2.4.33 la densità
di Z è data da
d d √ √ 1 1 x
FZ (x) = 2 FX ( x) = FX′ ( x) √ = √ e− 2 , x > 0.
dx dx x 2πx
Riconosciamo allora che
Z ∼ Γ1,1 .
2 2
La distribuzione Γ 1 , 1 viene detta distribuzione chi-quadro ed a volte è indicata col simbolo χ2 .

2 2
Proposizione 3.1.38. Siano

X : Ω −→ I e f : I −→ J
una v.a. sullo spazio (Ω, F , P ) a valori nell’intervallo reale I e una funzione continua e monotona stret-
tamente crescente (quindi invertibile) a valori nell’intervallo reale J. Allora la CDF della v.a. Y := f (X)
è
FY = FX ◦ f −1 (3.1.15)
dove FX indica la CDF di X.
Dimostrazione. La (3.1.15) segue semplicemente da

P (Y ≤ y) = P (f (X) ≤ y) = P X ≤ f −1 (y) = FX (f −1 (y)), y ∈ J,
dove nella seconda uguaglianza abbiamo usato il fatto che f è monotona crescente.
Esercizio 3.1.39. Determinare la densità di Y := eX dove X ∼ Unif[0,1] .
Corollario 3.1.40. [!] Se X è una v.a. a valori in un intervallo I con CDF FX continua e monotona
strettamente crescente su I, allora
FX (X) ∼ Unif[0,1] . (3.1.16)
Dimostrazione. Sia Y := FX (X). Chiaramente si ha FY (y) = 0 se y ≤ 0 e FY (y) = 1 se y ≥ 1 poiché FX assume

valori in [0, 1] per definizione ed è continua. Inoltre per la Proposizione 3.1.38 si ha FY (y) = y se 0 < y < 1,
da cui la tesi.
Il corollario precedente si applica per esempio a X ∼ Nµ,σ 2 con I = R e a X ∼ Gammaα,λ con I = R>0 .

1 1
Esercizio 3.1.41. Sia X ∼ 2 δ0 + Unif[0,1] . Si provi che FX (X) ∼ 2 δ 1 + Unif[ 1 ,1] e quindi l’ipotesi di
2 2
continuità di FX nel Corollario 3.1.40 non può essere rimossa.
Esempio 3.1.42. La Proposizione 3.1.38 viene solitamente utilizzata per costruire o simulare una v.a. con
assegnata CDF a partire da una v.a. uniforme. Infatti, se Y ∼ Unif[0,1] e F è una CDF monotona strettamente
crescente, allora la v.a.
X := F −1 (Y )
ha CDF uguale a F.
Per esempio, supponiamo di voler costruire una v.a. esponenziale a partire da una v.a. uniforme:
ricordando che
F(x) = 1 − e−λx , x ∈ R,
è la CDF della distribuzione Expλ , si ha
1
F −1 (y) = − log(1 − y), y ∈ ]0, 1[.
λ
Allora, per la Proposizione 3.1.38, se Y ∼ Unif]0,1[ si ha
1
− log(1 − Y ) ∼ Expλ .
λ
Il Corollario 3.1.40, e in particolare la (3.1.16), fornisce un metodo per generare al computer numeri aleatori
con un’assegnata CDF o densità a partire da numeri aleatori con distribuzione Unif[0,1] .
Il seguente risultato estende la Proposizione 3.1.31.
Proposizione 3.1.43. Se X ∈ AC è una v.a. reale con densità γX e f ∈ C 1 con f ′ , 0 allora Y := f (X) ∈ AC e
ha densità
γ (f −1 )
γY = X . (3.1.17)
f ′ (f −1 )
Dimostrazione. Ricordiamo anzitutto che le ipotesi su f implicano che f è invertibile ed esiste
′ 1
f −1 = ′ −1 . (3.1.18)
f (f )
Inoltre per ogni H ∈ B si ha
Z
P (Y ∈ H) = P X ∈ f −1 (H) = γX (x)dx =
f −1 (H)
(col cambio di variabili y = f (x))

Z ′
= γX f −1 (y) f −1 (y)dy =
H
(per la (3.1.18) e con γY definita come in (3.1.17))

Z
= γY (y)dy,
H
e questo prova che Y ∈ AC con densità γY in (3.1.17). Si noti che se f è monotona strettamente crescente
allora f ′ > 0 e il valore assoluto nella (3.1.17) è inutile. Tuttavia il risultato è valido anche per f monotona
strettamente decrescente e in tal caso il valore assoluto è necessario.
Esempio 3.1.44 (Distribuzione log-normale). Siano X ∼ N0,1 e f (x) = ex . Allora per la (3.1.17) la densità
della v.a. Y = eX è
1 (log y)2
γY (y) = √ e− 2 , y ∈ R>0 . (3.1.19)
y 2π
La funzione γY in (3.1.19) è detta densità della distribuzione log-normale: si noti che se Y ha distribuzione
log-normale allora log Y ha distribuzione normale.
Esempio 3.1.45 (Distribuzione normale bidimensionale). Siano X e Y v.a. che rappresentano la varia-
zione della temperatura a Bologna dall’inizio alla fine, rispettivamente, dei mesi di settembre e ottobre.
Assumiamo che (X, Y ) abbia densità normale bidimensionale
1 1 −1
γ(x, y) = √ e− 2 ⟨C (x,y),(x,y)⟩ , (x, y) ∈ R2
2π det C
dove !
2 1
C= .
1 3
Determiniamo:
i) P (Y < −1);
ii) P (Y < −1 | X < 0).

3x2 −2xy+2y 2
Si ha γ(x, y) = √1 e− 10 e
2 5π
Z Z −1
P (Y < −1) = γ(x, y)dydx ≈ 28%,
R −∞
P ((Y < −1) ∩ (X < 0))
P (Y < −1 | X < 0) = ≈ 39%,
P (X < 0)
essendo
Z 0 Z −1
P ((Y < −1) ∩ (X < 0)) = γ(x, y)dydx ≈ 19, 7%,
−∞ −∞
Z 0 Z
1
P (X < 0) = γ(x, y)dydx = .
−∞ R 2
3.2 Valore atteso

In questo paragrafo introduciamo il concetto di valore atteso o media di una variabile aleatoria. Se X è
una v.a. con distribuzione discreta finita
Xm
X∼ pk δxk ,
k=1
ossia P (X = xk ) = pk per k = 1, . . . , m, allora il valore atteso di X è semplicemente definito da

m
X m
X
E [X] := xk P (X = xk ) = xk p k . (3.2.1)
k=1 k=1
In altri termini, E [X] è una media dei valori di X pesata secondo la probabilità che tali valori siano assunti.
Se m = ∞ allora la somma in (3.2.1) diventa una serie ed occorre porre delle condizioni di convergenza.
Infine, nel caso in cui X assuma un’infinità più che numerabile di valori allora non è più possibile definire
E [X] come serie: nel caso generale, il valore atteso E [X] sarà definito come integrale di X rispetto alla
misura di probabilità P e indicato indifferentemente con
Z Z Z
XdP oppure X(ω)P (dω) oppure P (dω)X(ω).
Ω Ω Ω
3.2. VALORE ATTESO 105
Figura 3.5: Interpretazione dell’integrale astratto come somma di Riemann
Per dare la definizione precisa di valore atteso richiamiamo alcuni elementi della cosiddetta teoria del-
l’integrazione astratta su uno spazio di probabilità (Ω, F , P ), ricordando che una v.a. altro non è che una
funzione misurabile. Le dimostrazioni seguenti si adattano facilmente al caso di spazi misurabili σ -finiti
(fra cui Rd con la misura di Lebesgue).
Ci occuperemo di dare:
• la definizione teorica di integrale astratto nelle Sezioni 3.2.1, 3.2.2 e 3.2.3;
• una caratterizzazione operativa dell’integrale astratto e un metodo di calcolo esplicito nelle Sezioni
3.2.4 e 3.2.5.
3.2.1 Integrale di variabili aleatorie semplici

Per introdurre l’integrale astratto procediamo per gradi, partendo dal caso di funzioni (o variabili alea-
torie, nel caso di uno spazio di probabilità) “semplici” a valori reali fino al caso generale. Diciamo che una
funzione X su uno spazio misurabile (Ω, F , P ) è semplice se è misurabile e assume solo un numero finito di
valori distinti x1 , . . . , xm ∈ R: in tal caso possiamo scrivere
m
X
X= xk 1(X=xk ) ,
k=1
dove (X = x1 ), . . . , (X = xm ) ∈ F sono disgiunti. In questo caso definiamo l’integrale astratto di X nel modo
seguente
Z Xm
XdP := xk P (X = xk ). (3.2.2)
Ω k=1
Tale definizione corrisponde ad una somma di Riemann in cui ogni addendo xk P (X = xk ) rappresenta l’area
di un rettangolo calcolata come “base”×“altezza” dove la misura della base è P (X = xk ) e l’altezza xk è il
valore di X su (X = xk ): si veda la Figura 3.5. Allora per definizione si ha
Z
1A dP = P (A) (3.2.3)
Ω
per ogni A ∈ F . Per ogni X semplice e A ∈ F , useremo anche la notazione

Z Z
XdP := X1A dP .
A Ω
È chiaro che valgono le proprietà di

i) linearità: per ogni X, Y semplici e α, β ∈ R si ha
Z Z Z
(αX + βY ) dP = α XdP + β Y dP ; (3.2.4)
Ω Ω Ω
ii) monotonia: per ogni X, Y semplici tali che X ≤ Y P -q.c.8 si ha

Z Z
XdP ≤ Y dP . (3.2.5)
Ω Ω
Osserviamo che dalla proprietà ii) segue che se X = Y P -q.c. allora

Z Z
XdP = Y dP .
Ω Ω
Prima di dare la definizione generale di integrale, proviamo alcuni risultati preliminari.

Lemma 3.2.1 (Beppo-Levi). Sia (Xn )n∈N una successione di v.a. semplici tali che 0 ≤ Xn ↗ X P -q.c. Se X è
semplice allora Z Z
lim Xn dP = XdP . (3.2.6)
n→∞ Ω Ω
Dimostrazione. Per ipotesi esiste A ∈ F con P (Ω \ A) = 0, tale che 0 ≤ Xn (ω) ↗ X(ω) per ogni ω ∈ A. Fissato
ε > 0 e posto
An,ε := (X − Xn ≥ ε) ∩ A, n ∈ N,
per ipotesi si ha che An,ε è una successione decrescente con intersezione vuota, ossia An,ε ↘ ∅ per n → ∞.
Allora per la continuità dall’alto di P si ha lim P (An,ε ) = 0 e di conseguenza
n→∞
Z Z Z Z
0≤ (X − Xn )dP = (X − Xn )dP = (X − Xn )dP + (X − Xn )dP ≤ εP (Ω) + P (An,ε ) max X
A Ω Ω\An,ε An,ε Ω
da cui segue la (3.2.6). Notiamo esplicitamente che max X < ∞ poiché X è semplice per ipotesi.
Ω
Lemma 3.2.2. Siano (Xn )n∈N e (Yn )n∈N successioni di v.a. semplici tale che 0 ≤ Xn ↗ X e 0 ≤ Yn ↗ Y P -q.c.
Se X ≤ Y P -q.c. allora Z Z
lim Xn dP ≤ lim Yn dP .
n→∞ Ω n→∞ Ω
Dimostrazione. Fissato k ∈ N, la successione di funzioni semplici (Xk ∧ Yn )n∈N è tale che 0 ≤ Xk ∧ Yn ↗ Xk

P -q.c. per n che tende all’infinito. Pertanto abbiamo
Z Z Z
Xk dP = lim Xk ∧ Yn dP ≤ lim Yn dP
Ω n→∞ Ω n→∞ Ω
dove la prima uguaglianza segue dalla (3.2.6), mentre la disuguaglianza è dovuta al fatto che Xk ∧ Yn ≤ Yn .
Questo conclude la prova.
8 Nel senso che P (X > Y ) = 0.
3.2.2 Integrale di variabili aleatorie non-negative

Per estendere la definizione di integrale alle v.a. in mF + utilizziamo il seguente
Lemma 3.2.3. Per ogni X ∈ mF + esiste una successione monotona crescente (Xn )n∈N in mF + di v.a. semplici,
tale che Xn ↗ X ossia vale
lim Xn (ω) = X(ω), ω ∈ Ω.
n→∞
Dimostrazione. Definiamo una successione di funzioni “a scala” su [0, +∞[ nel modo seguente: per ogni
n ∈ N consideriamo la partizione di [0, +∞[ costituita dai punti
0 1 2 n2n
, , , . . . ,
2n 2n 2n 2n
e poniamo 
k−1

 2n
 se k−1
2n ≤ x <
k
2n per 1 ≤ k ≤ n2n ,
ϕn (x) =  (3.2.7)
n
 se x ≥ n.
Notiamo che 0 ≤ ϕn ≤ ϕn+1 per ogni n ∈ N e
1
x− ≤ ϕn (x) ≤ x, x ∈ [0, n],
2n
per cui
lim ϕn (x) = x, x ≥ 0.
n→∞
Allora la successione definita da Xn = ϕn (X) verifica la tesi.
Grazie al Lemma 3.2.2, la seguente definizione è ben posta, ossia indipendente dalla successione ap-
prossimante (Xn )n∈N .
Definizione 3.2.4 (Integrale astratto di variabili aleatorie non-negative). Per ogni X ∈ mF + definiamo
Z Z
XdP := lim Xn dP ≤ +∞ (3.2.8)
Ω n→∞ Ω
dove (Xn )n∈N è una successione in mF +

di v.a. semplici, tale che Xn ↗ X P -q.c. Se il limite in (3.2.8) è finito
diciamo che X è sommabile e scriviamo X ∈ L1 (Ω, P ).
Osservazione 3.2.5. In base alla Definizione 3.2.4, le proprietà di linearità (3.2.4) e monotonia (3.2.5) si
estendono facilmente all’integrale di X ∈ mF + .
La definizione di integrale astratto è del tutto analoga a quella dell’integrale di Lebesgue. Anche in que-
sto caso il risultato centrale su cui si basa tutto lo sviluppo della teoria dell’integrazione è il fondamentale
risultato sulla convergenza monotona.
Teorema 3.2.6. [Teorema di Beppo-Levi] [!!!]

Se (Xn )n∈N è una successione in mF tale che 0 ≤ Xn ↗ X P -q.c., allora si ha
Z Z
lim Xn dP = XdP .
n→∞ Ω Ω

Dimostrazione. Fissato n ∈ N, costruiamo come nel Lemma 3.2.3 una successione Xn,k k∈N di v.a. semplici
in mF + , tale che Xn,k ↗ Xn e Xn − Xn,n ≤ n1 P -q.c. Inoltre poniamo
Yn = max{X1,n , . . . , Xn,n }, n ∈ N.
Notiamo che (Yn )n∈N è una successione di v.a. semplici in mF tale che 0 ≤ Yn ↗ X P -q.c. e quindi per
definizione Z Z
lim Yn dµ = Xdµ.
n→∞ Ω Ω
D’altra parte Yn ≤ Xn ≤ X P -q.c. per cui, per monotonia,
Z Z Z
Yn dP ≤ Xn dP ≤ XdP ,
Ω Ω Ω
e da questo segue la tesi.

Lemma 3.2.7. [Lemma di Fatou][!]
Sia (Xn )n∈N una successione di v.a. in mF + . Si ha
Z Z
lim inf Xn dP ≤ lim inf Xn dP .
Ω n→∞ n→∞ Ω
Dimostrazione. Ricordiamo che, per definizione,
lim inf Xn := sup Yn , Yn := inf Xk ,

n→∞ n∈N k≥n
e quindi Yn ↗ X := lim inf Xn . Allora si ha

n→∞
Z Z
lim inf Xn dP = lim Yn dP =
Ω n→∞ Ω n→∞
(per il Teorema di Beppo-Levi)

Z
= lim Yn dP ≤
n→∞ Ω
(per monotonia)
Z Z
≤ lim inf Xk dP = lim inf Xn dP ,
n→∞ k≥n Ω n→∞ Ω
da cui la tesi.
3.2.3 Integrale di variabili aleatorie a valori in Rd

Definizione 3.2.8 (Integrale astratto). Se RX ∈ mF è Ra valori reali consideriamo la parte positiva X + e la
parte negativa X − di X: se almeno uno fra Ω X + dP e Ω X − dP è finito, allora diciamo che X è integrabile e
poniamo Z Z Z
XdP := X + dP − X − dP ∈ [−∞, +∞].
Ω Ω Ω
R R
Se entrambi Ω X + dP e Ω X − dP sono finiti, allora diciamo che X è sommabile e scriviamo X ∈ L1 (Ω, P ). In
questo caso si noti che Z Z Z
+
|X|dP = X dP + X − dP ∈ R.
Ω Ω Ω
Infine, se X = (X1 , . . . , Xd ) è a valori inRd ,allora diciamo che X è integrabile se ogni componente Xi è
integrabile e in tal caso poniamo
Z Z Z !
XdP = X1 dP , . . . , Xd dP ∈ [−∞, +∞]d .
Ω Ω Ω
Notiamo che vale la disuguaglianza triangolare: per ogni X ∈ L1 (Ω, P ) a valori reali si ha
Z Z Z Z Z Z
XdP = X + dP − X −
dP ≤ X +
dP + X −
dP = |X|dP .

Ω Ω Ω Ω Ω Ω
Notazione 3.2.9. Useremo la notazione

Z Z
X(ω)P (dω) := XdP
Ω Ω
nel caso in cui vogliamo mettere in evidenza la variabile d’integrazione. Per l’integrale rispetto alla misura
di Lebesgue scriveremo semplicemente
Z Z
f (x)dx invece di f dLeb.
Rd Rd
Proposizione 3.2.10. Valgono le seguenti proprietà:
i) Linearità: per ogni X, Y ∈ L1 (Ω, P ) e α, β ∈ R si ha

Z Z Z
(αX + βY ) dP = α XdP + β Y dP .
Ω Ω Ω
ii) Monotonia: per ogni X, Y ∈ L1 (Ω, P ) tali che X ≤ Y P -q.c. si ha

Z Z
XdP ≤ Y dP .
Ω Ω
R R
In particolare, se X = Y P -q.c. allora Ω XdP = Ω Y dP .
An dove (An )n∈N è una successione disgiunta in F . Se X ∈ mF + oppure

U
iii) σ -additività: sia A =
n∈N
X ∈ L1 (Ω, P ) allora si ha Z XZ
XdP = XdP .
A n∈N An
Dimostrazione. La dimostrazione delle tre proprietà è simile e quindi proviamo in maniera dettagliata solo
la i). Considerando separatamente la parte positiva e negativa delle v.a., è sufficiente considerare il caso
X, Y ∈ mF + e α, β ∈ R≥0 . Consideriamo le successioni approssimanti (Xn ) e (Yn ) costruite come nel Lemma
3.2.3: sfruttando la linearità del valore atteso nel caso di v.a. semplici, otteniamo per il Teorema di Beppo-
Levi
Z Z Z Z ! Z Z
(αX + βY )dP = lim (αXn + βYn )dP = lim α Xn dP + β Yn dP = α XdP + β Y dP .
Ω n→∞ Ω n→∞ Ω Ω Ω Ω
Concludiamo la sezione col classico
Teorema 3.2.11. [Teorema della convergenza dominata][!!]

Sia (Xn )n∈N una successione di v.a. su (Ω, F , P ), tale che Xn → X P -q.c. e |Xn | ≤ Y ∈ L1 (Ω, P ) per ogni n.
Allora si ha Z Z
lim Xn dP = XdP .
n→∞ Ω Ω
Dimostrazione. Passando al limite in |Xn | ≤ Y si ha anche |X| ≤ Y P -q.c. Allora si ha

Z Z
0 ≤ lim sup Xn dP −
XdP ≤
n→∞ Ω Ω
(per la disuguaglianza triangolare)

Z
≤ lim sup |Xn − X| dP =
n→∞ Ω
Z Z
= 2Y dP − lim inf (2Y − |Xn − X|) dP ≤
Ω n→∞ Ω
(per il Lemma di Fatou)

Z Z
≤ 2Y dP − lim inf (2Y − |Xn − X|) dP =
n→∞
ZΩ ZΩ
= 2Y dP − 2Y dP = 0.
Ω Ω
Vedremo in seguito una generalizzazione del teorema della convergenza dominata, il Teorema A.3.0.2
di Vitali. Il seguente corollario del Teorema 3.2.11 si prova facilmente per assurdo.
Corollario
R 3.2.12 (Assoluta continuità dell’integrale). Sia X ∈ L1 (Ω, P ). Per ogni ε > 0 esiste δ > 0 tale che
A
|X|dP < ε per ogni A ∈ F tale che P (A) < δ.
Diamo ora un semplice ma utile risultato.

R
Proposizione 3.2.13. [!] Data X ∈ mF , poniamo A = (X > 0). Se A
XdP = 0 allora X ≤ 0 P -q.c.

Dimostrazione. Consideriamo la successione crescente definita da An = X ≥ n1 per n ∈ N. Per la proprietà
di monotonia dell’integrale, si ha
Z Z Z
1 P (An )
0= XdP ≥ X1An dP ≥ 1An dP = ,
A A n A n
e quindi P (An ) = 0 per ogni n ∈ N. Per la continuità dal basso di P (cfr. Proposizione 2.1.31-ii)) ed essendo
[
(X > 0) = An ,
n∈N
segue che P (X > 0) = 0.

R
Corollario 3.2.14. Se X ∈ mF + è tale che Ω
XdP = 0 allora X = 0 P -q.c.
3.2.4 Integrazione con distribuzioni

In questa sezione esaminiamo l’integrale astratto rispetto ad una distribuzione, con particolare atten-
zione al caso delle distribuzioni discrete e assolutamente continue (o combinazioni di esse). Cominciamo
con un semplice
Esempio 3.2.15. [!] Consideriamo la distribuzione Delta di Dirac δx0 su (Rd , Bd ). Per ogni funzione f ∈
mBd vale Z
f (x)δx0 (dx) = f (x0 ).
Rd
Infatti f è uguale δx0 -quasi ovunque alla funzione semplice

f (x0 ) se x = x0 ,

fˆ(x) = 

0
 altrimenti.
R R
Ora, per la Proposizione 3.2.10-ii), se f = g µ-q.o. allora Ω f dµ = Ω gdµ: quindi si ha
Z Z
f (x)δx0 (dx) = fˆ(x)δx0 (dx) =
Rd Rd
(per definizione di integrale di funzione semplice)

= fˆ(x0 )δx0 ({x0 }) = f (x0 ).
Proposizione 3.2.16. Sia
∞
X
µ= pn δxn
n=1
una distribuzione discreta su (Rd , Bd ) (cfr. Definizione 2.4.15). Se f ∈ mF + oppure f ∈ L1 (Rd , µ) allora si
ha Z X∞
f dµ = f (xn )pn .
Rd n=1
Dimostrazione. Segue direttamente applicando la Proposizione 3.2.10-iii) con An = {xn }.
Esempio 3.2.17. Per la distribuzione di Bernoulli, Bep = pδ1 + (1 − p)δ0 con 0 ≤ p ≤ 1, (cf. Esempio 2.4.17-i))
si ha semplicemente Z
f (x)Bep (dx) = pf (1) + (1 − p)f (0).
R
Per la distribuzione Poissonλ , con λ > 0, si ha
∞
λk
Z X
f (x)Poissonλ (dx) = e−λ f (k),
R k!
k=0
ammesso che f sia non-negativa oppure sommabile (ossia che la somma converga assolutamente).
Esercizio 3.2.18. Provare che se α, β > 0, µ1 , µ2 sono distribuzioni su Rd e f ∈ L1 (Rd , µ1 ) ∩ L1 (Rd , µ2 ) allora
f ∈ L1 (Rd , αµ1 + βµ2 ) e vale
Z Z Z
f d(αµ1 + βµ2 ) = α f dµ1 + β f dµ2 .
Rd Rd Rd
Vediamo ora che nel caso di una distribuzione assolutamente continua, il calcolo dell’integrale astratto si
riconduce al calcolo di un integrale di Lebesgue pesato con la densità della distribuzione.
Proposizione 3.2.19. [!]
Sia µ una distribuzione assolutamente continua su Rd con densità γ. Allora f ∈ L1 (Rd , µ) se e solo se9
f γ ∈ L1 (Rd ) e in tal caso si ha Z Z
f (x)µ(dx) = f (x)γ(x)dx.
Rd Rd
9 L1 (Rd ) indica l’usuale spazio delle funzioni sommabili su Rd rispetto alla misura di Lebesgue, ossia L1 (Rd ) = L1 (Rd , Leb).
Dimostrazione. Consideriamo prima il caso in cui f è semplice su R, ossia f (R) = {α1 , . . . , αm } cosicché
m
X
f = αk 1Hk , Hk := {x ∈ R | f (x) = αk }, k = 1, . . . , m,
k=1
allora per linearità

Z m
X Z
f dµ = αk 1Hk dµ =
R k=1 R
(per la (3.2.3))
m
X
= αk µ(Hk ) =
k=1
(essendo µ ∈ AC con densità γ)

m
X Z m
X Z
= αk γ(x)dx = αk 1Hk (x)γ(x)dx =
k=1 Hk k=1 R
(per la linearità dell’integrale di Lebesgue)

Z
= f (x)γ(x)dx,
R
da cui la tesi.
Ora assumiamo f ≥ 0 e consideriamo fn := ϕn (f ) con ϕn come in (3.2.7). Per il Teorema di Beppo-Levi
abbiamo
Z Z
f dµ = lim fn dµ =
R n→∞ R
(per quanto appena provato, essendo fn semplice per ogni n ∈ N)

Z
= lim fn (x)γ(x)dx =
n→∞ R
(riapplicando il Teorema di Beppo-Levi all’integrale di Lebesgue e utilizzando il fatto che γ ≥ 0 per ipotesi
e di conseguenza (fn γ) è una successione monotona crescente di funzioni non-negative)
Z
= f (x)γ(x)dx.
R
Infine se f è una generica funzione in L1 (R, µ),

allora è sufficiente considerarne la parte positiva e negativa
alle quali si applica il risultato precedente. Allora la tesi segue dalla linearità dell’integrale e ragionando
componente per componente si conclude la prova della tesi anche nel caso d-dimensionale.
Esempio 3.2.20. Consideriamo la distribuzione normale standard N0,1 e le funzioni f (x) = x e g(x) = x2 .
Allora f , g ∈ L1 (R, N0,1 ) e vale
Z Z
1 x2
f (x)N0,1 (dx) = √ xe− 2 dx = 0,
2π R
ZR Z
1 x2
g(x)N0,1 (dx) = √ x2 e− 2 dx = 1.
R 2π R
Osservazione 3.2.21. [!]

La prova della Proposizione 3.2.19 è esemplare di una procedura di dimostrazione spesso utilizzata nel-
l’ambito della teoria dell’integrazione e della probabilità. Tale procedura, a volte chiamata procedura
standard, consiste nel verificare la validità della tesi in 4 passi:
1) il caso di funzioni o v.a. indicatrici: di solito è una verifica diretta basata sulla definizione di integrale
o valore atteso;
2) il caso di funzioni o v.a. semplici: si sfrutta la linearità dell’integrale o del valore atteso;
3) il caso di funzioni o v.a. non-negative: si usa un argomento di approssimazione basato sul Lemma
3.2.3 e sul Teorema di Beppo-Levi;
4) il caso di funzioni o v.a. sommabili: ci si riconduce al caso precedente per linearità, considerando
parte positiva e negativa.
Una formulazione più generale di questa procedura è data dal secondo Teorema di Dynkin (cfr. Teorema
A.1.8).
Concludiamo la sezione con un utile risultato che proveremo più avanti (cfr. Corollario 3.5.8).
Corollario 3.2.22. [!] Se µ, ν sono distribuzioni tali che
Z Z
f dµ = f dν
R R
per ogni f ∈ bC(R) allora µ ≡ ν. Qui bC(R) indica lo spazio delle funzioni continue e limitate.
3.2.5 Valore atteso e Teorema del calcolo della media

In teoria della probabilità, il valore atteso di una variabile aleatoria altro non è che il suo integrale
rispetto alla misura di probabilità. Diamo la definizione precisa.
Definizione 3.2.23. In uno spazio di probabilità (Ω, F , P ), il valore atteso di una v.a. integrabile X è
definito da Z Z
E [X] := XdP = X(ω)P (dω).
Ω Ω
Esempio 3.2.24. [!] A partire dalla definizione (3.2.2) di integrale astratto, è facile calcolare il valore atteso
in due casi particolari: le variabili aleatorie costanti e indicatrici. Si ha infatti
E [c] = c, c ∈ Rd ,
E [1A ] = P (A), A ∈ F.
Inoltre se X è una v.a. semplice della forma

m
X
X= xk 1(X=xk )
k=1
per linearità vale

m
X
E [X] = xk P (X = xk ).
k=1
Dunque in questo caso E [X] rappresenta una media dei valori di X pesata con le probabilità che questi valori
vengano assunti.
In generale, il calcolo di un valore atteso definito come integrale astratto (sullo spazio Ω) non è partico-
larmente agevole: il seguente risultato mostra che è possibile esprimere il valore atteso di una v.a. X come
integrale (sullo spazio Euclideo Rd ) rispetto alla distribuzione µX della v.a. stessa.
Teorema 3.2.25 (Teorema del calcolo della media). [!]
Siano
X : Ω −→ Rd e f : Rd −→ RN
rispettivamente una v.a. su (Ω, F , P ) con legge µX e una funzione Bd -misurabile, f ∈ mBd . Allora f ◦ X ∈
L1 (Ω, P ) se e solo se f ∈ L1 (Rd , µX ) e in tal caso vale
Z
E [f (X)] = f dµX . (3.2.9)
Rd
∞
P
In particolare, se µX = pk δxk è una distribuzione discreta allora
k=1
∞
X
E [f (X)] = f (xk )pk , (3.2.10)
k=1
mentre se µX è assolutamente continua con densità γX allora si ha

Z
E [f (X)] = f (x)γX (x)dx. (3.2.11)
Rd
Dimostrazione. Proviamo la (3.2.9) nel caso f = 1H con H ∈ Bd : si ha

Z
E [f (X)] = E [1H (X)] = P (X ∈ H) = µX (H) = 1H dµX .
Rd
Il caso generale segue applicando la procedura standard dell’Osservazione 3.2.21. Infine, in base alla
(3.2.9), la (3.2.10) segue dalla Proposizione 3.2.16 e la (3.2.11) segue dalla Proposizione 3.2.19.
Osservazione 3.2.26. Applicando il Teorema 3.2.25 nel caso particolare della funzione identità f (x) = x, si
ha che se X ∈ L1 (Ω, P ) allora Z
E [X] = xµX (dx).
Rd
Definizione 3.2.27 (Varianza). Sia X ∈ L2 (Ω, P ) una v.a. reale. Si definisce varianza di X il numero reale
non-negativo h i h i
var(X) := E (X − E [X])2 = E X 2 − E [X]2 .
p
La radice della varianza var(X) è chiamata deviazione standard.
La deviazione standard è una media della distanza di X dal proprio valore atteso. Per esempio, vedremo
nell’Esempio 3.2.30 che nel caso di una v.a. normale X ∈ Nµ,σ 2 , la deviazione standard è uguale a σ : in
effetti avevamo usato σ per definire gli intervalli di confidenza di X come in Figura 3.3.
Per linearità, per ogni a, b ∈ R si ha
var(aX + b) = a2 var(X).
Inoltre, per la Proposizione 3.2.13, si ha

q.c.
var(X) = 0 se e solo se X = E [X] .
Calcoliamo ora media e varianza di alcune v.a. discrete.

Esempio 3.2.28. [!]
i) se X ∼ δx0 con x0 ∈ Rd allora per le (3.2.9)-(3.2.10) si ha

Z
E [X] = yδx0 (dy) = x0 ,
Rd
Z
var(X) = (y − x0 )2 δx0 (dy) = 0.
Rd
1
ii) Se X ∼ Unifn allora ha funzione di distribuzione γ(k) = n per k ∈ In e vale
n n
X 1X 1 n(n + 1) n + 1
E [X] = kγ(k) = k= · = ,
n n 2 2
k=1 k=1
n 2 n
n+1 1X 2 n+1 2
h i X
var(X) = E X 2 − E [X]2 = k 2 γ(k) − = k −
2 n 2
k=1 k=1
2
1 n(n + 1)(2n + 1) n+1 n2 − 1

= · − = .
n 6 2 12
iii) Se X ∼ Bep allora ha funzione di distribuzione γ definita da γ(1) = p, γ(0) = 1 − p e vale

n
X
E [X] = kγ(k) = 0 · (1 − p) + p = p,
k∈{0,1}
h i X
var(X) = E X 2 − E [X]2 = k 2 γ(k) − p2 = p(1 − p).
k∈{0,1}
iv) Se X ∼ Binn,p , con un conto diretto (si veda anche la Proposizione 3.6.3) si prova che
E [X] = np, var(X) = np(1 − p). (3.2.12)
k
v) Se X ∼ Poissonλ allora ha funzione di distribuzione γ definita da γ(k) = e−λ λk! per k ∈ N0 e vale
∞ ∞ ∞
X X λk X λk−1
E [X] = kγ(k) = ke−λ = λe−λ = λ.
k! (k − 1)!
k=0 k=1 k=1
Provare per esercizio che var(X) = λ.
vi) Se X ∼ Geomp allora ha funzione di distribuzione γ definita da γ(k) = p(1 − p)k−1 per k ∈ N e quindi
vale
∞ ∞ ∞ !
X X
k−1
X d k
E [X] = kγ(k) = p k(1 − p) =p − (1 − p)
dp
k=1 k=1 k=1
∞ !
d X d 1 1
= −p (1 − p)k = −p = ,
dp dp 1 − (1 − p) p
k=1
dove abbiamo usato un teorema di scambio di derivata con serie. In maniera analoga si prova che
1−p
var(X) = p2 .
Esempio 3.2.29. [!] Consideriamo un gioco d’azzardo in cui si lancia una moneta (non truccata): se viene
testa si vince un euro e se viene croce si perde un euro. Se X è la variabile aleatoria che rappresenta il
risultato della giocata, si ha
1 1
E [X] = 1 · + (−1) · = 0
2 2
e quindi si dice che il gioco è equo. Il gioco è equo anche se la vincita e la perdita fossero pari a 1000
euro, ma intuitivamente saremmo meno propensi a giocare perché percepiamo una rischiosità maggiore
(di perdere molti soldi). Matematicamente, questo si spiega col fatto che
h i 1 1
var(X) = E X 2 = 12 · + (−1)2 · = 1
2 2
mentre se Y rappresenta la v.a. nel caso in cui la posta in gioco è 1000 euro, si ha
h i 1 1
var(Y ) = E Y 2 = 10002 · + (−1000)2 · = 10002 .
2 2
In pratica, se due scommesse hanno lo stesso valore atteso, quella con varianza minore limita l’entità delle
potenziali perdite.
Consideriamo ora alcuni esempi di v.a. assolutamente continue.
Esempio 3.2.30. [!]
i) se X ∼ Unif[a,b] si ha
Z Z b
1 a+b
E [X] = yUnif[a,b] (dy) = , ydy =
R b−a a 2
!2 Zb !2
(b − a)2
Z
a+b 1 a+b
var(X) = y− Unif[a,b] (dy) = y− dy = .
R 2 b−a a 2 12
Confrontare questo risultato con l’analogo discreto visto nell’Esempio 3.2.28-i).

ii) se X ∼ Nµ,σ 2 con σ > 0 allora
(y−µ)2
Z Z
1 −
E [X] = yNµ,σ 2 (dy) = √ ye 2σ 2 dy =
R 2πσ 2 R
y−µ
(col cambio di variabili z = √ )
σ 2
1
Z √ 2 µ
Z
2
=√ µ + zσ 2 e−z dz = √ e−z dz = µ.
π R π R
In modo analogo si vede che Z

var(X) = (y − µ)2 Nµ,σ 2 (dy) = σ 2 .
R
iii) se X ∼ Gammaα,1 si ha
Z ∞ Z∞
1 Γ (α + 1)
E [X] = tγα,1 (t)dt = t α e−λt dt = = α,
0 Γ (α) 0 Γ (α)
Z ∞ Z ∞
h i 1 Γ (α + 2)
E X2 = t 2 γα,1 (t)dt = t 1+α e−λt dt = = α(α + 1)
0 Γ (α) 0 Γ (α)
da cui h i
var(X) = E X 2 − E [X]2 = α.
In generale, per il Lemma 3.1.36, se X ∼ Gammaα,λ si ha
α α
E [X] = , var(X) = .
λ λ2
In particolare, se X ∼ Expλ = Gamma1,λ allora
Z Z +∞
1
E [X] = yExpλ (dy) = λ ye−λy dy = ,
R 0 λ
Z +∞
1 2 1 2 −λy
Z
1

var(X) = y− Expλ (dy) = λ y− e dy = 2 .
R λ 0 λ λ
3.2.6 Disuguaglianza di Jensen

Proviamo un’importante estensione alle funzioni convesse della disuguaglianza triangolare per il valore
atteso. Esempi tipici di funzioni convesse che utilizzeremo in seguito sono
i) f (x) = |x|p con p ∈ [1, +∞[,
ii) f (x) = eλx con λ ∈ R,
iii) f (x) = − log x per x ∈ R>0 .
Teorema 3.2.31 (Disuguaglianza di Jensen). [!!]
Siano −∞ ≤ a < b ≤ +∞ e
X : Ω −→ ]a, b[ e f : ]a, b[−→ R
rispettivamente una v.a. sullo spazio (Ω, F , P ) e una funzione convessa. Se X, f (X) ∈ L1 (Ω, P ) allora si ha
f (E [X]) ≤ E [f (X)] .
Dimostrazione. Ricordiamo che se f è convessa allora per ogni z ∈ ]a, b[ esiste m ∈ R tale che
f (w) ≥ f (z) + m(w − z), ∀w ∈ ]a, b[. (3.2.13)
Proviamo dopo la (3.2.13) e concludiamo prima la prova della disuguaglianza di Jensen. Posto z = E [X] (si
noti che E [X] ∈ ]a, b[ poiché X(Ω) ⊆ ]a, b[ per ipotesi) si ha
f (X(ω)) ≥ f (E [X]) + m(X(ω) − E [X]), ω ∈ Ω,
da cui, prendendo il valore atteso e usando la proprietà di monotonia,
E [f (X)] ≥ E [f (E [X]) + m(X − E [X])] =
(per linearità e per il fatto che E [c] = c per ogni costante c)
= f (E [X]) + mE [X − E [X]] = f (E [X]).
Proviamo ora la (3.2.13). Ricordiamo che f è convessa se vale
f ((1 − λ)x + λy) ≤ (1 − λ)f (x) + λf (y), ∀x, y ∈ ]a, b[, λ ∈ [0, 1],
o equivalentemente, posto z = (1 − λ)x + λy,
(y − x)f (z) ≤ (y − z)f (x) + (z − x)f (y), x < z < y. (3.2.14)

Introduciamo la notazione
f (y) − f (x)
∆y,x = , a < x < y < b.
y −x
Non è difficile verificare10 che la (3.2.14) è equivalente a
∆z,x ≤ ∆y,x ≤ ∆y,z , x < z < y. (3.2.15)
La (3.2.15) implica11 che f è una funzione continua su ]a, b[ ed anche che le funzioni
z 7→ ∆z,x , per z > x, e z 7→ ∆y,z , per z < y,
sono monotone crescenti. Di conseguenza esistono i limiti12
D − f (z) := lim− ∆z,x ≤ lim+ ∆y,z =: D + f (z), z ∈ ]a, b[. (3.2.16)

x→z y→z
Ora se m ∈ [D − f (z), D + f (z)] si ha

∆z,x ≤ m ≤ ∆y,z , x < z < y,
che implica la (3.2.13).
Osservazione 3.2.32. La dimostrazione della disuguaglianza di Jensen è basata, oltre alle proprietà delle
funzioni convesse, soltanto sulle proprietà di monotonia, linearità e E [1] = 1 della media. In particolare
il fatto che E [1] = 1 è fondamentale: a differenza della disuguaglianza triangolare, la disuguaglianza di
Jensen non vale per un integrale o una somma generica.
3.2.7 Spazi Lp e disuguaglianze notevoli

Definizione 3.2.33. Sia (Ω, F , P ) uno spazio di probabilità e p ∈ [1, +∞[. La p-norma di una v.a. X è definita
da
1
∥X∥p := (E [|X|p ]) p .
Indichiamo con
Lp (Ω, P ) = {X ∈ mF | ∥X∥p < ∞}
lo spazio delle v.a. sommabili di ordine p.
q.c.
In realtà ∥ · ∥p non è una norma perché ∥X∥p = 0 implica X = 0 ma non X ≡ 0. In effetti vedremo nel
Teorema 3.2.39 che ∥ · ∥p è una semi-norma sullo spazio Lp (Ω, P ).
10 Proviamo per esempio la prima disuguaglianza:
f (z) − f (x) f (y) − f (x)

∆z,x ≤ ∆y,x ⇐⇒ ≤ ⇐⇒ (f (z) − f (x))(y − x) ≤ (f (y) − f (x))(z − x)
z−x y −x
che equivale alla (3.2.14).
11 Infatti da (3.2.15), in particolare da ∆
z,x ≤ ∆y,x , segue
f (y) − f (x)
f (z) ≤ f (x) + (z − x) −→ f (y) per z → y − .
y −x
Inoltre, fissato y0 ∈ ]y, b[, ancora dalla (3.2.15), in particolare da ∆y,z ≤ ∆y0 ,y , segue
f (z) ≥ f (y) − (y − z)∆y0 ,y −→ f (y) per z → y − .
Combinando le due disuguaglianze, si prova la continuità a sinistra di f . Per la continuità a destra si procede in modo analogo.
12 Per fissare le idee, si pensi a f (x) = |x| per cui si ha −1 = D − f (0) < D + f (0) = 1. Utilizzando la (3.2.16) si prova che l’insieme dei
punti z in cui D − f (z) < D + f (z), ossia in cui f non è derivabile, è al più numerabile.
Esempio 3.2.34. Se X ∼ Nµ,σ 2 allora X ∈ Lp (Ω, P ) per ogni p ≥ 1 poiché

Z
1 1 x−µ 2
p
E [|X| ] = |x|p √ e− 2 ( σ ) dx < ∞.
R 2πσ 2
È facile dare un esempio di X, Y ∈ L1 (Ω, P ) tali che XY < L1 (Ω, P ): è sufficiente considerare X(ω) =
Y (ω) = √1ω nello spazio ([0, 1], B, Leb). Diamo anche un esempio in uno spazio discreto.
Esempio 3.2.35. Consideriamo lo spazio di probabilità Ω = N con la misura di probabilità definita da

c
P ({n}) = , n ∈ N,
n3
dove c è la costante positiva13 che normalizza a 1 la somma dei P ({n}) in modo che P sia una misura di
probabilità. La v.a. X(n) = n è sommabile in P poiché
∞ ∞
X X c
E [X] = X(n)P ({n}) = n· < +∞.
n3
n=1 n=1
D’altra parte X < L2 (Ω, P ) poiché

∞
h i X c
E X2 = n2 · 3 = +∞,
n
n=1
o, in altri termini, posto Y = X si ha che XY < L1 (Ω, P ).

Proposizione 3.2.36. Se 1 ≤ p1 ≤ p2 allora vale
∥X∥p1 ≤ ∥X∥p2
e quindi
Lp2 (Ω, P ) ⊆ Lp1 (Ω, P ).
L’Esempio 3.2.35 mostra che in generale l’inclusione è stretta.
Dimostrazione. La tesi è diretta conseguenza della disuguaglianza di Jensen con f (x) = xq , x ∈ [0, +∞[,
p
q = p2 ≥ 1: infatti abbiamo
1
p2
E [|X|p1 ] p1 ≤ E [|X|p2 ] .
Teorema 3.2.37 (Disuguaglianza di Hölder). [!]

Siano p, q > 1 esponenti coniugati, ossia tali che p1 + 1q = 1. Se X ∈ Lp (Ω, P ) e Y ∈ Lq (Ω, P ) allora XY ∈ L1 (Ω, P )
e vale
∥XY ∥1 ≤ ∥X∥p ∥Y ∥q . (3.2.17)
Dimostrazione. Proviamo la tesi nel caso ∥X∥p > 0 altrimenti è banale. In questo caso, la (3.2.17) equivale a
e = |X| .
h i
E X|Y
e | ≤ ∥Y ∥q , dove X
∥X∥p
h i
ep ≥ 0 e E X
Notiamo che X ep = 1: quindi consideriamo la probabilità Q con densità X
ep rispetto a P , definita
da h i
Q(A) = E X ep 1A , A ∈ F.
13 Per precisione, c = Zeta(3) ≈ 1.20206 dove Zeta indica la funzione zeta di Riemann.
Allora si ha
" #q " #q
P ep |Y | |Y |
h iq
P Q
E X|Y | = E X 1 e ) =E 1 e ) ≤
ep−1 (X>0 ep−1 (X>0
e
X X
(per la disuguaglianza di Jensen)
|Y |q
" #
≤ EQ 1(X>0 =
eq(p−1) e )
X
(poiché, essendo p, q coniugati, vale q(p − 1) = p)
" q #
Q |Y |

P q q
=E e ) = E |Y | 1(X>0
1(X>0 e ) ≤ ∥Y ∥q ,
Xe p
che prova la tesi.

Corollario 3.2.38 (Disuguaglianza di Cauchy-Schwarz). [!]
Si ha
|E [XY ]| ≤ ∥X∥2 ∥Y ∥2 (3.2.18)
q.c.
e nella (3.2.18) vale l’uguaglianza se e solo se esiste a ∈ R per cui X = aY .
q.c.
Dimostrazione. La (3.2.18) segue da |E [XY ]| ≤ E [|XY |] e dalla disuguaglianza di Hölder. Se X = aY per
un certo a ∈ R è facile verificare che vale l’uguaglianza in (3.2.18). Viceversa, non è restrittivo assumere
E [XY ] ≥ 0 (altrimenti basta considerare −X al posto di X) e ∥X∥2 , ∥Y ∥2 > 0 (altrimenti la tesi è ovvia): in
questo caso poniamo
e= X ,
X e= Y .
Y
∥X∥2 ∥Y ∥2
h i
Si ha ∥X∥
e 2 = ∥Y
e∥2 = 1 e inoltre, per ipotesi, E X e = 1. Allora
eY
h i h i h i h i
E (X e)2 = E X
e−Y e2 + E Y
e2 − 2E X e =0
eY
e q.c.
da cui X =Y e.
Teorema 3.2.39. Per ogni p ≥ 1, Lp (Ω, P ) è uno spazio vettoriale su cui ∥ · ∥p è una semi-norma, ossia vale
q.c.
i) ∥X∥p = 0 se e solo se X = 0;
ii) ∥λX∥p = |λ|∥X∥p per ogni λ ∈ R e X ∈ Lp (Ω, P );
iii) vale la disuguaglianza di Minkowski
∥X + Y ∥p ≤ ∥X∥p + ∥Y ∥p ,
per ogni X, Y ∈ Lp (Ω, P ).

Dimostrazione. Basta provare solo la iii). È chiaro che, se X ∈ Lp (Ω, P ) e λ ∈ R, allora λX ∈ Lp (Ω, P ). Inoltre,
poiché
(a + b)p ≤ 2p (a ∨ b)p ≤ 2p (ap + bp ) , a, b ≥ 0, p ≥ 1,
allora il fatto che X, Y ∈ Lp (Ω, P ) implica che (X +Y ) ∈ Lp (Ω, P ). Dunque Lp (Ω, P ) è uno spazio vettoriale. Le
proprietà i) e ii) seguono facilmente dalle proprietà generali della media. Per la iii) è sufficiente considerare
il caso p > 1: per la disuguaglianza triangolare si ha
h i h i
E [|X + Y |p ] ≤ E |X||X + Y |p−1 + E |Y ||X + Y |p−1 ≤
(per la disuguaglianza di Hölder, indicando con q l’esponente coniugato di p > 1)

h i1
≤ ∥X∥p + ∥Y ∥p E |X + Y |(p−1)q q =
(poiché (p − 1)q = p)
1− 1

≤ ∥X∥p + ∥Y ∥p E [|X + Y |p ] p ,
da cui segue la disuguaglianza di Minkowski.
3.2.8 Covarianza e correlazione

Definizione 3.2.40 (Covarianza). La covarianza di due v.a. reali X, Y ∈ L2 (Ω, P ) è il numero reale
cov(X, Y ) := E [(X − E [X])(Y − E [Y ])] .
Esempio 3.2.41. Sia (X, Y ) con densità
γ(X,Y ) (x, y) = ye−xy 1R≥0 ×[1,2] (x, y).
Allora si ha
" "
3
E [X] = xγ(X,Y ) (x, y)dxdy = log 2, E [Y ] = yγ(X,Y ) (x, y)dxdy =
R2 R2 2
e "
3 3

cov(X, Y ) = (x − log 2) y − γ(X,Y ) (x, y)dxdy = 1 − log 2.
R2 2 2
In questa sezione usiamo le seguenti notazioni:
- eX := E [X] per l’attesa di X;
- σXY := cov(X, Y ) := e(X−eX )(Y −eY ) = eXY − eX eY per la covarianza di X, Y ;
p
- σX = var(X) per la deviazione standard di X, dove
var(X) = cov(X, X) = e(X−eX )2 = eX 2 − (eX )2 .
Osserviamo che:
i) per ogni c ∈ R si ha h i h i
var(X) = E (X − E [X])2 ≤ E (X − c)2
e vale l’uguaglianza se e solo se c = E [X]. Infatti
h i h i
E (X − c)2 = E (X − eX + eX − c)2
= σX2 + 2 E [X − eX ](eX − c) + (eX − c)2 = σX2 + (eX − c)2 ≥ σX2 .
| {z }
=0
ii) Se σX > 0 si può sempre “normalizzare” la v.a. X ponendo

X − eX
Z= ,
σX
in modo che E [Z] = 0 e var(Z) = 1.
iii) Vale
var(X + Y ) = var(X) + var(Y ) + 2cov(X, Y ). (3.2.19)
Se cov(X, Y ) = 0 si dice che le v.a. X, Y sono scorrelate.
iv) La covarianza cov(·, ·) è un operatore bilineare e simmetrico su L2 (Ω, P )×L2 (Ω, P ), ossia per ogni X, Y , Z ∈
L2 (Ω, P ) e α, β ∈ R vale
cov(X, Y ) = cov(Y , X) e cov(αX + βY , Z) = αcov(X, Z) + βcov(Y , Z).
p
v) Per la disuguaglianza di Cauchy-Schwarz (3.2.18) si ha |cov(X, Y )| ≤ var(X)var(Y ) ossia
|σXY | ≤ σX σY (3.2.20)
q.c.
e si ha l’uguaglianza nella (3.2.20) se e solo se Y è funzione lineare di X nel senso che Y = āX + b̄: nel
caso in cui σX > 0, le costanti ā e b̄ sono date da
σ σ
ā = XY
2
, b̄ = eY − eX XY . (3.2.21)
σX σX2
Come vedremo nella Sezione 3.2.9, la retta di equazione y = āx + b̄ è detta retta di regressione, e
intuitivamente fornisce una rappresentazione della dipendenza lineare fra due campioni di dati.
Definizione 3.2.42 (Correlazione). Siano X, Y ∈ L2 (Ω, P ) tali che σX , σY > 0. Il coefficiente di correlazione di
X, Y è definito da
σ
ϱXY := XY .
σX σY
q.c.
Dalla (3.2.20) segue che ϱXY ∈ [−1, 1] e |ϱXY | = 1 se e solo se Y = āX + b̄: si noti che ā > 0 se ϱXY = 1 e ā < 0
se ϱXY = −1. Dunque il coefficiente di correlazione misura il grado di dipendenza lineare fra X e Y .
Sia ora X = (X1 , . . . , Xd ) ∈ L2 (Ω, P ) una v.a. a valori in Rd . La matrice di covarianza di X è la matrice d × d
simmetrica
cov(X) = σXi Xj = E (X − E [X]) (X − E [X])∗ ,
i,j=1,...,d | {z } | {z }
d×1 1×d
dove M ∗ indica la trasposta della matrice M. Poiché
2
⟨cov(X)y, y⟩ = E (X − E [X])∗ y ≥ 0, y ∈ Rd ,
la matrice di covarianza è semi-definita positiva. Si noti che gli elementi della diagonale sono le varianze
σX2i per i = 1, . . . , d. Se σXi > 0 per ogni i = 1, . . . , d, definiamo la matrice di correlazione in modo analogo:

ϱ(X) = ϱXi Xj .
i,j=1,...,d
La matrice ϱ(X) è simmetrica, semi-definita positiva e gli elementi della diagonale sono uguali a uno: per
esempio nel caso d = 2, posto ϱ = ϱX1 X2 si ha
σX21
! !
1 ϱ ϱ σX1 σX2
ϱ(X) = cov(X) = .
ϱ 1 ϱ σX1 σX2 σX22
Infine se A è una matrice costante N ×d e b ∈ RN , allora la v.a. aleatoria Z := AX +b a valori in RN ha media

E [Z] = AE [X] + b,
e matrice di covarianza
cov(Z) = E [(AX + b − E [AX + b]) (AX + b − E [AX + b])∗ ] = Acov(X)A∗ .
Osservazione 3.2.43 (Decomposizione di Cholesky). [!] Una matrice simmetrica e semi-definita positiva
C si può fattorizzare nella forma C = AA∗ : ciò segue dal fatto che, per il Teorema spettrale,
√ C=U ∗
√DU con
−1 ∗ ∗
U ortogonale (ossia tale U = U ) e D matrice diagonale; dunque basta porre A = U DU dove D indica
la matrice diagonale i cui elementi sono le radici quadrate degli elementi di D (che sono reali non-negativi,
essendo C simmetrica e semi-definita positiva).
La fattorizzazione C = AA∗ non è unica: l’algoritmo di Cholesky permette di determinare una matrice
triangolare inferiore A per cui valga C = AA∗ . Per esempio, data la matrice di correlazione in dimensione
due !
1 ϱ
C=
ϱ 1
si ha la fattorizzazione di Cholesky C = AA∗ dove
!
1 p 0
A= .
ϱ 1 − ϱ2
3.2.9 Regressione lineare

In Statistica, si ha spesso a che fare con serie storiche (o campioni) di dati che forniscono la dinamica di
un certo fenomeno nel tempo (per esempio, una temperatura, il prezzo di un titolo finanziario, il numero
dei dipendenti di un’azienda etc.). Nel caso di dati uno-dimensionali, una serie storica è un vettore x =
(x1 , . . . , xM ) di RM . Possiamo pensare al vettore x come a una “realizzazione” di una variabile aleatoria
discreta X definita nel modo seguente:
X : IM −→ R, X(i) := xi , i ∈ IM .
Munendo lo spazio campionario IM della probabilità uniforme, media e varianza di X sono date da
M M
1 X 1 X
E [X] = xi , var(X) = (xi − E [x])2 .
M M
i=1 i=1
In Statistica, E [X] e var(X) sono chiamate la media campionaria e la varianza campionaria della serie storica
x e sono spesso indicate con E [x] e var(x) rispettivamente.
Siano ora x = (x1 , . . . , xM ) e y = (y1 , . . . , yM ) due serie storiche. Un semplice strumento per visualizzare
il grado di “dipendenza” fra x e y è il cosiddetto grafico di dispersione: in esso si rappresentano sul piano
cartesiano i punti di coordinate (xi , yi )i∈IM . Un esempio è dato in Figura 3.6.
La retta di regressione, tracciata nel grafico di dispersione in Figura 3.6, è la retta di equazione y = ax + b
dove a, b minimizzano le differenze fra axi + b e yi nel senso che rendono minimo l’errore quadratico
M
X
Q(a, b) = (axi + b − yi )2 .
i=1
Annullando il gradiente
XM M
X
(∂a Q(a, b), ∂b Q(a, b)) = 2 (axi + b − yi ) xi , 2 (axi + b − yi )
i=1 i=1
si determinano a, b: precisamente un semplice conto mostra che

σxy σxy
a= , b = E [y] − E [x] , (3.2.22)
σx2 σx2
30
30
25
20
20
10 15
10
Bologna
Jan Mar May Jul Sep Nov Jan -5 5 10 15 20 25 30
Figura 3.6: A sinistra: temperature nell’anno 2012 di Bologna (linea continua) e Città del Capo (linea
tratteggiata). A destra: grafico di dispersione delle temperature nell’anno 2012 di Bologna (in ascissa) e
Città del Capo (in ordinata).
dove σx2 = var(x) e

M
1 X
σxy = cov(x, y) = (xi − E [x]) (yi − E [y])
M
i=1
è la covarianza campionaria (o empirica) di x e y. Si noti l’analogia con le formule (3.2.21).

La covarianza σxy è proporzionale e ha lo stesso segno del coefficiente angolare della retta di regressione.
σxy è un indicatore della dipendenza lineare fra x e y: se σxy = 0, ossia x e y sono campioni scorrelati, non
c’è dipendenza lineare (ma potrebbe esserci dipendenza di altro tipo); se σxy > 0 i campioni dipendono
linearmente in modo positivo, la retta di regressione è crescente e questo indica che y tende a crescere al
crescere di x.
La quantità
σxy
ϱxy =
σx σy
è detta correlazione campionaria (o empirica) fra x e y. La correlazione ha il vantaggio di essere invariante
per cambi di scala: per ogni α, β > 0 la correlazione fra αx e βy è uguale alla correlazione fra x e y. Per la
disuguaglianza di Cauchy-Schwarz, si ha ϱxy ∈ [−1, 1]. Inoltre ϱxy = ±1 se e solo se Q(a, b) = 0 con a, b come
in (3.2.22).
3.2.10 Vettori aleatori: distribuzioni marginali e distribuzione congiunta

In questa sezione consideriamo un vettore di v.a. X = (X1 , . . . , Xn ) sullo spazio (Ω, F , P ) ed esaminiamo
la relazione fra X e le sue componenti. Assumiamo che
Xi : Ω −→ Rdi , i = 1, . . . , n,
con di ∈ N e poniamo d = d1 + · · · + dn .
Notazione 3.2.44. Al solito indichiamo con µX e FX rispettivamente la distribuzione e la funzione di

ripartizione (CDF) di X. Esamineremo con particolare attenzione i casi in cui:
i) X è assolutamente continua: in tal caso indichiamo con γX la sua densità (che è definita univocamente
a meno di insiemi Lebesgue-trascurabili);
ii) X è discreta: in tal caso indichiamo con µ̄X la sua funzione di distribuzione definita da µ̄X (x) = P (X =
x).
Nel seguito useremo sempre notazioni vettoriali: in particolare, se x, y ∈ Rd allora x ≤ y significa xi ≤ yi per
ogni i = 1, . . . , d, e
] − ∞, x] := ] − ∞, x1 ] × · · · × ] − ∞, xd ].
Definizione 3.2.45. Si dice che µX e FX sono rispettivamente la distribuzione congiunta e la CDF congiunta
delle v.a. X1 , . . . , Xn . Analogamente, nel caso esistano, γX e µ̄X sono la densità congiunta e la funzione di
distribuzione congiunta di X1 , . . . , Xn .
Viceversa, le distribuzioni µXi , i = 1, . . . , n, delle v.a. X1 , . . . , Xn sono dette distribuzioni marginali di X.
Analogamente si parla di CDF marginali, densità marginali e funzioni di distribuzione marginali di X.
La seguente proposizione mostra che dalla congiunta si possono ricavare facilmente le marginali. Nel-
l’enunciato, per semplificare le notazioni, consideriamo solo le marginali per la prima componente X1 ma
un risultato analogo è valido per ogni componente.
Proposizione 3.2.46. [!] Sia X = (X1 , . . . , Xn ) una v.a. Si ha:
µX1 (H) = µX (H × Rd−d1 ), H ∈ Bd1 , (3.2.23)

d1
FX1 (x1 ) = FX (x1 , +∞, . . . , +∞), x1 ∈ R .
Inoltre, se X ∈ AC allora X1 ∈ AC e
Z
γX1 (x1 ) := γX (x1 , x2 , . . . , xn )dx2 · · · dxn , x1 ∈ Rd1 (3.2.24)
Rd−d1
è una densità di X1 . Se X è discreta allora X1 è discreta e si ha

X
µ̄X1 (x1 ) = µ̄X (x1 , x2 , . . . , xn ), x1 ∈ Rd1 . (3.2.25)
(x2 ,...,xn )∈Rd−d1
Dimostrazione. Basta osservare che
µX1 (H) = P (X1 ∈ H) = P (X ∈ H × Rd−d1 ) = µX (H × Rd−d1 ), H ∈ Bd1 .
Prendendo H = ] − ∞, x1 ] si dimostra la seconda uguaglianza. Inoltre, se X ∈ AC, per la (3.2.23) si ha
P (X1 ∈ H) = P (X ∈ H × Rd−d1 )
Z
= γX (x)dx =
H×Rd−d1
(per il classico Teorema di Fubini per l’integrale di Lebesgue, essendo γX non-negativa)

Z Z !
= γX (x1 , . . . , xn )dx2 · · · dxn dx1
H Rd−d1
che prova la (3.2.24). Infine si ha
µ̄X1 (x1 ) = P (X1 = x1 ) = P (X ∈ {x1 } × Rd−d1 ) =
(per la (2.4.3))
X X
= µ̄X (x) = µ̄X (x1 , x2 , . . . , xn ).
x∈{x1 }×Rd−d1 (x2 ,...,xn )∈Rd−d1
Osservazione 3.2.47 (Criterio di Sylvester). Ricordiamo che una matrice C di dimensione d × d è detta
definita positiva se vale
⟨Cx, x⟩ > 0, x ∈ Rd \ {0}.
In base all’utile criterio di Sylvester, una matrice reale simmetrica C è definita positiva se e solo se dk > 0
per ogni k = 1, . . . , d, dove dk indica il determinante della matrice ottenuta cancellando da C le ultime d − k
righe e le ultime d − k colonne.
Esempio 3.2.48. [!] Consideriamo una matrice simmetrica e definita positiva
!
v1 c
C= .
c v2
Per il criterio di Sylvester si ha

v1 > 0 e det C = v1 v2 − c2 > 0.
Allora C è invertibile con !
−1 1 v2 −c
C =
v1 v2 − c2 −c v1
e la funzione Gaussiana bidimensionale
1 1 −1
Γ (x) = √ e− 2 ⟨C x,x⟩ , x ∈ R2 ,
2π det C
è una densità poiché è una funzione positiva e vale
Z
Γ (x)dx = 1.
R2
La funzione Γ è detta densità della distribuzione normale bidimensionale: se X = (X1 , X2 ) ha densità Γ allora
si dice che X ha distribuzione normale bidimensionale e si scrive X ∼ N0,C .
In base alla Proposizione 3.2.46 le densità marginali di X1 e X2 sono rispettivamente
x2
Z
1 − 1
γX1 (x1 ) = Γ (x1 , x2 )dx2 = √ e 2v1 , x1 ∈ R,
R 2πv1
x2
Z
1 − 2
γX2 (x2 ) = Γ (x1 , x2 )dx1 = √ e 2v2 , x2 ∈ R,
R 2πv2
ossia X1 ∼ N0,v1 e X2 ∼ N0,v2 , indipendentemente dal valore di c ∈ R. D’altra parte vale
Z
cov(X1 , X2 ) = E [(X1 − E [X1 ])(X2 − E [X2 ])] = x1 x2 Γ (x1 , x2 )dx1 dx2 = c.
R2
Dunque la distribuzione congiunta fornisce informazioni non solo sulle singole distribuzioni marginali, ma
anche sulle relazioni fra le diverse componenti di X. Al contrario, a partire dalla conoscenza delle distribuzioni
marginali, X1 ∼ N0,v1 e X2 ∼ N0,v2 , non si può dire nulla sulla covarianza di X1 , X2 : in generale, non è
possibile ricavare la distribuzione congiunta dalle marginali. Al riguardo si veda anche l’Esempio 3.3.24.
3.3 Indipendenza
Nella teoria della probabilità, una delle questioni di maggior interesse teorico e applicativo riguarda l’e-
sistenza e il grado di dipendenza fra quantità aleatorie. Per esempio, abbiamo già visto che la correlazione
è un indice di un particolare tipo di dipendenza, quella lineare, fra variabili aleatorie. In questo paragra-
fo diamo una trattazione generale dell’argomento introducendo i concetti di dipendenza deterministica e
indipendenza stocastica.
3.3. INDIPENDENZA 127
3.3.1 Dipendenza deterministica e indipendenza stocastica

In questa prima sezione, per semplicità, ci limitiamo a considerare il caso di due v.a. reali X, Y sullo
spazio (Ω, F , P ). Poiché useremo sistematicamente il concetto di σ -algebra generata da X, ne ricordiamo la
definizione:
σ (X) = X −1 (B) = {(X ∈ H) | H ∈ B}.
Definizione 3.3.1. Diciamo che:
i) X e Y sono stocasticamente indipendenti in P se gli eventi (X ∈ H) e (Y ∈ K) sono indipendenti in P

per ogni H, K ∈ B. In altri termini, X e Y sono indipendenti in P se lo sono le rispettive σ -algebre
generate, nel senso che gli elementi di σ (X) e σ (Y ) sono a due a due indipendenti in P ;
ii) X dipende in modo deterministico da Y se sussiste la seguente inclusione
σ (X) ⊆ σ (Y ), (3.3.1)
ossia se X è σ (Y )-misurabile e in tal caso si scrive X ∈ mσ (Y ).
Osservazione 3.3.2. [!] Siano Y una v.a. e f ∈ mB. Come visto in (3.1.1), vale

σ (f (Y )) = (f ◦ Y )−1 (B) = Y −1 f −1 (B) ⊆ Y −1 (B) = σ (Y ).
da cui
σ (f (Y )) ⊆ σ (Y ). (3.3.2)
Quindi X := f (Y ) dipende in modo deterministico da Y . Dall’inclusione (3.1.9) si deduce anche il seguente
utile risultato: se f , g ∈ mB e X, Y sono v.a. indipendenti, allora anche le v.a. f (X), g(Y ) sono indipendenti.
Il seguente teorema chiarisce il significato dell’inclusione (3.3.1), caratterizzandola in termini di dipen-

denza funzionale di X da Y .
Teorema 3.3.3 (Teorema di Doob). [!!] Siano X, Y v.a. reali su (Ω, F , P ). Allora X ∈ mσ (Y ) se e solo se
esiste f ∈ mB tale che X = f (Y ).
Osservazione 3.3.4. Il Teorema di Doob rimane valido (con dimostrazione pressoché identica) nel caso in
cui X sia a valori in Rd e Y sia a valori in un generico spazio misurabile (E, E ). L’enunciato generale è il
seguente: X ∈ mσ (Y ) se e solo se esiste una funzione misurabile14 f : E −→ Rd tale che X = f (Y ).
X

(Ω, F ) Rd , Bd
Y f
(E, E )
Dimostrazione del Teorema 3.3.3. Se X = f (Y ) con f ∈ mB allora X ∈ mσ (Y ): ciò segue direttamente dalla
(3.3.2). Viceversa, sia X ∈ mσ (Y ). Utilizzando una trasformazione del tipo
1 1
Z= + arctan X
2 π
non è restrittivo assumere che X sia a valori in ]0, 1[.
14 f ∈ mE , ossia f −1 (H) ∈ E per ogni H ∈ B .
d
Consideriamo prima il caso in cui X è semplice, ossia X assume solo i valori distinti x1 , . . . , xm ∈ ]0, 1[ e
quindi si scrive nella forma
Xm
X= xk 1(X=xk ) .
k=1
Per ipotesi, si ha (X = xk ) = (Y ∈ Hk ) con Hk ∈ B, k = 1, . . . , m. Allora posto

m
X
f (y) = xk 1Hk (y), y ∈ R,
k=1
si ha
m
X m
X m
X
f (Y ) = xk 1Hk (Y ) = xk 1(Y ∈Hk ) = xk 1(X=xk ) = X.
k=1 k=1 k=1
Consideriamo ora il caso generale in cui X assume valori in ]0, 1[: per il Lemma 3.2.3 esiste una
successione (Xn )n≥1 di v.a. semplici e σ (Y )-misurabili tali che
0 ≤ Xn (ω) ↗ X(ω), ω ∈ Ω. (3.3.3)
Per quanto provato nel punto precedente, si ha Xn = fn (Y ) con fn ∈ mB a valori in [0, 1[. Definiamo
f (y) := lim sup fn (y), y ∈ R.

n→∞
Allora f ∈ mB (cfr. Proposizione 3.1.8) è limitata e per la (3.3.3) si ha
X(ω) = lim Xn (ω) = lim fn (Y (ω)) = f (Y (ω)), ω ∈ Ω.

n→∞ n→∞
Corollario 3.3.5. Siano X, Y , Z v.a. reali su (Ω, F , P ) con X ≥ Z. Se X, Z ∈ mσ (Y ) esistono f , g ∈ mB tali che
X = f (Y ), Z = g(Y ) e f ≥ g.
Dimostrazione. Nel caso Z ≡ 0 la tesi è conseguenza della costruzione di f fatta nella dimostrazione del
Teorema 3.3.3. Nel caso generale, poiché 0 ≤ X − Z ∈ mσ (Y ) esiste 0 ≤ h ∈ mB tale che X − Z = h(Y ). Inoltre
esiste f ∈ mσ (Y ) tale che Z + h(Y ) = X = f (Y ) e quindi Z = (f − h)(Y ) con f ≥ f − h ∈ mσ (Y ).
Per capire il concetto di dipendenza deterministica si esamini attentamente il seguente
Esercizio 3.3.6. [!] Consideriamo Ω = {1, 2, 3} e le v.a. X, Y di Bernoulli definite su Ω nel modo seguente
 
1 se ω ∈ {1, 2}, 1 se ω = 1,

 

X(ω) =  Y (ω) = 
0 se ω = 3,
 0 se ω ∈ {2, 3}.

Notiamo che
σ (X) = {∅, Ω, {1, 2}, {3}}, σ (Y ) = {∅, Ω, {1}, {2, 3}}.
i) Verificare direttamente che non esiste una funzione f tale che X = f (Y ).
ii) Le v.a. X e Y sono indipendenti rispetto alla probabilità uniforme?
iii) Esiste una misura di probabilità su Ω rispetto alla quale X e Y sono indipendenti?
Soluzione.
i) Se esistesse una tale funzione f allora si avrebbe
1 = X(2) = f (Y (2)) = f (0) = f (Y (3)) = X(3) = 0
che è assurdo. Dunque fra X e Y non c’è dipendenza deterministica. Notiamo che, in accordo col Teorema 3.3.3, non sussistono
relazioni di inclusione fra σ (X) e σ (Y ).
ii) X e Y non sono indipendenti nella probabilità uniforme perché gli eventi (X = 1) = {1, 2} e (Y = 0) = {2, 3} non sono
indipendenti in quanto
1
P ((X = 1) ∩ (Y = 0)) = P ({2}) =
3
ma
4
P (X = 1)P (Y = 0) = .
9
iii) Sı̀, per esempio la probabilità definita da P (1) = P (3) = 0 e P (2) = 1: più in generale, X e Y sono indipendenti rispetto
ad una probabilità tipo Delta di Dirac centrata in 1 o 2 o 3 (si veda al riguardo il punto i) dell’esercizio seguente).
Osservazione 3.3.7. [!] L’Esercizio 3.3.6 ci permette di ribadire che il concetto di indipendenza stocastica
è sempre relativo ad una particolare misura di probabilità fissata. Al contrario, la dipendenza deterministica
è una proprietà generale che non dipende dalla misura di probabilità considerata. In particolare, i concetti di
indipendenza stocastica e di dipendenza deterministica non sono “uno il contrario dell’altro”. Fra l’altro,
la dipendenza deterministica “va in una direzione”: se X dipende in modo deterministico da Y non è detto
che Y dipenda in modo deterministico da X.
Esercizio 3.3.8. Siano X, Y v.a. discrete su (Ω, P ). Provare le seguenti affermazioni:
q.c.
i) se X è costante quasi certamente, X = c, allora X, Y sono indipendenti;
ii) sia
f : X(Ω) −→ R
una funzione iniettiva. Allora X e f (X) sono indipendenti in P se e solo se X è costante q.c.
Soluzione.
i) Osservando che P (X ∈ H) ∈ {0, 1} per ogni H ∈ B, non è difficile provare la tesi.
ii) È sufficiente provare che se X e f (X) sono indipendenti allora X è costante q.c. Sia y ∈ X(Ω): essendo f iniettiva si ha
(X = y) = (f (X) = f (y)) o più esplicitamente
{ω ∈ Ω | X(ω) = y} = {ω ∈ Ω | f (X(ω)) = f (y)}.
Allora si ha
P (X = y) = P (X = y) ∩ (f (X) = f (y)) = P (X = y)P (f (X) = f (y)) = P (X = y)2
da cui segue P (X = y) ∈ {0, 1} e dunque la tesi.
3.3.2 Misura prodotto e Teorema di Fubini

Per studiare in maniera più approfondita il concetto di indipendenza stocastica fra due o più variabili
aleatorie, presentiamo alcuni risultati preliminari sul prodotto di misure che svolgeranno un ruolo centrale
nel seguito. Dati due spazi misurabili finiti (Ω1 , F1 , µ1 ) e (Ω2 , F2 , µ2 ), consideriamo il prodotto cartesiano
Ω := Ω1 × Ω2 = {(x, y) | x ∈ Ω1 , y ∈ Ω2 },
e la famiglia dei rettangoli definita nel modo seguente
R := {A × B | A ∈ F1 , B ∈ F2 }.
Indichiamo con
F1 ⊗ F2 := σ (R)
la σ -algebra generata dai rettangoli, anche chiamata σ -algebra prodotto di F1 e F2 . Vale la seguente
generalizzazione del Corollario 3.1.6 e dell’Osservazione 3.1.9.
Corollario 3.3.9. Per k = 1, 2, siano Xk : Ωk −→ R funzioni sugli spazi misurabili (Ωk , Fk ). Le seguenti
proprietà sono equivalenti:
i) (X1 , X2 ) ∈ m(F1 ⊗ F2 );
ii) Xk ∈ mFk per k = 1, 2.
Inoltre, se vale i) o ii) allora per ogni f ∈ mB2 si ha che f (X1 , X2 ) ∈ m(F1 ⊗ F2 ).
Osservazione 3.3.10. Ogni disco di R2 è unione numerabile di rettangoli e di conseguenza B ⊗ B = B2 . Al
contrario, se Ld indica la σ -algebra dei misurabili secondo Lebesgue in Rd , allora L1 ⊗ L1 è strettamente
incluso in L2 . Infatti, per esempio, se H ⊆ R non è misurabile secondo Lebesgue, allora H × {0} ∈ L2 \
(L1 ⊗ L1 ).
Lemma 3.3.11. Sia
f : Ω1 × Ω2 −→ R
una funzione F1 ⊗ F2 -misurabile e limitata. Allora si ha:
i) f (·, y) ∈ mF1 per ogni y ∈ Ω2 ;
ii) f (x, ·) ∈ mF2 per ogni x ∈ Ω1 .
Dimostrazione. Sia H la famiglia delle funzioni F1 ⊗ F2 -misurabili, limitate che verificano le proprietà i)
e ii). Allora H è una famiglia monotona di funzioni (cfr. Definizione A.1.7). La famiglia R è ∩-chiusa,
genera F1 ⊗ F2 ed è chiaro che 1A×B ∈ H per ogni (A × B) ∈ R. Allora la tesi segue dal secondo Teorema di
Dynkin (Teorema A.1.8).
Osservazione 3.3.12. Il classico Teorema di Fubini per l’integrale di Lebesgue afferma che se f = f (x, y) ∈
mL2 (ossia f è misurabile rispetto alla σ -algebra L2 dei Lebesgue-misurabili di R2 ) allora f (x, ·) ∈ mL1 per
quasi ogni x ∈ R. Si noti la differenza rispetto al Lemma 3.3.11 in cui si afferma che “f (x, ·) ∈ mF2 per ogni
x ∈ Ω1 ”. Ciò è dovuto al fatto che, come abbiamo già osservato, L1 ⊗ L1 è strettamente incluso in L2 . Per
maggiori dettagli rimandiamo alla sezione “Completion of product measure”, Cap.8 in [66].
Lemma 3.3.13. Se f è una funzione F1 ⊗ F2 -misurabile e limitata allora si ha:
R
i) x 7→ f (x, y)µ2 (dy) ∈ mF1 ;
Ω2
R
ii) y 7→ f (x, y)µ1 (dx) ∈ mF2 ;
Ω1
iii) vale Z Z ! Z Z !
f (x, y)µ2 (dy) µ1 (dx) = f (x, y)µ1 (dx) µ2 (dy).
Ω1 Ω2 Ω2 Ω1
Dimostrazione. Come nel lemma precedente, la tesi segue dal secondo Teorema di Dynkin applicato alla
famiglia H delle funzioni F1 ⊗ F2 -misurabili, limitate che verificano le proprietà i), ii) e iii). Infatti H è
una famiglia monotona di funzioni e 1A×B ∈ H per ogni (A × B) ∈ R.
Proposizione 3.3.14 (Misura prodotto). La funzione definita da
Z Z ! Z Z !
µ(H) := 1H dµ2 dµ1 = 1H dµ1 dµ2 , H ∈ F1 ⊗ F2 ,
Ω1 Ω2 Ω2 Ω1
è l’unica misura finita su F1 ⊗ F2 tale che

µ(A × B) = µ1 (A)µ2 (B), A ∈ F1 , B ∈ F2 .
Scriviamo µ = µ1 ⊗ µ2 e diciamo che µ è la misura prodotto di µ1 e µ2 .
Dimostrazione. Il fatto che µ sia una misura segue dalla linearità dell’integrale e dal Teorema di Beppo-Levi.
L’unicità segue dal Corollario A.1.5, poiché R è ∩-chiusa e genera F1 ⊗ F2 .
Teorema 3.3.15 (Teorema di Fubini). [!!!] Sullo spazio prodotto (Ω1 × Ω2 , F1 ⊗ F2 , µ1 ⊗ µ2 ), sia f una
funzione (F1 ⊗ F2 )-misurabile a valori reali. Se f è non-negativa oppure sommabile (ossia, f ∈ L1 (Ω1 ×
Ω2 , µ1 ⊗ µ2 )) allora si ha:
Z Z Z !
f d(µ1 ⊗ µ2 ) = f (x, y)µ2 (dy) µ1 (dx)
Ω1 ×Ω2 Ω1 Ω2
Z Z ! (3.3.4)
= f (x, y)µ1 (dx) µ2 (dy).
Ω2 Ω1
Dimostrazione. La (3.3.4) è vera se f = 1A×B e quindi, per il secondo Teorema di Dynkin, anche per f
misurabile e limitata. Il Teorema di Beppo-Levi e la linearità dell’integrale assicurano la validità di (3.3.4)
rispettivamente per f non-negativa e f ∈ L1 .
Osservazione 3.3.16. Il Teorema 3.3.15 resta valido sotto l’ipotesi che gli spazi (Ω1 , F1 , µ1 ) e (Ω2 , F2 , µ2 )
siano σ -finiti. A partire dal Teorema 3.3.15, si definisce per induzione la misura prodotto di più di due
misure
µ1 ⊗ · · · ⊗ µn .
Esempio 3.3.17. Sia µ = Expλ ⊗ Bep la misura prodotto su R2 delle distribuzioni esponenziale Expλ e di
Bernoulli Bep . Per il Teorema di Fubini, il calcolo dell’integrale di f ∈ L1 (R2 , µ) si svolge nel modo seguente:
" Z Z !
f (x, y)µ(dx, dy) = f (x, y)Bep (dy) Expλ (dx)
R2
ZR R
= (pf (x, 1) + (1 − p)f (x, 0)) Expλ (dx)

R
Z +∞ Z +∞
−λx
= pλ f (x, 1)e dx + (1 − p)λ f (x, 0)e−λx dx.
0 0
3.3.3 Indipendenza fra σ -algebre

Poiché la definizione generale di indipendenza di v.a. è data in termini di indipendenza delle relative
σ -algebre generate, esaminiamo prima il concetto di indipendenza fra σ -algebre. Nel seguito (Ω, F , P ) è
uno spazio di probabilità fissato e I è una qualsiasi famiglia di indici.
Definizione 3.3.18. Diciamo che le famiglie di eventi Fi , con i ∈ I, sono indipendenti in P se vale
 n  n
\  Y
P  Ak  =
 P (Ak ),
k=1 k=1
per ogni scelta di un numero finito di indici i1 , . . . , in e Ak ∈ Fik per k = 1, . . . , n.
Esercizio 3.3.19. Sia σ (A) = {∅, Ω, A, Ac } la σ -algebra generata da A ∈ F . Dimostrare che A1 , . . . , An ∈ F

sono indipendenti in P (cfr. Definizione 2.3.27) se e solo se σ (A1 ), . . . , σ (An ) sono indipendenti in P .
A volte può essere utile il seguente corollario del Teorema di Dynkin.
Lemma 3.3.20. Siano A1 , . . . , An famiglie di eventi in (Ω, F , P ), chiuse rispetto all’intersezione. Allora
A1 , . . . , An sono indipendenti in P se e solo se σ (A1 ), . . . , σ (An ) sono indipendenti in P .
Dimostrazione. Proviamo il caso n = 2: la dimostrazione generale è analoga. Fissiamo A ∈ A1 e definiamo

le misure finite
µ(B) = P (A ∩ B), ν(B) = P (A)P (B), B ∈ σ (A2 ).
Per ipotesi µ = ν su A2 e inoltre µ(Ω) = P (A) = ν(Ω), quindi per il Corollario A.1.5 µ = ν su σ (A2 ) o, in altri
termini
P (A ∩ B) = P (A)P (B), B ∈ σ (A2 ).
Ora fissiamo B ∈ σ (A2 ) e definiamo le misure finite
µ(B) = P (A ∩ B), ν(B) = P (A)P (B), A ∈ σ (A1 ).
Abbiamo provato che µ = ν su A1 e ovviamente µ(Ω) = P (B) = ν(Ω), quindi ancora per il Corollario A.1.5
si ha µ = ν su σ (A1 ) che equivale alla tesi.
3.3.4 Indipendenza fra vettori aleatori

Assumiamo le ipotesi e notazioni della Sezione 3.2.10 e introduciamo l’importante concetto di indipen-
denza fra v.a.
Definizione 3.3.21 (Indipendenza di v.a.). Diciamo che le v.a. X1 , . . . , Xn , definite sullo spazio (Ω, F , P ),
sono indipendenti in P se le relative σ -algebre generate σ (X1 ), . . . , σ (Xn ) sono indipendenti in P o, equiva-
lentemente, se vale  n 
\  Yn
P  (Xi ∈ Hi ) =
 P (Xi ∈ Hi ), Hi ∈ Bdi , i = 1, . . . , n.
i=1 i=1
Osservazione 3.3.22. [!] Come conseguenza della (3.3.2), se X1 , . . . , Xn sono v.a. indipendenti su (Ω, F , P ) e
f1 , . . . , fn ∈ mB allora anche le v.a. f1 (X1 ), . . . , fn (Xn ) sono indipendenti in P : in altri termini, la proprietà di in-
dipendenza è invariante per trasformazioni di tipo deterministico (nello specifico, l’operazione di composizione
con funzioni misurabili).
Per esempio, supponiamo che X1 , . . . , Xn , Y1 , . . . , Ym siano v.a. reali e X := (X1 , . . . , Xn ) e Y := (Y1 , . . . , Ym )
siano indipendenti. Allora sono indipendenti anche le seguenti coppie di variabili aleatorie15
i) Xi e Yj per ogni i e j;
ii) Xi1 + Xi2 e Yj1 + Yj2 per ogni i1 , i2 , j1 , j2 ;
iii) Xi2 e Y per ogni i.
Il seguente risultato fornisce un’importante caratterizzazione della proprietà di indipendenza. Esso

mostra anche che, nel caso di v.a. indipendenti, la distribuzione congiunta può essere ricavata dalle distribuzioni
marginali. Per chiarezza d’esposizione, enunciamo prima il risultato nel caso particolare di due v.a. e in
seguito diamo il risultato generale.
Teorema 3.3.23. [!!] Siano X1 , X2 v.a. su (Ω, F , P ) a valori rispettivamente in Rd1 e Rd2 . Le seguenti tre
proprietà sono equivalenti:
i) X1 , X2 sono indipendenti in P ;
ii) F(X1 ,X2 ) (x1 , x2 ) = FX1 (x1 )FX2 (x2 ) per ogni x1 ∈ Rd1 e x2 ∈ Rd2 ;
iii) µ(X1 ,X2 ) = µX1 ⊗ µX2 .
Inoltre, se (X1 , X2 ) ∈ AC allora le proprietà precedenti sono anche equivalenti a:

15 Per esercizio determinare le funzioni misurabili con cui si compongono X e Y .
iv) per quasi ogni (x1 , x2 ) ∈ Rd1 × Rd2 vale
γ(X1 ,X2 ) (x1 , x2 ) = γX1 (x1 )γX2 (x2 ). (3.3.5)
Infine, se (X1 , X2 ) è discreta allora le proprietà i), ii) e iii) sono anche equivalenti a:
v) per ogni (x1 , x2 ) ∈ Rd1 × Rd2 vale
µ̄(X1 ,X2 ) (x1 , x2 ) = µ̄X1 (x1 )µ̄X2 (x2 ). (3.3.6)
Dimostrazione. [i) =⇒ ii)] Si ha
F(X1 ,X2 ) (x1 , x2 ) = P ((X1 ≤ x1 ) ∩ (X2 ≤ x2 )) =
(per l’ipotesi di indipendenza)
= P (X1 ≤ x1 )P (X2 ≤ x2 ) = FX1 (x1 )FX2 (x2 ).
[ii) =⇒ iii)] L’ipotesi F(X1 ,X2 ) = FX1 FX2 implica che le distribuzioni µ(X1 ,X2 ) e µX1 ⊗ µX2 coincidono sulla
famiglia dei pluri-intervalli ] − ∞, x1 ]× ] − ∞, x2 ]: la tesi segue dall’unicità dell’estensione della misura del
Teorema 2.4.29 di Carathéodory (oppure si veda il Corollario A.1.5, poiché la famiglia dei pluri-intervalli
è ∩-chiusa e genera Bd1 +d2 ).
[iii) =⇒ i)] Per ogni H ∈ Bd1 e K ∈ Bd2 si ha
P ((X1 ∈ H) ∩ (X2 ∈ K)) = µ(X1 ,X2 ) (H × K) =
(poiché per ipotesi µ(X1 ,X2 ) = µX1 ⊗ µX2 )
= µX1 (H)µX2 (K) = P (X1 ∈ H)P (X2 ∈ K)
da cui l’indipendenza di X1 e X2 .
Assumiamo ora che (X1 , X2 ) ∈ AC e quindi, per la Proposizione 3.2.46, anche X1 , X2 ∈ AC.
[i) =⇒ iv)] Per l’ipotesi di indipendenza, si ha
Z Z
P ((X1 , X2 ) ∈ H × K) = P (X1 ∈ H)P (X2 ∈ K) = γX1 (x1 )dx1 γX2 (x2 )dx2 =
H K
(per il Teorema di Fubini e con la notazione x = (x1 , x2 ) per il punto di Rd1 +d2 )
Z
= γX1 (x1 )γX2 (x2 )dx
H×K
e quindi γX1 γX2 è densità di (X1 , X2 ).

[iv) =⇒ i)] Si ha
Z
P ((X1 , X2 ) ∈ H × K) = γ(X1 ,X2 ) (x)dx =
H×K
(per ipotesi)
Z
= γX1 (x1 )γX2 (x2 )dx
H×K
(per il Teorema di Fubini)

Z Z
= γX1 (x1 )dx1 γX2 (x2 )dx2 = P (X1 ∈ H)P (X2 ∈ K),
H K
Infine assumiamo che la v.a. (X1 , X2 ) sia discreta e quindi, per la Proposizione 3.2.46, anche X1 , X2 lo
siano. La dimostrazione è del tutto analoga al caso precedente.
[i) =⇒ v)] Per l’ipotesi di indipendenza, si ha
µ̄(X1 ,X2 ) (x1 , x2 ) = P ((X1 = x1 ) ∩ (X2 = x2 )) = P (X1 = x1 )P (X2 = x2 ) = µ̄X1 (x1 )µ̄X2 (x2 )
da cui la (3.3.6).
[v) =⇒ i)] Si ha
X
P ((X1 , X2 ) ∈ H × K) = µ̄(X1 ,X2 ) (x1 , x2 ) =
(x1 ,x2 )∈H×K
(per ipotesi)
X
= µ̄X1 (x1 )µ̄X2 (x2 ) =
(x1 ,x2 )∈H×K
(essendo i termini della somma non-negativi)

X X
= µ̄X1 (x1 ) µ̄X2 (x2 ) = P (X1 ∈ H)P (X2 ∈ K),
x1 ∈H x2 ∈K
Il seguente esempio mostra due coppie di v.a. con uguali distribuzioni marginali ma diverse distribu-
zioni congiunte.
Esempio 3.3.24. [!] Consideriamo un’urna contenente n palline numerate. Siano:
i) X1 , X2 i risultati di due estrazioni successive con reinserimento;
ii) Y1 , Y2 i risultati di due estrazioni successive senza reinserimento.
È naturale assumere che le v.a. X1 , X2 abbiano distribuzione uniforme Unifn e siano indipendenti: per il
Teorema 3.3.23-v) la funzione di distribuzione congiunta è
1
µ̄(X1 ,X2 ) (x1 , x2 ) = µ̄X1 (x1 )µ̄X2 (x2 ) = , (x1 , x2 ) ∈ In × In ,
n2
dove, al solito, In = {1, . . . , n}.
La v.a. Y1 ha distribuzione uniforme Unifn ma non è indipendente da Y2 . Per ricavare la funzione
di distribuzione congiunta utilizziamo la conoscenza della probabilità che la seconda estrazione sia y2 ,
condizionata al fatto che la prima pallina estratta sia y1 :

1
 n−1 se y2 ∈ In \ {y1 },


P (Y2 = y2 | Y1 = y1 ) = 
0
 se y2 = y1 .
Allora abbiamo

P (Y1 , Y2 ) = (y1 , y2 ) = P (Y1 = y1 ) ∩ (Y2 = y2 )
= P (Y2 = y2 | Y1 = y1 ) P (Y1 = y1 ) (3.3.7)
da cui 
1

 n(n−1)
 se y1 , y2 ∈ In , y1 , y2 ,
µ̄(Y1 ,Y2 ) (y1 , y2 ) = 
0
 altrimenti.
Sottolineiamo l’importanza del passaggio (3.3.7) in cui, non potendo sfruttare l’indipendenza, abbiamo
usato la formula di moltiplicazione (2.3.5). Avendo µ̄(Y1 ,Y2 ) , possiamo ora calcolare µ̄Y2 mediante la (3.2.25)
della Proposizione 3.2.46: per ogni y2 ∈ In abbiamo
X X 1 1
µ̄Y2 (y2 ) = µ̄(Y1 ,Y2 ) (y1 , y2 ) = = ,
n(n − 1) n
y1 ∈In y1 ∈In \{y2 }
ossia anche Y2 ∼ Unifn . In definitiva Y1 , Y2 hanno distribuzioni marginali uniformi come X1 , X2 , ma

differente distribuzione congiunta.
Il Teorema 3.3.23 si estende al caso di un numero finito di v.a. nel modo seguente:
Teorema 3.3.25. [!!] Siano X1 , . . . , Xn v.a. su (Ω, F , P ) a valori rispettivamente in Rd1 , . . . , Rdn . Posto X =
(X1 , . . . , Xn ) e d = d1 + · · · + dn , le seguenti tre proprietà sono equivalenti:
i) X1 , . . . , Xn sono indipendenti in P ;
ii) per ogni x = (x1 , . . . , xn ) ∈ Rd si ha
n
Y
FX (x1 , . . . , xn ) = FXi (xi ); (3.3.8)
i=1
iii) vale
µX = µX1 ⊗ · · · ⊗ µXn .
Inoltre, se X ∈ AC allora le proprietà precedenti sono anche equivalenti a:

iv) per quasi ogni x = (x1 , . . . , xn ) ∈ Rd vale
n
Y
γX (x) = γXi (xi ).
i=1
Infine, se X è discreta allora le proprietà i), ii) e iii) sono anche equivalenti a:
v) per ogni x ∈ Rd vale
n
Y
µ̄X (x) = µ̄Xi (xi ).
i=1
Nella Sezione 3.1.1 abbiamo provato che è possibile costruire uno spazio di probabilità su cui è definito
un vettore aleatorio (X1 , . . . , Xn ) con distribuzione assegnata (cfr. Osservazione 3.1.16). Come semplice
conseguenza si ha anche:
Corollario 3.3.26 (Esistenza di v.a. indipendenti). [!]
Siano µk distribuzioni su Rdk , k = 1, . . . , n. Esiste uno spazio di probabilità (Ω, F , P ) su cui sono definite
X1 , . . . , Xn v.a. tali che Xk ∼ µk per k = 1, . . . , n e siano indipendenti in P .
Dimostrazione. Consideriamo la distribuzione prodotto µ = µ1 ⊗ · · · ⊗ µn su Rd con d = d1 + · · · + dn . Per
l’Osservazione 3.1.16, la funzione identità X(ω) = ω è una v.a. su (Rd , Bd , µ) con X ∼ µ. Per il Teorema
3.3.25, le componenti di X verificano la tesi.
Osservazione 3.3.27. Nella dimostrazione precedente la costruzione di numero n di variabili aleatorie in-
dipendenti avviene prendendo come spazio campionario lo spazio Euclideo di dimensione almeno pari a n.
Questo fatto fa intuire che il problema della costruzione di una successione (o, ancor peggio, di una famiglia
non numerabile) di v.a. indipendenti non è altrettanto semplice perché, per analogia, lo spazio campionario
dovrebbe avere dimensione infinita.
3.3.5 Indipendenza e valore atteso

Vediamo un’importante conseguenza del Teorema 3.3.23.
Teorema 3.3.28. [!!] Siano X, Y v.a. reali indipendenti sullo spazio (Ω, F , P ). Se X, Y ≥ 0 oppure X, Y ∈
L1 (Ω, P ) allora si ha
E [XY ] = E [X] E [Y ] .
Z
E [XY ] = xyµ(X,Y ) (d(x, y))
R2
(per la iii) del Teorema 3.3.23)

Z
= xy(µX ⊗ µY )(d(x, y))
R2

Z Z
= xµX (dx) yµY (dy) = E [X] E [Y ] .
R R
Osservazione 3.3.29. Si ricordi che, per l’Esercizio 3.2.35, in generale X, Y ∈ L1 (Ω, P ) non implica XY ∈
L1 (Ω, P ): tuttavia, per il Teorema 3.3.28, ciò è vero se X, Y sono indipendenti.
Corollario 3.3.30. Se X, Y ∈ L2 (Ω, P ) sono indipendenti allora sono scorrelate, ossia si ha
cov(X, Y ) = 0 e var(X + Y ) = var(X) + var(Y ). (3.3.9)
Dimostrazione. Se X, Y sono indipendenti anche Xe := X − E [X] e Y

e := Y − E [Y ] lo sono, per l’Osservazione
3.3.22: quindi si ha h i h i h i
cov(X, Y ) = E X e =E X
eY e E Y e = 0.
Ricordando la (3.2.19), si conclude che vale anche var(X + Y ) = var(X) + var(Y ).

Esempio 3.3.31. Un esempio di v.a. scorrelate ma non indipendenti è il seguente: sia Ω = {0, 1, 2} con la
probabilità uniforme P . Poniamo
 


1 ω = 0, 

0 ω = 0,
 
X(ω) = 0 ω = 1, Y (ω) = 1 ω = 1,
 

 

−1 ω = 2,
 0

ω = 2.
Allora si ha E [X] = 0 e XY = 0 da cui cov(X, Y ) = E [XY ]−E [X] E [Y ] = 0, ossia X, Y sono scorrelate. Tuttavia
1
P ((X = 1) ∩ (Y = 1)) = 0 e P (X = 1) = P (Y = 1) =
3
e quindi X, Y non sono indipendenti in P .
Esempio 3.3.32. [!] L’esempio precedente mostra che due v.a. scorrelate non sono necessariamente in-
dipendenti. Tuttavia nel caso della distribuzione normale bidimensionale (cfr. Esempio 3.2.48) vale il
seguente risultato: se (X1 , X2 ) ∼ N0,C e cov(X1 , X2 ) = 0 allora X1 , X2 sono indipendenti. Questo segue dal
Teorema 3.3.23-iv e dal fatto che se X1 , X2 sono scorrelate allora la densità congiunta è uguale al prodotto
delle densità marginali. Si noti che l’ipotesi che X1 , X2 abbiano distribuzione congiunta normale è cruciale:
al riguardo si veda l’Esempio 3.5.19.
Esempio 3.3.33. Consideriamo due v.a. indipendenti X ∼ N0,1 e Y ∼ Poissonλ . Per il Teorema 3.3.25, la
distribuzione congiunta di X, Y è
N0,1 ⊗ Poissonλ
e quindi, per ogni funzione misurabile e limitata, si ha
Z
f (x, y) N0,1 ⊗ Poissonλ (dx, dy) =

E [f (X, Y )] =
R2

Z Z
= f (x, y)N0,1 (dx)Poissonλ (dy)
R R
∞ x2
λn e− 2
X Z
−λ
=e f (x, n) √ dx.
n! R 2π
n=0
h i h i
Per esercizio, calcolare E eX+Y e E eXY .
Esempio 3.3.34. Consideriamo la distribuzione uniforme bidimensionale nel caso dei seguenti tre domini:
i) un quadrato: Q = [0, 1] × [0, 1];
ii) un cerchio: C = {(x, y) ∈ R2 | x2 + y 2 ≤ 1};
iii) un triangolo: T = {(x, y) ∈ R2≥0 | x + y ≤ 1}.
[Caso i)] La funzione di densità di (X, Y ) ∼ UnifQ è
γ(X,Y ) = 1[0,1]×[0,1] .
Quindi
Z
1
E [X] = x1[0,1]×[0,1] (x, y)dxdy = ,
R2 2
1 2
Z
1

var(X) = x−1[0,1]×[0,1] (x, y)dxdy = ,
2 2 12
ZR
1 1

cov(X, Y ) = x− y − 1[0,1]×[0,1] (x, y)dxdy = 0,
R 2 2 2
e quindi X, Y sono scorrelate. Di più, siccome per la (3.2.24), la densità di X è
Z
γX = 1[0,1]×[0,1] (·, y)dy = 1[0,1]
R
e analogamente γY = 1[0,1] , si ha che X, Y sono indipendenti perché vale la (3.3.5).

[Caso ii)] La funzione di densità di (X, Y ) ∼ UnifC è
1
γ(X,Y ) = 1 .
π C
Quindi
Z
1
E [X] = x1 (x, y)dxdy = 0 = E [Y ] ,
π R2 C
Z
1 1
var(X) = x2 1C (x, y)dxdy = ,
π R2 4
Z
1
cov(X, Y ) = xy1C (x, y)dxdy = 0,
π R2
e quindi X, Y sono scorrelate. Tuttavia X, Y non sono indipendenti perché, per la (3.2.24), la densità di X è
√
2 1 − x2
Z
1
γX (x) = 1 (x, y)dy = 1[−1,1] (x), x ∈ R,
π R C π
√
2 1−y 2
e analogamente γY (y) = π 1[−1,1] (y): quindi la densità congiunta non è il prodotto delle marginali. In
alternativa, una verifica diretta mostra che
Z √
1 1 4π − 3 3 1

P X≥ = 1 1 (x)1C (x, y)dxdy = =P Y ≥ ,
2 π R2 2 ,+∞ 12π 2
√
1 1 3−3 3+π 1 1

P X≥ ∩ Y≥ = ,P X≥ P Y≥ .
2 2 12π 2 2
Questo esempio, come anche l’Esempio 3.3.31, mostra che la proprietà di indipendenza è più forte della
proprietà di scorrelazione.
[Caso iii)] La funzione di densità di (X, Y ) ∼ UnifT è
γ(X,Y ) = 21T .
Quindi
Z
1
E [X] = 2 x1T (x, y)dxdy = = E [Y ] ,
R2 3
1 2
Z
1

var(X) = 2 1T (x, y)dxdy =
x− ,
R2 3 18
Z
1 1 1

cov(X, Y ) = 2 x− y − 1T (x, y)dxdy = − ,
R2 3 3 36
e dunque X, Y sono negativamente correlate (e perciò non indipendenti). Per la (3.2.24), la densità di X è
Z
γX (x) = 2 1T (x, y)dy = 2(1 − x)1[0,1] (x), x ∈ R.
R
3.4 Distribuzione e valore atteso condizionato ad un evento

In uno spazio di probabilità (Ω, F , P ) sia B un evento non trascurabile, B ∈ F con P (B) > 0. Ricordiamo
che P (· | B) indica la probabilità condizionata a B, che è la misura di probabilità su (Ω, F ) definita da
P (A ∩ B)
P (A | B) = , A ∈ F.
P (B)
3.4. DISTRIBUZIONE E VALORE ATTESO CONDIZIONATO AD UN EVENTO 139
Definizione 3.4.1. Sia X una v.a. su (Ω, F , P ) a valori in Rd :

i) la distribuzione di X condizionata a B è la distribuzione di X relativa alla probabilità condizionata
P (· | B): essa è definita da
µX|B (H) := P (X ∈ H | B), H ∈ Bd ;
ii) se X ∈ L1 (Ω, P ), l’attesa di X condizionata a B è il valore atteso di X rispetto alla probabilità condizio-
nata P (· | B): essa è definita da Z
E [X | B] := XdP (· | B).
Ω
Proposizione 3.4.2. [!] Per ogni f ∈ mBd tale che f (X) ∈ L1 (Ω, P ) vale
Z
1
E [f (X) | B] = f (X)dP (3.4.1)
P (B) B
Z
= f (x)µX|B (dx). (3.4.2)
Rd
Dimostrazione. È sufficiente provare la (3.4.1) per f = 1H con H ∈ Bd : il caso generale segue dalla proce-
dura standard dell’Osservazione 3.2.21. Essendo 1H (X) = 1(X∈H) , si ha
Z
h i P ((X ∈ H) ∩ B) 1
E 1(X∈H) | B = P (X ∈ H | B) = = 1 (X)dP .
P (B) P (B) B H
Per quanto riguarda la (3.4.2), notiamo che f (X) ∈ L1 (Ω, P (· | B)) poiché, per la (3.4.1), si ha
Z
1
E [|f (X)| | B] ≤ |f (X)| dP < ∞
P (B) Ω
per ipotesi. Allora la (3.4.2) segue dal Teorema 3.2.25 del calcolo della media.
Esercizio 3.4.3. Verificare che se X e B sono indipendenti in P allora
µX|B = µX e E [X | B] = E [X] .
Osservazione 3.4.4. Analogamente al concetto di distribuzione condizionata di X a B, si definisce la densità

condizionata di X a B che indicheremo con γX|B e la CDF condizionata di X a B che indicheremo con FX|B .
La distribuzione condizionata è lo strumento naturale per studiare problemi del tipo seguente.
Esempio 3.4.5. Da un’urna che contiene 90 palline numerate, si estraggono in sequenza e senza reinseri-
mento due palline. Siano X1 e X2 le v.a. che indicano rispettivamente il numero della prima e seconda
pallina estratta. Chiaramente si ha µX1 = UnifI90 e sappiamo che anche µX2 = UnifI90 (cfr. Esempio 3.3.24).
Ora aggiungiamo l’informazione che la prima pallina estratta abbia il numero k, ossia condizioniamo
all’evento B = (X1 = k): si ha

1
 89 , se h, k ∈ I90 , h , k,


P (X2 = h | X1 = k) = 
0
 altrimenti,
e quindi
µX2 |X1 =k = UnifI90 \{k} .
In definitiva, l’informazione aggiuntiva data dall’evento B, modifica la distribuzione di X2 .
Utilizzando la (3.4.2), per esercizio si calcoli var(X2 | X1 = k) per verificare che var(X2 | X1 = k) < var(X2 ):
intuitivamente ciò significa che l’incertezza sul valore di X2 diminuisce aggiungendo l’informazione (X1 =
k).
Il resto della sezione contiene altri esempi particolari.

Esempio 3.4.6. Siano T ∼ Expλ e B = (T > t0 ) con λ, t0 ∈ R>0 . Per determinare la distribuzione condizionata
µT |B , calcoliamo la CDF condizionata di T a B o equivalentemente

1 se t ≤ t0 ,


P (T > t | T > t0 ) = 
P (T > t − t0 ) se t > t0 ,

che segue dalla proprietà di assenza di memoria (3.1.10). Ne viene che µT |B è la distribuzione esponenziale
“traslata” che ha per densità
γT |B (t) = λe−λ(t−t0 ) 1[t0 ,+∞[ (t).
Esempio 3.4.7. Siano X ∈ N0,1 e B = (X ≥ 0). Allora P (B) = 1

2e, per H ∈ B, si ha
Z
P ((X ∈ H) ∩ B) 1 x2
µX|B (H) = P (X ∈ H | B) = = 2P (X ∈ H ∩ R≥0 ) = 2 √ e− 2 dx.
P (B) H∩R≥0 2π
In altri termini, µX|B è una distribuzione assolutamente continua e per ogni H ∈ B si ha

Z r
2 − x2
µX|B (H) = γX|B (x)dx, γX|B (x) := e 2 1R≥0 (x);
H π
per questo motivo la funzione γX|B è anche detta densità di X condizionata a B. Infine per la (3.4.2) si ha
Z +∞
E [X | B] = xµX|B (dx)
0
Z +∞
= xγX|B (x)dx
0
r r
2 2 x=+∞ 2
− x2
= −e = .
π x=0 π
Esempio 3.4.8. Siano X, Y ∼ Bep , con 0 < p < 1, indipendenti e B = (X + Y = 1). Determiniamo:
i) la distribuzione condizionata µX|B ;
ii) media e varianza condizionate, E [X | B] e var(X | B).
Anzitutto sappiamo che X + Y ∼ Bin2,p e quindi P (B) = 2p(1 − p) > 0. Poiché X assume solo i valori 0 e 1,
calcoliamo
P ((X = 0) ∩ (X + Y = 1))
µX|B ({0}) =
2p(1 − p)
P ((X = 0) ∩ (Y = 1))
=
2p(1 − p)
P (X = 0)P (Y = 1) 1
= = .
2p(1 − p) 2
In definitiva µX = Bep ma, indipendentemente dal valore di p, µX|B = Be 1 ossia, condizionatamente all’evento
2
(X + Y = 1), X ha distribuzione di Bernoulli di parametro 12 . Allora, per la (3.4.2) e ricordando le formule
(3.2.12) per media e varianza di una variabile binomiale, si conclude che
1 1
E [X | B] = , var(X | B) = .
2 4
3.4. DISTRIBUZIONE E VALORE ATTESO CONDIZIONATO AD UN EVENTO 141
Un’interpretazione concreta è la seguente: come si può rendere equa una moneta truccata (senza pe-
raltro conoscere la probabilità p ∈ ]0, 1[ di ottenere testa)? Il risultato X di un lancio della moneta truccata
ha distribuzione Bep dove T := (X = 1) è l’evento “testa”. In base a quanto visto sopra, per rendere equa
la moneta è sufficiente lanciarla due volte, considerando valido il lancio solo se si ottiene esattamente una
testa: allora i due eventi T C oppure CT hanno probabilità 1/2, qualsiasi sia p ∈]0, 1[.
Esempio 3.4.9. Si effettuano tre estrazioni senza reinserimento da un’urna che contiene 3 palline bianche,
2 nere e 2 rosse. Siano X e Y rispettivamente il numero di palline bianche e di palline nere estratte.
Determiniamo la distribuzione di X condizionata a (Y = 0) e l’attesa condizionata E [X | Y = 0]. Si ha
3
P (X = 0 | Y = 0) = 0, P (X = 1 | Y = 0) = ,
10
6 1
P (X = 2 | Y = 0) = , P (X = 0 | Y = 0) = ,
10 10
e
3
X 9
E [X | Y = 0] = kP (X = k | Y = 0) = .
5
k=0
Esempio 3.4.10. Sia (X, Y ) un vettore aleatorio assolutamente continuo con densità γ(X,Y ) e B = (Y ∈ K) con
K ∈ B tale che P (B) > 0. Allora, per ogni H ∈ B, si ha
P ((X ∈ H) ∩ (Y ∈ K))
µX|Y ∈K (H) = (3.4.3)
P (Y ∈ K)
µ(X,Y ) (H × K)
=
µY (K)
"
1
= γ (x, y)dxdy =
P (Y ∈ K) H×K (X,Y )

Z Z !
1
= γ(X,Y ) (x, y)dy dx
H P (Y ∈ K) K
da cui segue la formula Z

1
γX|Y ∈K (x) = γ(X,Y ) (x, y)dy (3.4.4)
P (Y ∈ K) K
per la densità di X condizionata all’evento (Y ∈ K). Notiamo che nel caso in cui K = R (e quindi (Y ∈ K) = Ω)
la (3.4.4) coincide con la formula (3.2.24) che esprime la densità marginale a partire dalla congiunta.
Come esempio particolare, consideriamo un vettore aleatorio normale bidimensionale (X, Y ) ∼ N0,C con
matrice di covarianza !
1 1
C=
1 2
e poniamo B = (Y > 0). Ricordando l’espressione (3.5.18) della densità Gaussiana bidimensionale, (X, Y )
ha densità uguale a
1 −x2 +xy− y 2
Γ (x, y) = e 2 .
2π
Allora come in (3.4.3) si ha
Z Z +∞ !
1
µX|Y >0 (H) = Γ (x, y)dy dx, H ∈ B,
H P (Y > 0) 0
da cui si calcola l’espressione della densità di X condizionata a (Y > 0):

x2

Z +∞ e− 2 1 + erf √x
1 2
ΓX|Y >0 (x) = Γ (x, y)dy = √ , x ∈ R.
P (Y > 0) 0 2π
Notiamo che E [X] = 0 ma Z

1
E [X | Y > 0] = xΓX|Y >0 (x)dx = √ .
R π
3.5 Funzione caratteristica

Definizione 3.5.1 (Funzione caratteristica). Sia
X : Ω −→ Rd
una v.a. sullo spazio di probabilità (Ω, F , P ). La funzione
ϕX : Rd −→ C
definita da h i
ϕX (η) = E ei⟨η,X⟩ = E [cos⟨η, X⟩] + iE [sin⟨η, X⟩] , η ∈ Rd ,
è detta funzione caratteristica della v.a. X. Utilizziamo anche l’abbreviazione CHF per la funzione caratteri-
stica.
Osservazione 3.5.2. Per semplicità, useremo anche la notazione x · η ≡ ⟨x, η⟩ per il prodotto scalare in Rd .
Se X ∼ µX , per definizione si ha Z
ϕX (η) = eiη·x µX (dx).
Rd
∞
P
Se X ha distribuzione discreta pn δxn allora ϕX è data dalla serie di Fourier
n=1
∞
X
ϕX (η) = pn eiη·xn .
n=1
Ricordiamo che, data una funzione sommabile f ∈ L1 (Rd ), solitamente si indica con16
Z
ˆ
f (η) = eiη·x f (x)dx, (3.5.1)
Rd
16 In realtà, a seconda dei campi di applicazione, si utilizzano diverse convenzioni per la definizione della trasformata di Fourier:
per esempio, di solito nei corsi di analisi matematica si definisce
Z
fˆ(η) = e−iη·x f (x)dx
Rd
mentre nelle applicazioni all’ingegneria, a volte si usa la definizione
Z
1
fˆ(η) = d
eiη·x f (x)dx.
d
(2π) 2 R
Quest’ultima è anche la definizione utilizzata nel software Mathematica. Noi useremo sempre la (3.5.1) che è la definizione usata
abitualmente in teoria della probabilità. Occorre in particolare fare attenzione alla formula per l’inversione della trasformata di
Fourier che è diversa in base alla notazione utilizzata.
3.5. FUNZIONE CARATTERISTICA 143
la trasformata di Fourier della funzione f . Se X ∈ AC con densità γX allora

Z
ϕX (η) = eiη·x γX (x)dx,
Rd
ossia la funzione caratteristica ϕX = γ̂X è la trasformata di Fourier della densità di X.

i) ϕX (0) = 1;
h i
ii) ϕX (η) ≤ E eiη·X = 1 per ogni η ∈ Rd ;
h i
iii) ϕX (η + h) − ϕX (η) ≤ E eih·X − 1 e quindi, per il Teorema della convergenza dominata, ϕX è unifor-
memente continua su Rd ;
iv) indicando con α ∗ la matrice trasposta di α, si ha
h i h ∗ i
ϕαX+b (η) = E ei⟨η,αX+b⟩ = ei⟨b,η⟩ E ei⟨α η,X⟩ = ei⟨b,η⟩ ϕX (α ∗ η); (3.5.2)
v) nel caso d = 1, ϕX (−η) = ϕ−X (η) = ϕX (η) dove z̄ indica il coniugato di z ∈ C. Di conseguenza, se X ha
distribuzione pari17 , ossia µX = µ−X , allora ϕX assume valori reali e in tal caso vale
Z Z
ϕX (η) = eiηx µX (dx) = cos(xη)µX (dx).
R R
Consideriamo ora alcuni esempi notevoli.

i) Se X ∼ δx0 , con x0 ∈ Rd , allora
ϕX (η) = eiη·x0 .

Osserviamo che in questo caso ϕX < L1 (Rd ) perché ϕX (η) ≡ 1 per ogni η ∈ Rd . Come caso particolare,
se X ∼ δ0 allora ϕX ≡ 1. Inoltre se X ∼ 21 (δ−1 + δ1 ) allora ϕX (η) = cos η.
ii) Se X ∼ Bep , con p ∈ [0, 1], allora

ϕX (η) = 1 + p eiη − 1 .
Inoltre, poiché X ∼ Binn,p è uguale in legge alla somma X1 + · · · + Xn di n v.a. di Bernoulli indipendenti
(cfr. Proposizione 3.6.3) allora
h i h in n
ϕX (η) = E eiη(X1 +···+Xn ) = E eiηX1 = 1 + p eiη − 1 . (3.5.3)
iii) Se X ∼ Poissonλ , con λ > 0, allora

∞
X λk ikη
ϕX (η) = e−λ e = exp λ eiη − 1 .
k!
k=0
iv) Se X ∼ Unif[−1,1] allora

sin η
ϕX (η) = , η ∈ R. (3.5.4)
η
Si veda la Figura 3.7 per il grafico della densità uniforme e della sua trasformata di Fourier. Anche in
questo caso ϕX < L1 (R) (si veda, per esempio, [44] Cap.5 Sez.12).
17 Ciò è vero in particolare se X ha densità γ che è una funzione pari, ossia γ (x) = γ (−x), x ∈ R.
X X X
1.0
0.8
0.6
0.4
0.2
-10 -5 5 10
-0.2
Figura 3.7: Grafico della densità uniforme su [−1, 1] (linea continua) e della relativa funzione caratteristica
(linea tratteggiata)
v) Se X è una v.a. con distribuzione di Cauchy, ossia X ha densità

1
γX (x) = , x ∈ R, (3.5.5)
π (1 + x2 )
allora
ϕX (η) = e−|η| , η ∈ R. (3.5.6)
Si veda la Figura 3.8 per il grafico della densità di Cauchy e della sua trasformata di Fourier. Si noti
che in questo caso ϕX è una funzione continua ma non differenziabile nell’origine.
1.0
0.8
0.6
0.4
0.2
-6 -4 -2 2 4 6
Figura 3.8: Grafico della densità di Cauchy (3.5.5) (linea continua) e della relativa funzione caratteristica
(linea tratteggiata)
vi) Se X ∼ Nµ,σ 2 , con µ ∈ R e σ ≥ 0, allora

1 2η2
ϕX (η) = eiηµ− 2 σ , η ∈ R. (3.5.7)
Osserviamo che per σ = 0 ritroviamo la CHF della delta di Dirac centrata in µ.

Anzitutto proviamo la (3.5.7) nel caso standard µ = 0 e σ = 1. Preliminarmente osserviamo che

trattandosi della trasformata di Fourier di una funzione pari si ha (cfr. Proposizione 3.5.3-v))
x2
e− 2
Z
ϕX (η) = cos(ηx) √ dx.
R 2π
Ora calcoliamo la derivata di ϕX : utilizzando un teorema di scambio di segno di derivata-integrale
nella prima uguaglianza, si ha
x2
e− 2
Z
d
ϕ (η) = sin(ηx)(−x) √ dx
dη X R 2π
x2 2
d − x2
(poiché −xe− 2 = dx e )
x2
d e− 2
Z
= sin(ηx) √ dx =
R dx 2π
(integrando per parti )

x2
2 x=+∞ e− 2
Z
1

− x2
=√ sin(ηx)e − η cos(ηx) √ dx
2π x=−∞ R 2π
= −ηϕX (η).
In definitiva, ϕX è la soluzione del problema di Cauchy


d
 dη ϕX (η) = −ηϕX (η),



ϕX (0) = 1,

da cui si ha la tesi:
η2
ϕX (η) = e− 2 . (3.5.8)
Y −µ
Per il caso generale in cui Y ∼ Nµ,σ 2 , basta considerare X := σ ∼ N0,1 e combinare la (3.5.8) con la
(3.5.2).
vii) Se X ∼ Expλ , con λ ∈ R>0 , allora

Z +∞
λ
ϕX (η) = λ eiηx−λx dx = .
0 λ − iη
Esempio 3.5.4. [!] Siano N e Z1 , Z2 , . . . v.a. indipendenti con N ∼ Poissonλ e Zn identicamente distribuite
per n ∈ N. Calcoliamo la CHF di



0 se N = 0,
N
X :=  P
 Zk se N ≥ 1.


k=1
Si ha
 P n 
h i X∞  iη Zk 
iηX
ϕX (η) = E e = E e 1(N =n)  =
 k=1 
 
n=0
(per l’indipendenza di N e Zk , k ≥ 1)
 P n 
∞
X  iη Zk 
= E e k=1  P (N = n)
 
n=0
(perchè le Zk sono indipendenti e identicamente distribuite)

∞
X in λn
= eλ(ϕZ1 (η)−1)
h
= e−λ E eiηZ1
n!
n=0
dove ϕZ1 indica la CHF di Z1 .
3.5.1 Il teorema di inversione

In questa sezione dimostriamo l’importante formula di inversione della funzione caratteristica (Teore-
ma 3.5.6). Cominciamo con un esercizio preliminare.
sin x
Esercizio 3.5.5. Proviamo che vale la seguente formula per l’integrale generalizzato di x :
Z +∞ Za
sin x sin x π
dx := lim dx = . (3.5.9)
0 x a→+∞ 0 x 2
Consideriamo la funzione
f (x, y) = e−xy sin x, x > 0, y > 0.
Poiché per ogni x, y, a > 0 vale
Z +∞
sin x
f (x, y)dy =,
0 x
Za
1 e−ay ye−ay
f (x, y)dx = 2
− 2
cos a − sin a,
0 1+y 1+y 1 + y2
per il Teorema di Fubini si ha
Za Z +∞ −ay Z +∞ −ay
sin x π e ye
dx = − cos a 2
dy − sin a dy, a > 0,
0 x 2 0 1 + y 0 1 + y2
1
e di conseguenza, poiché 1+y 2
≤ 1,
Z a Z +∞
sin x π 1+a
− ≤ (1 + y)e−ay dy = 2 , a > 0.

0 x 2 0 a
sin x
Questo prova la (3.5.9). Osserviamo che x è integrabile in senso generalizzato ma non è una funzione
sommabile.
Teorema 3.5.6 (Teorema di inversione). [!!]
Sia µ una distribuzione su (R, B) e
Z
ϕ(η) := eixη µ(dx), η ∈ R. (3.5.10)
R
Allora per ogni a < b si ha

R
e−iaη − e−ibη
Z
µ({a}) + µ({b}) 1
µ(]a, b[) + = lim ϕ(η)dη. (3.5.11)
2 R→+∞ 2π −R iη
Inoltre se ϕ ∈ L1 (R) allora µ è assolutamente continua e ha per densità la funzione

Z
1
γ(x) := e−ixη ϕ(η)dη, x ∈ R. (3.5.12)
2π R
Osservazione 3.5.7. [!] Come conseguenza del Teorema 3.5.6, si ha che la CHF di una v.a. identifica la sua
legge: in altri termini, se X e Y sono v.a. con funzioni caratteristiche uguali,
ϕX (η) = ϕY (η), η ∈ R,
allora anche le relative leggi µX e µY coincidono
µX (H) = µY (H), H ∈ B.
Infatti per la (3.5.11) si ha µX (]a, b[) = µY (]a, b[) per ogni a, b ∈ R \ A dove
A := {x ∈ R | µX ({x}) + µY ({x}) > 0}.
D’altra parte, per l’Osservazione 2.4.11, A è finito o al più numerabile e quindi R \ A è denso in R: dal
Teorema di Caratheodory segue che µX ≡ µY .
Corollario 3.5.8. [!] Se µ, ν sono distribuzioni tali che

Z Z
f dµ = f dν
R R
per ogni f ∈ bC(R) allora µ ≡ ν. Analogamente, se X, Y sono v.a. tali che E [f (X)] = E [f (Y )] per ogni
f ∈ bC(R), allora X, Y sono uguali in legge.
Dimostrazione. Scegliendo f della forma f (x) = cos(xη) o f (x) = sin(xη), con η ∈ R, dall’ipotesi si deduce
che le CHF di µ e ν sono uguali. La tesi segue dal Teorema 3.5.6.
Osservazione 3.5.9. Sia µ una distribuzione con densità f tale che fˆ ∈ L1 (R): per il Teorema 3.5.6 anche γ
definita da (3.5.10)-(3.5.12) è densità di µ e quindi per l’Osservazione 2.4.19 si ha f = γ q.o. ossia
Z
1
f (x) = e−ixη fˆ(η)dη per quasi ogni x ∈ R, (3.5.13)
2π R
dove l’integrale nel membro a destra, come funzione di x, è limitato e uniformemente continuo su R (per
la Proposizione 3.5.3). La (3.5.13) è la classica formula di inversione della trasformata di Fourier.
Si noti che una densità f non è necessariamente limitata e continua (anzi, si può modificare su ogni
Boreliano Lebesgue-trascurabile, mantenendo invariata la sua trasformata di Fourier): tuttavia se fˆ ∈ L1 (R)
allora f è necessariamente uguale q.o. a una funzione limitata e continua.
Osservazione 3.5.10. In base al Teorema 3.5.6, se ϕX ∈ L1 (R) allora X ∈ AC e una densità di X è data dalla
formula di inversione Z
1
γX (x) = e−ixη ϕX (η)dη, x ∈ R.
2π R
La condizione ϕX ∈ L1 (R) è solo sufficiente ma non necessaria per l’assoluta continuità di µ. Infatti, per
l’Osservazione 3.5.9, se ϕX ∈ L1 (R) allora necessariamente la densità di X è uguale q.o. a una funzione
continua: tuttavia, per esempio, la distribuzione uniforme su [−1, 1] è assolutamente continua ma ha den-
sità γ(x) = 21 1[−1,1] (x) che non è uguale q.o. a una funzione continua; in effetti, la sua CHF in (3.5.4) non è
sommabile.
Dimostrazione del Teorema 3.5.6. Fissati a, b ∈ R con a < b, poniamo
b
e−iaη − e−ibη
Z
ga,b (η) := , e−ixη dx =
η ∈ R. (3.5.14)
a iη

Osserviamo che, per la disuguaglianza triangolare, ga,b (η) ≤ b − a. Dunque per il Teorema di Fubini, per
ogni R > 0 si ha
Z R Z Z R !
ixη
ga,b (η)ϕ(η)dη = ga,b (η)e dη µ(dx). (3.5.15)
−R R −R
Essendo coseno e seno rispettivamente funzioni pari18 e dispari, si ha


Z R Z R

!
π se x = a oppure x = b,
ixη sin((x − a)η) sin((x − b)η) 

ga,b (η)e dη = 2 − dη −→ Ga,b (x) := 2π se a < x < b,

−R 0 η η 

0

se x < a oppure x > b,
(3.5.16)
al limite per R → +∞: questo segue dal fatto che per la (3.5.9), vale19

π
Z R Z λR Z |λ|R

 2 se λ > 0,
sin λη sin η sin η 

dη = dη = sgn(λ) dη −→ 0 se λ = 0,

0 η 0 η 0 η 
 π

−2 se λ < 0.
Ora utilizziamo il Teorema 3.2.11 della convergenza dominata20 per passare al limite per R → +∞ in
(3.5.15) si ha
Z R Z Z Z Z
1 1 1 1
lim ga,b (η)ϕ(η)dη = Ga,b (x)µ(dx) = µ(dx) + µ(dx) + µ(dx)
R→+∞ 2π −R 2π R 2 {a} ]a,b[ 2 {b}
e questo prova la (3.5.11).

Proviamo la seconda parte della tesi: se ϕ ∈ L1 (R) allora, ricordando che ga,b (η)ϕ(η) ≤ (b − a)|ϕ(η)| e
applicando il Teorema della convergenza dominata per passare al limite in R nella (3.5.11), otteniamo
Z
1 1
g (η)ϕ(η)dη = µ(]a, b[) + µ({a, b}) ≥ µ({b}). (3.5.17)
2π R a,b 2
Ma la disuguaglianza in (3.5.17), ancora per il Teorema della convergenza dominata e passando al limite
per a → b− , implica che µ({b}) = 0 per ogni b ∈ R e quindi vale
Z
1
µ(]a, b[) = g (η)ϕ(η)dη =
2π R a,b
18 Di conseguenza l’integrale fra −R e R della funzione pari cos η moltiplicata per la funzione dispari 1 si annulla.
η
19 Definiamo la funzione segno nel modo seguente



1 se λ > 0,

sgn(λ) =  0 se λ = 0,



−1 se λ < 0.

Rr
20 Per la (3.5.16), il modulo dell’integrando in (3.5.15) è limitato da 2 sup sin η dη < +∞
η
r>0 0
(utilizzando la seconda uguaglianza nella (3.5.14) e il Teorema di Fubini)

Zb Z ! Zb
1 −ixη
= e ϕ(η)dη dx = γ(x)dx,
a 2π R a
e quindi γ in (3.5.12) è una densità di µ.

Sia X = (X1 , . . . , Xn ) una v.a. La CHF di X è detta anche funzione caratteristica congiunta delle v.a.
X1 , . . . , Xn ; viceversa, ϕX1 , . . . , ϕXn sono dette CHF marginali di X.
Proposizione 3.5.11. Siano X1 , . . . , Xn v.a. su (Ω, F , P ) a valori rispettivamente in Rd1 , . . . , Rdn . Posto X =
(X1 , . . . , Xn ), si ha:
i) ϕXi (ηi ) = ϕX (0, . . . , 0, ηi , 0, . . . , 0);
ii) X1 , . . . , Xn sono indipendenti se e solo se
n
Y
ϕX (η) = ϕXi (ηi ), η = (η1 , . . . , ηn ).
i=1
Dimostrazione. La proprietà i) è immediata conseguenza della definizione di funzione caratteristica. Pro-

viamo la ii) solo nel caso n = 2. Se X1 , X2 sono indipendenti allora lo sono anche le v.a. eiη1 ·X1 , eiη2 ·X2 e
quindi si ha h i h i h i
ϕX (η1 , η2 ) = E eiη1 ·X1 +iη2 ·X2 = E eiη1 ·X1 E eiη2 ·X2 = ϕX1 (η1 )ϕX2 (η2 ).
d d
Viceversa, consideriamo due v.a. X e2 indipendenti e tali che X
e1 , X e1 = X1 e X
e2 = X2 . Allora si ha
ϕ(Xe1 ,Xe2 ) (η1 , η2 ) = ϕXe1 (η1 )ϕXe2 (η2 ) = ϕX1 (η1 )ϕX2 (η2 ) = ϕ(X1 ,X2 ) (η1 , η2 ).
Poiché (X1 , X2 ) e (X e2 ) hanno uguale CHF, per il Teorema 3.5.6, hanno anche uguale legge: da questo
e1 , X
segue che X1 , X2 sono indipendenti.
3.5.2 Distribuzione normale multidimensionale

Fissati µ ∈ Rd e C, matrice d ×d, simmetrica e definita positiva, definiamo la funzione di densità Gaussiana
d-dimensionale di parametri µ e C nel modo seguente:
1 1 −1
Γ (x) = p e− 2 ⟨C (x−µ),x−µ⟩ , x ∈ Rd . (3.5.18)
d
(2π) det C
Un calcolo diretto mostra che
Z
Γ (x)dx = 1, (3.5.19)
d
ZR
xi Γ (x)dx = µi , (3.5.20)
d
ZR
(xi − µi ) xj − µj Γ (x)dx = Cij , (3.5.21)
Rd
per ogni i, j = 1, . . . , d. La (3.5.19) mostra semplicemente che Γ è una densità; le (3.5.20) e (3.5.21) motivano
la seguente
Definizione 3.5.12. Se X è una v.a. d-dimensionale con densità Γ in (3.5.18) allora diciamo che X ha
distribuzione multi-normale con media µ e matrice di covarianza C e scriviamo X ∼ Nµ,C .
Chiaramente, se X ∼ Nµ,C allora E [X] = µ per la (3.5.20) e cov(X) = C per la (3.5.21).
Proposizione 3.5.13. [!] La CHF di X ∼ Nµ,C è data da
1
ϕX (η) = ei⟨µ,η⟩− 2 ⟨Cη,η⟩ , η ∈ Rd . (3.5.22)
Dimostrazione. Si tratta del calcolo della trasformata di Fourier di Γ in (3.5.18): esso è analogo al caso
uno-dimensionale (cfr. formula (3.5.7)).
Osserviamo che la CHF in (3.5.22) è una funzione Gaussiana in cui all’esponente appaiono un termine
lineare in η che dipende solo dal parametro di media µ e un termine quadratico in η che dipende solo dalla matrice
di covarianza C.
È notevole il fatto che, a differenza della densità Γ in cui compare l’inversa di C, nella funzione carat-
teristica ϕX compare la forma quadratica della matrice C stessa. Dunque affinché ϕX sia ben definita non
è necessario che C sia strettamente definita positiva. In effetti in molte applicazioni capita di avere matrici
di covarianza degeneri e pertanto risulta utile estendere la Definizione 3.5.12 nel modo seguente:
Definizione 3.5.14. Dati µ ∈ Rd e C matrice d × d, simmetrica e semi-definita positiva, diciamo che X ha

distribuzione multi-normale e scriviamo X ∼ Nµ,C , se la CHF di X è la ϕX in (3.5.22).
In base al Teorema 3.5.6, la definizione precedente è ben posta poiché la funzione caratteristica identi-
fica univocamente la distribuzione. Inoltre la Definizione 3.5.14 non è vuota nel senso che una v.a. X, che
abbia ϕX in (3.5.22) come funzione caratteristica, esiste: infatti per l’Osservazione 3.2.43, data C, matrice
d × d simmetrica e semi-definita positiva, esiste α tale che C = αα ∗ ; allora basta porre X = αZ + µ dove Z è
una v.a. multi-normale standard, ossia Z ∼ N0,I con I matrice identità d × d. Infatti per la (3.5.2) si ha
|α ∗ η |2 1
ϕαZ+µ (η) = eiη·µ ϕZ (α ∗ η) = eiη·µ− 2 = ei⟨µ,η⟩− 2 ⟨Cη,η⟩ .
Utilizzando la funzione caratteristica è facile provare alcune proprietà fondamentali della distribuzione
normale, come per esempio l’invarianza per trasformazioni lineari. Nel seguito, quando usiamo notazioni
matriciali, il vettore aleatorio d-dimensionale X viene identificato con la matrice colonna d × 1.
Proposizione 3.5.15. [!] Siano X ∼ Nµ,C , una matrice α costante N × d e β ∈ RN con N ∈ N. Allora αX + β
è una v.a. con distribuzione normale N -dimensionale:
αX + β ∼ Nαµ+β,αCα ∗ . (3.5.23)
Dimostrazione. Calcoliamo la CHF di αX + β: per la Proposizione 3.5.3-iv) si ha
ϕαX+β (η) = ei⟨η,β⟩ ϕX (α ∗ η) =
(per l’espressione (3.5.22) della CHF di X calcolata in α ∗ η)

∗ η⟩− 1 ⟨Cα ∗ η,α ∗ η⟩
= ei⟨η,β⟩ ei⟨µ,α 2
1 ∗ η,η⟩
= ei⟨αµ+β,η⟩− 2 ⟨αCα ,
da cui la tesi.
Come conseguenze notevoli della (3.5.23) si ha che se (X, Y ) ha distribuzione normale bidimensionale
allora, per esempio, X e X + Y sono v.a. con distribuzione normale.
Esempio 3.5.16. Siano X, Y ∼ N0,1 indipendenti e (u, v) ∈ R2 tale che u 2 + v 2 = 1. Proviamo che
Z := uX + vY ∼ N0,1 .
Una semplice applicazione del Teorema 3.3.23 mostra che (X, Y ) ∼ N0,I dove I indica la matrice identità
2 × 2; allora poiché !
X
uX + vY = α , con α = u v ,
Y
la tesi segue dalla (3.5.23), essendo
var(Z) = αα ∗ = u 2 + v 2 = 1.
Esempio 3.5.17. Sia (X, Y , Z) ∼ Nµ,C con

 
 1 −1 1 
µ = (µX , µY , µZ ) , C = −1 2 −2 .
 
1 −2 2
 
Si noti che C ≥ 0 e det C = 0 (le ultime due righe di C sono linearmente dipendenti): dunque (X, Y , Z) non
ha densità. Tuttavia Y ∼ NµY ,2 e (X, Z) ∼ N(µX ,µZ ),Ĉ con
!
1 1
Ĉ = ,
1 2
e quindi Y e (X, Z) hanno densità Gaussiana. Per completezza riportiamo la matrice α della fattorizzazione
C = αα ∗ di Cholesky (cfr. Osservazione 3.2.43):
 
1 −1 1 
α = 0 1 −1 .
 
0 0 0
 
Proposizione 3.5.18. [!] Sia X = (X1 , . . . , Xd ) una v.a. con distribuzione normale d-dimensionale. Le v.a
X1 , . . . , Xd sono indipendenti se e solo se sono scorrelate, ossia cov (Xh , Xk ) = 0 per ogni h, k = 1, . . . , d.
Dimostrazione. Se X1 , . . . , Xd sono v.a. indipendenti allora cov (Xh , Xk ) = 0 per il Teorema 3.3.28. Viceversa,
poniamo µh = E [Xh ] e Chk = cov (Xh , Xk ): per la Proposizione 3.5.15, la v.a. Xh ha distribuzione normale con
CHF data da 1 2
ϕXh (ηh ) = eiµh ηh − 2 Chh ηh , ηh ∈ R.
D’altra parte, per ipotesi Chk = Ckh = 0 e quindi
d
iµ·η− 21
P
Chh ηh2 d
Y
ϕX (η) = e h=1 = ϕXh (ηh ), η = (η1 , . . . , ηd ) ∈ Rd ,
h=1
e quindi la tesi segue dalla Proposizione 3.5.11.

Esempio 3.5.19. In questo esempio mostriamo che, nella Proposizione 3.5.18, l’ipotesi che X1 , . . . , Xd ab-
biano distribuzione congiunta normale non si può rimuovere, dando un esempio di v.a. con distribuzioni
marginali normali che sono scorrelate ma non indipendenti.
Consideriamo due v.a. indipendenti, rispettivamente con distribuzione normale standard, X ∼ N0,1 ,
e di Bernoulli, Z ∼ µZ := 12 (δ−1 + δ1 ). Posto Y = ZX, proviamo che Y ∼ N0,1 : infatti, per l’ipotesi di
indipendenza, la distribuzione congiunta di X e Z è la distribuzione prodotto
N0,1 ⊗ µZ
e quindi per ogni f ∈ mB e limitata si ha

Z
f (zx) N0,1 ⊗ µZ (dx, dz) =

E [f (ZX)] =
R2
Z Z !
= f (zx)N0,1 (dx) µZ (dz)
R
Z R Z
1 1
= f (−x)N0,1 (dx) + f (x)N0,1 (dx)
2 R 2 R
Z
= f (x)N0,1 (dx).
R
In particolare, se f = 1H con H ∈ B, si ottiene
P (Y ∈ H) = N0,1 (H),
ossia Y ∼ N0,1 .
Proviamo ora che cov(X, Y ) = 0 ma X, Y non sono indipendenti. Si ha:
h i
cov(X, Y ) = E [XY ] = E ZX 2 =
(per l’indipendenza di X e Z)
h i
= E [Z] E X 2 = 0.
Verifichiamo che X, Y non sono indipendenti:
P ((X ∈ [0, 1]) ∩ (Y ∈ [0, 1])) = P ((X ∈ [0, 1]) ∩ (ZX ∈ [0, 1])) =
(poiché sull’evento (X ∈ [0, 1]) si ha (ZX ∈ [0, 1]) = (Z = 1) ∩ (X ∈ [0, 1]))
= P ((X ∈ [0, 1]) ∩ (Z = 1)) =
1
= P (X ∈ [0, 1]).
2
D’altra parte, essendo Y ∼ N0,1 , si ha P (Y ∈ [0, 1]) < 1
2 e quindi P ((X ∈ [0, 1])∩(Y ∈ [0, 1])) < P (X ∈ [0, 1])P (Y ∈
[0, 1]).
Questo esempio non contraddice la Proposizione 3.5.18 poiché X, Y non hanno distribuzione congiunta
normale. Infatti la CHF congiunta è data da
h i
ϕ(X,Y ) (η1 , η2 ) = E ei(η1 X+η2 Y )
h i h i
= E eiX(η1 −η2 ) 1(Z=−1) + E eiX(η1 +η2 ) 1(Z=1) =
1 h iX(η1 −η2 ) i 1 h iX(η1 +η2 ) i
= E e + E e =
2 2
(poiché X ∼ N0,1 )
2 2
eη1 η2 + e−η1 η2 − η1 +η2
!
1 − (η1 −η2 )2 −
(η1 +η2 )2
= e 2 +e 2 = e 2 ,
2 2
che non è la CHF di una normale bidimensionale. Incidentalmente questo prova anche che ϕ(X,Y ) (η1 , η2 ) ,
ϕX (η1 )ϕY (η2 ), ossia conferma che X, Y non sono indipendenti.
3.5.3 Sviluppo in serie della funzione caratteristica e momenti

h Proviamo
i un interessante risultato che mostra che i momenti di una v.a. X ∈ Lp (Ω, P ), ossia i valori attesi
E X k delle potenze di X con k ≤ p, possono essere ottenuti derivando la CHF di X (si veda in particolare
l’Osservazione 3.5.21).
Teorema 3.5.20. [!] Sia X una v.a. reale appartenente a Lp (Ω, P ) con p ∈ N. Allora vale il seguente sviluppo
della CHF di X intorno all’origine:
h i
p
X E (iX)k
ϕX (η) = η k + o(η p ) per η → 0. (3.5.24)
k!
k=0
Dimostrazione. Ricordiamo la formula di Taylor con resto di Lagrange per f ∈ C p (R): per ogni η ∈ R esiste
λ ∈ [0, 1] tale che
p−1 (k)
X f (0) f (p) (λη) p
f (η) = ηk + η .
k! p!
k=0
Applichiamo tale formula alla funzione f (η) = eiηX e otteniamo

p
X (iX) k (iX)p eiληX − 1
eiηX = ηk + ηp,
k! p!
k=0
dove in questo caso λ ∈ [0, 1] dipende da X e quindi è aleatorio. Applicando il valore atteso all’ultima
identità otteniamo h i
p
X E (iX)k
ϕX (η) = η k + R(η)η p
k!
k=0
dove
1 h p iληX i
R(η) = E (iX ) e − 1 −→ 0 per η → 0,
p!
per il Teorema della convergenza dominata, poiché per ipotesi

(iX p ) eiληX − 1 ≤ 2|X|p ∈ L1 (Ω, P ).
Osservazione 3.5.21. [!] Sia X ∈ Lp (Ω, P ). La (3.5.24) implica che ϕX è derivabile p volte nell’origine e
inoltre, per l’unicità dello sviluppo in serie di Taylor, vale
d k ϕX (η) h
k
i
|η=0 = E (iX) (3.5.25)
dη k
per ogni k = 0, . . . , p.
Osservazione 3.5.22. Supponiamo che X ∈ Lp (Ω, P ) per ogni p ∈ N e che ϕX sia una funzione analitica.
Allora a partire dai momenti di X è possibile ricavare ϕX e quindi la legge di X.
Esempio 3.5.23. Sia X una v.a. con distribuzione di Cauchy come in (3.5.5). Allora X < L1 (Ω, P ) e la CHF
ϕX in (3.5.6) non è differenziabile nell’origine.
Esempio 3.5.24. Data X ∼ Nµ,σ 2 si ha che X ∈ Lp (Ω, P ) per ogni p ∈ N. Poiché
σ 2 η2
ϕX (η) = eiµη− 2
allora con molta pazienza (oppure con un software di calcolo simbolico) possiamo calcolare:

ϕ ′ (η) = i µ + iησ 2 ϕ(η),
2
ϕ (2) (η) = i 2 σ 2 + µ + iησ 2 ϕ(η),
2
ϕ (3) (η) = i 3 µ + iησ 2 3σ 2 + µ + iησ 2 ϕ(η),

ϕ (4) (η) = i 4 µ4 + 2µ2 σ 2 (3 + 2iµη) + 2η 2 σ 6 (−3 − 2iµη) + 3σ 4 (1 − 2µη(µη − 2i)) + η 4 σ 8 ϕ(η),
da cui
ϕ ′ (0) = iµ,

ϕ (2) (0) = − µ2 + σ 2 ,

ϕ (3) (0) = −i µ3 + 3µσ 2 ,
ϕ (4) (0) = µ4 + 6µ2 σ 2 + 3σ 4 .
Allora per la (3.5.25) si ha
E [X] = µ,
h i
E X 2 = µ2 + σ 2 ,
h i
E X 3 = µ3 + 3µσ 2 ,
h i
E X 4 = µ4 + 6µ2 σ 2 + 3σ 4 .
Esempio 3.5.25. Data X ∼ Expλ si ha che X ∈ Lp (Ω, P ) per ogni p ∈ N. Poiché
λ
ϕX (η) =
λ − iη
allora abbiamo:
i k k!λ
ϕ (k) (η) = , k ∈ N,
(λ − iη)k+1
da cui
i k k!
ϕ (k) (0) = .
λk
h i k!
E Xk = k .
λ
3.6. COMPLEMENTI 155
3.6 Complementi
3.6.1 Somma di variabili aleatorie
Teorema 3.6.1. Siano X, Y ∈ AC su (Ω, F , P ) a valori in Rd , con densità congiunta γ(X,Y ) . Allora X + Y ∈ AC
e ha densità Z
γX+Y (z) = γ(X,Y ) (x, z − x)dx, z ∈ Rd . (3.6.1)
Rd
Inoltre se X, Y sono indipendenti allora
Z
γX+Y (z) = (γX ∗ γY ) (z) := γX (x)γY (z − x)dx, z ∈ Rd . (3.6.2)
Rd
ossia la densità di X + Y è la convoluzione delle densità di X e Y .

Analogamente, se X, Y sono v.a. discrete su (Ω, P ) a valori in Rd , con funzione di distribuzione congiunta
µ̄(X,Y ) , allora X + Y è una v.a. discreta con funzione di distribuzione
X
µ̄X+Y (z) = µ̄(X,Y ) (x, z − x), z ∈ Rd .
x∈X(Ω)
In particolare, se X, Y sono indipendenti allora

X
µ̄X+Y (z) = (µ̄X ∗ µ̄Y )(z) := µ̄X (x)µ̄Y (z − x), (3.6.3)
x∈X(Ω)
ossia µ̄X+Y è la convoluzione discreta delle funzioni di distribuzione µ̄X di X e µ̄Y di Y .

Dimostrazione. Per ogni H ∈ Bd si ha
Z
P (X + Y ∈ H) = E [1H (X + Y )] = 1H (x + y)γ(X,Y ) (x, y)dxdy =
Rd ×Rd
(col cambio di variabili z = x + y)

Z
= 1H (z)γ(X,Y ) (x, z − x)dxdz =
Rd ×Rd

Z Z !
= γ(X,Y ) (x, z − x)dx dz,
H Rd
e questo prova che la funzione γX+Y in (3.6.1) è una densità di X + Y . Infine la (3.6.2) segue dalla (3.6.1) e
dalla (3.3.5).
Per quanto riguarda il caso discreto, si ha
 
 [ 
µ̄X+Y (z) = P (X + Y = z) = P  (X, Y ) = (x, z − x)  =

 
x∈X(Ω)
(per la σ -additività di P )
X
= µ̄(X,Y ) (x, z − x) =
x∈X(Ω)
(nel caso in cui X, Y siano indipendenti, per la (3.3.6))

X
= µ̄X (x)µ̄Y (z − x).
x∈X(Ω)
Esempio 3.6.2. Siano X, Y v.a. indipendenti su (Ω, F , P ) a valori in Rd . Procedendo come nella dimostra-
zione del Teorema 3.6.1, si prova che se X ∈ AC allora anche (X + Y ) ∈ AC e ha densità
Z
γX+Y (z) = γX (z − y)µY (dy), z ∈ Rd . (3.6.4)
Rd
Per esempio, siano X ∼ Nµ,σ 2 e Y ∼ Bep indipendenti. Allora X + Y è assolutamente continua e, posto
1 1 x−µ 2
Γµ,σ 2 (x) = √ e− 2 ( σ ) ,
2πσ 2
per la (3.6.4), X + Y ha densità
Z
γX+Y (z) = Γµ,σ 2 (z − y)Bep (dy)
Rd
= pΓµ,σ 2 (z − 1) + (1 − p)Γµ,σ 2 (z)
= pΓµ+1,σ 2 (z) + (1 − p)Γµ,σ 2 (z)
Più in generale, se Y è una v.a. discreta con distribuzione del tipo (3.1.4), ossia
X
pn δyn ,
n≥1
allora X + Y ha densità che è combinazione lineare di Gaussiane con la medesima varianza e con i poli
traslati di yn : X
γX+Y (z) = pn Γµ+yn ,σ 2 (z).
n≥1
3.6.2 Esempi notevoli

Proposizione 3.6.3 (Somma di Bernoulli indipendenti). Sia (Xi )i=1,...,n una famiglia di v.a. indipendenti
di Bernoulli, Xi ∼ Bep . Allora
S := X1 + · · · + Xn ∼ Binn,p . (3.6.5)
Di conseguenza se X ∼ Binn,p allora E [X] = E [S] e quindi
E [X] = nE [X1 ] = np, var(S) = nvar(X1 ) = np(1 − p). (3.6.6)
Inoltre se X ∼ Binn,p e Y ∼ Binm,p sono v.a. indipendenti allora X + Y ∼ Binn+m,p .
Dimostrazione. Posto
Ci = (Xi = 1), i = 1, . . . , n,
si ha che (Ci )i=1,...,n è una famiglia di n prove ripetute e indipendenti con probabilità p. La v.a. S in
(3.6.5) indica il numero di successi fra le n prove (come nell’Esempio 3.1.7-iii)) e quindi, come abbiamo
già provato, S ∼ Binn,p . In alternativa, si può calcolare la funzione di distribuzione di S come convoluzione
discreta mediante la (3.6.3), ma i calcoli sono un po’ noiosi. Le formule (3.6.6) sono immediata conseguenza
della linearità dell’integrale e del fatto che la varianza di v.a. indipendenti è uguale alla somma delle singole
varianze (cfr. formula (3.3.9)).
Per provare la seconda parte dell’enunciato, consideriamo prima il caso in cui
X = X1 + · · · + Xn , Y = Y1 + · · · + Ym
con X1 , . . . , Xn , Y1 , . . . , Ym ∼ Bep indipendenti. Allora per quanto precedentemente provato si ha
X + Y = X1 + · · · + Xn + Y1 + · · · + Ym ∼ Binn+m,p .
d d
Consideriamo ora il caso generale in cui X ′ ∼ Binn,p e Y ′ ∼ Binm,p sono indipendenti: allora X ′ = X, Y ′ = Y
e la tesi segue dalla (3.6.3) poiché
µ̄X ′ +Y ′ = µ̄X ′ ∗ µ̄Y ′ = µ̄X ∗ µ̄Y = µ̄X+Y .
Esempio 3.6.4 (Modello binomiale). Uno dei più classici modelli utilizzati in finanza per descrivere l’e-
voluzione del prezzo di un titolo rischioso è il cosiddetto modello binomiale. Introduciamo una successione
(Xk ) di v.a. dove Xk rappresenta il prezzo del titolo al tempo k, con k = 0, 1, . . . , n: si assume che X0 ∈ R>0 e,
fissati due parametri 0 < d < u, si definisce ricorsivamente
Xk = u αk d 1−αk Xk−1 , k = 1, . . . , n,
dove le αk sono v.a. indipendenti di Bernoulli, αk ∼ Bep . In definitiva si ha


uXk−1

 con probabilità p,
Xk = 
dXk−1
 con probabilità 1 − p,
e
Xn = u Yn d n−Yn S0
n
P
dove Yn = αk ∼ Binn,p per la Proposizione 3.6.3. Allora vale
k=1
!
n k
P (Xn = u k d n−k X0 ) = P (Yn = k) = p (1 − p)n−k , k = 0, . . . , n,
k
sono le probabilità dei possibili prezzi al tempo n.
Esempio 3.6.5 (Somma di Poisson indipendenti). Siano λ1 , λ2 > 0 e X1 ∼ Poissonλ1 , X2 ∼ Poissonλ2

indipendenti. Allora X1 + X2 ∼ Poissonλ1 +λ2 .
Infatti, se µ̄1 , µ̄2 sono le funzioni di distribuzione di X1 , X2 , per il Teorema 3.6.1 si ha
n
X
µ̄X1 +X2 (n) = (µ̄1 ∗ µ̄2 )(n) = µ̄1 (k)µ̄2 (n − k) =
k=0
(gli estremi in cui varia k nella sommatoria sono determinati dal fatto che µ̄1 (k) , 0 solo se k ∈ N0 e
µ̄2 (n − k) , 0 solo se n − k ∈ N0 )
n k n
λ2n−k e−λ1 −λ2 X n k n−k e−(λ1 +λ2 )
!
−λ1 λ1 −λ2
X
= e e = λ λ = (λ1 + λ2 )n .
k! (n − k)! n! k 1 2 n!
k=0 k=0
12.5
12.0
11.5
11.0
10.5
10.0
9.5
0.2 0.4 0.6 0.8 1.0
Figura 3.9: Grafico di una traiettoria del processo binomiale
Esempio 3.6.6 (Somma di normali indipendenti). Se X ∼ Nµ,σ 2 e Y ∼ Nν,δ2 sono v.a. reali indipendenti,
allora
X + Y ∼ Nµ+ν,σ 2 +δ2 .
Infatti, per la (3.6.2) e posto
1 1 x−µ 2
γµ,σ 2 (x) := √ e− 2 ( σ ) , x ∈ R,
σ 2π
un calcolo diretto mostra che
γµ,σ 2 ∗ γν,δ2 = γµ+ν,σ 2 +δ2 .
Esempio 3.6.7 (Chi-quadro a n gradi di libertà). Come diretta conseguenza del Teorema 3.6.1, si verifica
che se X ∼ Gammaα,λ e Y ∼ Gammaβ,λ v.a. reali indipendenti, allora
X + Y ∼ Gammaα+β,λ . (3.6.7)
Come caso particolare si ha che se X, Y ∼ Expλ = Gamma1,λ sono v.a. indipendenti, allora
X + Y ∼ Gamma2,λ
con densità γX+Y (t) = λ2 te−λt 1R>0 (t).

Ricordiamo l’Esempio 3.1.37: la distribuzione chi-quadro χ2 := Gamma 1 , 1 è la distribuzione della
2 2
v.a. X 2 dove X ∼ N0,1 è una normale standard. Più in generale, date X1 , . . . , Xn v.a. indipendenti con
distribuzione N0,1 allora per la (3.6.7) si ha
Z := X12 + · · · + Xn2 ∼ Γ n , 1 . (3.6.8)

2 2
Le v.a. del tipo (3.6.8) intervengono in molte applicazioni e in particolare in statistica matematica (si veda,
per esempio, il Capitolo 8 in [15]). La distribuzione Γ n , 1 viene detta distribuzione chi-quadro a n gradi di
2 2
libertà ed è indicata con χ2 (n): dunque Z ∼ χ2 (n) se ha densità
x
1 e− 2
γn (x) = n n 1R>0 (x). (3.6.9)
2 2 Γ n2 x1− 2
Più in generale, γn in (3.6.9) è una densità se n è un qualsiasi numero reale positivo, non necessariamente
intero.
Esempio 3.6.8. Studiamo la v.a. Z uguale alla “somma del lancio di due dadi”. Le v.a. che indicano
il risultato del lancio di ognuno dei due dadi hanno distribuzione uniforme Unif6 e sono indipendenti.
Allora se µ̄ indica la funzione di distribuzione di Unif6 , ossia µ̄(n) = 16 per n ∈ I6 = {1, . . . , 6}, per la (3.6.3) la
funzione di distribuzione di Z è data dalla convoluzione µ̄ ∗ µ̄:
X
(µ̄ ∗ µ̄)(n) = µ̄(k)µ̄(n − k), 2 ≤ n ≤ 12,
k
dove, affinché µ̄(k) e µ̄(n − k) siano non nulli, deve valere k ∈ I6 e n − k ∈ I6 ossia
(n − 6) ∨ 1 ≤ k ≤ (n − 1) ∧ 6.
Dunque
(n−1)∧6
X (n − 1) ∧ 6 − (n − 6) ∨ 1 + 1
P (Z = n) = (µ̄ ∗ µ̄)(n) = µ̄(k)µ̄(n − k) = .
36
k=(n−6)∨1
Proposizione 3.6.9 (Massimo e minimo di variabili indipendenti). Siano X1 , . . . , Xn v.a. reali indipenden-
ti. Posto
X = max{X1 , . . . , Xn } e Y = min{X1 , . . . , Xn },
si ha la seguente relazione fra le funzioni di ripartizione21

n
Y
FX (x) = FXk (x), x ∈ R, (3.6.10)
k=1
n
Y
FY (y) = 1 − 1 − FXk (y) , y ∈ R.
k=1
Dimostrazione. È sufficiente osservare che

n
\
(X ≤ x) = (Xk ≤ x), x ∈ R,
k=1
e quindi, sfruttando l’ipotesi di indipendenza,

 n  n n
\  Y Y
FX (x) = P (X ≤ x) = P  (Xk ≤ x) =
 P (Xk ≤ x) = FXk (x).
k=1 k=1 k=1
Per la seconda identità, si procede in maniera analoga utilizzando la relazione

n
\
(Y > x) = (Xk > x), x ∈ R.
k=1
21 Attenzione a non confondere la (3.6.10) e la (3.3.8)!

Esempio 3.6.10. Se Xk ∼ Expλk , k = 1, . . . , n, sono v.a. indipendenti allora
Y := min{X1 , . . . , Xn } ∼ Expλ1 +···+λn .
Infatti, ricordiamo che le funzioni di densità e di ripartizione della distribuzione Expλ sono rispettivamen-
te
γ(t) = λe−λt e F(t) = 1 − e−λt , t ≥ 0,
e sono nulle per t < 0. Allora per la Proposizione 3.6.9 si ha che
n
Y n
Y
FY (t) = 1 − 1 − FXk (t) = 1 − e−λk t , t ≥ 0,
k=1 k=1
che è proprio la CDF di Expλ1 +···+λn .

Esercizio 3.6.11. Sia X il massimo fra il risultato del lancio di due dadi. Determinare P (X ≥ 4).
Soluzione. Consideriamo le v.a. indipendenti Xi ∼ Unif6 , i = 1, 2, dei risultati dei due lanci di dado. Allora
X = max{X1 , X2 } e si ha
P (X ≥ 4) = 1 − P (X ≤ 3) = 1 − FX (3) =
(per la Proposizione 3.6.9)
= 1 − FX1 (3)FX1 (3) =
(ricordando la (2.4.8))
3 3 3
= 1− · = .
6 6 4
Esercizio 3.6.12. Provare che se Xi ∼ Geompi , i = 1, 2, sono indipendenti allora min{X1 , X2 } ∼ Geomp con
p = p1 + p2 − p1 p2 . Generalizzare il risultato al caso di n v.a. geometriche indipendenti.
Esercizio 3.6.13. Determinare la distribuzione di max{X, Y } e min{X, Y } dove X, Y sono v.a. indipendenti
con distribuzione X ∼ Unif[0,2] e Y ∼ Unif[1,3] .
Capitolo 4
Successioni di variabili aleatorie
The new always happens against the

overwhelming odds of statistical
laws and their probability, which for
all practical, everyday purposes
amounts to certainty; the new
therefore always appears in the guise
of a miracle.
Hannah Arendt
L’oggetto di questo capitolo sono le successioni di variabili aleatorie. Il problema dell’esistenza e co-
struzione di tali successioni non è ovvio e richiede strumenti avanzati che vanno al di là dello scopo del
presente testo: pertanto, dando per assunta l’esistenza, ci occuperemo solo di studiare varie nozioni di
convergenza per successioni di variabili aleatorie. Inoltre proveremo alcuni risultati classici, la Legge dei
grandi numeri e il Teorema centrale del limite, e ne analizzeremo alcune applicazioni fra cui l’importante
metodo numerico stocastico noto come metodo Monte Carlo.
4.1 Convergenza per successioni di variabili aleatorie

In questa sezione riepiloghiamo e confrontiamo varie definizioni di convergenza di successioni di varia-
bili aleatorie. Consideriamo uno spazio di probabilità (Ω, F , P ) su cui sono definite una successione di v.a.
(Xn )n∈N e una v.a. X valori in Rd :
i) (Xn )n∈N converge quasi certamente a X se1

P lim Xn = X = 1,
n→∞
ossia se
lim Xn (ω) = X(ω)
n→∞
per quasi ogni ω ∈ Ω. In tal caso scriviamo
q.c.
Xn −−−−→ X.
1 Si ricordi che, per l’Osservazione 3.1.9, l’insieme

lim Xn = X ≡ {ω ∈ Ω | lim Xn (ω) = X(ω)}
n→∞ n→∞
è un evento.
161
162 CAPITOLO 4. SUCCESSIONI DI VARIABILI ALEATORIE
ii) Siano (Xn )n∈N e X rispettivamente una successione e una v.a. in Lp (Ω, P ) con p ≥ 1. Diciamo che
(Xn )n∈N converge a X in Lp se
lim E [|Xn − X|p ] = 0.
n→∞
In tal caso scriviamo

Lp
Xn −−−→ X.
iii) (Xn ) converge in probabilità a X se, per ogni ε > 0, vale
lim P (|Xn − X| ≥ ε) = 0.
n→∞
In tal caso scriviamo

P
Xn −−→ X.
iv) (Xn ) converge debolmente (o in legge o in distribuzione) a X se vale
lim E [f (Xn )] = E [f (X)]

n→∞
per ogni f ∈ bC dove bC = bC(Rd ) indica la famiglia delle funzioni continue e limitate da Rd a R. In
tal caso scriviamo
d
Xn −−−−→ X.
Osservazione 4.1.1 (Convergenza debole di distribuzioni). La convergenza debole non richiede che le va-
riabili Xn siano definite sullo stesso spazio di probabilità, ma dipende solo dalle distribuzioni delle variabili
stesse. Diciamo che una successione (µn )n∈N di distribuzioni su Rd converge debolmente alla distribuzione
µ e scriviamo
d
µn −−−−→ µ,
se vale Z Z
lim f dµn = f dµ per ogni f ∈ bC. (4.1.1)
n→∞ Rd Rd
Poiché Z
E [f (Xn )] = f dµXn ,
Rd
la convergenza debole di (Xn )n∈N equivale alla convergenza debole della successione (µXn )n∈N delle corri-
d d
spondenti distribuzioni: in altri termini, Xn −−−−→ X se e solo se µXn −−−−→ µX .
d
Esempio 4.1.2. [!] Sia (xn )n∈N una successione di numeri reali convergente a x ∈ R. Allora δxn −−−−→ δx
poiché, per ogni f ∈ bC, si ha
Z Z
f dδxn = f (xn ) −−−−−−→ f (x) = f dδx .
R n→∞ R
Tuttavia non è vero che

lim δxn (H) = δx (H)
n→∞
per ogni H ∈ B: per esempio, se xn = n1 e H = R>0 . Questo spiega perché nella definizione (4.1.1) di
convergenza di distribuzioni è naturale assumere f ∈ bC e non f = 1H per ogni H ∈ B.
4.1. CONVERGENZA PER SUCCESSIONI DI VARIABILI ALEATORIE 163
Esempio 4.1.3. Siano date due successioni di numeri reali (an )n∈N e (σn )n∈N tali che an −→ a ∈ R e 0 <
d
σn −→ 0 per n → ∞. Se Xn ∼ Nan ,σn2 allora Xn −−−−→ X con X ∼ δa . Infatti, per ogni f ∈ bC(R), si ha
Z Z x−a 2
1 − 12 n
E[f (Xn )] = f dNan ,σn2 = f (x) p e σn dx =
R R 2πσn2
x−an
(col cambio di variabili z = √ )
σn 2
Z √ e−z2
= f an + zσn 2 √ dz,
R π
che tende ad f (a) = E[f (X)] per il Teorema della convergenza dominata.
Notiamo che se le variabili X e Xn , per ogni n ∈ N, sono definite sullo stesso spazio di probabilità
(Ω, F , P ), si ha anche convergenza in L2 : infatti Xn , X ∈ L2 (Ω, P ) e si ha
h i h i h i
E |Xn − X|2 ≤ 2E |Xn − an |2 + 2E |an − X|2
h i
= 2E |Xn − an |2 + 2|an − a|2
= 2σn2 + 2|an − a|2 −−−−−−→ 0.
n→∞
4.1.1 Disuguaglianza di Markov

Teorema 4.1.4 (Disuguaglianza di Markov). [!]
Per ogni X v.a. a valori in Rd , λ > 0 e p ∈ [0, +∞[, vale la disuguaglianza di Markov:
E [|X|p ]
P (|X| ≥ λ) ≤ . (4.1.2)
λp
In particolare, se Y ∈ L2 (Ω, P ) è una v.a. reale, vale la disuguaglianza di Chebyschev:
var(Y )
P (|Y − E [Y ]| ≥ λ) ≤ . (4.1.3)
λ2
Dimostrazione. Per quanto riguarda la (4.1.2), se E [|X|p ] = +∞ non c’è nulla da provare, altrimenti per la
proprietà di monotonia si ha
h i h i
E [|X|p ] ≥ E |X|p 1(|X|≥λ) ≥ λp E 1(|X|≥λ) = λp P (|X| ≥ λ) .
La (4.1.3) segue dalla (4.1.2) ponendo p = 2 e X = Y − E [Y ], infatti

h i
E |Y − E [Y ]|2 var(Y )
P (|Y − E [Y ]| ≥ λ) ≤ 2
= .
λ λ2
La disuguaglianza di Markov fornisce una stima per i valori estremi di X in termini della sua norma Lp .
Viceversa, si ha la seguente
Proposizione 4.1.5. Siano X una v.a. e f ∈ C 1 (R≥0 ) tale che f ′ ≥ 0 o f ′ ∈ L1 (R≥0 , µ|X| ). Allora
Z +∞
E [f (|X|)] = f (0) + f ′ (λ)P (|X| ≥ λ)dλ. (4.1.4)
0
Z +∞
E [f (|X|)] = f (y)µ|X| (dy) =
0
Z +∞ Zy !
′
= f (0) + f (λ)dλ µ|X| (dy) =
0 0

Z +∞ Z +∞
= f (0) + f ′ (λ) µ|X| (dy)dλ =
0 λ
Z +∞
= f (0) + f ′ (λ)P (|X| ≥ λ)dλ.
0
Esempio 4.1.6. Per f (x) = xp , p ≥ 1, dalla (4.1.4) abbiamo

Z +∞
E [|X|p ] = p λp−1 P (|X| ≥ λ) dλ. (4.1.5)
0
Di conseguenza, per provare che X ∈ Lp è sufficiente avere una buona stima di P (|X| ≥ λ), almeno per λ ≫ 1.
Esercizio 4.1.7. Provare la seguente generalizzazione della disuguaglianza di Markov: per ogni X v.a. a
valori in Rd , ε > 0 e f funzione reale su [0, +∞[ monotona (debolmente) crescente, vale
P (|X| ≥ ε)f (ε) ≤ E [f (|X|)] .
4.1.2 Relazioni fra le diverse definizioni di convergenza

Lemma 4.1.8. Sia (an )n∈N una successione in uno spazio topologico (E, T ). Se ogni sotto-successione
(ank )k∈N ammette una sotto-successione (ank )i∈N convergente al medesimo a ∈ E, allora anche (an )n∈N
i
converge ad a.
Dimostrazione. Per assurdo, se (an )n∈N non convergesse ad a allora esisterebbe U ∈ T tale che a ∈ U e una
sotto-successione (ank )k∈N tale che ank < U per ogni k ∈ N. In questo caso nessuna sotto-successione di
(ank )k∈N convergerebbe ad a, contraddicendo l’ipotesi.
Il seguente risultato riassume le relazioni fra i vari tipi di convergenza di successioni di v.a.: queste sono
rappresentate schematicamente nella Figura 4.1.
Teorema 4.1.9. Siano (Xn )n∈N una successione di v.a. e X una v.a. definite sullo stesso spazio di probabilità
(Ω, F , P ), a valori in Rd . Valgono le seguenti implicazioni:
q.c. P
i) se Xn −−−−→ X allora Xn −−→ X;
Lp P
ii) se Xn −−−→ X per qualche p ≥ 1 allora Xn −−→ X;
P q.c.
iii) se Xn −−→ X allora esiste una sotto-successione (Xnk )k∈N tale che Xnk −−−−→ X;
P d
iv) se Xn −−→ X allora Xn −−−−→ X;
4.1. CONVERGENZA PER SUCCESSIONI DI VARIABILI ALEATORIE 165
Lp

Xn −−−→ X
se |Xn |≤Y ∈Lp
q.c.

P d
Xn −−−−→ X Xn −−→ X Xn −−−−→ X
sotto-successione se X ∼ δc
Figura 4.1: Relazioni fra i vari tipi di convergenza di v.a.
P
v) se Xn −−→ X ed esiste Y ∈ Lp (Ω, P ) tale che |Xn | ≤ Y q.c., per ogni n ∈ N, allora Xn , X ∈ Lp (Ω, P ) e
Lp
Xn −−−→ X;
d P
vi) se Xn −−−−→ X, con X ∼ δc , c ∈ Rd , allora Xn −−→ X.
q.c.
Dimostrazione. i) Fissato ε > 0, se Xn −−−−→ X allora
q.c.
1(|Xn −X|≥ε) −−−−→ 0
e quindi per il Teorema della convergenza dominata si ha

h i
P (|Xn − X| ≥ ε) = E 1(|Xn −X|≥ε) −→ 0.
ii) Fissato ε > 0, per la disuguaglianza di Markov (4.1.2) si ha
E [|Xn − X|p ]
P (|Xn − X| ≥ ε) ≤
εp
da cui la tesi.
1
iii) Per ipotesi esiste una successione di indici (nk )k∈N , con nk → +∞, tale che P (Ak ) ≤ k2
dove

Ak := |X − Xnk | ≥ 1/k .
Poiché X
P (Ak ) < ∞,
k≥1
per il Lemma 2.3.28-i) di Borel-Cantelli si ha P (Ak i.o.) = 0. Dunque l’evento (Ak i.o.)c ha probabilità uno:
per definizione2 , per ogni ω ∈ (Ak i.o.)c esiste k̄ = k̄(ω) ∈ N tale che
1
|X(ω) − Xnk (ω)| < , k ≥ k̄
k
e di conseguenza vale
lim Xnk (ω) = X(ω)
k→∞
che prova la tesi.

2 Gli elementi di (A i.o.)c sono quelli che appartengono solo ad un numero finito di A .
k k
iv) Sia f ∈ bC. Per il punto iii), ogni sotto-successione (Xnk )k∈N ammette una sotto-successione (Xnk )i∈N
i
q.c. q.c.
tale che Xnk −−−−→ X. Poiché f è continua, si ha anche f (Xnk ) −−−−→ f (X) e poiché f è limitata si applica il
i i
Teorema della convergenza dominata per avere
h i
lim E f Xnk = E [f (X)] .
i→∞ i
Ora per il Lemma 4.1.8 (applicato alla successione an := E [f (Xn )] in R munito della topologia Euclidea) si
ha anche
lim E [f (Xn )] = E [f (X)]
n→∞
da cui la tesi.
v) Dato che |Xn | ≤ Y q.c. e Y ∈ Lp (Ω, P ), è chiaro che Xn ∈ Lp (Ω, P ). Per quanto riguarda X, dal punto iii)
q.c.
sappiamo che esiste una sotto-successione (Xnk )k∈N tale che Xnk −−−−→ X. Dato che |Xnk | ≤ Y q.c., per k → ∞
Lp
si ottiene |X| ≤ Y q.c., quindi X ∈ Lp (Ω, P ). Infine, mostriamo che Xn −−−→ X. Sempre per il punto iii), ogni
q.c.
sotto-successione (Xnk )k∈N ammette una sotto-successione (Xnk )i∈N tale che Xnk −−−−→ X. Per il Teorema
i i
Lp Lp
della convergenza dominata si ha che Xnk −−−→ X. Dal Lemma 4.1.8 segue che Xn −−−→ X.
i
vi) Dati c ∈ Rd ed ε > 0, sia fε ∈ bC, non-negativa e tale che fε (x) ≥ 1 se |x − c| > ε e fε (c) = 0. Si ha
h i
P (|Xn − X| ≥ ε) = P (|Xn − c| ≥ ε) = E 1(|Xn −c|≥ε) ≤ E [fε (Xn )] −−−−−−→ fε (c) = 0.
n→∞
Diamo alcuni controesempi relativi alle implicazioni studiate nel Teorema 4.1.9. Nei primi due esempi
consideriamo Ω = [0, 1] con la misura di Lebesgue.
Esempio 4.1.10. La successione Xn (ω) = n2 1[0, 1 ] (ω), per ogni ω ∈ [0, 1], converge a zero quasi certamente
n
(e di conseguenza anche in probabilità), ma E [|Xn |p ] = n2p−1 diverge per ogni p ≥ 1.
Esempio 4.1.11. Diamo un esempio di successione (Xn ) che converge in Lp (e quindi anche in probabilità)
con 1 ≤ p < ∞, ma non quasi certamente. Rappresentiamo ogni intero positivo n come n = 2k + ℓ, con
k = 0, 1, 2, . . . e ℓ = 0, . . . , 2k − 1. Notiamo che la rappresentazione è unica. Poniamo
" #
ℓ ℓ+1
Jn = k , k ⊆ [0, 1] e Xn (ω) = 1Jn (ω), ω ∈ [0, 1].
2 2
Per ogni p ≥ 1, vale
1
E [|Xn |p ] = E [Xn ] = Leb(Jn ) = ,
2k
Lp
e quindi Xn −−−→ 0 dato che k → ∞ quando n → ∞. D’altra parte, ciascun ω ∈ [0, 1] appartiene ad un
numero infinito di intervalli Jn e quindi la successione reale Xn (ω) non converge per ogni ω ∈ [0, 1].
Esempio 4.1.12. Data una variabile aleatoria X ∼ Be 1 , poniamo
2

X,

 se n pari,
Xn = 
1 − X,
 se n dispari.
d
Poiché (1 − X) ∼ Be 1 allora chiaramente Xn −−−−→ X. Tuttavia |Xn+1 − Xn | = |2X − 1| = 1 per ogni n ∈ N:
2
allora P (|Xn+1 − Xn | ≥ 1/2) = 1 per ogni n e quindi Xn non converge a X in probabilità (e, di conseguenza,
nemmeno in Lp o quasi certamente).
4.2. LEGGE DEI GRANDI NUMERI 167
Osservazione 4.1.13. Non esiste una metrica (e neppure una topologia) che induce la convergenza quasi
certa di variabili aleatorie: in caso contrario si potrebbe combinare il Lemma 4.1.8 con il punto iii) del
P q.c.
Teorema 4.1.9 per concludere che se Xn −−→ X allora Xn −−−−→ X, in contraddizione con l’Esempio 4.1.11.
Al contrario, le convergenze in Lp e in probabilità sono “metrizzabili”. Infatti, la convergenza in Lp è
1
semplicemente la convergenza relativa alla norma ∥X∥p = E [|X|p ] p nello spazio Lp (Ω, P ): è dunque un tipo
di convergenza definita solo per variabili sommabili di ordine p. Invece la convergenza in probabilità è
P
definita per variabili qualsiasi e si ha che Xn −−→ X se e solo se
" #
|X − Xn |
lim E = 0. (4.1.6)
n→∞ 1 + |X − Xn |
Proviamo questo fatto nell’ipotesi (non restrittiva) che X ≡ 0. Notiamo che per ogni ε > 0 si ha
|x| |x|
≤ 1 + ε1|x|<ε ≤ 1|x|≥ε + ε1|x|<ε .
1 + |x| 1 + |x| |x|≥ε
Applicando il valore atteso si ha
" #
|Xn |
E ≤ P (|Xn | ≥ ε) + εP (|Xn | < ε) ≤ P (|Xn | ≥ ε) + ε.
1 + |Xn |
P
Allora, nel caso in cui Xn −−→ 0, si ha " #
|Xn |
lim E ≤ε
n→∞ 1 + |Xn |
e la (4.1.6) segue dall’arbitrarietà di ε.
Viceversa, notiamo che
ε x x
1 ≤ 1 ≤
1 + ε x>ε 1 + x x>ε 1 + x
e quindi
ε |Xn |
1 ≤ .
1 + ε |Xn |>ε 1 + |Xn |
Applicando il valore atteso si ottiene
" #
ε |Xn |
P (|Xn | > ε) ≤ E
1+ε 1 + |Xn |
P
da cui la (4.1.6) implica che Xn −−→ 0.
Anche la convergenza debole è metrizzabile nello spazio delle distribuzioni: per approfondimenti si
vedano, per esempio, la monografie [13] e [36].
4.2 Legge dei grandi numeri

In questa sezione dimostriamo due versioni della Legge dei grandi numeri. Tale legge riguarda succes-
sioni di v.a. reali (Xn )n∈N , definite sullo stesso spazio di probabilità (Ω, F , P ), con l’ulteriore ipotesi che
siano indipendenti e identicamente distribuite (abbreviato in i.i.d.). Denotiamo con
Sn
Sn = X1 + · · · + Xn , Mn = , (4.2.1)
n
rispettivamente la somma e la media aritmetica di X1 , . . . , Xn .
Teorema 4.2.1 (Legge debole dei grandi numeri). Sia (Xn )n∈N una successione di v.a. reali i.i.d. in L2 (Ω, P ),
con valore atteso µ := E [X1 ] e varianza σ 2 := var(X1 ). Allora si ha
h i σ2
E (Mn − µ)2 = (4.2.2)
n
e di conseguenza la media aritmetica Mn converge in norma L2 (Ω, P ) alla v.a. costante uguale µ:
L2
Mn −−−→µ.
Osservazione 4.2.2. Combinando la (4.2.2) con la disuguaglianza di Markov si ha
σ2
P (|Mn − µ| ≥ ε) ≤ , ε > 0, n ∈ N,
nε2
e quindi Mn converge anche in probabilità a µ. Inoltre, dal Teorema 4.1.9-iv) segue che Mn converge anche
debolmente:
d
Mn −−−−→ µ.
Dimostrazione. Per linearità, si ha
n
1X
E [Mn ] = E [Xk ] = µ,
n
k=1
e quindi
h i var(X1 + · · · + Xn )
E (Mn − µ)2 = var(Mn ) = =
n2
(per l’indipendenza, ricordando la (3.2.19))
var(X1 ) + · · · + var(Xn ) σ 2
= = . (4.2.3)
n n
La convergenza di Mn in L2 (Ω, P ) implica la convergenza q.c. di una sotto-successione di Mn , per il

Teorema 4.1.9-iii). In realtà, con un po’ di lavoro in più è possibile verificare che la successione stessa Mn
converge q.c.: riportiamo la prova data in [35].
Teorema 4.2.3 (Legge forte dei grandi numeri). Nelle ipotesi del Teorema 4.2.1 si ha anche
q.c.
Mn −−−−→ µ.
Dimostrazione. A meno di traslare le variabili Xn non è restrittivo assumere µ = 0. Cominciamo col provare
che la sotto-successione Mn2 converge q.c.: infatti, per la (4.2.3), si ha
N  N N
X
2
 X h i X σ2
E  Mn2  = E Mn22 = , N ∈ N,
n2
n=1 n=1 n=1
e per il Teorema di Beppo-Levi ∞  ∞

X  X σ 2
2
E  Mn2  = <∞
n2
n=1 n=1
da cui
q.c.
Mn2 −−−−→ 0. (4.2.4)
Ora cerchiamo di controllare

√ tutti i termini della successione Mn con termini del tipo Mn2 . Per ogni n ∈ N
indichiamo con pn = [ n] la parte intera della radice di n, cosicché si ha
pn2 ≤ n < (pn + 1)2 .
Per definizione di Mn vale

n
pn2 1 X
Mn − Mpn2 = Xk
n n 2
k=pn +1
da cui, come per la (4.2.3), si ha


2
!2 
 p n  n − pn2 2
E  Mn − Mpn2  = σ ≤
n n2
(poiché 0 ≥ n − (pn + 1)2 = n − pn2 − 2pn − 1)

√
2pn + 1 2 2 n + 1 2 3σ 2
≤ σ ≤ σ ≤ 3 .
n2 n2 n2
Ancora per il Teorema di Beppo-Levi si ha
∞ !2  X
X p 2
n
 ∞ 3σ 2
E  Mn − Mpn2  ≤ 3
<∞
n n 2
n=1 n=1
da cui
pn2 q.c.
Mn − Mpn2 −−−−→ 0.
n
q.c. pn2 q.c.
Ora Mpn2 −−−−→ 0 per la (4.2.4) e d’altra parte n → 1 per n → ∞: di conseguenza anche Mn −−−−→ 0 e questo
conclude la prova.
Esempio 4.2.4 (Strategia del raddoppio). Nel gioco della roulette si lancia una pallina che si può fermare
in una fra le 37 posizioni possibili, composte da 18 numeri rossi, 18 numeri neri e lo zero che è verde.
Consideriamo la strategia di gioco che consiste nel puntare sul rosso (la vincita è il doppio della giocata)
e raddoppiare la giocata ogni volta che si perde. Dunque alla prima giocata si punta 1 (ossia 20 ) Euro e,
in caso di perdita, alla seconda giocata si puntano 2 (ossia 21 ) Euro e cosı̀ via fino alla n-esima giocata in
cui, se si è sempre perso, si puntano 2n−1 Euro. A questo punto (ossia alla n-esima giocata avendo sempre
perso), l’ammontare giocato è pari a3
1 + 2 + · · · + 2n−1 = 2n − 1,
e ci sono due casi:
i) si perde e in tal caso la perdita complessiva è pari a 2n − 1;
ii) si vince e si incassano 2 · 2n−1 Euro. Il bilancio totale è dunque positivo ed è pari alla differenza fra la
vincita e l’ammontare giocato:
2n − (2n − 1) = 1.
n
3 Si ricordi che P ak = an+1 −1 per a , 1.
a−1
k=0
La probabilità di perdere per n volte consecutive è pari a pn , dove p = 19

37 è la probabilità che la pallina si
fermi sul nero o sul verde. Di conseguenza, la probabilità di vincere almeno una volta su n giocate è pari a
1 − pn .
Consideriamo ora il caso in cui decidiamo di attuare la strategia del raddoppio fino ad un massimo di
10 giocate. Precisamente indichiamo con X il guadagno/perdita che otteniamo giocando al raddoppio e
incassando 1 Euro se vinciamo entro la decima giocata oppure perdendo 210 − 1 = 1023 Euro nel caso di 10
perdite consecutive. Allora X è una v.a. di Bernoulli che assume i valori −1023 con probabilità p10 ≈ 0.13%
e 1 con probabilità 1 − p10 ≈ 99.87%. Dunque attuando la strategia del raddoppio abbiamo che vinciamo 1
Euro con grande probabilità a fronte di una perdita rilevante (1023 Euro) in casi molto rari.
Potremmo pensare allora di attuare la strategia del raddoppio ripetutamente per N volte: per capire se
è conveniente possiamo calcolare la media
0.13 99.87
E [X] ≈ −1023 · +1· ≈ −0.3
100 100
e interpretare tale risultato alla luce della Legge dei grandi numeri. Il fatto che E [X] sia pari a −0.3 significa
che se X1 , . . . , XN indicano i singoli guadagni/perdite allora complessivamente
X1 + · · · + XN
molto probabilmente sarà vicino a −0.3N . Questo è dovuto al fatto che il gioco non è equo per la presenza
dello zero (verde) per cui la probabilità di vincere puntando sul rosso è leggermente minore di 21 . In realtà
si può provare che se anche fosse p = 12 allora la strategia del raddoppio, col vincolo di raddoppiare al
massimo n volte, produrrebbe un guadagno medio nullo. Lo studio di questo tipo di problemi legati ai
giochi d’azzardo è all’origine di un ampio settore della Probabilità, la cosiddetta teoria delle martingale, che
insieme alle numerose applicazioni ha fondamentali e profondi risultati teorici.
4.2.1 Cenni al metodo Monte Carlo

La Legge dei grandi numeri è alla base di un metodo numerico probabilistico molto importante, noto
come metodo Monte Carlo. In molte applicazioni si è interessati a calcolare (o almeno approssimare nume-
ricamente) il valore atteso E [f (X)] dove X è una v.a. in Rd e f ∈ L2 (Rd , µX ) (e quindi f (X) ∈ L2 (Ω, P )). Per
esempio, nel caso d = 1, se X ∼ Unif[0,1] e f ∈ L2 ([0, 1]), allora
Z 1
f (x)dx = E [f (X)] .
0
Dunque un integrale (anche multi-dimensionale) ammette una rappresentazione probabilistica e il calcolo

di esso può essere ricondotto al calcolo di un valore atteso.
Ora supponiamo che (Xn )n∈N sia una successione di v.a. reali i.i.d. con la medesima distribuzione4 di
X. Per la Legge forte dei grandi numeri vale
f (X1 ) + · · · + f (Xm )
E[f (X)] = lim q.c.
m→∞ m
Questo risultato può essere tradotto in termini “pratici” nel modo seguente. Supponiamo di poter estrarre
casualmente un valore xn dalla v.a. Xn , per ogni n = 1, . . . , m con m ∈ N fissato, sufficientemente grande:
diciamo che xn è una realizzazione o simulazione della v.a. Xn . Allora un’approssimazione di E [f (X)] è data
dalla media aritmetica
m
1X
f (xn ). (4.2.5)
m
n=1
4 Si dice (X )
n n∈N è una successione di copie indipendenti di X.
In (4.2.5) x1 , . . . , xm rappresentano m realizzazioni (simulazioni) indipendenti di X: in altri termini, xn è un

numero (non una v.a.) che è un particolare valore della v.a. Xn generato in modo indipendente da Xh per h , n.
La maggior parte dei software di calcolo scientifico possiede generatori di numeri aleatori per le principali
distribuzioni (uniforme, esponenziale, normale etc...). In definitiva, il metodo Monte Carlo permette di ap-
prossimare numericamente il valore atteso di una funzione di una v.a. di cui si sia in grado di generare (simulare)
dei valori casuali in modo indipendente.
I principali vantaggi rispetto ai metodi deterministici di integrazione numerica sono i seguenti:
i) per la convergenza del metodo non si richiedono ipotesi di regolarità sulla funzione f se non la somma-
bilità;
ii) l’ordine di convergenza del metodo è indipendente dalla dimensione d e l’implementazione in dimen-
sione maggiore di uno non comporta alcuna difficoltà aggiuntiva.
Le questioni della convergenza e della stima dell’errore numerico del metodo Monte Carlo saranno breve-
mente discusse nell’Osservazione 4.4.7. Il metodo Monte Carlo può anche essere applicato alla risoluzione
numerica di vari tipi di equazioni alle derivate parziali. Al momento il Monte Carlo è l’unico metodo numerico
conosciuto per risolvere problemi di grandi dimensioni che tipicamente sorgono nelle applicazioni reali. Esistono
molte monografie dedicate al Monte Carlo, fra cui segnaliamo [29]; una presentazione sintetica del metodo
si trova anche in [58].
La Figura 4.2 rappresenta l’istogramma di un vettore di 10.000 numeri casuali generati da una distri-
buzione N1,3 : si vede in figura come l’istogramma “approssima” il grafico (la linea continua) della densità
Gaussiana di N1,3 .
Figura 4.2: Istogramma di un vettore di 10.000 numeri casuali estratti dalla distribuzione N1,3 e grafico
della densità Gaussiana di N1,3
4.2.2 Polinomi di Bernstein

Forniamo una dimostrazione probabilistica del noto risultato di densità dei polinomi nello spazio C([0, 1])
delle funzioni continue sull’intervallo [0, 1], rispetto alla norma uniforme.
Proposizione 4.2.5. Data f ∈ C([0, 1]), definiamo il polinomio di Bernstein di grado n associato a f nel modo
seguente
n !
X n k
fn (p) = p (1 − p)n−k f (k/n) , p ∈ [0, 1]. (4.2.6)
k
k=0
Allora si ha
lim ∥f − fn ∥∞ = 0,
n→∞
dove ∥f ∥∞ = max |f (p)|.
p∈[0,1]
Dimostrazione. Sia (Xn )n∈N una successione di v.a. reali i.i.d. aventi distribuzione Bep . Poniamo Mn =
X1 +···+Xn
n . Ricordiamo che, per la Proposizione 3.6.3, X1 + · · · + Xn ∼ Binn,p . Allora l’interpretazione probabi-
listica della formula (4.2.6) è
fn (p) = E [f (Mn )] , p ∈ [0, 1].
Ora osserviamo che
p(1 − p) 1
var (Mn ) =
≤ ,
n 4n
ed essendo E [Mn ] = p, per la disuguaglianza di Markov (4.1.3) si ha
1
P (|Mn − p| ≥ λ) ≤ , λ > 0. (4.2.7)
4nλ2
Poiché f è uniformemente continua su [0, 1], per ogni ε > 0 esiste λε tale che |f (x) − f (y)| ≤ ε se |x − y| ≤ λε .
Allora si ha
|f (p) − fn (p)| = |f (p) − E [f (Mn )]| ≤
(per la disuguaglianza di Jensen)
≤ E [|f (p) − f (Mn )|]
h i
≤ ε + E |f (p) − f (Mn )| 1(|Mn −p|≥λε )
≤ ε + 2∥f ∥∞ P (|Mn − p| ≥ λε ) .
Utilizzando la (4.2.7) si ottiene
lim sup ∥f − fn ∥∞ ≤ ε
n→∞
e la tesi segue dall’arbitrarietà di ε.
4.3 Condizioni necessarie e sufficienti per la convergenza debole

In questa sezione forniamo due condizioni necessarie e sufficienti per la convergenza debole di una
successione (Xn )n∈N di v.a. reali: la prima è espressa in termini delle CDF (FXn )n∈N e la seconda in termini
delle CHF (ϕXn )n∈N .
4.3.1 Convergenza di funzioni di ripartizione

Poiché ogni distribuzione è identificata dalla propria CDF, è naturale chiedersi se ci sia una relazione
fra la convergenza debole e la convergenza puntuale delle relative CDF. Consideriamo un paio di semplici
esempi.
Esempio 4.3.1. La successione delle distribuzioni uniformi Unif[0, 1 ] , con n ∈ N, converge debolmente alla
n
delta di Dirac δ0 poiché, per ogni f ∈ bC, si ha
Z Z 1 Z
n
f dUnif[0, 1 ] = n f (x)dx −−−−−−→ f (0) = f dδ0 .
R n
0 n→∞ R
D’altra parte, la successione delle CDF FUnif 1]
, rappresentata in Figura 4.3, converge puntualmente a Fδ0
[0, n
solo su R \ {0}: notiamo che 0 è l’unico punto di discontinuità di Fδ0 .
4.3. CONDIZIONI NECESSARIE E SUFFICIENTI PER LA CONVERGENZA DEBOLE 173
1.0
0.8
0.6
0.4
0.2
-2 -1 1 2
Figura 4.3: CDF delle distribuzioni Unif[0,1] (linea continua), Unif[0, 1 ] (linea tratteggiata) e Unif[0, 1 ] (linea
2 5
punteggiata).
Esempio 4.3.2. Non è difficile verificare che:
• se xn ↗ x0 allora Fδxn (x) −→ Fδx (x) per ogni x ∈ R;

0
• se xn ↘ x0 allora Fδxn (x) −→ Fδx (x) per ogni x ∈ R \ {x0 }.

0
Teorema 4.3.3. Siano (µn )n∈N una successione di distribuzioni reali e µ una distribuzione reale. Sono
equivalenti le seguenti affermazioni:
d
i) µn −−−−→ µ;
ii) Fµn (x) −−−−−−→ Fµ (x) per ogni x punto di continuità di Fµ .

n→∞
Dimostrazione. Ovviamente l’enunciato ha la seguente formulazione equivalente in termini di variabili

aleatorie: siano (Xn )n∈N una successione di v.a. reali e X una v.a. reale. Sono equivalenti le seguenti
affermazioni:
d
i) Xn −−−−→ X;
ii) FXn (x) −−−−−−→ FX (x) per ogni x punto di continuità di FX .

n→∞

[i) =⇒ ii)] Fissiamo x, punto di continuità di FX : allora per ogni ε > 0 esiste δ > 0 tale che FX (x) − FX (y) ≤ ε
se |x − y| ≤ δ. Sia f ∈ bC tale che |f | ≤ 1 e

1 per y ≤ x,


f (y) = 
0 per y ≥ x + δ.

Notiamo che h i
E [f (Xn )] ≥ E f (Xn )1(Xn ≤x) = P (Xn ≤ x) = FXn (x).
Allora abbiamo
lim sup FXn (x) ≤ lim sup E [f (Xn )] =

n→∞ n→∞
d
(per ipotesi, poiché Xn −−−−→ X)
= E [f (X)] ≤ FX (x + δ) ≤ FX (x) + ε.
Analogamente, se f ∈ bC è tale che |f | ≤ 1 e


1 per y ≤ x − δ,


f (y) = 
0
 per y ≥ x,
allora h i
E [f (Xn )] ≤ E 1{Xn ≤x} = FXn (x).
Quindi abbiamo
lim inf FXn (x) ≥ lim inf E [f (Xn )] =

n→∞ n→∞
(per ipotesi)
= E [f (X)] ≥ FX (x − δ) ≥ FX (x) − ε.
La tesi segue dall’arbitrarietà di ε.

[ii) =⇒ i)] Dati a, b punti di continuità di FX , per ipotesi si ha
h i h i
E 1]a,b] (Xn ) = FXn (b) − FXn (a) −−−−−−→ FX (b) − FX (a) = E 1]a,b] (X) .
n→∞
Fissiamo R > 0 e f ∈ bC col supporto contenuto nel compatto [−R, R]. Poiché i punti di discontinuità di
FX sono al più un’infinità numerabile, f può essere approssimata uniformemente (in norma L∞ ) mediante
combinazioni lineari di funzioni del tipo 1]a,b] con a, b punti di continuità di FX . Ne viene che anche per
tale f vale
lim E [f (Xn )] = E [f (X)] .
n→∞
Infine, fissiamo ε > 0 e consideriamo R abbastanza grande in modo che FX (−R) ≤ ε e FX (R) ≥ 1 − ε:
assumiamo inoltre che R e −R siano punti di continuità di FX . Allora per ogni f ∈ bC vale
E [f (Xn ) − f (X)] = J1,n + J2,n + J3
dove
h i h i
J1,n = E f (Xn )1]−R,R] (Xn ) − E f (X)1]−R,R] (X) ,
h i
J2,n = E f (Xn )1]−R,R]c (Xn ) ,
h i
J3 = −E f (X)1]−R,R]c (X) .
Ora, per quanto provato sopra, si ha

lim J1,n = 0
n→∞
mentre, per ipotesi,

J2,n ≤ ∥f ∥∞ FXn (−R) + (1 − FXn (R)) −−−−−−→ ∥f ∥∞ (FX (−R) + (1 − FX (R))) ≤ 2ε∥f ∥∞ ,
n→∞
e
|J3 | ≤ ∥f ∥∞ (FX (−R) + (1 − FX (R))) ≤ 2ε∥f ∥∞ .
Non è sufficiente che le CDF Fµn convergano ad una funzione continua per concludere che µn converge
debolmente, come mostra il seguente
Esempio 4.3.4. La successione di delta di Dirac δn non converge debolmente, tuttavia
Fδn (x) = 1[n,+∞[ (x) −−−−−−→ 0, x ∈ R,

n→∞
ossia Fδn converge puntualmente alla funzione identicamente nulla che, ovviamente, è continua su R ma
non è una CDF.
L’Esempio 4.3.4 non contraddice il Teorema 4.3.3 poiché la funzione limite delle Fδn non è una funzione
di ripartizione. Tale esempio mostra anche che è possibile che una successione di CDF converga ad una
funzione che non è una CDF.
4.3.2 Compattezza nello spazio delle distribuzioni

In questa sezione introduciamo la proprietà di tightness5 che fornisce una caratterizzazione della relati-
va compattezza nello spazio delle distribuzioni reali: essa garantisce che da una successione di distribuzioni
si possa estrarre una sotto-successione convergente debolmente. In particolare, la tightness evita situazioni
come quella dell’Esempio 4.3.4.
Definizione 4.3.5 (Tightness). Una famiglia di distribuzioni reali (µi )i∈I è tight se per ogni ε > 0 esiste
M > 0 tale che
µi ] − ∞, −M] ∪ [M, +∞[ ≤ ε per ogni i ∈ I.
Esercizio 4.3.6. Provare che ogni famiglia costituita da una singola distribuzione reale è tight6 .
La proprietà di tightness si può anche attribuire a famiglie di v.a. (Xi )i∈I oppure di CDF (Fi )i∈I : esse
sono tight se lo sono le relative famiglie di distribuzioni, ossia vale
P (|Xi | ≥ M) ≤ ε per ogni i ∈ I,
e
Fi (−M) ≤ ε, Fi (M) ≥ 1 − ε per ogni i ∈ I.
Teorema 4.3.7 (Teorema di Helly). [!!] Ogni successione tight di distribuzioni reali (µn )n∈N ammette una
sotto-successione convergente debolmente ad una distribuzione µ.
Dimostrazione. Sia (µn )n∈N una successione tight di distribuzioni e sia (Fn )n∈N la successione delle relative
CDF. In base al Teorema 4.3.3, è sufficiente provare che esiste una CDF F ed una sotto-successione Fnk che
converge a F nei punti di continuità di F.
La costruzione di F è basata sull’argomento diagonale di Cantor. Consideriamo una enumerazione
(qh )h∈N dei numeri razionali. Poiché (Fn (q1 ))n∈N è una successione in [0, 1], essa ammette una sotto-

successione F1,n (q1 ) n∈N convergente a un valore che indichiamo con F(q1 ) ∈ [0, 1]. Ora F1,n (q2 ) n∈N

è una successione in [0, 1] che ammette una sotto-successione F2,n (q2 ) n∈N convergente a un valore che
indichiamo con F(q2 ) ∈ [0, 1]: notiamo che si ha anche
F2,n (q1 ) −−−−−−→ F(q1 )

n→∞
poiché F2,n è sotto-successione di F1,n . Ripetiamo l’argomento fino a costruire, per ogni k ∈ N, una

successione Fk,n n∈N tale che
Fk,n (qh ) −−−−−−→ F(qh ), ∀h ≤ k.
n→∞
5 Preferiamo non tradurre il termine tecnico “tight”. In alcuni testi, “famiglia tight” è tradotto con “famiglia tesa” o “famiglia
stretta”.
6 Più in generale, ogni distribuzione µ su uno spazio metrico separabile e completo (M, ϱ), è tight nel senso seguente: per ogni ε > 0
esiste un compatto K tale che µ(M \ K) < ε. Per la dimostrazione, si veda il Teorema 1.4 in [13].
In base all’argomento diagonale, consideriamo la sotto-successione Fnk := Fk,k : essa è tale che
Fnk (q) −−−−−−→ F(q), q ∈ Q.

n→∞
Completiamo la definizione di F ponendo
F(x) := inf F(q), x ∈ R \ Q.

x<q∈Q
Per costruzione F assume valori in [0, 1], è monotona (debolmente) crescente e continua a destra. Per
provare che F è una funzione di ripartizione, rimane da verificare che
lim F(x) = 0, lim F(x) = 1. (4.3.1)

x→−∞ x→+∞
Soltanto a questo punto7 e solo per provare la (4.3.1), utilizziamo l’ipotesi che (Fn )n∈N sia una successione
tight: fissato ε > 0, esiste M (non è restrittivo assumere M ∈ Q) tale che vale Fnk (−M) ≤ ε per ogni k ∈ N.
Dunque, per ogni x ≤ −M, si ha
F(x) ≤ F(−M) = lim Fnk (−M) ≤ ε.
k→∞
Analogamente si ha, per ogni x ≥ M, si ha
1 ≥ F(x) ≥ F(M) = lim Fnk (M) ≥ 1 − ε.

k→∞
La (4.3.1) segue dall’arbitrarietà di ε.

Infine concludiamo provando che Fnk converge a F nei suoi punti di continuità. Infatti, se F è continua
in x allora per ogni ε > 0 esistono a, b ∈ Q tali che a < x < b e
F(x) − ε ≤ F(y) ≤ F(x) + ε, y ∈ [a, b].
Allora si ha
lim inf Fnk (x) ≥ lim inf Fnk (a) = F(a) ≥ F(x) − ε,
k→∞ k→∞
lim sup Fnk (x) ≤ lim sup Fnk (b) = F(b) ≤ F(x) + ε,
k→∞ k→∞
4.3.3 Convergenza di funzioni caratteristiche e Teorema di continuità di Lévy

In questa sezione esaminiamo il rapporto fra la convergenza debole di distribuzioni e la convergenza
puntuale delle relative CHF. Consideriamo il caso d = 1 anche se quanto segue può essere facilmente esteso
al caso multi-dimensionale.
Teorema 4.3.8 (Teorema di continuità di Lévy). [!!] Sia (µn )n∈N una successione di distribuzioni reali e
sia (ϕn )n∈N la successione delle corrispondenti funzioni caratteristiche. Vale:
d
i) se µn −−−−→ µ allora ϕn converge puntualmente alla CHF ϕ di µ, ossia ϕn (η) −−−−−−→ ϕ(η) per ogni η ∈ R;
n→∞
ii) viceversa, se ϕn converge puntualmente a una funzione ϕ continua in 0, allora ϕ è la CHF di una
d
distribuzione µ e vale µn −−−−→ µ.
7 Si ripensi alla successione dell’Esempio 4.3.4, definita da X ≡ n per n ∈ N: essa non ammette sotto-successioni convergenti
n
debolmente eppure si ha lim FXn (x) = F(x) ≡ 0 per ogni x ∈ R. Infatti (Xn )n∈N non è una successione tight di v.a.
n→∞
d
Dimostrazione. i) Per ogni η fissato, la funzione f (x) := eixη è continua e limitata: quindi, se µn −−−−→ µ allora
Z Z
ϕn (η) = f dµn −−−−−−→ f dµ = ϕ(η).
R n→∞ R
ii) Dimostriamo che se ϕn converge puntualmente a ϕ, con ϕ funzione continua in 0, allora (µn )n∈N è tight.
Osserviamo che ϕ(0) = 1 e, per l’ipotesi di continuità di ϕ in 0, vale
1 t
Z
(1 − ϕ(η)) dη −−−−−−+→ 0. (4.3.2)
t −t t→0
Sia ora t > 0: vale

Zt Zt
iηx
2 sin(xt)
J1 (x, t) := 1−e dη = 2t − (cos(xη) + i sin(xη)) dη = 2t − =: J2 (x, t).
−t −t xt
Osserviamo che J2 (x, t) ≥ 0 poiché Z x
|sin x| = cos tdt ≤ |x|.

0
Allora, integrando rispetto a µn , da una parte si ha
Z Z
J2 (x, t)µn (dx) ≥ J2 (x, t)µn (dx) ≥
R t|x|≥2

sin(tx) 1 1
(poiché tx ≤ t|x|
≤ 2 se t|x| ≥ 2)
Z
2 2

≥ µn (dx) = µn − ∞, − ∪ , +∞ . (4.3.3)
t|x|≥2 t t
D’altra parte, per il Teorema di Fubini si ha
1 t 1 t
Z Z Z
J1 (x, t)µn (dx) = (1 − ϕn (η)) −−−−−−→ (1 − ϕ(η)) dη,
R t −t n→∞ t −t
per il Teorema della convergenza dominata. Dalla (4.3.2) segue che, per ogni ε > 0, esistono t > 0 e n̄ =
n̄(ε, t) ∈ N tali che Z
J (x, t)µ (dx) ≤ ε, n ≥ n̄.
1 n
R
Combinando questa stima con la (4.3.3), si conclude che
2 2

µn − ∞, − ∪ , +∞ ≤ ε, n ≥ n̄,
t t
e quindi (µn )n∈N è tight.
Ora concludiamo la dimostrazione. Data una sotto-successione µnk , per quanto appena provato, essa
è tight e quindi, per il Teorema di Helly, ammette un’ulteriore sotto-successione µnk che converge debol-
j
mente a una distribuzione µ. Per il punto i), ϕnk converge puntualmente alla CHF di µ: d’altra parte, per
j
ipotesi, ϕnk converge puntualmente ϕ e quindi ϕ è la CHF di µ. Riassumendo, ogni sotto-successione µnk
j
ammette una sotto-successione che converge debolmente alla distribuzione µ Rche ha CHF uguale a ϕ.
Sia ora f ∈ bC: per quanto appena provato, ogni sotto-successione di R f dµn ammette una sotto-
R R R
successione che converge a R f dµ. Per il Lemma 4.1.8, R f dµn converge a R f dµ. La tesi segue dal-
l’arbitrarietà di f .
Esempio 4.3.9. L’ipotesi di continuità in 0 del Teorema di Lévy è necessaria. Infatti consideriamo Xn ∼ N0,n
con n ∈ N. Allora
nη 2
ϕXn (η) = e− 2
converge a zero per n → ∞ per ogni η , 0 e vale ϕXn (0) = 1. D’altra parte, per ogni x ∈ R si ha
Zx
1 y2
FXn (x) = √ e− 2n dy =
−∞ 2πn
y
(col cambio z = √ )
2n
Z √x
2n 1 2 1
= √ e−z dz −−−−−−→ ,
−∞ π n→∞ 2
e quindi, per il Teorema 4.3.3, Xn non converge debolmente.
4.3.4 Esempi notevoli di convergenza debole

In questa sezione esibiamo alcuni esempi notevoli di convergenza debole. Vedremo successioni di v.a.
discrete che convergono a v.a. assolutamente continue e, viceversa, successioni di v.a. assolutamente conti-
d
nue che convergono a v.a. discrete. Negli esempi seguenti la convergenza Xn −−−−→ X è dimostrata tramite
il
Teorema
di continuità di Lévy, ovvero studiando la convergenza puntuale della successione delle CHF
ϕXn .
n∈N
Esempio 4.3.10 (Dalla geometrica all’esponenziale). Consideriamo una successione di v.a. con distribu-
zione geometrica
Xn ∼ Geompn , n ∈ N,
dove 0 < pn < 1, per cui si ha
P (Xn = k) = pn (1 − pn )k−1 , k ∈ N.
Si calcola facilmente la CHF di Xn :
∞ ∞
X X k−1 eiη pn p
ϕXn (η) = eiηk pn (1 − pn )k−1 = eiη pn eiη (1 − pn ) = iη
= −iη n .
k=1 k=1
1 − e (1 − pn ) e − 1 + pn
Xn d
Verifichiamo ora che se npn −−−−−→ λ per un certo λ ∈ R>0 allora n −−−−→ X ∼ Expλ . Infatti si ha
n→∞
η pn
X
n
ϕ Xn (η) = E eiη n = ϕXn = η =
n n e −i n
− 1 + pn
(sviluppando in serie di Taylor l’esponenziale per n → ∞)
pn npn λ
= η
= −−−−−−→ = ϕExpλ (η).
−i n + o n + pn −iη + o (1) + npn
1 n→∞ λ − iη
Esempio 4.3.11 (Dalla normale alla Delta di Dirac). Riprendiamo l’Esempio 4.1.3 e consideriamo una
successione (Xn )n∈N di v.a. con distribuzione normale Xn ∼ Nan ,σn2 dove an −→ a ∈ R e σn −→ 0. Grazie al
d
Teorema di continuità di Lévy è facile verificare che Xn −−−−→ X ∼ δa . Infatti
η 2 σn2
ϕXn (η) = eian η− 2 −−−−−−→ eiaη , η ∈ R,
n→∞
d
perciò dal Teorema di continuità di Lévy segue che Xn −−−−→ X ∼ δa , ossia Xn converge debolmente a una
v.a. con distribuzione Delta di Dirac centrata in a.
4.4. LEGGE DEI GRANDI NUMERI E TEOREMA CENTRALE DEL LIMITE 179
Esempio 4.3.12 (Dalla binomiale alla Poisson). Consideriamo una successione di v.a. con distribuzione
binomiale
Xn ∼ Binn,pn , n ∈ N.
d
Se npn −−−−−→ λ per un certo λ ∈ R>0 allora Xn −−−−→ X ∼ Poissonλ : infatti per la (3.5.3) e il Lemma 4.4.1, si
n→∞
ha
n np n iη
ϕXn (η) = 1 + pn eiη − 1 = 1 + n eiη − 1

−−−−−−→ eλ(e −1) = ϕPoissonλ (η).
n n→∞
Esempio 4.3.13 (Dalla binomiale alla normale). Sia Xn ∼ Binn,p . Ricordiamo (cfr. Proposizione 3.6.3) che
la distribuzione di Xn coincide con la distribuzione della somma di n v.a. di Bernoulli indipendenti. Allora,
come conseguenza diretta del Teorema centrale del limite (Teorema 4.4.4, che proveremo fra poco e la cui
dimostrazione si basa sul Teorema di continuità di Lévy), vale:
d
Zn −−−−→ X ∼ N0,1 ,
dove
Xn − µ n
Zn = , µn = E [Xn ] = np, σn2 = var(Xn ) = np(1 − p).
σn
Il risultato appena ottenuto può essere espresso informalmente dicendo che per ogni p ∈ ]0, 1[, la distribu-
zione Nnp,np(1−p) è una buona approssimazione di Binn,p per n abbastanza grande: si veda per esempio la
Figura 4.4 per un confronto fra i grafici della densità normale Nnp,np(1−p) e della funzione di distribuzione
binomiale Binn,p , per p = 0.5 e n = 20. Questo risultato sarà ripreso e spiegato con maggior precisione
nell’Osservazione 4.4.8.
●
● ●
0.15
● ●
0.10
● ●
0.05
● ●
● ●
● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
0 5 10 15 20 25 30
Figura 4.4: Densità della distribuzione normale Nnp,np(1−p) e funzione di distribuzione binomiale Binn,p per
p = 0.5 e n = 20.
4.4 Legge dei grandi numeri e Teorema centrale del limite

In questa sezione presentiamo un approccio unificato alla dimostrazione della Legge debole dei grandi
numeri e del Teorema centrale del limite. Tale approccio è basato sul Teorema di continuità di Lévy e sul
Teorema 3.5.20 di sviluppabilità in serie di Taylor della funzione caratteristica. Ricordiamo la notazione
Sn
Sn = X1 + · · · + Xn , Mn = (4.4.1)
n
rispettivamente per la somma e la media aritmetica delle v.a. X1 , . . . , Xn . Vale il seguente risultato, ben noto
nel caso di successioni reali.
Lemma 4.4.1. Sia (zn )n∈N una successione di numeri complessi convergente a z ∈ C. Allora si ha
z n

lim 1 + n = ez .
n→∞ n
Dimostrazione. Seguiamo la prova di [22], Teorema 3.4.2. Proviamo anzitutto che per ogni w1 , . . . , wn , ζ1 , . . . , ζn ∈
C, con modulo minore o uguale a c, vale

Y n Yn Xn
wk − ζk ≤ cn−1 |wk − ζk |. (4.4.2)
k=1 k=1
k=1
La (4.4.2) è vera per n = 1 e in generale si prova per induzione osservando che

Y n Yn Y n−1 n−1
Y Y n−1 n−1
Y
wk − ζk ≤ wn wk − zn ζk + wn ζk − ζn ζk
k=1 k=1
k=1 k=1
k=1 k=1

Yn−1 n−1
Y
≤ c wk − ζk + cn−1 |wn − ζn |.
k=1 k=1

Poi osserviamo che per ogni w ∈ C con |w| ≤ 1 vale |ew − (1 + w)| ≤ |w|2 poichè

X wk X |w|k X1
w
|e − (1 + w)| = − (1 + w) ≤ = |w|2 ≤ |w|2 . (4.4.3)
k! k! k!
k≥0 k≥2 k≥2

Per provare la tesi, fissiamo R > |z|: per ogni n ∈ N abbastanza grande si ha anche R > |zn |. Applichiamo
la (4.4.2) con
z zn
wk = 1 + n , ζk = e n , k = 1, . . . , n;
n
R
osservando che |wk | ≤ 1 + |znn | ≤ e n , abbiamo
n
1 + zn n − ezn ≤ e Rn n−1
X
zn

zn
1 + − e n ≤
n n

k=1
(per la (4.4.3))
R(n−1)
z 2 R2
≤e n n n ≤ eR
n n
da cui la tesi.
Teorema 4.4.2 (Legge debole dei grandi numeri). Sia (Xn )n∈N una successione di v.a. reali i.i.d. in L1 (Ω, P ),
con valore atteso µ := E [X1 ]. Allora la media aritmetica Mn converge debolmente alla v.a. costante uguale a
µ:
d
Mn −−−−→ µ.
Dimostrazione. Per il Teorema 4.3.8 di continuità di Lévy, è sufficiente provare che la successione delle
funzioni caratteristiche ϕMn converge puntualmente alla CHF della distribuzione δµ :
lim ϕMn (η) = eiµη , η ∈ R. (4.4.4)

n→∞
Abbiamo
η
ϕMn (η) = E ei n Sn =
(poiché le Xn sono i.i.d.)

h η in
= E ei n X1 =
(per il Teorema 3.5.20 e l’ipotesi di sommabilità)

!n
iµη 1
= 1+ +o −−−−−−→ eiµη
n n n→∞
grazie al Lemma 4.4.1. Questo prova la (4.4.4) e conclude la dimostrazione.

Osservazione 4.4.3. Le ipotesi del Teorema 4.4.2 sono più deboli rispetto alla Legge dei grandi numeri
nella versione del Teorema 4.2.1 in cui si assume che Xn ∈ L2 (Ω, P ). Con metodi più sofisticati è anche
possibile estendere il Teorema 4.2.3 ed ottenere la cosiddetta Legge forte dei grandi numeri di Kolmogorov:
se (Xn )n∈N è una successione di v.a. reali i.i.d. in L1 (Ω, P ) con valore atteso µ := E [X1 ], allora Mn converge
quasi certamente a µ. Per maggiori dettagli si veda, per esempio, [35].
Supponiamo ora che (Xn )n∈N sia una successione di v.a. reali i.i.d. in L2 (Ω, P ). Poniamo
µ := E [X1 ] e σ 2 := var(X1 ).
Ricordiamo che valore atteso e varianza della media aritmetica Mn in (4.2.1) sono dati rispettivamente da
σ2
E [Mn ] = µ e var(Mn ) = .
n
Consideriamo allora la media aritmetica normalizzata, definita da
en := Mpn − E [Mn ] = Mn − µ .
M
var(Mn ) √σ
n
Notiamo che
n
e n = Sn −
M √
µn
=√
1 X Xk − µ
. (4.4.5)
σ n n k=1 σ
Il Teorema centrale del limite8 afferma che, a prescindere dalla distribuzione delle Xn , la successione delle
medie aritmetiche normalizzate M en converge debolmente a una normale standard.
Teorema 4.4.4 (Teorema centrale del limite). [!!!] Per ogni successione (Xn )n∈N di v.a. reali i.i.d. in
L2 (Ω, P ) vale
Men −−−d−→ Z ∼ N0,1 . (4.4.6)
Dimostrazione. Per il Teorema 4.3.8 di continuità di Lévy, è sufficiente provare che la successione delle
en converge puntualmente alla CHF della distribuzione N0,1 :
funzioni caratteristiche ϕM
η2
−
lim ϕM
en (η) = e 2 , η ∈ R. (4.4.7)
n→∞
8 Il nome Teorema centrale del limite è stato dato dal matematico ungherese George Pólya per sottolineare come tale teorema abbia
un ruolo centrale in Probabilità.
Per la (4.4.5) si ha
 n 
 i √ηn P Xkσ−µ 
en (η) = E 
ϕM e
k=1  =
 

(poiché le Xn sono i.i.d.)

" η X −µ #!n
i√ 1
= E e n σ =
X1 −µ
(per il Teorema 3.5.20, essendo per ipotesi σ ∈ L2 (Ω, P ) con media nulla e varianza unitaria)
!n
(iη)2 1 η2
= 1+ +o −−−−−−→ e− 2
2n n n→∞
grazie al Lemma 4.4.1. Questo prova la (4.4.7) e conclude la dimostrazione.

Osservazione 4.4.5. Nel caso particolare, nel caso in cui µ = 0 e σ = 1, la (4.4.6) diventa
S d
√n −−−−→ Z ∼ N0,1 .
n
Osservazione 4.4.6 (Teorema centrale del limite e Legge dei grandi numeri). Data l’espressione di M
en in
(4.4.5), il Teorema centrale del limite si riformula nel modo seguente:
σ
Mn ≃ µ + √ Z ∼ Nµ, σ 2 , per n ≫ 1, (4.4.8)
n n
dove il simbolo ≃ indica che Mn e µ + √σn Z hanno approssimativamente la stessa distribuzione. La (4.4.8)
fornisce un’approssimazione della distribuzione della v.a. Mn che precisa ed esplicita il risultato di conver-
genza della Legge dei grandi numeri.
Osservazione 4.4.7 (Teorema centrale del limite e metodo Monte Carlo). [!] Medie Mn di variabili i.i.d.,
definite come in (4.4.1), appaiono in modo naturale nel metodo Monte Carlo che abbiamo introdotto nella
Sezione 4.2.1. Sotto le ipotesi del Teorema centrale del limite, posto
!
σ
pλ := P Mn − µ ≤ λ √ = P M en ≤ λ , λ > 0,
n
si ha la stima
pλ ≃ P (|Z| ≤ λ) , Z ∼ N0,1 .
Ora ricordiamo (cfr. (3.1.12)) che
P (|Z| ≤ λ) = 2F(λ) − 1, λ > 0,
con F in (4.4.10). Per la stima dell’errore numerico del metodo

p+1 Monte Carlo, si parte dai valori di p usati
più comunemente, ossia p = 95% e p = 99%: posto λ = F −1
2 , si ottiene
! !
σ σ
P Mn − µ ≤ 1.96 √ ≃ 95% e P Mn − µ ≤ 2.57 √ ≃ 99%.
n n
Per questo motivo
σ σ
r95 := 1.96 √ e r99 := 2.57 √
n n
sono comunemente chiamati raggi degli intervalli di confidenza al 95% e al 99% per µ: se Mn rappresenta il
risultato (aleatorio) dell’approssimazione Monte Carlo del valore atteso µ, allora
[Mn − r95 , Mn + r95 ] e [Mn − r99 , Mn + r99 ]
sono gli intervalli (di estremi aleatori) a cui µ (che è il valore incognito che si intende approssimare)
appartiene con probabilità pari, rispettivamente, al 95% e 99%. In altri termini, è bene ricordare che il
risultato di un’approssimazione numerica col metodo Monte Carlo non è un singolo numero bensı̀ un intervallo di
confidenza.
Osservazione 4.4.8 (Teorema centrale del limite e somme di v.a. i.i.d.). Come già anticipato nell’Esempio
4.3.13, il Teorema centrale del limite è un valido strumento per approssimare la legge di v.a. definite come
somme di variabili i.i.d. Per esempio, sappiamo (cfr. Proposizione 3.6.3) che X ∼ Binn,p è uguale in legge a
X1 + · · · + Xn con Xj ∼ Bep i.i.d. Allora abbiamo la seguente approssimazione asintotica della CDF di X per
n → +∞:  
k − pn 
Z ∼ N0,1 .

P (X ≤ k) ≈ P Z ≤ p

 , (4.4.9)
np(1 − p)
La (4.4.9) segue semplicemente dal fatto che, posto µ = E [X1 ] = p e σ 2 = var(X1 ) = p(1 − p), per il Teorema
centrale del limite si ha ! !
X − µn k − µn k − µn
P (X ≤ k) = P √ ≤ √ ≈P Z ≤ √ .
σ n σ n σ n
La (4.4.9) equivale a  
 k − pn 
FX (k) ≈ F  p
 
np(1 − p)

dove FX indica la CDF di X ∼ Binn,p e

x z2
e− 2
Z
F(x) = √ dz (4.4.10)
−∞ 2π
è la CDF normale standard.
Sotto ipotesi più forti, una stima esplicita della velocità di convergenza nel Teorema centrale del limite è
data dal Teorema di Berry-Esseen che qui ci limitiamo ad enunciare9 .
Teorema 4.4.9 (Teorema di Berry-Esseen). Esiste una costante10 C < 1 tale che, se (Xn ) è una successione
di v.a. i.i.d. in L3 (Ω, P ) con
h i
E [X1 ] = 0, var(X1 ) := σ 2 , E |X1 |3 =: ϱ,
allora si ha
Cϱ
|Fn (x) − F(x)| ≤ √ , x ∈ R, n ∈ N,
σ3 n
dove Fn indica la CDF della media normalizzata M
en in (4.4.5) e F è la CDF normale standard in (4.4.10).
9 Per la dimostrazione si veda, per esempio, [22].

10 Non è noto il valore ottimale di C: al momento si sa che 0.4097 < C < 0.56.
Capitolo 5
Probabilità condizionata
We have not succeeded in answering

all our problems - indeed we
sometimes feel we have not
completely answered any of them.
The answers we have found have
only served to raise a whole set of
new questions. In some ways we feel
that we are as confused as ever, but
we think we are confused on a higher
level, and about more important
things.
Earl C. Kelley
In uno spazio di probabilità (Ω, F , P ), siano X una variabile aleatoria e G una sotto-σ -algebra di F .
In questo capitolo introduciamo i concetti di distribuzione e attesa di X condizionate a G . Ricordando
che una σ -algebra può essere interpretata come un insieme di “informazioni”, l’attesa di X condizionata a
G rappresenta la miglior stima del valore aleatorio X in base alle informazioni contenute in G . Tanto più G
è grande, tanto migliore e più dettagliata è la stima di X data dall’attesa condizionata: quest’ultima, dal
punto di vista matematico, è definita come una variabile aleatoria che gode di determinate proprietà. I
concetti di attesa e distribuzione condizionata sono alla base della teoria dei processi stocastici e di tutte
le applicazioni della teoria della probabilità in cui si vuole modellizzare un fenomeno aleatorio che evolve
nel tempo: in tal caso è necessario descrivere non solo l’evoluzione del valore aleatorio X ma anche quella
delle informazioni che, col passare del tempo, diventano disponibili e permettono di stimare X. In questo
capitolo, salvo diversamente specificato, X indica una variabile aleatoria a valori in Rd .
5.1 Il caso discreto

Introduciamo il concetto di condizionamento alla σ -algebra generata da una v.a. discreta: trattia-
mo questo caso molto particolare con uno scopo meramente introduttivo alla definizione generale che è
tecnicamente più complessa e sarà introdotta nelle sezioni successive.
Consideriamo una variabile aleatoria Y definita sullo spazio (Ω, F , P ) e assumiamo che Y sia discreta1
nel senso seguente:
1 L’ipotesi ii) non è realmente restrittiva: se Z verifica i) allora esiste una v.a. Y discreta tale che P (Y = y) > 0 per ogni y ∈ Y (Ω) e
Z = Y q.c.
185
186 CAPITOLO 5. PROBABILITÀ CONDIZIONATA
i) i valori distinti assunti da Y formano un insieme di cardinalità al più numerabile: in altri termini,
l’immagine di Ω mediante Y è della forma Y (Ω) = (yn )n∈N con yn distinti;
ii) per ogni n ∈ N, l’evento Bn := (Y = yn ) non è trascurabile, ossia P (Bn ) > 0.
In queste ipotesi, la famiglia (Bn )n∈N forma una partizione finita o numerabile di Ω, i cui elementi sono even-
ti non trascurabili. Notiamo che σ (Y ), la σ -algebra generata da Y , è costituita dall’insieme vuoto, dagli
elementi della partizione (Bn )n∈N e dalle unioni di essi.
Definizione 5.1.1 (Probabilità condizionata).

Nello spazio (Ω, F , P ) la probabilità condizionata alla v.a.
discreta Y è la famiglia P (· | Y ) = Pω (· | Y ) di misure di probabilità su (Ω, F ) definite da
ω∈Ω
Pω (A | Y ) := P (A | Y = Y (ω)), A ∈ F, (5.1.1)
dove P (· | Y = Y (ω)) indica la probabilità condizionata all’evento (Y = Y (ω)) (cfr. Definizione 2.3.2).
Osservazione 5.1.2. Per ogni A ∈ F , P (A | Y ) è una variabile aleatoria costante sugli elementi della parti-
zione (Bn )n∈N :
X
P (A | Y ) = P (A | Bn )1Bn .
n≥1
Poiché Pω (· | Y ) è una misura di probabilità per ogni ω ∈ Ω, sono definiti in modo naturale i concetti di
distribuzione e attesa condizionate a Y .
Definizione 5.1.3 (Distribuzione e attesa condizionata). Data X una v.a. su (Ω, F , P ) a valori in Rd ,
i) la distribuzione (o legge) di X condizionata a Y , indicata con µX|Y , è la distribuzione di X relativa alla

probabilità condizionata P (· | Y ):
µX|Y (H) := P (X ∈ H | Y ), H ∈ Bd ; (5.1.2)
ii) se X ∈ L1 (Ω, P ), l’attesa di X condizionata a Y , indicata con E [X | Y ], è il valore atteso di X nella

probabilità condizionata P (· | Y ):
Z
E [X | Y ] := XdP (· | Y ). (5.1.3)
Ω
Osservazione 5.1.4. Si noti che la distribuzione e l’attesa condizionate dipendono da ω e quindi sono
quantità aleatorie, infatti:
i) il significato della definizione (5.1.2) è
µX|Y (H; ω) := Pω (X ∈ H | Y ), H ∈ Bd , ω ∈ Ω.
Di conseguenza:
i-a) per ogni ω ∈ Ω, µX|Y (·; ω) è una distribuzione su (Rd , Bd ): diciamo quindi che µX|Y è una distri-
buzione aleatoria;
i-b) per ogni H ∈ Bd , µX|Y (H) è una variabile aleatoria costante sugli elementi della partizione (Bn )n∈N :
X
µX|Y (H) = P (X ∈ H | Bn )1Bn ; (5.1.4)
n≥1
5.1. IL CASO DISCRETO 187
ii) il significato della definizione (5.1.3) è

Z
E [X | Y ] (ω) := XdPω (· | Y ), ω ∈ Ω.
Ω
Di conseguenza, E [X | Y ] è una variabile aleatoria costante sugli elementi della partizione (Bn )n∈N :
X
E [X | Y ] = E [X | Bn ] 1Bn , (5.1.5)
n≥1
dove, per la Proposizione 3.4.2, Z

1
E [X | Bn ] = XdP .
P (Bn ) Bn
Esempio 5.1.5. Riprendiamo l’Esempio 3.4.5: da un’urna che contiene n ≥ 2 palline numerate, si estrag-
gono in sequenza e senza reinserimento due palline. Siano X1 e X2 le v.a. che indicano rispettivamente il
numero della prima e seconda pallina estratta. Allora per ogni k ∈ In si ha

1
 n−1 , se h ∈ In \ {k},


µX2 |X1 =k ({h}) = 
0
 altrimenti,
o equivalentemente
µX2 |X1 = UnifIn \{X1 } .
Generalizziamo ora due ben noti strumenti fondamentali per il calcolo dell’attesa.
Teorema 5.1.6 (Teorema del calcolo della media). [!] Siano X e Y v.a. su (Ω, F , P ) con Y discreta. Se
f ∈ mBd e f (X) ∈ L1 (Ω, P ) allora Z
E [f (X) | Y ] = f dµX|Y .
Rd
Dimostrazione. Per ogni ω ∈ Ω si ha

Z
E [f (X) | Y ] (ω) = f (X)dPω (· | Y ) =
Ω
(per il Teorema 3.2.25 del calcolo della media)

Z
= f (x)µX|Y (dx; ω).
Rd
Teorema 5.1.7 (Formula della probabilità totale). [!] Siano X e Y v.a. su (Ω, F , P ) con Y discreta. Si ha
h i
µX = E µX|Y . (5.1.6)
Dimostrazione. Per ogni H ∈ Bd , per la (5.1.4) si ha

h i X X
E µX|Y (H) = P (X ∈ H | Bn )P (Bn ) = P ((X ∈ H) ∩ Bn ) = P (X ∈ H) = µX (H).
n≥1 n≥1
Esempio 5.1.8. Il numero di mail di spam ricevute ogni giorno da una casella di posta è una v.a. con di-
stribuzione Poisson10 . Installando un software antispam è possibile dimezzare il numero medio di mail di
spam ricevute. Sapendo che tale software protegge solo l’80% delle caselle di posta di un’azienda, determi-
niamo la distribuzione e la media del numero di mail di spam ricevute ogni giorno da ogni casella di posta
dell’azienda.
Sia Y ∼ Bep , con p = 80%, la v.a. che vale 1 se una casella di posta è protetta e 0 altrimenti. Se X indica
il numero di mail di spam ricevute, si ha per ipotesi
µX|Y = Y Poisson5 + (1 − Y )Poisson10 .
Allora, per la Formula della probabilità totale (5.1.6), si ha

h i
µX = E µX|Y = pµX|Y =1 + (1 − p)µX|Y =0 = pPoisson5 + (1 − p)Poisson10
da cui
E [X] = pE [X | Y = 1] + (1 − p)E [X | Y = 0] = 80% · 5 + 20% · 10 = 6.
Infine, per il Teorema del calcolo della media si ha
Z
E [X | Y ] = xµX|Y (dx)
R
Z Z
=Y xPoisson5 (dx) + (1 − Y ) xPoisson10 (dx) = 5Y + 10(1 − Y ).
R R
Esempio 5.1.9. Supponiamo che µX|Y = ExpY con Y ∼ Geomp : allora si ha

Z +∞ h it=+∞
P (X ≥ x | Y ) = ExpY ([x, +∞[) = Y e−tY dt = −e−tY = e−xY ,
t=x
x
per ogni x ≥ 0. Quindi si ha

h i X p
E [P (X ≥ x | Y )] = E e−xY = e−nx p(1 − p)n−1 =
p − 1 + ex
n∈N
e d’altra parte, per la Formula della probabilità totale, vale
E [P (X ≥ x | Y )] = P (X ≥ x)
che fornisce l’espressione della CDF (e quindi della distribuzione) di X. Infatti, osservando che chiaramen-
te P (X ≥ x | Y ) = 1 se x < 0, si ha 
1 se x < 0,


P (X ≥ x) =  p
 p−1+ex se x ≥ 0,

da cui si deduce che X è una v.a. assolutamente continua con densità (si veda la Figura 5.1)

d 0 x se x < 0,


γX (x) = (1 − P (X ≥ x)) =  pe (5.1.7)
dx 
 x 2
se x ≥ 0.
(p−1+e )
Si può pensare a X come a una v.a. di tipo esponenziale con intensità2 stocastica. Questo esempio mostra
che tramite il concetto di distribuzione condizionata è possibile considerare modelli probabilistici in cui il
valore dei parametri è incerto o stocastico. Da qui viene la fondamentale importanza della distribuzione
condizionata in molte applicazioni e, in particolare, in statistica.
2 Nella distribuzione esponenziale Exp , il parametro λ > 0 è usualmente chiamato intensità.
λ
2.0
1.5
1.0
0.5
0.5 1.0 1.5 2.0
Figura 5.1: Grafico della densità in (5.1.7) per p=0.5
L’attesa condizionata gode di due proprietà che la caratterizzano univocamente.
Proposizione 5.1.10. [!] Date due variabili aleatorie X e Y su (Ω, F , P ), con X ∈ L1 (Ω, P ) e Y discreta,
poniamo Z = E [X | Y ]. Allora si ha:
i) Z ∈ mσ (Y );
ii) per ogni W ∈ bσ (Y ) vale

E [ZW ] = E [XW ] .
Inoltre, se Z ′ è una v.a. che verifica le proprietà i) e ii) allora Z ′ (ω) = Z(ω) per ogni ω ∈ Ω.
Dimostrazione. La i) è immediata conseguenza della (5.1.5). Per quanto riguarda la ii), per il Teorema 3.3.3
di Doob esiste f misurabile e limitata tale che W = f (Y ) o, più esplicitamente
X
W= f (yn )1Bn . (5.1.8)
n≥1

 
 X 
E [W Z] = E f (Y )
 E [X | Bn ] 1Bn 
n≥1
X h i
= f (yn )E [X | Bn ] E 1Bn =
n≥1
(per la (3.4.1))
X h i
= f (yn )E X1Bn = E [XW ] .
n≥1
Infine, se Z ′ gode delle proprietà i) e ii) allora Z ′ è della forma (5.1.8) e, per la ii) con W = 1Bn , si ha
h i h i
f (yn )P (Bn ) = E Z ′ 1Bn = E X1Bn
da cui segue f (yn ) = E [X | Bn ].

Osservazione 5.1.11 (Funzione probabilità condizionata). [!] Sia Y una v.a. discreta a valori in uno
spazio misurabile (E, E ). Secondo la definizione (5.1.1), la probabilità condizionata è una famiglia di misure
di probabilità Pω (· | Y ) al variare di ω ∈ Ω e in tal senso può essere interpretata come una probabilità
aleatoria. È possibile dare una definizione alternativa di probabilità condizionata in cui P (· | Y ) dipende da
y ∈ Y (Ω) invece che da ω ∈ Ω: precisamente, si dice che la famiglia P (· | Y ) = (P (· | Y = y))y∈Y (Ω) di misure
di probabilità su (Ω, F ) è la funzione3 probabilità condizionata a Y . In modo analogo si definisce la funzione
legge della v.a. X condizionata a Y come
µX|Y (H; y) = P (X ∈ H | Y = y), H ∈ B, y ∈ Y (Ω),
e la funzione attesa condizionata come
Z
E [X | Y = y] = XdP (· | Y = y) =
Ω
(per la Proposizione 3.4.2)

Z
1
= XdP , y ∈ Y (Ω).
P (Y = y) (Y =y)
Ricordiamo anche la definizione di funzione di distribuzione di una variabile aleatoria discreta X, data
nell’Osservazione 2.4.16:
µ̄X (x) = P (X = x), x ∈ X(Ω).
Per analogia indichiamo con µ̄X|Y (x, y) = P (X = x | Y = y) la funzione di distribuzione di X condizionata a Y e
osserviamo che vale
P ((X = x) ∩ (Y = y)) µ̄(X,Y ) (x, y)
µ̄X|Y (x, y) = = , x ∈ X(Ω), y ∈ Y (Ω). (5.1.9)
P (Y = y) µ̄Y (y)
Esempio 5.1.12. Il numero di email ricevute ogni giorno è una v.a. Y ∼ Poissonλ con λ = 20. Ogni email ha
probabilità p = 15% di essere spam, indipendentemente dalle altre. Determiniamo la distribuzione della
v.a. X che indica il numero di email di spam ricevute ogni giorno.
Intuitivamente ci aspettiamo che X ∼ Poissonλp . In effetti, per ipotesi si ha

Binn,p ({k}) se k ≤ n,


P (X = k | Y = n) = 
0
 se k > n,
è la probabilità che, su n email ricevute, ce ne siano esattamente k di spam. Per la Formula della probabilità
totale si ha
X
P (X = k) = P (X = k | Y = n)P (Y = n)
n≥0
X n! λn
= pk (1 − p)n−k e−λ
k n!
n≥k
e−λ (λp)k X (1 − p)n−k λn−k
= =
k! (n − k)!
n≥k
(posto h = n − k)
e−λ (λp)k X (1 − p)h λh (λp)k

= = e−λp = Poissonλp ({k}).
k! h! k!
h≥0
3 Usiamo il termine funzione probabilità condizionata a Y per sottolineare il fatto che, secondo questa definizione, P (· | Y ) è una
funzione che ad ogni y ∈ Y (Ω) associa la misura di probabilità P (· | Y = y).
Osservazione 5.1.13. Consideriamo Y = 1B con B ∈ F tale che 0 < P (B) < 1: nelle applicazioni si interpreta
la σ -algebra generata da Y
σ (Y ) = {∅, Ω, B, Bc }
come “l’informazione riguardo al fatto che l’evento B sia avvenuto o meno”. Notiamo la differenza concet-
tuale fra:
i) condizionare a B, nel senso di condizionare al fatto che B è avvenuto;
ii) condizionare a Y , nel senso di condizionare al fatto di sapere se B sia avvenuto o meno.
Per questo motivo l’attesa condizionata E [X | Y ] è definita come in (5.1.5) ossia:


E [X | B] se ω ∈ B,


E [X | Y ] (ω) := 
E [X | Bc ] se ω ∈ Bc .

Intuitivamente, E [X | B] rappresenta l’attesa di X stimata in base all’osservazione che B è accaduto: pertanto

E [X | B] è un numero, un valore deterministico. Al contrario, si può pensare a E [X | Y ] come a una stima
futura di X che dipenderà dall’osservare se B avviene o no (oppure alla stima di X che è data da un individuo
che sa se B è avvenuto o no): per questo motivo E [X | Y ] è definita come una variabile aleatoria.
5.1.1 Esempi
Esempio 5.1.14. Calcoliamo E [X1 | Y ] dove X1 , . . . , Xn ∼ Bep , con 0 < p < 1, sono indipendenti e Y = X1 +
· · · + Xn . Poiché Y ∼ Binn,p , abbiamo
E [X1 | Y = k] = 0 · P (X1 = 0 | Y = k) + 1 · P (X1 = 1 | Y = k) =
(posto Z = X2 + · · · + Xn ∼ Binn−1,p )
P ((X1 = 1) ∩ (Z = k − 1))
= =
P (Y = k)
(per l’indipendenza di X1 e Z)
P (X1 = 1)P (Z = k − 1)
=
P (Y = k)
n−1 k−1
p p (1 − p)n−1−(k−1) k
= k−1 n k n−k
= , k = 0, . . . , n,
k p (1 − p)
n
è la funzione attesa di X1 condizionata a Y . Equivalentemente si ha
Y
E [X1 | Y ] = .
n
Esempio 5.1.15. L’urna A contiene n ∈ N palline di cui solo k1 ≤ n sono bianche. L’urna B contiene n ∈ N
palline di cui solo k2 ≤ n sono bianche. Si sceglie a caso un’urna e si effettua una successione di estrazioni
con reinserimento. Determiniamo la distribuzione del numero X di estrazioni necessarie per trovare la
prima pallina bianca.
Sia Y ∼ Bep , con p = 21 , la v.a. che vale 1 se viene scelta l’urna A e vale 0 altrimenti. Allora, ricordando
l’Esempio 3.1.24 sulla distribuzione geometrica, si ha
µX|Y = Y Geom k1 + (1 − Y )Geom k2 ,

n n
e per la formula della probabilità totale (5.1.6) si ha
1

µX = Geom k1 + Geom k2 .
2 n n
Infine
n(k1 + k2 )
E [X] = .
2k1 k2
Esempio 5.1.16. Siano Xi ∼ Poissonλi , i = 1, 2, indipendenti e Y := X1 + X2 . Sappiamo (cfr. Esempio 3.6.5)
che Y ∼ Poissonλ1 +λ2 . Proviamo che
µX1 |Y = BinY , λ1 .
λ1 +λ2
Indichiamo con µX1 |Y =· la funzione distribuzione di X1 condizionata a Y . Per k ∈ {0, 1, . . . , n}, si ha
P ((X1 = k) ∩ (Y = n))
µX1 |Y =n ({k}) = =
P (Y = n)
(per l’indipendenza di X1 e X2 )
e−λ1 λk1 e−λ2 λn−k

2
P (X1 = k)P (X2 = n − k) k! (n−k)!
= =
P (Y = n) e−λ1 −λ2 (λ1 +λ2 )n
n!
e d’altra parte µX1 |Y =n ({k}) = 0 per gli altri valori di k. Da ciò si conclude facilmente.
Esercizio 5.1.17. Siano Xi ∼ Geomp , i = 1, 2, indipendenti e Y := X1 + X2 . Provare che
i) µY ({n}) = (n − 1)p2 (1 − p)n−2 , per n ≥ 2;
ii) µX1 |Y = Unif{1,2,...,Y −1} .
5.2 Attesa condizionata

In uno spazio (Ω, F , P ) siano X una v.a. sommabile e G una sotto-σ -algebra di F . In questa sezione
diamo la definizione di attesa di X condizionata a G . Osserviamo che non è possibile in generale definire
E [X | G ] come nel caso discreto perché non è chiaro come partizionare lo spazio campionario Ω a partire da
G . Il problema è che una σ -algebra può avere una struttura molto complicata: si pensi, per esempio, alla
σ -algebra di Borel sullo spazio Euclideo. Inoltre, nel caso G = σ (Y ) con Y assolutamente continua, la defi-
nizione (5.1.1) perde significato perché ogni evento del tipo (Y = Y (ω)) è trascurabile. Per superare questi
problemi, la definizione generale di attesa condizionata è data in termini delle due proprietà fondamentali
della Proposizione 5.1.10. Il seguente risultato mostra che una v.a. che soddisfa tali proprietà esiste sempre
e, in un certo senso, è unica.
Teorema 5.2.1. Siano X ∈ L1 (Ω, F , P ) a valori in Rd e G una sotto-σ -algebra di F . Esiste una v.a. Z ∈
L1 (Ω, P ) a valori in Rd che soddisfa le seguenti proprietà:
i) Z ∈ mG ;
ii) per ogni v.a. W ∈ mG limitata, vale

E [ZW ] = E [XW ] . (5.2.1)
Inoltre se Z ′ verifica i) e ii) allora Z = Z ′ quasi certamente.

5.2. ATTESA CONDIZIONATA 193
Dimostrazione. (Unicità) Consideriamo il caso d = 1. Dimostriamo un risultato leggermente più generale

da cui segue facilmente l’unicità: siano X, X ′ v.a. sommabili, tali che X ≤ X ′ quasi certamente e siano Z, Z ′
v.a. che verificano le proprietà i) e ii) rispettivamente per X e X ′ . Allora Z ≤ Z ′ quasi certamente.
Infatti, poniamo
An = (Z − Z ′ ≥ 1/n) , n ∈ N.
Allora An ∈ G per la i), e vale
h i h i h i
0 ≥ E (X − X ′ )1An = E X1An − E X ′ 1An =
(per ii))
h i h i h i 1
= E Z1An − E Z ′ 1An = E (Z − Z ′ )1An ≥ P (An )
n
da cui P (An ) = 0 e, per la continuità dal basso di P , si ha anche P (Z > Z ′ ) = 0. Il caso d > 1 segue ragionando
componente per componente.
(Esistenza) Diamo una dimostrazione dell’esistenza basata su risultati di analisi funzionale, in particolare
relativi alla proiezione ortogonale in spazi di Hilbert. Consideriamo dapprima l’ipotesi più restrittiva che
X appartenga a L2 (Ω, F , P ) che è uno spazio di Hilbert col prodotto scalare
⟨X, Z⟩ = E [XZ] .
Anche L2 (Ω, G , P ) è uno spazio di Hilbert ed è un sotto-spazio chiuso di L2 (Ω, F , P ) poiché G ⊆ F . Allora
esiste la proiezione Z di X su L2 (Ω, G , P ) e per definizione si ha:
i) Z ∈ L2 (Ω, G , P ) e quindi in particolare Z è G -misurabile;
ii) per ogni W ∈ L2 (Ω, G , P ) si ha

E [(Z − X)W ] = 0. (5.2.2)
Dunque Z è proprio la v.a. cercata: dal punto di vista geometrico, Z è la v.a. G -misurabile che meglio
approssima X nel senso che, fra le v.a. G -misurabili, è la meno distante da X rispetto alla distanza di L2 .
Consideriamo ora X ∈ L1 (Ω, F , P ) tale che X ≥ 0 quasi certamente. Il caso di X a valori in Rd si prova
ragionando sulla parte positiva e negativa di ogni singola componente. La successione definita da
Xn = X ∧ n, n ∈ N,
è crescente, appartiene a L2 e tende puntualmente a X: ad ogni Xn associamo Zn definita come sopra,

ossia come proiezione di Xn su L2 (Ω, G , P ). Per quanto visto nella prima parte della dimostrazione, per
ogni n ∈ N vale 0 ≤ Zn ≤ Zn+1 quasi certamente: di conseguenza si ha anche che, a meno di un evento A
trascurabile, vale
0 ≤ Zn ≤ Zn+1 , ∀n ∈ N.
Definiamo
Z(ω) = sup Zn (ω), ω ∈ Ω \ A,
n∈N
e Z = 0 su A. Allora Z ∈ mG essendo limite puntuale di v.a. in mG . Inoltre, sia W limitata e G -misurabile:

a meno di considerare separatamente parte positiva e negativa, non è restrittivo considerare W ≥ 0. Per il
Teorema di Beppo-Levi, si ha
E [XW ] = lim E [Xn W ] = lim E [Zn W ] = E [ZW ] .

n→∞ n→∞
Osservazione 5.2.2. [!] Per il secondo Teorema di Dynkin (Teorema A.1.8), la proprietà ii) del Teorema
5.2.1 equivale alla seguente proprietà, in generale più semplice da verificare:
ii-b) vale
E [Z1G ] = E [X1G ]
per ogni G ∈ A , dove A è una famiglia ∩-chiusa tale che σ (A ) = G .
Definizione 5.2.3 (Attesa condizionata). Siano X ∈ L1 (Ω, F , P ) e G una sotto-σ -algebra di F . Se Z
soddisfa le proprietà i) e ii) del Teorema 5.2.1 allora scriviamo
Z = E [X | G ] (5.2.3)
e diciamo che Z è una versione dell’attesa condizionata di X a G . In particolare, se G = σ (Y ) con Y v.a. su

(Ω, F , P ), scriviamo
Z = E [X | Y ]
invece di Z = E [X | σ (Y )].
Osservazione 5.2.4. [!] La (5.2.3) non è da intendersi come un’equazione, ossia come un’identità fra i membri
a destra e a sinistra dell’uguaglianza: al contrario, essa è una notazione, un simbolo che indica che Z gode
delle proprietà i) e ii) del Teorema 5.2.1 (e quindi è una versione dell’attesa condizionata di X a G ). L’attesa
condizionata è definita implicitamente, mediante le proprietà i) e ii), a meno di eventi trascurabili di G : in
altri termini se Z = E [X | G ] e Z ′ differisce da Z su un evento trascurabile di G , allora anche Z ′ = E [X | G ].
Per questo motivo si parla di versione dell’attesa condizionata, anche se nel seguito per semplicità diremo
impropriamente che Z è attesa condizionata di X a G . Però attenzione: se Z = E [X | G ] e Z ′ = Z q.c., non
è detto che Z ′ = E [X | G ]. Si tratta di una sottigliezza a cui si deve porre attenzione: modificando Z su un
evento C trascurabile ma tale che C < G si può perdere la proprietà di G -misurabilità.
Convenzione 5.2.5. [!] Nel seguito sarà utile considerare uguaglianze di attese condizionate. Per evitare
ambiguità useremo la seguente convenzione: se H ⊆ G la scrittura
E [X | H ] = E [X | G ]
significa che se Z = E [X | H ] allora Z = E [X | G ] (tuttavia può esistere una versione Z ′ di E [X | G ] che non
è attesa di X condizionata a H poiché Z ′ ∈ mG \ mH ). Si noti che le notazioni E [X | H ] = E [X | G ] e
E [X | G ] = E [X | H ] non sono equivalenti a meno che non sia H = G .
Osservazione 5.2.6. [!] Ci si può chiedere perché non si definisca l’attesa condizionata come classe di equi-
valenza, identificando le funzioni (variabili aleatorie) che sono uguali quasi certamente come si è soliti fare
nella teoria dell’analisi funzionale. Certamente la presentazione risulterebbe più elegante e si eviterebbe di
dover menzionare continuamente la versione (ossia il rappresentante della classe di equivalenza) dell’attesa
condizionata. Vorrei cercare di chiarire questa questione che è discussa anche nell’introduzione del libro di
Williams [76]. Anzitutto occorre considerare il fatto che l’identificazione per classi di equivalenza dipende
dalla misura di probabilità fissata: mentre in analisi funzionale la struttura di spazio misurabile è general-
mente fissata una volta per tutte, in teoria della probabilità è normale lavorare contemporaneamente con
diverse misure e σ -algebre. Di più, la situazione tipica è quella in cui tali misure, anche se definite sulla
stessa σ -algebra, non sono equivalenti (ossia non hanno gli stessi eventi trascurabili e certi): si pensi al caso
di una probabilità P e della probabilità condizionata P (· | B) con 0 < P (B) < 1 per la quale P (Bc | B) = 0. La
situazione si complica ulteriormente nella teoria dei processi stocastici in cui si considerano famiglie non
numerabili di σ -algebre e di misure di probabilità: in questo ambito, la definizione di variabile aleatoria
come classe di equivalenza semplicemente non è utilizzabile.
Osservazione 5.2.7. [!] Siano X, Y ∈ L2 (Ω, P ) e Z = E [X | Y ]. Allora
E [X − Z] = 0, cov (X − Z, Y ) = 0, (5.2.4)
ossia X − Z ha media nulla ed è scorrelata da Y . La prima equazione segue dalla (5.2.2) con W = 1. Per la
seconda si ha
cov (X − Z, Y ) = E [(X − Z)Y ] − E [X − Z] E [Y ] = 0
poiché E [(X − Z)Y ] = 0 per la4 (5.2.1) con W = Y .
Esempio 5.2.8. [!] Consideriamo un vettore aleatorio normale bidimensionale (X, Y ) ∼ Nµ,C con
σX2
!
σXY
µ = (eX , eY ), C= ≥ 0.
σXY σY2
Proviamo che esistono a, b ∈ R tali che aY + b = E [X | Y ]. Se aY + b = E [X | Y ] allora a, b sono determinati

univocamente dalle equazioni in (5.2.4) che qui diventano
E [aY + b] = E [X] , cov (X − (aY + b), Y ) = 0.
Quindi
aeY + b = eX , aσY2 = σXY
da cui, supposto σY , 0,
σXY σXY
a= , b = eX − eY ,
σY2 σY2
che fornisce un’ulteriore interpretazione della retta di regressione vista nella Sezione 3.2.9. D’altra parte,
se a, b sono determinate in questo modo allora Z := aY + b = E [X | Y ] poiché:
i) chiaramente Z ∈ mσ (Y );
ii) X − Z e Y hanno distribuzione congiunta normale (poiché è (X − Z, Y ) è funzione lineare di (X, Y )) e

quindi non sono solo scorrelate ma anche indipendenti (cfr. Proposizione 3.5.18). Di conseguenza,
per ogni W ∈ mσ (Y ) (che quindi è indipendente da X − Z), si ha
E [(X − Z)W ] = (E [X] − E [Z]) E [W ] = 0.
Dunque la distribuzione multi-normale ha la notevole proprietà di avere le distribuzioni marginali (µX e µY ) e le

distribuzioni marginali condizionate (ossia µX|Y ) che sono ancora normali.
Nella prova del Teorema 5.2.1 abbiamo dimostrato anche il risultato seguente:
Corollario 5.2.9. Siano X ∈ mF + e G una sotto-σ -algebra di F . Esiste una v.a. Z che soddisfa le seguenti
proprietà:
i) Z ∈ mG + ;
ii) per ogni v.a. W ∈ mG + , vale

E [ZW ] = E [XW ] .
Inoltre se Z ′ verifica i) e ii) allora Z = Z ′ quasi certamente.
Il Corollario 5.2.9 permette di estendere la Definizione 5.2.3 di attesa condizionata alle v.a. integrabili
(non necessariamente sommabili).
4 Più precisamente, si veda la (5.2.2).
5.2.1 Proprietà dell’attesa condizionata

In questa sezione proviamo alcune proprietà dell’attesa condizionata. Consideriamo due v.a. reali X, Y ∈
L1 (Ω, F , P ) e G , H sotto-σ -algebre di F .
Teorema 5.2.10. Valgono le seguenti proprietà:
1) (Formula della probabilità totale)

E [X] = E [E [X | G ]] . (5.2.5)
2) Se X ∈ mG allora
X = E [X | G ] .
3) Se X e G sono indipendenti allora

E [X] = E [X | G ] .
4) (Linearità) per ogni a ∈ R si ha
aE [X | G ] + E [Y | G ] = E [aX + Y | G ] .
5) (Monotonia) Se P (X ≤ Y ) = 1 allora
E [X | G ] ≤ E [Y | G ] ,
nel senso che se Z = E [X | G ] e W = E [Y | G ] allora P (Z ≤ W ) = 1.
6) Se X è G -misurabile e limitata, si ha
XE [Y | G ] = E [XY | G ] . (5.2.6)
7) (Proprietà della torre) Se H ⊆ G , si ha5
E [E [X | G ] | H ] = E [X | H ] .
8) (Teorema di Beppo-Levi) Se 0 ≤ Xn ↗ X allora
lim E [Xn | G ] = E [X | G ] .
n→∞
9) (Lemma di Fatou) Se (Xn )n∈N è una successione di v.a. in mF + , allora

E lim inf Xn | G ≤ lim inf E [Xn | G ] .
n→∞ n→∞
10) (Teorema della convergenza dominata) Se (Xn )n∈N è una successione che converge q.c. a X e vale
|Xn | ≤ Y ∈ L1 (Ω, P ) q.c. per ogni n ∈ N, allora si ha
lim E [Xn | G ] = E [X | G ] .
n→∞
11) (Disuguaglianza di Jensen) Se ϕ è una funzione convessa tale che ϕ(X) ∈ L1 (Ω, P ), si ha
ϕ (E [X | G ]) ≤ E [ϕ(X) | G ] .
5 Vale anche
E [X | H ] = E [E [X | H ] | G ]
che segue direttamente dalla proprietà 2) e dal fatto che E [X | H ] ∈ mG poiché H ⊆ G .
12) Per ogni p ≥ 1 si ha

∥E [X | G ]∥p ≤ ∥X∥p .
13) (Lemma di freezing) Siano G , H indipendenti, X ∈ mG e f = f (x, ω) ∈ m (B ⊗ H ) tale che f (X, ·) ∈

L1 (Ω, P ) oppure f ≥ 0. Allora si ha
E [f (X, ·) | G ] = F(X) dove F(x) := E [f (x, ·)] , (5.2.7)
o, con una scrittura più compatta,
E [f (X, ·) | G ] = E [f (x, ·)] |x=X .
14) (CHF condizionata e indipendenza) X e G sono indipendenti se e solo se

h i h i
E eiηX | G = E eiηX , η ∈ R,
ossia se la CHF ϕX e la CHF condizionata ϕX|G coincidono.
15) Se Z = E [X | G ] e Z ∈ mH con H ⊆ G allora Z = E [X | H ].
Dimostrazione. 1) Basta porre W = 1 nella (5.2.1).
2) Segue direttamente dalla definizione.
3) La v.a. costante Z := E [X] è chiaramente G -misurabile (perché σ (Z) = {∅, Ω}) e inoltre, per ogni v.a.
W ∈ mG limitata, per l’ipotesi di indipendenza vale
E [XW ] = E [X] E [W ] = E [E [X] W ] = E [ZW ] .
Questo prova che Z = E [X | G ].
4) Si tratta di dimostrare che se Z = E [X | G ] e W = E [Y | G ], nel senso che verificano le proprietà i) e ii)

del Teorema 5.2.1, allora aZ + W = E [aX + Y | G ]. È una semplice verifica lasciata per esercizio.
5) Questa proprietà è provata nella prima parte della dimostrazione del Teorema 5.2.1.
6) Sia Z = E [Y | G ]. Dobbiamo provare che XZ = E [XY | G ]:
i) X ∈ mG per ipotesi e quindi XZ ∈ mG ;

ii) data W ∈ mG limitata, si ha che anche XW ∈ mG limitata e quindi
E [(XZ)W ] = E [Z(XW )] =
(poiché Z = E [Y | G ])
= E [Y (XW )] = E [(XY )W )]
da cui la tesi.
7) Sia Z = E [X | H ]. Dobbiamo provare che Z = E [E [X | G ] | H ]. Per definizione
i) Z ∈ mH ;
ii) data W ∈ mH limitata, si ha
E [ZW ] = E [XW ] .
D’altra parte, se W ∈ mH allora W ∈ mG poiché H ⊆ G , e quindi
E [E [X | G ] W ] = E [XW ] .
Allora E [ZW ] = E [E [X | G ] W ] da cui la tesi.

8) Poniamo Yn := E [Xn | G ], n ≥ 1. Per la monotonia dell’attesa condizionata, 0 ≤ Yn ≤ Yn+1 q.c. e quindi
esiste q.c.
Y := lim E [Xn | G ] ,
n→∞
con Y ∈ mG +perché limite puntuale di v.a. G -misurabili. Inoltre, per ogni W ∈ mG + , si ha 0 ≤
Yn W ↗ Y W e 0 ≤ Xn W ↗ XW q.c.; quindi per il Teorema di Beppo-Levi si ha
E [Y W ] = lim E [Yn W ] = lim E [Xn X] = E [XW ] ,

n→∞ n→∞
che prova la tesi.

9)-10)-11) La dimostrazione è sostanzialmente analoga al caso deterministico.
12) Segue facilmente dalla disuguaglianza di Jensen con ϕ(x) = |x|p .
13) Sia M la famiglia delle funzioni f ∈ b(B⊗H ) che verificano la (5.2.7): M è una famiglia monotona di
funzioni (cfr. Definizione A.1.7), come si dimostra facilmente utilizzando il Teorema di Beppo-Levi
per l’attesa condizionata. Inoltre, la (5.2.7) vale per le funzioni della forma f (x, ω) = g(x)Y (ω) con
g ∈ bB e Y ∈ bH : infatti in questo caso si ha F(x) = g(x)E [Y ] e, per la proprietà (5.2.6),
E [g(X)Y | G ] = g(X)E [Y | G ] = g(X)E [Y ] = F(X).
Allora la tesi segue dal secondo Teorema di Dynkin (Teorema A.1.8).

14) Per ogni Y ∈ mG e η1 , η2 ∈ R, si ha
h i
ϕ(X,Y ) (η1 , η2 ) = E eiη1 X eiη2 Y =
(per definizione di attesa condizionata)

h h i i
= E E eiη1 X | G eiη2 Y =
(per ipotesi)
h i h i
= E eiη1 X E eiη2 Y = ϕX (η1 )ϕY (η2 )
e la tesi segue dalla Proposizione 3.5.11-ii).

15) È un semplice esercizio.
Una conseguenza immediata del punto 13) del Teorema 5.2.10 è la seguente versione particolare del
Lemma di freezing di cui diamo una dimostrazione alternativa più semplice.
Lemma 5.2.11 (Lemma di freezing). Sia G una sotto-σ -algebra di F . Se X ∈ mG , Y è una v.a. indipendente
da G e f ∈ mB2 è tale che f (X, Y ) ∈ L1 (Ω, P ), allora si ha
E [f (X, Y ) | G ] = F(X) dove F(x) := E [f (x, Y )] , (5.2.8)
o, con una scrittura più compatta,
E [f (X, Y ) | G ] = E [f (x, Y )] |x=X .

Dimostrazione. Per il teorema di Fubini la funzione F in (5.2.8) è Borel misurabile e quindi F(X) ∈ mG .
Inoltre Y è indipendente da (W , X) per ogni W ∈ bG : allora si ha
Z
E [W f (X, Y )] = wf (x, y)µ(W ,X,Y ) (dw, dx, dy) =
R3
(per indipendenza)
Z
= wf (x, y)µ(W ,X) ⊗ µY (dw, dx, dy) =
R3
(per il teorema di Fubini)

Z Z !
= w f (x, y)µY (dy) µ(W ,X) (dw, dx)
2
ZR R
= wF(x)µ(W ,X) (dw, dx) = E [W F(X)]

R2
da cui la tesi.
Esempio 5.2.12. [!] Riprendiamo l’Esempio 3.5.4 e consideriamo N e Z1 , Z2 , . . . v.a. indipendenti con
N ∼ Poissonλ e Zn identicamente distribuite per n ∈ N. Calcoliamo la CHF di



0 se N = 0,
N
X :=  P
 Zk

 se N ≥ 1.
k=1
Si ha
N 
h i Y 
ϕX (η) = E eiηX = E  eiηZk  =
k=1
(per la formula della probabilità totale (5.2.5))

 N 
 Y  N
= E E  eiηZk | N  = E ϕZ1 (η)
k=1
dove nell’ultimo passaggio abbiamo utilizzato il Lemma di freezing e il fatto che, per l’indipendenza delle
v.a. Zk , si ha
 n 
Y 
E  e k  = ϕZ1 (η)n ,
iηZ
n ∈ N.
k=1
Allora si ha X λn
ϕX (η) = e−λ ϕZ1 (η)n = eλ(ϕZ1 (η)−1)
n!
n≥0
dove ϕZ1 indica la CHF di Z1 .
Esempio 5.2.13. Siano X, Y , U , V v.a. indipendenti con X, Y ∼ N0,1 e U 2 + V 2 , 0 q.c. Proviamo che
XU + Y V
Z := √ ∼ N0,1 .
U2 + V 2
Infatti si ha
iη √XU +Y V
" #
ϕZ (η) = E e U 2 +V 2 =
(per la formula della probabilità totale (5.2.5))

" " XU +Y V ##
iη √
2 +V 2
=E E e U | (U , V ) =
(per il Lemma di freezing e l’Esempio 3.5.16)

" 2#
η η2
= E e− 2 = e− 2
da cui segue la tesi.
5.2.2 Funzione attesa condizionata

In questa sezione consideriamo il caso G = σ (Y ) con Y v.a. su (Ω, F , P ) a valori in uno spazio misurabile
(E, E ). In analogia con l’Osservazione 5.1.11, diamo una definizione alternativa di attesa condizionata come
funzione.
Sia X ∈ L1 (Ω, F , P ) a valori in Rd . Se Z = E [X | Y ] allora Z ∈ mσ (Y ) e quindi, per il Teorema 3.3.3
di Doob, esiste (e in generale non è unica) una funzione Φ ∈ mE tale che Z = Φ(Y ): per fissare le idee, si
osservi il grafico seguente
E [X | Y ]
(Ω, F ) Rd , Bd
Y Φ
(E, E )
Definizione 5.2.14 (Funzione attesa condizionata). Sia

Φ : (E, E ) −→ Rd , Bd
una funzione tale che

i) Φ ∈ mE ;
ii) Φ(Y ) = E [X | Y ].
Allora diciamo che Φ è una versione della funzione attesa condizionata di X a Y e scriviamo
Φ(y) = E [X | Y = y] . (5.2.9)
Osservazione 5.2.15. La scrittura E [X | Y = y] in (5.2.9) non indica l’attesa di X condizionata all’evento (Y =

y) nel senso della Definizione 2.3.2. Infatti tale definizione richiede che (Y = y) non sia trascurabile mentre
in (5.2.9) Y è una v.a. generica: per esempio, se Y è una v.a. reale assolutamente continua allora l’evento
(Y = y) ha probabilità nulla per ogni y ∈ R. Pertanto la (5.2.9) non è da intendersi come un’equazione e
non identifica univocamente Φ: si tratta di una notazione per indicare che Φ è una qualsiasi funzione che
verifica le due proprietà i) e ii) della Definizione 5.2.14. In altri termini, una funzione misurabile Φ è una
versione della funzione attesa condizionata di X a Y se e solo se la variabile aleatoria Φ(Y ) è una versione
dell’attesa condizionata di X a Y .
In definitiva, l’attesa condizionata a σ (Y ) può essere interpretata come variabile aleatoria oppure co-
me funzione: i due punti di vista sono sostanzialmente equivalenti e la scelta di quale adottare dipende
generalmente dal contesto.
Esempio 5.2.16. Nell’Esempio 5.2.8 abbiamo visto che se (X, Y ) ha distribuzione normale bidimensionale
allora esistono a, b ∈ R tali che ay + b = E [X | Y = y], ossia la funzione lineare Φ(y) = ay + b è una versione
della funzione attesa condizionata di X a Y .
Se f ∈ bBd e Y una v.a. in Rd , allora
f (y) = E [f (Y ) | Y = y] , y ∈ Rd .
5.2.3 Least Square Monte Carlo

Per quanto visto nella dimostrazione del Teorema 5.2.1, nello spazio delle variabili aleatorie di quadra-
to sommabili, l’attesa condizionata si può definire come proiezione ortogonale e quindi si esprime come
soluzione di un problema ai minimi quadrati. Precisamente vale la seguente
Proposizione 5.2.17 (Caratterizzazione dell’attesa condizionata in L2 ). Sia Z = E [X | G ] con X ∈ L2 (Ω, F , P )

e G sotto-σ -algebra di F . Allora vale
h i h i
E |X − Z|2 ≤ E |X − W |2 , W ∈ L2 (Ω, G , P ). (5.2.10)
h i h i
E |X − W |2 | G = E |X − Z + Z − W |2 | G
h i h i
= E |X − Z|2 | G + E |Z − W |2 | G + 2E [⟨X − Z, Z − W ⟩ | G ] =
(essendo Z − W ∈ mG e per la (5.2.6))

h i
= E |X − Z|2 | G + |Z − W |2 + 2⟨E [X − Z | G ] , Z − W ⟩ =
(essendo E [X − Z | G ] = 0)
h i h i
= E |X − Z|2 | G + |Z − W |2 ≥ E |X − Z|2 | G .
Applicando il valore atteso si ottiene la (5.2.10).
Assegnata una funzione Borel-misurabile F tale che F(X, Y ) ∈ L2 (Ω, F , P ), un problema classico è quello
del calcolo dell’attesa condizionata
E [F(X, Y ) | Y ]
a partire dalla conoscenza della legge congiunta di X e Y . Il problema si riconduce al calcolo di una
versione Φ della funzione attesa condizionata, ossia Φ(y) = E [F(X, Y ) | Y = y]: per la (5.2.10) si ha6
h i h i
E |F(X, Y ) − Φ(Y )|2 = min E |F(X, Y ) − f (Y )|2 .
f ∈L2 (Rn ,Bn ,µY )
In altri termini, determinare Φ equivale a risolvere il problema ai minimi quadrati

h i
Φ = arg min E |F(X, Y ) − f (Y )|2 . (5.2.11)
f ∈L2 (Rn ,Bn ,µY )
6 Si ricordi che, per il teorema di Doob, ogni W ∈ L2 (Ω, σ (Y ), P ) si esprime nella forma W = f (Y ) per una certa f ∈ L2 (Rn , B , µ ).
n Y
A volte questo problema può essere risolto in modo esatto: è il caso dell’Esempio 5.2.8, in cui F(x, y) =
x e (X, Y ) ∼ Nµ,C . Spesso tuttavia è necessario ricorrere a metodi numerici. Nel caso in cui X, Y siano
indipendenti allora per il Lemma di freezing si ha semplicemente Φ(y) = E [F(X, y)], y ∈ R: quindi per
determinare Φ è sufficiente calcolare un valore atteso e ciò può essere fatto numericamente col metodo
Monte Carlo. Più in generale, esiste un’estensione di tale metodo, detta Least Square Monte Carlo (LSMC),
che è basata su una regressione multi-lineare del tipo visto nella Sezione 3.2.9.
Vediamo come si procede nel caso uno-dimensionale: consideriamo una base di L2 (R, B, µY ), per esem-
pio le funzioni polinomiali βk (y) := y k con k = 0, 1, 2, . . . , e fissato n ∈ N, poniamo
β = (β0 , β1 , . . . , βn ).
Approssimiamo in dimensione finita il problema (5.2.11) cercando una soluzione λ̄ ∈ Rn+1 di

2
min E ⟨β(Y ), λ⟩ − F(X, Y ) . (5.2.12)
λ∈Rn+1
Una volta determinato λ̄, l’approssimazione della funzione attesa condizionata in (5.2.11) è data da
Φ(y) ≃ ⟨β(y), λ̄⟩.
Risolviamo il problema (5.2.12) approssimando il valore atteso con il metodo Monte Carlo. Costruiamo
due vettori x, y ∈ RM le cui componenti sono ottenute simulando M valori delle variabili X e Y , con M
sufficientemente grande. Per fissare le idee, M può essere dell’ordine di 105 o maggiore, mentre al contrario
è sufficiente che il numero di elementi della base n sia piccolo, dell’ordine di qualche unità (per maggiori
dettagli si veda, per esempio, [30] o la monografia [29]). Posto
M
X 2
Q(λ) := ⟨β(yk ), λ⟩ − F(xk , yk ) , λ ∈ Rn+1 ,
k=1
il valore atteso in (5.2.12) è approssimato da
Q(λ)
2
≈ E ⟨λ, β(Y )⟩ − F(X, Y ) , M ≫ 1.
M
Come nella Sezione 3.2.9, essendo Q una funzione quadratica di λ, il minimo si determina imponendo
∇Q(λ) = 0. In notazioni vettoriali si ha
Q(λ) = |Bλ − F|2
dove B = (bki ) con bki = βi (yk ) e F = (F(xk , yk )) per k = 1, . . . , M e i = 0, . . . , n. Quindi
∇Q(λ) = 2B∗ (Bλ − F)
e imponendo la condizione ∇Q(λ) = 0, nel caso la matrice B∗ B sia invertibile, si ottiene
λ̄ = (B∗ B)−1 B∗ F.
Il calcolo di λ̄ richiede l’inversione della matrice B∗ B che ha dimensione (n+1)×(n+1), da cui l’importanza
di mantenere n piccolo. Notiamo che invece B è una matrice di grandi dimensioni, M × (n + 1).
Come esempio, in Figura 5.2 mostriamo il grafico delle prime quattro approssimazioni LSMC, con base
polinomiale, della funzione attesa condizionata a Y
2
Φ(y) = E [F(X, Y ) | Y = y] , F(x, y) = max{1 − ex y , 0},
con (X, Y ) normale bidimensionale con media nulla, deviazioni standard σX = 0.8, σY = 0.5 e correlazione
ϱ = −0.7.
5.3. PROBABILITÀ CONDIZIONATA 203
-1
-1 0 1 2
Figura 5.2: Approssimazioni LSMC.
5.3 Probabilità condizionata

Siano (Ω, F , P ) uno spazio di probabilità e G una sotto-σ -algebra di F . Per ogni A ∈ F fissiamo una
versione ZA = E [1A | G ] dell’attesa di 1A condizionata a G . Sembrerebbe naturale definire la probabilità
condizionata a G ponendo
Pω (A | G ) = ZA (ω), ω ∈ Ω. (5.3.1)
In realtà, poiché ZA è determinata a meno di un evento P -trascurabile che dipende da A, non è detto (e in
generale non è vero) che Pω (· | G ) cosı̀ definita sia una misura di probabilità per ogni ω ∈ Ω.
Definizione 5.3.1 (Versione regolare della probabilità condizionata). Nello spazio (Ω, F , P ), una versio-
ne regolare della probabilità condizionata a G è una famiglia P (· | G ) = Pω (· | G ) di misure di probabilità
ω∈Ω
su (Ω, F ) tale che, per ogni A ∈ F fissato, vale P (A | G ) = E [1A | G ] ossia
i) P (A | G ) è una v.a. G -misurabile;
ii) per ogni W ∈ bG vale
E [W P (A | G )] = E [W 1A ] .
L’esistenza di una versione regolare della probabilità condizionata è un problema tutt’altro che banale:
in [18], [19] p.624, [32] p.210, sono dati esempi di non esistenza. Condizioni su (Ω, F , P ) sufficienti7
a garantire l’esistenza di una versione regolare della probabilità condizionata sono state fornite da vari
autori: il risultato più classico al riguardo è il seguente Teorema 5.3.2. Ricordiamo che uno spazio polacco è
uno spazio metrico separabile8 e completo.
Teorema 5.3.2. Sia P una misura di probabilità definita su (Ω, B) dove Ω è uno spazio polacco e B è la
relativa σ -algebra di Borel. Per ogni sotto-σ -algebra G di B, esiste una versione regolare della probabilità
condizionata P (· | G ).
Dimostriamo il Teorema 5.3.2 nel caso particolare in cui Ω = Rd (cfr. Teorema 5.3.4): per la dimo-
strazione generale si veda, per esempio, [72] p.13 oppure [19] p.380. L’idea è di sfruttare l’esistenza di
un sottoinsieme A numerabile e denso in Ω, per definire dapprima una famiglia di misure di probabilità
(Pω (· | G ))ω∈A che verifichi la (5.3.1) e poi provare la tesi per densità di A in Ω.
7 Il problema di fornire condizioni necessarie e sufficienti è complesso e in parte ancora aperto: al riguardo si veda [25].
8 Uno spazio metrico S si dice separabile se esiste un sottoinsieme numerabile e denso in S .
Esempio 5.3.3. Assumiamo esista P (· | G ). Se G ∈ G allora P (G | G ) assume solo i valori 0 e 1. Infatti si ha
P (G | G ) = E [1G | G ] = 1G .
Sia ora X una v.a. su (Ω, F , P ) a valori in Rd . Nel caso in cui esista una versione regolare P (· | G ) della
probabilità condizionata a G , si pone
µX|G (H) := P (X ∈ H | G ), H ∈ Bd .

Notiamo che, per definizione, µX|G = µX|G (·; ω) è una famiglia di distribuzioni in Rd e per questo
ω∈Ω
motivo è chiamata versione regolare della distribuzione di X condizionata a G .
Anche non assumendo l’esistenza di P (· | G ), possiamo comunque definire una versione regolare della
distribuzione di X condizionata a G basandoci sul concetto di attesa condizionata. È questo il contenuto
del seguente
Teorema 5.3.4 (Versione regolare della distribuzione condizionata). [!] In uno spazio di probabilità
(Ω, F , P ), siano X una v.a. a valori in Rd e G una sotto-σ -algebra di F . Allora esiste una famiglia µX|G =

µX|G (·; ω) di distribuzioni su Rd tali che, per ogni H ∈ Bd , valga9
ω∈Ω
h i
µX|G (H) = E 1(X∈H) | G . (5.3.2)
Diciamo che µX|G è una versione regolare della distribuzione di X condizionata a G .
Osservazione 5.3.5. [!] Anche se l’esistenza di una versione regolare P (· | G ) della probabilità condizionata a G
non è garantita in generale, tuttavia con un piccolo abuso di notazione scriveremo indifferentemente µX|G (H)
o P (X ∈ H | G ) per indicare una versione regolare della distribuzione di X condizionata a G .
La dimostrazione del Teorema 5.3.4 sfrutta in maniera cruciale il fatto che X sia a valori in Rd per
utilizzare la densità di Qd in Rd . Il risultato si estende al caso di X a valori in uno spazio metrico polacco, come
per esempio lo spazio delle funzioni continue C([a, b]; R) con la norma del massimo: per la trattazione
generale si veda, per esempio, il Teorema 1.1.6 in [72].
Notazione 5.3.6. Nel seguito spesso ometteremo di indicare la dipendenza da ω ∈ Ω e scriveremo µX|G
invece di µX|G (·; ω), interpretando µX|G come una “distribuzione aleatoria”. Se G = σ (Y ) dove Y è una
qualsiasi v.a. su (Ω, F , P ), scriveremo µX|Y invece di µX|σ (Y ) .
Esempio 5.3.7. [!] Se X ∈ mG allora µX|G = δX . Infatti la famiglia (δX(ω) )ω∈Ω gode delle seguenti proprietà:
i) ovviamente δX(ω) è una distribuzione su Rd per ogni ω ∈ Ω;
ii) per ogni H ∈ Bd vale
δX (H) = 1H (X) =
(poiché X ∈ mG per ipotesi)
= E [1H (X) | G ] .
9 La (5.3.2) significa che, per ogni H ∈ B , si ha
d
i) µX|G (H) è una v.a. G -misurabile;
ii) per ogni W ∈ bG vale h i h i
E W µX|G (H) = E W 1(X∈H) .
Teorema 5.3.8 (Teorema del calcolo della media). [!] In uno spazio di probabilità (Ω, F , P ), siano X una
v.a. a valori in Rd e G una sotto-σ -algebra di F . Se f ∈ mBd e f (X) ∈ L1 (Ω, P ) si ha
Z
f dµX|G = E [f (X) | G ] . (5.3.3)
Rd
Dimostrazione. La tesi si prova applicando la procedura standard dell’Osservazione 3.2.21, sfruttando la

linearità e il Teorema di Beppo-Levi per l’attesa condizionata. Basta considerare d = 1. Posto
Z
Z(ω) := f (x)µX|G (dx; ω), ω ∈ Ω,
R
dobbiamo provare che Z = E [f (X) | G ]. Ciò è vero per definizione (cfr. (5.3.2)) se f = 1H con H ∈ B.
Per linearità, la (5.3.3) si estende alle funzioni semplici. Inoltre, se f è a valori reali non-negativi, allora
si considera una successione approssimante 0 ≤ fn ↗ f di funzioni semplici e, applicando il Teorema di
Beppo-Levi prima nella versione classica10 e poi per l’attesa condizionata, si ha
Z Z
f dµX|G = lim fn dµX|G = lim E [fn (X) | G ] = E [f (X) | G ] .
R n→∞ R n→∞
Il caso di una f generica si tratta al solito separando la parte positiva e negativa e riutilizzando la linearità
dell’attesa condizionata.
Osservazione 5.3.9. [!] Il Teorema 5.3.8 chiarisce l’importanza del concetto di versione regolare della
distribuzione condizionata, poiché esso garantisce che l’integrale in (5.3.3) sia ben definito.
Esempio 5.3.10. Supponiamo che X ∼ NY ,1 dove Y ∼ Expλ con λ > 0 fissato. Allora per il Teorema 5.3.8
del calcolo della media si ha
(x−Y )2
Z
1
E [X | Y ] = x √ e− 2 dx = Y .
R 2π
Inoltre per la (5.2.5)
1
E [X] = E [E [X | Y ]] = E [Y ] =
λ
e
cov(X, Y ) = E [XY ] − E [X] E [Y ]

1
= E [E [XY | Y ]] − 2 =
λ
(per la (5.2.6))
1
= E [Y E [X | Y ]] −
λ2
h i 1 1
= E Y2 − 2 = 2.
λ λ
Teorema 5.3.11 (Formula della probabilità totale). [!] In uno spazio di probabilità (Ω, F , P ), siano X
una v.a. a valori in Rd e G una sotto-σ -algebra di F . Allora si ha
h i
µX = E µX|G . (5.3.4)
10 Qui utilizziamo il fatto che µ
X|G = µX|G (·; ω) è una distribuzione per ogni ω ∈ Ω.
Dimostrazione. Per definizione, per ogni H ∈ Bd si ha

h i h h ii h i
E µX|G (H) = E E 1(X∈H) | G = E 1(X∈H) = µX (H).
Esempio 5.3.12. Riprendiamo l’Esempio 5.3.10: per la (5.3.4), per ogni H ∈ B si ha

h i
µX (H) = E µX|Y (H)
"Z #
1 − (x−Y )2
=E √ e 2 dx =
H 2π

" #
(x−Y )2
Z Z
1 − 2
= √ E e dx = γ(x)dx
H 2π H
con +∞ (x−y)2
Z
1
γ(x) := √ e− 2 λe−λy dy
2π 0
che è quindi la densità di X.
Corollario 5.3.13. Siano X, Y v.a. su (Ω, F , P ), rispettivamente a valori in Rd e Rn . Allora si ha
h i
µ(X,Y ) (H × K) = E µX|Y (H)1(Y ∈K) , H ∈ Bd , K ∈ Bn , (5.3.5)
h i
ϕ(X,Y ) (η1 , η2 ) = E eiη2 ·Y ϕX|Y (η1 ) , η 1 ∈ Rd , η 2 ∈ Rn . (5.3.6)
La (5.3.5) mostra come si ricava la legge congiunta di X, Y a partire dalla legge condizionata µX|Y e dalla legge
marginale µY : infatti la v.a. µX|Y (H)1(Y ∈K) è funzione di Y e pertanto il valore atteso in (5.3.5) è calcolabile a
partire da µY . Analogamente la (5.3.6) mostra come si ricava la CHF congiunta di X, Y a partire dalla CHF
condizionata ϕX|Y e dalla legge marginale µY .
Dimostrazione del Corollario 5.3.13. Per definizione si ha
h i h h i i
E µX|Y (H)1(Y ∈K) = E E 1(X∈H) | Y 1(Y ∈K) =
(per la proprietà ii) del Teorema 5.2.1 con W = 1(Y ∈K) )

h i
= E 1(X∈H) 1(Y ∈K) = µ(X,Y ) (H × K).
Per quanto riguarda la (5.3.6), abbiamo

h i
ϕ(X,Y ) (η1 , η2 ) = E eiη1 ·X+iη2 ·Y
h h ii
= E E eiη1 ·X+iη2 ·Y | Y =
(per la (5.2.6))
h h ii
= E eiη2 ·Y E eiη1 ·X | Y
h i
= E eiη2 ·Y ϕX|Y (η1 ) .
Esempio 5.3.14. Riprendiamo l’Esempio 5.3.10: per la (5.3.6) si ha

η2 η12
" #
h
iη2 Y
i
iη2 Y iη1 Y − 21 λ
ϕ(X,Y ) (η1 , η2 ) = E e ϕX|Y (η1 ) = E e e = e− 2 .
λ − i(η1 + η2 )
Esempio 5.3.15. Data una v.a. bidimensionale (X, Y ), supponiamo che Y ∼ Unif[0,1] e µX|Y = ExpY . Provia-
mo che (X, Y ) è assolutamente continua e determiniamo la densità congiunta di X, Y e la densità marginale
di X. Un’immediata conseguenza della (5.3.5) è la seguente formula per la CDF congiunta: dati x ∈ R≥0 e
y ∈ [0, 1], si ha
h i
P ((X ≤ x) ∩ (Y ≤ y)) = E ExpY (] − ∞, x])1(Y ≤y)
h i
= E 1 − e−xY 1(Y ≤y)
Z y e−xy − 1 + xy
= 1 − e−xt dt = .
0 x
Ne segue che la CDF di (X, Y ) è




0 se (x, y) ∈ R<0 × R<0 ,
 e−xy −1+xy

F(X,Y ) (x, y) = 
 x se (x, y) ∈ R≥0 × [0, 1],
 e−x −1+x


x se (x, y) ∈ R≥0 × [1, +∞[.
Da ciò si ricava11 la densità congiunta
γ(X,Y ) (x, y) = ∂x ∂y F(x, y) = ye−xy 1R≥0 ×[0,1] (x, y).
Per la densità marginale, si ha
e−x (ex − 1 − x)
γX (x) = ∂x P (X ≤ x) = ∂x F(x, 1) = 1R≥0 (x).
x2
5.3.1 Funzione distribuzione condizionata

Teorema 5.3.16 (Versione regolare della funzione distribuzione condizionata). [!] In uno spazio di pro-
babilità (Ω, F , P ), siano X una v.a. a valori in Rd e Y una v.a. a valori in uno spazio misurabile (E, E ). Allora
esiste una famiglia (µ(·; y))y∈E di distribuzioni su Rd tale che, per ogni H ∈ Bd ,
i) la funzione y 7→ µ(H; y) è E -misurabile;
ii) µ(H, Y ) = P (X ∈ H | Y ) ossia12 , per ogni W ∈ bσ (Y ) si ha
h i
E [W µ(H; Y )] = E W 1(X∈H) .
Diciamo che (µ(·; y))y∈E è una versione regolare della funzione distribuzione di X condizionata a Y e scriviamo
µ(·; y) = µX|Y =y .
Dimostrazione. La prova è leggermente più sofisticata ma sostanzialmente analoga a quella del Teorema
5.3.4: per questo motivo non la riportiamo e rimandiamo a [37], Teorema 6.3, per i dettagli.
11 Si ricordi che
Zx Zy
F(x, y) = γ(X,Y ) (ξ, η)dξdη.
−∞ −∞
12 Si ricordi la notazione dell’Osservazione 5.3.5.
Osservazione 5.3.17. Se µ(·; y) = µX|Y =y allora (µX|Y (·; Y (ω)))ω∈Ω è una versione regolare della distribuzione
di X condizionata a Y nel senso del Teorema 5.3.4.
Esempio 5.3.18. Riprendiamo l’Esempio 5.3.7: se Y è una v.a. reale allora µY |Y = δY . In altri termini, la
distribuzione aleatoria δY è una versione regolare della distribuzione di Y condizionata ad Y .
Per esempio, se Y ∼ Unif[0,1] allora (δy )y∈R è una versione regolare della funzione distribuzione di Y
condizionata a Y . In realtà sarebbe sufficiente definire la versione regolare solo per y ∈ E = [0, 1]: il valore
assunto fuori da [0, 1] è irrilevante poiché Y assume valori in [0, 1] q.c.
Nell’Esempio 5.3.15, ExpY = µX|Y ossia ExpY è una versione regolare della distribuzione di X condizio-
nata a Y ∼ Unif[0,1] : equivalentemente (Expy )y∈[0,1] è una versione regolare della funzione distribuzione di
X condizionata a Y .
Ricordiamo la notazione (5.2.9), E [X | Y = y], per indicare la funzione attesa di X condizionata a Y . Vale
il seguente risultato analogo al Teorema 5.3.8.
Teorema 5.3.19 (Teorema del calcolo della media). In uno spazio di probabilità (Ω, F , P ), siano X una v.a.
a valori in Rd e Y una v.a. a valori in uno spazio misurabile (E, E ). Per ogni f ∈ mBd tale che f (X) ∈ L1 (Ω, P )
si ha Z
f dµX|Y =y = E [f (X) | Y = y] .
Rd
5.3.2 Dalla legge congiunta alle marginali condizionate: il caso assolutamente con-
tinuo
Abbiamo visto nel Corollario 5.3.13 come ricavare la distribuzione congiunta a partire dalle marginali
condizionate. In questa sezione consideriamo un vettore aleatorio (X, Y ) in Rd × R, assolutamente continuo
con densità γ(X,Y ) e ricaviamo l’espressione della densità marginale condizionata γX|Y .
Ricordiamo che, per il Teorema di Fubini,
Z
γY (y) := γ(X,Y ) (x, y)dx, y ∈ R, (5.3.7)
Rd
è una13 densità di Y e l’insieme

(γY > 0) := {y ∈ R | γY (y) > 0}
appartiene a B. Il seguente risultato fornisce la versione continua della formula (5.1.9).
Proposizione 5.3.20. [!] Sia (X, Y ) ∈ AC un vettore aleatorio con densità γ(X,Y ) . Allora la funzione
γ(X,Y ) (x, y)
γX|Y (x, y) := , x ∈ Rd , y ∈ (γY > 0), (5.3.8)
γY (y)
è una versione regolare della densità di X condizionata a Y nel senso che la famiglia (µ(·; y))y∈(γY >0) definita
da Z
µ(H; y) := γX|Y (x, y)dx, H ∈ Bd , y ∈ (γY > 0), (5.3.9)
H
è una versione regolare della funzione distribuzione di X condizionata a Y . Di conseguenza, per ogni f ∈
mBd tale che f (X) ∈ L1 (Ω, P ) vale
Z
f (x)γX|Y (x, y)dx = E [f (X) | Y = y] (5.3.10)
Rd
o equivalentemente Z
f (x)γX|Y (x, Y )dx = E [f (X) | Y ] . (5.3.11)
Rd
13 Ricordiamo (cfr. Osservazione 2.4.19) che la densità di una v.a. è definita a meno di insiemi di Borel di misura nulla secondo
Lebesgue.
Osservazione 5.3.21. [!] Segue dalla (5.3.8) la formula
γ(X,Y ) (x, y) = γX|Y (x, y)γY (y)
che esprime la densità congiunta come prodotto della marginale γY per la marginale condizionata γX|Y . Si
generalizza cosı̀ la formula
γ(X,Y ) (x, y) = γX (x)γY (y)
valida sotto la restrittiva ipotesi che X, Y siano indipendenti.
Esempio 5.3.22. Sia (X, Y ) un vettore aleatorio con distribuzione uniforme su
S = {(x, y) ∈ R2 | x > 0, y > 0, x2 + y 2 < 1}.
Determiniamo:
i) la distribuzione condizionata µX|Y ;
ii) E [X | Y ] e var(X | Y );
iii) la densità della v.a. E [X | Y ].
i) La densità congiunta è
4
γ(X,Y ) (x, y) = 1 (x, y)
π S
e la marginale di Y è p
4 1 − y2
Z
γY (y) = γ(X,Y ) (x, y)dx = 1]0,1[ (y).
R π
Allora
γ(X,Y ) (x, y) 1
γX|Y (x, y) = =p 1 √ 2 (x), y ∈ ]0, 1[,
γY (y) 1 − y 2 [0, 1−y ]
da cui riconosciamo che
µX|Y = Unif[0,√1−Y 2 ] . (5.3.12)
ii) Per la (5.3.12) si ha √

1−Y2 1−Y2
E [X | Y ] = , var(X | Y ) = .
2 12
In alternativa, in base alla (5.3.10) della Proposizione 5.3.20 si ha, per y ∈ ]0, 1[,
p
1 − y2
Z
E [X | Y = y] = xγX|Y (x, y)dx = ,
R 2
Z  p 2
 1 − y 2  1 − y2
var (X | Y = y) = x −
  γX|Y (x, y)dx = .
R 2  12
√
2
iii) Infine per determinare la densità della v.a. Z = 1−Y
2 utilizziamo la CDF: si ha P (Z ≤ 0) = 0, P (Z ≤
1/2) = 1 e per 0 < z < 1/2 vale
√
P (Z ≤ z) = P 1 − Y 2 ≤ 2z

= P Y 2 ≥ 1 − 4z2
√
= P Y ≥ 1 − 4z2
Z √1−4z2 p
4 1 − y2
= 1− dy.
0 π
Derivando otteniamo la densità di Z:

32z2
γZ (z) = √ 1]0,1/2[ (z).
π 1 − 4z2
Corollario 5.3.23 (Formula della probabilità totale per la densità). Sia (X, Y ) ∈ AC un vettore aleatorio
con densità γ(X,Y ) . Vale
h i
γX = E γX|Y (·, Y ) . (5.3.13)
Dimostrazione. Per ogni f ∈ bB si ha
E [f (X)] = E [E [f (X) | Y ]] =
(per la (5.3.11))
"Z #
=E f (x)γX|Y (x, Y )dx =
Rd

Z h i
= f (x)E γX|Y (x, Y ) dx
Rd
e questo prova la tesi, data l’arbitrarietà di f .
Esempio 5.3.24. Siano X, Y v.a. reali. Supponiamo Y ∼ Expλ , con λ > 0, e che la densità di X condizionata
a Y sia di tipo esponenziale:
γX|Y (x, y) = ye−xy 1[0,+∞[ (x),
ossia µX|Y = ExpY . Determiniamo la densità di X: utilizzando la (5.3.13) si ha
h i
γX (x) = E Y e−xY 1[0,+∞ (x)
Z +∞
= ye−xy λe−λy dy1[0,+∞ (x)
0
λ
= 1[0,+∞ (x).
(x + λ)2
Si noti che X < L1 (Ω, P ).
Esempio 5.3.25. Riprendiamo l’Esempio 5.2.8 e consideriamo un vettore aleatorio normale bidimensionale
(X, Y ) ∼ Nµ,C con
σX2 σXY
!
µ = (µ1 , µ2 ), C= > 0.
σXY σY2
Determiniamo:
i) la funzione caratteristica ϕX|Y e la distribuzione µX|Y di X condizionata a Y ;
ii) E [X | Y ].
i) La densità di X condizionata a Y è
γ(X,Y ) (x, y)
γX|Y (x, y) = , (x, y) ∈ R2 ,
γY (y)
da cui, con qualche calcolo, si trova

h i
ϕX|Y (η1 , Y ) = E eiη1 X | Y
Z
= eiη1 x γX|Y (x, Y )dx
R
σ2
! !
σXY
iη1 µ1 +(Y −µ2 ) − 21 η12 σX2 − XY
σY2 2
σY
=e ,
ossia
µX|Y = N σXY
2
σXY . (5.3.14)
µ1 +(Y −µ2 ) ,σX2 −
σY2 σY2
ii) Da (5.3.14) si ha
σXY
E [X | Y ] = µ1 + (Y − µ2 ) (5.3.15)
σY2
in accordo con quanto visto nell’Esempio 5.2.8. Lo stesso risultato si ottiene con la (5.3.10), calcolando
Z
σ
E [X | Y = y] = xγX|Y (x, y)dx = µ1 + (y − µ2 ) XY .
R σY2
Esempio 5.3.26. Sia (X1 , X2 , X3 ) un vettore aleatorio con distribuzione normale Nµ,C dove
 
1 1 0
µ = (0, 1, 0) , C = 1 2 1 .
 
0 1 3
 
Per determinare
E [(X1 , X2 , X3 ) | X3 ] ,
anzitutto osserviamo che (X1 , X3 ) ∼ N(0,0),C2 e (X2 , X3 ) ∼ N(1,0),C1 dove
! !
1 0 2 1
C2 = , C1 = .
0 3 1 3
Ricordando il Teorema 5.2.10-3) e osservando che X1 e X3 sono indipendenti poiché cov(X1 , X3 ) = 0,

abbiamo che E [X1 | X3 ] = E [X1 ] = 0. Inoltre, per la (5.3.15),
X3
E [X2 | X3 ] = 1 + .
3
Infine, ancora per Teorema 5.2.10-2), si ha E [X3 | X3 ] = X3 . In definitiva
X3

E [(X1 , X2 , X3 ) | X3 ] = E [X1 | X3 ] , E [X2 | X3 ] , E [X3 | X3 ] = 0, 1 + ,X .
3 3
Esempio 5.3.27. Il petrolio ricevuto da una raffineria contiene una concentrazione di detriti pari a Y
Kg/barile dove Y ∼ Unif[0,1] . Si stima che il processo di raffinazione porti la concentrazione di detriti
da Y a X con X ∼ Unif[0,αY ] dove α < 1 è un parametro positivo noto. Determiniamo:
i) le densità γ(X,Y ) e γX ;
ii) il valore atteso della concentrazione di detriti Y prima della raffinazione, dando per nota la concen-
trazione X dopo la raffinazione.
i) I dati del problema sono:
µY = Unif[0,1] , µX|Y = Unif[0,αY ] ,
ossia
1
γY (y) = 1[0,1] (y), γX|Y (x, y) = 1 (x), y ∈ ]0, 1].
αy [0,αy]
Dalla formula (5.3.8) per la densità condizionata ricaviamo
1
γ(X,Y ) (x, y) = γX|Y (x, y)γY (y) = 1 (x, y)
αy ]0,αy[×]0,1[
e Z Z 1
1 log α − log x
γX (x) = γ(X,Y ) (x, y)dy = dy 1]0,α[ (x) = 1]0,α[ (x).
R x αy α
α
ii) Calcoliamo E [Y | X]. Si ha
γ(X,Y ) (x, y) 1
γY |X (y, x) = 1(γX >0) (x) = 1 (x, y) (5.3.16)
γX (x) y(log α − log x) ]0,αy[×]0,1[
da cui
Z Z 1
1 α−x
E [Y | X = x] = yγY |X (y, x)dy = 1 (x) dy = 1 (x).
R log α − log x ]0,α[ x α(log α − log x) ]0,α[
α
In definitiva si ha
α−X
E [Y | X] = .
α(log α − log X)
Notiamo che nella (5.3.16) abbiamo usato la relazione
γ(X,Y ) (x, y) γX|Y (x, y)

γY |X (y, x) = 1(γX >0) (x) = γY (y),
γX (x) γX (x)
che è una versione della formula di Bayes.

Esempio 5.3.28. Sia (X, Y ) un vettore aleatorio con distribuzione marginale µY = χ2 e distribuzione condi-
zionata µX|Y = N0, 1 . Ricordiamo che le relative densità sono
Y
r
1 −2
y y − x2 y
γY (y) = p e , γX|Y (x, y) = e 2 , y > 0.
2πy 2π
Allora la densità congiunta è data da
1 − (1+x2 )y
γ(X,Y ) (x, y) = γX|Y (x, y)γY (y) = e 2 , y > 0,
2π
e la marginale di X è Z +∞
1
γX (x) = γ(X,Y ) (x, y)dy = , x ∈ R,
0 π(1 + x2 )
ossia X ha distribuzione di Cauchy (cfr. (3.5.5)).
5.4. APPENDICE 213
5.4 Appendice
Alla dimostrazione del Teorema 5.3.4 premettiamo il seguente risultato: diciamo che
F : Q −→ [0, 1]
è una funzione di ripartizione (o CDF) su Q se:

i) F è monotona crescente;
ii) F è continua a destra nel senso che, per ogni q ∈ Q, vale
F(q) = F(q+) := lim F(p); (5.4.1)

p↓q
p∈Q
iii) vale
lim F(q) = 0
q→−∞
e lim F(q) = 1.
q→+∞
(5.4.2)
q∈Q q∈Q
Lemma 5.4.1. Data una CDF F su Q, esiste una distribuzione µ su R tale che
F(q) = µ(] − ∞, q]), q ∈ Q. (5.4.3)
Dimostrazione. La funzione definita da14
F̄(x) := lim F(y), x ∈ R,

y↓x
y∈Q
è una CDF su R (provarlo per esercizio) e F = F̄ su Q. Allora per il Teorema 2.4.33 esiste una distribuzione
µ che verifica la (5.4.3).
Dimostrazione del Teorema 5.3.4. Basta considerare il caso d = 1. Per ogni q ∈ Q, fissiamo una versione
dell’attesa condizionata h i
F(q) := E 1(X≤q) | G
la cui esistenza è garantita dal Teorema 5.2.1. In realtà, F = F(q, ω) dipende anche da ω ∈ Ω ma per brevità
scriveremo F = F(q) considerando F(q) come variabile aleatoria (G -misurabile, per definizione). In base alle
proprietà dell’attesa condizionata e alla numerabilità di Q, si ha che P -quasi certamente F è una CDF su Q:
più precisamente, esiste un evento trascurabile C ∈ G tale che F = F(·, ω) è una CDF su Q per ogni ω ∈ Ω\C.
Infatti, se p, q ∈ Q con p ≤ q, allora 1(X≤p) ≤ 1(X≤q) e quindi
h i h i
F(p) = E 1(X≤p) | G ≤ E 1(X≤q) | G = F(q)
a meno di un evento G -misurabile trascurabile, per la proprietà di monotonia dell’attesa condizionata.

Analogamente si provano le proprietà (5.4.1) e (5.4.2) come conseguenza del Teorema della convergenza
dominata per l’attesa condizionata:
per esempio, se (pn )n∈N è una successione in Q tale che pn ↓ q ∈ Q allora
la successione di v.a. 1(X≤pn ) è limitata e converge puntualmente
n∈N
lim 1(X≤pn ) (ω) = 1(X≤q) (ω), ω ∈ Ω,

n→∞
da cui h i h i
lim F(pn ) = lim E 1(X≤pn ) | G = E 1(X≤q) | G = F(q).
n→∞ n→∞
14 Il limite esiste per la monotonia di F.
In base al Lemma 5.4.1, per ogni ω ∈ Ω \ C esiste una distribuzione µ = µ(·, ω) (ma scriveremo semplice-
mente µ = µ(H), per H ∈ B) tale che
µ(] − ∞, p]) = F(p), p ∈ Q.
Per costruzione, µ è una distribuzione su R, a meno dell’evento trascurabile C ∈ G : in realtà possiamo
supporre che µ sia una distribuzione su tutto Ω ponendo, per esempio, µ(·, ω) ≡ δ0 per ω ∈ C. Proviamo ora
che µ soddisfa anche la (5.3.2): a tal fine utilizziamo il Teorema A.1.3 di Dynkin e poniamo
h i
M = {H ∈ B | µ(H) = E 1(X∈H) | G }.
La famiglia
A = {] − ∞, p] | p ∈ Q}
è ∩-chiusa, σ (A ) = B e, per costruzione, A ⊆ M . Se verifichiamo che M è una famiglia monotona, per il
Teorema di Dynkin ne verrà che M = B da cui la tesi. Ora si ha:
i) R ∈ M poiché 1R (X) ≡ 1 è G -misurabile e quindi coincide con la propria attesa condizionata. D’altra
parte, µ(R) = 1 su Ω e quindi µ(R) = E [1R (X) | G ];
ii) se H, K ∈ M e H ⊆ K, allora
µ(K \ H) = µ(K) − µ(H)
= E [1K (X) | G ] − E [1H (X) | G ] =
(per la linearità dell’attesa condizionata)
= E [1K (X) − 1H (X) | G ]
h i
= E 1K\H (X) | G ;
iii) sia (Hn )n∈N una successione crescente di elementi di M . Per la continuità dal basso delle distribuzio-
ni, si ha [
µ(H) = lim µ(Hn ), H := Hn .
n→∞
n≥1
D’altra parte, per il Teorema di Beppo-Levi per l’attesa condizionata, si ha
h i
lim µ(Hn ) = lim E 1Hn (X) | G = E [1H (X) | G ] .
n→∞ n→∞

Consideriamo un vettore aleatorio (X, Y ) in Rd × R, assolutamente continuo con densità γ(X,Y ) .
Lemma 5.4.2. Per ogni g ∈ bBd+1 vale
Z Z
g(x, y)γ(X,Y ) (x, y)dxdy = 0. (5.4.4)
(γY =0) Rd
Dimostrazione. Sia γY la densità di Y in (5.3.7). Essendo γ(X,Y ) ≥ 0, per il Corollario 3.2.14 si ha

γY (y) = 0 =⇒ γ(X,Y ) (·, y) = 0 q.o.
Allora, per ogni g ∈ bBd+1 e per ogni y tale che γY (y) = 0, vale
Z
g(x, y)γ(X,Y ) (x, y)dx = 0,
Rd
da cui segue la (5.4.4).
5.4. APPENDICE 215
Dimostrazione della Proposizione 5.3.20. Dobbiamo provare che la famiglia (µ(·; y))y∈(γY >0) definita in (5.3.9)-
(5.3.8) è una versione regolare della funzione distribuzione di X condizionata a Y secondo la definizione del
Teorema 5.3.16.
Anzitutto µ(·; y) è una distribuzione: infatti γX|Y (·, y) in (5.3.8) è una densità poiché è una funzione
misurabile, non-negativa e tale che, per la (5.3.7), vale
Z Z
1
γX|Y (x, y)dx = γ (x, y)dx = 1.
Rd γY (y) Rd (X,Y )
Fissiamo H ∈ Bd . Per quanto riguarda la i) del Teorema 5.3.16, il fatto che y 7→ µ(H; y) ∈ mB segue
dal Teorema di Fubini e dal fatto che γX|Y è una funzione Borel-misurabile. Per quanto riguarda la ii) del
Teorema 5.3.16, consideriamo W ∈ bσ (Y ): per il Teorema di Doob, W = g(Y ) con g ∈ bB e quindi si ha
Z
E [W µ(H; Y )] = g(y)µ(H; y)γY (y)dy =
R

Z Z !
= g(y) γX|Y (x, y)dx γY (y)dy
(γY >0) H
Z Z
= g(y)γ(X,Y ) (x, y)dx dy =
(γY >0) H
(per la (5.4.4))
" h i
= g(y)1H (x)γ(X,Y ) (x, y)dx dy = E W 1(X∈H) .
Rd ×R
Parte II
Processi e calcolo stocastico - Work in

progress!
217
Capitolo 6
Processi stocastici
We are too small and the universe

too large and too interrelated for
thoroughly deterministic thinking.
Don S. Lemons, [48]
Le variabili aleatorie descrivono lo stato di un fenomeno aleatorio, per esempio una posizione non osser-
vabile con certezza di una particella in un modello della fisica. I processi stocastici descrivono la dinamica,
nel tempo o in dipendenza da altri parametri, del fenomeno aleatorio considerato. Un processo stocastico
può essere definito come una famiglia parametrizzata di variabili aleatorie, ognuna delle quali rappresen-
ta lo stato del fenomeno corrispondente ad un fissato valore dei parametri. In alternativa, un processo
stocastico può essere definito come una variabile aleatoria a valori in uno spazio funzionale, tipicamente
uno spazio di curve parametrizzate di Rd : ogni curva rappresenta una traiettoria o possibile evoluzione del
fenomeno in Rd al variare dei parametri. Abbiamo già incontrato un semplice processo stocastico nell’E-
sempio 3.6.4 in cui (Xn )n∈N rappresentava l’evoluzione nel tempo del prezzo di un titolo rischioso in un
modello finanziario.
La teoria dei processi stocastici è oggigiorno uno dei campi della matematica più ricchi e affascinanti:
segnaliamo l’eccellente articolo di rassegna [52] che, con dovizia di spunti, racconta la storia della ricerca
sui processi stocastici dalla metà del secolo scorso in poi.
6.1 Processi stocastici: legge e distribuzioni finito-dimensionali

In questa sezione diamo due definizioni equivalenti di processo stocastico. La prima definizione è abbastanza
semplice ed intuitiva; la seconda definizione è più astratta ma indispensabile per la prova dei risultati
fondamentali e generali sui processi stocastici. Introduciamo anche alcune nozioni accessorie: lo spazio
delle traiettorie, la legge e le distribuzioni finito-dimensionali. Nel seguito, I indica un generico insieme di
indici: per fissare le idee, spesso I sarà un intervallo reale.
Definizione 6.1.1 (Processo stocastico). Un processo stocastico è una famiglia indicizzata X = (Xt )t∈I di
variabili aleatorie definite su uno spazio di probabilità (Ω, F , P ) a valori in uno spazio misurabile (E, E ).
Nel caso in cui (E, E ) = (R, B) diciamo che X è un processo stocastico reale. Se I è finito o numerabile allora
diciamo che X è un processo stocastico discreto.
Per dare la seconda definizione di processo stocastico, occorre introdurre preliminarmente alcune nota-
zioni. Indichiamo con
RI = {x : I −→ R}
219
220 CAPITOLO 6. PROCESSI STOCASTICI
l’insieme delle funzioni da I in R. Per ogni x ∈ RI e t ∈ I, scriviamo xt invece di x(t) e diciamo che xt è la
componente t-esima di x: in questo modo interpretiamo RI come il prodotto cartesiano di R per un numero
|I| di volte (anche se I non è finito o numerabile). Per esempio, se I = {1, . . . , d} allora RI è identificabile con
Rd , mentre se I = N allora RN è l’insieme delle successioni x = (x1 , x2 , . . . ) di numeri reali. Un elemento
x ∈ RI può essere visto come una curva parametrizzata in R, dove I è l’insieme dei parametri.
Diciamo che RI è lo spazio delle traiettorie da I in R e x ∈ RI è una traiettoria reale. Non c’è nulla di
speciale nel considerare traiettorie reali: potremmo direttamente considerare Rd o addirittura un generico
spazio misurabile (E, E ) al posto di R. In tal caso, lo spazio delle traiettorie è E I , l’insieme delle funzioni
da I a valori in E. Tuttavia, per semplicità, almeno per il momento ci limiteremo a considerare E = R che
interviene nello studio dei processi stocastici reali.
Muniamo lo spazio delle traiettorie di una struttura di spazio misurabile. Su RI introduciamo una
σ -algebra che generalizza la σ -algebra prodotto definita nella Sezione 3.3.2. Chiamiamo cilindro finito-
dimensionale, o semplicemente cilindro, un sottoinsieme di RI di cui è “fissato” un numero finito di compo-
nenti.
Definizione 6.1.2 (Cilindro finito-dimensionali). Dati t ∈ I e H ∈ B, diciamo che l’insieme
Ct (H) := {x ∈ RI | xt ∈ H}
è un cilindro uno-dimensionale. Dati t1 , . . . , tn ∈ I distinti e H1 , . . . , Hn ∈ B, poniamo H = H1 × · · · × Hn e
diciamo che
n
\
I
Ct1 ,...,tn (H) := {x ∈ R | (xt1 , . . . , xtn ) ∈ H} = Cti (Hi ) (6.1.1)
i=1
è un cilindro finito-dimensionale. Indichiamo con C la famiglia dei cilindri finito-dimensionali e B I = σ (C )
la σ -algebra generata da tali cilindri.
La σ -algebra B I è un oggetto molto astratto e, almeno per il momento, non è importante cercare di
visualizzarla concretamente o comprenderne a fondo la struttura: alcune informazioni aggiuntive su B I
verranno fornite nell’Osservazione 6.1.10. Abbiamo introdotto B I al fine di dare la seguente definizione
alternativa.
Definizione 6.1.3 (Processo stocastico). Un processo stocastico reale X = (Xt )t∈I sullo spazio di probabilità
(Ω, F , P ) è una variabile aleatoria a valori nello spazio delle traiettorie (RI , B I ):
X : Ω −→ RI .
Osservazione 6.1.4. Il fatto che X sia una variabile aleatoria significa che vale la condizione di misurabilità
(X ∈ C) ∈ F per ogni C ∈ B I . (6.1.2)
A sua volta, la condizione (6.1.2) equivale1 al fatto che
(Xt ∈ H) ∈ F per ogni H ∈ B, t ∈ I, (6.1.3)
e quindi le Definizioni 6.1.1 e 6.1.3 sono equivalenti. Riassumendo, si può dire che un processo X è una
funzione
X : I × Ω −→ R
(t, ω) −→ Xt (ω)
tale che
1 Infatti, (X ∈ H) = (X ∈ C) dove C è il cilindro uno-dimensionale (ossia in cui è fissata solo una componente) definito da {x ∈ RI |
t
xt ∈ H}: quindi è chiaro che se X è un processo stocastico allora Xt ∈ mF per ogni t ∈ I. Viceversa, la famiglia
H := {C ∈ B I | X −1 (C) ∈ F }
è una σ -algebra che, per ipotesi, include i cilindri uno-dimensionali e quindi anche C (i cilindri sono intersezioni finite di cilindri
uno-dimensionali). Allora H ⊇ σ (C ) = B I .
6.1. PROCESSI STOCASTICI: LEGGE E DISTRIBUZIONI FINITO-DIMENSIONALI 221
• per ogni t ∈ I, la funzione ω 7→ Xt (ω) è una variabile aleatoria reale;

• per ogni ω ∈ Ω, la funzione t 7→ Xt (ω) è una traiettoria, ossia una curva parametrizzata da I a R. Ogni
esito ω ∈ Ω corrisponde a (e può essere identificato con) una traiettoria del processo.
Esempio 6.1.5. Ogni funzione f : I −→ R può essere vista come un processo stocastico “banale”. Basta
considerare uno spazio campionario costituito da un solo elemento, Ω = {ω}, e il processo definito da
Xt (ω) = f (t): tale processo ha una sola traiettoria che è la funzione f ed è facile verificare la condizione
di misurabilità (6.1.3). Viceversa, il concetto di processo stocastico generalizza quello di funzione perché
consente l’esistenza di molteplici traiettorie: in questo senso, un processo (Xt )t∈I si può interpretare come
una “funzione stocastica”, ossia una funzione che ad ogni indice t ∈ I associa il valore aleatorio Xt .
Dal punto di vista della Definizione 6.1.3 un processo stocastico è una variabile aleatoria e quindi
possiamo definirne la legge.
Definizione 6.1.6 (Legge). La distribuzione (o legge) del processo stocastico X è la misura di probabilità
su (RI , B I ) definita da
µX (C) = P (X ∈ C), C ∈ BI .
Osservazione 6.1.7 (Distribuzioni finito-dimensionali). Anche il concetto di legge di un processo sto-
castico è astratto e poco maneggevole: dal punto di vista operativo, uno strumento molto più efficace
sono le cosiddette distribuzioni finito-dimensionali che sono le distribuzioni µ(Xt ,...,Xtn ) dei vettori aleatori
1
(Xt1 , . . . , Xtn ) al variare delle scelte di un numero finito di indici t1 , . . . , tn ∈ I. La legge di X è univocamente
determinata dalle distribuzioni finito-dimensionali2 .
Esempio 6.1.8. Siano A, B ∼ N0,1 v.a. indipendenti. Consideriamo il processo stocastico X = (Xt )t∈R
definito da
Xt = At + B, t ∈ R.
Ogni traiettoria di X è una funzione lineare (una retta) su R. Non è immediato esplicitare la distribuzione
del processo ma è facile calcolare le distribuzioni finito-dimensionali, infatti fissati t1 , . . . , tn ∈ R si ha
Xt1  t1 1

   
!
 . 
 .  = α A  . . 
 .  , α =  .. .. 
  B  
Xtn tn 1
e quindi, per la Proposizione 3.5.23, (Xt1 , . . . , Xtn ) ∼ N0,αα ∗ .

Esempio 6.1.9 (Processo Gaussiano). Diciamo che un processo stocastico è Gaussiano se ha distribuzioni
finito-dimensionali normali. Se X = (Xt )t∈I è Gaussiano, consideriamo le funzioni di media e covarianza
m(t) := E [Xt ] , c(s, t) := cov(Xs , Xt ), s, t ∈ I.
Queste funzioni determinano le distribuzioni finito-dimensionali (e quindi anche la legge!) del processo poiché,
per ogni scelta t1 , . . . , tn ∈ I, si ha
(Xt1 , . . . , Xtn ) ∼ NM,C
2 La misura di un generico cilindro C
t1 ,...,tn (H) si esprime come

µX Ct1 ,...,tn (H) = µ(Xt ,...,Xt ) (H)
1 n
I
e quindi le distribuzioni finito-dimensionali identificano
µX su C . D’altra parte, C è una famiglia ∩-chiusa e genera B : per il
I I
Corollario A.1.5 se due misure di probabilità su R , B coincidono su C allora sono uguali. In altri termini, se µ1 (C) = µ2 (C) per
ogni C ∈ C allora µ1 ≡ µ2 .
Vedremo che, grazie al Teorema di Carathéodory, una misura di probabilità si estende in modo unico da C a B I : questo è il contenuto
di uno dei primi risultati fondamentali sui processi stocastici, il Teorema di estensione di Kolmogorov, che esamineremo nella Sezione
6.4.
dove
M = (m(t1 ), . . . , m(tn )) e C = c(ti , tj ) . (6.1.4)
i,j=1,...,n

Osserviamo che C = c(ti , tj ) è una matrice simmetrica e semi-definita positiva. Ovviamente, se I
i,j=1,...,n
è finito allora X non è altro che un vettore aleatorio con distribuzione multi-normale. Il processo dell’E-
sempio 6.1.8 è Gaussiano con media nulla e funzione di covarianza c(s, t) = st + 1. Anche il processo banale
dell’Esempio 6.1.5 è Gaussiano con funzione di media f (t) e funzione di covarianza identicamente nulla:
in questo caso, Xt ∼ δf (t) per ogni t ∈ I. Infine, un esempio fondamentale di processo Gaussiano è il moto
Browniano che definiremo nella Sezione 10.
Osservazione 6.1.10. [!] Esistono famiglie di traiettorie, anche molto significative, che non appartengono
alla σ -algebra B I . Il fatto è che ogni elemento di B I è caratterizzato da un’infinità al più numerabile di coor-
dinate3 e questo è fortemente limitativo nel caso in cui I non sia numerabile. Per esempio, se I = [0, 1] si
ha
C[0, 1] < B [0,1]
poiché la famiglia C[0, 1] delle funzioni continue non può essere caratterizzata, nello spazio di tutte le
funzioni da [0, 1] in R, imponendo condizioni su una quantità numerabile di coordinate4 . Per il medesimo
motivo, addirittura i singoletti {x} con x ∈ R[0,1] , i sottoinsiemi finiti di R[0,1] e famiglie significative come
per esempio n o
x ∈ R[0,1] | sup xt < 1
t∈[0,1]
non appartengono B [0,1] .

Questi esempi suscitano una certa perplessità nei confronti della σ -algebra B I che non è sufficiente-
mente ampia da contenere importanti famiglie di traiettorie. In effetti lo spazio campionario RI , di tutte
le funzioni da I in R, è talmente grande da essere difficilmente trattabile come spazio misurabile cosı̀ da
rendere difficile lo sviluppo di una teoria generale dei processi stocastici. Per questo motivo, non appena
possibile cercheremo di sostituire RI con uno spazio di traiettorie che, oltre a essere “più piccolo”, possegga
anche un’utile struttura di spazio metrico come, per esempio, lo spazio delle funzioni continue (cfr. Sezione
9.2).
6.2 Processi misurabili

Abbiamo dato due definizioni equivalenti di processo stocastico, ognuna delle quali ha pregi e difetti:
i) un processo stocastico è una famiglia indicizzata di variabili aleatorie (Definizione 6.1.1): un
processo X = Xt (ω) è una funzione
X : I × Ω −→ R
tale che, per ogni t ∈ I, Xt è una variabile aleatoria reale sullo spazio di probabilità (Ω, F , P );
3 Più precisamente, risolviamo l’Esercizio 1.4 in [7]: consideriamo I = [0, 1] (quindi lo spazio delle traiettorie RI è la famiglia delle
funzioni da [0, 1] a R). Data una successione τ = (tn )n≥1 ∈ [0, 1]N , identifichiamo τ con la mappa
τ : R[0,1] −→ RN , τ(x) := (xtn )n≥1 ,
e poniamo
M = {τ −1 (H) | τ ∈ [0, 1]N , H ∈ B N }, τ −1 (H) = {x ∈ R[0,1] | τ(x) ∈ H},
dove B N indica la σ -algebra generata dai cilindri finito-dimensionali in RN . Allora M ⊆ B [0,1] e contiene la famiglia dei cilindri
finito-dimensionali di R[0,1] , che è una famiglia ∩-chiusa che genera B [0,1] . Inoltre si prova che M è una famiglia monotona: segue
dal Lemma A.1.4 che M = B [0,1] ossia ogni elemento C ∈ B [0,1] è della forma C = τ −1 (H) per una certa successione τ in [0, 1] e
un certo H ∈ B N . In altri termini, C è caratterizzato da una scelta di una quantità numerabile di coordinate τ = (tn )n≥1 (oltre che da
H ∈ B N ).
4 Per assurdo, se fosse C[0, 1] = τ −1 (H), con τ = (t )
n n≥1 successione di coordinate in [0, 1] e H ∈ B , allora modificando x ∈ C[0, 1]
N
in un punto t < τ si dovrebbe ottenere ancora una funzione continua e questo è chiaramente falso.
6.3. UNICITÀ 223
ii) un processo stocastico è una variabile aleatoria a valori in uno spazio di traiettorie (Definizione
6.1.3): secondo questa definizione decisamente più astratta, un processo X = X(ω) è una variabile
aleatoria
X : Ω −→ RI
dallo spazio di probabilità (Ω, F , P ) a valori nello spazio delle traiettorie RI , munito della struttura
di spazio misurabile con la σ -algebra B I . Questa definizione si utilizza nella prova dei risultati più
generali e teorici anche se è una nozione meno operativa e più difficilmente applicabile allo studio di
esempi concreti.
Notiamo che le definizioni precedenti non richiedono alcuna ipotesi sul tipo di dipendenza di X rispetto
alla variabile t (per esempio, la misurabilità o qualche tipo di regolarità). Ovviamente il problema non si
pone nel caso in cui I sia un insieme generico, privo di qualsiasi struttura di spazio misurabile o metrico;
tuttavia se I è un intervallo reale allora è possibile dotare lo spazio prodotto I × Ω di una struttura di spazio
misurabile con la σ -algebra prodotto B ⊗ F .
Definizione 6.2.1 (Processo misurabile). Un processo stocastico misurabile è una funzione misurabile
X : (I × Ω, B ⊗ F ) −→ (R, B).
Per il Lemma 3.3.11, se X è un processo stocastico misurabile allora:

• Xt è una variabile aleatoria per ogni t ∈ I;
• la traiettoria t 7→ Xt (ω) è una funzione misurabile da I a R, per ogni ω ∈ Ω.
Se I ⊆ R è naturale interpretare t ∈ I come un indice temporale: allora, come vedremo nella Sezione 6.5, lo
spazio di probabilità si arricchirà di nuovi elementi (le filtrazioni) e un ruolo predominante sarà assunto
da una particolare classe di processi stocastici, le martingale. In questo contesto, rinforzeremo la nozione di
misurabilità introducendo il concetto di processo progressivamente misurabile (cfr. Definizione 11.2.26).
In letteratura ci si riferisce alla “Teoria Generale dei Processi Stocastici” per indicare il settore che si
occupa dello studio delle proprietà generali dei processi nel caso I = R≥0 : per un’introduzione sintetica si
veda, per esempio, il Capitolo 16 in [6] e il Capitolo 1 in [36].
6.3 Unicità
Esistono varie nozioni di equivalenza fra processi stocastici. Anzitutto, due processi X = (Xt )t∈I e
Y = (Yt )t∈I sono uguali in legge se hanno la stessa distribuzione (o, equivalentemente, se hanno le stes-
se distribuzioni finito-dimensionali): in questo caso X e Y potrebbero anche essere definiti su spazi di
probabilità differenti.
Nel caso in cui X e Y siano definiti sullo stesso spazio di probabilità (Ω, F , P ), possiamo dare altre
nozioni di equivalenza espresse in termini di uguaglianza delle traiettorie. Ricordiamo anzitutto che, in
uno spazio di probabilità (Ω, F , P ), un sottoinsieme A di Ω è quasi certo (rispetto a P ) se esiste un evento
C ⊆ A tale che P (C) = 1. Se lo spazio di probabilità è completo5 allora ogni insieme quasi certo A è un evento
e quindi è lecito scrivere P (A) = 1.
Definizione 6.3.1 (Modificazioni). Siano X = (Xt )t∈I e Y = (Yt )t∈I processi stocastici su Ω. Diciamo che X
e Y sono modificazioni se P (Xt = Yt ) = 1 per ogni t ∈ I.
Osservazione 6.3.2. La definizione precedente può essere facilmente generalizzata al caso di X, Y generiche
funzioni da Ω a valori in RI : in questo caso (Xt = Yt ) non è necessariamente un evento e quindi diciamo che
X è una modificazione di Y se l’insieme (Xt = Yt ) è quasi certo. Ciò può essere utile se non si sa a priori che
X e/o Y sono processi stocastici.
5 Ricordiamo la definizione data nell’Osservazione 3.1.11: uno spazio di probabilità (Ω, F , P ) è completo se N ⊆ F dove N indica
la famiglia degli insiemi trascurabili (cfr. Definizione 2.1.16).
Definizione 6.3.3 (Processi indistinguibili). Siano X = (Xt )t∈I e Y = (Yt )t∈I processi stocastici su Ω. Dicia-
mo che X e Y sono indistinguibili se l’insieme
(X = Y ) := {ω ∈ Ω | Xt (ω) = Yt (ω) per ogni t ∈ I}
è quasi certo.
Osservazione 6.3.4. [!] Due processi X e Y sono indistinguibili se l’insieme delle traiettorie coincidenti è
quasi certo. Notiamo che, anche se X e Y sono processi stocastici, non è detto che (X = Y ) sia un evento.
Infatti, (X = Y ) = (X − Y )−1 ({0}) dove 0 indica la traiettoria identicamente nulla: tuttavia {0} < BI a meno
che I non sia finito o numerabile (cfr. Osservazione 6.1.10).
D’altra parte, se lo spazio (Ω, F , P ) è completo allora X e Y sono indistinguibili se e solo se P (X = Y ) = 1
poiché la completezza dello spazio garantisce che (X = Y ) ∈ F nel caso (X = Y ) sia quasi certo. Per questo
e altri motivi che spiegheremo in seguito, d’ora in poi assumeremo spesso che (Ω, F , P ) sia completo.
Osservazione 6.3.5. [!] Se X e Y sono modificazioni allora hanno le stesse distribuzioni finito-dimensionali
e quindi sono uguali in legge. Se X e Y sono indistinguibili allora sono anche modificazioni poiché per ogni
t ∈ I si ha (X = Y ) ⊆ (Xt = Yt ). Viceversa, X, Y modificazioni non sono necessariamente indistinguibili
poiché \
(X = Y ) = (Xt = Yt )
t∈I
ma se I non è numerabile tale intersezione potrebbe non appartenere a F oppure avere probabilità minore
di uno. Se I è finito o numerabile allora X, Y sono modificazioni se e solo se sono indistinguibili.
Diamo un esempio esplicito di processi che sono modificazioni ma non sono indistinguibili.
Esempio 6.3.6. [!] Consideriamo lo spazio campione Ω = [0, 1] con la misura di Lebesgue come misura di
probabilità. Siano I = [0, 1], X = (Xt )t∈I il processo identicamente nullo e Y = (Yt )t∈I il processo definito da

1 se ω = t,


Yt (ω) = 
0 se ω ∈ [0, 1] \ {t}.

Allora X e Y sono modificazioni poiché, per ogni t ∈ I,
(Xt = Yt ) = {ω ∈ Ω | ω , t} = [0, 1] \ {t}
ha misura di Lebesgue uguale a uno ossia è un evento certo. D’altra parte, tutte le traiettorie di X sono
differenti da quelle di Y in un punto.
Notiamo anche che X e Y sono uguali in legge ma X ha tutte le traiettorie continue e Y ha tutte le
traiettorie discontinue: dunque ci sono importanti proprietà delle traiettorie di un processo stocastico (come, per
esempio, la continuità), che non dipendono dalla distribuzione del processo.
Nel caso di processi continui si ha il seguente risultato particolare.
Proposizione 6.3.7. Sia I un intervallo reale e siano X = (Xt )t∈I e Y = (Yt )t∈I processi con traiettorie quasi
certamente continue6 . Se X è modificazione di Y allora X, Y sono indistinguibili.
Dimostrazione. Per ipotesi le traiettorie X(ω) e Y (ω) sono continue per ogni ω ∈ A con A quasi certo. Inoltre
P (Xt = Yt ) = 1 per ogni t ∈ I e di conseguenza l’insieme
\
C := A ∩ (Xt = Yt )
t∈I∩Q
6 L’insieme degli ω ∈ Ω tali che X(ω), Y (ω) sono funzioni continue di t è quasi certo.
6.4. ESISTENZA 225
è quasi certo. Per ogni t ∈ I esiste una successione approssimante (tn )n∈N in I ∩Q: per l’ipotesi di continuità,
per ogni ω ∈ C si ha
Xt (ω) = lim Xtn (ω) = lim Ytn (ω) = Yt (ω)
n→∞ n→∞
e questo prova che X, Y sono indistinguibili.
Osservazione 6.3.8. Il risultato della Proposizione 6.3.7 rimane valido per processi che siano solo continui
a destra o a sinistra.
6.4 Esistenza
In questa sezione proviamo che è “sempre” possibile costruire un processo stocastico che abbia assegnate
distribuzioni finito-dimensionali.
Facciamo un’osservazione preliminare. Se µt1 ,...,tn sono le distribuzioni finito-dimensionali di un proces-
so stocastico (Xt )t∈I allora si ha

µt1 ,...,tn (H1 × · · · × Hn ) = P (Xt1 ∈ H1 ) ∩ · · · ∩ (Xtn ∈ Hn ) , t1 , . . . , tn ∈ I, H1 , . . . , Hn ∈ B. (6.4.1)
Di conseguenza valgono le seguenti proprietà di consistenza: per ogni famiglia finita di indici t1 , . . . , tn ∈ I,
per ogni H1 , . . . , Hn ∈ B e per ogni permutazione ν degli indici 1, 2, . . . , n, si ha
µt1 ,...,tn (H1 × · · · × Hn ) = µtν(1) ,...,tν(n) (Hν(1) × · · · × Hν(n) ), (6.4.2)

µt1 ,...,tn (H1 × · · · × Hn−1 × R) = µt1 ,...,tn−1 (H1 × · · · × Hn−1 ). (6.4.3)
A posteriori, è chiaro che (6.4.2)-(6.4.3) sono condizioni necessarie affinché le distribuzioni µt1 ,...,tn possano
essere le distribuzioni finito-dimensionali di un processo stocastico. Il seguente risultato mostra che tali
condizioni sono anche sufficienti.
Teorema 6.4.1 (Teorema di estensione di Kolmogorov). [!!!] Sia I un insieme. Supponiamo che, per ogni
famiglia finita di indici t1 , . . . , tn ∈ I, sia data una distribuzione µt1 ,...,tn su Rn , e siano soddisfatte le proprietà

di consistenza (6.4.2)-(6.4.3). Allora esiste un’unica misura di probabilità µ su RI , B I che abbia µt1 ,...,tn
come distribuzioni finito-dimensionali, ossia tale che valga
µ(Ct1 ,...,tn (H)) = µt1 ,...,tn (H) (6.4.4)
per ogni famiglia finita di indici t1 , . . . , tn ∈ I e H = H1 × · · · × Hn ∈ Bn .
Osservazione 6.4.2. [!] Nelle ipotesi del teorema precedente, la misura µ si estende ulteriormente ad una
σ -algebra BµI che contiene B I e tale che lo spazio di probabilità (RI , BµI , µ) sia completo: ciò è conseguenza
del Corollario 2.5.11 e del metodo costruttivo utilizzato nella dimostrazione del Teorema di Carathéodory.
A volte, BµI è chiamata µ-completamento di B I .
Rimandiamo la dimostrazione del Teorema 6.4.1 alla Sezione 6.6 ed esaminiamo ora alcune notevoli
applicazioni.
Corollario 6.4.3 (Esistenza di processi con distribuzioni finito-dimensionali assegnate.). [!] Sia I un
insieme. Supponiamo che, per ogni famiglia finita di indici t1 , . . . , tn ∈ I, sia data una distribuzione µt1 ,...,tn
su Rn , e siano soddisfatte le proprietà di consistenza (6.4.2)-(6.4.3). Allora esiste un processo stocasti-
co X = (Xt )t∈I che è definito su uno spazio di probabilità completo e ha µt1 ,...,tn come distribuzioni finito-
dimensionali.
Dimostrazione. Si procede in maniera analoga al caso delle variabili aleatorie reali (cfr. Osservazione
3.1.16). Sia (Ω, F , P ) = (RI , BµI , µ) lo spazio di probabilità completo definito nell’Osservazione 6.4.2. La
funzione identità
X : (RI , BµI ) −→ (RI , B I )
definita da X(w) = w per ogni w ∈ RI , è un processo stocastico poiché X −1 (B I ) = B I ⊆ BµI . Inoltre, X
ha µt1 ,...,tn come distribuzioni finito-dimensionali poiché, per ogni cilindro finito-dimensionale Ct1 ,...,tn (H)
come in (6.1.1), si ha
µX (Ct1 ,...,tn (H)) = µ(X ∈ Ct1 ,...,tn (H)) =
(poiché X è la funzione identità)
= µ(Ct1 ,...,tn (H)) =
(per la (6.4.4))
= µt1 ,...,tn (H).
Consideriamo ora un processo stocastico X sullo spazio (Ω, F , P ). Indichiamo con µX la legge di X e
con BµI X il µX -completamento di B I (cfr. Osservazione 6.4.2).
Definizione 6.4.4 (Versione canonica di un processo stocastico). [!] La versione (o realizzazione) canonica
e sullo spazio di probabilità (RI , BµI , µX ), definito da X(w)
di X è il processo X, e = w per ogni w ∈ RI .
X
Osservazione 6.4.5. Per il Corollario 6.4.3, la realizzazione canonica di X ha la stessa legge di X. Inoltre X e
è definita sullo spazio di probabilità completo (R , BµX , µX ) in cui lo spazio campione è lo spazio funzionale
I I
RI (e non un generico insieme Ω): in particolare, gli esiti sono le traiettorie del processo.
Corollario 6.4.6 (Esistenza di processi Gaussiani). [!] Siano
m : I −→ R, c : I × I −→ R

funzioni tali che, per ogni famiglia finita di indici t1 , . . . , tn ∈ I, la matrice C = c(ti , tj ) sia simmetrica
i,j=1,...,n
e semi-definita positiva. Allora esiste un processo Gaussiano, definito su uno spazio di probabilità completo
(Ω, F , P ), con funzione di media m e funzione di covarianza c.
In particolare, scelto I = R≥0 , esiste un processo Gaussiano con funzioni di media m ≡ 0 e covarianza
c(s, t) = t ∧ s ≡ min{s, t}.
Dimostrazione. La famiglia di distribuzioni NM,C , con M, C come in (6.1.4), è ben definita grazie all’ipotesi
sulla funzione di covarianza c. Inoltre essa soddisfa le proprietà di consistenza (6.4.2)-(6.4.3), come si
verifica applicando la (6.4.1) con NM,C al posto di µt1 ,...,tn e (Xt1 , . . . , Xtn ) ∼ NM,C . Allora la prima parte della
tesi segue dal Corollario 6.4.3.
Ora siano t1 , . . . , tn ∈ R≥0 : la matrice C = min{ti , tj } è ovviamente simmetrica ed è anche semi-
i,j=1,...,n
definita positiva poiché, per ogni η1 , . . . , ηn ∈ R, si ha
n
X n
X Z ∞
ηi ηj min{ti , tj } = ηi ηj 1[0,ti ] (s)1[0,tj ] (s)ds
i,j=1 i,j=1 0
n
 2
Z ∞ X 
= ηi 1[0,ti ] (s) ds ≥ 0.



0 i=1
6.5. FILTRAZIONI E MARTINGALE 227
Corollario 6.4.7 (Esistenza di successioni di v.a. indipendenti). [!] Sia (µn )n∈N una successione di di-
stribuzioni reali. Esiste una successione (Xn )n∈N di v.a. indipendenti definite su uno spazio di probabilità
completo (Ω, F , P ), tali che Xn ∼ µn per ogni n ∈ N.
Dimostrazione. Applichiamo il Corollario 6.4.3 con I = N. La famiglia di distribuzioni finito-dimensionali

definite da
µk1 ,...,kn := µk1 ⊗ · · · ⊗ µk1 , k1 , . . . , kn ∈ N,
verifica le proprietà di consistenza (6.4.2)-(6.4.3). Per il Corollario 6.4.3, esiste un processo (Xk )k∈N che ha
µk1 ,...,kn come distribuzioni finito-dimensionali. L’indipendenza segue dal Teorema 3.3.25 e dall’arbitrarietà
della scelta degli indici k1 , . . . , kn ∈ N.
Il Corollario 6.4.7 ammette la seguente versione leggermente più generale, la cui dimostrazione è lascia-
ta per esercizio. Il seguente risultato richiede una versione semplificata, rispetto al Corollario 6.4.3, della
proprietà di consistenza.
Corollario 6.4.8 (Esistenza di successioni di v.a. con distribuzione assegnata). [!] Sia data una succes-
sione (µn )n∈N dove µn è una distribuzione su Rn e vale
µn+1 (H × R) = µn (H), H ∈ Bn , n ∈ N.
Allora esiste una successione (Xn )n∈N di v.a. definite su uno spazio di probabilità completo (Ω, F , P ), tali
che (X1 , . . . , Xn ) ∼ µn per ogni n ∈ N.
6.5 Filtrazioni e martingale

In questa sezione consideriamo il caso particolare in cui I è un sottoinsieme di R, tipicamente
I = R≥0 oppure I = [0, 1] oppure I = N.
In questo caso è utile pensare a t come un parametro che rappresenta un istante di tempo.
Definizione 6.5.1 (Filtrazione). Siano I ⊆ R e (Ω, F , P ) uno spazio di probabilità. Una filtrazione (Ft )t∈I è
una famiglia crescente di sotto-σ -algebre di F , nel senso che vale
Fs ⊆ Ft ⊆ F , s, t ∈ I, s ≤ t.
In molte applicazioni le σ -algebre rappresentano insiemi di informazioni. Per quanto riguarda le

filtrazioni, l’idea è che
◦ la σ -algebra Ft rappresenta le informazioni disponibili all’istante t;
◦ la filtrazione (Ft )t∈I rappresenta il flusso di informazioni che aumenta col passare del tempo.
Abbiamo visto l’importanza del concetto di informazione nel calcolo delle probabilità: per esempio, la de-
finizione stessa di probabilità condizionata è sostanzialmente motivata dal problema di descrivere l’effetto
dell’informazione sulla probabilità degli eventi. Le filtrazioni costituiscono lo strumento matematico che
descrive in modo dinamico (in funzione del tempo) le informazioni disponibili e per questo motivo giocano
un ruolo fondamentale nella teoria dei processi stocastici. Con la seguente definizione si formalizza l’idea
che un processo stocastico sia osservabile in base alla informazioni di una certa filtrazione.
Definizione 6.5.2 (Processo adattato ad una filtrazione). Sia X = (Xt )t∈I un processo stocastico sullo spa-
zio con filtrazione (Ω, F , P , (Ft )t∈I ). Si dice che X è adattato alla filtrazione (Ft )t∈I se Xt ∈ mFt per ogni
t ∈ I.
Definizione 6.5.3 (Filtrazione generata da un processo). Ad ogni processo stocastico X = (Xt )t∈I sullo
spazio (Ω, F , P ) è associata la filtrazione definita in modo naturale da
GtX := σ (Xs , s ≤ t) ≡ σ (Xs−1 (H), s ≤ t, H ∈ B), t ∈ I. (6.5.1)
Essa è chiamata filtrazione generata da X.

Osservazione 6.5.4. Abbiamo indicato con G X la filtrazione generata da X perché vogliamo riservare il
simbolo F X per un’altra filtrazione che definiremo più avanti nella Sezione 11.2.2 e chiameremo filtrazione
standard per X. La filtrazione generata da X è la “minima” filtrazione che contiene le informazioni sul
processo X al variare del tempo: X è adattato a (Ft )t∈I se e solo se GtX ⊆ Ft per ogni t ∈ I.
Osservazione 6.5.5. Se X
e è la versione canonica di X (cfr. Definizione 6.4.4) allora
GtX = σ (Cs (H) | s ∈ I, s ≤ t, H ∈ B), t ∈ I,

e
ossia la filtrazione generata da X

e è quella generata dai cilindri finito-dimensionali (cfr. Definizione 6.1.2)
al variare di t.
Introduciamo ora una fondamentale classe di processi stocastici.
Definizione 6.5.6 (Martingala). [!!!] Sia X = (Xt )t∈I , con I ⊆ R, un processo stocastico sullo spazio con
filtrazione (Ω, F , P , (Ft )t∈I ). Si dice che X è una martingala se:
i) X è un processo sommabile, nel senso che Xt ∈ L1 (Ω, P ) per ogni t ∈ I;
ii) vale
Xt = E [XT | Ft ] , t, T ∈ I, t ≤ T . (6.5.2)
Se I è finito o numerabile diciamo che X è una martingala discreta.

Il concetto di martingala è centrale nella teoria dei processi stocastici e in molte applicazioni. La (6.5.2),
detta proprietà di martingala, significa che il valore attuale (al tempo t) del processo è la miglior stima del
valore futuro (in un tempo T ≥ t) condizionata alle informazioni attualmente disponibili. In economia, per
esempio, la proprietà di martingala si traduce nel fatto che se X rappresenta il prezzo di un bene, allora
tale prezzo è equo nel senso che è la miglior stima del valore futuro del bene in base alle informazioni
disponibili al momento.
Sia X una martingala su (Ω, F , P , (Ft )t∈I ): come conseguenza immediata della Definizione 6.5.6 e delle
proprietà dell’attesa condizionata si ha:
i) X è adattato alla filtrazione (Ft )t∈I ;
ii) X è costante in media poiché, applicando il valore atteso in ambo i membri della (6.5.2) si ha7
E [Xt ] = E [XT ] , t, T ∈ I.
Il termine martingala si riferiva originariamente ad una serie di strategie utilizzate dagli scommettitori
francesi nel XVIII secolo, fra cui la strategia del raddoppio a cui avevamo accennato nell’Esempio 4.2.4.
Esempio 6.5.7. [!] La sequenza nel tempo delle vincite e perdite in un gioco d’azzardo equo può essere
rappresentato con una martingala discreta: a volte si vince e a volte si perde ma, se il gioco è equo, vincite
e perdite in media si bilanciano.
Più precisamente, sia (Zn )n∈N una successione di v.a. i.i.d. con Zn ∼ qδ1 + (1 − q)δ−1 e 0 < q < 1 fissato.
Consideriamo il processo stocastico
Xn := Z1 + · · · + Zn , n ∈ N.
7 Ricordiamo che E [E [X | F ]] = E [X ] per definizione di attesa condizionata.
T t T
6.5. FILTRAZIONI E MARTINGALE 229
Qui Zn rappresenta la vincita o perdita alla n-esima giocata, q è la probabilità di vincita e Xn è il bilancio
dopo n giocate. Consideriamo la filtrazione (GnZ )n∈N delle informazioni sugli esiti delle giocate, GnZ =
σ (Z1 , . . . , Zn ). Allora si ha
h i h i
E Xn+1 | GnZ = E Xn + Zn+1 | GnZ =
(poiché Xn ∈ mGnZ e Zn+1 è indipendente da GnZ )
= Xn + E [Zn+1 ] = Xn + 2q − 1.
Dunque (Xn ) è una martingala se q = 12 ossia se il gioco è equo. Se q > 21 , ossia se la probabilità di vincere
h i
nelle singole giocate è maggiore rispetto alla probabilità di perdere, allora Xn < E Xn+1 | GnZ (e si dice che
(Xn ) è una sub-martingala): in questo caso si ha anche E [Xn ] < E [Xn+1 ], ossia il processo è crescente in media.
Questo esempio mostra che la proprietà di martingala non è una proprietà delle traiettorie del processo ma
dipende dalla misura di probabilità e dalla filtrazione considerate.
Esempio 6.5.8. Siano X ∈ L1 (Ω, P ) e (Ft )t∈I una filtrazione su (Ω, F , P ). Una semplice applicazione della
proprietà della torre mostra che il processo definito da Xt = E [X | Ft ], t ∈ I, è una martingala, infatti si ha
E [XT | Ft ] = E [E [X | FT ] | Ft ] = E [X | Ft ] = Xt , t, T ∈ I, t ≤ T .
Osservazione 6.5.9. [!] Useremo spesso

h i in seguito la seguente identità valida per una martingala X di
quadrato sommabile, ossia tale che E Xt2 < ∞ per t ∈ I:
h i h i
E (Xt − Xs )2 | Fs = E Xt2 − Xs2 | Fs , s ≤ t. (6.5.3)
Basta osservare che

h i h i
E (Xt − Xs )2 | Fs = E Xt2 − 2Xt Xs + Xs2 | Fs
h i
= E Xt2 | Fs − 2Xs E [Xt | Fs ] + Xs2 =
(per la proprietà di martingala)

h i
= E Xt2 | Fs − Xs2

Definizione 6.5.10. Sia X = (Xt )t∈I un processo stocastico sullo spazio con filtrazione (Ω, F , P , (Ft )t∈I ). Si
dice che X è una sub-martingala se:
i) X è un processo sommabile e adattato;
ii) vale
Xt ≤ E [XT | Ft ] , t, T ∈ I, t ≤ T .
Inoltre X è una super-martingala se −X è una sub-martingala.

Proposizione 6.5.11. [!] Se X è una martingala e ϕ : R −→ R è una funzione convessa e tale che ϕ(Xt ) ∈
L1 (Ω, P ) per ogni t ∈ I, allora ϕ(X) è una sub-martingala.
Se X è una sub-martingala e ϕ : R −→ R è una funzione convessa, crescente e tale che ϕ(Xt ) ∈ L1 (Ω, P )
per ogni t ∈ I, allora ϕ(X) è una sub-martingala.
Osservazione 6.5.12. Se X è una martingala allora |X| è una sub-martingala non-negativa. Tuttavia si faccia
attenzione che ciò non è necessariamente vero se X è una sub-martingala poiché x 7→ |x| non è crescente.
Inoltre, se X è una sub-martingala allora anche X + := X ∨ 0 = |X|+X
2 lo è.
Dimostrazione della Proposizione 6.5.11. La prima parte è un’immediata conseguenza della disuguaglianza
di Jensen. Analogamente, se X è una sub-martingala allora Xt ≤ E [XT | Ft ] per t ≤ T ed essendo ϕ crescente
si ha anche
ϕ(Xt ) ≤ ϕ (E [XT | Ft ]) ≤ E [ϕ(XT ) | Ft ]
dove per la seconda disuguaglianza abbiamo riapplicato Jensen.
In quest’ultima parte della sezione, consideriamo il caso particolare in cui I = N ∪ {0}. Sotto queste
ipotesi particolari diamo un risultato profondo, e valido anche in ambito molto più generale, sulla struttura
dei processi stocastici adattati: il Teorema di decomposizione di Doob. Prima introduciamo la seguente
Definizione 6.5.13 (Processo predicibile). Sia A = (An )n≥0 un processo stocastico discreto, definito sullo
spazio con filtrazione (Ω, F , P , (Fn )n≥0 ). Si dice che A è predicibile se:
i) A0 = 0;
ii) An ∈ mFn−1 per ogni n ∈ N.
Teorema 6.5.14 (Teorema di decomposizione di Doob). Sia X = (Xn )n≥0 un processo stocastico adattato e
sommabile sullo spazio con filtrazione (Ω, F , P , (Fn )n≥0 ). Esistono e sono unici q.c. una martingala M e un
processo predicibile A tali che
Xn = Mn + An , n ≥ 0. (6.5.4)
In particolare, se X è una martingala allora M ≡ X e A ≡ 0; se X è una sub-martingala allora il processo A
ha le traiettorie monotone crescenti q.c.
Dimostrazione. [Unicità] Se due processi M e A, con le proprietà dell’enunciato, esistono allora si ha
Xn+1 − Xn = Mn+1 − Mn + An+1 − An , n ≥ 0. (6.5.5)
Condizionando a Fn e sfruttando il fatto che X è adattato, M è una martingala e A è predicibile, si ha
E [Xn+1 | Fn ] − Xn = E [Mn+1 | Fn ] − Mn + An+1 − An = An+1 − An .
Di conseguenza, il processo A è univocamente determinato dalla formula ricorsiva


An+1 = An + E [Xn+1 | Fn ] − Xn , se n ∈ N,


(6.5.6)
A0 = 0.


Si noti che dalla (6.5.6) segue che se X è una sub-martingala allora il processo A ha le traiettorie monotone
crescenti q.c.
Inserendo la (6.5.6) nella (6.5.5) si trova anche

Mn+1 = Mn + Xn+1 − E [Xn+1 | Fn ] , se n ∈ N,


(6.5.7)
M0 = X0 .


[Esistenza] Basta provare che i processi M e A, definiti rispettivamente da (6.5.7) e (6.5.6), verificano le
proprietà dell’enunciato. Si tratta di una semplice verifica: per esempio, si prova facilmente per induzione
su n il fatto che A sia predicibile. Analogamente si prova che M è una martingala e vale la (6.5.4).
Esempio 6.5.15. [!] Sia X come nell’Esempio 6.5.7. Allora si calcolano facilmente i processi della decom-
posizione di Doob di X:
Mn = Xn − n(2q − 1), An = n(2q − 1).
1
Si noti che in questo caso il processo A è deterministico; inoltre X è una sub-martingala per q > 2 e in tal
caso (An )n≥0 è una successione monotona crescente.
6.6. DIMOSTRAZIONE DEL TEOREMA DI ESTENSIONE DI KOLMOGOROV 231
6.6 Dimostrazione del Teorema di estensione di Kolmogorov

Lemma 6.6.1. La famiglia C dei cilindri finito-dimensionali è un semianello.
Dimostrazione. Ricordando la definizione (6.1.1) di cilindro finito-dimensionale
n
\
Ct1 ,...,tn (H1 × · · · × Hn ) = Cti (Hi ), (6.6.1)
i=1
e osservando che Ct (H) ∩ Ct (K) = Ct (H ∩ K) per ogni t ∈ I e H, K ∈ B, non è difficile provare che C è una
famiglia ∩-chiusa e ∅ ∈ C . Rimane da provare che la differenza di cilindri è unione finita e disgiunta di
cilindri: poiché C \ D = C ∩ D c , per C, D ∈ C , è sufficiente provare che il complementare di un cilindro è
unione disgiunta di cilindri.
Per un cilindro uno-dimensionale si ha
(Ct (H))c = Ct (H c ),
e quindi, per la (6.6.1),

n
c [ n
c [
Ct1 ,...,tn (H1 × · · · × Hn ) = Cti (Hi ) = Cti (Hic )
i=1 i=1
dove in generale l’unione non è disgiunta: tuttavia osserviamo che
Ct1 (H1 ) ∪ Ct2 (H2 ) = Ct1 ,t2 (H1 × H2 ) ⊎ Ct1 ,t2 (H1c × H2 ) ⊎ Ct1 ,t2 (H1 × H2c ),
e in generale
n
[ ]
Cti (Hi ) = Ct1 ,...,tn (K1 × · · · × Kn )
i=1
dove l’unione disgiunta è presa fra tutte le possibili combinazioni differenti di K1 × · · · × Kn dove Ki è Hi
oppure Hic , tranne il caso in cui Ki = Hic per ogni i = 1, . . . , n.
Definiamo µ su C come in (6.4.4), ossia
µ(Ct1 ,...,tn (H1 × · · · × Hn )) := µt1 ,...,tn (H1 × · · · × Hn ), t1 , . . . , tn ∈ I, H1 , · · · Hn ∈ B.
Se proviamo che µ è una pre-misura (ossia µ è additiva, σ -sub-additiva e tale che µ(∅) = 0) su C allora per
il Teorema 2.5.5 di Carathéodory µ si estende in modo unico ad una misura di probabilità su B I .
Chiaramente µ(∅) = 0 e non è difficile provare che µ è finitamente additiva. Per provare che µ è σ -
sub-additiva, consideriamo una successione (Cn )n∈N di cilindri disgiunti la cui unione è un cilindro C e
dimostriamo che8 X
µ(C) = µ(Cn ). (6.6.2)
n∈N
8 La (6.6.2) implica la σ -sub-addivitità: se A ∈ C e (A )
n n∈N è una successione di elementi in C tale che
[
A⊆ An
n∈N
basta porre C1 = A ∩ A1 ∈ C e
n−1
[
Cn = (A ∩ An ) \ Ak
k=1
con Cn che, per il Lemma 6.6.1, è unione finita e disgiunta di cilindri per ogni n ≥ 2. Allora dalla (6.6.2) segue che
X
µ(A) ≤ µ (An ) .
n∈N
A tal fine poniamo

n
]
Dn = C \ Ck , n ∈ N.
k=1
Per il Lemma 6.6.1 Dn è unione finita e disgiunta di cilindri: pertanto µ(Dn ) è ben definito (per l’additività
di µ) e vale
n
X
µ(C) = µ(Ck ) + µ(Dn ).
k=1
Allora basta provare che

lim µ(Dn ) = 0. (6.6.3)
n→∞
Chiaramente Dn ↘ ∅ per n → ∞. Dimostriamo la (6.6.3) per assurdo e, a meno di passare ad una sotto-
successione, supponiamo esista ε > 0 tale che µ(Dn ) ≥ ε per ogni n ∈ N: utilizzando un argomento di
compattezza, proviamo che in tal caso l’intersezione dei Dn non è vuota, da cui l’assurdo.
Sappiamo che Dn è un’unione finita e disgiunta di cilindri: poiché Dn ⊇ Dn+1 , eventualmente ripetendo9
gli elementi della successione, possiamo supporre
Nn
]
Dn = C
ek , ek = {x ∈ RI | (xt , . . . , xt ) ∈ Hk,1 × · · · × Hk,n }
C 1 n
k=1
per una certa successione (tn )n∈N in I e Hk,n ∈ B. Ora utilizziamo il seguente fatto di cui posticipiamo la
prova al termine della dimostrazione: è possibile costruire una successione (Kn )n∈N tale che:
◦ Kn ⊆ Rn è un sottoinsieme compatto di
Nn
[
Bn := (Hk,1 × · · · × Hk,n ); (6.6.4)
k=1
◦ Kn+1 ⊆ Kn × R;
◦ µt1 ,...,tn (Kn ) ≥ 2ε .
Dunque, concludiamo la prova di (6.6.3). Poiché Kn , ∅, per ogni n ∈ N esiste un vettore
(n) (n)
(y1 , . . . , yn ) ∈ Kn .
(n) (k )
Per compattezza, la successione (y1 )n∈N ammette una sotto-successione (y1 n )n∈N convergente a un pun-
(k ) (k )
to y1 ∈ K1 . Analogamente, la successione (y1 n , y2 n )n∈N ammette una sotto-successione convergente a
(y1 , y2 ) ∈ K2 . Ripetendo l’argomento, costruiamo una successione (yn )n∈N tale che (y1 , . . . , yn ) ∈ Kn per ogni
n ∈ N. Pertanto
{x ∈ RI | xtk = yk , k ∈ N} ⊆ Dn
per ogni n ∈ N e questo prova l’assurdo.
9 Definendo una nuova successione della forma
RI , . . . , RI , D1 , . . . , D1 , D2 , . . . , D2 , D3 . . .
in cui RI e gli elementi di (Dn )n∈N sono ripetuti un numero sufficiente di volte.
6.6. DIMOSTRAZIONE DEL TEOREMA DI ESTENSIONE DI KOLMOGOROV 233
Infine, proviamo l’esistenza della successione (Kn )n∈N . Per ogni n ∈ N esiste10 un sottoinsieme compatto
en di Bn in (6.6.4) tale che µt ,...,t (Bn \ K ε
en ) ≤ n+1
K 1 n 2
. Posto
n
\
Kn := eh × Rn−h ),
(K (6.6.5)
h=1
si ha che Kn è un sottoinsieme compatto di Bn e Kn+1 ⊆ Kn × R. Ora osserviamo che

n
[
Bn \ Kn ⊆ eh × Rn−h )
Bn \ ( K
h=1
n
[
⊆ eh ) × Rn−h
(Bh \ K
h=1
e di conseguenza
n
X
µt1 ,...,tn (Bn \ Kn ) ≤ eh ) × Rn−h
µt1 ,...,tn (Bh \ K
h=1
n
X
= µt1 ,...,th (Bh \ K
eh )
h=1
n
X ε ε
≤ h+1
≤ .
2 2
h=1
Allora si ha
ε
µt1 ,...,tn (Kn ) = µt1 ,...,tn (Bn ) − µt1 ,...,tn (Bn \ Kn ) ≥
,
2
poiché µt1 ,...,tn (Bn ) = µ(Dn ) ≥ ε per ipotesi. Questo conclude la dimostrazione. 2
Il Teorema di estensione di Kolmogorov si generalizza, con dimostrazione sostanzialmente identica, al
caso in cui le traiettorie siano a valori in uno spazio metrico (M, ϱ) separabile e completo11 . Ricordiamo
la notazione Bϱ per la σ -algebra di Borel su (M, ϱ). Inoltre indichiamo con Bϱ⊗n la σ -algebra prodotto di
Bϱ per n volte; MI è la famiglia delle funzioni da I a valori in M e BϱI è la σ -algebra generata dai cilindri
finito-dimensionali
Ct1 ,...,tn (H) := {x ∈ MI | (xt1 , . . . , xtn ) ∈ H}
dove t1 , . . . , tn ∈ I e H = H1 × · · · × Hn con H1 , . . . , Hn ∈ Bϱ .
Teorema 6.6.2 (Teorema di estensione di Kolmogorov). [!!!] Siano I un insieme e (M, ϱ) uno spazio me-
trico separabile e completo. Supponiamo che, per ogni famiglia finita di indici t1 , . . . , tn ∈ I, sia data una
distribuzione µt1 ,...,tn su Mn , e siano soddisfatte le seguenti proprietà di consistenza: per ogni famiglia finita
di indici t1 , . . . , tn ∈ I, per ogni H1 , . . . , Hn ∈ Bϱ e per ogni permutazione ν degli indici 1, 2, . . . , n, si ha
µt1 ,...,tn (H1 × · · · × Hn ) = µtν(1) ,...,tν(n) (Hν(1) × · · · × Hν(n) ),

µt1 ,...,tn (H1 × · · · × Hn−1 × M) = µt1 ,...,tn−1 (H1 × · · · × Hn−1 ).
10 Basta combinare la proprietà di regolarità interna di µ
t1 ,...,tn (cfr. Proposizione 2.4.9) col fatto che, per la continuità dal basso, per
ogni ε > 0 esiste un compatto K tale che µt1 ,...,tn (Rn \ K) < ε: si osservi che quest’ultimo fatto altro non è che la proprietà di tightness
della distribuzione µt1 ,...,tn (cfr. Definizione 4.3.5).
11 La prima parte della dimostrazione, basata sul Teorema di Carathéodory, è identica. Nella seconda parte, e in particolare nella
costruzione della successione di compatti Kn in (6.6.5), si sfrutta la proprietà di tightness: è qui che gioca un ruolo cruciale il fatto
che, nell’ipotesi che (M, ϱ) sia separabile e completo, ogni distribuzione su Bϱ è tight (si veda, per esempio, il Teorema 1.4 in [13]). Il
Teorema di Kolmogorov non si estende al caso di un generico spazio misurabile: al riguardo si veda, per esempio, [32] p. 214.

Allora esiste un’unica misura di probabilità µ su MI , BϱI che abbia µt1 ,...,tn come distribuzioni finito-
dimensionali, ossia tale che valga
µ(Ct1 ,...,tn (H)) = µt1 ,...,tn (H)
per ogni famiglia finita di indici t1 , . . . , tn ∈ I e H = H1 × · · · × Hn con H1 , . . . , Hn ∈ Bϱ .
6.7. RIASSUNTO DELLE NOTAZIONI 235
6.7 Riassunto delle notazioni

• RI = {x : I −→ R}: spazio delle traiettorie, I è l’insieme generico dei parametri, p.219
• Ct1 ,...,tn (H) := {x ∈ RI | xti ∈ Hi , i = 1, . . . , n}: cilindro finito-dimensionale con ti ∈ I e Hi ∈ B, p.220

• C : famiglia dei cilindri finito-dimensionali, p.220
• B I = σ (C ): σ -algebra generata dai cilindri finito-dimensionali, p.220
• BµI : completamento di B I rispetto alla misura di probabilità µ, p.225
• GtX = σ (Xs , s ≤ t): filtrazione generata dal processo X, p.228

Capitolo 7
Processi di Markov
Perder tempo a chi più sa più spiace.
Dante Alighieri
In questo capitolo introduciamo un’importante classe di processi stocastici caratterizzati da una pro-
prietà di “assenza di memoria” che li rende particolarmente maneggevoli e utili nelle applicazioni. In
questo capitolo assumiamo che l’insieme dei parametri sia I = R≥0 , interpretando t ∈ I come un istante
temporale.
7.1 Legge di transizione e processi di Feller

Definizione 7.1.1 (Legge di transizione). Una legge (o distribuzione) di transizione è una funzione
p = p(t, x; T , H), 0 ≤ t ≤ T , x ∈ R, H ∈ B,
che soddisfa le seguenti condizioni per ogni 0 ≤ t ≤ T :

i) per ogni x ∈ R, p(t, x; T , ·) è una distribuzione e p(t, x; t, ·) = δx ;
ii) per ogni H ∈ B, p(t, ·; T , H) ∈ mB.
Sia X = (Xt )t≥0 un processo stocastico sullo spazio (Ω, F , P ). Diciamo che X ha legge di transizione p se:
i) p è una legge di transizione;
ii) vale1
p(t, Xt ; T , H) = P (XT ∈ H | Xt ), 0 ≤ t ≤ T , H ∈ B.
Osservazione 7.1.2. La Definizione 7.1.1 si estende in modo ovvio al caso in cui, al posto di (R, B), si consi-
deri (Rd , Bd ) oppure un generico spazio metrico (M, ϱ) munito della σ -algebra di Borel Bϱ (cfr. Definizione
2.4.4).
Osservazione 7.1.3. Se X ha legge di transizione p allora per ogni ϕ ∈ bB si ha
Z
p(t, Xt ; T , dy)ϕ(y) = E [ϕ(XT ) | Xt ] . (7.1.1)
R
h i
1 Ricordiamo la convenzione secondo cui indichiamo con P (X ∈ H | X ) l’usuale attesa condizionata E 1
T t (XT ∈H) | Xt , come
nell’Osservazione 5.3.5.
237
238 CAPITOLO 7. PROCESSI DI MARKOV
La (7.1.1) segue dal Teorema 5.3.8 poiché p(t, Xt ; T , ·) è una versione regolare della distribuzione di XT
condizionata a Xt (cfr. Teorema 5.3.4). Analogamente p(t, x; T , ·) è una versione regolare della funzione
distribuzione di XT condizionata a Xt (cfr. Teorema 5.3.16) e quindi per il Teorema 5.3.19 si ha
Z
p(t, x; T , dy)ϕ(y) = E [ϕ (XT ) | Xt = x] . (7.1.2)
R
Notiamo che la funzione Z

u(x) := p(t, x; T , dy)ϕ(y), x ∈ R,
R
è B-misurabile e limitata: infatti, per la ii) della Definizione 7.1.1, u ∈ bB se ϕ = 1H e per approssimazione,
grazie al Lemma 3.2.3 e al Teorema di Beppo-Levi, lo è anche per ogni ϕ ∈ bB. In accordo con la notazione
(5.2.9), la formula (7.1.2) indica che u è una versione della funzione attesa di ϕ (XT ) condizionata a Xt .
Osservazione 7.1.4 (Legge di transizione omogenea nel tempo). Si dice che una legge di transizione p è
omogenea nel tempo se
p(t, x; T , H) = p(0, x; T − t, H), 0 ≤ t ≤ T , x ∈ R, H ∈ B.
Se X ha legge di transizione p omogenea nel tempo allora

Z
E [ϕ(XT ) | Xt = x] = p(t, x; T , dy)ϕ(y)
ZR
= p(0, x; T − t, dy)ϕ(y) = E [ϕ(XT −t ) | X0 = x] . (7.1.3)
R
La (7.1.3) significa che la funzione attesa di ϕ(XT ) condizionata a Xt è uguale alla funzione attesa condizio-
nata del processo traslato temporalmente al tempo iniziale2 .
Esempio 7.1.5 (Legge di transizione di Poisson). [!] Ricordiamo che Poissonx,λ indica la distribuzione
di Poisson di parametro λ > 0 e centrata in x ∈ R, definita in (2.4.4). La legge di transizione di Poisson di
parametro λ > 0, è definita da
+∞
X (λ(T − t))n
p(t, x; T , ·) = Poissonx,λ(T −t) = e−λ(T −t) δx+n , 0 ≤ t ≤ T , x ∈ R.
n!
n=0
Le proprietà i) e ii) della Definizione 7.1.1 sono ovvie. La legge di transizione di Poisson è omogenea nel
tempo e invariante per traslazioni nel senso che vale
p(t, x; T , H) = p(0, 0; T − t, H − x), 0 ≤ t ≤ T , x ∈ R, H ∈ B.
Definizione 7.1.6 (Densità di transizione). Una legge di transizione p è assolutamente continua se, per
ogni 0 ≤ t < T e x ∈ R, esiste una densità Γ = Γ (t, x; T , ·) per cui vale
Z
p(t, x; T , H) = Γ (t, x; T , y)dy, H ∈ B.
H
Diciamo che Γ è una densità di transizione di p (o di X, nel caso in cui p sia la legge di transizione di un
processo X).
2 Se, per semplicità, indichiamo
Ex [Y ] = E [Y | X0 = x] ,
la (7.1.3) si scrive nella forma più compatta
E [ϕ (XT ) | Xt ] = EXt [ϕ (XT −t )] . (7.1.4)
Per chiarezza: il membro a destra della (7.1.4) è la funzione attesa di ϕ (XT −t ) condizionata a X0 , calcolata in Xt .
7.1. LEGGE DI TRANSIZIONE E PROCESSI DI FELLER 239
Osservazione 7.1.7. Una densità di transizione Γ = Γ (t, x; T , y) di un processo X è una funzione di quattro
variabili: la prima coppia (t, x) rappresenta il tempo e punto di partenza di X; la seconda coppia (T , y)
rappresenta il tempo e la posizione aleatoria d’arrivo di X. Per ogni ϕ ∈ bB si ha
Z
Γ (t, Xt ; T , y)ϕ(y)dy = E [ϕ(XT ) | Xt ] ,
R
Z
Γ (t, x; T , y)ϕ(y)dy = E [ϕ(XT ) | Xt = x] , x ∈ R.
R
Esempio 7.1.8 (Legge di transizione Gaussiana). [!] La legge di transizione Gaussiana è definita da
p(t, x; T , ·) = Nx,T −t per ogni 0 ≤ t ≤ T e x ∈ R. È una legge di transizione assolutamente continua poiché
Z
p(t, x; T , H) := Nx,T −t (H) = Γ (t, x; T , y)dy, 0 ≤ t < T , x ∈ R, H ∈ B,
H
dove
(x−y) 2
1 −
Γ (t, x; T , y) = p e 2(T −t) , 0 ≤ t < T , x, y ∈ R, (7.1.5)
2π(T − t)
è la densità di transizione Gaussiana. È chiaro che p verifica le proprietà i) e ii) della Definizione 7.1.1.
Introduciamo ora una nozione di “dipendenza continua” della legge di transizione rispetto al dato
iniziale (t, x).
Definizione 7.1.9 (Proprietà di Feller). Une legge di transizione p gode della proprietà di Feller se per
ogni h > 0 e ϕ ∈ bC(R) la funzione
Z
(t, x) 7−→ p(t, x; t + h, dy)ϕ(y)
R
è continua. Un processo di Feller è un processo con legge di transizione che verifica la proprietà di Feller.
La proprietà di Feller equivale alla continuità nella convergenza debole della legge di transizione p =
p(t, x; t+h, ·) rispetto alla coppia (t, x) del tempo e punto iniziale: più precisamente, ricordando la definizione
di convergenza debole di distribuzioni (cfr. Osservazione 4.1.1), il fatto che X sia un processo di Feller con
legge di transizione p significa che
d
p(tn , xn ; tn + h, ·) −−−−→ p(t, x; t + h, ·)
per ogni successione (tn , xn ) che converge a (t, x) per n → +∞.

Nel caso p sia omogenea nel tempo, la proprietà di Feller si riduce alla continuità rispetto a x: precisa-
mente, p gode della proprietà di Feller se per ogni h > 0 e ϕ ∈ bC(R) la funzione
Z
x 7−→ p(0, x; h, dy)ϕ(y)
R
è continua. La proprietà di Feller gioca un ruolo importante nello studio dei processi di Markov (cfr.
Sezione 12) e delle proprietà di regolarità delle filtrazioni in tempo continuo (cfr. Sezioni 11.2.1).
Esempio 7.1.10. [!] Le leggi di transizione di Poisson e Gaussiana godono della proprietà di Feller (lo
vedremo negli Esempi 7.4.5 e 7.4.6): pertanto diremo che i relativi processi stocastici che introdurremo in
seguito, rispettivamente il processo di Poisson e il moto Browniano, sono processi di Feller.
Concludiamo la sezione con un utile risultato di carattere tecnico.

Proposizione 7.1.11. Se p è una legge di transizione per il processo X, definito sullo spazio (Ω, F , P ), allora
lo è anche per la sua versione canonica X
e (cfr. Definizione 6.4.4).
Dimostrazione. Ricordiamo che X e è definito sullo spazio di probabilità (RI , BµI , µX ), dove BµI indica il
X X
µX -completamento di B I , e X(w)
e = w per ogni w ∈ RI . Dati 0 ≤ t ≤ T e H ∈ B, poniamo Z := p(t, X et , T , H):
dobbiamo solo verificare che Z = µX (XT ∈ H | Xt ) ossia che
e e
h i
Z = E µX 1H (X
eT ) | X
et (7.1.6)
dove E µX [·] indica il valore atteso nella misura di probabilità µX . Chiaramente Z ∈ mσ (X

et ). Inoltre, se
W ∈ bσ (X
et ) allora per il teorema di Doob W = ϕ(X et ) con ϕ ∈ bB e si ha
h i
E µX [ZW ] = E µX p(t, X et ) =
et , T , H)ϕ(X
(poiché X e X
e sono uguali in legge)
= E P [p(t, Xt , T , H)ϕ(Xt )] =
(poiché p è legge di transizione di X)
= E P [1H (XT )ϕ(Xt )] =
(ancora per l’uguaglianza in legge di X e X)

e
h i
= E µX 1H (X
eT )ϕ(X
et ) .
Questo prova la (7.1.6).
7.2 Proprietà di Markov

Definizione 7.2.1 (Processo di Markov). Sia X = (Xt )t≥0 un processo stocastico adattato sullo spazio con
filtrazione (Ω, F , P , (Ft )t≥0 ). Diciamo che X è un processo di Markov se ha una legge di transizione p tale
che3
p(t, Xt ; T , H) = P (XT ∈ H | Ft ), 0 ≤ t ≤ T , H ∈ B. (7.2.1)
La (7.2.1) è una proprietà di assenza di memoria: intuitivamente, esprime il fatto che la conoscenza di
tutta la traiettoria di X fino al tempo t oppure del solo valore Xt forniscono le stesse informazioni riguardo
alla distribuzione del valore futuro XT .
Proposizione 7.2.2 (Proprietà di Markov). Sia X = (Xt )t≥0 un processo stocastico adattato sullo spazio con
filtrazione (Ω, F , P , (Ft )t≥0 ), con legge di transizione p. Allora X è un processo di Markov se e solo se
Z
p(t, Xt ; T , dy)ϕ(y) = E [ϕ(XT ) | Ft ] , 0 ≤ t ≤ T , ϕ ∈ bB. (7.2.2)
R
Dimostrazione. Se X è un processo di Markov allora p(t, Xt ; T , ·) è una versione regolare della legge di XT
condizionata a Ft e la (7.2.2) segue dal Teorema 5.3.8, Il viceversa è ovvio, con la scelta ϕ = 1H , H ∈ B.
3 Qui, come nell’Osservazione 5.3.5, P (X ∈ · | F ) indica una versione regolare della distribuzione di X condizionata a F . La
h T i t T t
(7.2.1) equivale a p(t, Xt ; T , H) = E 1(XT ∈H) | Ft ossia p(t, Xt ; T , H) è una versione dell’attesa di 1(XT ∈H) condizionata a Ft .
7.2. PROPRIETÀ DI MARKOV 241
Osservazione 7.2.3. Combinando la (7.1.1) con la (7.2.2), a volte si usa scrivere4
E [ϕ(XT ) | Xt ] = E [ϕ(XT ) | Ft ] . (7.2.3)
La proprietà di Markov si può generalizzare nel modo seguente. Osserviamo che se t ≤ t1 < t2 e ϕ1 , ϕ2 ∈
bB allora, per la proprietà della torre, si ha
h i h h i i
E ϕ1 (Xt1 )ϕ2 (Xt2 ) | Xt = E E ϕ1 (Xt1 )ϕ2 (Xt2 ) | Ft1 | Xt
h h i i
= E ϕ1 (Xt1 )E ϕ2 (Xt2 ) | Ft1 | Xt =
(per la proprietà di Markov)

h h i i
= E ϕ1 (Xt1 )E ϕ2 (Xt2 ) | Xt1 | Xt =
h i
(per la proprietà di Markov applicata all’attesa condizionata esterna, essendo ϕ1 (Xt1 )E ϕ2 (Xt2 ) | Xt1 fun-
zione limitata e Borel-misurabile di Xt1 per il Teorema di Doob)
h h i i
= E ϕ1 (Xt1 )E ϕ2 (Xt2 ) | Xt1 | Ft =
(per la proprietà di Markov applicata all’attesa condizionata interna)

h h i i
= E ϕ1 (Xt1 )E ϕ2 (Xt2 ) | Ft1 | Ft
h h i i
= E E ϕ1 (Xt1 )ϕ2 (Xt2 ) | Ft1 | Ft
h i
= E ϕ1 (Xt1 )ϕ2 (Xt2 ) | Ft .
Dunque vale
E [Y | Xt ] = E [Y | Ft ] (7.2.4)
nel senso della Convenzione 5.2.5, per Y = ϕ1 (Xt1 )ϕ2 (Xt2 ) con t ≤ t1 < t2 e ϕ1 , ϕ2 ∈ bB. Per induzione, non
è difficile provare che la (7.2.4) vale anche se
n
Y
Y= ϕk (Xtk ) (7.2.5)
k=1
per ogni t ≤ t1 < · · · < tn e ϕ1 , . . . , ϕn ∈ bB. Infine, per il secondo teorema di Dynkin6 (Teorema A.1.8), la
(7.2.4) è valida per ogni v.a. limitata e misurabile rispetto alla σ -algebra generata dalle v.a. del tipo Xs con
s ≥ t, che in analogia con la Definizione 6.5.3 indichiamo nel modo seguente
X
Gt,∞ := σ (Xs , s ≥ t). (7.2.6)
Gt,∞
X
rappresenta le informazioni future su X a partire dal tempo t. In definitiva abbiamo provato la seguente
estensione della proprietà di Markov.
4 La (7.2.3) non è un’uguaglianza ma una notazione che deve essere interpretata nel senso della Convenzione 5.2.5: precisamente,
la (7.2.3) significa che se Z = E [ϕ(XT ) | Xt ] allora Z = E [ϕ(XT ) | Ft ]. Tuttavia può esistere una versione Z ′ di E [ϕ(XT ) | Ft ] che non
è σ (Xt )-misurabile5 e quindi non è attesa di ϕ(XT ) condizionata a Xt . D’altra parte, se vale la (7.2.3) e Z ′ = E [ϕ(XT ) | Ft ] allora
Z ′ = f (Xt ) q.c. per una certa f ∈ mB: infatti, presa una versione Z di E [ϕ(XT ) | Xt ], per il Teorema di Doob, Z = f (Xt ) e per la (7.2.3)
(e l’unicità dell’attesa condizionata) Z = Z ′ q.c. Questi sottigliezze sono rilevanti quando si deve verificare in concreto la validità della
proprietà di Markov: l’Esempio 16.1.6 è illuminante in questo senso.
n
6 Usiamo il Teorema A.1.8 di Dynkin nel modo seguente: sia A la famiglia dei cilindri della forma C = T (X ∈ H ) al variare
tk k
k=1
di t ≤ t1 ≤ · · · ≤ tn e H1 , . . . , Hn ∈ B. Allora A è una famiglia ∩-chiusa di eventi. Sia H la famiglia delle v.a. limitate per cui vale la
(7.2.4): per il teorema di Beppo-Levi per l’attesa condizionata, H è una famiglia monotona; inoltre, scegliendo ϕk = 1Hk in (7.2.5), si
ha che H contiene le funzioni indicatrici di elementi di A . Allora il Teorema A.1.8 assicura che H contiene anche le v.a. limitate e
σ (A )-misurabili.
Teorema 7.2.4 (Proprietà di Markov estesa). [!] Se X è un processo di Markov su (Ω, F , P , (Ft )t≥0 ) si ha
X
E [Y | Xt ] = E [Y | Ft ] , Y ∈ bGt,∞ , (7.2.7)
nel senso della Convenzione 5.2.5.

Il seguente corollario esprime l’essenza della proprietà di Markov: il passato (ossia Ft ) e il futuro (ossia
Gt,∞
X
) sono indipendenti condizionatamente al presente (ossia σ (Xt ))7 .
Corollario 7.2.5. [!] Sia X un processo di Markov su (Ω, F , P , (Ft )t≥0 ). Vale
X
E [Y | Xt ] E [Z | Xt ] = E [Y Z | Xt ] , Y ∈ bGt,∞ , Z ∈ bFt . (7.2.8)
Dimostrazione. Verifichiamo che E [Y | Xt ] E [Z | Xt ] è una versione dell’attesa di Y Z condizionata a Xt : la

proprietà di misurabilità E [Y | Xt ] E [Z | Xt ] ∈ mσ (Xt ) è ovvia. Data W ∈ bσ (Xt ), si ha
E [W E [Y | Xt ] E [Z | Xt ]] = E [E [W E [Y | Xt ] Z | Xt ]]
= E [W E [Y | Xt ] Z] =
(per la proprietà di Markov estesa (7.2.7))
= E [W E [Y | Ft ] Z]
= E [E [W Y Z | Ft ]] = E [W Y Z]
che prova la seconda proprietà della definizione di attesa condizionata.

Infine introduciamo la versione canonica di un processo di Markov. L’insistenza nel considerare la
versione canonica (cfr. Definizione 6.4.4) di un processo è giustificata dall’importanza della proprietà di
completezza dello spazio e dal fatto di poter identificare gli esiti con le traiettorie del processo: ciò sarà
ancor più chiaro quando, nella Sezione 12, esprimeremo la proprietà di Markov utilizzando un opportuno
operatore di traslazione temporale.
Proposizione 7.2.6 (Versione canonica di un processo di Markov). Sia X un processo di Markov X sullo
spazio (Ω, F , P , (Ft )t≥0 ) con legge di transizione p e sia X
e la versione canonica di X. Allora X
e è un processo
di Markov con legge di transizione p su (R , BµX , µX , G ) dove, al solito, G indica la filtrazione generata
I I X X
e e
da X
e (cfr. (6.5.1) e Osservazione 6.5.5).
Dimostrazione. Per la Proposizione 7.1.11 p è anche legge di transizione di X, e dunque occorre provare che,
per ogni 0 ≤ t ≤ T e H ∈ B, posto Z := p(t, X
et , T , H) si ha Z = µX (X eT ∈ H | Gt ) o equivalentemente che
X
e

Z = E µX 1H (X eT ) | GtXe
dove E µX [·] indica il valore atteso nella misura di probabilità µX . Ovviamente Z ∈ GtX e quindi rimane da
e
verificare che h i
E µX [ZW ] = E µX 1H (X
eT )W , W ∈ bGtX .
e
In realtà, grazie al secondo teorema di Dynkin8 è sufficiente considerare W della forma
W = ϕ(X et )
et , . . . , X
1 n
7 Più precisamente: se esiste una versione regolare della probabilità condizionata P (· | X ) (ciò è garantito se Ω è uno spazio polacco)
t
X , e Z = 1 , B ∈ F , diventa
allora la (7.2.8) con Y = 1A , A ∈ Gt,∞ B t
P (A | Xt )P (B | Xt ) = P (A ∩ B | Xt ).
8 Usiamo il Teorema A.1.8 di Dynkin in modo analogo a quanto fatto nella dimostrazione del Teorema 7.2.4.
7.3. PROCESSI A INCREMENTI INDIPENDENTI E MARTINGALE 243
con 0 ≤ t1 < · · · < tn ≤ t e ϕ ∈ bBn . A questo punto basta procedere come nella dimostrazione della
Proposizione 7.1.11:
h i
E µX [ZW ] = E µX p(t, X
et , T , H)ϕ(X et ) =
et , . . . , X
1 n
(poiché X e X
e sono uguali in legge)
h i
= E P p(t, Xt , T , H)ϕ(Xt1 , . . . , Xtn ) =
(per la proprietà di Markov di X)

h i
= E P 1H (XT )ϕ(Xt1 , . . . , Xtn ) =
(ancora per l’uguaglianza in legge di X e X)

e
h i
= E µX 1H (X
eT )ϕ(X et ) .
et , . . . , X
1 n
7.3 Processi a incrementi indipendenti e martingale

Consideriamo un processo X = (Xt )t≥0 sullo spazio (Ω, F , P , (Ft )t≥0 ).
Definizione 7.3.1 (Processo a incrementi indipendenti). Diciamo che X è un processo a incrementi indi-
pendenti se:
i) X è adattato a (Ft )t≥0 ;
ii) l’incremento XT − Xt è indipendente da Ft per ogni 0 ≤ t < T .
Proposizione 7.3.2. [!] Sia X = (Xt )t≥0 un processo a incrementi indipendenti allora X è un processo di
Markov con legge di transizione p = p(t, x; T , ·) uguale alla legge di
XTt,x := XT − Xt + x, 0 ≤ t ≤ T , x ∈ R.
Dimostrazione. Proviamo che p è una legge di transizione per X. Chiaramente p(t, x; T , ·) è una distribuzio-
ne. Inoltre, se µXT −Xt indica la legge di XT − Xt , allora per il Teorema di Fubini la funzione
x 7−→ p(t, x; T , H) = µXT −Xt (H − x)
è B-misurabile. Infine, fissato H ∈ B, p(t, Xt ; T , H) = P (XT ∈ H | Xt ) come conseguenza del fatto che per
ogni funzione ϕ ∈ bB si ha
E [ϕ(XT ) | Xt ] = E [ϕ(XT − Xt + Xt ) | Xt ] =
(per il Lemma 5.2.11 di freezing, poiché XT − Xt è indipendente da Xt e ovviamente Xt è σ (Xt )-misurabile)

Z
t,x
h i
= E ϕ(XT ) |x=Xt = p(t, Xt ; T , dy)ϕ(y).
R
Allo stesso modo si prova la proprietà di Markov (7.2.2) (e quindi la (7.2.1)), condizionando a Ft invece
che a Xt .
È interessante confrontare le definizioni di processo a incrementi indipendenti e di martingala. Co-

minciamo con l’osservare che se X è un processo a incrementi indipendenti allora, per ogni n ∈ N e
0 ≤ t0 < t1 < · · · < tn , gli incrementi Xtk − Xtk−1 sono indipendenti; in particolare, se X è di quadrato
sommabile, ossia Xt ∈ L2 (Ω, P ), allora gli incrementi sono scorrelati:
cov(Xtk − Xtk−1 , Xth − Xth−1 ) = 0, 1 ≤ k < h ≤ n.
Anche una martingala ha gli incrementi scorrelati (ma non necessariamente indipendenti).
Proposizione 7.3.3. Sia X una martingala di quadrato sommabile. Allora X ha incrementi scorrelati.
Dimostrazione. Siano t0 ≤ t1 ≤ t2 ≤ t3 . Si ha
h i
cov(Xt1 − Xt0 , Xt3 − Xt2 ) = E (Xt1 − Xt0 )(Xt3 − Xt2 )
h h ii
= E E (Xt1 − Xt0 )(Xt3 − Xt2 ) | Ft2
h h ii
= E (Xt1 − Xt0 )E Xt3 − Xt2 | Ft2 = 0.
Ogni martingala è sommabile e costante in media. Un processo a incrementi indipendenti non è neces-
sariamente sommabile, né costante in media, e quindi non è necessariamente una martingala. Tuttavia si
ha la seguente
Proposizione 7.3.4. Sia X un processo a incrementi indipendenti e sommabile. Allora il processo “com-
pensato” definito da X
et := Xt − E [Xt ] è una martingala.
Dimostrazione. Basta osservare che per ogni t ≤ T si ha

h i h i
E X eT | Ft = E X et | Ft + X
eT − X et =
(poiché anche X
e ha gli incrementi indipendenti)
h i
=E X et + X
eT − X et =
(poiché X
e ha media nulla)
=X
et .
Osservazione 7.3.5. La Proposizione 7.3.4 fornisce la decomposizione di Doob del processo X che si scrive
come somma X = X e + A: in questo caso il processo di drift At = E [Xt ] è deterministico.
7.4 Distribuzioni finito-dimensionali

Sia X un processo di Markov con distribuzione iniziale µ (ossia X0 ∼ µ) e legge di transizione p. Il
risultato seguente mostra che, a partire dalla conoscenza di µ e p, è possibile determinare le distribuzioni
finito-dimensionali (e quindi la legge) di X.
Proposizione 7.4.1 (Distribuzioni finito-dimensionali). [!] Sia X = (Xt )t≥0 un processo di Markov con
legge di transizione p e tale che X0 ∼ µ. Per ogni t0 , t1 , . . . , tn ∈ R con 0 = t0 < t1 < t2 < · · · < tn , e H ∈ Bn+1 si
ha Z n
Y
P ((Xt0 , Xt1 , . . . , Xtn ) ∈ H) = µ(dx0 ) p(ti−1 , xi−1 ; ti , dxi ). (7.4.1)
H i=1
7.4. DISTRIBUZIONI FINITO-DIMENSIONALI 245
Dimostrazione. Per il Corollario A.1.5 è sufficiente provare la tesi con H = H0 × · · · × Hn con Hi ∈ B.

Procediamo per induzione: nel caso n = 1 si ha
h i
P ((Xt0 , Xt1 ) ∈ H0 × H1 ) = E 1H0 (Xt0 )1H1 (Xt1 )
h h ii
= E 1H0 (Xt0 )E 1H1 (Xt1 ) | Xt0
" Z #
= E 1H0 (Xt0 ) p(t0 , Xt0 ; t1 , dx1 ) =
H1

Z
= µ(dx0 )p(t0 , x0 ; t1 , dx1 ).
H0 ×H1
Supponiamo ora vera la (7.4.1) per n e proviamo il caso n + 1: per H ∈ Bn+1 e K ∈ B si ha

h h ii
P ((Xt0 , . . . , Xtn+1 ) ∈ H × K) = E 1H (Xt0 , . . . , Xtn )E 1K (Xtn+1 ) | Ftn =
(per la proprietà di Markov)

h h ii
= E 1H (Xt0 , . . . , Xtn )E 1K (Xtn+1 ) | Xtn
" Z #
= E 1H (Xt0 , . . . , Xtn ) p(tn , Xtn ; tn+1 , dxn+1 ) =
K
(per ipotesi induttiva e per il Teorema di Fubini)

Z n+1
Y
= µ(dx0 ) p(ti−1 , xi−1 ; ti , dxi ).
H×K i=1
Osservazione 7.4.2. Nel caso particolare µ = δx0 , con x0 ∈ R, la (7.4.1) diventa

n
Z Y
P ((Xt1 , . . . , Xtn ) ∈ H) = p(ti−1 , xi−1 ; ti , dxi ), H ∈ Bn . (7.4.2)
H i=1
Il seguente interessante risultato fornisce una condizione necessaria affinché una legge di transizione sia
la legge di transizione di un processo di Markov.
Proposizione 7.4.3 (Equazione di Chapman-Kolmogorov). [!!] Sia X un processo di Markov con legge di
transizione p. Per ogni 0 ≤ t1 < t2 < t3 e H ∈ B, si ha
Z
p(t1 , Xt1 ; t3 , H) = p(t1 , Xt1 ; t2 , dx2 )p(t2 , x2 ; t3 , H). (7.4.3)
R
Dimostrazione. Intuitivamente, l’equazione di Chapman-Kolmogorov esprime il fatto che la probabilità di

muoversi dalla posizione x1 al tempo t1 ad una posizione in H al tempo t3 equivale alla probabilità di
muoversi ad una posizione x2 in un tempo intermedio t2 e poi da x2 ad H, integrando fra tutti i valori
possibili di x2 . Si ha
h i
p(t1 , Xt1 ; t3 , H) = E 1H (Xt3 ) | Xt1 =
(per la proprietà della torre)

h h i i
= E E 1H (Xt3 ) | Ft2 | Xt1 =
(per la proprietà di Markov (7.2.1))

h i
= E p(t2 , Xt2 ; t3 , H) | Xt1 =
(per la (7.1.1))
Z
= p(t1 , Xt1 ; t2 , dx2 )p(t2 , x2 ; t3 , H).
R
Mostriamo ora che la Chapman-Kolmogorov è in realtà una condizione necessaria e sufficiente, nel senso
che è sempre possibile costruire un processo di Markov a partire da una legge iniziale e da una legge di
transizione p che verifichi la (7.4.3).
Proposizione 7.4.4. [!] Sia µ una distribuzione su R e sia p = p(t, x; T , H) una legge di transizione9 che
verifica l’equazione di Chapman-Kolmogorov
Z
p(t1 , x; t3 , H) = p(t1 , x; t2 , dy)p(t2 , y; t3 , H), (7.4.4)
R
per ogni 0 ≤ t1 < t2 < t3 , x ∈ R e H ∈ B. Allora esiste un processo di Markov X = (Xt )t≥0 con legge di
transizione p e tale che X0 ∼ µ.
Dimostrazione. Consideriamo la famiglia di distribuzioni finito-dimensionali definita mediante la (7.4.1):
precisamente, poniamo
Z n
Y
µt0 ,...,tn (H) = µ(dx0 ) p(ti−1 , xi−1 ; ti , dxi ), H ∈ Bn+1
H i=1
se 0 = t0 < t1 < t2 < · · · < tn e definiamo µt0 ,...,tn in modo che valga la (6.4.2) nel caso in cui t0 , . . . , tn non
siano ordinati in modo crescente. In questo modo la proprietà di consistenza (6.4.2) è automaticamente
soddisfatta per costruzione. D’altra parte, l’equazione di Chapman-Kolmogorov garantisce la validità della
seconda proprietà di consistenza (6.4.3) poiché, dopo aver ordinato in modo crescente i tempi, si ha
µt0 ,...,tk−1 ,tk ,tk+1 ,...,tn (H0 × · · · × Hk−1 × R × Hk+1 × · · · × Hn ) = µt0 ,...,tk−1 ,tk+1 ,...,tn (H0 × · · · × Hk−1 × Hk+1 × · · · × Hn ).
Essendo soddisfatte le ipotesi del Teorema di estensione di Kolmogorov, consideriamo il processo stoca-
stico X = (Xt )t≥0 costruito in maniera canonica come nel Corollario 6.4.3: X ha le distribuzioni finito-
dimensionali in (7.4.1) ed è definito sullo spazio con filtrazione (Ω, F , P , (GtX )t≥0 ) con Ω = R[0,+∞) : ricor-
diamo che, per l’Osservazione 6.5.4, la filtrazione (GtX )t≥0 è quella generata dai cilindri finito-dimensionali.
Rimane da provare che X è un processo di Markov con distribuzione di transizione p. Fissati 0 ≤ t < T e
ϕ ∈ bB, proviamo che Z h i
p(t, Xt ; T , dy)ϕ(y) = E ϕ(XT ) | GtX ,
R
verificando direttamente le proprietà dell’attesa condizionata. Posto
Z
Z= p(t, Xt ; T , dy)ϕ(y)
R
9 Ossia p verifica le proprietà i) e ii) della Definizione 7.1.1.
7.4. DISTRIBUZIONI FINITO-DIMENSIONALI 247
chiaramente Z ∈ mGtX . Per concludere, in base all’Osservazione 5.2.2, è sufficiente dimostrare che
E [1C ϕ(XT )] = E [1C Z]
dove C è un cilindro finito-dimensionale in GtX della forma in (6.1.1): in particolare, non è restrittivo
assumere C = Ct0 ,t1 ,...,tn (H) con H ∈ Bn+1 e tn = t. Questo ci permette di utilizzare le distribuzioni finito-
dimensionali in (7.4.1): infatti si ha
h i h i
E 1Ct ,...,tn (H) ϕ(XT ) = E 1H (Xt0 , Xt1 , . . . , Xtn )ϕ(XT )
0
Z n
Y Z
= µ(dx0 ) p(ti−1 , xi−1 ; ti , dxi ) p(tn , xn ; T , dy)ϕ(y)
H i=1 R
" Z #
= E 1H (Xt0 , . . . , Xtn ) p(tn , Xtn ; T , dy)ϕ(y)
R
h i
= E 1Ct ,...,tn (H) Z .
0

Esempio 7.4.5 (Distribuzione di transizione di Poisson). Riprendiamo la legge di transizione di Poisson
di parametro λ > 0 dell’Esempio 7.1.5:
+∞
X (λ(T − t))n
p(t, x; T , ·) = Poissonx,λ(T −t) = e−λ(T −t) δx+n , 0 ≤ t ≤ T , x ∈ R.
n!
n=0
L’equazione di Chapman-Kolmogorov si verifica con un conto simile10 a quello fatto nell’Esempio 3.6.5
sulla somma di v.a. di Poisson indipendenti. Il processo di Markov associato a p è detto processo di Poisson
e sarà studiato nel Capitolo 8. Per ogni ϕ ∈ bC e t > 0 la funzione
+∞
(λt)n
Z X
x 7−→ Poissonx,λt (dy)ϕ(y) = e−λt ϕ(x + n)
R n!
n=0
è continua e quindi il processo di Poisson è un processo di Feller.

Esempio 7.4.6 (Distribuzione di transizione Gaussiana). Riprendiamo la legge di transizione Gaussiana
dell’Esempio 7.1.8: Z
p(t, x; T , H) := Γ (t, x; T , y)dy, 0 ≤ t < T , x ∈ R, H ∈ B,
H
10 Per 0 ≤ t < s < T , si ha
+∞
(λ(s − t))n
Z X
p(t, x; s, dy)p(s, y; T , H) = e−λ(s−t) p(s, x + n; T , H)
R n!
n=0
+∞
X (λ(s − t))n (λ(T − s))m
= e−λ(T −t) δ x+n+m (H) =
n! m!
n,m=0
(col cambio di indici i = n + m e j = n)
+∞ X
i
X (s − t)j (T − s)i−j
= e−λ(T −t) λi δ (H)
j! (i − j)! x+i
i=0 j=0
+∞ i i !
X λ X i
= e−λ(T −t) δx+i (H) (s − t)j (T − s)i−j
i! j
i=0 j=0
= p(t, x; T , H).
dove
(x−y) 2
1 −
Γ (t, x; T , y) = p e 2(T −t) , 0 ≤ t < T , x, y ∈ R,
2π(T − t)
è la densità di transizione Gaussiana. La legge di transizione Gaussiana soddisfa l’equazione di Chapman-
Kolmogorov come si verifica direttamente calcolando la convoluzione di due Gaussiane o, più facilmente,
il prodotto delle loro funzioni caratteristiche. Studieremo in seguito, nel Capitolo 10, il processo di Markov
associato a p, il cosiddetto moto Browniano. Per ogni ϕ ∈ bC e T > 0 la funzione
Z
x 7−→ Γ (0, x; T , y)ϕ(y)dy (7.4.5)
R
è continua e quindi il moto Browniano è un processo di Feller. In realtà, si verifica che la funzione in (7.4.5) è
C ∞ per ogni T > 0 e ϕ ∈ bB (non solo per ϕ ∈ bC): per questo motivo si dice che il moto Browniano verifica
la proprietà di Feller forte.
Osservazione 7.4.7 (Legge di transizione e semigruppi). Ad ogni legge di transizione p = p(t, x; T , ·) è

associata una famiglia p = pt,T 0≤t≤T di operatori lineari e limitati
pt,T : bB −→ bB
definiti da Z
pt,T ϕ := p(t, ·; T , dy)ϕ(y), ϕ ∈ bB. (7.4.6)
R
Si noti in particolare che pt,T ϕ ∈ bB per ogni ϕ ∈ bB e per la disuguaglianza triangolare si ha
∥pt,T ϕ∥∞ ≤ ∥ϕ∥∞ .
L’equazione di Chapman-Kolmogorov (7.4.4) corrisponde alla cosiddetta proprietà di semigruppo di p:
pt,s ◦ ps,T = pt,T , t ≤s ≤T.

Si dice che la famiglia p = pt,T 0≤t≤T è il semigruppo di operatori associato alla legge di transizione p.
Inoltre, si dice che p è un semigruppo omogeneo se pt,T = p0,T −t per ogni t ≤ T : in questo caso si usa scrivere
semplicemente pt al posto di p0,t .
7.5 Generatore infinitesimale

Sia X un processo stocastico sullo spazio (Ω, F , P , (Ft )t≥0 ). In numerose applicazioni interessa calcolare
l’attesa condizionata
E [ϕ(XT ) | Ft ] , 0≤t <T,
dove ϕ ∈ bB è un’assegnata funzione. Il problema non è banale perché l’attesa condizionata a Ft è una
variabile aleatoria che dipende dalle traiettorie di X fino al tempo t. Tuttavia, se X è un processo di Markov
con legge di transizione p allora, posto
Z
u(h, x) := p(t, x; t + h, dy)ϕ(y) h ≥ 0, x ∈ R, (7.5.1)
R
si ha
E [ϕ(XT ) | Ft ] = u(T − t, Xt ) (7.5.2)
e il problema si riduce al calcolo della funzione u. Questo è uno dei principali vantaggi dell’utilizzo dei
processi di Markov.
7.5. GENERATORE INFINITESIMALE 249
In questa sezione mostriamo che u in (7.5.1) è soluzione di un problema di Cauchy e ciò fornisce dei
metodi di calcolo, anche numerici, di u. Più precisamente, supponiamo che, sotto opportune ipotesi sulla
funzione ϕ, esista ∂h u(h, x) della forma
∂h u(h, x) = G u(h, x), h > 0, x ∈ R, (7.5.3)
dove G è un operatore che agisce sulla variabile x. Per motivare quest’ultima assunzione che per il momento
appare decisamente oscura, facciamo un’osservazione ed alcuni esempi.
Osservazione 7.5.1. Indichiamo con x = (x1 , . . . , xd ) il punto di Rd . Data una curva parametrizzata X ∈
C 1 (R; Rd ) e una funzione ϕ ∈ C 1 (Rd ), si ha
d
ϕ(X(t)) = X ′ (t) · ∇ϕ(X(t)).
dt
L’operatore del prim’ordine
d
X
G := X ′ (t) · ∇ = Xj′ (t)∂xj (7.5.4)
j=1
è la derivata direzionale di ϕ lungo la curva X. Analogamente, se X è un processo di Markov si ha
∂t u(t, x) = ∂t E [ϕ(Xt ) | X0 = x]
e l’operatore G in (7.5.3), ammesso che esista, si può interpretare come la derivata direzionale della media di
ϕ lungo le traiettorie di X che partono al tempo 0 da x. Possiamo aspettarci che le traiettorie del processo X
non siano abbastanza regolari (derivabili) da poter definire G come in (7.5.4). Pertanto, per farci un’idea di
quale forma possa assumere G in ambito stocastico, consideriamo un paio di esempi in cui è possibile fare
conti espliciti.
Esempio 7.5.2. Nel caso della distribuzione di transizione di Poisson, si ha
 

−λh
X (λh)n 
∂h u(h, x) = ∂h e
 ϕ(x + n) 
n! 
n≥0
X (λh)n X (λh)n
= −λe−λh ϕ(x + n) + e−λh ∂h ϕ(x + n) =
n! n!
n≥0 n≥0
(lo scambio serie-derivata è giustificato dal fatto che si tratta di una serie di potenze con raggio di conver-
genza infinito se ϕ ∈ bB)
X (λh)n−1
= −λu(h, x) + λe−λh ϕ(x + n)
(n − 1)!
n≥1
X (λh)n
= −λu(h, x) + λe−λh ϕ(x + n + 1)
(n)!
n≥0
= λ (u(h, x + 1) − u(h, x)) .
Dunque in questo caso G è definito da
G ϕ(x) = λ (ϕ(x + 1) − ϕ(x)) , x ∈ R.
Esempio 7.5.3. Nel caso della distribuzione di transizione Gaussiana dell’Esempio 7.1.8, osserviamo che Γ
in (7.1.5), definita da
(x−y)2
1 −
Γ (t, x; T , y) = p e 2(T −t) , 0 ≤ t < T , x, y ∈ R,
2π(T − t)
è soluzione di un importante operatore alle derivate parziali noto come operatore del calore forward
1
∂ − ∂T .
2 yy
Spiegheremo più avanti (cfr. Osservazione 10.2.6) la sua importanza in fisica e in economia. Un calcolo
diretto mostra che, per ogni h > 0 e x, y ∈ R, si ha
h − (x − y)2
∂h Γ (0, x; h, y) = − Γ (0, x; h, y),
2h2
x−y
∂y Γ (0, x; h, y) = Γ (0, x; h, y),
h
h − (x − y)2
∂yy Γ (0, x; h, y) = ∂xx Γ (0, x; h, y) = − Γ (0, x; h, y),
h2
e di conseguenza, per ogni fissato x ∈ R, Γ (0, x; h, y) risolve l’equazione del calore nelle variabili (h, y):
1
∂h Γ (0, x; h, y) = ∂ Γ (0, x; h, y), h > 0, y ∈ R. (7.5.5)
2 yy
Per il teorema di scambio di segni di derivata e integrale, u in (7.5.1) appartiene a C ∞ (R>0 × R) e vale
Z
∂h u(h, x) = ∂h Γ (0, x; h, y)ϕ(y)dy =
R
(per la (7.5.5))
Z
1
= ∂ Γ (0, x; h, y)ϕ(y)dy
2 R yy
Z
1 1
= ∂xx Γ (0, x; h, y)ϕ(y)dy = ∂xx u(h, x).
2 R 2
Dunque in questo caso G è l’operatore di Laplace
1
G= ∂ .
2 xx
In generale, se vale la (7.5.3) allora u (e quindi l’attesa condizionata in (7.5.2)) si determina come
soluzione del seguente problema che si esprime equivalentemente in termini differenziali o integrali:
i) il problema di Cauchy con dato iniziale

∂h u(h, x) = G u(h, x), h > 0, x ∈ R,


u(0, x) = ϕ(x),

 x ∈ R;
ii) l’equazione integrale di Volterra

Z h
u(h, x) = ϕ(x) + G u(s, x)ds = 0, h ≥ 0, x ∈ R. (7.5.6)
0
Ricordiamo la notazione (7.4.6) per il semigruppo pt,T associato a p.

Definizione 7.5.4 (Generatore infinitesimale). L’operatore Gt definito da
pt,t+h ϕ(x) − ϕ(x)
Gt ϕ(x) := lim , (7.5.7)
h→0+ h
per ogni t ≥ 0, x ∈ R e ϕ ∈ bB per cui il limite esiste, è detto generatore infinitesimale del semigruppo p (o
della distribuzione di transizione p).
7.5. GENERATORE INFINITESIMALE 251
Se X è un processo di Markov con legge di transizione p, il rapporto incrementale in (7.5.7) calcolato in

x = Xt , si scrive nella forma " #
ϕ(Xt+h ) − ϕ(Xt )
E | Xt
h
e pertanto si interpreta come una derivata direzionale media di ϕ lungo le traiettorie di X:
Gt ϕ = ∂h pt,t+h ϕ |h=0 .

Capitolo 8
Processo di Poisson
Gli uomini passano, le idee restano e

continuano a camminare sulle
gambe di altri uomini.
Giovanni Falcone
Il processo di Poisson, che indicheremo (Nt )t≥0 , è il prototipo dei cosiddetti “processi di puro salto”.
Intuitivamente Nt indica il numero di volte nell’intervallo temporale [0, t] in cui si verifica un determinato
avvenimento (lo chiameremo episodio): per esempio, se il singolo episodio consiste nell’arrivo di un’email di
spam in un casella di posta, allora Nt rappresenta il numero di email di spam che arrivano nel periodo [0, t];
analogamente, Nt può indicare il numero di bambini nati in un certo paese o il numero di terremoti che si
verificano in una certa area geografica nel periodo [0, t].
8.1 Definizione
Riferendoci alla notazione generale della Definizione 6.1.3, nel seguito assumiamo I = R≥0 . Per co-
struire il processo di Poisson consideriamo una successione (τn )n∈N di v.a. indipendenti e identicamente
distribuite1 con distribuzione esponenziale, τn ∼ Expλ , di parametro λ > 0, definite su uno spazio di proba-
bilità completo (Ω, F , P ): qui τn rappresenta il tempo che intercorre fra l’episodio (n−1)-esimo e il successivo.
Poi definiamo la successione
T0 := 0, Tn := τ1 + · · · + τn , n ∈ N,
in cui Tn rappresenta l’istante in cui si verifica l’episodio n-esimo.
Lemma 8.1.1. Si ha2

Tn ∼ Gamman,λ n ∈ N. (8.1.1)
Inoltre, quasi certamente3 la successione (Tn )n≥0 è monotona crescente e
lim Tn = +∞. (8.1.2)

n→∞
1 Tale successione esiste per il Corollario 6.4.7.
2 Quindi T è assolutamente continua con densità
n
(λt)n−1
γn,λ (t) := λe−λt 1 (t), n ∈ N.
(n − 1)! R≥0
3 L’insieme degli ω ∈ Ω tali che T (ω) ≤ T

n n+1 (ω) per ogni n ∈ N e n→∞
lim Tn (ω) = +∞, è un evento di probabilità uno.
253
254 CAPITOLO 8. PROCESSO DI POISSON
Dimostrazione. La (8.1.1) segue dalla (3.6.7). La monotonia segue dal fatto che quasi certamente τn ≥ 0 per
ogni n ∈ N. Infine, la (8.1.2) segue dal Lemma 2.3.28 di Borel-Cantelli: infatti, per ogni ε > 0, vale
\[
lim Tn = +∞ ⊇ ((τn > ε) i.o.) = (τk > ε)
n→∞
n≥1 k≥n
e gli eventi (τk > ε) sono indipendenti e tali che

X
P (τn > ε) = +∞.
n≥1
Definizione 8.1.2 (Processo di Poisson, I). Il processo di Poisson (Nt )t≥0 è definito da
∞
X
Nt = n1[Tn ,Tn+1 [ (t), t ≥ 0. (8.1.3)
n=1
8 ●●
6 ●
4 ●
2 ●
●
2 4 6 8 10
Figura 8.1: Grafico di una traiettoria del processo di Poisson.
Daremo in seguito una caratterizzazione più generale del processo di Poisson (cfr. Definizione 8.2.3).
Per definizione Nt assume valori interi non-negativi e precisamente Nt = n se e solo se t appartiene all’inter-
vallo di estremi aleatori [Tn , Tn+1 [; pertanto si ha l’uguaglianza di eventi
(Nt = n) = (Tn ≤ t < Tn+1 ), n ∈ N ∪ {0}. (8.1.4)
In corrispondenza all’istante aleatorio Tn , in cui si verifica l’n-esimo episodio, il processo compie un salto
di ampiezza 1: la Figura 8.1 mostra il grafico di una traiettoria del processo di Poisson nell’intervallo
temporale [0, 10]. Ricordiamo che una traiettoria di N è una funzione del tipo t 7→ Nt (ω), definita da R≥0
a valori in N ∪ {0}, che si ottiene fissando un ω ∈ Ω; ad ogni ω ∈ Ω corrisponde una diversa traiettoria. In
definitiva, il valore aleatorio Nt è pari al numero di salti (ovvero al numero di episodi) fra 0 e t:
Nt = ♯{n ∈ N | Tn ≤ t}.
Proposizione 8.1.3. Il processo di Poisson (Nt )t≥0 gode delle seguenti proprietà:
i) quasi certamente le traiettorie sono funzioni continue a destra e monotone crescenti. Inoltre, per ogni
t > 0, vale4
P lim Ns = Nt = 1; (8.1.5)
s→t
4 In altri termini, ogni t fissato è quasi certamente (ossia per quasi tutte le traiettorie) un punto di continuità per il processo di
Poisson. Questo apparente paradosso si spiega col fatto che quasi ogni traiettoria ha un’infinità al più numerabile di discontinuità,
essendo monotona crescente, e tali discontinuità sono disposte sull’intero intervallo [0, +∞[ che ha la cardinalità del continuo. Quindi
tutte le traiettorie sono discontinue ma ogni singolo punto t è di discontinuità per una famiglia trascurabile di traiettorie.
8.1. DEFINIZIONE 255
ii) Nt ∼ Poissonλt ossia

(λt)n
P (Nt = n) = e−λt , t ≥ 0, n ∈ N ∪ {0}. (8.1.6)
n!
Di conseguenza N0 = 0 q.c. e si ha
E [Nt ] = var(Nt ) = λt.
In particolare, il parametro λ, chiamato intensità del processo N , è uguale al numero atteso di salti
nell’intervallo unitario [0, 1];
iii) la funzione caratteristica di Nt è data da

iη −1)
ϕNt (η) = eλt(e , t ≥ 0, η ∈ R; (8.1.7)
Dimostrazione. i) Continuità a destra e monotonia seguono dalla definizione. Per ogni t > 0, poniamo
Nt− = lim Ns e ∆Nt = Nt − Nt− . Notiamo che ∆Nt ∈ {0, 1} q.c. e, fissato t > 0, l’insieme delle traiettorie che
s↗t
sono discontinue in t è dato da
∞
[
(∆Nt = 1) = (Tn = t)
n=1
che è un evento trascurabile poiché le v.a. Tn sono assolutamente continue. Questo prova la (8.1.5).
ii) Per la (8.1.4) si ha
P (Nt = n) = P (Tn ≤ t < Tn+1 ) =
(poiché (t ≥ Tn+1 ) ⊆ (t ≥ Tn ))
= P (Tn ≤ t) − P (Tn+1 ≤ t) =
(poiché Tn ∼ Gamman,λ )
t t
(λs)n−1 (λs)n
Z Z
= λe−λs ds − λe−λs ds
0 (n − 1)! 0 n!
da cui, integrando per parti il secondo integrale, segue la (8.1.6).

iii) È un semplice calcolo: per la ii) si ha
h i X (λt)n iηn X (λteiη )n
E eiηNt = e−λt e = e−λt
n! n!
n≥0 n≥0
da cui la tesi.
Osservazione 8.1.4 (Esponente caratteristico). La funzione caratteristica del processo di Poisson ha un’in-
teressante proprietà di omogeneità rispetto al tempo: infatti, per la (8.1.7) la CHF di Nt è della forma
ϕNt (η) = etψ(η) dove
ψ(η) = λ(eiη − 1) (8.1.8)
è una funzione che dipende da η ma non da t. Di conseguenza la funzione ψ determina la CHF di Nt per
ogni t e per questo motivo è chiamata esponente caratteristico del processo di Poisson.
Esempio 8.1.5 (Processo di Poisson composto). [!] Il processo di Poisson N è il punto di partenza per la
costruzione di processi stocastici ancor più interessanti e utili nelle applicazioni. La prima generalizzazione
consiste nel rendere aleatoria l’ampiezza dei salti che in N è fissata uguale a 1.
●
0.4
●
● 1
0.3
●
● ●
0.2 ●
● 0.2 0.4 0.6 0.8 1.0
●
0.1 ●
-1
●
●
0.2 0.4 0.6 0.8 1.0
●●
-0.1 ● -2
● ●
Figura 8.2: A sinistra: grafico di una traiettoria del processo di Poisson composto con λ = 10 e Zn ∼ N0,10−2 .
A destra: grafico di una traiettoria del processo di Poisson composto con λ = 1000 e Zn ∼ N0,10−2 .
Consideriamo uno spazio di probabilità su cui è definito un processo di Poisson N e una successio-
ne (Zn )n∈N di v.a. reali identicamente distribuite. Supponiamo che la famiglia costituita dalle (Zn )n∈N e
(τn )n∈N (le v.a. esponenziali che definiscono N ) sia una famiglia di v.a. indipendenti: questa costruzione
è possibile grazie al Corollario 6.4.7. Poniamo per convenzione Z0 = 0 e definiamo il processo di Poisson
composto nel modo seguente:
Nt
X
Xt = Zn , t ≥ 0.
n=0
Notiamo che il processo di Poisson è un caso particolare di X in cui Zn ≡ 1 per n ∈ N. In Figura 8.2
sono rappresentate due traiettorie del processo di Poisson composto con salti normali e diverse scelte del
parametro di intensità.
Sfruttando l’ipotesi di indipendenza è facile calcolare la CHF di Xt : in realtà è un calcolo già svolto
nell’Esercizio 3.5.4 dove avevamo provato che vale
ϕXt (η) = etψ(η) , ψ(η) = λ (ϕZ (η) − 1)
dove ϕZ (η) è la CHF di Z1 . Anche in questo caso la CHF di Xt è omogenea nel tempo e ψ è detto esponente
caratteristico del processo di Poisson composto. Come caso particolare, si ritrova la (8.1.8) se Zn ∼ δ1 ossia se i
salti sono unitari come nel processo di Poisson.
8.2 Proprietà di Markov e di Feller

Il seguente teorema fornisce due proprietà cruciali che caratterizzano il processo di Poisson.
Diciamo

che Nt − Ns , con s < t, è un incremento del processo di Poisson. Ricordiamo anche la notazione GtN (cfr.
t≥0
(6.5.1)) per la filtrazione generata da N .
Teorema 8.2.1. [!] Per ogni 0 ≤ s < t si ha:
i) Nt − Ns ∼ Poissonλ(t−s) ;
ii) Nt − Ns è indipendente da GsN .
La i) implica che le v.a. Nt − Ns e Nt−s sono uguali in legge e per questo si dice che N ha gli incrementi
stazionari. La ii) afferma che N è un processo a incrementi indipendenti (cfr. Definizione 7.3.1).
8.2. PROPRIETÀ DI MARKOV E DI FELLER 257
La dimostrazione del Teorema 8.2.1 è rinviata alla Sezione 8.4.
Definizione 8.2.2 (Funzione càdlàg). Si dice che una funzione f da un intervallo I a valori reali è càdlàg
(dal francese “continue à droite, limite à gauche”) se in ogni punto è continua da destra e ha limite finito
da sinistra5 .
La definizione di processo di Poisson può essere generalizzata nel modo seguente.
Definizione 8.2.3 (Processo di Poisson, II). Sia (Ω, F , P ) spazio di probabilità su cui è definita una filtra-
zione (Ft )t≥0 . Un processo di Poisson di parametro λ > 0 su tale spazio è un processo stocastico (Nt )t≥0 tale
che:
i) N0 = 0 q.c.;
ii) le traiettorie di N sono càdlàg q.c.;
iii) N è adattato a (Ft )t≥0 , ossia Nt ∈ mFt per ogni t ≥ 0;
iv) se s < t allora Nt − Ns è indipendente da Fs ;
v) se s < t allora Nt − Ns ha distribuzione Poissonλ(t−s) .
Per il Teorema 8.2.1, il processo N definito in (8.1.3) è un processo di Poisson secondo la Definizione
8.2.3 con la filtrazione G N generata da N . Viceversa, si può provare che se N è un processo di Poisson
secondo la Definizione 8.2.3 allora le v.a. Tn , definite ricorsivamente da
T1 = inf{t ≥ 0 | ∆Nt = 1}, Tn+1 := inf{t > Tn | ∆Nt = 1},
sono indipendenti e hanno distribuzione Expλ : per maggiori dettagli si veda, per esempio, il Cap.5 in [6].
Si noti che nella Definizione 8.2.3 la filtrazione non è necessariamente quella generata dal processo.
Teorema 8.2.4 (Proprietà di Markov). [!] Il processo di Poisson N è un processo di Markov con distribu-
zione di transizione
p(t, x; T , ·) = Poissonx,λ(T −t) .
Inoltre N è un processo di Feller. Posto
NTt,x = NT − Nt + x, 0 ≤ t ≤ T , x ∈ R,
per ogni ϕ ∈ bB si ha
E [ϕ(NT ) | Ft ] = u(T − t, Nt )
dove la funzione
t,x
) = E ϕ(Nh0,x )
h i h i
u(h, x) := E ϕ(Nt+h
è soluzione del problema di Cauchy


∂h u(h, x) = G u(h, x), h > 0, x ∈ R,


u(0, x) = ϕ(x),

 x ∈ R;
relativo al generatore infinitesimale di N definito da
G ϕ(x) = λ (ϕ(x + 1) − ϕ(x)) , x ∈ R. (8.2.1)

5 Se I = [a, b], agli estremi assumiamo per definizione che lim f (x) = f (a) ed esista finito lim f (x).
x↘a x↗b
Dimostrazione. La tesi è una immediata conseguenza della Proposizione 7.3.2 e di quanto visto nella Sezio-
ne 7.5 relativa al generatore infinitesimale di un processo di Markov. La proprietà di Feller è stata provata
nell’Esempio 7.4.5
Osservazione 8.2.5. Ricordiamo che per l’Osservazione 7.5.1 il generatore infinitesimale si può interpre-
tare come una derivata direzionale media. Intuitivamente, il fatto di mediare, ossia di considerare il valore
atteso nella definizione di G , fa sı̀ che la discontinuità delle singole traiettorie di N non dia problemi
nell’operazione di derivazione.
Diamo un’utile caratterizzazione del processo di Poisson.
Proposizione 8.2.6. [!] Sia N = (Nt )t≥0 un processo stocastico sullo spazio (Ω, F , P , (Ft )t≥0 ), che verifichi
le proprietà i), ii) e iii) della Definizione 8.2.3. Allora N è un processo di Poisson di parametro λ > 0 se e
solo se h i iη
E eiη(Nt −Ns ) | Fs = eλ(e −1)(t−s) , 0 ≤ s ≤ t, η ∈ R. (8.2.2)
Dimostrazione. Se N è un processo di Poisson allora per l’indipendenza e stazionarietà degli incrementi e

per la (8.1.7) si ha
h i h i h i iη
E eiη(Nt −Ns ) | Fs = E eiη(Nt −Ns ) = E eiηNt−s = eλ(e −1)(t−s) .
Viceversa, se N verifica la (8.2.2) e le proprietà i), ii) e iii) della Definizione 8.2.3, rimangono da provare
le proprietà iv) e v). Applicando il valore atteso alla (8.2.2) si ha
h i iη
E eiη(Nt −Ns ) = eλ(e −1)(t−s) , 0 ≤ s ≤ t, η ∈ R.
Allora la iv) è ovvia conseguenza del fatto che la funzione caratteristica determina la distribuzione; la
proprietà v) di indipendenza degli incrementi segue dal punto 14) del Teorema 5.2.10.
Osservazione 8.2.7 (Processo di Poisson a intensità stocastica). La caratterizzazione data nella Proposi-
zione 8.2.6 permette di definire un’ampia classe di processi di cui il Poisson è un caso molto particolare.
In uno spazio (Ω, F , P , (Ft )t≥0 ) consideriamo un processo N = (Nt )t≥0 che verifichi le proprietà i), ii) e iii)
della Definizione 8.2.3 e un processo (λt )t≥0 a valori non-negativi tale che per ogni t ≥ 0 valga
Z t
λt ∈ mF0 e λs ds < ∞ q.c.
0
Se Zt !
h i
iη(Nt −Ns ) iη
E e | Fs = exp (e − 1) λr dr , 0 ≤ s ≤ t, η ∈ R,
s
allora N è chiamato processo di Poisson a intensità stocastica λt . Per maggiori informazioni sui processi a
intensità stocastica e le relative importanti applicazioni, si veda per esempio [14].
8.3 Proprietà di martingala

Consideriamo un processo di Poisson N = (Nt )t≥0 sullo spazio (Ω, F , P , (Ft )t≥0 ). Notiamo che N non
è una martingala poiché E [Nt ] = λt è una funzione strettamente crescente e quindi il processo non è co-
stante in media. Tuttavia essendo un processo a incrementi indipendenti, dalla Proposizione 7.3.3 segue la
seguente
8.3. PROPRIETÀ DI MARTINGALA 259
0.2 0.4 0.6 0.8 1.0
-1
-2
-3
Figura 8.3: Grafico di una traiettoria del processo di Poisson compensato.
Proposizione 8.3.1 (Processo di Poisson compensato). Il processo di Poisson compensato, definito da

et := Nt − λt,
N t ≥ 0,
è una martingala.
Osserviamo esplicitamente che N e assume valori reali, al contrario di N che assume solo valori interi:
nella Figura 8.3 è rappresentata una traiettoria di un processo di Poisson compensato.
Teorema 8.3.2. Sia G in (8.2.1) il generatore infinitesimale del processo di Poisson N . Per ogni ϕ ∈ bB, il
processo
Zt
Mt := ϕ(Nt ) − ϕ(N0 ) − G ϕ(Ns )ds, t ≥ 0,
0
è una martingala.
Dimostrazione. La tesi si può considerare la “versione stocastica” dell’equazione di Volterra deterministica
(7.5.6) per u in (7.5.1) con p(0, x; h, ·) = Poissonx,λh . Integrando tale equazione fra 0 e T − t, con 0 ≤ t < T ,
otteniamo
Z T −t
0 = u(T − t, x) − ϕ(x) − G u(s, x)ds
0
Z T
= u(T − t, x) − ϕ(x) − G u(s − t, x)ds.
t
Sostituendo x = Nt nella precedente equazione ed utilizzando la proprietà di Markov, si ha

ZT
E [ϕ(NT ) | Ft ] − ϕ(Nt ) − E [G ϕ(Ns ) | Ft ] ds = 0. (8.3.1)
t
Una semplice verifica6 mostra che

ZT "Z T #
E [G ϕ(Ns ) | Ft ] ds = E G ϕ(Ns )ds | Ft (8.3.2)
t t
6 Verifichiamo che la v.a.
ZT
Z := E [G ϕ(Ns ) | Ft ] ds
t
ossia vale un risultato di scambio di segni di integrale e attesa condizionata. Inserendo la (8.3.2) nella
(8.3.1) si ha
" ZT #
E ϕ(NT ) − ϕ(Nt ) − G ϕ(Ns )ds | Ft = E [MT − Mt | Ft ] = 0
t
che prova la proprietà di martingala di M.

Osservazione 8.3.3. Il Teorema 8.3.2 è valido sotto ipotesi meno restrittive di sommabilità di ϕ. Per esem-
pio, per ϕ(x) = x si ottiene Mt = Nt − λt che è il processo di Poisson compensato della Proposizione 8.3.1.
Più in generale, il Teorema 8.3.2 mostra come è possibile “compensare” un processo, definito componendo
una generica funzione ϕ con Nt , in modo da ottenere una martingala.
8.4 Appendice
Dimostriamo il Teorema 8.2.1. Se N è un processo di Poisson allora per ogni 0 ≤ s < t si ha:
i) Nt − Ns ∼ Poissonλ(t−s) ;
ii) Nt − Ns è indipendente da GsN .

Dividiamo la dimostrazione in due passi.
[Primo passo] Dimostriamo che, fissati s > 0 e k ∈ N ∪ {0}, il processo definito da
(s)
Nh = Ns+h − Ns , h ∈ R≥0 , (8.4.1)
è un processo di Poisson rispetto alla probabilità condizionata all’evento (Ns = k), ossia N (s) è un processo
di Poisson sullo spazio (Ω, F , P (· | Ns = k)).
A tal fine, definiamo i salti “traslati”
(s) (s)
T0 = 0, Tn = Tk+n − s, n ∈ N,
che, sull’evento A := (Ns = k) ≡ (Tk ≤ s < Tk+1 ), formano una successione crescente q.c. (si veda la Figura
8.4). Osserviamo che
RT
è una versione dell’attesa condizionata di G ϕ(Ns )ds a Ft . Anzitutto, osserviamo che E [G ϕ(Ns ) | Ft ] = G E [ϕ(Ns ) | Ft ] = G u(s −
t
t, Nt ) ∈ mFt da cui segue che anche Z ∈ mFt . Poi, per ogni G ∈ Ft abbiamo
"Z T #
E [Z1G ] = E G E [ϕ(Ns ) | Ft ] ds 1G =
t
(per il Teorema di Fubini e per il fatto che G è un operatore lineare che commuta col valore atteso)
ZT
= G E [E [ϕ(Ns ) | Ft ] 1G ] ds =
t
(per le proprietà dell’attesa condizionata)
ZT
= G E [ϕ(Ns )1G ] ds =
t
(riapplicando il Teorema di Fubini)
"Z T #
=E G ϕ(Ns )ds 1G .
t
8.4. APPENDICE 261
(s) (s)
0 T1 T2
Tk−1 Tk s Tk+1 Tk+2
(s)
Figura 8.4: Tempi di salto Tn e tempi di salto “traslati” Tn

(s) (s) (s)
(Nh = n) ∩ A = (Ns+h = n + k) ∩ A = (Tn+k ≤ s + h < Tn+k+1 ) ∩ A = Tn ≤ h < Tn+1 ∩ A
ossia, in accordo con la definizione di processo di Poisson nella forma (8.1.4), sull’evento A si ha
(s) (s) (s)
(Nh = n) = (Tn ≤ h < Tn+1 ), n ∈ N ∪ {0}.
Dunque è sufficiente verificare che i tempi

(s) (s) (s) (s)
τ1 := Tk+1 − s, τn := Tn − Tn−1 ≡ τk+n , n ≥ 2,
formino una successione di v.a. che, relativamente a P (· | Ns = k), hanno distribuzione Expλ e sono
indipendenti: pertanto, si tratta di provare che
 
\J  YJ
(s)
P  (τj ∈ Hj ) | Ns = k  = Expλ (Hj ) (8.4.2)
 
 
j=1 j=1
per ogni J ∈ N e H1 , . . . , HJ ∈ B(R≥0 ). La (8.4.2) equivale a

 
 \J  J
Y
P (Ns = k) ∩ (Tk+1 − s ∈ H1 ) ∩ (τk+j ∈ Hj ) = P (Ns = k) Expλ (Hj ). (8.4.3)
 
 
j=2 j=1
Sfruttando il fatto che (Ns = k) ∩ (Tk+1 − s ∈ H1 ) = (Tk ≤ s) ∩ (Tk+1 − s ∈ H1 ), Tk+1 = Tk + τk+1 e le v.a.
Tk , τk+1 , . . . , τk+J sono indipendenti in P , la (8.4.3) si riduce a
P ((Tk ≤ s) ∩ (Tk + τk+1 − s ∈ H1 )) = P (Ns = k)Expλ (H1 ). (8.4.4)
Ora è sufficiente considerare il caso in cui H1 è un intervallo, H1 = [0, c]: poiché Tk e τk+1 sono indipendenti
in P , la densità congiunta è data dal prodotto delle marginali e, ricordando il Lemma 8.1.1, si ha
Z s Z c+s−x !
−λy
P ((Tk ≤ s) ∩ (τk+1 ∈ [s − Tk , c + s − Tk ])) = λe dy Gammak,λ (dx)
0 s−x
Zs
= e−λ(c+s−x) (eλc − 1)Gammak,λ (dx)
0
(sλ)k −λ(c+s) λc
= e (e − 1) = Poissonλs ({k})Expλ ([0, c])
k!
che prova la (8.4.4) con H1 = [0, c].
[Secondo passo] Per il primo passo, Nt − Ns è un processo di Poisson condizionatamente a (Ns = k) e quindi
vale
P (Nt − Ns = n | Ns = k) = Poissonλ(t−s) ({n}) (8.4.5)
per ogni s < t e n, k ∈ N ∪ {0}. Per la formula della probabilità totale si ha

X
P (Nt − Ns = n) = P (Nt − Ns = n | Ns = k)P (Ns = k) =
k≥0
(per la (8.4.5))
X
= Poissonλ(t−s) ({n})P (Ns = k) = Poissonλ(t−s) ({n}), (8.4.6)
k≥0
e questo prova la proprietà i). Inoltre, come conseguenza della (8.4.6), la formula (8.4.5) equivale a
P ((Nt − Ns = n) ∩ (Ns = k)) = P (Ns = k)P (Nt − Ns = n)
che prova che gli incrementi adiacenti Nt − Ns e Ns = Ns − N0 sono indipendenti in P .

Più in generale, verifichiamo che gli incrementi adiacenti Nt − Nr e Nr − Ns , con 0 ≤ s < r < t, sono
indipendenti in P . Ricordando la notazione (8.4.1), si ha
(s) (s) (s)
P ((Nt − Nr = n) ∩ (Nr − Ns = k)) = P ((Nt−s − Nr−s = n) ∩ (Nr−s = k)) =
(per la formula della probabilità totale)

(s) (s) (s)
X
= P ((Nt−s − Nr−s = n) ∩ (Nr−s = k) | Ns = j)P (Ns = j) =
j≥0
(qui usiamo il fatto che N (s) è un processo di Poisson condizionatamente a (Ns = j) e quindi, per quanto
(s) (s) (s) (s)
appena provato, gli incrementi Nt−s − Nr−s e Nr−s sono indipendenti in P (· | Ns = j). Inoltre, Nr−s = Nr − Ns e
(s) (s)
Ns sono indipendenti in P e perciò P (Nr−s = k | Ns = j) = P (Nr−s = k))
(s) (s) (s)
X
= P (Nt−s − Nr−s = n | Ns = j)P (Nr−s = k)P (Ns = j)
j≥0
(s) (s) (s)
= P (Nt−s − Nr−s = n)P (Nr−s = k)
= P (Nt − Nr = n)P (Nr − Ns = k).
Dunque abbiamo provato che, per 0 ≤ s < r < t, l’incremento Nt − Nr è indipendente da X := Nr e da

Y := Nr − Ns : di conseguenza, Nt − Nr è indipendente anche da Ns = X − Y e questo prova la proprietà ii). 2
Capitolo 9
Processi continui
Probability is not a mere

computation of odds on the dice or
more complicated variants; it is the
acceptance of the lack of certainty in
our knowledge and the development
of methods for dealing with our
ignorance.
Nassim Nicholas Taleb
La nozione di continuità per processi stocastici, benché intuitiva, nasconde qualche piccola insidia e va
pertanto analizzata con attenzione. In questo capitolo assumiamo che I sia un intervallo reale della forma
I = [0, T ] oppure I = R≥0 . Inoltre indichiamo con C(I) l’insieme delle funzioni continue da I a valori reali.
9.1 Continuità
Definizione 9.1.1 (Processo continuo q.c.). Un processo stocastico X = (Xt )t∈I sullo spazio (Ω, F , P ) è
continuo quasi certamente (q.c.) se la famiglia delle traiettorie continue
(X ∈ C(I)) := {ω ∈ Ω | X(ω) ∈ C(I)}
è un insieme quasi certo, ossia (X ∈ C(I)) ⊇ A con A ∈ F tale che P (A) = 1.
Osservazione 9.1.2 (Continuità e completezza). Se lo spazio (Ω, F , P ) è completo allora X è continuo

q.c. se e solo se P (X ∈ C(I)) = 1. Se (Ω, F , P ) non è completo, allora non è detto che (X ∈ C(I)) sia un
evento: infatti per definizione di processo stocastico si ha X −1 (H) ∈ F per ogni H ∈ B I ma C(I) < B I (cfr.
Osservazione 6.1.10) e quindi non è necessariamente vero che (X ∈ C(I)) ∈ F . Analogamente, in uno spazio
non completo, anche se X è continuo q.c., non è detto che quantità come

inf I + se I + := {t ∈ I | Xt > 0} , ∅,
Z 

M := sup Xt , J := Xt dt, T :=  (9.1.1)
t∈I I 0
 altrimenti,
siano variabili aleatorie.
Osservazione 9.1.3 (Continuità e continuità q.c.). Sia X un processo continuo q.c. definito sullo spazio
(Ω, F , P ) e sia A come nella Definizione 9.1.1. Allora X è indistinguibile da X̄ := X1A che ha tutte le
263
264 CAPITOLO 9. PROCESSI CONTINUI
traiettorie continue1 . Più esplicitamente, X̄ è definito da


X(ω) se ω ∈ A,


X̄(ω) = 
0
 altrimenti.
Diciamo che X̄ è una versione continua di X. Dunque, a meno di passare ad una versione continua, nel
seguito possiamo eliminare il “q.c.” e considerare processi continui invece di continui q.c.
A questo punto ci si può chiedere perché mai si sia introdotta la definizione di processo continuo q.c.
e non direttamente quella di processo continuo. Il fatto è che di solito si costruisce un processo stocastico,
per esempio il moto Browniano, a partire da una legge assegnata, mediante il Teorema di estensione di
Kolmogorov: in questo modo si riesce a dimostrare2 solo la continuità quasi certa delle traiettorie e quindi
solo in un secondo momento si passa alla versione continua.
Osservazione 9.1.4. Se X = (Xt )t∈I , con I = [0, 1], è un processo continuo allora M, J e T in (9.1.1) sono ben
definite e sono variabili aleatorie. Infatti basta osservare che
M= sup Xt .
t∈[0,1]∩Q
Inoltre J(ω) è ben definito per ogni ω ∈ Ω essendo tutte le traiettorie di X continue e vale
n
1X
J(ω) = lim X k (ω)
n→∞ n n
k=1
essendo l’integrale di una funzione continua uguale al limite delle somme di Riemann. Infine, (I + = ∅) =
(M ≤ 0) ∈ F e dunque anche [
(T < t) = (I + = ∅) ∪ (Xs > 0)
s∈Q∩[0,t[
appartiene a F per ogni 0 < t ≤ 1: questo basta a provare che T ∈ mF .
9.2 Spazio di Wiener e versione canonica di un processo continuo

In questa sezione ci concentriamo sul caso I = [0, 1]. Ricordiamo che C[0, 1] è uno spazio metrico
separabile e completo (ossia è uno spazio polacco) con la distanza uniforme
ϱmax (x, y) = max |xt − yt |, x, y ∈ C[0, 1].

t∈[0,1]
Consideriamo I = [0, 1] solo per semplicità: i risultati di questa sezione si estendono evidentemente al caso
in cui I = [0, T ] o anche I = R≥0 considerando la distanza
X 1
ϱmax (x, y) = min{1, max |xt − yt |}, x, y ∈ C(R≥0 ).
2n t∈[0,n]
n≥1
Indichiamo Bϱmax la σ -algebra di Borel introdotta nella Sezione 2.4.2.
Definizione 9.2.1 (Spazio di Wiener). Lo spazio misurabile (C(I), Bϱmax ) è detto spazio di Wiener.
1 Non possiamo usare (X ∈ C(I)) al posto di A perché se (Ω, F , P ) non è completo allora X1
(X∈C(I)) non sarebbe necessariamente
un processo stocastico.
2 In realtà il discorso è più sottile e verrà precisato nella Sezione 9.3.
9.2. SPAZIO DI WIENER E VERSIONE CANONICA DI UN PROCESSO CONTINUO 265
Secondo la definizione generale, un processo stocastico X = (Xt )t∈I è una funzione misurabile da (Ω, F )
a (RI , B I ). Mostriamo ora che se X è continuo allora è possibile sostituire il codominio (RI , B I ) con lo
spazio di Wiener. Questo fatto non è banale e merita di essere provato rigorosamente. Infatti, in base
all’Osservazione 6.1.10, lo stesso C[0, 1] non appartiene B [0,1] e quindi non è necessariamente vero che
X −1 (C[0, 1]) ∈ F per un generico processo X. Allo stesso modo, i singoletti {w} non sono elementi a B [0,1] e
quindi se
X : (Ω, F ) −→ (R[0,1] , B [0,1] )
è un processo stocastico, non necessariamente (X = w) appartiene a F . Al contrario, nello spazio (C[0, 1], Bϱmax )
i singoletti sono misurabili (sono dischi di raggio zero nella metrica uniforme), ossia {w} ∈ Bϱmax per ogni
w ∈ C[0, 1]. Per interpretare X come processo stocastico (funzione misurabile) a valori in (C[0, 1], Bϱmax )
occorre dunque verificare, in particolare, che (X = w) ∈ F per ogni w ∈ C[0, 1].
Proposizione 9.2.2. Sia X = (Xt )t∈[0,1] un processo stocastico continuo sullo spazio (Ω, F , P ). Allora la
mappa
X : (Ω, F ) −→ (C[0, 1], Bϱmax )
è misurabile e pertanto diciamo che X è un processo stocastico a valori nello spazio di Wiener.
Dimostrazione. Anzitutto mostriamo che Bϱmax è la σ -algebra generata dalla famiglia Ce dei cilindri della
forma3
et (H) := {x ∈ C[0, 1] | xt ∈ H},
C t ∈ [0, 1], H ∈ B. (9.2.1)
Infatti, i cilindri del tipo (9.2.1) con H aperto di R generano σ (Ce) e sono aperti rispetto a ϱmax : di conse-
guenza Bϱmax ⊇ σ (Ce).
Viceversa, poiché (C[0, 1], ϱmax ) è separabile, ogni aperto è unione numerabile di dischi aperti. Quindi
Bϱmax è generata dai dischi aperti che sono insiemi della forma
D(y, r) = {x ∈ C[0, 1] | ϱmax (x, y) < r},
dove y ∈ C[0, 1] è il centro e r > 0 è il raggio del disco. Ora ogni disco si ottiene mediante operazioni
numerabili di unione e intersezione di cilindri di Ce nel modo seguente
[ \
D(y, r) = {x ∈ C[0, 1] | |xt − yt | < r − n1 }.
n∈N t∈[0,1]∩Q
Quindi ogni disco appartiene a σ (Ce) e questo prova l’inclusione opposta.

Proviamo ora la tesi: per quanto appena provato, si ha

X −1 Bϱmax = X −1 σ (Ce) =
(poiché X è continuo)
= X −1 (σ (C )) ⊆ F
dove l’ultima inclusione è dovuta al fatto che X è un processo stocastico.
La Proposizione 9.2.2 permette di dare la seguente
Definizione 9.2.3 (Legge di un processo continuo). Sia X = (Xt )t∈[0,1] un processo continuo sullo spazio
(Ω, F , P ). La legge di X è la distribuzione µX definita su (C[0, 1], Bϱmax ) da
µX (H) = P (X ∈ H), H ∈ Bϱmax .
Dati due processi continui X = (Xt )t∈[0,1] e Y = (Yt )t∈[0,1] , se µX = µY allora diciamo che X e Y sono uguali
d
in legge e scriviamo X = Y .
3 Usiamo la “tilde” per distinguere i cilindri di funzioni continue dai cilindri di R[0,1] definiti in (6.1.1).
Definizione 9.2.4 (Versione canonica di un processo continuo). Sia X = (Xt )t∈[0,1] un processo continuo
sullo spazio (Ω, F , P ). La versione canonica di X è il processo stocastico X
e definito da
e : (C[0, 1], B̂ϱ , µX ) −→ (C[0, 1], Bϱ ),

X X(w)
e := w,
max max
dove B̂ϱmax è il completamento di Bϱmax relativo alla misura µX (cfr. Osservazione 2.4.3).
Osservazione 9.2.5. Le principali proprietà di X

e sono:
i) X
e è uguale in legge a X;
e è definito su uno spazio metrico polacco: questo fatto è rilevante ai fini dell’esistenza della versione
ii) X
regolare della probabilità condizionata (cfr. Teorema 5.3.2) ed è cruciale nello studio delle equazio-
ni differenziali stocastiche. Nel Capitolo 17 faremo ampio uso della versione canonica di processi
continui;
e è definito su uno spazio di probabilità completo in cui gli esiti sono traiettorie, in particolare sono
iii) X
funzioni continue: t 7→ X et (w) ≡ w(t), t ∈ [0, 1]. Questo fatto permette, per esempio, di dare una
caratterizzazione intuitiva della proprietà di Markov forte (cfr. Sezione 12.2).
Osservazione 9.2.6 (Spazio di Skorokhod). Lo spazio di Skorokhod è una generalizzazione dello spazio di
Wiener che interviene nello studio dei processi stocastici discontinui (come, per esempio, il processo di
Poisson). Lo spazio di Skorokhod D(I) è formato dalle funzioni càdlàg (cfr. Definizione 8.2.2) da I in R
(o, più in generale, a valori in uno spazio metrico). Tutti i risultati di questa sezione si estendono al caso
di processi con traiettorie càdlàg q.c. In particolare, è possibile definire su D(I) una metrica, la distanza di
Skorokhod, con la quale D(I) è uno spazio polacco. Ovviamente C(I) è un sotto-spazio di D(I) e si dimostra
che le distanze uniforme e di Skorokhod sono equivalenti su C(I). Il testo [13] fornisce una trattazione
completa sullo spazio di Skorokhod e sulle proprietà di compattezza (tightness) di famiglie di misure di
probabilità su D(I), in analogia con quanto visto nella Sezione 4.3.2.
9.3 Teorema di continuità di Kolmogorov

Il Teorema di estensione di Kolmogorov stabilisce l’esistenza di un processo che abbia una legge asse-
gnata ma non fornisce informazioni sulla regolarità delle traiettorie. In effetti, l’Esempio 6.3.6 mostra che
non si può dir nulla sulla continuità delle traiettorie di un processo a partire dalla sua distribuzione: modi-
ficando4 un processo continuo si può renderlo discontinuo senza cambiarne la legge. Tuttavia se la legge di
un processo X verifica opportune condizioni allora è possibile dimostrare l’esistenza di una modificazione
continua di X: il risultato fondamentale al riguardo è il classico Teorema di continuità di Kolmogorov di cui
forniamo alcune versioni fra cui la più semplice è data dal seguente
Teorema 9.3.1 (Teorema di continuità di Kolmogorov). [!!!] Sia X = (Xt )t∈[0,1] un processo stocastico
reale definito su uno spazio di probabilità (Ω, F , P ). Se esistono tre costanti positive c, ε, p, con p > ε, tali
che
E [|Xt − Xs |p ] ≤ c|t − s|1+ε , t, s ∈ [0, 1], (9.3.1)
allora X ammette una modificazione X e con traiettorie α-Hölderiane per ogni α ∈ [0, ε [: precisamente, per
p
ε
ogni α ∈ [0, p [ e ω ∈ Ω esiste una costante positiva cα,ω , che dipende solo da α e ω, tale che
|X es (ω)| ≤ cα,ω |t − s|α ,

et (ω) − X t, s ∈ [0, 1].
Diamo una dimostrazione del Teorema 9.3.1, ispirata alle idee originali di Kolmogorov, alla fine della
sezione. Consideriamo prima alcuni esempi.
4 Qui “modificare un processo” significa prenderne una modificazione.
9.3. TEOREMA DI CONTINUITÀ DI KOLMOGOROV 267
Esempio 9.3.2. [!] Riprendiamo il Corollario 6.4.6 e consideriamo un processo Gaussiano (Xt )t∈[0,1] con
funzione di media m ≡ 0 e covarianza c(s, t) = s ∧ t. Per definizione, (Xt , Xs ) ∼ N0,Ct,s dove
!
t s∧t
Ct,s =
s∧t s
e quindi Xt − Xs ∼ N0,t+s−2s∧t . È facile provare una stima del tipo (9.3.1): anzitutto non è restrittivo
√
assumere s < t cosicché Xt − Xs = Z t − s con Z ∼ N0,1 ; allora, per ogni p > 0 si ha
p
E [|Xt − Xs |p ] = |t − s| 2 E [|Z|p ]
dove E [|Z|p ] < ∞ è una costante. Per il Teorema di continuità di Kolmogorov, X ammette una modificazione
e che è α-Hölderiana per ogni α < p/2−1 = 1 − 1 . Data l’arbitrarietà di p, si ha che X
X e è α-Hölderiana per
p 2 p
ogni α < 12 .
Esempio 9.3.3. [!] Proviamo ad applicare il criterio (9.3.1) di Kolmogorov ad un processo di Poisson N che
sappiamo avere le traiettorie discontinue: ricordando che Nt − Ns ∼ Poissonλ(t−s) , per p > 0 si ha
∞
X (λ(t − s))n
E [|Nt − Ns |p ] = e−λ(t−s) np =
n!
n=0
(poiché il primo termine della serie è nullo)

∞
X (λ(t − s))n
= e−λ(t−s) np
n!
n=1
∞
X (λ(t − s))n
≥ e−λ(t−s)
n!
n=1

= e−λ(t−s) eλ(t−s) − 1 ≈ λ(t − s) + o(t − s)
per t − s → 0. Ne segue che la stima (9.3.1) non è vera per nessun valore di ε > 0.
Il Teorema 9.3.1 può essere esteso in diverse direzioni: quelle più interessanti riguardano la regolarità
di ordine superiore, l’estensione al caso di I multi-dimensionale e al caso di processi a valori in spazi di
Banach. In tempi relativamente recenti, è stato osservato che il Teorema di continuità di Kolmogorov è
essenzialmente un risultato di natura analitica che può essere dimostrato come corollario del Teorema di
immersione di Sobolev, in una versione molto generale per i cosiddetti spazi di Besov. Riportiamo qui
l’enunciato dato in [68].
Teorema 9.3.4 (Teorema di continuità di Kolmogorov). [!!!] Sia X = (Xt )t∈Rd un processo stocastico reale.
Se esistono k ∈ N0 , 0 < ε < p e δ > 0 tali che
E [|Xt − Xs |p ] ≤ c|t − s|d+ε+kp
per ogni t, s ∈ Rd con |t − s| < δ, allora X ammette una modificazione X

e le cui traiettorie sono differenziabili
fino all’ordine k, con derivate localmente α-Hölderiane per ogni α ∈ [0, pε [.
Il Teorema 9.3.4 si estende anche al caso in cui X sia un processo a valori in uno spazio di Banach: il
seguente esempio è particolarmente rilevante nello studio delle equazioni differenziali stocastiche.
Esempio 9.3.5. Sia (Xtx )t∈[0,1] una famiglia di processi stocastici continui, indicizzata da x ∈ Rd : per quanto

visto nella Sezione 9.2, possiamo considerare X x come un processo a valori in C[0, 1], Bϱmax che è uno
spazio di Banach con la norma del massimo
∥X∥∞ := max |Xt |.

t∈[0,1]
Se vale h p i
E ∥X x − X y ∥∞ ≤ c|x − y|d+ε , x, y ∈ Rd ,
allora esiste una modificazione Xe (ossia X e tale che, per ogni x ∈ Rd , vale5 X
ex = X x q.c.) tale che
ety (ω)) ≤ c |x − y|α ,

Xetx (ω) − X x, y ∈ K,
∞
per ogni K compatto di Rd e α < pε , con c > 0 che dipende solo da ω, α e K.
Dimostrazione del Teorema 9.3.1. Dobbiamo provare che, se X = (Xt )t∈[0,1] è un processo stocastico reale ed
esistono tre costanti p, ε, c > 0 tali che
E [|Xt − Xs |p ] ≤ c|t − s|1+ε , t, s ∈ [0, 1], (9.3.2)
allora X ammette una modificazione Xe con traiettorie α-Hölderiane per ogni α ∈ [0, ε [.
p
Suddividiamo la dimostrazione in quattro passi di cui il terzo è il più tecnico e può essere saltato ad una
prima lettura.
[Primo passo] Combiniamo la disuguaglianza di Markov (4.1.2) con la (9.3.2) per ottenere la stima
E [|Xt − Xs |p ] c|t − s|1+ε

P (|Xt − Xs | ≥ λ) ≤ ≤ , λ > 0. (9.3.3)
λp λp
Kolmogorov si rese conto che dalla (9.3.3) non è possibile ricavare direttamente una stima dell’incremento
Xt − Xs per ogni t, s a causa della non-numerabilità di [0, 1]. La sua idea fu allora di restringere dapprima t, s
alla famiglia numerabile dei razionali diadici di [0, 1] definiti da
[ n o
D= Dn , Dn = 2kn | k = 0, 1, . . . , 2n .
n≥1
Osserviamo che Dn ⊆ Dn+1 per ogni n ∈ N. Due elementi t, s ∈ Dn si dicono consecutivi se |t − s| = 2−n .
[Secondo passo] Stimiamo l’incremento Xt − Xs assumendo che t, s siano consecutivi di Dn : per la (9.3.3) si
ha
P |X kn − X k−1
n
| ≥ 2 −nα
≤ c 2n(αp−1−ε) .
2 2
Allora, posto
[
−nα −nα
An = max |X k − X k−1 | ≥ 2 = |X k − X k−1 | ≥ 2 ,
1≤k≤2n 2n n 2 2n n
2
1≤k≤2n
per la sub-additività di P , si ha
2n
X 2n
X
P (An ) ≤ P |X k − X k−1 |≥2 −nα
≤ c 2n(αp−1−ε) = c 2n(αp−ε) .
2n n2
k=1 k=1

5 Nel senso che P Xex = X x , t ∈ [0, 1] =1.
t t
9.3. TEOREMA DI CONTINUITÀ DI KOLMOGOROV 269
Dunque, se α < pε , si ha
X
P (An ) < ∞
n≥1
e per il Lemma 2.3.28 di Borel-Cantelli P (An i.o.) = 0: questo significa che esiste N ∈ F , con P (N ) = 0, tale
che per ogni ω ∈ Ω \ N esiste nα,ω ∈ N per cui
max |X k (ω) − X k−1 (ω)| ≤ 2−nα , n ≥ nα,ω .
1≤k≤2n 2n n 2
Di conseguenza si ha anche che per ogni ω ∈ Ω \ N esiste cα,ω > 0 tale che
max |X k (ω) − X k−1 (ω)| ≤ cα,ω 2−nα , n ∈ N.
1≤k≤2n 2n n
2
[Terzo passo] Stimiamo l’incremento Xt − Xs con t, s ∈ D, costruendo un’opportuna catena di punti con-
secutivi che congiunge s a t, per poi utilizzare, tramite la disuguaglianza triangolare, la stima ottenuta al
passo precedente. Dunque siano t, s ∈ D con s < t: poniamo
n̄ = min{k | t, s ∈ Dk }, n = max{k | t − s < 2−k },

cosicché n < n̄. Inoltre, per k = n + 1, . . . , n̄, definiamo ricorsivamente la sequenza
sn = max{τ ∈ Dn | τ ≤ s}, sk = sk−1 + 2−k sgn(s − sk−1 )

dove sgn(x) = x
|x|
se x , 0 e sgn(0) = 0. Si definisce (tk )n≤k≤n̄ in modo analogo. Allora sk , tk ∈ Dk e vale
|sk − sk−1 | ≤ 2−k , |tk − tk−1 | ≤ 2−k , k = n + 1, . . . , n̄.

Inoltre si prova che |tn − sn | ≤ 2−n e vale
|s − sk | < 2−k , |t − tk | < 2−k , k = n, . . . , n̄,

da cui sn̄ = s e tn̄ = t. Allora abbiamo
n̄
X n̄
X
Xt − Xs = Xtn − Xsn + (Xtk − Xtk−1 ) − (Xsk − Xsk−1 )
k=n+1 k=n+1
e quindi, per ogni ω ∈ Ω \ N ,

n̄
X
−nα
|Xt (ω) − Xs (ω)| ≤ cα,ω 2 +2 cα,ω 2−kα
k=n+1
∞
X
≤ 2cα,ω 2−kα
k=n
2cα,ω −nα
= 2 ,
1 − 2−α
′ |t − s|α per una certa costante positiva c′ .
da cui segue che |Xt − Xs | ≤ cα,ω α,ω
[Quarto passo] Abbiamo provato che per ogni ω ∈ Ω\N la traiettoria X(ω) è α-Hölderiana su D e quindi si
prolunga in modo unico ad una funzione α-Hölderiana su [0, 1], che indichiamo con X(ω). e Ora definiamo
il processo X e le cui traiettorie sono X(ω)
e se ω ∈ Ω \ N e sono identicamente nulle su N . Proviamo che X e è
una modificazione di X, ossia P (Xt = X et ) = 1 per ogni fissato t ∈ [0, 1]: ciò è ovvio se t ∈ D. D’altra parte, se
t ∈ [0, 1] \ D, consideriamo una successione (tn )n∈N in D che approssima t. Per la (9.3.3), Xtn converge a Xt
in probabilità e quindi anche puntualmente, a meno di passare ad una sotto-successione: poiché Xtn = X et
n
q.c., si ha anche Xt = X et q.c. e questo conclude la prova.
Capitolo 10
Moto Browniano
In this section we will define

Brownian motion and construct it.
This event, like the birth of a child, is
messy and painful, but after a while
we will be able to have fun with our
new arrival.
Richard Durrett
Il moto Browniano è in assoluto il processo stocastico più importante. Deve il nome al botanico Robert
Brown per le sue osservazioni, attorno al 1820, sul movimento casuale di granelli di polline in sospensione
in una soluzione. Il moto Browniano fu utilizzato da Louis Bachelier nel 1900 nella sua tesi di dottorato
come modello per il prezzo dei titoli azionari e fu studiato da Albert Einstein in uno dei suoi famosi articoli
del 1905. La prima definizione matematica rigorosa di moto Browniano è dovuta a Norbert Wiener nel
1923.
10.1 Definizione
Definizione 10.1.1 (Moto Browniano). [!!!] Sia W = (Wt )t≥0 un processo stocastico reale definito su uno
spazio di probabilità con filtrazione (Ω, F , P , (Ft )t≥0 ). Diciamo che W è un moto Browniano se verifica le
seguenti proprietà:
i) W0 = 0 q.c.;
ii) W è continuo q.c.;
iii) W è adattato a (Ft )t≥0 , ossia Wt ∈ mFt per ogni t ≥ 0;
iv) Wt − Ws è indipendente da Fs per ogni t ≥ s ≥ 0;
v) Wt − Ws ∼ N0,t−s per ogni t ≥ s ≥ 0.
Osservazione 10.1.2. Commentiamo brevemente le proprietà della Definizione 10.1.1: per la i) un moto
Browniano parte dall’origine. La ii) assicura che quasi tutte le traiettorie di W sono continue. Inoltre
W è adattato alla filtrazione (Ft ): questo significa che, in ogni fissato istante t, le informazioni in Ft sono
sufficienti ad osservare Wt . Le iv) e v) sono meno intuitive ma possono essere giustificate da alcune note
proprietà, osservabili a livello statistico, dei moti casuali. Come per il processo di Poisson, la iv) e v) sono
chiamate rispettivamente proprietà di indipendenza e stazionarietà degli incrementi (cfr. Definizione 7.3.1).
271
272 CAPITOLO 10. MOTO BROWNIANO
0.3
0.2
0.1
0.2 0.4 0.6 0.8 1.0
-0.1
-0.2
Figura 10.1: Grafico di una traiettoria di un moto Browniano.
In particolare, Wt − Ws è uguale in legge a Wt−s . In Figura 10.1 è rappresentato il grafico di una traiettoria
di un moto Browniano.
Osservazione 10.1.3. Nella Definizione 10.1.1 la filtrazione (Ft )t≥0 non è necessariamente quella generata
da W e indicata (GtW )t≥0 (cfr. Definizione 6.5.3). Chiaramente la proprietà iii) del moto Browniano implica
che GtW ⊆ Ft per ogni t ≥ 0. Vedremo nella Sezione 11.2 che è generalmente preferibile lavorare con
filtrazioni strettamente più grandi di G W affinché siano soddisfatte opportune ipotesi di carattere tecnico
fra cui, per esempio, la completezza.
Diamo un’utile caratterizzazione del moto Browniano.
Proposizione 10.1.4. [!] Un processo stocastico continuo q.c. W = (Wt )t≥0 è un moto Browniano relativa-
mente alla filtrazione (GtW )t≥0 generata da W se e solo se è un processo Gaussiano con funzione di media
nulla e funzione di covarianza cov(Ws , Wt ) = s ∧ t.
Dimostrazione. Sia W un moto Browniano su (Ω, F , P , (GtW )t≥0 ). Per ogni 0 = t0 < t1 < · · · < tn , le variabili
aleatorie Zk := Wtk −Wtk−1 , hanno distribuzione normale; inoltre, per le proprietà iii) e v) del moto Brownia-
no, Zk è indipendente da GtW k−1
e quindi da Z1 , . . . , Zk−1 ∈ mGtW
k−1
. Questo prova che (Z1 , . . . , Zn ) è un vettore
multi-normale con componenti indipendenti. Anche (Wt1 , . . . , Wtn ) è multi-normale perché si ottiene da
(Z1 , . . . , Zn ) mediante la trasformazione lineare
h
X
Wth = Zk , h = 1, . . . , n,
k=1
e questo prova che W è un processo Gaussiano. Osserviamo anche che, assumendo s < t, si ha
cov(Ws , Wt ) = cov(Ws , Wt − Ws + Ws ) = cov(Ws , Wt − Ws ) + var(Ws ) = s
per l’indipendenza di Ws e Wt − Ws : questo prova che cov(Ws , Wt ) = s ∧ t.
Viceversa, sia W un processo Gaussiano con funzione di media nulla e funzione di covarianza cov(Ws , Wt ) =
s ∧t. Poiché E [W0 ] = var(W0 ) = 0 si ha W0 = 0 q.c. Le proprietà ii) e iii) della definizione di moto Browniano
sono ovvie. Per provare la v) basta osservare che, se s < t, si ha
var(Wt − Ws ) = var(Wt ) + var(Ws ) − 2cov(Wt , Ws ) = t + s − 2s ∧ t = t − s.
Infine, dati τ ≤ s < t, il vettore (Wt − Ws , Wτ ) ha distribuzione normale perché combinazione lineare di
(Wτ , Ws , Wt ) e
cov(Wt − Ws , Wτ ) = cov(Wt , Wτ ) − cov(Ws , Wτ ) = τ − τ = 0.
Di conseguenza, Wt − Ws e Wτ sono indipendenti: poiché W è Gaussiano, ne segue anche che Wt − Ws è

indipendente da (Wτ1 , . . . , Wτn ) per ogni τ1 , . . . , τn ≤ s. Allora, per il Lemma 3.3.20, Wt − Ws è indipendente
da GsW e questo dimostra la validità della proprietà iv).
Corollario 10.1.5. Dato un moto Browniano W , la sua versione canonica W f (cfr. Definizione 9.2.4) è defini-
ta sullo spazio campionario delle funzioni continue, è un moto Browniano rispetto alla filtrazione generata
G W e assume valori nello spazio di Wiener (quindi ha tutte le traiettorie continue). La legge di W f, come
f
misura di probabilità sui Boreliani di C[0, +∞[, è detta misura di Wiener.

Esistono numerose dimostrazioni dell’esistenza di un moto Browniano: qui vediamo il risultato come
un corollario dei Teoremi di estensione e continuità di Kolmogorov.
Teorema 10.1.6. Un moto Browniano esiste.
Dimostrazione. Il passo principale è la costruzione di un moto Browniano sull’intervallo temporale limitato
[0, 1]. Per il Teorema di estensione di Kolmogorov (in particolare, per il Corollario 6.4.6) esiste un processo
(0) (0) (0)
Gaussiano W (0) = (Wt )t∈[0,1] con funzione di media nulla e funzione di covarianza cov(Ws , Wt ) = s ∧ t.
Per il Teorema di continuità di Kolmogorov e l’Esempio 9.3.2, W (0) ammette una modificazione continua
che, per la Proposizione 10.1.4, verifica le proprietà del moto Browniano su [0, 1].
Ora prendiamo una successione (W (n) )n∈N di copie indipendenti di W (0) . “Incolliamo” tali processi
(0)
definendo Wt = Wt per t ∈ [0, 1] e
[t]−1
(k)
X [t]
Wt = W1 + Wt−[t] , t > 1,
k=0
dove [t] indica la parte intera di t. Allora si prova facilmente che W è un moto Browniano.
Osservazione 10.1.7. Per quanto visto nell’Esempio 9.3.2, un moto Browniano ammette una modificazione
con traiettorie non solo continue ma anche localmente α-Hölderiane per ogni α < 21 . L’esponente α è stret-
tamente minore di 12 e tale risultato non è migliorabile: per maggiori dettagli rimandiamo, per esempio, al
Cap.7 in [6]. Un classico risultato, la Legge del logaritmo iterato, descrive precisamente il comportamento
asintotico degli incrementi Browniani: vale
|Wt |
lim sup q =1 q.c.
t→0+ 2t log log 1t
Di conseguenza, quasi certamente le traiettorie di un moto Browniano non sono differenziabili in nessun
punto: precisamente, esiste N ∈ F , con P (N ) = 0, tale che per ogni ω ∈ Ω \ N la funzione t 7→ Wt (ω) non è
differenziabile in nessun punto di [0, +∞[.
10.2 Proprietà di Markov e di Feller

Sia W = (Wt )t≥0 un moto Browniano su (Ω, F , P , (Ft )t≥0 ). Fissati t ≥ 0 e x ∈ R, poniamo
WTt,x := WT − Wt + x, T ≥ t.
t,x

Il processo W t,x = WT è chiamato moto Browniano di punto iniziale x al tempo t poiché gode delle
T ≥t
seguenti proprietà:
i) Wtt,x = x;
ii) quasi certamente le traiettorie T 7→ WTt,x sono funzioni continue;

iii) WTt,x ∈ mFT per ogni T ≥ t;
iv) WTt,x − WSt,x è indipendente da FS per ogni t ≤ S ≤ T ;
v) WTt,x − WSt,x ∼ N0,T −S per ogni t ≤ S ≤ T .

Osservazione 10.2.1. Notiamo esplicitamente che la filtrazione (FT )T ≥t è strettamente più grande della
filtrazione generata da W t,x : per esempio, per T = t > 0 si ha ovviamente σ (Wtt,x ) = {∅, Ω} ⊂ σ (Wt ) ⊆ Ft .
Per la Proposizione 7.3.2 vale il seguente
Teorema 10.2.2 (Proprietà di Markov). [!]
Sia W = (Wt )t≥0 un moto Browniano su (Ω, F , P , (Ft )t≥0 ). Allora W è un processo di Markov con densità di
transizione Gaussiana
(x−y)2
1 − 2(T −t)
Γ (t, x; T , y) = p e , 0 ≤ t < T , x, y ∈ R,
2π(T − t)
e di conseguenza per ogni ϕ ∈ bB si ha

Z
E [ϕ(WT ) | Ft ] = Γ (t, Wt ; T , y)ϕ(y)dy,
R
o equivalentemente
Z
E [ϕ(WT ) | Wt = x] = Γ (t, x; T , y)ϕ(y)dy. (10.2.1)
R
Nel prossimo enunciato Z

u(h, x) := Γ (0, x; h, y)ϕ(y)dy (10.2.2)
R
indica la funzione che appare nell’espressione (10.2.1) dell’attesa condizionata.
Teorema 10.2.3. [!] Se ϕ ∈ bC(R) allora u ∈ C ∞ (R>0 × R) ∩ C (R≥0 × R) e risolve il problema di Cauchy

1
∂h u(h, x) = 2 ∂xx u(h, x), h > 0, x ∈ R,


(10.2.3)
u(0, x) = ϕ(x)

 x ∈ R.
Dimostrazione. Abbiamo già provato nell’Esempio 7.5.3 che u ∈ C ∞ (R>0 × R) e risolve l’equazione differen-
ziale in (10.2.3), essendo G = 12 ∂xx il generatore infinitesimale della distribuzione di transizione Gaussiana.
D’altra parte, un conto analogo a quello svolto nell’Esempio 4.1.3, mostra che
lim u(h, x) = ϕ(y)

(h,x)→(0,y)
h>0
e quindi u ∈ C (R≥0 × R) e u(0, ·) = ϕ. Si noti che l’ipotesi ϕ ∈ bC(R) serve solo1 a dimostrare la continuità
di u(h, x) fino a h = 0.
Abbiamo provato nell’Esempio 7.4.6 la seguente
Proposizione 10.2.4. Il moto Browniano verifica la proprietà di Feller forte.
Osservazione 10.2.5. [!] L’attesa condizionata E [ϕ(WT ) | Ft ] può essere approssimata numericamente in
diversi modi:
1 u ∈ C ∞ (R × R) per ogni ϕ ∈ bB.
>0
• con il metodo Monte Carlo, sfruttando la rappresentazione come valore atteso in (10.2.2);
• con un metodo di integrazione numerica utilizzando la rappresentazione integrale in (10.2.2);
• con un metodo di approssimazione numerica per il problema di Cauchy (10.2.3).
Viceversa, la rappresentazione probabilistica (10.2.2) della soluzione del problema di Cauchy (10.2.3) apre
la strada all’utilizzo dei metodi numerici stocastici per la risoluzione di equazioni alle derivate parziali.
Ricordiamo che per l’Osservazione 7.5.1 il generatore infinitesimale può essere interpretato come una
derivata direzionale media di ϕ lungo le traiettorie Browniane T 7→ WTt,x che partono dal punto x: è interes-
sante il fatto che tale derivata direzionale media sia la derivata seconda rispetto al punto di partenza del
processo.
Osservazione 10.2.6 (Equazione del calore). L’operatore differenziale
1
H= ∂ − ∂h , (h, x) ∈ R2 ,
2 xx
che appare in (10.2.3) è chiamato operatore del calore forward: esso interviene nei modelli che descrivono il
fenomeno fisico della diffusione del calore in un corpo. Precisamente, la soluzione u(h, x) del problema di
Cauchy (10.2.3) rappresenta la temperatura, al tempo h e nella posizione x, di un corpo di lunghezza infinita di
cui è assegnata la temperatura ϕ al tempo iniziale 0.
Nella teoria delle equazioni differenziali, Γ è detta soluzione fondamentale dell’operatore del calore poiché,
tramite la formula risolutiva (10.2.2), fornisce la soluzione problema (10.2.3) per ogni dato iniziale ϕ.
Si dimostra anche che u in (10.2.2) è l’unica soluzione limitata di (10.2.3). Uno dei legami profondi fra
la teoria dei processi stocastici e quella delle equazioni alle derivate parziali è il fatto che la densità di
transizione di alcuni processi (ad esempio, il moto Browniano) è la soluzione fondamentale di un opportuno
operatore differenziale (l’operatore del calore nel caso del moto Browniano). Nella Sezione 19.2 diamo una
trattazione generale sulla risolubilità del problema di Cauchy per equazioni alle derivate parziali di tipo
parabolico e nel Capitolo 21 approfondiamo tale legame nel caso delle equazioni differenziali stocastiche.
L’operatore differenziale
1
H∗ = ∂xx + ∂t (10.2.4)
2
è chiamato operatore del calore backward e si ottiene formalmente da H per integrazione per parti:
" "
(Hf )gdxdt = f (H∗ g)dxdt
per ogni coppia di funzioni test f , g. Per questo motivo si dice anche che H∗ è l’operatore aggiunto di
H: esso interviene in modo naturale in finanza matematica, nella valutazione di certi strumenti finanziari
complessi, detti derivati, di cui è noto il valore futuro Φ e il prezzo attuale è dato dalla soluzione di un
problema di Cauchy per H∗ con dato finale Φ.
10.2.1 Distribuzioni finito-dimensionali

La proprietà di Markov permette di determinare l’espressione esplicita delle distribuzioni finito-di-
mensionali di W e, più precisamente, della densità del vettore (Wt1 , . . . , Wtn ). Come conseguenza della
Proposizione 7.4.1 (in particolare, la formula (7.4.2)) abbiamo il seguente
Teorema 10.2.7 (Distribuzioni finito-dimensionali). [!] Sia W = (Wt )t≥0 un moto Browniano. Per ogni
0 < t1 < · · · < tn , il vettore (Wt1 , . . . , Wtn ) ha distribuzione multi-normale con densità
γ(Wt
1
,...,Wtn ) (x1 , . . . , xn ) = Γ (0, 0; t1 , x1 )Γ (t1 , x1 ; t2 , x2 ) · · · Γ (tn−1 , xn−1 ; tn , xn ).
Esempio 10.2.8. [!] Siano W un moto Browniano reale e 0 < t < T . Abbiamo le seguenti espressioni per le
densità congiunte di Wt e WT :
(T x −2txy+ty ) 2 2
1 −
γ(Wt ,WT ) (t, x; T , y) = γ(WT ,Wt ) (T , y; t, x) = p e 2t(T −t) .
2π t(T − t)
Per la Proposizione 5.3.20 abbiamo le densità condizionate
γ(WT ,Wt ) (T , y; t, x)
γWT |Wt (T , y; t, x) = = Γ (t, x; T , y),
γWt (t, x)
2
T x− Tt y
( )
γ(Wt ,WT ) (t, x; T , y) 1 −
γWt |WT (t, x; T , y) = =q e 2t(T −t) .
γWT (T , y) t(T −t)
2π T
Dunque, in accordo col Teorema 10.2.2, abbiamo

µWT |Wt = NWt ,T −t .
Inoltre si ha anche
µWt |WT = N t W t(T −t) .
T T, T
10.3 Martingale Browniane

Proposizione 10.3.1. Il moto Browniano è una martingala.
Dimostrazione. Sia W un moto Browniano sullo spazio (Ω, F , P , (Ft )t≥0 ). Per la disuguaglianza di Hölder
si ha
h i1 √
E [|Wt |] ≤ E Wt2 2 = t
e quindi W è un processo sommabile. La tesi segue dalla Proposizione 7.3.4, essendo W un processo a
media costante nulla e incrementi indipendenti.
Esempio 10.3.2. [!] Due esempi notevoli di martingale costruite a partire da un moto Browniano sono:
i) la martingala quadratica
(1)
Mt = Wt2 − t;
ii) la martingala esponenziale
(2) σ2 t
Mt = eσ Wt − 2 ,
dove σ ∈ R è un parametro fissato.
Per 0 ≤ t ≤ T si ha

(1)
h i h i
E MT | Ft = E (WT − Wt + Wt )2 | Ft − T = E (WT − Wt )2 | Ft +2Wt E [WT − Wt | Ft ] +Wt2 − T = Wt2 − t.
| {z } | {z }
=T −t =0
La proprietà di martingala di M (2) si prova in modo analogo.

Diamo un’utile caratterizzazione del moto Browniano in termini di martingale esponenziali. Conside-
riamo il processo
η η2
Mt = eiηWt + 2 t (10.3.1)
dove i è l’unità immaginaria, W è un moto Browniano e η ∈ R. Per l’Esempio 10.3.2 Mη è una martingala e
viceversa vale la seguente
10.3. MARTINGALE BROWNIANE 277
Proposizione 10.3.3. Sia W un processo continuo definito sullo spazio (Ω, F , P , (Ft )) e tale che W0 = 0 q.c.
Se per ogni η ∈ R il processo M η in (10.3.1) è una martingala, allora W è un moto Browniano.
Dimostrazione. È sufficiente verificare che per 0 ≤ s ≤ t:
i) Wt − Ws ha distribuzione normale N0,t−s ;
ii) Wt − Ws è indipendente da Fs .
η
La proprietà di martingala di Mt equivale a
h i η2
E eiη(Wt −Ws ) | Fs = e− 2 (t−s) , η ∈ R.
Applicando il valore atteso ricaviamo la funzione caratteristica di Wt − Ws :

h i η2
E eiη(Wt −Ws ) = e− 2 (t−s) , η ∈ R,
da cui la tesi, anche in base al punto 14) del Teorema 5.2.10.
Il seguente risultato fornisce un metodo generale per costruire altre martingale componendo un moto
Browniano con una funzione f = f (t, x) sufficientemente regolare. Assumiamo su f anche una condizione
di crescita del tipo
α
|f (t, x)| ≤ cT ecT |x| , (t, x) ∈ [0, T ] × R, (10.3.2)
con cT costante positiva dipendente da T e α ∈ [0, 2[: ciò garantisce la sommabilità di f quando è integrata
contro la Gaussiana Γ . Nel seguente enunciato W indica un moto Browniano sullo spazio (Ω, F , P , (Ft )t≥0 )
e H∗ è l’operatore del calore backward in (10.2.4).
Teorema 10.3.4. [!] Sia f = f (t, x) ∈ C 1,2 (R≥0 × R) che verifica, insieme alle sue derivate prime e seconde, la
condizione di crescita (10.3.2). Allora il processo
Z t
Mt := f (t, Wt ) − (H∗ f )(s, Ws )ds, t ≥ 0,
0
è una martingala.
Dimostrazione. Per ogni s > t e x ∈ R, si ha

h i Z
t,x
∂s E f (s, Ws ) = ∂s Γ (t, x; s, y)f (s, y) dy =
R
(essendo ∂s Γ (t, x; s, y) = 12 ∂yy Γ (t, x; s, y))

Z Z
1
= ∂yy Γ (t, x; s, y)f (s, y)dy + Γ (t, x; s, y)∂s f (s, y)dy =
R2 R
(integrando per parti nel primo integrale)

Z
= Γ (t, x; s, y)(H∗ f )(s, y)dy.
R
Posto x = Wt nella precedente formula, per la proprietà di Markov (nella forma (7.2.2)), si ha
∂s E [f (s, Ws ) | Ft ] = E [(H∗ f )(s, Ws ) | Ft ] .

Ora integriamo in s fra t e T per ottenere

Z T
E [f (T , WT ) | Ft ] − f (t, Wt ) = E [(H∗ f )(s, Ws ) | Ft ] ds.
t
È un semplice verifica2 il fatto che si possano scambiare i segni di integrale e attesa condizionata nel
membro a destra e quindi vale
Z T "Z T #
∗ ∗
E [(H f )(s, Ws ) | Ft ] ds = E (H f )(s, Ws )ds | Ft .
t t
Combinando le formule precedenti, otteniamo

" Z T #
∗
E [MT − Mt | Ft ] ≡ E f (T , WT ) − f (t, Wt ) − (H f )(s, Ws )ds | Ft = 0
t
che conclude la prova.
2 Infatti Z ∈ mσ (W ) e per ogni G ∈ F si ha

t t
" ZT #
E [Z1G ] = E 1G E [(H∗ f )(s, Ws ) | Ft ] ds =
t
ZT
= E [1G E [(H∗ f )(s, Ws ) | Ft ]] ds
t
ZT
= E [1G (H∗ f )(s, Ws )] ds =
t
(riapplicando il Teorema di Fubini)
"Z T #
=E 1G (H∗ f )(s, Ws )ds .
t
Capitolo 11
Tempi d’arresto
n
B > n1
P
xi
i=1
(Be greater than average)
Kennedy Space Center
I tempi d’arresto sono uno strumento fondamentale nello studio dei processi stocastici: si tratta di
particolari tempi aleatori che soddisfano una proprietà di coerenza rispetto all’assegnata filtrazione delle
informazioni. I tempi d’arresto sono lo strumento cruciale per la prova di alcuni risultati profondi sulla
struttura delle martingale: il teorema di optional sampling, le disuguaglianze massimali e il lemma di
upcrossing. Le difficoltà principali della prova di questi risultati sono già evidenti in ambito discreto. Per
passare al tempo continuo sarà necessario introdurre ulteriori ipotesi sulle filtrazioni, le cosiddette ipotesi
usuali. La seconda parte del capitolo raccoglie alcuni risultati di carattere tecnico: si mostra come ampliare
le filtrazioni di processi di Markov e di altre classi importanti di processi stocastici, in modo da garantire le
ipotesi usuali mantenendo valide le proprietà dei processi.
11.1 Il caso discreto

In questa sezione consideriamo il caso in cui ci siano un numero finito di istanti temporali e per questo
fissiamo uno spazio di probabilità con filtrazione (Ω, F , P , (Fn )n=0,1,...,N ) con N ∈ N fissato.
Definizione 11.1.1 (Tempo d’arresto discreto). Un tempo d’arresto discreto è una variabile aleatoria
τ : Ω −→ {0, 1, . . . , N , ∞}
tale che
(τ = n) ∈ Fn , n = 0, . . . , N . (11.1.1)
Usiamo il simbolo “∞” per indicare un numero fissato non appartenente all’insieme {0, 1, . . . , N } degli
istanti temporali considerati: il motivo dell’utilizzo di tale simbolo sarà più chiaro in seguito, per esempio
nell’Esempio 11.1.3. Assumiamo ∞ > N cosicché
(τ ≥ n) := (τ = n) ∪ · · · ∪ (τ = N ) ∪ (τ = ∞)
per ogni n = 0, . . . , N .
Osservazione 11.1.2. Notiamo che:
279
280 CAPITOLO 11. TEMPI D’ARRESTO
i) la condizione (11.1.1) equivale a
(τ ≤ n) ∈ Fn , n = 0, 1, . . . , N ;
ii) si ha
(τ ≥ n + 1) = (τ ≤ n)c ∈ Fn , n = 0, . . . , N , (11.1.2)
e in particolare (τ = ∞) ∈ FN ;
iii) se τ, σ sono tempi d’arresto allora τ ∧ σ e τ ∨ σ sono tempi d’arresto poiché
(τ ∧ σ ≤ n) = (τ ≤ n) ∪ (σ ≤ n), (τ ∨ σ ≤ n) = (τ ≤ n) ∩ (σ ≤ n), n = 0, . . . , N ;
iv) i tempi costanti sono tempi d’arresto: precisamente, se τ ≡ k per un certo k ∈ {0, . . . , ∞}, allora τ è un
tempo d’arresto.
Esempio 11.1.3 (Tempo d’uscita). Dati X = (Xn )n=0,1,...,N , processo adattato a valori reali e H ∈ B, poniamo
J(ω) = {n | Xn (ω) < H}, ω ∈ Ω.
Il primo tempo d’uscita di X da H è definito da


min J(ω) se J(ω) , ∅,


τ(ω) = 
∞
 altrimenti.
D’ora in poi adotteremo la convenzione min ∅ = ∞ e quindi scriveremo in modo più compatto
τ = min{n | Xn < H}.
È facile vedere che τ è un tempo d’arresto: infatti (τ = 0) = (X0 < H) ∈ F0 e si ha
(τ = n) = (X0 ∈ H) ∩ · · · ∩ (Xn−1 ∈ H) ∩ (Xn < H) ∈ Fn , n = 1, . . . , N .
Al contrario, l’ultimo tempo di uscita


max J(ω) se J(ω) , ∅,


τ̄(ω) = 
∞
 altrimenti,
non è un tempo d’arresto.

Notazione 11.1.4. Dati un tempo d’arresto discreto τ e un processo stocastico X = (Xn )n=0,1,...,N , poniamo
Xτ := Xτ∧N ossia, per ogni ω ∈ Ω,

Xτ(ω) (ω) se τ(ω) ∈ {0, . . . , N },


(Xτ )(ω) := 
XN (ω)
 se τ(ω) = ∞,
Fτ := {A ∈ F | A ∩ (τ = n) ∈ Fn per ogni n = 0, . . . , N }. (11.1.3)
È facile provare che Fτ è una σ -algebra: infatti, per esempio, se A ∈ Fτ allora Ac ∩ (τ = n) = (τ = n) \

(A ∩ (τ = n)) ∈ Fn e quindi Ac ∈ Fτ . Notiamo che F∞ (ossia Fτ con τ ≡ ∞) è uguale a F .
La seguente proposizione raccoglie altre utili proprietà di Fτ .
Proposizione 11.1.5. Dati τ, σ tempi d’arresto discreti, si ha:

i) se τ ≡ k per un certo k ∈ {0, . . . , N } allora Fτ = Fk ;
ii) se τ ≤ σ allora Fτ ⊆ Fσ ;
iii) (τ ≤ σ ) ∈ Fτ ∩ Fσ ;
iv) se X = (Xn )n=0,...,N è un processo adattato allora Xτ ∈ mFτ .
Dimostrazione. La i) segue dal fatto che se τ ≡ k allora

A se k = n,


A ∩ (τ = n) = 
∅ se k , n.

Per quanto riguarda la ii) basta osservare che, dato n ∈ {0, . . . , N }, se τ ≤ σ allora (σ = n) ⊆ (τ ≤ n) e di
conseguenza per ogni A ∈ Fτ si ha
A ∩ (σ = n) = A ∩ (τ ≤ n) ∩ (σ = n) .
| {z } | {z }
∈Fn ∈Fn
La iii) segue dal fatto che, ricordando la (11.1.2),

(τ ≤ σ ) ∩ (τ = n) = (σ ≥ n) ∩ (τ = n) ∈ Fn ,
(τ ≤ σ ) ∩ (σ = n) = (τ ≤ n) ∩ (σ = n) ∈ Fn .
Infine, consideriamo H ∈ B: per provare che (Xτ ∈ H) ∈ Fτ basta osservare che
(Xτ ∈ H) ∩ (τ = n) = (Xn ∈ H) ∩ (τ = n) ∈ Fn , n = 0, . . . , N .
Questo prova la iv).
Definizione 11.1.6 (Processo stoppato). Dati un processo X = (Xn )n=0,...,N e un tempo d’arresto τ, il pro-
cesso stoppato X τ = (Xnτ )n=0,...,N è definito da
Xnτ = Xn∧τ , n = 0, . . . , N .
Proposizione 11.1.7. Si ha:
i) se X è adattato anche X τ lo è;
ii) se X è una sub-martingala anche X τ lo è.
Dimostrazione. La i) segue dal fatto che, per n = 0, . . . , N , si ha1
τ∧n
X
Xτ∧n = X0 + (Xk − Xk−1 )
k=1
n
X
= X0 + (Xk − Xk−1 )1(k≤τ) ,
k=1
e, per la (11.1.2), (k ≤ τ) ∈ Fk−1 . La ii) segue applicando l’attesa condizionata a Fn−1 all’identità
Xnτ − Xn−1
τ
= (Xn − Xn−1 )1(τ≥n) , n = 1, . . . , N ,
e ricordando che (τ ≥ n) ∈ Fn−1 .
0
1 Con la convenzione P · · · = 0
k=1
Dalla Proposizione 11.1.7 segue anche che se X è una martingala (o una super-martingala) anche X τ lo
è. Lasciamo per esercizio la prova del seguente
Lemma 11.1.8. Siano X ∈ L1 (Ω, F , P ) e Z ∈ L1 (Ω, G , P ), dove G è una sotto-σ -algebra di F . Allora2 Z ≤
E [X | G ] se e solo se
E [Z1G ] ≤ E [X1G ] per ogni G ∈ G .
Proposizione 11.1.9. Sia X = (Xn )n=0,1,...,N un processo sommabile e adattato su (Ω, F , P , (Fn )n=0,1,...,N ). Le
seguenti proprietà sono equivalenti:
i) X è una sub-martingala;
ii) per ogni coppia di tempi d’arresto σ , τ si ha
Xτ∧σ ≤ E [Xτ | Fσ ] ;
iii) per ogni tempo d’arresto τ0 il processo stoppato X τ0 è una sub-martingala.

Dimostrazione. [i) =⇒ ii)] Osserviamo che
X
Xτ = Xτ∧σ + (Xk − Xk−1 ) = (11.1.4)
σ <k≤τ
(ricordando che, per la Notazione 11.1.4, Xτ = Xτ∧N )

N
X
= Xτ∧σ + (Xk − Xk−1 )1(σ <k≤τ) .
k=1
Ora, per i punti ii) e iv) della Proposizione 11.1.5, Xτ∧σ ∈ mFτ∧σ ⊆ mFσ e quindi condizionando (11.1.4) a
Fσ si ha
N
X h i
E [Xτ | Fσ ] = Xτ∧σ + E (Xk − Xk−1 )1(σ <k≤τ) | Fσ .
k=1
h i
Per concludere è sufficiente provare che E (Xk − Xk−1 )1(σ <k≤τ) | Fσ ≥ 0 per k = 1, . . . , N o equivalentemente,
grazie al Lemma 11.1.8,
h i h i
E Xk−1 1(σ <k≤τ) 1G ≤ E Xk 1(σ <k≤τ) 1G , G ∈ Fσ , k = 1, . . . , N . (11.1.5)
La (11.1.5) segue dalla proprietà di sub-martingala di X una volta osservato che, per definizione di Fσ e
per l’Osservazione 11.1.2-ii), vale
(σ < k ≤ τ) ∩ G = (σ < k) ∩ G ∩ (τ ≥ k) .
| {z } | {z }
∈Fk−1 ∈Fk−1
[ii) =⇒ iii)] Per il punto ii) con τ = τ0 ∧ n e σ = n − 1 si ha

h i
Xτ0 ∧(n−1) ≤ E Xτ0 ∧n | Fn−1 , n = 1, . . . , N ,
da cui la proprietà di sub-martingala di X τ0 .

[iii) =⇒ i)] La tesi è immediata scegliendo τ0 ≡ ∞.
2 Z ≤ E [X | G ] significa Z ≤ Y q.c. se Y = E [X | G ].
11.1.1 Optional sampling, disuguaglianze massimali e lemma di upcrossing

Il seguente risultato è immediata conseguenza della Proposizione 11.1.9 (si ricordi anche la Notazione
11.1.4).
Teorema 11.1.10 (Teorema di optional sampling). [!!!] Sia X = (Xn )n=0,...,N una sub-martingala sullo
spazio (Ω, F , P , (Fn )n=0,...,N ). Se τ, σ sono tempi d’arresto discreti tali che σ ≤ τ allora
Xσ ≤ E [Xτ | Fσ ] . (11.1.6)
Se X è una martingala (rispettivamente, una super-martingala) allora la (11.1.6) diventa un’uguaglianza

(rispettivamente, si inverte il senso della disuguaglianza).
Proviamo ora due importanti conseguenze del Teorema di optional sampling:
• le disuguaglianze massimali di Doob che forniscono una stima del massimo di una martingala ossia di
“quanto grande” può essere una martingala;
• il Lemma di risalita (Upcrossing lemma) che fornisce una stima sul comportamento locale di una
martingala e in particolare di “quante volte può oscillare intorno ad un intervallo”.
Una caratteristica fondamentale di entrambi i risultati è di fornire stime che dipendono solo dal valore
finale della martingala e non dal numero N di istanti temporali considerato: questo fatto cruciale permetterà
di passare “facilmente” dal caso discreto a quello continuo come vedremo nel Capitolo 13.
Teorema 11.1.11 (Disuguaglianze massimali di Doob). [!!] Sia M = (Mn )n=0,1,...,N una martingala o una
sub-martingala non-negativa sullo spazio (Ω, F , P , (Fn )n=0,1,...,N ). Allora:
i) per ogni λ > 0 vale
E [|MN |]

P max |Mn | ≥ λ ≤ ; (11.1.7)
0≤n≤N λ
ii) per ogni p > 1 vale !p
p

p
E max |Mn | ≤ E [|MN |p ] . (11.1.8)
0≤n≤N p−1
Dimostrazione. La (11.1.7) è una versione della disuguaglianza di Markov (4.1.2), con p = 1, per le mar-
tingale discrete. Se M è una martingala allora, per la Proposizione 6.5.11, |M| è una sub-martingala non-
negativa: dunque basta provare la tesi nell’ipotesi che M sia una sub-martingala non-negativa. In tal caso
indichiamo con τ il primo istante in cui M supera il livello λ,
τ = min{n | Mn ≥ λ},
e poniamo
M̄ = max Mn .
0≤n≤N
Per l’Esempio 11.1.3 e l’Osservazione 11.1.2-ii), τ è un tempo d’arresto e vale (M̄ ≥ λ) ∈ Fτ∧N poiché
(M̄ ≥ λ) ∩ (τ ∧ N = n) = (τ ≤ N ) ∩ (τ ∧ N = n) = (τ = n) ∈ Fn , n = 0, . . . , N .
Allora si ha
h i h i
λP (M̄ ≥ λ) = E λ1(M̄≥λ) ≤ E Mτ∧N 1(M̄≥λ) ≤
(per il Teorema di optional sampling)

h i
≤ E E [MN | Fτ∧N ] 1(M̄≥λ) =
(poiché (M̄ ≥ λ) ∈ Fτ∧N )

h h ii h i
= E E MN 1(M̄≥λ) | Fτ∧N = E MN 1(M̄≥λ) (11.1.9)

p
Ora osserviamo che M̄ p = max Mn . Dalla (4.1.5) abbiamo
0≤n≤N
h i Z +∞
p
E M̄ = p λp−1 P M̄ ≥ λ dλ ≤
0
(per la (11.1.9))
Z +∞ h i
≤p λp−2 E MN 1(M̄≥λ) dλ ≤
0

M̄
 Z 
p−2 p h i
E MN M̄ p−1 ≤
 
≤ pE MN λ dλ =
0 p−1
p
(per la disuguaglianza di Hölder, essendo p−1 l’esponente coniugato di p)
p h p i 1 h i1− 1
≤ E MN p E M̄ p p
p−1
h i1− 1
da cui segue la (11.1.8) dividendo per E M̄ p p ed elevando alla p.
Corollario 11.1.12 (Disuguaglianze massimali di Doob). [!!] Sia M = (Mn )n=0,1,...,N una martingala o una
sub-martingala non-negativa sullo spazio (Ω, F , P , (Fn )n=0,1,...,N ). Per ogni tempo d’arresto discreto τ si ha:
i) per ogni λ > 0 vale
E [|Mτ |]

P max |Mn | ≥ λ ≤ ;
0≤n≤τ∧N λ
ii) per ogni p > 1 vale !p
p

E max |Mn |p ≤ E [|Mτ |p ] .
0≤n≤τ∧N p−1
Dimostrazione. É sufficiente applicare il Teorema 11.1.11 alla martingala stoppata M τ (cfr. Definizione
11.1.6 e Proposizione 11.1.7).
Proviamo ora un risultato, decisamente bizzarro e sorprendente, che giocherà un cruciale nello studio
delle proprietà di regolarità e di convergenza delle martingale: il Lemma di “risalita” (Upcrossing lemma).
Esso mostra che il numero di “oscillazioni” di una martingala è controllato dal suo valore atteso finale.
Questo risultato è inaspettato e va contro l’idea che potremmo esserci fatti di una martingala come un
processo le cui traiettorie sono fortemente “oscillanti” (si pensi, per esempio, al moto Browniano).
Per formalizzare il risultato, fissiamo a, b ∈ R con a < b. Il Lemma di risalita fornisce una stima del
numero di volte in cui una martingala “risale” da un valore minore di a a un valore maggiore di b. Più
precisamente, data una martingala M = (Mn )n=0,...,N sullo spazio (Ω, F , P , (Fn )n=0,...,N ), poniamo τ0 := 0 e,
ricorsivamente al variare di k ∈ N,
σk := min{n ∈ {τk−1 , . . . , N } | Mn ≤ a}, τk := min{n ∈ {σk , . . . , N } | Mn ≥ b},

assumendo al solito la convenzione min ∅ = ∞. Per definizione, τk ≥ σk ≥ τk−1 e σk , τk sono tempi d’arresto a
valori in {0, . . . , N , ∞}. Se τk (ω) ≤ N allora τk (ω) è l’istante della k-esima risalita della traiettoria M(ω); invece,
se τk (ω) = ∞ allora il numero totale di risalite della traiettoria M(ω) è minore di k. In definitiva il numero di
risalite di M su [a, b] è dato da
νa,b := max{k ∈ N ∪ {0} | τk ≤ N }. (11.1.10)
Un ingrediente fondamentale della prova del Lemma di risalita è il Teorema di optional sampling in base
al quale si ha h i h i
E Mτk ≤ E Mσk+1 , k ∈ N. (11.1.11)
Ora è bene ricordare che, per definizione (cfr. Notazione 11.1.4), Mτk ≡ Mτk ∧N cosicché Mτk = MN su
(τk = ∞): in particolare, non è detto che Mτk (ω) ≥ b se τk (ω) = ∞. Questa osservazione è importante perché,
tra un istante di risalita τk (ω) ≤ N e il successivo, la traiettoria M(ω) deve “ridiscendere” da Mτk (ω) ≥ b
a Mσk+1 (ω) ≤ a. Il Teorema di optional sampling dice che questo non può accadere “troppo spesso”: se
h i h i
fosse σk+1 ≤ N , per la (11.1.11) si avrebbe b ≤ E Mτk ≤ E Mσk+1 ≤ a e questo è assurdo per l’ipotesi a < b.
Dunque, per ogni k ∈ N, l’evento (τk = ∞) non può essere trascurabile e, come già detto, tale evento è
identificabile con l’insieme delle traiettorie che hanno meno di k risalite. In questo senso la proprietà di
martingala e il Teorema di optional sampling limitano il numero di possibili risalite, e quindi di oscillazioni,
di M su [a, b]. Ora è chiaro che νa,b ≤ N , anzi più precisamente νa,b ≤ N2 se N ≥ 2: il fatto sorprendente del
Lemma di risalita è che fornisce una stima di νa,b indipendente da N .
Lemma 11.1.13 (Lemma di risalita). [!!] Per ogni sub-martingala M = (Mn )n=0,...,N e a < b, si ha
E [(MN − a)+ ]
E νa,b ≤
b−a
dove νa,b in (11.1.10) indica il numero di risalite di M su [a, b].
Dimostrazione. Poiché a, b sono fissati, nel corso della dimostrazione indichiamo νa,b semplicemente con ν.
Per definizione, τk ≤ N su (k ≤ ν) e τk = ∞ su (k > ν): pertanto, ricordando ancora che Mτ ≡ Mτ∧N per ogni
tempo d’arresto τ, si ha
N
X ν
X
(Mτk − Mσk ) = (Mτk − Mσk ) + Mτν+1 − Mσν+1 . (11.1.12)
k=1 k=1
Ora c’è un piccolo problema: l’ultimo termine Mτν+1 −Mσν+1 = MN −Mσν+1 può avere segno negativo (poiché
MN potrebbe anche essere minore di a). Per risolvere questo problema (vedremo tra poco quale sarà il
vantaggio) introduciamo il processo Y definito da Yn = (Mn − a)+ . Ricordiamo che Y è una sub-martingala
non-negativa (Proposizione 6.5.11) e il numero di risalite di M su [a, b] è uguale al numero di risalite di Y
su [0, b − a] poiché
σk = min{n ∈ {τk−1 , . . . , N } | Yn = 0}, τk = min{n ∈ {σk , . . . , N } | Yn ≥ b − a}.
Riscrivendo la (11.1.12) per Y , ora abbiamo

N
X ν
X ν
X
(Yτk − Yσk ) = (Yτk − Yσk ) + Yτν+1 − Yσν+1 ≥ (Yτk − Yσk ) ≥ (b − a)ν, (11.1.13)
k=1 k=1 k=1
poiché3 Yτν+1 − Yσν+1 ≥ 0. Per concludere, osserviamo che YN = YσN +1 e

N
X
YN ≥ YσN +1 − Yσ1 = (Yσk+1 − Yσk )
k=1
3 Si ha Y
τν+1 − Yσν+1 = YN ≥ 0 su (σν+1 ≤ N ) e Yτν+1 − Yσν+1 = 0 su (σν+1 = ∞).
N
X N
X
= (Yσk+1 − Yτk ) + (Yτk − Yσk ) ≥
k=1 k=1
(per la (11.1.13))
N
X
≥ (Yσk+1 − Yτk ) + (b − a)ν.
k=1
Applicando il valore atteso e il Teorema di optional sampling (la (11.1.11) con M = Y ) abbiamo infine la
tesi
E [YN ] ≥ E [(b − a)ν] .
Esercizio 11.1.14. Provare che, per ogni a < b, una funzione continua f : [0, 1] −→ R può avere solo un
numero finito di risalite su [a, b].
11.2 Il caso continuo

Lo studio dei tempi d’arresto nel caso continuo I = R≥0 richiede ulteriori ipotesi di carattere tecnico
sulle filtrazioni, le cosiddette “ipotesi usuali”, di cui discutiamo nelle prossime sezioni.
11.2.1 Ipotesi usuali e tempi d’arresto

Definizione 11.2.1 (Ipotesi usuali). Sia (Ft )t≥0 una filtrazione nello spazio completo (Ω, F , P ). Diciamo
che (Ft )t≥0 verifica le ipotesi usuali se:
i) è completa, ossia F0 (e quindi anche Ft per ogni t > 0) contiene la famiglia N degli eventi4 trascura-
bili;
ii) è continua a destra, ossia per ogni t ≥ 0 vale Ft = Ft+ dove

\
Ft+ := Ft+ε . (11.2.1)
ε>0
Esempio 11.2.2. Se X è adattato ad una filtrazione (Ft )t≥0 che verifica le ipotesi usuali, allora anche ogni
modificazione di X è adattata a (Ft )t≥0 . Senza l’ipotesi di completezza della filtrazione, l’affermazione è
falsa.
L’ipotesi di continuità a destra della filtrazione è molto più sottile: essa significa che la conoscenza delle
informazioni fino al tempo t, rappresentate da Ft , permette di conoscere cosa succede “subito dopo” t,
ossia Ft+ . Per capire meglio questo fatto, che ora può apparire oscuro, introduciamo i concetti di tempo
d’arresto in R≥0 e tempo d’uscita di un processo adattato.
Definizione 11.2.3 (Tempo d’arresto). In uno spazio con filtrazione (Ω, F , P , (Ft )t≥0 ), un tempo d’arresto
è una variabile aleatoria5
τ : Ω −→ R≥0 ∪ {∞}
tale che (τ < t) ∈ Ft per ogni t > 0.
4 Per ipotesi (Ω, F , P ) è completo e quindi ogni insieme trascurabile è un evento.
5 Ossia vale (τ ∈ H) ∈ F per ogni H ∈ B. Di conseguenza anche (τ = ∞) = (τ ∈ [0, ∞))c ∈ F .
11.2. IL CASO CONTINUO 287
Esempio 11.2.4 (Tempo di uscita). [!] Dati un processo X = (Xt )t≥0 e H ⊆ R poniamo

inf J(ω) se J(ω) , ∅,


τ(ω) =  dove J(ω) = {t ≥ 0 | Xt (ω) < H}.
∞
 se J(ω) = ∅,
Nel seguito scriveremo anche

τ = inf{t ≥ 0 | Xt < H}
assumendo per convenzione che l’estremo inferiore dell’insieme vuoto sia ∞ cosicché τ(ω) = ∞ se Xt (ω) ∈
H per ogni t ≥ 0. Diciamo che τ è il tempo di uscita di X da H.
Proposizione 11.2.5 (Tempo d’uscita da un chiuso). Se X è continuo6 e adattato a (Ft )t≥0 e H è chiuso
allora il tempo di uscita τ di X da H è un tempo d’arresto.
Dimostrazione. Poiché H c è aperto e X è continuo, per ogni t > 0 si ha
[
(τ < t) = (Xs ∈ H c )
s∈Q∩[0,t)
e la tesi segue dal fatto che (Xs ∈ H c) ∈ F t per s ≤ t poiché X è adattato a (Ft )t≥0 .
Dimostreremo più avanti, nell’Esempio 11.2.25, che anche il tempo d’uscita da un aperto è un tempo
d’arresto. Il risultato è vero anche per un Boreliano qualsiasi, ma è molto più difficile da provare (si veda,
per esempio, [6], Sezione 16.2).
Lemma 11.2.6. Se (Ft )t≥0 verifica le ipotesi usuali allora τ è un tempo d’arresto se e solo se (τ ≤ t) ∈ Ft per
ogni t ≥ 0.
Dimostrazione. Si ha [
(τ < t) = τ ≤ t − n1 .
n∈N

D’altra parte, τ ≤ t − 1
n ∈F 1 ⊆ Ft per ogni n ∈ N, da cui segue che τ è un tempo d’arresto.
t− n
Viceversa, se τ è un tempo d’arresto allora per ogni ε > 0 si ha
\
(τ ≤ t) = τ < t + n1 ∈ Ft+ε .
n∈N
1
n <ε
Quindi \
(τ ≤ t) ∈ Ft+ε = Ft
ε>0
grazie all’ipotesi di continuità a destra della filtrazione.
Osservazione 11.2.7. Se (Ft )t≥0 verifica le ipotesi usuali e τ è un tempo d’arresto allora
(τ = t) = (τ ≤ t) \ (τ < t) ∈ Ft .
Inoltre \ [
(τ = ∞) = (τ ≥ t) ∈ Ft .
t≥0 t≥0
Notiamo che l’unione di σ -algebre non è in generale una σ -algebra. Pertanto indichiamo con
[ !
F∞ := σ Ft (11.2.2)
t≥0
la più piccola σ -algebra che contiene Ft per ogni t ≥ 0. Chiaramente (τ = ∞) ∈ F∞ .

6 Il risultato vale anche se X è continuo a destra q.c.
Osservazione 11.2.8. [!] Commentiamo l’Esempio 11.2.4 alla luce del Lemma 11.2.6. Osserviamo che se
τ è il tempo di uscita di X da H allora Xτ sta sul bordo di H, Xτ ∈ ∂H, e quindi in particolare appartiene
ancora ad H, essendo H chiuso. Ora si noti la differenza fra gli eventi
(τ < t) = “X esce da H prima del tempo t”,

(τ ≤ t) = “X esce da H prima o subito dopo t”.
Intuitivamente, è plausibile che si possa dimostrare (è ciò che abbiamo fatto nel Lemma 11.2.6!) che (τ <
t) ∈ Ft ossia che il fatto che X esca da H prima del tempo t sia osservabile in base alla conoscenza di cosa è successo
fino al tempo t (cioè Ft , in particolare conoscendo la traiettoria del processo fino al tempo t). Al contrario,
sembra impossibile poter provare che (τ ≤ t) ∈ Ft considerando che, se τ(ω) = t, allora Xt (ω) ∈ ∂H e
potendo osservare la traiettoria di X solo fino al tempo t (ossia Ft ) non possiamo sapere se X(ω) continuerà
a rimanere dentro H oppure uscirà da H immediatamente dopo t. In effetti, per una filtrazione generica
(τ ≤ t) < Ft , ossia la condizione (τ < t) ∈ Ft è più debole di (τ ≤ t) ∈ Ft .
Tuttavia se (Ft )t≥0 verifica le ipotesi usuali (in particolare, la continuità da destra) allora le due con-
dizioni (τ < t) ∈ Ft e (τ ≤ t) ∈ Ft sono equivalenti (Lemma 11.2.6). Come avevamo anticipato, questo
significa che la continuità da destra della filtrazione fa sı̀ che conoscendo Ft possiamo anche sapere cosa
succede “subito dopo” il tempo t.
11.2.2 Ampliamento di filtrazioni e processi di Markov

Abbiamo spiegato l’importanza delle ipotesi usuali sulle filtrazioni e i motivi per cui in seguito è pre-
feribile assumere sistematicamente la validità di tali ipotesi. In questa sezione proviamo che è sempre
possibile modificare una filtrazione in modo che soddisfi le ipotesi usuali e, sotto opportune condizio-
ni, è anche possibile conservare alcune proprietà fondamentali (per esempio, la proprietà di Markov) dei
processi considerati.
Consideriamo uno spazio completo (Ω, F , P ) munito di una generica filtrazione (Ft )t≥0 e indichiamo
con N la famiglia degli eventi trascurabili. Si può sempre ampliare (Ft )t≥0 in modo che le ipotesi usuali
siano soddisfatte:
i) ponendo
F¯t := σ (Ft ∪ N ) , t ≥ 0,
definiamo la più piccola filtrazione7 in (Ω, F , P ), che completa ed estende (Ft )t≥0 .
ii) la filtrazione (Ft+ )t≥0 definita da (11.2.1) è continua a destra.

Combinando i punti i) e ii) (non importa in quale ordine), si ottiene la filtrazione F¯t+ che è la più
t≥0
piccola filtrazione che estende (Ft )t≥0 e verifica le ipotesi usuali.

Definizione 11.2.9 (Ampliamento standard di una filtrazione). La filtrazione F¯t+ è detta amplia-
t≥0
mento standard della filtrazione (Ft )t≥0 .
Ora consideriamo un processo stocastico X = (Xt )t≥0 su (Ω, F , P ) e usiamo al solito8 la notazione
GtX = σ (Xs , s ≤ t), t ≥ 0,
per indicare la filtrazione generata da X.
standard di un processo). La filtrazione standard di un processo X, nel

Definizione 11.2.10 (Filtrazione

seguito indicata con F = Ft
X X
, è l’ampliamento standard di G X .
t≥0
7 Si ha ovviamente F¯ ⊆ F¯ se 0 ≤ t ≤ T . Inoltre F¯ ⊆ F per ogni t ≥ 0 grazie all’ipotesi di completezza di (Ω, F , P ).
t T t
8 Come in (6.5.1).
Supponiamo che X = (Xt )t≥0 sia un processo di Markov con legge di transizione p sullo spazio completo
con filtrazione (Ω, F , P , (Ft )t≥0 ). In generale non è un problema “rimpicciolire” la filtrazione: più preci-
samente, se (Gt )t≥0 è una filtrazione tale che GtX ⊆ Gt ⊆ Ft per ogni t ≥ 0, ossia (Gt )t≥0 è più piccola di
(Ft )t≥0 ma più grande di (GtX )t≥0 , allora è immediato verificare che X è un processo di Markov anche sullo
spazio (Ω, F , P , (Gt )t≥0 ). Il problema non è ovvio quando si vuole ampliare la filtrazione. I risultati seguenti
forniscono condizioni sotto le quali è possibile ampliare la filtrazione di un processo di Markov in modo
che verifichi le ipotesi usuali e rimanga valida la proprietà di Markov.
Proposizione 11.2.11. Sia X = (Xt )t≥0 un processo di Markov con legge di transizione p sullo spazio com-
pleto con filtrazione (Ω, F , P , (Ft )t≥0 ). Allora X è un processo di Markov con legge di transizione p su
(Ω, F , P , (F¯t )t≥0 ).
Dimostrazione. Chiaramente X è adattato rispetto a F¯ quindi c’è solo da provare che
p(t, Xt ; T , H) = P (XT ∈ H | F¯t ), 0 ≤ t ≤ T , H ∈ B.
Posto Z = p(t, Xt ; T , H) si ha Z ∈ mσ (Xt ) ⊆ mF¯t ; in base alla definizione di attesa condizionata, rimane da
verificare che per ogni G ∈ F¯t si ha h i
E [Z1G ] = E 1(XT ∈H) 1G . (11.2.3)
La (11.2.3) è vera se G ∈ Ft : d’altra parte (cfr. Osservazione 2.4.3) G ∈ F¯t = σ (Ft ∪ N ) se e solo se
G △ A ∈ N per un certo A ∈ Ft . Dunque si ha
h i h i
E [Z1G ] = E [Z1A ] = E 1(XT ∈H) 1A = E 1(XT ∈H) 1G .
È possibile ampliare la filtrazione in modo da renderla continua a destra e mantenere la proprietà di

Markov, assumendo ulteriori ipotesi di continuità delle traiettorie del processo (continuità a destra q.c.) e
di continuità della legge di transizione del processo (proprietà di Feller, Definizione 7.1.9).
Proposizione 11.2.12. Sia X = (Xt )t≥0 un processo di Markov con legge di transizione p sullo spazio com-
pleto con filtrazione (Ω, F , P , (Ft )t≥0 ). Supponiamo che X sia un processo di Feller con traiettorie continue
a destra q.c. Allora X è un processo di Markov con legge di transizione p su (Ω, F , P , (Ft+ )t≥0 ).
Dimostrazione. Chiaramente X è adattato rispetto a (Ft+ )t≥0 quindi c’è solo da provare la proprietà di
Markov ossia che per ogni 0 ≤ t < T e ϕ ∈ bB valga
Z
Z = E [ϕ(XT ) | Ft+ ] dove Z := p(t, Xt ; T , dy)ϕ(y).
R
Per il teorema di Fubini, Z ∈ mFt ⊆ mFt+ . Quindi, per definizione di attesa condizionata, rimane da
verificare che per ogni G ∈ Ft+ si abbia
E [ϕ(XT )1G ] = E [Z1G ] . (11.2.4)
Ora, sia h > 0 tale che t + h < T : si ha G ∈ Ft+h e quindi, per la proprietà di Markov di X rispetto a (Ft )t≥0 ,
si ha "Z #
E [ϕ(XT )1G ] = E p(t + h, Xt+h ; T , dy)ϕ(y)1G . (11.2.5)
R
Per la continuità da destra delle traiettorie di X e la proprietà di Feller di p, passando al limite per h → 0+
in (11.2.5) grazie al teorema della convergenza dominata si trova la (11.2.4).
Osservazione 11.2.13. [!] Combinando le Proposizioni 11.2.11 e 11.2.12 si ha il seguente risultato: se X è
un processo di Markov, continuo a destra e di Feller, sullo spazio completo (Ω, F , P , (Ft )t≥0 ) allora X è un processo
di Markov anche sullo spazio completo (Ω, F , P , (F¯t+ )t≥0 ) in cui valgono le ipotesi usuali.
Nel caso particolare in cui X sia un processo di Markov rispetto alla propria filtrazione standard F X si
prova che
FtX = σ (GtX ∪ N ), t ≥ 0. (11.2.6)
In altri termini, F X si ottiene completando la filtrazione generata da X e la proprietà di continuità a destra
è automaticamente soddisfatta.

Proposizione 11.2.14. [!] Se X un processo di Markov rispetto alla propria filtrazione standard FtX
t≥0
allora vale la (11.2.6).
Dimostrazione. La dimostrazione è basata sulla proprietà di Markov estesa del Teorema 7.2.4 in base al
quale si ha9 h i
ZE [Y | Xt ] = E ZY | FtX , Z ∈ bσ (GtX ∪ N ), Y ∈ bGt,∞
X
.
Poiché ogni versione di E [Y | Xt ] è σ (Xt )-misurabile
h e data il’unicità dell’attesa condizionata a meno di
eventi trascurabili, si deduce che ogni versione di E ZY | FtX è σ (GtX ∪ N )-misurabile: date le ipotesi su
Y e Z, tale proprietà di misurabilità vale anche se al posto di ZY mettiamo una qualsiasi variabile aleatoria
X ∪ N ). In particolare, per A ∈ F X ⊆ σ (G X ∪ N ) otteniamo
in bσ (G∞ t ∞
h i
1A = E 1A | FtX ∈ bσ (GtX ∪ N ).
Osservazione 11.2.15. [!] Combinando le Proposizioni 11.2.11, 11.2.12 e 11.2.14 si ha il seguente risultato:
sia X un processo di Markov rispetto alla propria filtrazione generata (GtX )t≥0 e supponiamo che X sia continuo
a destra e di Feller; allora vale FtX = σ (GtX ∪ N ), per t ≥ 0, e X è un processo di Markov anche rispetto alla
filtrazione standard (FtX )t≥0 (che verifica le ipotesi usuali).
Consideriamo ora un processo di Markov X sullo spazio (Ω, F , P , (Ft )t≥0 ) in cui valgono le ipotesi usuali
e ricordiamo la definizione (7.2.6) della σ -algebra Gt,∞
X
delle informazioni future su X a partire dal tempo
t.
Teorema 11.2.16 (Legge 0-1 di Blumenthal). [!] Sia X un processo di Markov su (Ω, F , P , (Ft )t≥0 ). Se
A ∈ Ft ∩ Gt,∞
X
allora P (A | Xt ) = 1 oppure P (A | Xt ) = 0.
Dimostrazione. Notiamo esplicitamente che A non è necessariamente σ (Xt )-misurabile10 : se cosı̀ fosse, la
tesi sarebbe ovvia conseguenza dell’Esempio 5.3.3. D’altra parte, per il Corollario 7.2.5, Ft e Gt,∞
X
sono,
condizionatamente a Xt , indipendenti: ne viene che A è indipendente da sè stesso (condizionatamente a
Xt ) e quindi vale
P (A | Xt ) = P (A ∩ A | Xt ) = P (A | Xt )2 .
Da ciò si deduce che P (A | Xt ) può assumere solo i valori 0 oppure 1.
Esempio 11.2.17. [!] Riprendiamo l’Esempio 11.2.4 e supponiamo che τ sia il tempo di uscita da un chiuso
H, di un processo continuo di Markov X sullo spazio (Ω, F , P , (FtX )t≥0 ). Applichiamo la Legge 0-1 di
Blumenthal con t = 0: chiaramente (τ = 0) ∈ F0X = F0X ∩ F0,∞ X
poiché τ è un tempo d’arresto; qui (τ = 0)
indica l’evento secondo il quale il processo X esce immediatamente da H. Allora si ha P (τ = 0 | X0 ) = 0
oppure P (τ = 0 | X0 ) = 1, ossia quasi tutte le traiettorie di X escono subito da H oppure quasi nessuna.
Questo fatto è particolarmente interessante quando X0 appartiene al bordo di H.
9 Nel senso della Convenzione 5.2.5. Si noti che Z ∈ bσ (G X ∪ N ) ⊆ bF X .
t t
10 In altri termini, in generale σ (X ) è incluso strettamente in F ∩ F X poiché, per la continuità a destra di F X , si ha
t t t,∞
\
σ (Xt ) ⊆ X .
σ (Xs , t ≤ s ≤ t + ε) ⊆ Ft ∩ Ft,∞
ε>0
11.2.3 Ampliamento di filtrazioni e processi di Lévy

Studiamo ora il problema dell’ampliamento della filtrazione nel caso del processo di Poisson e del moto
Browniano. Per trattare l’argomento in modo unificato, introduciamo una classe di processi di cui il Poisson
e il Browniano sono casi particolari.
Definizione 11.2.18 (Processo di Lévy). Sia X = (Xt )t≥0 un processo stocastico reale definito su uno spazio
di probabilità completo con filtrazione (Ω, F , P , (Ft )t≥0 ). Diciamo che X è un processo di Lévy se verifica
le seguenti proprietà:
i) X0 = 0 q.c.;
ii) le traiettorie di X sono càdlàg q.c.;
iii) X è adattato a (Ft )t≥0 ;
iv) Xt − Xs è indipendente da Fs per ogni 0 ≤ s ≤ t;
v) gli incrementi Xt − Xs e Xt+h − Xs+h hanno la stessa legge per ogni 0 ≤ s ≤ t e h ≥ 0.
Osservazione 11.2.19. Le proprietà iv) e v) si esprimono dicendo che X ha gli incrementi indipendenti
e stazionari. È utile sapere che se un processo di Lévy è continuo q.c. allora necessariamente è un moto
Browniano con drift, ossia un processo della forma Xt = at + bWt con a, b ∈ R e W moto Browniano. Inoltre,
la CHF di un processo di Lévy X è della forma ϕXt (η) = etψ(η) dove ψ è detto esponente caratteristico di X
(si ricordi l’Osservazione 8.1.4 per il processo di Poisson) ed ammette una rappresentazione esplicita nota
come formula di Lévy-Khintchine che qui non riportiamo per brevità. Un testo di riferimento per la teoria
generale dei processi di Lévy è la monografia [1].
Proposizione 11.2.20. Sia X = (Xt )t≥0 un processo di Lévy sullo spazio completo (Ω, F , P , (Ft )t≥0 ). Allora
X è un processo di Lévy anche su (Ω, F , P , (F¯t )t≥0 ) e su (Ω, F , P , (Ft+ )t≥0 ).
Dimostrazione. Si tratta solo di verificare che, per ogni 0 ≤ s < t, l’incremento Xt − Xs è indipendente da F¯s
e da Fs+ , ossia vale
P (Xt − Xs ∈ H | G) = P (Xt − Xs ∈ H), H ∈ B, (11.2.7)
se G ∈ F¯s ∪ Fs+ con P (G) > 0.
Consideriamo prima il caso G ∈ F¯s (sempre assumendo P (G) > 0). La (11.2.7) è vera se G ∈ Fs : d’al-
tra parte (cfr. Osservazione 2.4.3) G ∈ F¯s = σ (Fs ∪ N ) se e solo se G △ A ∈ N per un certo A ∈ Fs (e
necessariamente P (A) > 0 essendo P (G) > 0). Dunque si ha
P (Xt − Xs ∈ H | G) = P (Xt − Xs ∈ H | A) = P (Xt − Xs ∈ H).
Consideriamo ora il caso G ∈ Fs+ con P (G) > 0. Qui usiamo il fatto che, per il Corollario 3.5.8, la (11.2.7)
è vera se e solo se vale
E [ϕ(Xt − Xs ) | G] = E [ϕ(Xt − Xs )] ,
per ogni ϕ ∈ bC. Osserviamo che, per ogni h > 0, G ∈ Fs+h e quindi G è indipendente da Xt+h − Xs+h : ne
viene
E [ϕ(Xt+h − Xs+h ) | G] = E [ϕ(Xt+h − Xs+h )]
e si conclude passando al limite per h → 0+ , per il teorema della convergenza dominata grazie alla
continuità da destra delle traiettorie di X e la continuità e limitatezza di ϕ.
Ricordiamo che, per la Proposizione 7.3.2, un processo di Lévy X è un processo di Markov con legge di
transizione p(t, x; T , ·) uguale alla distribuzione di XT − Xt + x. Inoltre vale il seguente
Teorema 11.2.21. Ogni processo di Lévy è un processo di Feller.

Dimostrazione. Se p indica la legge di transizione del processo di Lévy X, per ogni ϕ ∈ bC(R) e h > 0 si ha
Z
(t, x) 7−→ p(t, x; t + h, dy)ϕ(y) =
R
(poiché p(t, x; t +h, ·) è la distribuzione di Xt+h −Xt +x che è uguale in legge a Xh +x per la stazionarietà degli
incrementi)
Z
= p(0, x; h, dy)ϕ(y) = E [ϕ(Xh + x)]
R
e la continuità in (t, x) segue dal teorema della convergenza dominata di Lebesgue.
Combinando i risultati precedenti con l’Osservazione 11.2.15 si ha il seguente
Teorema 11.2.22. Sia X è un processo di Lévy sullo spazio completo (Ω, F , P ) munito della filtrazione
(GtX )t≥0 generata da X. Allora vale FtX = σ (GtX ∪ N ), per t ≥ 0, e X è un processo di Lévy anche rispetto
alla filtrazione standard (FtX )t≥0 .
Come conseguenza della Legge 0-1 di Blumenthal del Teorema 11.2.16, si ha
Corollario 11.2.23 (Legge 0-1 di Blumenthal). [!] Sia X = (Xt )t≥0 un processo di Lévy. Per ogni A ∈ F0X si
ha P (A) = 0 oppure P (A) = 1.
11.2.4 Risultati generali sui tempi d’arresto

Riprendiamo lo studio dei tempi d’arresto a valori in R≥0 ∪ {∞} (cfr. Definizione 11.2.3), definiti su uno
spazio con filtrazione (Ω, F , P , (Ft )t≥0 ) che soddisfa le ipotesi usuali. Lasciamo per esercizio la prova della
seguente
i) se τ = t q.c. allora τ è un tempo d’arresto;
ii) se τ, σ sono tempi d’arresto allora anche τ ∧ σ e τ ∨ σ sono tempi d’arresto;
iii) se (τn )n≥1 è una successione crescente (ossia, τn ≤ τn+1 q.c. per ogni n ∈ N) allora sup τn è un tempo
n∈N
d’arresto;
iv) se (τn )n≥1 è una successione decrescente (ossia, τn ≥ τn+1 q.c. per ogni n ∈ N) allora inf τn è un tempo
n∈N
d’arresto;
v) se τ è un tempo d’arresto allora per ogni ε ≥ 0 anche τ + ε è un tempo d’arresto.
Esempio 11.2.25 (Tempo di uscita da un aperto). [!] Sia τ, definito come nell’Esempio 11.2.4, il primo
tempo di uscita di un processo X, adattato e continuo su (Ω, F , P , (Ft )t≥0 ), da un Boreliano H. Proviamo
che se H è aperto allora τ è un tempo d’arresto.
La tesi è conseguenza dell’uguaglianza
[ \
(τ > t) = dist(Xs , H c ) ≥ n1 (11.2.8)
n∈N s∈Q∩[0,t)

poiché dist(Xs , H c ) ≥ n1 ∈ Fs per s ≤ t e quindi (τ ≤ t) = (τ > t)c ∈ Ft . Proviamo la (11.2.8): se ω appartiene
al membro destro allora esiste n ∈ N tale che dist(Xs (ω), H c ) ≥ n1 per ogni s ∈ Q∩[0, t); poiché X ha traiettorie
continue, ne viene che dist(Xs (ω), H c ) ≥ n1 per ogni s ∈ [0, t] e quindi, sempre per la continuità di X, deve
essere τ(ω) > t.
Viceversa, se τ(ω) > t allora l’insieme compatto K := {Xs (ω) | s ∈ [0, t]} è incluso in H: essendo H aperto
si ha che dist(K, H c ) > 0 e questo basta a concludere.
Consideriamo ora un processo stocastico X = (Xt )t≥0 sullo spazio con filtrazione (Ω, F , P , (Ft )t≥0 ) che
verifica le ipotesi usuali. Per lo studio dei tempi d’arresto (e, più avanti, dell’integrazione stocastica) occorre
assumere un’ipotesi minimale di misurabilità di X rispetto alla variabile temporale, che rinforza il concetto
di processo adattato.
Definizione 11.2.26 (Processo progressivamente misurabile). Un processo X = (Xt )t≥0 è progressivamen-

te misurabile se, per ogni t > 0, la funzione (s, ω) 7→ Xs (ω) da [0, t]×Ω a R è misurabile rispetto alla σ -algebra
prodotto B ⊗ Ft .
In altri termini, X è progressivamente misurabile se, per ogni t > 0, la funzione g := X|[0,t]×Ω , definita da
g : ([0, t] × Ω, B ⊗ Ft ) −→ (R, B), g(s, ω) = Xs (ω), (11.2.9)
è (B ⊗ Ft )-misurabile.
Se X è progressivamente misurabile allora, per il Lemma 3.3.11, è adattato a (Ft )t≥0 . Viceversa, è stato
provato da Chung e Doob [16] che se X è adattato e misurabile11 allora possiede una modificazione progressi-
vamente misurabile (per una dimostrazione di questo fatto si veda, per esempio [51], Teorema T46 a p.68).
A noi basterà il seguente risultato molto più semplice:
Proposizione 11.2.27. Se X è adattato a (Ft )t≥0 e ha traiettorie continue a destra q.c. (oppure ha traiettorie
continue a sinistra q.c.) allora è progressivamente misurabile.
Dimostrazione. Consideriamo le successioni

∞ ∞
(n)
⃗ t(n) :=
X X
X X k−1
n
1[ k−1
n ,
k ) (t), X⃗t := X k 1[ k−1
n ,
k ) (t), t ∈ [0, T ], n ∈ N.
2 2 2n 2n 2 2n
k=1 k=1
(n)
⃗ (n) ∈ m(B ⊗ FT ) e X⃗ ∈ m(B ⊗ F
Poiché X è adattato, segue dal Corollario 3.3.9 che X 1 ). Se X ha
T+ 2n
traiettorie continue a sinistra q.c. allora X ⃗ (n) converge puntualmente (Leb ⊗ P )-q.o. a X su [0, T ] × Ω per
n → ∞: data l’arbitrarietà di T , ne viene che X è progressivamente misurabile.
(n)
Analogamente, se X ha traiettorie continue a destra q.c. allora X⃗ converge puntualmente (Leb⊗P )-q.o.
a X su [0, T ]×Ω per n → ∞: ne viene che, per ogni ε > 0, la mappa (t, ω) 7→ Xt (ω) è (B ⊗FT +ε )-misurabile su
[0, T ] × Ω. Per la continuità a destra della filtrazione si conclude che X è progressivamente misurabile.
Dato un tempo d’arresto τ, ricordiamo la definizione (11.2.2) di F∞ e, in analogia con la (11.1.3),

definiamo
Fτ := {A ∈ F∞ | A ∩ (τ ≤ t) ∈ Ft per ogni t ≥ 0}.
Notiamo che Fτ è una σ -algebra e Fτ = Ft se τ è il tempo d’arresto costante uguale a t. Inoltre dato un
processo X = (Xt )t≥0 definiamo

Xτ(ω) (ω) se τ(ω) < ∞,


(Xτ )(ω) := 
0
 se τ(ω) = ∞.
i) τ ∈ mFτ ;
ii) se τ ≤ σ allora Fτ ⊆ Fσ ;
iii) Fτ ∩ Fσ = Fτ∧σ ;
11 Ossia (t, ω) 7→ X (ω) è B ⊗ F -misurabile.
t
iv) se X è progressivamente misurabile allora Xτ ∈ mFτ ;

v) Fτ = Fτ+ := Fτ+ε ;
T
ε>0
Dimostrazione. i) Occorre mostrare che (τ ∈ H) ∩ (τ ≤ t) ∈ Ft per ogni t ≥ 0 e H ∈ B: la tesi segue

facilmente poiché per il Lemma 3.1.5 è sufficiente considerare H del tipo (−∞, s] con s ∈ R.
ii) Se τ ≤ σ allora (σ ≤ t) ⊆ (τ ≤ t): dunque per ogni A ∈ Fτ si ha
A ∩ (σ ≤ t) = A ∩ (τ ≤ t) ∩ (σ ≤ t) .
| {z } | {z }
∈Ft ∈Ft
iii) Per il punto ii) vale l’inclusione Fτ ∩ Fσ ⊇ Fτ∧σ . Viceversa, se A ∈ Fτ ∩ Fσ allora
A ∩ (τ ∧ σ ≤ t) = A ∩ ((τ ≤ t) ∪ (σ ≤ t)) = (A ∩ (τ ≤ t)) ∪ (A ∩ (σ ≤ t)) .

| {z } | {z }
∈Ft ∈Ft
iv) Dobbiamo provare che (Xτ ∈ H)∩(τ ≤ t) = (Xτ∧t ∈ H)∩(τ ≤ t) ∈ Ft per ogni t ≥ 0 e H ∈ B. Poiché (τ ≤
t) ∈ Ft è sufficiente provare che Xτ∧t ∈ mFt : questo è conseguenza del fatto che Xτ∧t (ω) = (f ◦ g)(t, ω)
con f e g funzioni misurabili definite da
f : (Ω, Ft ) −→ ([0, t] × Ω, B ⊗ Ft ), f (t, ω) := (τ(ω) ∧ t, ω),
e g come in (11.2.9). La misurabilità di f segue dal Corollario 3.3.9 e dal fatto che, per i), (τ ∧ t) ∈
mFτ∧t ⊆ mFt ; g è misurabile poiché X è progressivamente misurabile.
v) L’inclusione Fτ ⊆ Fτ+ è ovvia per ii). Viceversa, se A ∈ Fτ+ allora per definizione A ∩ (τ + ε ≤ t) ∈ Ft
per ogni t ≥ 0 e ε > 0: quindi A ∩ (τ ≤ t − ε) ∈ Ft per ogni t ≥ 0 e ε > 0, o equivalentemente A ∩ (τ ≤
t) ∈ Ft+ε per ogni t ≥ 0 e ε > 0. Per l’ipotesi di continuità a destra della filtrazione, si ha quindi
A ∩ (τ ≤ t) ∈ Ft per ogni t ≥ 0 ossia A ∈ Fτ .
Capitolo 12
Proprietà di Markov forte
We may not be able to get certainty,

but we can get probability, and half
a loaf is better than no bread.
C. S. Lewis
In questo capitolo X = (Xt )t≥0 indica un processo di Markov con legge di transizione p sullo spazio
(Ω, F , P , (Ft )t≥0 ) in cui valgono le ipotesi usuali sulla filtrazione. La proprietà di Markov forte è una
estensione della proprietà di Markov in cui l’istante iniziale è un tempo d’arresto.
Ricordiamo (cfr. Definizione 7.1.9) che la legge di transizione p di un processo di Feller è tale che, per
ogni h > 0 e ϕ ∈ bC(R), la funzione
Z
(t, x) 7−→ p(t, x; t + h, dy)ϕ(y)
R
è continua.
12.1 Proprietà di Feller e di Markov forte

Definizione 12.1.1 (Proprietà di Markov forte). Diciamo che X soddisfa la proprietà di Markov forte se
per ogni τ tempo d’arresto finito q.c. e h ≥ 0 vale
p(τ, Xτ ; τ + h, H) = P (Xτ+h ∈ H | Fτ ) , H ∈ B, (12.1.1)
o, equivalentemente, vale
Z
p(τ, Xτ ; τ + h, dy)ϕ(y) = E [ϕ (Xτ+h ) | Fτ ] , ϕ ∈ bB. (12.1.2)
R
Teorema 12.1.2. Sia X un processo di Markov. Se X è un processo di Feller continuo a destra allora soddisfa
la proprietà di Markov forte.
Dimostrazione. Grazie al Corollario 3.5.8, per dimostrare la (12.1.1) è sufficiente provare la (12.1.2) con
ϕ ∈ bC. Dunque, dati h > 0 e ϕ ∈ bC, proviamo che, posto
Z
Z := p(τ, Xτ ; τ + h, dy)ϕ(y),
R
295
296 CAPITOLO 12. PROPRIETÀ DI MARKOV FORTE
si ha Z = E [ϕ (Xτ+h ) | Fτ ].
Verifichiamo le proprietà dell’attesa condizionata. Anzitutto Z ∈ mFτ poiché:
R
• Z = f (τ, Xτ ) con f (t, x) := p(t, x; t + h, dy)ϕ(y) funzione continua per la proprietà di Feller;
R
• Xτ ∈ mFτ per la Proposizione 11.2.28-iv), essendo X adattato e continuo a destra (quindi progressi-
vamente misurabile per la Proposizione 11.2.27).
In secondo luogo, proviamo che per ogni A ∈ Fτ si ha
E [Z1A ] = E [ϕ (Xτ+h ) 1A ] . (12.1.3)
Consideriamo prima il caso in cui τ assuma solo un’infinità numerabile di valori tk , k ∈ N: in questo caso
la (12.1.3) segue dal fatto che
∞
X h i
E [Z1A ] = E Z1A∩(τ=tk )
k=1
 
∞
X Z 
= E  p(tk , Xtk ; tk + h, dy)ϕ(y)1A∩(τ=tk )  =
 
 
k=1 R
(per la proprietà di Markov (7.2.2), poiché A ∩ (τ = tk ) ∈ Ftk )

∞
X h i
= E ϕ(Xtk +h )1A∩(τ=tk ) = E [ϕ(Xτ+h )1A ] .
k=1
Nel caso generale, consideriamo la successione di tempi d’arresto che approssimano τ, definiti da

k k−1 k
 2n se 2n ≤ τ(ω) < 2n per k ∈ N,


τn (ω) = 
∞ se τ(ω) = ∞.

Per ogni n ∈ N, τn assume solo un’infinità numerabile di valori. Inoltre, τn ≥ τ e quindi se A ∈ Fτ allora
anche A ∈ Fτn e si ha
 
Z  h i
E  p(τn , Xτn ; τn + h, dy)ϕ(y)1A  = E ϕ Xτn +h 1A .
 
 
R
Passando al limite in n → ∞ si ottiene la (12.1.3). Il passaggio al limite è giustificato dal teorema della con-
vergenza dominata e dal fatto che gli integrandi sono limitati e convergono puntualmente q.c.: nel membro
a destra, per la continuità da destra di X e la continuità di ϕ; nel membro a sinistra, per la continuità da
destra di X e la proprietà di Feller.
Osservazione 12.1.3. [!] In base al Teorema 12.1.2, il moto Browniano, il processo di Poisson e più in
generale i processi di Lévy (cfr. Definizione 11.2.18) godono della proprietà di Markov forte.
In analogia con i risultati della Sezione 10.2, vale la seguente
Proposizione 12.1.4. Siano W = (Wt )t≥0 un moto Browniano su (Ω, F , P , (Ft )t≥0 ) e τ un tempo d’arresto
finito q.c. Allora il processo
Wtτ := Wt+τ − Wτ , t ≥ 0, (12.1.4)
è un moto Browniano su (Ω, F , P , (Ft+τ )t≥0 ). In particolare, W τ è indipendente da Fτ .
12.1. PROPRIETÀ DI FELLER E DI MARKOV FORTE 297
Dimostrazione. Per ogni η ∈ R, si ha

h τ i h i
E eiηWt | Fτ = E eiη(Wt+τ −Wτ ) | Fτ
h i
= eiηWτ E eiηWt+τ | Fτ
h i η 2 t2
= eiηWτ E eiηWt+τ | Wτ = e− 2
grazie alla proprietà di Markov forte nella forma (12.1.2). Dal Teorema 5.2.10-14) segue che Wtτ ∼ N0,t ed
è indipendente da Fτ . In modo simile si prova che Wtτ − Wsτ ∼ N0,t−s ed è indipendente da Fτ+s per ogni
0 ≤ s ≤ t.
12.1.1 Principio di riflessione

Consideriamo un moto Browniano W definito su (Ω, F , P , (Ft )t≥0 ): fissato t0 ≥ 0, diciamo che

ft := Wt∧t − Wt − Wt∧t ,
W t ≥ 0,
0 0
è il processo riflesso di W a partire da t0 . La Figura 12.1 rappresenta una traiettoria di W e del suo riflesso
f a partire da t0 = 0.2. Si verifica facilmente1 che anche W
W f è un moto Browniano su (Ω, F , P , (Ft )t≥0 ). È
0.2 0.4 0.6 0.8 1.0
-1
Figura 12.1: Grafico di una traiettoria Browniana e della sua riflessa a partire da t0 = 0.2
notevole il fatto che questo risultato si generalizza al caso in cui t0 è un generico tempo d’arresto.
Teorema 12.1.5 (Principio di riflessione). [!] Siano W = (Wt )t≥0 un moto Browniano su (Ω, F , P , (Ft )t≥0 )
e τ un tempo d’arresto. Allora il processo riflesso a partire da τ, definito da
ft := Wt∧τ − (Wt − Wt∧τ ) ,
W t ≥ 0,
è un moto Browniano su (Ω, F , P , (Ft )t≥0 ).
1 Per s ≤ t si ha

Wt
ft =  se t ≤ t0 ,
W 2W − W se t > t0 ,

t0 t
da cui W
ft ∈ mFt e



Wt − Ws se s, t ≤ t0 ,

Wt − Ws = Wt0 − Ws − (Wt − Wt0 ) se s < t0 < t,
f f 


−(Wt − Ws )

se t0 ≤ s, t,
da cui segue che W fs è indipendente da Fs ed ha distribuzione N0,t−s .
ft − W
Dimostrazione. Basta provare la tesi su un intervallo temporale [0, T ] con T > 0 fissato e quindi non è
restrittivo assumere τ < ∞ cosicché è ben definito il moto Browniano W τ in (12.1.4). Osserviamo che
τ τ
Wt = Wt∧τ + Wt−τ 1(t≥τ) , ft = Wt∧τ − Wt−τ
W 1(t≥τ) .
La tesi segue dal fatto che, essendo un moto Browniano, W τ è uguale in legge a −W τ ed è indipendente da
Fτ e quindi da Wt∧τ e da τ: ne viene che W e Wf sono uguali in legge.
Consideriamo il processo del massimo di W , definito da
W̄t := max Ws , t ≥ 0.
s∈[0,t]
Corollario 12.1.6. [!] Per ogni a > 0 vale
P (W̄t ≥ a) = 2P (Wt ≥ a), t ≥ 0. (12.1.5)
Dimostrazione. Scomponiamo (W̄t ≥ a) nell’unione disgiunta
(W̄t ≥ a) = (Wt > a) ∪ (Wt ≤ a, W̄t ≥ a).
Introduciamo il tempo d’arresto

τa := inf{t ≥ 0 | Wt ≥ a}
f, riflesso di W a partire da τa . Allora si ha2
e il processo W
(Wt ≤ a, W̄t ≥ a) = (W
ft ≥ a)
e la tesi segue dal Principio di riflessione.
Osservazione 12.1.7. [!] Alcune conseguenze notevoli del Corollario 12.1.6 sono:
i) poiché P (|Wt | ≥ a) = 2P (Wt ≥ a), dalla (12.1.5) segue che W̄t e |Wt | sono uguali in legge;
ii) poiché (τa ≤ t) = (W̄t ≥ a), dalla (12.1.5) si ha

Z
2 2
P (τa ≤ t) = 2P (Wt ≥ a) = √ e−y dy, (12.1.6)
π √a
2t
da cui si deduce che

P (τa < +∞) = lim P (τa ≤ n) = 1
n→+∞
e, derivando la (12.1.6), si ottiene l’espressione della densità di τa :
a2
ae− 2t
γτa (t) = √ 1]0,+∞[ (t).
2πt 3/2
iii) per ogni ε > 0

P (Wt ≤ 0 ∀t ∈ [0, ε]) = P (W̄ε ≤ 0) = P (|Wε | ≤ 0) = 0.
2 Poniamo A = (W ≤ a, W̄ ≥ a) e B = (W
ft ≥ a). Se ω ∈ A allora τa (ω) ≤ t e quindi W
ft (ω) = 2Wτ (ω) (ω) − Wt = 2a − Wt ≥ a da cui
t t a
ω ∈ B. Viceversa, assumiamo W ft (ω) ≥ a: se fosse τa (ω) > t si avrebbe a ≤ W
ft (ω) = Wt (ω) che è assurdo. Allora deve essere τa (ω) ≤ t e
quindi ovviamente W̄t ≥ a e inoltre a ≤ W
ft (ω) = 2a − Wt (ω) da cui Wt (ω) ≥ a.
12.2. IL CASO OMOGENEO 299
12.2 Il caso omogeneo

Nel seguito I = R≥0 e supponiamo che X sia la versione canonica di un processo di Markov con legge di
transizione p omogenea nel tempo. Ricordiamo che X è definito sullo spazio completo (RI , BµI , µ, F X ) dove µ
è la legge del processo X e F X è la filtrazione standard di X (cfr. Definizione 11.2.10). Inoltre Xt (ω) = ω(t)
per ogni t ≥ 0 e ω ∈ RI .
Per esprimere in maniera più efficace la proprietà di Markov, introduciamo la famiglia di traslazioni
(θt )t≥0 definite da
θt : RI −→ RI , (θt ω)(s) = ω(t + s), s ≥ 0, ω ∈ RI .
Intuitivamente, l’operatore di traslazione θt “taglia e rimuove” la parte di traiettoria ω fino al tempo t.
Data una v.a. Y , indichiamo con Y ◦ θt la v.a. traslata definita da
(Y ◦ θt )(ω) := Y (θt (ω)), ω ∈ RI .
Notiamo che (Xs ◦ θt )(ω) = ω(t + s) = Xt+s (ω) o, più semplicemente,
Xs ◦ θt = Xt+s .
Nel seguente enunciato Ex [Y ] ≡ E [Y | X0 = x] indica una versione della funzione attesa di Y condizionata
a X0 (cfr. Definizione 5.2.14) e F0,∞
X
= σ (Xs , s ≥ 0) (cfr. definizione (7.2.6)).
Teorema 12.2.1 (Proprietà di Markov forte nel caso omogeneo). [!] Sia X la versione canonica di un
processo di Markov forte con legge di transizione omogenea nel tempo. Per ogni tempo d’arresto τ, finito
X
q.c., e per ogni Y ∈ bF0,∞ si ha
EXτ [Y ] = E [Y ◦ θτ | Fτ ] . (12.2.1)
Dimostrazione. Per chiarezza, osserviamo esplicitamente che il membro sinistro della (12.2.1) indica la
funzione Ex [Y ] calcolata in x = Xτ . Se X soddisfa la proprietà di Markov forte (12.1.2) si ha
E [ϕ (Xh ) ◦ θτ | Fτ ] = E [ϕ (Xτ+h ) | Fτ ]
Z
= p(τ, Xτ ; τ + h, dy)ϕ(y) =
R
(per l’ipotesi di omogeneità)

Z
= p(0, Xτ ; h, dy)ϕ(y) = EXτ [ϕ(Xh )]
R
che prova la (12.2.1) per Y = ϕ(Xh ) con h ≥ 0 e ϕ ∈ bB. Il caso generale si prova come il Teorema 7.2.4,
estendendo prima la (12.2.1) al caso
Yn
Y= ϕi (Xhi )
i=1
con 0 ≤ h1 < · · · < hn e ϕ1 , . . . , ϕn ∈ bB, e infine utilizzando il secondo teorema di Dynkin.
Tutti i risultati sui processi di Markov visti finora si estendono al caso multi-dimensionale (ossia, al caso
di processi a valori in Rd ) senza alcuna difficoltà. Il seguente Teorema 12.2.2 è preliminare allo studio della
relazione fra i processi di Markov e le funzioni armoniche: ricordiamo che una funzione armonica è una
soluzione dell’operatore di Laplace o più in generale di un’equazione differenziale alle derivate parziali di
tipo ellittico. Assumiamo le seguenti ipotesi generali:
• D è un aperto di Rd ;
• X è la versione canonica di un processo di Markov forte a valori in Rd ;
• X è continuo e ha legge di transizione p omogenea nel tempo;
• X0 ∈ D q.c.;
• τD < ∞ q.c. dove τD è il tempo di uscita di X da D (cfr. Esempio 11.2.25).
Indichiamo con ∂D il bordo di D e osserviamo che, in base alle ipotesi assunte, XτD ∈ ∂D q.c. Nel seguente
enunciato Ex [·] ≡ E [· | X0 = x] indica la funzione attesa condizionata a X0 .
Teorema 12.2.2. Sia ϕ ∈ bB(∂D). Se3

h i
u(x) = Ex ϕ(XτD ) (12.2.2)
allora si ha:
X
i) il processo (u(Xt∧τD ))t≥0 è una martingala rispetto alla filtrazione (Ft∧τ ) ;
D t≥0
ii) per ogni y ∈ D e ε > 0 tale che D(y, ε) := {z ∈ Rd | |z − y| < ε} ⊆ D vale

h i
u(x) = Ex u XτD(y,ε) (12.2.3)
dove τD(y,ε) indica il tempo di uscita di X da D(y, ε).
Dimostrazione. La dimostrazione è basata sull’osservazione cruciale che se τ è un tempo d’arresto e τ ≤ τD ,

allora vale
XτD ◦ θτ = XτD . (12.2.4)
Più esplicitamente, per ogni ω ∈ RI vale
(XτD ◦ θτ )(ω) = XτD (θτ (ω)) = XτD (ω)
poiché la traiettoria ω e la traiettoria θτ (ω), ottenuta tagliando e rimuovendo la parte di ω fino all’istante
τ(ω), escono per la prima volta da D nello stesso punto XτD (ω).
Proviamo la i): per 0 ≤ s ≤ t si ha
h i h h i i
E u(Xt∧τD ) | Fs∧τD = E EXt∧τ ϕ(XτD ) | Fs∧τD =
D
X
(per la proprietà di Markov forte (12.2.1), poiché ϕ(XτD ) ∈ bF0,∞ )
h h i i
= E E ϕ(XτD ) ◦ θt∧τD | Ft∧τD | Fs∧τD =
(per la (12.2.4) con τ = t ∧ τD )

h h i i
= E E ϕ(XτD ) | Ft∧τD | Fs∧τD =
(poiché Fs∧τD ⊆ Ft∧τD )

h i
= E ϕ(XτD ) | Fs∧τD =
(riapplicando la proprietà di Markov forte (12.2.1))

h i
= EXs∧τ ϕ(XτD ) = u(Xs∧τD ).
D
3 La (12.2.2) significa che u è una versione della funzione attesa di ϕ(X ) condizionata a X .
τD 0
12.2. IL CASO OMOGENEO 301
Ora proviamo la ii). Se x < D(y, ε), τD(y,ε) = 0 e la tesi è ovvia conseguenza dell’Esempio 5.2.16. Se
x ∈ D(y, ε), osserviamo che τD(y,ε) ≤ τD < ∞ q.c. poiché X è continuo e applicando il Teorema di optional
sampling, nella forma del Teorema 13.5.4, alla martingala Mt := u(Xt∧τD ) abbiamo
h i
M0 = E MτD(y,ε) | F0X
ossia h i
u(X0 ) = E u(XτD(y,ε) ) | X0
che prova la (12.2.3).
Capitolo 13
Martingale continue
We balance probabilities and choose

the most likely. It is the scientific use
of the imagination.
Arthur Conan Doyle
In questo capitolo estendiamo dal discreto al continuo alcuni importanti risultati come il teorema di
optional sampling e le disuguaglianze massimali di Doob per le martingale. La strategia generale consiste
di tre passaggi:
• i risultati vengono prima estesi dal caso discreto, in cui il numero di istanti temporali è finito, al caso
in cui gli istanti temporali siano i cosiddetti razionali diadici definiti da
[ n o n o
D := Dn , Dn := 2kn | k ∈ N0 = 0, 21n , 22n , 23n , . . . .
n≥1
Osserviamo che Dn ⊆ Dn+1 per ogni n ∈ N e D è un insieme numerabile e denso in R≥0 ;

• sotto l’ipotesi di continuità da destra delle traiettorie è pressoché immediato estendere la validità dei
risultati dai diadici al continuo;
• infine si mostra che l’ipotesi di continuità delle traiettorie non è essenzialmente restrittiva poiché
ogni martingala ammette una modificazione con traiettorie càdlàg: la dimostrazione è basata sulle di-
suguaglianze massimali di Doob (che permettono di provare che le traiettorie non divergono quasi
sicuramente) e sul lemma di risalita (che permette di provare che le traiettorie non oscillano quasi si-
curamente). Il terzo ingrediente fondamentale è il teorema di convergenza di Vitali (Teorema A.3.0.2)
che garantisce la sussistenza della proprietà di martingala nei passaggi al limite.
Nella seconda parte del capitolo introduciamo alcuni notevoli spazi di martingale che giocheranno un
ruolo centrale nella teoria dell’integrazione stocastica. Diamo anche la definizione di martingala locale, una
nozione che generalizza quella di martingala indebolendo le ipotesi di sommabilità.
13.1 Optional sampling e continuità

Consideriamo uno spazio con filtrazione (Ω, F , P , (Ft )t≥0 ) che soddisfa le ipotesi usuali. Nel seguito,
fissato T > 0, usiamo la notazione
[ n o
D(T ) := DT ,n , DT ,n := T2nk | k = 0, 1, . . . , 2n , n ∈ N. (13.1.1)
n≥1
303
304 CAPITOLO 13. MARTINGALE CONTINUE
Lemma 13.1.1 (Disuguaglianze massimali di Doob sui diadici). Sia X = (Xt )t≥0 una martingala o una
sub-martingala non-negativa. Per ogni T , λ > 0 e p > 1 si ha
!
E [|XT |]
P sup |Xt | ≥ λ ≤ , (13.1.2)
t∈D (T ) λ
  !p
p p
E [|XT |p ] .

E  sup |Xt |  ≤
 
t∈D (T ) p−1
Dimostrazione. Se X è una martingala allora |X| è una sub-martingala non-negativa per Proposizione 6.5.11.
Dunque è sufficiente provare la tesi per X sub-martingala non-negativa. Fissato T > 0, per ogni n ∈ N consi-
deriamo il processo (Xt )t∈DT ,n che è una sub-martingala non-negativa discreta relativamente alla filtrazione
(Ft )t∈DT ,n e poniamo
Mn := sup Xt , M := sup Xt .
t∈DT ,n t∈D (T )
Fissiamo ε > 0. Ricordando che DT ,n ⊆ DT ,n+1 , per il Teorema di Beppo-Levi si ha1
P (M > λ − ε) = lim P (Mn > λ − ε) ≤

n→∞
(per la disuguaglianza massimale di Doob per le sub-martingale discrete, Teorema 11.1.11)

E [XT ]
≤ .
λ−ε
La (13.1.2) segue dall’arbitrarietà di ε.
p p p p
Sia ora p > 1. Poiché DT ,n ⊆ DT ,n+1 e Mn = sup Xt , si ha 0 ≤ Mn ↗ M = sup Xt per n → ∞. Allora
t∈DT ,n t∈D (T )
per il teorema di Beppo-Levi si ha
h pi
E [M p ] = lim E Mn ≤
n→∞
(per la disuguaglianza massimale di Doob per le sub-martingale discrete, Teorema 11.1.11)

!p
p h pi
≤ E XT .
p−1
Negli enunciati seguenti assumeremo sempre l’ipotesi di continuità a destra dei processi: come vedremo
nella Sezione 13.2, tale ipotesi può essere rimossa poiché ogni martingala ammette una modificazione
càdlàg.
Teorema 13.1.2 (Disuguaglianze massimali di Doob). [!!] Sia X = (Xt )t≥0 una martingala (o una sub-
martingala non-negativa) continua a destra. Per ogni T , λ > 0 e p > 1 si ha
!
E [|XT |]
P sup |Xt | ≥ λ ≤ , (13.1.3)
t∈[0,T ] λ
  !p
p p
E [|XT |p ] .
 
E  sup |Xt |  ≤ (13.1.4)
t∈[0,T ] p − 1
1 Si noti che
h i h i
P (M > λ − ε) = E 1(M>λ−ε) = lim E 1(Mn >λ−ε) = lim P (Mn > λ − ε),
n→∞ n→∞
poiché la successione 1(Mn >λ−ε) è monotona crescente.
13.1. OPTIONAL SAMPLING E CONTINUITÀ 305
Dimostrazione. La tesi è immediata conseguenza del Lemma 13.1.1 poiché se X ha traiettorie continue a
destra si ha sup |Xt | = sup |Xt |.
t∈[0,T ] t∈D (T )
In analogia col caso discreto, si ha il seguente semplice

Corollario 13.1.3 (Disuguaglianze massimali di Doob). [!!] Sia X = (Xt )t≥0 una martingala (o una sub-
martingala non-negativa) continua a destra. Per ogni λ > 0, p > 1 e τ tempo d’arresto tale che τ ≤ T q.c. per
un certo T , si ha
!
E [|Xτ |]
P sup |Xt | ≥ λ ≤ ,
t∈[0,τ] λ
  !p
p p
E [|Xτ |p ] .
 
E  sup |Xt |  ≤
t∈[0,τ] p − 1
Dimostrazione. Vedremo in seguito (cfr. Corollario 13.4.1) che stoppando una martingala continua a destra
si ottiene ancora una martingala. Allora la tesi segue dal Teorema 13.1.2 applicato a (Xt∧τ )t≥0 .
Per estendere alcuni risultati su tempi d’arresto e martingale dal caso discreto a quello continuo, è utile
il seguente risultato tecnico di approssimazione.
Lemma 13.1.4. Dato un tempo d’arresto τ : Ω −→ [0, +∞] esiste una successione (τn )n∈N di tempi d’arresto
discreti (cfr. Definizione 11.1.1)
τn : Ω −→ { 2kn | k = 1, 2, . . . , n2n }
tali che:
i) τn −→ τ per n → ∞;
ii) τn+1 (ω) ≤ τn (ω) se n > τ(ω).
Dimostrazione. Per ogni n ∈ N poniamo

k k−1 k
 2n se 2n ≤ τ(ω) <

 2n per k ∈ {1, 2, . . . , n2n },
τn (ω) = 
n
 se τ(ω) ≥ n.
Per ogni ω ∈ Ω e n ∈ N tali che τ(ω) < n si ha
τn (ω) − 21n ≤ τ(ω) ≤ τn (ω)
e da questo seguono la i) e la ii). Infine, per ogni fissato n ∈ N, τn è un tempo d’arresto discreto rispetto
alla filtrazione definita da F k per k = 0, 1, . . . , n2n , poiché si ha
2n

τn = k
2n = ∈F k ,
k−1
2n ≤τ < k
2nk = 0, 1, . . . , n2n − 1,
2n
c
(τn = n) = τ ≥ n − 21n = τ < n − 21n ∈ F 1 ⊆ Fn .
n− 2n
Osservazione 13.1.5. In base alla ii) del Lemma 13.1.4, se τ(ω) < ∞, la successione approssimante (τn (ω))n∈N
ha la proprietà di essere monotona decrescente almeno per n abbastanza grande. D’altra parte, se τ(ω) = ∞
allora τn (ω) = n.
Diamo una prima versione del teorema di optional sampling: ne vedremo una seconda, con ipotesi più
deboli sui tempi d’arresto, nel Teorema 13.5.4.
Teorema 13.1.6 (Teorema di optional sampling). [!!!] Sia X = (Xt )t≥0 una sub-martingala continua a
destra. Se τ1 e τ2 sono tempi d’arresto tali che τ1 ≤ τ2 ≤ T per un certo T > 0, allora si ha
h i
Xτ1 ≤ E Xτ2 | Fτ1 .
Dimostrazione. Supponiamo che X sia una martingala continua a destra2 . Consideriamo le successioni
(τi,n )n∈N , i = 1, 2, costruite come nel Lemma 13.1.4, di tempi d’arresto discreti tali che τi,n −−−−−→ τi : per
n→∞
costruzione si ha anche τ1,n ≤ τ2,n per ogni n ∈ N. Poniamo inoltre τ̄i,n = τi,n ∧ T . Per la proprietà di
monotonia di τ̄i,n (cfr. Lemma 13.1.4-ii)) e la continuità a destra di X, si ha Xτ̄i,n −−−−−→ Xτi . D’altra parte,
n→∞
per la versione discreta del Teorema di optional sampling (cfr. Teorema 11.1.10) si ha
h i
Xτ̄i,n = E XT | Fτ̄i,n (13.1.5)
e quindi per la Proposizione A.3.0.7 (e l’Osservazione A.3.0.8) le successioni (Xτ̄i,n )n∈N sono uniformemente
integrabili. Ne viene che, per il Teorema A.3.0.2 di convergenza di Vitali, si ha anche convergenza in
L1 (Ω, P ):
L1
Xτ̄i,n −−−−−→ Xτi , i = 1, 2. (13.1.6)
n→∞
Ancora per il Teorema 11.1.10 di optional sampling si ha
h i
Xτ̄1,n = E Xτ̄2,n | Fτ̄1,n
da cui, condizionando a Fτ̄1 e usando la proprietà della torre, si ha

h i h i
E Xτ̄1,n | Fτ̄1 = E Xτ̄2,n | Fτ̄1 .
La tesi segue passando al limite per n → ∞, grazie alla (13.1.6)

h e ricordando
i che la convergenza in L1 (Ω, P )
di Xτ̄i,n implica la convergenza delle attese condizionate E Xτ̄i,n | Fτ1 (cfr. punto 12 del Teorema 5.2.10).
Nel caso in cui X è una sub-martingala, la dimostrazione è completamente analoga tranne per il fatto che
non si può dedurre l’uniforme integrabilità direttamente dalla (13.1.5) ma occorre utilizzare un argomento
leggermente più sottile: per i dettagli rimandiamo a [3], Teorema 5.13.
Il seguente utile risultato mostra che, se si considerano anche i tempi aleatori (che siano tempi d’arresto
limitati), allora la proprietà di martingala è equivalente alla proprietà di essere costante in media.
Teorema 13.1.7. Sia X = (Xt )t≥0 un processo adattato e sommabile (ossia tale che Xt ∈ L1 (Ω, P ) per ogni
t ≥ 0). Allora X è una martingala se e solo se E [Xτ ] = E [X0 ] per ogni τ tempo d’arresto limitato (ossia tale
che τ ≤ T per un certo T > 0).
Dimostrazione. Se X è una martingala continua a destra3 allora è costante in media sui tempi d’arresto
limitati per il Teorema 13.1.6 di optional sampling. Viceversa, essendo X adattato per ipotesi, rimane solo
da verificare che
E [Xt 1A ] = E [Xs 1A ] , s ≤ t, A ∈ Fs .
A tal fine si considera
τ := s1A + t1Ac
che si verifica facilmente essere un tempo d’arresto limitato. Allora per ipotesi vale
E [X0 ] = E [Xτ ] = E [Xs 1A ] + E [Xt 1Ac ] ,
E [X0 ] = E [Xt ] = E [Xt 1A ] + E [Xt 1Ac ] ,
e sottraendo un’equazione dall’altra si ottiene la tesi.
2 Tale ipotesi può essere rimossa poiché ogni martingala ammette una modificazione càdlàg (cfr. Sezione 13.2).
3 Questa ipotesi non è restrittiva poiché vedremo nella Sezione 13.2 che ogni martingala ammette una modificazione càdlàg.
13.2. MARTINGALE CÀDLÀG 307
13.2 Martingale càdlàg

In questa sezione proviamo che ogni martingala ammette una modificazione con traiettorie càdlàg e dunque
l’ipotesi di continuità a destra assunta negli enunciati della sezione precedente può essere rimossa. Provia-
mo dapprima che una martingala può avere solo discontinuità di prima specie (salti di ampiezza finita) sui
razionali diadici di R≥0 .
Lemma 13.2.1. Sia X = (Xt )t∈D una martingala. Esiste un evento trascurabile N tale che, per ogni t ≥ 0, i
limiti
lim− Xs (ω), lim+ Xs (ω) (13.2.1)
s→t s→t
s∈D s∈D
esistono e sono finiti per ogni ω ∈ Ω \ N . Inoltre, se sup E [|Xt |] < ∞ allora esiste ed è finito anche il limite
t∈D
lim Xt (ω). (13.2.2)

t→+∞
t∈D
Dimostrazione. L’idea della prova è la seguente. Il fatto che i limiti in (13.2.1) divergano o non esistano
è possibile solo in due casi: se sup |Xt (ω)| = ∞ oppure se esiste un intervallo non banale [a, b] che è “at-
t∈D
traversato” da X un numero infinito di volte. La disuguaglianza massimale di Doob e il lemma di risalita
escludono rispettivamente queste due eventualità o, più precisamente, implicano che si verificano solo per
ω appartenente ad un evento trascurabile.
Consideriamo prima il caso in cui κ := sup E [|Xt |] < ∞. Fissato n ∈ N, applichiamo la disuguaglianza
t∈D
massimale (11.1.7) e il Lemma 11.1.13 di risalita alla sub-martingala discreta non-negativa (|Xt |)t∈Dn ∩[0,n] :
per ogni λ > 0 e 0 ≤ a < b, abbiamo
E [(|Xn | − a)+ ]
!
E [|Xn |] κ κ
P max |Xt | ≥ λ ≤ ≤ , E νn,a,b ≤ ≤ ,
t∈Dn ∩[0,n] λ λ b−a b−a
dove νn,a,b è il numero di risalite di (|Xt |)t∈Dn ∩[0,n] su [a, b]. Passando al limite per n → ∞ e usando il teorema
di Beppo-Levi, abbiamo
!
κ κ
P sup |Xt | ≥ λ ≤ , E νa,b ≤ ,
t∈D λ b −a
dove νa,b è il numero di risalite di (|Xt |)t∈D su [a, b]. Questo implica l’esistenza di due eventi trascurabili N0
e Na,b per cui vale
sup |Xt | < ∞ su Ω \ N0 , νa,b < ∞ su Ω \ Na,b .
t∈D
Anche l’evento [
N := Na,b ∪ N0
a,b∈Q
0≤a<b
è trascurabile: per ogni ω ∈ Ω \ N si ha che sup |Xt (ω)| < ∞ e, su ogni intervallo con estremi razionali
t∈D
non-negativi, ci sono solo un numero finito di risalite di |X(ω)|; di conseguenza i limiti in (13.2.1)-(13.2.2)
esistono e sono finiti su Ω \ N .
Consideriamo ora il caso in cui X è una martingala generica. Per ogni n ∈ N, possiamo applicare
quanto appena provato al processo stoppato (Xt∧n )t∈D . Infatti è immediato verificare che (Xt∧n )t∈D è una
martingala e vale
sup E [|Xt∧n |] ≤ E [|Xn |]
t∈D
come conseguenza del fatto che, per la Proposizione 6.5.11, (|Xt∧n |)t∈D è una sub-martingala.
Dunque i limiti in (13.2.1) esistono e sono finiti quasi certamente per t ≤ n. La tesi segue dall’arbitrarietà
di n ∈ N.
L’argomento usato nella seconda parte della dimostrazione del Lemma 13.2.1 si adatta facilmente per
provare il seguente
Teorema 13.2.2. [!] Sia X = (Xn )n∈N una martingala discreta tale che sup E [|Xn |] < ∞. Allora, per quasi
n∈N
ogni ω ∈ Ω, esiste ed è finito il limite
X∞ (ω) := lim Xn (ω).
n→∞
Teorema 13.2.3. [!] Ogni martingala X = (Xt )t≥0 su (Ω, F , P , (Ft )t≥0 ) ammette una modificazione che è
ancora una martingala con traiettorie càdlàg.
Dimostrazione. Per il Lemma 13.2.1 le traiettorie di (Xt )t∈D hanno limiti finiti da destra e sinistra quasi
certamente. Allora è ben definito il processo
et := lim Xs ,
X t ≥ 0,
+
s→t
s∈D
che ha traiettorie càdlàg per costruzione. Proviamo che

et = E [XT | Ft ] ,
X 0≤t ≤T, (13.2.3)
da cui seguirà che X et = Xt q.c., ossia X

e è una modificazione di X, e di conseguenza anche che X e è una
martingala.
Proviamo la (13.2.3) verificando le due proprietà dell’attesa condizionata. Anzitutto, per definizione
et ∈ mFt+ = mFt grazie alle ipotesi usuali. In secondo luogo, essendo X una martingala, per ogni A ∈ Ft
X
si ha
E [Xs 1A ] = E [XT 1A ] , s ∈ [t, T ]. (13.2.4)
h i
Passando al limite in (13.2.4) per s → t + , con s ∈ D ∩ (t, T ], si ha E X et 1A = E [XT 1A ] che prova la (13.2.3). Il
passaggio al limite è giustificato dal Teorema A.3.0.2 di convergenza di Vitali poiché Xs = E [XT | Fs ], con
s ∈ D ∩ (t, T ], è uniformemente integrabile per la Proposizione A.3.0.7.
Esempio 13.2.4. Per ogni variabile aleatoria sommabile X esiste una versione càdlàg della martingala Mt :=
E [X | Ft ].
Osservazione 13.2.5. [!] Alla luce del Teorema 13.2.3 d’ora in poi, data una martingala, assumiamo impli-
citamente di considerarne sempre una versione càdlàg.
13.3 Martingale continue di quadrato sommabili: lo spazio M c,2

In questa sezione introduciamo lo spazio dei processi su cui costruiremo l’integrale stocastico e provia-
mo che si tratta di uno spazio di Banach.
Definizione 13.3.1. Fissato T > 0, indichiamo con MTc,2 lo spazio delle martingale continue X = (Xt )t∈[0,T ]
di quadrato sommabili, ossia tali che
q h i
∥X∥T := ∥XT ∥L2 (Ω,P ) = E XT2 < ∞.
Indichiamo con M c,2 lo spazio delle martingale continue X = (Xt )t≥0 tali che Xt ∈ L2 (Ω, P ) per ogni t ≥ 0.
13.4. MARTINGALE LOCALI: LO SPAZIO M C,LOC 309
Osservazione 13.3.2. Notiamo che ∥ · ∥T è una semi-norma in MTc,2 , nel senso che ∥X∥T = 0 se e solo se X è
indistinguibile dal processo identicamente nullo. Questo fatto è conseguenza dell’ipotesi di continuità di X
e della disuguaglianza massimale di Doob in base alla quale si ha
 
h i
2
E  sup Xt  ≤ 4E XT2 = 4∥X∥2T .
 

t∈[0,T ]
Identificando i processi indistinguibili di MTc,2 e quindi considerando MTc,2 come lo spazio delle classi di
equivalenza di processi (nel senso dell’indistinguibilità), si ottiene uno spazio normato completo.
Proposizione 13.3.3. (MTc,2 , ∥ · ∥T ) è uno spazio di Banach.
Dimostrazione. Sia (Xn )n∈N una successione di Cauchy in MTc,2 rispetto a ∥ · ∥T . Basta mostrare che (Xn )n∈N
ammette una sotto-successione convergente in MTc,2 .
Per la disuguaglianza massimale di Doob (13.1.3), per ogni ε > 0 e n, m ∈ N si ha
 
  E |Xn,T − Xm,T |
P  sup |Xn,t − Xm,t | ≥ ε ≤
 ≤
t∈[0,T ] ε
(per la disuguaglianza di Hölder)

h i1
E |Xn,T − Xm,T |2 2 ∥Xn − Xm ∥T
≤ = .
ε ε
Di conseguenza, per ogni k ∈ N esiste nk ∈ N tale che
 
 1  1
P  sup |Xn,t − Xm,t | ≥  ≤ k ,
 n, m ≥ nk ,
t∈[0,T ] k 2
e per il Lemma 2.3.28 di Borel-Cantelli Xnk ,· converge uniformemente su [0, T ] quasi certamente: il valore
limite, che indichiamo con X, è un processo continuo (possiamo porre a zero le traiettorie non continue).
Fissiamo
t ∈ [0, T ]: per la disuguaglianza di Doob (13.1.4), anche la successione di variabili aleatorie
Xnk ,t è di Cauchy in L2 (Ω, P ) che è uno spazio completo e, per l’unicità del limite, converge a Xt nel
k∈N
senso che 2
lim E Xt − Xnk ,t = 0. (13.3.1)
k→∞
In particolare, se t = T , si ha
lim X − Xnk T = 0.
k→∞
Infine proviamo che X è una martingala. Per 0 ≤ s ≤ t ≤ T e G ∈ Fs si ha

h i h i
E Xnk ,t 1G = E Xnk ,s 1G
poiché Xnk ∈ MTc,2 . Passando al limite per n → ∞ grazie alla (13.3.1) si ha E [Xt 1G ] = E [Xs 1G ] che prova la
tesi.
13.4 Martingale locali: lo spazio M c,loc

Una delle principali motivazioni per l’introduzione dei tempi d’arresto è il fatto che essi permettono
l’utilizzo di tecniche, cosiddette “di localizzazione”, che permettono di indebolire fortemente le ipotesi di
sommabilità di alcune classi di processi stocastici. In questa sezione analizziamo il caso specifico delle
martingale.
Consideriamo uno spazio con filtrazione (Ω, F , P , (Ft )t≥0 ) in cui valgono le ipotesi usuali. Il concetto
di martingala locale estende quello di martingala rimuovendo la condizione di sommabilità del processo.
In questo modo si possono includere importanti classi di processi (per esempio, gli integrali stocastici) che
sono martingale solo se stoppate (o “localizzate”). Osserviamo anzitutto che, come nel caso discreto (cfr.
Proposizione 11.1.7), la proprietà di martingala si conserva stoppando il processo.
Corollario 13.4.1 (Martingala stoppata). Siano X = (Xt )t≥0 una martingala (càdlàg) e τ0 un tempo d’arre-
sto. Allora anche il processo stoppato (Xt∧τ0 )t≥0 è una martingala.
Dimostrazione. Essendo X càdlàg e adattato per ipotesi, per la Proposizione 11.2.28 si ha Xt∧τ0 ∈ mFt∧τ0 ⊆
h i
mFt . Inoltre, per il Teorema 13.1.6 Xt∧τ0 = E Xt | Ft∧τ0 ∈ L1 (Ω, P ) per ogni t ≥ 0. Ancora per il Teorema
h i
13.1.6, per ogni tempo d’arresto limitato τ si ha E Xτ∧τ0 = E [X0 ] e quindi la tesi segue dal Teorema 13.1.7.
Definizione 13.4.2 (Martingala locale). Un processo X = (Xt )t≥0 è una martingala locale se è X0 ∈ mF0 ed
esiste una successione crescente (τn )n∈N di tempi d’arresto, detta successione localizzante per X, tale che:
i) τn ↗ ∞ per n → ∞;
ii) per ogni n ∈ N, il processo stoppato e traslato (Xt∧τn − X0 )t≥0 è una martingala.
Indichiamo con M c,loc lo spazio delle martingale locali continue.
Per il Corollario 13.4.1 ogni martingala (càdlàg) è una martingala locale con successione localizzante
τn ≡ ∞.
Esempio 13.4.3. Consideriamo il processo costante X = (Xt )t≥0 con Xt ≡ X0 ∈ mF0 per ogni t ≥ 0. Se
X0 ∈ L1 (Ω, P ) allora X è una martingala. Se X0 < L1 (Ω, P ), il processo X non è una martingala a causa della
mancanza di sommabilità ma è ovviamente una martingala locale: infatti, posto τn ≡ ∞, si ha Xt∧τn −X0 ≡ 0.
Esempio 13.4.4. Sia W un moto Browniano su (Ω, F , P , (Ft )t≥0 ) e Y ∈ mF0 . Allora il processo
Xt := Y Wt
è adattato. Inoltre, se Y ∈ L1 (Ω, P ), essendo Wt = Wt − W0 e Y indipendenti, si ha anche Xt ∈ L1 (Ω, P ) per

ogni t ≥ 0 e
E [Y Wt | Fs ] = Y E [Wt | Fs ] = Y Ws , s ≤ t,
da cui segue che X è una martingala.
Senza ulteriori ipotesi su Y a parte la F0 -misurabilità, il processo X può non essere una martingala per
la mancanza di sommabilità ma è comunque una martingala locale: l’idea è di rimuovere le traiettorie in
cui Y è “troppo grande” ponendo 
0 se |Y | > n,


τn := 
∞ se |Y | ≤ n,

che definisce una successione crescente di tempi d’arresto (si noti che (τn ≤ t) = (|Y | > n) ∈ F0 ⊆ Ft ). Allora,
per ogni n ∈ N, il processo
t 7→ Xt∧τn = Xt 1(τn =∞) = Wt Y 1(|Y |≤n)
è una martingala poiché è del tipo Wt Ȳ con Ȳ = Y 1(|Y |≤n) variabile aleatoria limitata.
Osservazione 13.4.5. Se X è una martingala locale con successione localizzante (τn )n∈N allora:
13.5. MARTINGALE UNIFORMEMENTE IN L2 311
i) X ha una modificazione con traiettorie càdlàg che si costruisce a partire dall’esistenza di una modi-
ficazione càdlàg di ogni martingala Xt∧τn . Nel seguito, il fatto che X sia càdlàg sarà implicitamente
assunto per ipotesi;
ii) X è adattato poiché X0 ∈ mF0 per definizione e Xt − X0 è limite puntuale di Xt∧τn − X0 che è mFt -
misurabile per definizione di martingala;
iii) a priori Xt non gode di nessuna proprietà di sommabilità;
iv) se X ha traiettorie càdlàg allora esiste una successione localizzante (τ̄n )n∈N tale che

|τ̄n | ≤ n, Xt∧τ̄n ≤ n, t ≥ 0, n ∈ N.
Infatti, per la Proposizione 11.2.5, il tempo di uscita σn di |X| dall’intervallo [−n, n] è un tempo d’ar-
resto; inoltre, poiché X è càdlàg (e quindi ogni traiettoria di X è limitata su ogni intervallo temporale
compatto) si ha σn ↗ ∞. Allora
τ̄n := τn ∧ σn ∧ n
è una successione localizzante per X: in particolare, poiché Xt∧τn − X0 è una martingala, per il
Corollario 13.4.1 anche Xt∧τ̄n − X0 = X(t∧τ̄n )∧(σn ∧n) − X0 lo è;
v) se esiste Y ∈ L1h(Ω, P ) tale che i|Xt | ≤ Y per ogni t ≥ 0, allora X è una martingala: infatti per s ≤ t si ha
Xs∧τn − X0 = E Xt∧τn − X0 | Fs che, grazie all’ipotesi di sommabilità, equivale a
h i
Xs∧τn = E Xt∧τn | Fs . (13.4.1)
La tesi segue passando al limite per n → ∞ e utilizzando il Teorema della convergenza dominata
per l’attesa condizionata. In particolare, ogni martingala locale limitata è una martingala. Il pas-
saggio al limite in (13.4.1) è una questione molto delicata: per esempio, esistono martingale locali
uniformemente integrabili che non sono martingale4 ;
vi) se X ≥ 0 allora X è una super-martingala: basta ragionare come nel punto precedente utilizzando il
lemma di Fatou invece del Teorema della convergenza dominata.
13.5 Martingale uniformemente in L2

In questa sezione proviamo un’ulteriore versione del teorema di optional sampling. Sia (Ω, F , P , (Ft )t≥0 )
uno spazio con filtrazione che soddisfa le ipotesi usuali. Per trattare il caso in cui l’indice temporale varia
in R≥0 introduciamo una condizione di sommabilità che permetterà, con argomenti basati sull’utilizzo di
tempi d’arresto, di ricondursi facilmente al caso [0, T ].
Definizione 13.5.1. Sia p ≥ 1. Diciamo che un processo X = (Xt )t≥0 è uniformemente in Lp se
sup E [|Xt |p ] < ∞.

t≥0
Proposizione 13.5.2. Sia X = (Xt )t≥0 una martingala. Sono equivalenti le seguenti affermazioni:
i) X è uniformemente in L2 ;
ii) esiste una v.a. X∞ ∈ L2 (Ω, P ) e F∞ -misurabile5 , tale che
Xt = E [X∞ | Ft ] , t ≥ 0.
4 Si veda, per esempio, il Capitolo 2 in [20].
5 Si ricordi la definizione di F in (11.2.2).
∞
In tal caso vale anche " #

h i
E sup Xt2 2
≤ 4E X∞ . (13.5.1)
t≥0
Dimostrazione. [ii) ⇒ i)] Per la disuguaglianza di Jensen si ha

h i h i h h ii h i
E Xt2 = E E [X∞ | Ft ]2 ≤ E E X∞ 2 2
| Ft = E X∞ < ∞. (13.5.2)
[i) ⇒ ii)] Consideriamo la martingala discreta (Xn )n∈N . Per il Teorema 13.2.2, per quasi ogni ω ∈ Ω esiste ed
è finito il limite
X∞ (ω) := lim Xn (ω)
n→∞
e poniamo X∞ (ω) = 0 per gli ω per cui tale limite non esiste o non è finito. Chiaramente X∞ ∈ mF∞ e
inoltre X∞ ∈ L2 (Ω, P ) poiché per il lemma di Fatou vale
h i h i h i
2
E X∞ ≤ lim E Xn2 ≤ sup E Xt2 < ∞
n→∞ t≥0
per ipotesi. Grazie all’Osservazione A.3.0.10, (Xn )n∈N è uniformemente integrabile e quindi per il Teorema
A.3.0.2 di Vitali si ha anche che Xn converge a X∞ in L1 (Ω, P ): da questo segue anche che
Xn = E [X∞ | Fn ] , n ∈ N; (13.5.3)
infatti, usando la definizione di attesa condizionata, è sufficiente osservare che per ogni A ∈ Fn si ha
0 = lim E [(Xn − XN )1A ] = E [(Xn − X∞ )1A ] .

N →∞
Allora, dato t ≥ 0 e preso n ≥ t, si ha
Xt = E [Xn | Ft ] = E [E [X∞ | Fn ] | Ft ] = E [X∞ | Ft ] .
Infine, per ogni n ∈ N, per la disuguaglianza massimale di Doob si ha

 
h i
E  sup Xt  ≤ 4E Xn2 ≤
2
 
t∈[0,n]
(per la (13.5.3) e procedendo come nella prova della (13.5.2))

h i
2
≤ 4E X∞
e la (13.5.1) segue passando al limite per n → +∞, per il Teorema di Beppo-Levi.

h i
Esempio 13.5.3. Un moto Browniano reale W non è uniformemente in L2 poiché E Wt2 = t. Tuttavia, per
ogni fissato T > 0, il processo Xt := Wt∧T è una martingala uniformemente in L2 con X∞ = WT .
Il prossimo risultato è una versione del Teorema di optional sampling per martingale uniformemente
in L2 . Tale condizione di sommabilità è necessaria come risulta evidente dal seguente esempio: dati un
moto Browniano reale W e a > 0, consideriamo il tempo d’arresto τa = inf{t ≥ 0 | Wt ≥ a}. Abbiamo visto
nell’Osservazione 12.1.7-ii) che τa < ∞ q.c. ma
h i
0 = W0 < E Wτa = a.
Teorema 13.5.4 (Teorema di optional sampling). [!!] Sia X = (Xt )t≥0 una martingala (càdlàg) uniforme-
mente in L2 . Se τ1 e τ2 sono tempi d’arresto tali che τ1 ≤ τ2 < ∞ allora si ha
h i
Xτ1 = E Xτ2 | Fτ1 .
13.5. MARTINGALE UNIFORMEMENTE IN L2 313
Dimostrazione. Cominciamo col provare che se X = (Xt )t≥0 è una sub-martingala càdlàg uniformemente in
L2 , allora per ogni tempo d’arresto τ finito q.c. (ossia P (τ < ∞) = 1) vale
X0 ≤ E [Xτ | F0 ] . (13.5.4)
Osserviamo anzitutto che se τ è un tempo d’arresto finito q.c. allora Xτ ∈ L2 (Ω, P ) per la (13.5.1). Ap-
plicando il Teorema 13.1.6 di optional sampling con la successione di tempi d’arresto limitati τ ∧ n, si
ha
X0 ≤ E [Xτ∧n | F0 ] . (13.5.5)
Passando al limite per n → ∞ si ha (13.5.4): il passaggio al limite nel membro a destra della (13.5.5) è
giustificato dal teorema della convergenza dominata poiché
|Xτ∧n | ≤ 1 + sup Xt2 ∈ L1 (Ω, P )

t≥0
grazie alla (13.5.1).

Per provare la tesi è sufficiente verificare che per ogni A ∈ Fτ1 vale
h i h i
E Xτ1 1A = E Xτ2 1A . (13.5.6)
Consideriamo
τ := τ1 1A + τ2 1Ac
che è un tempo d’arresto poiché
(τ < t) = (A ∩ (τ1 < t)) ∪ (Ac ∩ (τ2 < t)) ∈ Ft , t ≥ 0.

h i h i
E [X0 ] = E [Xτ ] = E Xτ1 1A + E Xτ2 1Ac ,
h i h i h i
E [X0 ] = E Xτ1 = E Xτ1 1A + E Xτ1 1Ac ,
da cui la (13.5.6).
Capitolo 14
Teoria della variazione
In questo capitolo facciamo alcuni richiami di teoria dell’integrazione deterministica secondo Riemann-
Stieltjes e Lebesgue-Stieltjes. Le traiettorie del moto Browniano (e, in generale, delle martingale) non han-
no la regolarità sufficiente per poter utilizzare tali teorie al fine di definire l’integrale Browniano in senso
deterministico, traiettoria per traiettoria. Questo fatto viene precisato tramite i concetti di variazione pri-
ma e seconda (o quadratica) di una funzione che sono cruciali nella costruzione dell’integrale stocastico.
Successivamente introduciamo un’importante classe di processi stocastici chiamati semi-martingale. Una
semi-martingala è la somma di una martingala locale con un processo le cui traiettorie hanno variazione
prima limitata: sotto opportune ipotesi, tale decomposizione è unica. Proviamo una versione particola-
re del fondamentale Teorema di decomposizione di Doob-Meyer: se X è una martingala allora X 2 è una
semi-martingala, ossia può essere decomposto nella somma di una martingala con un processo a variazio-
ne limitata: quest’ultimo è il cosiddetto processo variazione quadratica di X. I risultati di questo capitolo
sono alla base della definizione di integrale stocastico che daremo in seguito.
14.1 Integrale di Riemann-Stieltjes

In questa sezione richiamiamo alcuni risultati classici sull’integrazione in ambito deterministico. Fissa-
to T > 0, una partizione dell’intervallo [0, T ] è un insieme del tipo π = {t0 , t1 , . . . , tN } con 0 = t0 < t1 < · · · <
tN = T . Indichiamo con PT l’insieme delle partizioni di [0, T ]. Data una funzione
g : [0, T ] −→ Rd
la variazione prima di g su π ∈ PT è definita da

N
X
V (g; π) = |g(tk ) − g(tk−1 )| .
k=1
Definizione 14.1.1 (Funzione BV). Si dice che g ha variazione limitata su [0, T ], e si scrive g ∈ BVT , se
VT (g) := sup V (g; π) < ∞.

π∈PT
Si dice che
g : R≥0 −→ Rd
è localmente a variazione limitata, e si scrive g ∈ BV, se g|[0,T ] ∈ BVT per ogni T > 0.
Si noti che la funzione t 7→ Vt (g) è crescente e non-negativa.
315
316 CAPITOLO 14. TEORIA DELLA VARIAZIONE
Esempio 14.1.2. i) Sia d = 1. Se g è una funzione monotona su [0, T ] allora g ∈ BVT . Infatti se, per
esempio, g è crescente allora
N
X N
X
V (g; π) = |g(tk ) − g(tk−1 )| = (g(tk ) − g(tk−1 )) = g(T ) − g(0)
k=1 k=1
per ogni π ∈ PT . Nel caso d = 1 la monotonia è pressoché una caratterizzazione: è noto che g ∈ BVT
se e solo se g è differenza di funzioni monotone crescenti, g = g+ − g− . Inoltre, se g è continua allora
anche g+ e g− lo sono.
ii) Non è difficile mostrare che, se g è continua allora
VT (g) = lim V (g; π) (14.1.1)

|π|→0
dove
|π| := max |tk − tk−1 |
1≤k≤N
è detto parametro di finezza di π. Interpretando t 7→ g(t) come una traiettoria (o curva parametrizzata)
in Rd , il fatto che g ∈ BVT significa che g è una traiettoria rettificabile (ossia, con lunghezza appros-
simabile mediante spezzate) e, per definizione, VT (g) è la lunghezza di g. La (14.1.1) non vale se g è
discontinua: per esempio, fissato s ∈ ]0, T [, la funzione

1 se t = s,


g(t) = 
0 se t ∈ [0, s[∪ ]s, T ],

è tale che V (g; π) = 2 per ogni π ∈ PT tale che s ∈ π e V (g; π) = 0 per ogni π ∈ PT tale che s < π.
iii) Se g ∈ Lip([0, T ]; Rd ), ossia esiste una costante c tale che |g(t) − g(s)| ≤ c|t − s| per ogni t, s ∈ [0, T ], allora
g ∈ BVT poiché
N
X N
X
V (g; π) = |g(tk ) − g(tk−1 )| ≤ c (tk − tk−1 ) = cT
k=1 k=1
per ogni π ∈ PT .
iv) Se g è una funzione integrale del tipo
Z t
g(t) = u(s)ds, t ∈ [0, T ],
0
con u ∈ L1 ([0, T ]; Rd ) allora g ∈ BVT poiché

N Z tk
N Z
X X tk
V (g; π) = u(s)ds ≤ |u(s)|ds = ∥u∥L1 ,
k=1 tk−1 tk−1
k=1
per ogni π ∈ PT .
v) Non è difficile provare che la funzione

0 se t = 0,


g(t) = 
t sin 1t
 se 0 < t ≤ T ,
è continua ma non ha variazione limitata.

14.1. INTEGRALE DI RIEMANN-STIELTJES 317
Introduciamo ora l’integrale di Riemann-Stieltjes. Data π = {t0 , . . . , tN } ∈ PT , indichiamo con Tπ la

famiglia delle scelte di punti relative a π: un elemento di Tπ è della forma
τ = {τ1 , . . . , τN }, τk ∈ [tk−1 , tk ], k = 1, . . . , N .
Date due funzioni f , g : [0, T ] −→ R, π ∈ PT e τ ∈ Tπ , diciamo che

N
X
S(f , g; π, τ) := f (τk )(g(tk ) − g(tk−1 ))
k=1
è la somma di Riemann-Stieltjes di f rispetto a g, relativamente alla partizione π e alla scelta di punti τ.

Proposizione 14.1.3 (Integrale di Riemann-Stieltjes). Per ogni f ∈ C[0, T ] e g ∈ BVT esiste ed è finito il
limite
lim S(f , g; π, τ). (14.1.2)
|π|→0
Tale limite è chiamato integrale di Riemann-Stieltjes di f rispetto a g su [0, T ] ed indicato con

ZT ZT
f dg oppure f (t)dg(t).
0 0
Più precisamente, per ogni ε > 0 esiste δε > 0 tale che

ZT

S(f , g; π, τ) − f dg < ε
0
per ogni π ∈ PT , con |π| < δε , e τ ∈ Tπ .

Dimostrazione. Usiamo il criterio di Cauchy e mostriamo che per ogni ε > 0 esiste δε > 0 tale che

S(f , g; π′ , τ ′ ) − S(f , g; π′′ , τ ′′ ) < ε
per ogni π′ , π′′ ∈ PT tali che |π′ |, |π′′ | < δε e per ogni τ ′ ∈ Tπ′ e τ ′′ ∈ Tπ′′ .
Poniamo π = π′ ∪ π′′ = {t0 , . . . , tN }. Poiché f è uniformemente continua sul compatto [0, T ], fissato ε > 0
esiste δε > 0 tale che, per |π′ |, |π′′ | < δε , si ha
N
X
S(f , g; π′ , τ ′ ) − S(f , g; π′′ , τ ′′ ) ≤ ε |g(tk ) − g(tk−1 )| ≤ εV (g; π)
k=1

Vediamo alcuni casi particolari in cui si riesce a calcolare un integrale di Riemann-Stieltjes a partire
dalla definizione generale (14.1.2).
Esempio 14.1.4. Fissato t̄ ∈ ]0, T [, sia 
0 se t ∈ [0, t̄[,


g(t) = 
1 se t ∈ [t̄, T ].

Per ogni f ∈ C[0, T ], π = {t0 , . . . , tN } ∈ PT e τ ∈ Tπ , sia k̄ l’indice per cui vale t̄ ∈ ]tk̄−1 , tk̄ ]. Allora si ha
S(f , g; π, τ) = f (τk̄ ) (g(tk̄ ) − g(tk̄−1 )) = f (τk̄ ) −−−−−→ f (t̄).

|π|→0
Dunque
Z T
f dg = f (t̄).
0
Si noti che Z T Z
f (t)dg(t) = f (t)δt̄ (dt)
0 [0,T ]
dove il membro a destra è l’integrale rispetto alla misura delta di Dirac centrata in t̄.
Esempio 14.1.5. Sia Z t
g(t) = u(s)ds, t ∈ [0, T ],
0
la funzione integrale (di Lebesgue) dell’Esempio 14.1.2-iv), con u ∈ L1 ([0, T ]; R). A meno di considerare
separatamente la parte positiva e negativa di u, non è restrittivo assumere u ≥ 0. Date π ∈ PT e f ∈ C[0, T ],
consideriamo la particolare scelta di punti
τk ∈ arg min f , k = 1, . . . , N .
[tk−1 ,tk ]
Allora si ha
N
X
S(f , g; π, τ) = f (τk )(g(tk ) − g(tk−1 ))
k=1
N
X Z tk
= f (τk ) u(s)ds
k=1 tk−1
XN Z tk Z T
≤ f (s)u(s)ds = f (s)u(s)ds.
k=1 tk−1 0
Si prova una disuguaglianza analoga con la scelta

τk ∈ arg max f , k = 1, . . . , N .
[tk−1 ,tk ]
e, passando al limite per |π| → 0, si conclude che

ZT Z T
f (t)dg(t) = f (t)u(t)dt.
0 0
Il risultato generale che fornisce le regole di calcolo per l’integrale di Riemann-Stieltjes è la seguente
importante formula di Itô.
Teorema 14.1.6 (Formula di Itô deterministica). Per ogni F = F(t, x) ∈ C 1 ([0, T ] × R) e g ∈ BVT ∩ C[0, T ]
vale ZT ZT
F(T , g(T )) − F(0, g(0)) = (∂t F)(t, g(t))dt + (∂x F)(t, g(t))dg(t)
0 0
Dimostrazione. Per ogni π = {t0 , . . . , tN } ∈ PT si ha
N
X
F(T , g(T )) − F(0, g(0)) = (F(tk , g(tk )) − F(tk−1 , g(tk−1 ))) =
k=1
(per il teorema del valor medio e la continuità di g, con τ ′ , τ ′′ ∈ Tπ )

N
X
= (∂t F)(τk′ , g(τk′′ ))(tk − tk−1 ) + (∂x F)(τk′ , g(τk′′ )) (g(tk ) − g(tk−1 ))
k=1
da cui la tesi, passando al limite per |π| → 0.

14.2. INTEGRALE DI LEBESGUE-STIELTJES 319
Osservazione 14.1.7. Nel caso in cui F dipenda solo da x, la formula di Itô diventa
ZT
F(g(T )) − F(g(0)) = F ′ (g(t))dg(t)
0
che viene a volte scritta, soprattutto nell’ambito del calcolo stocastico (cfr. Notazione 15.3.4), con la
cosiddetta “notazione differenziale”
dF(g(t)) = F ′ (g(t))dg(t). (14.1.3)
Quest’ultima formalmente ricorda l’usuale regola di derivazione di funzione composta.
Nel caso multi-dimensionale in cui g = (g1 , . . . , gd ) sia a valori in Rd , posto ∇x = (∂x1 , . . . , ∂xd ), la formula
di Itô diventa
ZT ZT
F(T , g(T )) − F(0, g(0)) = (∂t F)(t, g(t))dt + (∇x F)(t, g(t))dg(t)
0 0
Z T d Z
X T
= (∂t F)(t, g(t))dt + (∂xi F)(t, g(t))dgi (t)
0 i=1 0
o in notazione differenziale
dF(t, g(t)) = (∂t F)(t, g(t))dt + (∇x F)(t, g(t))dg(t).
Esempio 14.1.8. Consideriamo alcuni esempi di applicazione della formula di Itô:

i) se F(t, x) = x si ha
Z T
g(T ) − g(0) = dg
0
che generalizza il teorema fondamentale del calcolo integrale;
ii) se F(t, x) = f (t)x, con f ∈ C 1 [0, T ], si ha
Z T Z T
f (T )g(T ) − f (0)g(0) = f ′ (t)g(t)dt + f (t)dg(t)
0 0
che generalizza la formula di integrazione per parti. In forma differenziale abbiamo
d(f (t)g(t)) = f ′ (t)g(t)dt + f (t)dg(t) (14.1.4)
che formalmente ricorda la formula per la derivata di un prodotto;

iii) se F(t, x) = x2 si ha
T
g 2 (T ) − g 2 (0)
Z
g(t)dg(t) = .
0 2
14.2 Integrale di Lebesgue-Stieltjes

Ricordiamo che una funzione g ∈ BV ∩ C(R≥0 ), a valori reali, si decompone nella differenza g = g+ − g−
con g+ , g− funzioni crescenti e continue. Per il Teorema 2.4.33, a g+ e g− sono associate due misure su1
(R≥0 , B) che indichiamo rispettivamente µ+g e µ−g , per le quali vale
µ±g ([a, b]) = µ±g (]a, b]) = g± (b) − g± (a), a ≤ b.

1 Definiamo le misure su R
≥0 poiché lo spazio dei reali non-negativi sarà nel seguito l’insieme degli indici temporali dei processi
stocastici. Per applicare il Teorema 2.4.33, possiamo prolungare le funzioni g+ , g− in modo che siano continue e costanti per t ≤ 0.
Tutti i risultati della sezione valgono ovviamente su (R, B).
In realtà per applicare il Teorema 2.4.33 sarebbe sufficiente assumere g continua da destra (come nel-
l’Esempio 14.1.4 in cui µg = δt̄ ). Tuttavia, per semplificare la trattazione, assumeremo g continua anche
perché in seguito studieremo l’integrale stocastico solo con integratori continui. Indichiamo
|µg | := µ+g + µ−g
la misura somma di µ+g e µ−g . Inoltre, per ogni H ∈ B tale che almeno uno fra µ+g (H) e µ−g (H) sia finito,
poniamo
µg (H) = µ+g (H) − µ−g (H). (14.2.1)
Diciamo che µg è una misura con segno poiché può assumere anche valori negativi, compreso −∞.
Definizione 14.2.1 (Misura di Lebesgue-Stieltjes). Data g ∈ BV ∩ C(R≥0 ), diciamo che µg in (14.2.1) è

la misura di Lebesgue-Stieltjes associata a g. Per ogni H ∈ B e f ∈ L1 (H, |µg |), definiamo l’integrale di
Lebesgue-Stieltjes di f rispetto a g su H come
Z Z Z
f dµg := f dµ+g − f dµ−g .
H H H
L’integrale di Lebesgue-Stieltjes generalizza l’integrale di Riemann-Stieltjes, estendendo la classe delle

funzioni integrabili.
Proposizione 14.2.2 (Riemann-Stieltjes vs Lebesgue-Stieltjes). Per ogni f ∈ C(R≥0 ), g ∈ BV ∩ C(R≥0 ) e

T > 0, si ha ZT Z
f dg = f dµg .
0 [0,T ]
Dimostrazione. Data π = {t0 , . . . , tN } ∈ PT , consideriamo le funzioni semplici

N
X
fπ± (t) = f (τk± )1[tk−1 ,tk [ (t)
k=1
con
τk+ ∈ arg max f , τk− ∈ arg min f , k = 1, . . . , N .
[tk−1 ,tk ] [tk−1 ,tk ]
Allora si ha
N
X Z Z Z N
X
f (τk− ) (g+ (tk ) − g+ (tk−1 )) = fπ− dµ+g ≤ f dµ+g ≤ fπ+ dµ+g = f (τk+ ) (g+ (tk ) − g+ (tk−1 )) .
k=1 [0.T ] [0,T ] [0.T ] k=1
Passando al limite per |π| → 0, otteniamo

Z T Z
f dg+ = f dµ+g
0 [0,T ]
e la prova si conclude procedendo in maniera analoga con g− .
Diamo un risultato tecnico che sarà utilizzato in seguito (si veda, per esempio, il Teorema 16.2.1).
Proposizione 14.2.3. In uno spazio (Ω, F , P , (Ft )t≥0 ) in cui sono valide le ipotesi usuali, siano:
• τ un tempo d’arresto finito, ossia tale che τ < ∞ q.c.;
• A un processo continuo, crescente e adattato con A0 = 0;

14.3. SEMI-MARTINGALE 321
• X una variabile aleatoria sommabile e non negativa.
Allora si ha "Z τ # "Z τ #

E XdAt = E E [X | Ft ] dAt
0 0
che più precisamente significa che vale l’identità

"Z τ # "Z τ #
E XdAt = E Mt dAt
0 0
per ogni M che sia una versione càdlàg della martingala E [X | Ft ].
Dimostrazione. Assumiamo dapprima che A e X siano limitati q.c. da un certo N ∈ N. Fissato n ∈ N,

poniamo τk = kτ
n per k = 0, . . . , n. Si ha
 n 
"Z τ #
X 
E XdAt = E  X Aτk − Aτk−1 
0 k=1
 n 
 X h i 
= E   E X | Fτk Aτk − Aτk−1 
k=1
 n 
 X 
= E   Mτk Aτk − Aτk−1 
k=1
"Z τ #
(n)
=E Mt dAt
0
dove
n
(n)
X
Mt = M0 + Mτk 1]τk−1 ,τk ] (t).
k=1
Per la continuità a destra di M, si ha

(n)
lim Mt (ω) = Mt (ω)
n→∞
per quasi ogni ω tale che t ≤ τ(ω). Data la limitatezza di X e quindi di M, la tesi segue dal teorema della
convergenza dominata. In generale, è sufficiente applicare quanto appena provato a X ∧ N , A ∧ N e usare il
teorema di Beppo-Levi al tendere di N → ∞.
14.3 Semi-martingale
Definizione 14.3.1. Diciamo che un processo X = (Xt )t≥0 è
• crescente se le traiettorie t 7→ Xt (ω) sono funzioni crescenti2 per quasi ogni ω ∈ Ω;
• localmente a variazione limitata se X(ω) ∈ BV per quasi ogni ω ∈ Ω (cfr. Definizione 14.1.1). Per bre-
vità spesso ometteremo l’aggettivo “localmente” e parleremo semplicemente di processi a variazione
limitata, usando ancora la notazione BV per indicare la famiglia di tali processi;
• una semi-martingala se è della forma X = M + A dove M è una martingala locale e A è un processo

adattato, a variazione limitata e tale che A0 = 0.
2 Ossia X (ω) ≤ X (ω) se s ≤ t.
s t
L’interesse per le semi-martingale è dovuto al fatto che utilizzeremo tali processi come integratori nel-
l’integrale stocastico di Itô. Ci limiteremo a considerare semi-martingale continue, ossia processi della
forma X = M + A con M ∈ M c,loc (cfr. Definizione 13.4.2) e A continuo, adattato e a variazione limitata.
Esempio 14.3.2. Siano x, µ, σ ∈ R e W un moto Browniano standard. Il moto Browniano con drift
Xt := x + µt + σ Wt , t ≥ 0,
è una semi-martingala continua con decomposizione X = M + A dove Mt = x + σ Wt e At = µt. Proveremo

nel Corollario 14.3.7 che la decomposizione di una semi-martingala continua è unica.
Osservazione 14.3.3. Un risultato profondo, il Teorema di decomposizione di Doob-Meyer, afferma che
ogni sub-martingala càdlàg è una semi-martingala: la dimostrazione non è elementare come nel caso
discreto, esaminato nel Teorema 6.5.14.
In [62], Cap. IV Teorema 71, si prova che se X è una martingala locale continua, X ∈ M c,loc , con X0 = 0
e 0 < α < 21 allora il processo |X|α non è una semi-martingala a meno che X non sia identicamente nullo.
14.3.1 Il moto Browniano come semi-martingala

Un moto Browniano W è una martingala continua e quindi anche una semi-martingala. Per mostrare
che la sua parte BV è nulla (e quasi tutte le traiettorie di W non sono BV), introduciamo il concetto di
variazione seconda (o quadratica) di una funzione g relativa alla partizione π = {t0 , t1 , . . . , tN } ∈ PT :
N
(2)
X
VT (g; π) := |g(tk ) − g(tk−1 )|2 . (14.3.1)
k=1
Proposizione 14.3.4. Se g ∈ BVT ∩ C[0, T ] allora

(2)
lim VT (g; π) = 0.
|π|→0
Dimostrazione. Essendo g uniformemente continua sull’intervallo compatto [0, T ], per ogni ε > 0 esiste
δε > 0 tale che
max |g(tk ) − g(tk−1 )| < ε
1≤k≤N
per ogni π ∈ PT tale che |π| < δε . Di conseguenza
N
(2)
X
VT (g; π) ≤ ε |g(tk ) − g(tk−1 )| ≤ εVT (g).
k=1
Esempio 14.3.5. [!] Se W un moto Browniano reale allora

(2)
lim VT (W ; π) = T in L2 (Ω, P ), (14.3.2)
|π|→0
e di conseguenza quasi certamente le traiettorie di W non hanno variazione limitata.

Per provare la (14.3.2), data una partizione π = {t0 , t1 , . . . , tN } ∈ PT , poniamo
δk = tk − tk−1 , ∆k = Wtk − Wtk−1 , k = 1, . . . , N ,

h i
e osserviamo che E ∆4k = 3δk2 e
h i h i h h ii
E ∆2k − δk = 0, E ∆2h − δh ∆2k − δk = E ∆2h − δh E ∆2k − δk | Fth = 0 (14.3.3)
14.3. SEMI-MARTINGALE 323
se h < k. Allora si ha

N
2 
" 2 #
(2)
X  
2
E VT (W ; π) − T = E  ∆k − δk  

 
k=1
N
X 2 X h i
= E ∆2k − δk +2 E ∆2h − δh ∆2k − δk =
k=1 h<k
(sviluppando il primo quadrato e osservando che i termini della seconda somma sono nulli per la (14.3.3))
N
X h i
= E ∆4k − 2∆2k δk + δk2 =
k=1
(ancora per le (14.3.3))

N
X N
X
= 2δk2 ≤ 2|π| δk = 2|π|T
k=1 k=1
da cui la tesi.
14.3.2 Semi-martingale a variazione limitata

Nell’Esempio 14.3.5 abbiamo ripetutamente utilizzato la proprietà di martingala per provare che W
ha variazione quadratica positiva e quindi non ha variazione prima limitata. In effetti, questo risultato si
estende a tutta la classe delle martingale locali continue le cui traiettorie non hanno variazione limitata a
meno che non siano identicamente nulle.
Teorema 14.3.6. [!] Sia X = (Xt )t≥0 una martingala locale continua, X ∈ M c,loc . Se X ∈ BV allora X è
indistinguibile dal processo identicamente uguale a X0 .
Dimostrazione. A meno di una traslazione, possiamo considerare X0 = 0. Dapprima proviamo la tesi nel ca-
so in cui X è una martingala continua limitata e con variazione prima limitata: precisamente, supponiamo
che esista una costante K tale che
sup (|Xt | + Vt (X)) ≤ K.
t≥0
Fissato T > 0 e π ∈ PT , poniamo
∆k = Xtk − Xtk−1 , ∆π = max |Xtk − Xtk−1 |.

1≤k≤N
Osserviamo che per l’identità (6.5.3) vale

2 h i
E Xtk − Xtk−1 | Ftk−1 = E Xt2k − Xt2k−1 | Ftk−1
e, per l’uniforme continuità delle traiettorie,
lim ∆π (ω) = 0, 0 ≤ ∆π (ω) ≤ 2K, ω ∈ Ω. (14.3.4)

|π|→0
Allora si ha
N  N 
h i X  X 2 
E XT2 = E  Xt2k − Xt2k−1  = E  Xtk − Xtk−1  ≤ E [∆π VT (X; π)] ≤ KE [∆π ]
k=1 k=1
h i
che, per |π| → 0, tende a zero per la (14.3.4) grazie al teorema della convergenza dominata. Dunque E XT2 =
0 e per la disuguaglianza massimale di Doob
" #
h i
E sup Xt2 ≤ 4E XT2 = 0.
0≤t≤T
Di conseguenza, per continuità, quasi tutte le traiettorie di X sono identicamente nulle su [0, T ]. Data
l’arbitrarietà di T si conclude che X è indistinguibile dal processo nullo.
Nel caso generale, consideriamo una successione localizzante τ̄n per cui Yn,t := Xt∧τ̄n ∈ BV. Ritocchiamo
tale successione definendo i tempi d’arresto
σn = inf{t ≥ 0 | |Yn,· | + Vt (Yn,· ) ≥ n}.
Anche τn := τ̄n ∧σn ∧n è una successione localizzante per X: inoltre, Xt∧τn è una martingala continua, limita-
ta, costante per t ≥ n e con variazione prima limitata da n. Per quanto provato sopra, Xt∧τn è indistinguibile
dal processo nullo e la tesi segue passando al limite per n → ∞.
Corollario 14.3.7. Sia X una semi-martingala continua. È unica la rappresentazione X = M + A, con M ∈

M c,loc e A continuo, adattato, a variazione limitata e tale che A0 = 0.
Dimostrazione. Se X = M ′ + A′ è un’altra rappresentazione allora si ha che M − M ′ = A′ − A è una martingala

locale continua e localmente a variazione limitata. Per il Teorema 14.3.6, M è indistinguibile da M ′ e A è
indistinguibile da A′ .
Osservazione 14.3.8. Senza l’ipotesi di continuità, in generale la decomposizione di una semi-martingala

non è unica. Per esempio, il processo di Poisson N è crescente e quindi BV: allora N = M + A con A := N e
M := 0 oppure si ha anche la decomposizione con At := λt e Mt := Nt − λt, dove M è il processo di Poisson
compensato (cfr. Proposizione 8.3.1).
14.4 Decomposizione di Doob e processo variazione quadratica

In questa sezione presentiamo un risultato che è alla base della teoria dell’integrazione stocastica: per
ogni martingala locale continua X esiste un processo crescente, detto processo variazione quadratica e indi-
cato con ⟨X⟩, che “compensa” la sub-martingala locale X 2 nel senso che X 2 − ⟨X⟩ è una martingala locale
continua. Il processo ⟨X⟩ può essere costruito traiettoria per traiettoria come limite della variazione secon-
da (14.3.1) per |π| → 0: ciò è coerente con quanto visto nell’Esempio 14.3.5 relativo al moto Browniano W
per il quale si ha ⟨W ⟩t = t e il processo Wt2 − t è una martingala continua.
Ricordiamo che M c,2 indica lo spazio delle martingale continue X tali che Xt ∈ L2 (Ω, P ) per ogni t ≥ 0
(cfr. Definizione 13.3.1) e M c,loc indica lo spazio delle martingale locali continue (cfr. Definizione 13.4.2).
Teorema 14.4.1 (Processo variazione quadratica). [!!] Per ogni X ∈ M c,2 esistono e sono unici (a meno di
indistinguibilità) due processi M e ⟨X⟩ tali che:
i) M è una martingala continua;
ii) ⟨X⟩ è un processo adattato, continuo e crescente3 , tale che ⟨X⟩0 = 0;
iii) si ha la decomposizione
Xt2 = Mt + ⟨X⟩t , t ≥ 0;
3 Chiaramente ⟨X⟩ è anche sommabile poiché ⟨X⟩ = X 2 − M con X ∈ L2 (Ω, P ) per ipotesi e M ∈ L1 (Ω, P ) per definizione di
t t t t t
martingala.
14.4. DECOMPOSIZIONE DI DOOB E PROCESSO VARIAZIONE QUADRATICA 325
iv) vale h i
E (Xt − Xs )2 | Fs = E [⟨X⟩t − ⟨X⟩s | Fs ] , t ≥ s ≥ 0. (14.4.1)
La (14.4.1) è la prima versione di un’importante identità chiamata isometria di Itô (cfr. Sezione 15.2.1).
Più in generale, se X ∈ M c,loc allora valgono ancora la ii) e la iii), mentre la i) viene sostituita da
i’) M ∈ M c,loc .
Il processo ⟨X⟩ è chiamato processo variazione quadratica di X: per ogni t > 0 si ha
2n
X 2
⟨X⟩t = lim X tkn − X t(k−1) (14.4.2)
n→∞ 2 2n
k=1
in probabilità.
Infine, data una semi-martingala continua della forma S = X + A, con X ∈ M c,loc e A ∈ BV adattato, per
ogni t > 0 si ha
2n
X 2
⟨S⟩t := lim S tkn − S t(k−1) = ⟨X⟩t (14.4.3)
n→∞ 2 2n
k=1
in probabilità: diciamo che ⟨S⟩ è il processo variazione quadratica di S.
La dimostrazione del Teorema 14.4.1 è rimandata alla Sezione 14.6.
Osservazione 14.4.2. Grazie al Teorema 13.1.6 di optional sampling, l’importante identità (14.4.1) si ge-
neralizza al caso in cui al posto di t, s ci sono rispettivamente due tempi d’arresto limitati τ, σ tali che
σ ≤ τ ≤ T q.c. per un certo T > 0.
Osservazione 14.4.3. Il Teorema 14.4.1 è un caso particolare di un risultato profondo e più generale, noto
come Teorema di decomposizione di Doob-Meyer, che afferma che ogni sub-martingala X càdlàg di classe D
(ossia tale che la famiglia delle v.a. Xτ , al variare di τ tempo d’arresto, sia uniformemente integrabile) si scrive in
modo unico nella forma X = M + A con M martingala continua e A processo crescente e tale che A0 = 0.
Tale risultato è stato provato per la prima volta da Meyer negli anni ’60 del secolo scorso e da allora sono
state fornite molte altre dimostrazioni. Una prova particolarmente sintetica è stata recentemente proposta
in [10]: l’idea molto intuitiva è di discretizzare il processo X sui diadici, utilizzare la versione discreta del
Teorema di decomposizione di Doob (cfr. Teorema 6.5.14) e infine provare con il Lemma 14.6.1 di Komlos
che la successione delle decomposizioni discrete converge alla decomposizione cercata.
Proposizione 14.4.4 (Processo co-variazione). Siano X, Y ∈ M c,loc a valori reali. Il processo co-variazione di
X e Y , definito da
⟨X + Y ⟩ − ⟨X − Y ⟩
⟨X, Y ⟩ := , (14.4.4)
4
è l’unico (a meno di indistinguibilità) processo tale che
i) ⟨X, Y ⟩ ∈ BV è adattato, continuo e tale che ⟨X, Y ⟩0 = 0;
ii) XY − ⟨X, Y ⟩ ∈ M c,loc ed è una vera martingala nel caso in cui X, Y ∈ M c,2 .
Se X, Y ∈ M c,2 si ha
E [(Xt − Xs )(Yt − Ys ) | Fs ] = E [⟨X, Y ⟩t − ⟨X, Y ⟩s | Fs ] , t ≥ s ≥ 0, (14.4.5)
e vale
2n
X
⟨X, Y ⟩t = lim X tkn − X t(k−1) Y tkn − Y t(k−1) , t ≥ 0, (14.4.6)
n→∞ 2 2n 2 2n
k=1
in probabilità.
Dimostrazione. Data l’uguaglianza elementare
(X + Y )2 − (X − Y )2
XY =
4
è facile verificare che il processo ⟨X, Y ⟩ definito come in (14.4.4) verifica le proprietà i) e ii). L’unicità segue
direttamente dal Teorema 14.3.6. La (16.4.1) segue dall’identità
E [(Xt − Xs )(Yt − Ys ) | Fs ] = E [Xt Yt − Xs Ys | Fs ]
e dalla proprietà di martingala di XY − ⟨X, Y ⟩. La (14.4.6) è una semplice conseguenza della (14.4.4),
applicata a X + Y e X − Y , e della Proposizione 16.2.4.
Osservazione 14.4.5. Per unicità si ha ⟨X, X⟩ = ⟨X⟩. Le seguenti proprietà sono dirette conseguenze della
definizione (14.4.4) di co-variazione e della (14.4.6):
i) simmetria: ⟨X, Y ⟩ = ⟨Y , X⟩;
ii) bi-linearità: ⟨αX + βY , Z⟩ = α⟨X, Z⟩ + β⟨Y , Z⟩, per α, β ∈ R;
√
iii) Cauchy-Schwarz: |⟨X, Y ⟩| ≤ ⟨X⟩⟨Y ⟩.
Poiché la variazione quadratica di una funzione BV continua è nulla (cfr. Proposizione 14.3.4), la
definizione di variazione quadratica si estende alle semi-martingale continue in modo naturale.
Definizione 14.4.6 (Matrice di co-variazione di una semi-martingala). Data una semi-martingala conti-
nua S = X +A, con X ∈ M c,loc e A ∈ BV adattato, poniamo ⟨S⟩ := ⟨X⟩ e diciamo che ⟨S⟩ è il processo variazione
quadratica di S.
Analogamente, se S = (S 1 , . . . , S d ) è una semi-martingala continua d-dimensionale con decomposizione
S = X + A, diciamo che la matrice simmetrica di dimensione d × d definita da

⟨S⟩ := ⟨X i , X j ⟩
i,j=1,...,d
è la matrice di co-variazione di S.
14.5 Moto Browniano multi-dimensionale

Definizione 14.5.1 (Moto Browniano d-dimensionale). Sia W = (Wt1 , . . . , Wtd )t≥0 un processo stocastico a
valori in Rd definito su uno spazio di probabilità con filtrazione (Ω, F , P , (Ft )t≥0 ). Diciamo che W è un
moto Browniano d-dimensionale se verifica le seguenti proprietà:
i) W0 = 0 q.c.;
ii) W è continuo q.c.;
iii) W è adattato a (Ft )t≥0 ;
iv) Wt − Ws è indipendente da Fs per ogni t ≥ s ≥ 0;
v) Wt − Ws ∼ N0,(t−s)I per ogni t ≥ s ≥ 0, dove I indica la matrice identità d × d.
Un moto Browniano multi-dimensionale è un vettore di moti Browniani reali indipendenti: vale infatti
la seguente
Proposizione 14.5.2. Se W = (W 1 , . . . , W d ) è un moto Browniano d-dimensionale su (Ω, F , P , (Ft )t≥0 ) allo-
ra:
14.5. MOTO BROWNIANO MULTI-DIMENSIONALE 327
i) W i è un moto Browniano reale su (Ω, F , P , (Ft )t≥0 ) per ogni i = 1, . . . , d;

j j
ii) Wti − Wsi e Wt − Ws sono variabili indipendenti per ogni i , j e t ≥ s ≥ 0;
iii) la matrice di co-variazione di W è ⟨W ⟩t = tI ossia, con la notazione differenziale,
d⟨W i , W j ⟩t = δij dt (14.5.1)
dove δij è la delta di Kronecker


1 se i = j,


δij = 
0 se i , j;

iv) se A è una matrice ortogonale d×d allora il processo definito da Bt := AWt è ancora un moto Browniano
d-dimensionale. Se invece A è una generica matrice N × d allora B soddisfa le proprietà i), ii), iii) e
iv) della Definizione 14.5.1 e Bt − Bs ∼ N0,(t−s)C per ogni 0 ≤ s ≤ t, dove C = AA∗ . La matrice di co-
variazione di B coincide con la matrice di covarianza, ⟨B⟩t = cov(Bt ) = tC . Diciamo che B è un moto
Browniano correlato N -dimensionale.
Dimostrazione. Le proprietà i) e ii) seguono dal fatto che, per t > s ≥ 0, l’incremento Wt − Ws ha densità
Gaussiana
|x|2
d x2
1 − 2(t−s)
Y 1 i
− 2(t−s)
d
e = p e , x ∈ Rd ,
(2π(t − s)) 2 i=1 2π(t − s)
che è il prodotto di Gaussiane standard uno-dimensionali: in particolare, l’indipendenza segue dal Teore-
ma 3.3.23-iv).
Per quanto riguarda iii), per il punto i) si ha ⟨W i ⟩t = ⟨W i , W i ⟩t = t per ogni i = 1, . . . , d. Per i , j è un
semplice esercizio4 provare che W i W j è una martingala e quindi ⟨W i , W j ⟩t = 0.
Il punto iv) è una semplice verifica in cui si utilizza la Proposizione 3.5.15.
La Proposizione 10.3.3 si generalizza al caso multi-dimensionale: consideriamo il processo
η |η|2
Mt := ei⟨η,Wt ⟩+ 2 t (14.5.2)
dove i è l’unità immaginaria, W è un moto Browniano d-dimensionale e η ∈ Rd .
Proposizione 14.5.3. Sia W un processo continuo d-dimensionale definito sullo spazio (Ω, F , P , (Ft )) e
tale che W0 = 0 q.c. Se per ogni η ∈ Rd il processo M η in (14.5.2) è una martingala, allora W è un moto
Browniano.
Esempio 14.5.4. [!] Sia W un moto Browniano bidimensionale. Posto

!
1 p 0
A=
ϱ 1 − ϱ2
4 Per t ≥ s ≥ 0, si ha

j j j j
E Wti Wt | Fs = E Wti − Wsi Wt | Fs + Wsi E Wt | Fs = Wsi Ws
poiché
j j
j j h
E Wti − Wsi Wt | Fs = E Wti − Wsi Wt − Ws | Fs + Ws E Wti − Wsi | Fs
i
j
j
= E Wti − Wsi Wt − Ws = 0
per l’indipendenza degli incrementi.

con ϱ ∈ [−1, 1], si ha

!
1∗ ϱ
C = AA = .
ϱ 1
Il moto Browniano correlato bidimensionale B := AW è tale che

q
B1t = Wt1 , B2t = ϱWt1 + 1 − ϱ2 Wt2 ,
sono moti Browniani reali e vale

cov(B1t , B2t ) = ⟨B1 , B2 ⟩t = ϱt.
14.6 Dimostrazione del Teorema di decomposizione di Doob

Per dimostrare il Teorema 14.4.1 adattiamo un argomento proposto in [10], basato su un interessante
e utile risultato di analisi funzionale. Il classico Teorema di Bolzano-Weierstrass assicura che da ogni suc-
cessione limitata in uno spazio Euclideo è possibile estrarre una sotto-successione convergente. Anche se
tale risultato non si estende al caso infinito-dimensionale, il lemma seguente mostra che è sempre possibile
costruire una successione convergente di combinazioni convesse (le sotto-successioni sono particolari com-
binazioni convesse) degli elementi della successione di partenza. Più precisamente, data una successione
(fn )n∈N in uno spazio di Hilbert, indichiamo con
Cn = {λn fn + · · · + λN fN | N ≥ n, λn , . . . , λN ≥ 0, λn + · · · + λN = 1}
la famiglia delle combinazioni convesse di un numero finito di elementi di (fk )k≥n .
Lemma 14.6.1 (Lemma di Komlos [41]). Sia (fn )n∈N una successione limitata in uno spazio di Hilbert.
Allora esiste una successione convergente (gn )n∈N , con gn ∈ Cn .
Dimostrazione. Se ∥fn ∥ ≤ K per ogni n ∈ N allora, per la disuguaglianza triangolare, ∥g∥ ≤ K per ogni g ∈ Cn .
Dunque, posto
an := inf ∥g∥, n ∈ N,
g∈Cn
si ha an ≤ an+1 e a := sup an ≤ K. Allora per ogni n ∈ N esiste gn ∈ Cn tale che ∥gn ∥ ≤ a + n1 . D’altra parte,
n∈N g +g
per ogni ε > 0 esiste nε ∈ N tale che n 2 m ≥ a − ε per ogni n ≥ m ≥ nε : questo semplicemente perché
gn +gm
2 ∈ Cn e per definizione di a. Allora, per ogni n, m ≥ nε , si ha
1 2

∥gn − gm ∥2 = 2∥gn ∥2 + 2∥gm ∥2 − ∥gn + gm ∥2 ≤ 4 a + − 4(a − ε)2
n
che prova che (gn )n∈N è una successione di Cauchy e quindi convergente.
Dimostrazione del Teorema 14.4.1. L’unicità segue direttamente dal Teorema 14.3.6 poiché se M ′ e A′ verifi-
cano le i), ii) e iii) allora M −M ′ è una martingala continua a variazione limitata che parte da 0. Dimostriamo
l’esistenza assumendo dapprima che X = (Xt )t∈[0,1] sia una martingala continua e limitata:
sup |Xt | ≤ K (14.6.1)

t∈[0,1]
per una certa costante positiva K. Questa è la parte difficile della dimostrazione, in cui emergono le idee
principali. Procediamo per passi.
14.6. DIMOSTRAZIONE DEL TEOREMA DI DECOMPOSIZIONE DI DOOB 329
[Passo 1] Fissato n ∈ N, introduciamo le seguenti notazione per semplificare i calcoli sui diadici di [0, 1]:
k
X 2
Xn,k = X k ,
n
An,k = Xn,i − Xn,i−1 , Fn,k := F k , k = 0, 1, . . . , 2n .
2 2n
i=1
Chiaramente k 7→ Xn,k e k 7→ An,k sono processi adattati alla filtrazione discreta (Fn,k )k=0,1,...,2n e k 7→ An,k è
crescente. Inoltre il processo
2
Mn,k := Xn,k − An,k , k = 0, 1, . . . , 2n
è una martingala discreta. Infatti si ha
h i
E An,k − An,k−1 | Fn,k−1 = E Xn,k − Xn,k−1 2 | Fn,k−1 =

(per la (6.5.3))
h i
2 2
= E Xn,k − Xn,k−1 | Fn,k−1 (14.6.2)
da cui la proprietà di martingala di Mn,k .

[Passo 2] Questo è il punto cruciale della dimostrazione: proviamo che
h i
sup E A2n,2n ≤ 36K 4 . (14.6.3)
n∈N
Notiamo che, per ogni fissato n ∈ N, il valore finale An,2n del processo An,· è chiaramente in L2 (Ω, P ),
essendo una somma finita di termini che sono limitati per ipotesi: tuttavia il numero di tali termini aumenta
esponenzialmente in n e questo spiega la difficoltà nella dimostrazione di (14.6.3) che è una stima uniforme
in n ∈ N. Qui utilizziamo in modo essenziale la proprietà di martingala e la limitatezza di X (si noti che
nelle ipotesi generali X è di quadrato sommabile ma in (14.6.3) compaiono potenze di X di ordine quattro).
Si ha
2n
X 2n X
X 2n
4 2 2
A2n,2n = Xn,k − Xn,k−1 +2 Xn,k − Xn,k−1 Xn,h − Xn,h−1
k=1 k=1 h=k+1
2n
X 2n
X
4 2
= Xn,k − Xn,k−1 +2 Xn,k − Xn,k−1 An,2n − An,k . (14.6.4)
k=1 k=1
Applichiamo il valore atteso, stimiamo puntualmente la prima somma di (14.6.4) con la (14.6.1) e appli-
chiamo la proprietà della torre nella seconda somma:
2 n 2 n
h i X h i X h i
E A2n,2n ≤ 2K 2 E Xn,k − Xn,k−1 2 + 2 E Xn,k − Xn,k−1 2 E An,2n − An,k | Fn,k =

k=1 k=1
2
(per la proprietà di martingala (14.6.2) di Mn,k = Xn,k − An,k )
X h 2n
h 2 ii
2
E Xn,k − Xn,k−1 2 E Xn,2 2
n − Xn,k | Fn,k

= 2K E An,2n + 2 ≤
k=1

2 2 2
(poiché Xn,2n − Xn,k ≤ 2K )
h i1
≤ 6K 2 E An,2n ≤ 6K 2 E A2n,2n 2

avendo nell’ultimo passaggio applicato la disuguaglianza di Hölder. Questo conclude la prova della (14.6.3).
[Passo 3] Estendiamo la martingala discreta Mn,· a tutto [0, 1] ponendo
(n)
:= E Mn,2n | Ft ,

Mt t ∈ [0, 1].
h i
k−1 k
Per ogni t ∈ 2n , 2n si ha, per la proprietà della torre,
(n)
= E E Mn,2n | Fn,k | Ft

Mt
= E Mn,k | Ft

h i
2
= E Xn,k − An,k | Ft
h i
2
− Xn,k − Xn,k−1 2 | Ft − An,k−1

= E Xn,k
2
= E 2Xn,k Xn,k−1 | Ft − Xn,k−1

− An,k−1
2
= 2Xt Xn,k−1 − Xn,k−1 − An,k−1 .
Allora dalla continuità di X segue che anche M (n) è un processo continuo. Inoltre, per il Punto 2 la
successione
(n)
M1 = X12 − An,2n
(n)
è limitata in L2 (Ω, P ). Si potrebbe dimostrare che (M1 )n∈N è di Cauchy e converge in norma L2 (e quindi
in probabilità) ma la prova diretta di questo fatto è un po’ tecnica e laboriosa. Pertanto qui preferiamo
prendere una scorciatoia appoggiandoci sul Lemma 14.6.1 di Komlos: per ogni n ∈ N esistono dei pesi
(n) (n)
λn , . . . , λNn non-negativi e la cui somma è pari a uno, tali che posto
en,t = λ(n)
M
(n) (n) (Nn )
n Mt + · · · + λ N n Mt , t ∈ [0, 1],
en,1 converge in L2 (Ω, P ) ad una variabile aleatoria Z. Sia M una versione càdlàg della martingala
si ha che M
definita da
Mt := E [Z | Ft ] , t ∈ [0, 1].
Poiché t 7→ M
en,t è una martingala continua per ogni n ∈ N, per la disuguaglianza massimale di Doob si ha
 
2 
en,1 − M1 2 = 4E M
en,1 − Z 2 .

E  sup Mn,t − Mt  ≤ 4E M
 e
t∈[0,1]
Dunque, a meno di passare ad una sotto-successione, si ha
en,t (ω) − Mt (ω)2 = 0,

lim sup M ω ∈ Ω \ F,
n→∞ t∈[0,1]
con F trascurabile, da cui si deduce l’esistenza di una versione continua di M. Di conseguenza anche il
processo
At := Xt2 − Mt
è continuo.
Per mostrare che A è crescente fissiamo anzitutto due diadici s, t ∈ [0, 1] con s ≤ t: allora esiste n̄ tale che
s, t ∈ Dn per ogni n ≥ n̄, ossia s = 2knn e t = 2hnn per certi kn , hn ∈ {0, 1, . . . , 2n }. Ora per costruzione
2 2
Xn,k n
− Mn,kn = An,kn ≤ An,hn = Xn,h n
− Mn,hn
14.6. DIMOSTRAZIONE DEL TEOREMA DI DECOMPOSIZIONE DI DOOB 331
e un’analoga disuguaglianza vale anche per ogni combinazione convessa, quindi al limite si ha As (ω) ≤
At (ω) per ogni ω ∈ Ω \ F. Dalla densità dei diadici in [0, 1] e dalla continuità di A, segue che A è crescente
q.c. Infine proviamo la (14.4.1): per la (6.5.3) si ha
h i h i
E (Xt − Xs )2 | Fs = E Xt2 − Xs2 | Fs
= E [Mt − Ms | Fs ] + E [At − As | Fs ]
= E [At − As | Fs ] .
[Passo 4] Supponiamo ora che X = (Xt )t≥0 sia una martingala continua, non necessariamente limitata, ma
tale che Xt ∈ L2 (Ω, P ) per ogni t ≥ 0. Utilizziamo una procedura di localizzazione e definiamo la successione
di tempi d’arresto
τn = inf{t | |Xt | ≥ n} ∧ n, n ∈ N.
Per la continuità di X si ha τn ↗ ∞ per n → ∞. Per il Corollario 13.4.1, Xt∧τn è una martingala continua,
limitata e costante per t ≥ n: allora si applicano gli argomenti dei punti precedenti per dimostrare che
esistono una martingala continua e di quadrato sommabile M (n) e un processo continuo e crescente A(n) tali
che
2 (n) (n)
Xt∧τ n
= Mt + A t , t ≥ 0.
(n) (m) (n) (m) (n)
Per unicità, per ogni m > n si ha Mt = Mt e At = At per t ∈ [0, τn ]: dunque la definizione Mt := Mt
(n)
e At := At per ogni n tale che τn ≥ t, è ben posta. Chiaramente M, A sono processi continui, A è crescente
e M è una martingala: infatti, se 0 ≤ s ≤ t, per ogni n tale che τn ≥ t si ha
h i
Ms∧τn = E Mt∧τn | Fs .
Quindi si può concludere ragionando come nella dimostrazione del Teorema 13.1.6, essendo la famiglia
{Mt∧τn | n ∈ N} uniformemente integrabile per la disuguaglianza di Doob
 
h i
E  sup |Ms |  ≤ 4E Mt2
2
 

s∈[0,t]
e l’Osservazione A.3.0.10.
La medesima successione localizzante può essere utilizzata per trattare il caso in cui X ∈ M c,loc e in
questo caso è ovvio che M ∈ M c,loc .
[Passo 5] Con gli strumenti che abbiamo ora a disposizione, la dimostrazione delle formule (14.4.2) e
(14.4.3) richiederebbe dei conti abbastanza lunghi e noiosi. Poiché non utilizzeremo tali formule nel segui-
to, preferiamo posticipare questa dimostrazione al momento in cui avremo a disposizione la formula di Itô
e tutto sarà più facile: si veda la Proposizione 16.2.4.
Capitolo 15
Integrazione stocastica secondo Itô
One needs for stochastic integration

a six months course to cover only the
definitions. What is there to do?
Paul-André Meyer
In questo capitolo costruiamo l’integrale stocastico

Zt
Xt := us dBs , t ≥ 0,
0
definito come processo stocastico X = (Xt )t≥0 al variare dell’estremo di integrazione. Assumeremo op-
portune ipotesi sul processo integrando u e sul processo integratore B. Il prototipo di integratore è il moto
Browniano: poiché le traiettorie di un moto Browniano non hanno variazione limitata, non possiamo adot-
tare la teoria deterministica dell’integrazione secondo Lebesgue-Stieltjes e definire l’integrale traiettoria
per traiettoria. Seguiremo invece la costruzione dovuta a Kiyosi Itô (1915-2008) che è basata sulla teo-
ria della variazione presentata nel Capitolo 14 e sfrutta l’ipotesi cruciale che il processo integrando u sia
progressivamente misurabile. La costruzione dell’integrale stocastico è per certi versi analoga a quella del-
l’integrale di Lebesgue ma è decisamente più lunga e laboriosa: si parte dai processi u “semplici”, ossia
costanti a tratti, fino ad arrivare a u progressivamente misurabile con traiettorie che verificano una debole
ipotesi di sommabilità rispetto alla variabile temporale. Un’importante tappa intermedia è quella in cui u
è un “processo di quadrato sommabile” (cfr. Definizione 15.1.1); in tal caso, l’integrale stocastico gode di
alcune proprietà notevoli: è una martingala continua di quadrato sommabile, ossia appartiene allo spazio
M c,2 , vale la cosiddetta isometria di Itô e infine il processo variazione quadratica è dato esplicitamente da
Zt
⟨X⟩t = us2 d⟨B⟩s , t ≥ 0.
0
L’ultima parte del capitolo è dedicata alla definizione di integrale stocastico nel caso in cui B sia una semi-
martingala continua. Introdurremo anche l’importante classe dei processi di Itô che sono semi-martingale
continue che si esprimono in modo unico come somma di un integrale di Lebesgue (di un processo pro-
gressivamente misurabile e sommabile) con un integrale stocastico Browniano.
15.1 Integrale rispetto al moto Browniano

A scopo introduttivo, esaminiamo il caso particolare in cui B sia un moto Browniano reale definito
su uno spazio con filtrazione (Ω, F , P , (Ft )t≥0 ). Per superare il problema dell’irregolarità delle traiettorie
333
334 CAPITOLO 15. INTEGRAZIONE STOCASTICA SECONDO ITÔ
Browniane, l’idea è di selezionare opportunamente la classe dei processi integrandi per poter sfruttare
alcune proprietà di carattere probabilistico.
Definizione 15.1.1. Indichiamo con L2 la classe dei processi u = (ut )t≥0 tali che:
i) u è progressivamente misurabile;
ii) per ogni T ≥ 0 vale

"Z T #
E ut2 dt < ∞. (15.1.1)
0
La i) è più di una semplice condizione di misurabilità congiunta in (t, ω) (che sarebbe naturale poiché
stiamo definendo un integrale): essa contiene anche l’ipotesi cruciale che sia rispettata la struttura di “in-
formazioni” della filtrazione considerata. Per esempio, nel caso u sia continuo, la i) equivale al fatto che u
sia un processo adattato. Per inciso, noi tratteremo solo il caso di integratori continui: è possibile definire
l’integrale stocastico anche rispetto a processi càdlàg, come il processo di Poisson, ma in tal caso è op-
portuno richiedere una condizione ancora più stringente sull’integrando che, sostanzialmente, deve essere
approssimabile con processi continui da sinistra1 .
Come per l’integrale di Lebesgue, anche la costruzione dell’integrale stocastico avviene per passi, con-
siderando inizialmente dei processi “semplici”.
Definizione 15.1.2. Diciamo che u ∈ L2 è semplice se si scrive nella forma
N
X
ut = αk 1[tk−1 ,tk [ (t), t ≥ 0, (15.1.2)
k=1
con 0 ≤ t0 < t1 < · · · < tN e dove α1 , . . . , αN sono variabili aleatorie tali che P (αk , αk+1 ) > 0 per k = 1, . . . , N −1.
Per ogni T ≥ tN poniamo
Z T N
X
ut dBt := αk Btk − Btk−1
0 k=1
e definiamo l’integrale stocastico per due generici estremi d’integrazione a e b, con 0 ≤ a ≤ b, come
Z b Z tN
ut dBt := ut 1[a,b[ (t)dBt . (15.1.3)
a 0
In questa parte introduttiva non ci preoccupiamo di chiarire tutti i dettagli della definizione di inte-
grale, come per esempio il fatto che la (15.1.3) sia ben posta perchè è indipendente, a meno di processi
indistinguibili, dalla rappresentazione (15.1.2) del processo u.
Osservazione 15.1.3. Un processo semplice è costante a tratti come funzione del tempo e ha traiettorie che
dipendono dai coefficienti α1 , . . . , αN che sono aleatori. Dal fatto che u ∈ L2 seguono alcune proprietà delle
variabili α1 , . . . , αN :
i) poiché u è progressivamente misurabile, per ogni t ∈ [tt−k , tk [ si ha αk = ut ∈ mFt e quindi in partico-

lare
αk ∈ mFtk−1 , k = 1, . . . , N ; (15.1.4)
1 Il processo di Poisson ha variazione limitata e quindi non sarebbe un problema definire il relativo integrale stocastico nel senso
di Lebesgue-Stieltjes: tuttavia, se l’integrando non è continuo da sinistra l’integrale perde la fondamentale proprietà di essere una
martingala (locale): per una spiegazione intuitiva di questo fatto si veda la Sezione 2.1 in [20].
15.1. INTEGRALE RISPETTO AL MOTO BROWNIANO 335
ii) per l’ipotesi di integrabilità (15.1.1) vale

"Z tN # N
X "Z tN #
E ut2 dt = E αk2 1[tk−1 ,tk [ (t)dt
0 k=1 0
XN h i
= E αk2 (tk − tk−1 ) < +∞
k=1
e quindi α1 , . . . , αN ∈ L2 (Ω, P ).
Proviamo ora alcune fondamentali proprietà dell’integrale stocastico appena definito.
Teorema 15.1.4. [!] Dati u, v ∈ L2 semplici, consideriamo i processi

Z t Z t
Xt := us dBs , Yt := vs dBs , t ≥ 0.
0 0
Per 0 ≤ s ≤ t ≤ T valgono le seguenti proprietà:
i) X è una martingala continua di quadrato sommabile, X ∈ M c,2 , e si ha

"Z t #
E ur dBr | Fs = 0; (15.1.5)
s
ii) vale l’isometria di Itô

 Zt !2  "Z t #
ur dBr | Fs  = E ur2 dr | Fs
 
E  (15.1.6)
s s
e più in generale
"Z t Z t # "Z t #
E ur dBr vr dBr | Fs = E ur vr dr | Fs , (15.1.7)
s s s
"Z t Z T #
E ur dBr vr dBr | Fs = 0; (15.1.8)
s t
iii) il processo co-variazione di X e Y (cfr. Proposizione 14.4.4) è dato da

Z t
⟨X, Y ⟩t = us vs ds, t ≥ 0. (15.1.9)
0
Infine, valgono anche le versioni non condizionate delle formule (15.1.5), (15.1.6), (15.1.7) e (15.1.8).
Dimostrazione. Osserviamo anzitutto che le formule (15.1.5), (15.1.6), (15.1.7), (15.1.8) e (15.1.9) equival-
gono rispettivamente a
E [Xt − Xs | Fs ] = 0, (15.1.10)
h i
E (Xt − Xs )2 | Fs = E [⟨X⟩t − ⟨X⟩s | Fs ] ,
E [(Xt − Xs ) (Yt − Ys ) | Fs ] = E [⟨X, Y ⟩t − ⟨X, Y ⟩s | Fs ] ,
E [(Xt − Xs ) (YT − Yt ) | Fs ] = 0.
Proviamo la (15.1.5) che equivale alla proprietà di martingala E [Xt | Fs ] = Xs : riferendoci alla (15.1.2) e
ricordando la notazione (15.1.3), non è restrittivo supporre s = tk e t = th per certi k, h con k < h ≤ N . Si ha
"Z t #
h i h
E Xth | Ftk = Xtk + E ur dBr | Ftk
tk
h
X h i
= Xtk + E αi Bti − Bi−1 | Ftk =
i=k+1
(per la (15.1.4) e la proprietà della torre)

h
X h h i i
= Xtk + E αi E Bti − Bti−1 | Fti−1 | Ftk = Xtk
i=k+1
dove l’ultima uguaglianza segue dall’indipendenza e stazionarietà degli incrementi Browniani per cui si ha
h i h i
E Bti − Bti−1 | Fti−1 = E Bti − Bti−1 = 0
per ogni i = 1, . . . , N .
Per quanto riguarda l’isometria di Itô, sempre nell’ipotesi che s = tk e t = th , si ha
 Zt !2  2
ur dBr | Fs  = E Xth − Xtk | Ftk
 
E 
s

h
2 
 X  
= E  αi Bti − Bi−1  | Ftk 
  
 
i=k+1
h
1
X 2 X h i
= E αi2 Bti − Bti−1 | Ftk + E αi Bti − Bti−1 αj Btj − Btj−1 | Ftk =
2
i=k+1 k+1≤i<j≤h
(per la (15.1.4) e la proprietà della torre)

h
X 2
= E αi2 E Bti − Bti−1 | Fti−1 | Ftk
i=k+1
1 X h h i i
+ E αi Bti − Bti−1 αj E Btj − Btj−1 | Ftj−1 | Ftk =
2
k+1≤i<j≤h
(poiché Btj − Btj−1 è indipendente da Ftj−1 )
h
X h i
= E αi2 (ti − ti−1 ) | Ftk
i=k+1
h
X "Z t #
= E αi2 1[ti−1 ,ti [ (r)dr | Fs
i=k+1 s
"Z t #
=E ur2 dr | Fs .
s
La (15.1.7) si prova in modo analogo. Riguardo alla (15.1.8), basta osservare che
"Z t ZT # "Z T ZT #
E ur dBr vr dBr | Fs = E ur 1[s,t[ (r)dBr vr 1[t,T [ (r)dBr | Fs =
s t s s
15.1. INTEGRALE RISPETTO AL MOTO BROWNIANO 337
(per la (15.1.7))
"Z T #
=E ur vr 1[s,t[ (r)1[t,T [ (r)dr = 0.
s
Infine, il processo ⟨X, Y ⟩ in (15.1.9) è adattato, continuo, BV e tale che ⟨X, Y ⟩0 = 0. Ricordando la
Proposizione 14.4.4, per provare che ⟨X, Y ⟩ è il processo co-variazione di X e Y basta verificare che XY −
⟨X, Y ⟩ è una martingala. Per 0 ≤ s ≤ t si ha
E [Xt Yt | Fs ] = Xs Ys + E [(Xt − Xs )(Yt − Ys ) | Fs ] + 2Xs E [Yt − Ys | Fs ] =
(per la (15.1.7) ed essendo E [Yt − Ys | Fs ] = 0 per la (15.1.10))

"Z t #
= Xs Ys + E ur vr dr | Fs
s
= Xs Ys + E [⟨X, Y ⟩t − ⟨X, Y ⟩s | Fs ]
da cui la tesi.
Grazie all’isometria di Itô (15.1.6), l’integrale stocastico si estende al caso di integrandi in L2 con
una procedura di approssimazione tramite processi semplici. Vale il seguente risultato di densità, la cui
dimostrazione è rimandata alla Sezione 15.1.1.
Lemma 15.1.5. Sia u ∈ L2 . Per ogni T > 0 esiste una successione (un )n∈N di processi semplici di L2 che
converge a u in norma L2 (Ω × [0, T ]):
"Z T #
2
lim E us − un,s ds = 0. (15.1.11)
n→∞ 0
Dato u ∈ L2 consideriamo una successione approssimante (un )n∈N di processi semplici come nel Lemma
15.1.5 per un T > 0 fissato. Allora (un )n∈N è una successione di Cauchy in L2 ([0, T ] × Ω) e per l’isometria di
Itô si ha  Z !2 
 T ZT "Z T #
un,s − um,s 2 ds = 0.

lim E  un,s dBs − um,s dBs  = lim E
n,m→∞ 0 0 n,m→∞ 0
Ne segue che la successione degli integrali stocastici è di Cauchy in L2 (Ω, P ) e quindi esiste
Z T Z T
us dBs := lim un,s dBs .
0 n→∞ 0
Con questa procedura si definisce l’integrale stocastico come classe in equivalenza in L2 (Ω, P ) per un T fis-
sato. Vedremo nella Sezione 15.2.3 che, grazie alla disuguaglianza massimale di Doob, è possibile costruire
l’integrale come processo stocastico (al variare dell’estremo di integrazione) definendolo come limite nello
spazio delle martingale M c,2 . Per approssimazione si prova che le proprietà del Teorema 15.1.4 rimangono
valide sotto l’ipotesi che u ∈ L2 .
Nella Sezione 15.2.4 estenderemo ulteriormente l’integrale al caso di integrandi in u ∈ L2loc , ossia u
progressivamente misurabile che soddisfa la condizione di integrabilità
Z T
ut2 dt < ∞ T > 0, q.c. (15.1.12)
0
che è notevolmente più debole della (15.1.1): per esempio, ogni processo u adattato e continuo appartiene
a L2loc poiché l’integrale in (15.1.12), sul compatto [0, T ], è finito grazie alla continuità di ogni singola
traiettoria di u. D’altra parte, ut = exp(B4t ) appartiene a L2loc ma non2 a L2 . Il Teorema 15.1.4 non si estende
al caso di u ∈ L2loc , tuttavia proveremo che in tal caso il processo integrale è una martingala locale.
15.1.1 Dimostrazione del Lemma 15.1.5

Per dimostrare la densità della classe dei processi semplici nello spazio L2 usiamo la seguente conse-
guenza della Proposizione A.2.3.3, ossia la cosiddetta “proprietà di continuità in media” delle funzioni
sommabili.
Corollario 15.1.6 (Continuità in media). Se f ∈ L1 (R) allora per quasi ogni x ∈ R si ha
1 x+h
Z
lim |f (x) − f (y)|dy = 0.
h→0 h x
Dimostriamo il Lemma 15.1.5 inizialmente assumendo che u sia continuo. Fissato T > 0, al variare di
n ∈ N, indichiamo con
Tk
tn,k = n , k = 0, . . . , 2n , (15.1.13)
2
i diadici di [0, T ] e definiamo il processo semplice
2n
X
un,t = αn,k 1[tn,k−1 ,tn,k [ , αn,k = utn,k−1 1{|ut |≤n} , t ∈ [0, T ].
n,k−1
k=1
Allora la (15.1.11) segue dal teorema della convergenza dominata.

Per concludere basta provare che ogni u ∈ L2 può essere approssimata in norma L2 ([0, T ] × Ω) con una
successione (un )n∈N di processi continui di L2 . A tal fine, definiamo3
?t
un,t := us ds, 0 < t ≤ T , n ∈ N.
(t− n1 )∨0
Notiamo che un è continuo e adattato (e quindi progressivamente misurabile). Inoltre si ha
"Z T Z ? 2 
 T  t
#
2  
E ut − un,t dt = E  
 (ut − us )ds dt  ≤
0 0 (t− n1 )∨0
(per la disuguglianza di Jensen)
Z T ? t

 2 
≤ E  (ut − us ) ds dt 
0 (t− n1 )∨0
Z T? t h i
= E (ut − us )2 ds dt. (15.1.14)
0 (t− n1 )∨0
Ora, per il Corollario 15.1.6 si ha
? t h i
lim E (ut − us )2 ds = 0 q.o.
n→∞
(t− n1 )∨0
e quindi si può passare al limite in (15.1.14) per n → ∞ e concludere utilizzando il teorema della conver-
genza dominata di Lebesgue.
2
"Z T # Z ZT
4 4 1 − x2
E e2Bt dt = e2x √ e 2t dtdx = +∞.
0 R 0 2πt
>
3 Qui b u ds = 1
Rb
a s
u ds per a < b.
b−a a s
15.2. INTEGRALE RISPETTO A MARTINGALE CONTINUE DI QUADRATO SOMMABILE 339
15.2 Integrale rispetto a martingale continue di quadrato sommabile

Assumiamo che il processo integratore B appartenga alla classe M c,2 , ossia B è una martingala continua
tale che Bt ∈ L2 (Ω, P ) per ogni t ≥ 0. La costruzione dell’integrale stocastico è analoga al caso del moto
Browniano con qualche tecnicismo in più.
Indichiamo con ⟨B⟩ il processo variazione quadratica definito nel Teorema 14.4.1: ⟨B⟩ è un processo
continuo e crescente che definisce un misura di Lebesgue-Stieltjes (cfr. Sezione 14.2) il cui integrale è
indicato con Z b
f (t)d⟨B⟩t , 0 ≤ a ≤ b.
a
Per esempio, se B è un moto Browniano allora ⟨B⟩t = t e la corrispondente misura di Lebesgue-Stieltjes è
semplicemente la misura di Lebesgue, come visto nella Sezione 15.1.
Definizione 15.2.1. Indichiamo con L2B la classe dei processi u = (ut )t≥0 tali che:
ii) per ogni T ≥ 0 vale
"Z T #
E ut2 d⟨B⟩t < ∞. (15.2.1)
0
Generalmente il processo B sarà fissato una volte per tutte e quindi, se non c’è pericolo di confusione,
scriveremo semplicemente L2 invece di L2B .
In un secondo momento, indeboliremo la condizione di sommabilità ii) richiedendo che u appartenga
alla classe seguente.
Definizione 15.2.2. Indichiamo con L2B,loc (o, più semplicemente, L2loc ) la classe dei processi u tali che
ii’) per ogni T ≥ 0 vale
Z T
ut2 d⟨B⟩t < ∞ q.c. (15.2.2)
0
La ii’) è una condizione molto debole di sommabilità che è verificata automaticamente se, per esempio,
u ha traiettorie continue o, più in generale, localmente limitate (si noti che il dominio di integrazione in
(15.2.2) è compatto).
15.2.1 Integrale di processi indicatori

Consideriamo una classe molto particolare di integrandi che, rispetto alla variabile temporale, sono
funzioni indicatrici di un intervallo. Chiamiamo processo indicatore un processo stocastico della forma
ut = α1[t0 ,t1 [ (t), t ≥ 0, (15.2.3)
dove α è una variabile aleatoria Ft0 -misurabile e limitata (ossia tale che |α| ≤ c q.c. con c costante positiva)
e t1 > t0 ≥ 0.
Osservazione 15.2.3. Ogni processo indicatore u appartiene a L2 : infatti u è càdlàg e adattato, quindi
progressivamente misurabile; inoltre u soddisfa la (15.2.1) poiché
"Z T #
h i h i
E ut2 d⟨B⟩t = E α 2 ⟨B⟩T ∧t1 − ⟨B⟩T ∧t0 ≤ c2 E ⟨B⟩T ∧t1 − ⟨B⟩T ∧t0 < ∞
0
per ogni T ≥ 0.
La definizione di integrale stocastico di un processo indicatore è elementare e completamente esplicita:

esso viene definito, traiettoria per traiettoria, moltiplicando α per un incremento di B.
Definizione 15.2.4 (Integrale stocastico di processi indicatori). Siano u il processo indicatore in (15.2.3)
e B ∈ M c,2 . Per ogni T ≥ t1 poniamo
ZT
ut dBt := α Bt1 − Bt0 (15.2.4)
0
e definiamo l’integrale stocastico per due generici estremi d’integrazione a e b, con 0 ≤ a ≤ b, come
Z b Z t1
ut dBt := ut 1[a,b[ (t)dBt . (15.2.5)
a 0
Osservazione 15.2.5. [!] Se [t0 , t1 [∩[a, b[, ∅, l’integrale nel membro destro della (15.2.5) è definito dal-
la (15.2.4) interpretando ut 1[a,b[ (t) come il processo semplice α1[t0 ∨a,t1 ∧b[ (t) e scegliendo T = t1 . In caso
contrario si intende che l’integrale è nullo per definizione.
Osservazione 15.2.6. Essendo definito in termini di incrementi di B, l’integrale stocastico non dipende dal
valore iniziale B0 . Inoltre X è un processo adattato e continuo.
Nel prossimo risultato stabiliamo alcune proprietà fondamentali dell’integrale stocastico. La secon-
da parte della dimostrazione è basata sulla notevole identità (14.4.1), valida per ogni B ∈ M c,2 , che qui
richiamiamo: h i
E (Bt − Bs )2 | Fs = E [⟨B⟩t − ⟨B⟩s | Fs ] , 0 ≤ s ≤ t. (15.2.6)
In tutto il capitolo insistiamo molto nel fornire l’espressione esplicita della variazione quadratica dell’inte-
grale stocastico o della co-variazione di due integrali: il motivo è che esse compaiono nel più importante
strumento per il calcolo degli integrali stocastici, la formula di Itô, che presenteremo nel Capitolo 16.
Il Teorema 15.1.4 ha la seguente naturale estensione.
Teorema 15.2.7. [!] Siano

Z t Z t
Xt := us dBs , Yt := vs dBs , t ≥ 0,
0 0
dove u, v sono processi indicatori e B ∈ M c,2 . Per 0 ≤ s ≤ t ≤ T valgono le seguenti proprietà:
i) X è una martingala continua di quadrato sommabile, X ∈ M c,2 , e si ha

"Z t #
E ur dBr | Fs = 0; (15.2.7)
s
ii) vale l’isometria di Itô

 Zt !2  "Z t #
2
ur dBr | Fs  = E ur d⟨B⟩r | Fs
 
E   (15.2.8)
s s
e più in generale
"Z t Z t # "Z t #
E ur dBr vr dBr | Fs = E ur vr d⟨B⟩r | Fs , (15.2.9)
s s s
"Z t Z T #
E ur dBr vr dBr | Fs = 0; (15.2.10)
s t
iii) il processo co-variazione di X e Y è dato da

Z t
⟨X, Y ⟩t = us vs ⟨B⟩s , t ≥ 0. (15.2.11)
0
Dimostrazione. Per l’Osservazione 15.2.5 non è restrittivo assumere u = α1[s,t[ e v = β1[s,t[ con α, β ∈ mFs
limitate.
i) Allora si ha "Z t#
E ur dBr | Fs = E [α (Bt − Bs ) | Fs ] = αE [Bt − Bs | Fs ] = 0
s
dove abbiamo sfruttato il fatto che α ∈ mFs e la proprietà di martingala di B. Questo prova la (15.2.7)
che equivale alla proprietà di martingala di X. Chiaramente XT ∈ L2 (Ω, P ) per ogni T ≥ 0 poiché XT è il
prodotto di α, variabile aleatoria limitata, per un incremento di B che è di quadrato sommabile.
ii) Proviamo direttamente la (15.2.9): si ha
"Z t Zt #
h i
E ur dBr vr dBr | Fs = E αβ(Bt − Bs )2 | Fs
s s
h i
= αβE (Bt − Bs )2 | Fs =
(per la formula cruciale (15.2.6))

= αβE [⟨B⟩t − ⟨B⟩s | Fs ]
= E [αβ(⟨B⟩t − ⟨B⟩s ) | Fs ]
"Z t #
=E ur vr d⟨B⟩r | Fs .
s
La dimostrazione della (15.2.9) è analoga.

iii) Il processo ⟨X, Y ⟩ in (15.2.11) è adattato, continuo e localmente a variazione limitata poiché differenza
di processi crescenti
Zt Zt
+
⟨X, Y ⟩t = (us vs ) d⟨B⟩s − (us vs )− d⟨B⟩s .
0 0
Inoltre ⟨X, Y ⟩0 = 0. Per concludere basta provare che XY − ⟨X, Y ⟩ è una martingala: si ha
Zt ! Zt !
Xt Y t = Xs + ur dBr Ys + vr dBr
s s
Z t Z t Z t Z t
= Xs Ys + ur dBr vr dBr + Xs vr dBr + Ys ur dBr
s s s s
e quindi
"Z t Z t # "Z t # "Z t #
E [Xt Yt | Fs ] = Xs Ys + E ur dBr vr dBr | Fs + Xs E vr dBr | Fs + Ys E ur dBr | Fs =
s s s s
(per la (15.2.9) e la (15.2.7))

"Z t #
= Xs Ys + E ur vr d⟨B⟩r | Fs
s
da cui segue
E [Xt Yt − ⟨X, Y ⟩t | Fs ] = Xs Ys − ⟨X, Y ⟩s .
Osservazione 15.2.8. Le formule (15.2.7), (15.2.8), (15.2.9), (15.2.10) e (15.2.11) si riscrivono rispettiva-
mente nella forma
E [Xt − Xs | Fs ] = 0,
h i
E (Xt − Xs )2 | Fs = E [⟨X⟩t − ⟨X⟩s | Fs ] ,
E [(Xt − Xs ) (Yt − Ys ) | Fs ] = E [⟨X, Y ⟩t − ⟨X, Y ⟩s | Fs ] ,
E [(Xt − Xs ) (YT − Yt ) | Fs ] = 0.
Applicando il valore atteso, si ottengono anche le versioni non condizionate dell’isometria di Itô:
 Zt !2  "Z t #
ur2 d⟨B⟩r ,
 
E  ur dBr  = E (15.2.12)
s s
"Z t Zt # "Z t #
E ur dBr vr dBr = E ur vr d⟨B⟩r ,
s s s
"Z t Z T #
E ur dBr vr dBr = 0, (15.2.13)
s t
e la (15.2.11) con u = v diventa

Z t
⟨X⟩t = us2 ⟨B⟩s , t ≥ 0.
0
15.2.2 Integrale di processi semplici

In questa sezione estendiamo la classe dei processi integrandi ai processi semplici: essi sono somme di
processi indicatori come quelli considerati nella sezione precedente. Per linearità la definizione di integrale
stocastico si estende, traiettoria per traiettoria, in modo elementare ed esplicito. Rimangono valide le
proprietà fondamentali dell’integrale: la proprietà di martingala e l’isometria di Itô.
Definizione 15.2.9 (Processo semplice). Un processo semplice u è un processo della forma
N
X
ut = uk,t , uk,t := αk 1[tk−1 ,tk [ (t), (15.2.14)
k=1
dove:
i) 0 ≤ t0 < t1 < · · · < tN ;
ii) αk è una variabile aleatoria Ftk−1 -misurabile e limitata per ogni k = 1, . . . , N .
Si può richiedere anche che P (αk , αk+1 ) > 0, per k = 1, . . . , N − 1, in modo che la rappresentazione
(15.2.14) di u sia unica.
Definizione 15.2.10 (Integrale stocastico di processi semplici). Sia u un processo semplice della forma
(15.2.14) e sia B ∈ M c,2 . L’integrale stocastico di u rispetto a B è il processo stocastico
Z t N Z
X t N
X
us dBs := uk,s dBs = αk Bt∧tk − Bt∧tk−1 .
0 k=1 0 k=1
Teorema 15.2.11. Il Teorema 15.2.7 rimane valido sotto l’ipotesi che u, v siano processi semplici.
Dimostrazione. La continuità e la proprietà di martingala (15.2.7) sono immediate per linearità. Per quanto
riguarda l’isometria di Itô (15.2.9), anzitutto possiamo scrivere v nella forma (15.2.14) rispetto alla stessa
scelta di t0 , . . . , tN , per certi vk,t = βk 1[tk−1 ,tk [ (t): notiamo che
N
X N
X N
X
ut vt = uk,t vh,t = αk βk 1[tk−1 ,tk [ (t). (15.2.15)
k=1 h=1 k=1
Allora si ha
N Z N Z t

"Z t Z t #
X t X 
E ur dBr vr dBr | Fs = E  uk,r dBr vh,r dBr | Fs 
s s s
k=1 s h=1
N
X "Z t Zt #
= E uk,r dBr vk,r dBr | Fs
k=1 s s
X "Z th Z tk #
+2 E uh,r 1[s,t[ (r)dBr vk,r 1[s,t[ (r)dBr | Fs =
h<k th−1 tk−1
(per la (15.2.8) e la (15.2.10))
N
X "Z t #
= E uk,r vk,r d⟨B⟩r | Fs =
k=1 s
(per la (15.2.15))
"Z t #
=E ur vr d⟨B⟩r | Fs .
s
Infine il fatto che ⟨X, Y ⟩ in (15.2.11) sia il processo co-variazione di X e Y si prova come nella dimostrazione
del Teorema 15.2.7-iii).
15.2.3 Integrale di processi in L2

In questa sezione estendiamo la classe dei processi integrandi sfruttando la densità dei processi semplici
in L2 ≡ L2B (cfr. Definizione 15.2.1). L’integrale stocastico è ora definito come limite in M c,2 e quindi,
ricordando l’Osservazione 13.3.2, come classe di equivalenza e non più traiettoria per traiettoria. Tuttavia
rimangono valide le proprietà fondamentali dell’integrale: la proprietà di martingala e l’isometria di Itô.
Il Lemma 15.1.5 ha la seguente generalizzazione che si prova con un artificio tecnico: l’idea è di fare un
cambio di variabile temporale per “riallineare” il processo continuo e crescente ⟨B⟩t al caso Browniano in
cui ⟨B⟩t ≡ t; per i dettagli rimandiamo al Lemma 2.2.7 in [38].
Lemma 15.2.12. Sia u ∈ L2 . Per ogni T > 0 esiste una successione (un )n∈N di processi semplici tali che
"Z T #
2
lim E us − un,s d⟨B⟩s = 0.
n→∞ 0
Ricordiamo la convenzione in base alla quale MTc,2 è lo spazio delle classi di equivalenza (secondo
l’indistinguibilità) delle martingale continue X = (Xt )t∈[0,T ] di quadrato sommabile, munito della norma
q h i
∥X∥T := E XT2 .
Per la Proposizione 13.3.3, (MTc,2 , ∥ · ∥T ) è uno spazio di Banach.

Vediamo ora come definire l’integrale stocastico di u ∈ L2 . Fissato T > 0 e data una successione
approssimante (un )n∈N di processi semplici come nel Lemma 15.2.12, indichiamo con
Z t
Xn,t = un,s dBs , t ∈ [0, T ], (15.2.16)
0
la successione dei relativi integrali stocastici. Per il Teorema 15.2.11 Xn ∈ MTc,2 e per l’isometria di Itô
(15.2.8) si ha
 Z !2 
 T
"Z T #
2

∥Xn − Xm ∥T = E  (un,t − um,t )dBt  = E (un,t − um,t )2 d⟨B⟩t .
0 0
Ne segue che (Xn )n∈N è una successione di Cauchy in (MTc,2 , ∥ · ∥T ) e quindi esiste
X := lim Xn in MTc,2 . (15.2.17)

n→∞
Proposizione 15.2.13 (Integrale stocastico di processi in L2 ). Il processo limite X = (Xt )t∈[0,T ] in (15.2.17)
è indipendente dalla successione approssimante ed è chiamato processo integrale stocastico di u rispetto a B
su [0, T ] e indicato con
Zt
Xt = us dBs , t ∈ [0, T ].
0
Dimostrazione. Sia X il limite in (15.2.17) definito a partire dalla successione approssimante (un )n∈N . Sia
(vn )n∈N un’altra successione approssimante per u e
Z t
Yn,t = vn,s dBs , t ∈ [0, T ]. (15.2.18)
0
Allora ∥Yn − X∥T ≤ ∥Yn − Xn ∥T + ∥Xn − X∥T e basta osservare che, ancora per l’isometria di Itô, si ha
 Z !2 
 T
"Z T #

∥Yn − Xn ∥2T = E  (vn,t − un,t )dBt  = E
 2
(vn,t − un,t ) d⟨B⟩t −−−−−→ 0.
0 0 n→∞
Osservazione 15.2.14. [!] Per costruzione, l’integrale stocastico secondo Itô

Z t
Xt = us dBs , (15.2.19)
0
con u ∈ L2 e B ∈ M c,2 , è una classe di equivalenza in M c,2 : ogni rappresentante di tale classe è una martin-
gala continua, univocamente determinata a meno di processi indistinguibili. Da questo punto di vista, a
meno che non sia stata operata una particolare scelta del rappresentante, le singole traiettorie del processo
integrale stocastico non sono definite e non ha senso considerare o voler calcolare Xt (ω) per un particolare
ω ∈ Ω.
Teorema 15.2.15. Il Teorema 15.2.7 rimane valido sotto l’ipotesi che u, v ∈ L2 .
Dimostrazione. Siano (un )n∈N e (vn )n∈N successioni di processi semplici, approssimanti rispettivamente u
e v in (MTc,2 , ∥ · ∥T ). Indichiamo con (Xn )n∈N e (Yn )n∈N i corrispondenti integrali stocastici in (15.2.16) e
(15.2.18). Le (15.2.7) e (15.2.8) sono diretta conseguenza del fatto che Xn,t → Xt in L2 (Ω, P ) (e quindi
anche in L1 (Ω, P )) e Xn,t Yn,t → Xt Yt in L1 (Ω, P ) unitamente al fatto generale che4 se Zn → Z in L1 (Ω, P )
allora E [Zn | G ] → E [Z | G ] in L1 (Ω, P ). La dimostrazione della (15.2.11) è identica a quella del Teorema
15.2.7-iii).
Osservazione 15.2.16. [!] Siano B ∈ M c,2 e u ∈ L2B . Per il Teorema 15.2.15, l’integrale X in (15.2.19)
appartiene a M c,2 e quindi può essere usato come integratore. Poiché
Zt
⟨X⟩t = us2 d⟨B⟩s ,
0
si ha che v ∈ L2X se v è progressivamente misurabile e vale

"Z t # "Z t #
2 2 2
E vs d⟨X⟩s = E vs us d⟨B⟩s < ∞
0 0
per ogni t ≥ 0. In tal caso si ha

Z t Z t
vs dXs = vs us dBs
0 0
come si può verificare direttamente per u, v semplici e, in generale, per approssimazione.
In particolare, se B è un moto Browniano allora la misura di Lebesgue-Stieltjes associata a ⟨X⟩ è assolu-
tamente continua rispetto alla misura di Lebesgue, con densità u 2 .
Diamo ora due proposizioni i cui enunciati sembrano quasi ovvi ma in realtà, alla luce dell’Osservazione
15.2.14, richiedono una dimostrazione rigorosa. Entrambi i risultati si provano con una procedura, tecnica
e un po’ noiosa, di approssimazione.
Proposizione 15.2.17. [!] Supponiamo che u, v ∈ L2 siano modificazioni su un evento F nel senso che, per
ogni t ∈ [0, T ], ut (ω) = vt (ω) per quasi ogni ω ∈ F. Allora i relativi processi integrali
Zt Zt
Xt = us dBs , Yt = vs dBs ,
0 0
sono indistinguibili su F, ossia sup |Xt (ω) − Yt (ω)| = 0 per quasi ogni ω ∈ F.
t∈[0,T ]
Dimostrazione. Consideriamo le approssimazioni un e vn definite come nel Lemma 15.2.12. Per costruzio-
ne, per ogni n ∈ N e t ∈ [0, T ], un,t = vn,t quasi certamente su F. Ne segue che anche i relativi integrali
(Xn,t )t∈[0,T ] in (15.2.16) e (Yn,t )t∈[0,T ] in (15.2.18) sono modificazioni su F. Passando al limite in n, si deduce
che (Xt )t∈[0,T ] e (Yt )t∈[0,T ] sono modificazioni su F: la tesi segue dalla proprietà di continuità di X e Y .
Osservazione 15.2.18. Supponiamo che, per un certo T > 0, valga
ZT ZT
ut dBt = vt dBt
0 0
dove u, v ∈ L2 e B è un moto Browniano. Allora P (u = v q.o. su [0, T ]) = 1 ossia quasi tutte le traiettorie di
u e v sono uguali quasi ovunque su [0, T ]. Infatti, per l’isometria di Itô si ha
"Z T  Z !2 
 T
#

2
E (ut − vt ) dt = E  (ut − vt )dBt  = 0
0 0
da cui la tesi.
4 Per la disuguaglianza di Jensen, si ha
E [|E [Zn | G ] − E [Z | G ]|] ≤ E [E [|Zn − Z| | G ]] = E [|Zn − Z|] .

Proposizione 15.2.19 (Integrale con estremo d’integrazione aleatorio). [!] Sia X in (15.2.19) il processo
integrale stocastico
diu ∈ L2 rispetto a B ∈ M c,2 . Sia τ un tempo d’arresto tale che 0 ≤ τ ≤ T per un certo
T > 0. Allora ut 1(t≤τ) ∈ L2 e vale
t≥0
Z τ Z T
Xτ = us dBs = us 1(s≤τ) dBs q.c.
0 0
Dimostrazione. Osserviamo anzitutto che, per la Proposizione 15.2.17, se F ∈ Ft allora

Z T Z T
1F us dBs = 1F us dBs q.c. (15.2.20)
t t
La condizione di misurabilità su F è fondamentale perché assicura che l’integrale nel membro a destra di
(15.2.20) sia ben definito, essendo l’integrando progressivamente misurabile su [t, T ].
Ora ricordiamo la notazione (15.1.13), tn,k := T2nk , per i diadici di [0, T ] e utilizziamo l’usuale discretiz-
zazione di τ:
X2n
τn = tn,k 1Fn,k
k=1
con
T
k = 2, . . . , 2n .

Fn,1 = 0 ≤ τ ≤ 2n , Fn,k = tn,k−1 < τ ≤ tn,k ,
Notiamo che (Fn,k )k=1,...,2n forma una partizione di Ω con Fn,k ∈ Ftn,k e (τn )n∈N è una successione decrescente
di tempi d’arresto che converge a τ. Per continuità si ha Xτn → Xτ . Inoltre, posto
Z T Z T
Y= us 1(s≤τ) dBs , Yn = us 1(s≤τn ) dBs ,
0 0
usando l’isometria di Itô è facile provare che Yn → Y in L2 (Ω, P ) e quindi anche quasi certamente.
Per provare la tesi, ossia il fatto che Xτ = Y q.c., è quindi sufficiente verificare che Xτn = Yn q.c. per ogni
n ∈ N. Ora, su Fn,k si ha
ZT ZT
Xτn = Xtn,k = us dBs − us dBs ,
0 tn,k
e quindi
Z T 2n
X Z T
Xτn = us dBs − 1Fn,k us dBs . (15.2.21)
0 k=1 tn,k
D’altra parte
Z T
Yn = us 1 − 1(s>τn ) dBs
0
Z T 2n Z
X T
= us dBs − us 1Fn,k dBs =
0 k=1 tn,k
(per la (15.2.20), con probabilità uno)

Z T 2n
X Z T
= us dBs − 1Fn,k us dBs
0 k=1 tn,k
che, combinata con la (15.2.21), prova la tesi.

0.04
0.4
0.03
0.2
0.02
200 400 600 800 1000
-0.2 0.01
-0.4
200 400 600 800 1000
Figura 15.1: A sinistra: grafico di una traiettoria di un moto Browniano W . A destra: grafico della relativa
Rt
traiettoria di At = 0 Ws2 ds, corrispondente al processo in (15.2.22) con u = W e B moto Browniano.
15.2.4 Integrale di processi in L2loc

Definiamo l’integrale stocastico di processi in L2loc . Indebolendo la condizione di sommabilità dell’in-
tegrando, si perdono alcune delle proprietà fondamentali dell’integrale, fra cui la proprietà di martin-
gala e l’isometria di Itô. Proveremo che l’integrale è una martingala locale e forniremo un “surrogato”
dell’isometria di Itô, il Lemma 15.2.24.
Ricordiamo che u ∈ L2loc se è progressivamente misurabile e, per ogni t > 0,
Zt
At := us2 d⟨B⟩s < ∞ q.c. (15.2.22)
0
Il processo A cosı̀ definito è continuo, adattato e crescente; inoltre A è non-negativo poiché A0 = 0 (si veda
la Figura 15.1).
Fissiamo T > 0 e consideriamo la successione di tempi d’arresto definita da
τn = T ∧ inf{t ≥ 0 | At ≥ n}, n ∈ N. (15.2.23)
Per continuità di A, si ha τn ↗ T e quindi la successione di eventi Fn := (τn = T ) è tale che
Fn ↗ Ω.
Troncando u al tempo τn , definiamo il processo
un,t := ut 1(t≤τn ) , t ∈ [0, T ],
che è progressivamente misurabile e tale che

"Z t # "Z t∧τn #
2
E un,s d⟨B⟩s = E us2 d⟨B⟩s ≤ n, t ∈ [0, T ].
0 0
Quindi un ∈ L2 e il relativo integrale

Z t
2
Xn,t := un,s dBs , t ∈ [0, T ], (15.2.24)
0
appartiene a M c,2 in base al Teorema 15.2.15. Inoltre su Fn si ha
un,t = un+h,t = ut , t ∈ [0, T ], n, h ∈ N,


e pertanto i processi Xn,t t∈[0,n] e Xn+h,t t∈[0,n] sono indistinguibili su Fn grazie alla Proposizione 15.2.17.
Allora la seguente definizione è ben posta:
Definizione 15.2.20 (Integrale stocastico di processi in L2loc ). L’integrale stocastico di u ∈ L2loc rispetto
a B ∈ M c,2 su [0, T ] è il processo continuo e adattato X = (Xt )t∈[0,T ] che su Fn è indistinguibile da Xn in
(15.2.24) per ogni n ∈ N. Al solito, scriviamo
Z t
Xt = us dBs , t ∈ [0, T ]. (15.2.25)
0
Osservazione 15.2.21. Come già osservato in precedenza, l’integrale stocastico è definito come classe di
equivalenza di processi indistinguibili. La definizione precedente e in particolare la notazione (15.2.25)
sono ben poste nel senso che se X e X̄ indicano rispettivamente i processi integrali stocastici di u rispetto a
B sugli intervalli [0, T ] e [0, T̄ ] con T ≤ T̄ allora, con una procedura d’approssimazione a partire dai processi
semplici, si dimostra che X e X̄|[0,T ] sono processi indistinguibili. Di conseguenza è ben definito il processo
integrale stocastico secondo Itô di u rispetto a B indicato con
Z t
Xt = us dBs , t ≥ 0.
0
Vedremo in seguito, nella Proposizione 15.2.25, che vale anche

Z t Z t
us dBs = lim un,s dBs
0 n→∞ 0
con convergenza in probabilità.
La Proposizione 15.2.19 ha la seguente semplice generalizzazione.
Proposizione 15.2.22 (Integrale con estremo d’integrazione aleatorio). Sia X il processo integrale stoca-
stico di u ∈ L2loc rispetto a B ∈ M c,2 . Sia τ un tempo d’arresto tale che 0 ≤ τ ≤ T per un certo T > 0. Allora

ut 1(t≤τ) ∈ L2loc e vale
t≥0
Zτ ZT
Xτ = us dBs = us 1(s≤τ) dBs q.c.
0 0

Dimostrazione. È chiaro che ut 1(t≤τ) ∈ L2loc . Sia (τn )n∈N la successione di tempi d’arresto in (15.2.23).
t≥0
Per definizione sull’evento Fn = (τn = T ) si ha
Zτ
Xτ = us 1(s≤τn ) dBs =
0
(per la Proposizione 15.2.19, poiché us 1(s≤τn ) ∈ L2 )

Z T
= us 1(s≤τn ) 1(s≤τ) dBs =
0
(poiché su Fn si ha τn = T ≥ τ)
Z T
= us 1(s≤τ) dBs .
0
La tesi segue dall’arbitrarietà di n.

Estendendo la classe di integrandi da L2 a L2loc , si perde la proprietà di martingala, tuttavia si ha il

seguente

Z t Z t
Xt = us dBs , Yt = vs dBs
0 0
con u, v ∈ L2loc e B ∈ M c,2 . Allora:
i) X è una martingala locale continua, ossia X ∈ M c,loc , e
τn := n ∧ inf{t ≥ 0 | At ≥ n}, n ∈ N,
con A in (15.2.22), è una successione localizzante per X (cfr. Definizione 13.4.2);
ii) il processo co-variazione di X e Y è

Z t
⟨X, Y ⟩t = us vs d⟨B⟩s , t ≥ 0.
0
Dimostrazione. Per la Proposizione 15.2.22 (con la scelta τ = t ∧ τn e T = t), per ogni t ≥ 0 si ha

Z t
Xt∧τn = us 1(s≤τn ) dBs q.c.
0
e quindi, per continuità, Xt∧τn è una versione dell’integrale stocastico del processo us 1(s≤τn ) che appartiene
a L2 . Ne segue che Xt∧τn è una martingala continua e quindi X è una martingala locale con successione
localizzante (τn )n∈N .
Rt
Ora poniamo At = us vs d⟨B⟩s e
0
τn = n ∧ inf{t ≥ 0 | ⟨X⟩t + ⟨Y ⟩t ≥ n}, n ∈ N.
Per il Teorema 15.2.15 (si ricordi la (15.2.11)) e la disuguaglianza di Cauchy-Schwarz dell’Osservazione

14.4.5-iii), si ha che il processo
Z t
(XY − A)t∧τn = Xt∧τn Yt∧τn − At∧τn = Xt∧τn Yt∧τn − us vs 1(s≤τn ) d⟨B⟩s
0
è una martingala: ne viene che XY −A ∈ M c,loc con successione localizzante (τn )n∈N e quindi A = ⟨X, Y ⟩.
Per l’integrale stocastico di u ∈ L2loc non si ha più a disposizione uno strumento fondamentale come
l’isometria di Itô: in molte situazioni essa può essere convenientemente sostituita dal seguente lemma.
Lemma 15.2.24. [!] Siano

Z t Z t
Xt = us dBs , ⟨X⟩t = us2 d⟨B⟩s ,
0 0
con u ∈ L2loc e B ∈ M c,2 . Per ogni t, ε, δ > 0 vale
δ
P (|Xt | ≥ ε) ≤ P (⟨X⟩t ≥ δ) + .
ε2
τδ = inf{s > 0 | ⟨X⟩s ≥ δ}, δ > 0.
Fissati t, ε > 0, si ha
P (|Xt | ≥ ε) = P ((|Xt | ≥ ε) ∩ (τδ ≤ t)) + P ((|Xt | ≥ ε) ∩ (τδ > t)) ≤
(poiché (τδ ≤ t) = (⟨X⟩t ≥ δ))
≤ P (⟨X⟩t ≥ δ) + P ((|Xt | ≥ ε) ∩ (τδ > t))
e quindi rimane da provare che

δ
P ((|Xt | ≥ ε) ∩ (τδ > t)) ≤ .
ε2
Ora si ha
Z Z
t t
! ! ! !

P us dBs ≥ ε ∩ (t < τδ ) = P us 1(s<τδ ) dBs ≥ ε ∩ (t < τδ )
0 0
Z
t !

≤ P us 1(s<τδ ) dBs ≥ ε ≤
0
(per la disuguaglianza (4.1.3) di Chebyschev)

Z 2 
1  t 
≤ 2 E  us 1(s<τδ ) dBs  =
ε 0
(per l’isometria di Itô, poiché us 1(s<τδ ) ∈ L2 )

"Z t #
1 δ
= E us2 1(s<τδ ) d⟨B⟩s ≤ 2 .
ε2 0 ε
15.2.5 Integrale stocastico e integrale di Riemann-Stieltjes

Il seguente risultato mostra che l’integrale stocastico di u ∈ L2loc può anche essere definito per approssi-
mazione, come avevamo fatto per u ∈ L2 , a patto di usare la convergenza in probabilità invece che in norma
L2 (Ω, P ).
Proposizione 15.2.25. Siano u, un ∈ L2loc , n ∈ N, tali che
Z t
P
|un,s − us |2 d⟨B⟩s −−−−−→ 0. (15.2.26)
0 n→∞
Allora Z t Z t
P
un,s dBs −−−−−→ us dBs .
0 n→∞ 0
Dimostrazione. Fissato ε > 0, per il Lemma 15.2.24 con δ = ε3 si ha

Z
t
! Zt !
2 3
lim P (un,s − us )dBs ≥ ε ≤ lim P |un,s − us | d⟨B⟩s ≥ ε + ε = ε
n→∞ 0 n→∞ 0
grazie all’ipotesi (15.2.26).

15.3. INTEGRALE RISPETTO A SEMI-MARTINGALE CONTINUE 351
Come semplice applicazione della Proposizione 15.2.25 proviamo che, nel caso in cui l’integrando sia un
processo continuo, l’integrale stocastico è in effetti il limite in probabilità delle somme di Riemann-Stieltjes
in cui l’integrando è valutato nell’estremo sinistro di ogni intervallo della partizione: ciò è coerente con la
costruzione dell’integrale secondo Itô che sfrutta in maniera cruciale l’ipotesi di progressiva misurabilità
dell’integrando. Il seguente risultato è anche alla base dei metodi di approssimazione numerica per l’integrale
stocastico.
Corollario 15.2.26. [!] Siano u un processo continuo e adattato, B ∈ M c,2 e (πn )n∈N una successione di
partizioni di [0, t], con πn = (tn,k )k=0,...,mn , tale che lim |πn | = 0. Allora
n→∞
mn
X P Zt
utn,k−1 Btn,k − Btn,k−1 −−−−−→ us dBs .
n→∞ 0
k=1
Dimostrazione. Posto
mn
X
un,s = utn,k−1 1[tn,k−1 ,tn,k [ (s)
k=1
si ha che un ∈ L2loc e
mn
X Z t
utn,k−1 Btn,k − Btn,k−1 = un,s dBs .
k=1 0
Inoltre, per la continuità di u e il teorema della convergenza dominata, si ha

Z t
lim |un,s − us |2 d⟨B⟩s = 0 q.c.
n→∞ 0
La tesi segue dalla Proposizione 15.2.25.

Un’utile conseguenza del Corollario 15.2.26 è il seguente
Corollario 15.2.27. [!] Per i = 1, 2, sia Z t
Xti = usi dBis
0
d
con u i , processo continuo e adattato, e Bi ∈ M c,2 definiti su (Ωi , F i , P i ). Se (u 1 , B1 ) = (u 2 , B2 ) allora si ha
d
anche (u 1 , B1 , X 1 ) = (u 2 , B2 , X 2 ).
Un risultato analogo vale sotto ipotesi molto più generali: al riguardo si veda, per esempio, l’Esercizio
V.5.16 in [64].
15.3 Integrale rispetto a semi-martingale continue

Nelle sezioni precedenti abbiamo supposto che il processo integratore B fosse una martingala continua
di quadrato sommabile. Ora estendiamo la definizione di integrale stocastico al caso in cui l’integratore, qui
indicato con S, sia una semi-martingala continua: precisamente, per la Definizione 14.3.1, S è un processo
adattato e continuo della forma
S = A+B
dove A ∈ BV è tale che A0 = 0 e B ∈ M c,loc . Usiamo la notazione
Zt
ur dSr
0
per indicare l’integrale stocastico del processo u rispetto a S: esso è definito come somma
Zt Zt Zt
ur dSr := ur dAr + ur dBr
0 0 0
dove i due integrali nel membro a destra hanno il significato che ora spieghiamo.
Sia µA la misura di Lebesgue-Stieltjes5 associata ad A e definita traiettoria per traiettoria: indichiamo
con Zt Z
ur dAr := ur µA (dr)
0 [0,t]
il relativo integrale di Lebesgue-Stieltjes. Affinché tale integrale sia ben definito, imponiamo che u ∈ L2S,loc
secondo la seguente
Definizione 15.3.1. L2S,loc è la classe dei processi u progressivamente misurabili e tali che
Z Z t
|ur ||µA |(dr) + ur2 d⟨B⟩r < ∞ q.c.
[0,t] 0
per ogni t ≥ 0.
Per quanto riguarda l’integrale rispetto a B ∈ M c,loc , si può utilizzare un procedimento di localizzazione
del tutto analogo6 a quello della Sezione 15.2.4. In definitiva, ricordando la Definizione 14.4.6 di variazione
quadratica di una semi-martingala, si ha la seguente
Proposizione 15.3.2. Siano S = A + B una semi-martingala continua e u ∈ L2S,loc . Il processo integrale
stocastico Zt Zt Zt
Xt := ur dSr = ur dAr + ur dBr , t ≥ 0,
0 0 0
5 Secondo la Definizione 14.2.1, µ è una misura con segno.
A
6 Sia (τ )
n n∈N una successione localizzante per B: come nell’Osservazione 13.4.5-iv) possiamo supporre |Bt∧τn | ≤ n cosicché Bn :=
(Bt∧τn )t≥0 ∈ M c,2 . Se u ∈ L2S,loc allora
Zt Zt
ur2 d⟨Bn ⟩r ≤ ur2 d⟨B⟩r < ∞ q.c.
0 0
e quindi u ∈ L2B ,loc e l’integrale
n Zt
Yn,t := ur dBn,r
0
è ben definito. Sull’evento Fn,T := (T ≤ τn ) si ha q.c.

sup Yn,t − Ym,t = 0, m ≥ n.
0≤t≤T
Ciò è vero se u è semplice e, come la Proposizione 15.2.17, si dimostra in generale per approssimazione. Poiché Fn,T ↗ FT con
P (FT ) = 1, definiamo l’integrale
Zt
Yt = ur dBr , 0≤t ≤T,
0
come la classe di equivalenza dei processi continui e adattati che, per ogni n ∈ N, sono indistinguibili da (Yn,t )t∈[0,T ] su Fn,T . Se
Y e Ȳ indicano rispettivamente i processi integrali stocastici di u relativi agli intervalli [0, T ] e [0, T̄ ] con T ≤ T̄ , allora Y e Ȳ |[0,T ]
sono indistinguibili su [0, T ]. Quindi è ben definito il processo integrale stocastico secondo Itô di u ∈ L2S,loc rispetto a B ∈ M c,loc , che
indichiamo Z t
Yt = ur dBr , t ≥ 0.
0
Si ha che Y ∈ M c,loc con processo variazione quadratica
Zt
⟨Y ⟩t = ur2 d⟨B⟩r , t ≥ 0,
0
e una successione localizzante per Y è data da τ̄n = τn ∧ τn′ dove τn′ = inf{t ≥ 0 | ⟨I⟩t ≥ n}.
15.3. INTEGRALE RISPETTO A SEMI-MARTINGALE CONTINUE 353
è una semi-martingala continua con processo variazione quadratica

Zt
⟨X⟩t = ur2 d⟨B⟩r , t ≥ 0. (15.3.1)
0
Nella prossima sezione trattiamo il caso particolare in cui At = t e B sia un moto Browniano.
15.3.1 Processi di Itô uno-dimensionali

Un processo di Itô è una particolare semi-martingala continua che è somma di un integrale di Lebesgue
e di uno stocastico. In questa sezione W indica un moto Browniano reale.
Definizione 15.3.3 (Processo di Itô). [!] Un processo di Itô è un processo della forma
Zt Zt
Xt = X0 + us ds + vs dWs , (15.3.2)
0 0
dove:
i) X0 ∈ mF0 ;
ii) u ∈ L1loc , ossia u è progressivamente misurabile e tale che
Z t
|us |ds < ∞, q.c.
0
per ogni t ≥ 0;
iii) v ∈ L2loc , ossia v è progressivamente misurabile e tale che7
Z t
|vs |2 ds < ∞ q.c.
0
per ogni t ≥ 0.
Notazione 15.3.4 (Notazione differenziale). [!] Per indicare il processo di Itô in (15.3.2) si usa spesso la
cosiddetta “notazione differenziale”:
dXt = ut dt + vt dWt . (15.3.3)
Questa notazione, oltre ad essere più compatta, ha il pregio di evocare le espressioni del calcolo differenzia-
le classico. Ovviamente, in termini rigorosi, dXt non è una “derivata” o un “differenziale del processo X”,
oggetti che non sono stati definiti, ma è un simbolo che ha senso solo all’interno dell’espressione (15.3.3):
tale espressione, a sua volta, è una scrittura il cui significato preciso è dato dall’equazione integrale (15.3.2).
Quando si parla di calcolo differenziale stocastico ci si riferisce a questo tipo di calcolo simbolico il cui ve-
ro significato è dato dalle relative espressioni integrali: dunque si tratta in realtà di un calcolo integrale
stocastico.
Il processo in (15.3.2) è una semi-martingala continua e quindi può fungere a sua volta da integratore,
infatti si ha X = A + M dove:
- il processo
Z t
At := us ds
0
è continuo, adattato e a variazione limitata per l’Esempio 14.1.2-iv), ed è chiamato drift di X;
7 Si ricordi che ⟨W ⟩ = s.
s
- il processo integrale stocastico

Z t
Mt := X0 + vs dWs
0
è una martingala locale continua ed è chiamato parte diffusiva o diffusione di X.
Per la (15.3.1), il processo variazione quadratica di X è

Z t
⟨X⟩t = vs2 ds,
0
ossia d⟨X⟩t = vt2 dt in notazione differenziale.

Osservazione 15.3.5. [!] La rappresentazione di un processo di Itô è unica nel senso seguente: se X è il
processo in (15.3.3) e vale
dXt = ut′ dt + vt′ dWt ,
con u ′ ∈ L1loc e v ′ ∈ L2loc , allora
P (v = v ′ q.o.) = P (u = u ′ q.o.) = 1.
In particolare, se u, u ′ , v, v ′ sono continui allora u è indistinguibile da u ′ e v è indistinguibile da v ′ .
Infatti, il processo
Zt Zt Zt Zt
Mt := vs dWs − vs′ dWs = us′ ds − us ds
0 0 0 0
è una martingala locale continua, a variazione limitata che, per il Teorema 14.3.6, è indistinguibile dal
processo identicamente nullo. Consideriamo
Z t
τn := n ∧ inf{t ≥ 0 | At ≥ n}, At := (vs − vs′ )2 ds, n ∈ N,
0
l’usuale successione localizzante per M. Allora si ha

 Zτ !2   Zn !2 
n
 ′   ′ 
0 = E  (vs − vs )dWs  = E  (vs − vs )1[0,τn ] (s)dWs 
0 0
"Z n #
′ 2
=E (vs − vs ) 1[0,τn ] (s)ds
0
dove la seconda e terza uguaglianza sono dovute rispettivamente alla Proposizione 15.2.22 e all’isometria
di Itô. Passando al limite per n → ∞, per il Teorema di Beppo-Levi, si ha
"Z ∞ #
′ 2
E (vs − vs ) ds = 0
0
da cui P (v = v ′ q.o.) = 1. D’altra parte, per la Proposizione A.2.3.2 si ha che anche P (u = u ′ q.o.) = 1.
Capitolo 16
Formula di Itô
To put meaning in one’s life may end

in madness,
But life without meaning is the
torture
Of restlessness and vague desire-
It is a boat longing for the sea and
yet afraid.
Edgar Lee Master, Spoon River

Anthology
La formula di Itô è il risultato centrale del calcolo differenziale stocastico. In questo capitolo ne presen-
tiamo diverse versioni che generalizzano la formula di Itô per l’integrale di Riemann-Stieltjes del Teorema
14.1.6 e forniscono le regole generali del calcolo stocastico.
16.1 Formula di Itô per semi-martingale continue

Sebbene il caso delle semi-martingale sia molto generale, diamo subito questa versione della formula
di Itô perché ha il pregio di avere un’espressione compatta e una dimostrazione intuitiva. Ricordiamo che
una semi-martingala continua è un processo adattato e continuo della forma X = A + M con A ∈ BV tale che
A0 = 0 e M ∈ M c,loc , ossia M è una martingala locale continua secondo la Definizione 13.4.2. Indichiamo
con ⟨X⟩ il processo variazione quadratica di X: per il Teorema 14.4.1, vale ⟨X⟩ ≡ ⟨M⟩ dove ⟨M⟩ è l’unico
processo continuo e crescente tale che ⟨M⟩0 = 0 e M 2 − ⟨M⟩ è una martingala locale.
Per esempio, se X è un moto Browniano allora A ≡ 0 e il processo variazione quadratica è deterministico:
⟨X⟩t = t per t ≥ 0. Più in generale, se X è un processo di Itô della forma dXt = ut dt + vt dWt (cfr. Definizione
15.3.3) allora d⟨X⟩t = vt2 dt.
Teorema 16.1.1 (Formula di Itô). [!!!] Sia X una semi-martingala continua e sia F ∈ C 2 (R). Allora quasi
certamente, per ogni t ≥ 0 si ha
Z t Z t
′ 1
F(Xt ) = F(X0 ) + F (Xs )dXs + F ′′ (Xs )d⟨X⟩s (16.1.1)
0 2 0
o, con la notazione differenziale,
1
dF(Xt ) = F ′ (Xt )dXt + F ′′ (Xt )d⟨X⟩t . (16.1.2)
2
355
356 CAPITOLO 16. FORMULA DI ITÔ
Idea della dimostrazione. Data una partizione π = {t0 , . . . , tN } di [0, t], si scrive la differenza F(Xt )−F(X0 ) come
somma telescopica e poi si sviluppa in serie di Taylor al second’ordine: si ottiene
N
X
F(Xt ) − F(X0 ) = F(Xtk ) − F(Xtk )
k=1
N
X 1X N 2
= F ′ (Xtk−1 ) Xtk − Xtk−1 + F ′′ (Xtk−1 ) Xtk − Xtk−1 + “resto”.
2
k=1 k=1
Infine si prova che, in senso opportuno, esistono i limiti
N
X Z t
′
F (Xtk−1 ) Xtk − Xtk−1 −→ F ′ (Xs )dXs ,
k=1 0
N
X 2 Zt
′′
F (Xtn,k−1 ) Xtk − Xtk−1 −→ F ′′ (Xs )d⟨X⟩s
k=1 0
per |π| che tende a zero e il termine di resto è trascurabile. La dimostrazione completa, tecnicamente più
complessa, è data nella Sezione 16.4.
Osservazione 16.1.2. Rispetto alla versione deterministica (14.1.3), nella formula di Itô (16.1.2) appare un
termine aggiuntivo dovuto alla variazione quadratica di X: esso è moltiplicato per il fattore 21 che deriva
dall’espansione in serie di Taylor di F.
In maniera simile si prova la seguente versione più generale della formula di Itô.
Teorema 16.1.3 (Formula di Itô). Sia X una semi-martingala continua e sia F = F(t, x) ∈ C 1,2 (R≥0 × R).
Allora quasi certamente, per ogni t ≥ 0 si ha
Z t Z t Z t
1
F(t, Xt ) = F(0, X0 ) + (∂t F)(s, Xs )ds + (∂x F)(s, Xs )dXs + (∂xx F)(s, Xs )d⟨X⟩s
0 0 2 0

1
dF(t, Xt ) = ∂t F(t, Xt )dt + (∂x F)(t, Xt )dXt + (∂xx F)(t, Xt )d⟨X⟩t .
2
16.1.1 Formula di Itô per il moto Browniano

Scriviamo la formula di Itô per un moto Browniano reale W ed esaminiamo qualche esempio. Ricordia-
mo che il processo variazione quadratica di W è semplicemente ⟨W ⟩t = t.
Corollario 16.1.4 (Formula di Itô per il moto Browniano). [!] Per ogni F = F(t, x) ∈ C 1,2 (R≥0 × R) si ha
Z t Z t Z t
1
F(t, Wt ) = F(0, W0 ) + (∂t F)(s, Ws )ds + (∂x F)(s, Ws )dWs + (∂xx F)(s, Ws )ds
0 0 2 0

1

dF(t, Wt ) = ∂t F + ∂xx F (t, Wt )dt + (∂x F)(t, Wt )dWt .
2
Esempio 16.1.5.
16.1. FORMULA DI ITÔ PER SEMI-MARTINGALE CONTINUE 357
i) se F(t, x) = f (t)x, con f ∈ C 1 (R), si ha
∂t F(t, x) = f ′ (t)x, ∂x F(t, x) = f (t), ∂xx F(t, x) = 0.
Allora si ha Z t Z t
f (t)Wt = f ′ (s)Ws ds + f (s)dWs
0 0
che corrisponde alla formula di integrazione per parti deterministica dell’Esempio 14.1.8-ii). In
forma differenziale, abbiamo equivalentemente
d(f (t)Wt ) = f ′ (t)Wt dt + f (t)dWt
che ricorda l’usuale formula per la derivazione di un prodotto;

ii) se F(t, x) = x2 si ha
∂t F(t, x) = 0, ∂x F(t, x) = 2x, ∂xx F(t, x) = 2,
e quindi
Z t
Wt2 = 2 Ws dWs + t
0
o, in forma differenziale,
dWt2 = 2Wt dWt + dt;
iii) se F(t, x) = eat+σ x , con a, σ ∈ R, si ha
∂t F(t, x) = aF(t, x), ∂x F(t, x) = σ F(t, x), ∂xx F(t, x) = σ 2 F(t, x),
e quindi, posto Xt = eat+σ Wt , otteniamo

Zt Zt
σ2 t
Z
Xt = 1 + a Xs ds + σ Xs dWs + X ds
0 0 2 0 s
ossia 2
dXt = a + σ2 Xt dt + σ Xt dWt .
2
Con la scelta a = − σ2 il drift del processo si annulla e otteniamo
Z t
Xt = 1 + σ Xs dWs
0
σ2 t
che è una martingala continua. In effetti Xt = eσ Wt − 2 è la martingala esponenziale introdotta nell’Os-
servazione 10.3.2.
Esempio 16.1.6. [!] Posto Z t
Xt := Ws ds (16.1.3)
0
si ha Xt ∼ N0, t3 . Infatti, per la formula di Itô vale
3
d(tWt ) = tdWt + Wt dt
da cui Z t Z t
Xt = tWt − sdWs = (t − s)dWs .
0 0
Notiamo che l’espressione di X in (16.1.3) è quella di un processo di Itô, mentre

Zt
(t − s)dWs
0
non è scritto nella forma di processo di Itô: per aggirare questo problema, definiamo il processo di Itô
Zt
(a)
Yt := (a − s)dWs
0
dipendente dal parametro a ∈ R. Sappiamo che

(a)
Yt ∼ N0, t3 +at(a−t)
3
(t)
e la tesi segue dal fatto che Xt = Yt .
Osservazione 16.1.7. [!] La formula di Itô mostra che ogni processo stocastico X = (Xt )t≥0 della forma Xt =
F(t, Wt ), con F sufficientemente regolare, è un processo di Itô secondo la Definizione 15.3.3: in particolare,
X è una semi-martingala e la formula di Itô fornisce l’espressione esplicita della decomposizione (unica a
meno di processi indistinguibili) di X nella somma X = A + M dove il processo a variazione limitata
Z t
1

At := ∂t F + ∂xx F (s, Ws )ds
0 2
è il drift di X e la martingala locale1

Z t
Mt := X0 + (∂x F)(s, Ws )dWs
0
è la parte diffusiva di X.
Si noti che se F risolve l’equazione del calore
1
∂t F(t, x) + ∂xx F(t, x) = 0, t > 0, x ∈ R, (16.1.4)
2
allora il drift di X si annulla e pertanto X è una martingala locale. Viceversa, se X è una martingala locale
allora per l’Osservazione 15.3.5 si ha che
1
(∂t F + ∂xx F)(t, Wt ) = 0 (16.1.5)
2
nel senso dell’indistinguibilità e da questo segue2 che F risolve l’equazione del calore (16.1.4).
16.1.2 Formula di Itô per processi di Itô

Sia X un processo di Itô della forma
dXt = µt dt + σt dWt (16.1.6)

1 Essendo M = X − A, ciò è in accordo col Teorema 10.3.4.
2 L’uguaglianza (16.1.5) di processi stocastici equivale all’equazione (16.1.4): basta osservare che se f è una funzione continua tale
che f (Wt ) = 0 q.c. per un t > 0 allora f ≡ 0: infatti se fosse f (x̄) > 0 per un x̄ ∈ R allora si avrebbe anche f (x) > 0 per |x − x̄| < r per un
certo r > 0 sufficientemente piccolo; ciò porta ad un assurdo poiché, essendo la densità Gaussiana strettamente positiva, si avrebbe
h i
0 < E f (Wt )1(|Wt −x̄|<r) = 0.
16.1. FORMULA DI ITÔ PER SEMI-MARTINGALE CONTINUE 359
con µ ∈ L1loc e σ ∈ L2loc . Nella Sezione 15.3.1 abbiamo visto che X è una semi-martingala continua con
variazione quadratica
Zt
⟨X⟩t = σs2 ds
0
ossia d⟨X⟩t = σt2 dt. Dunque si ha la seguente ulteriore versione della formula di Itô.
Corollario 16.1.8 (Formula di Itô per processi di Itô). [!] Sia X il processo di Itô in (16.1.6). Per ogni
F = F(t, x) ∈ C 1,2 (R≥0 × R) si ha
Zt Zt
1 t
Z
F(t, Xt ) = F(0, X0 ) + (∂t F)(s, Xs )ds + (∂x F)(s, Xs )dXs + (∂ F)(s, Xs )σs2 ds (16.1.7)
0 0 2 0 xx
o equivalentemente
σt2
!
dF(t, Xt ) = ∂t F + µt ∂x F + ∂xx F (t, Xt )dt + σt ∂x F(t, Xt )dWt .
2
Esempio 16.1.9. [!] Calcoliamo il differenziale stocastico del processo

Rt
Yt = et 0
Ws dWs
.
Anzitutto notiamo che non possiamo utilizzare la formula di Itô per il moto Browniano del Corollario
16.1.4 perché Yt non è funzione di Wt ma dipende da (Ws )s∈[0,t] , ossia da tutta la traiettoria di W nell’inter-
vallo [0, t]. Il criterio generale con cui procedere per applicare correttamente la formula di Itô è quello di
analizzare anzitutto come Yt dipenda dalla variabile t, distinguendo la dipendenza di tipo “deterministico”
da quella di tipo “stocastico”: in questo esempio, evidenziamo in grassetto la dipendenza deterministica
Zt !
t 7→ exp t Ws dWs
0
e la dipendenza stocastica
Z t !
t 7→ exp t Ws dWs
0
per stabilire che
Z t
Yt = F(t, Xt ), F(t, x) = etx , Xt = Ws dWs ,
0
e quindi dXt = Wt dWt e d⟨X⟩t = Wt2 dt. Allora possiamo applicare la formula di Itô (16.1.7): abbiamo
∂t F(t, x) = xF(t, x), ∂x F(t, x) = tF(t, x), ∂xx F(t, x) = t 2 F(t, x),
e quindi
(tWt )2
!
dYt = Xt + Yt dt + tWt Yt dWt .
2
Esempio 16.1.10. [!] Consideriamo un processo di Itô a coefficienti deterministici
Zt Zt
Xt = x + µ(s)ds + σ (s)dWs
0 0
con x ∈ R, µ ∈ L1loc (R≥0 ) e σ ∈ L2loc (R≥0 ). Come applicazione della formula di Itô (16.1.7) proviamo che
Zt Zt
Xt ∼ Nm(t),C (t) , m(t) := x + µ(s)ds, C (t) := σ 2 (s)ds,
0 0
per ogni t ≥ 0. Infatti possiamo facilmente calcolare la funzione caratteristica di X: anzitutto per ogni
η ∈ R si ha
η2
!
iηXt iηXt
de =e iηdXt − d⟨X⟩t
2
η 2 σ 2 (t)
= eiηXt (a(t, η)dt + iησ (t)dWt ) , a(t, η) := iηµ(t) − .
2
Applicando il valore atteso ed essendo nulla l’attesa dell’integrale stocastico, si ha
"Z t #
ϕXt (η) = eiηx + E a(s, η)eiηXs ds
0
Z t
= eiηx + a(s, η)ϕXs (η)ds;
0
equivalentemente, t 7→ ϕXt (η) risolve il problema di Cauchy


d
 dt ϕXt (η) = a(t, η)ϕXt (η),


ϕX0 (η) = eiηx ,


da cui segue che

η 2
ϕXt (η) = eiηm(t)− 2 C (t)
e quindi la tesi.
16.2 Alcune conseguenze della formula di Itô

16.2.1 Disuguaglianze di Burkholder-Davis-Gundy
Proviamo alcune classiche disuguaglianze che sono uno strumento basilare nello studio delle martingale
e delle equazioni differenziali stocastiche.
Teorema 16.2.1 (Burkholder-Davis-Gundy). [!] Per ogni p > 0 esistono due costanti positive cp , Cp tali che
vale  

p/2  p  p/2
cp E ⟨X⟩τ ≤ E  sup |Xt |  ≤ Cp E ⟨X⟩τ , (16.2.1)
t∈[0,τ]
per ogni martingala locale continua X tale che X0 = 0 q.c. e per ogni tempo d’arresto τ finito (ossia tale che
τ < ∞ q.c.). In (16.2.1), ⟨X⟩ indica il processo variazione quadratica di X.
Dimostrazione. Dimostriamo solo il caso p ≥ 2 in cui è possibile dare una prova elementare basata sulla
formula di Itô. Per il caso generale si veda, per esempio, la Proposizione 3.26 in [38]. Il caso p = 2 segue
dall’isometria di Itô (14.4.1) e quindi è sufficiente considerare p > 2.
p/2
Cominciamo col dimostrare la seconda disuguaglianza. Non è restrittivo assumere E ⟨X⟩τ > 0 altri-
menti non c’è nulla da provare. Poniamo
X̄τ = sup |Xt |
t∈[0,τ]
e assumiamo per il momento che X̄τ ≤ n q.c. per un certo n ∈ N. Allora per la disuguaglianza massimale
di Doob, Corollario 13.1.3, si ha
h pi
E X̄τ ≤ cp E [|Xτ |p ] =
16.2. ALCUNE CONSEGUENZE DELLA FORMULA DI ITÔ 361
(per la formula di Itô, osservando che la funzione x 7→ |x|p è di classe C 2 poiché p ≥ 2)

"Z τ "Z τ
cp
# #
p−1 p−2
= cp E p|Xt | dXt + E p(p − 1)|Xt | d⟨X⟩t =
0 2 0
(essendo il primo termine nullo perché l’integrale stocastico è una martingala, data l’ipotesi di limitatezza
di X̄τ )
"Z τ #
′ p−2
= cp E |Xt | d⟨X⟩t
0
"Z τ #
′ p−2
≤ cp E X̄τ d⟨X⟩t
0
h p−2 i
= cp′ E X̄T ⟨X⟩T ≤
p p
(per la disuguaglianza di Hölder con esponenti p−2 e 2)
h p i p−2 2
p/2 p
≤ cp′ E X̄τ p E ⟨X⟩τ
e da questa disuguaglianza segue facilmente la tesi. Per rimuovere l’ipotesi di limitatezza, è sufficiente
applicare il risultato appena provato al tempo d’arresto τn = inf{t ≥ 0 | |Xt | ≥ n} ∧ τ e poi passare al limite
per n → ∞ utilizzando il teorema di Beppo-Levi.
Proviamo ora la prima disuguaglianza: con l’usuale argomento di localizzazione basato sul teorema di
Beppo-Levi,
h p inon è restrittivo assumere che τ, X̄τ e ⟨X⟩τ siano limitatipda una costante positiva. Assumiamo
anche E X̄τ > 0 altrimenti non c’è nulla da provare. Poniamo r = 2 > 1 e A = ⟨X⟩. Per la formula di Itô
deterministica, Teorema 14.1.6 e formula (14.1.4), si ha
dArt = rAr−1
t dAt ,

r
dAt = d At Ar−1
t = At dAr−1
t + Ar−1
t dAt ,
e inserendo la prima nella seconda uguaglianza si ha
1
dArt = At dAtr−1 + dArt
r
ossia Z τ
(r − 1)Arτ =r At dAr−1
t .
0
Essendo anche Z τ Z τ
Arτ = Aτ dAr−1
t = Aτ dAr−1
t ,
0 0
otteniamo infine Z τ
Arτ =r (Aτ − At ) dAr−1
t .
0
Allora si ha
"Z τ #
E [Arτ ] = rE (Aτ − At ) dAr−1
t =
0
(per la Proposizione 14.2.3 e poiché At = E [At | Ft ])

"Z τ #
= rE E [Aτ − At | Ft ] dAr−1
t =
0
(per le (14.4.1) e (6.5.3) (si veda anche l’Osservazione 14.4.2), ricordando la notazione A = ⟨X⟩)
"Z
h τ i
#
= rE E Xτ2 − Xt2 | Ft d⟨X⟩r−1
t
0
"Z τ #
h i
≤ rE E X̄τ2 | Ft d⟨X⟩tr−1 =
0
(ancora per la Proposizione 14.2.3)

"Z τ #
h i
= rE X̄τ2 d⟨X⟩r−1
t = rE X̄τ2 ⟨X⟩τr−1 .
0
r
Per concludere basta applicare la disuguaglianza di Hölder con esponenti r, r−1 e infine dividere per
r−1
E [⟨X⟩rτ ] r .
Si ha il seguente immediato
Corollario 16.2.2. [!] Siano σ ∈ L2 e W un moto Browniano reale. Per ogni p ≥ 2 e T > 0 si ha
Z p #
t
" "Z T #
p−2
p
E sup σs dWs ≤ cp T E
2 |σs | ds (16.2.2)
0≤t≤T 0 0
dove cp è una costante positiva che dipende solo da p.
Dimostrazione. Basta3 considerare p > 2. Applicando la disuguaglianza di Burkholder-Davis-Gundy alla

martingala continua
Zt
Xt = σs dWs , X̄T = sup |Xt | ,
0 0≤t≤T
otteniamo

 Z
T !p/2 
h pi p/2  
E X̄T ≤ cp E ⟨X⟩T ≤ cp E  σt2 dt 

0
p p
e la tesi segue applicando la disuguaglianza di Hölder con esponenti 2 e p−2 .
Osservazione 16.2.3. Assumiamo

Z t "Z T #
p
Xt := σs dWs con E |σs | ds < ∞.
0 0
Combinando la stima (16.2.2) col Teorema di continuità di Kolmogorov si ha che il processo integrale X
ammette una versione con traiettorie α-Hölderiane per ogni α ∈ [0, 12 − p2 [.
3 Il caso p = 2 corrisponde all’isometria di Itô.
16.2. ALCUNE CONSEGUENZE DELLA FORMULA DI ITÔ 363
16.2.2 Processo variazione quadratica

Dimostriamo la formula (14.4.2) che avevamo lasciato in sospeso.
Proposizione 16.2.4. Sia X una martingala locale continua con processo variazione quadratica ⟨X⟩. Si ha
2n
X 2
⟨X⟩t = lim X tkn − X t(k−1) , t ≥ 0,
n→∞ 2 2n
k=1
in probabilità. Inoltre, se S = A + X è una semi-martingala continua, con A ∈ BV e X ∈ M c,loc , si ha
2n
X 2
⟨X⟩t = lim S tkn − S t(k−1) , t ≥ 0, (16.2.3)
n→∞ 2 2n
k=1
in probabilità.
Dimostrazione. Indichiamo al solito con tn,k = 2tkn , k = 0, . . . , 2n , i razionali diadici dell’intervallo [0, t]. Sup-
poniamo dapprima che X sia una martingala locale continua limitata, |X| ≤ K con K costante positiva.
Fissati n ∈ N e k ∈ {1, . . . , 2n }, consideriamo il processo
Ys := Xs − Xtn,k−1 , s ≥ tn,k−1 ,
e osserviamo che ⟨Y ⟩s = ⟨X⟩s − ⟨X⟩tn,k−1 : infatti, basta osservare che

Ys2 − ⟨X⟩s − ⟨X⟩tn,k−1 = Xs2 − ⟨X⟩s + Ms , Ms := −2Xs Xtn,k−1 + Xt2n,k−1 + ⟨X⟩tn,k−1 ,
e si verifica facilmente che (Ms )s≥tn,k−1 è una martingala. Applicando la formula di Itô si ha
dYs2 = 2Ys dYs + d⟨Y ⟩s
e in forma integrale su [tn,k , tn,k−1 ]
2 Z tn,k
Xtn,k − Xtn,k−1 = 2 Xs − Xtn,k−1 dYs + ⟨X⟩tn,k − ⟨X⟩tn,k−1
tn,k−1
ossia
2 Z tn,k
Xtn,k − Xtn,k−1 − ⟨X⟩tn,k − ⟨X⟩tn,k−1 = 2 Xs − Xtn,k−1 dYs .
tn,k−1
Sommando in k otteniamo
2n
X 2 2n Z
X tn,k
Rn := Xtn,k − Xtn,k−1 − ⟨X⟩t = 2 Xs − Xtn,k−1 dYs .
k=1 k=1 tn,k−1
Grazie all’isometria di Itô nella forma (15.2.12) e (15.2.13) (si ricordi anche il Teorema 15.2.15), si ha
h i 2n
X
Z tn,k 2

2  
E Rn = 4 E  Xs − Xtn,k−1 d⟨Y ⟩s 
k=1 tn,k−1
Z 2n 
 t X 2 
= 4E  Xs − Xtn,k−1 1[tn,k−1 ,tn,k ] (s)d⟨Y ⟩s 
0k=1
h i
e passando al limite, per il teorema della convergenza dominata, si ha lim E R2n = 0. Dunque, in questo
n→∞
caso particolare si prova la convergenza in norma L2 che ovviamente implica la convergenza in probabilità.
Per rimuovere l’ipotesi di limitatezza di X, è sufficiente usare un argomento di localizzazione provando
la tesi per la martingala limitata Xt∧τn , con
τn = t ∧ inf{s ≥ 0 | |Xs | ≥ n}, n ∈ N,
per poi far tendere n ad infinito: con questa procedura si riesce a dimostrare la convergenza in probabilità.
La dimostrazione della (16.2.3) è simile ed è omessa.
16.3 Il caso multi-dimensionale

In questa sezione vediamo brevemente come definire l’integrale stocastico di processi multi-dimensio-
nali, esaminando in particolare il moto Browniano e i processi di Itô. Per semplicità, trattiamo solo il
caso in cui l’integratore è in M c,2 anche se tutti i risultati seguenti si estendono ad integratori che siano
semi-martingale continue. Nel seguito d e N indicano due numeri naturali.
Definizione 16.3.1. Sia B = (B1 , . . . , Bd ) ∈ M c,2 un processo d-dimensionale. Consideriamo un processo

u = (u ij ) a valori nello spazio delle matrici di dimensione N × d. Scriviamo u ∈ L2B (o semplicemente u ∈ L2 )
se u ij ∈ L2Bj per ogni i = 1, . . . , N e j = 1, . . . , d. La classe L2loc ≡ L2B,loc è definita in modo analogo. L’integrale
stocastico di u rispetto a B è il processo N -dimensionale, definito componente per componente da
 
Zt X d Z t
ij j

us dBs :=  us dBs 
 
0  0 
j=1 i=1,...,N
al variare di t ≥ 0.

Z t Z t
Xt = us dB1s , Yt = vs dB2s ,
0 0
con B1 , B2 processi uno-dimensionali in M c,2 e u, v processi uno-dimensionali rispettivamente in L2B1 ,loc e

L2B2 ,loc . Allora:
i) si ha
Z t
⟨X, Y ⟩t = us vs d⟨B1 , B2 ⟩s ; (16.3.1)
0
ii) se u ∈ L2B1 e v ∈ L2B2 allora vale la seguente versione dell’isometria di Itô

"Z T Z T # "Z T #
E us dB1s vs dB2s | Ft = E 1 2
us vs d⟨B , B ⟩s | Ft , 0≤t ≤T. (16.3.2)
t t t
Dimostrazione. Nel caso in cui u e v siano processi indicatori, la (16.3.2) si prova ripetendo la dimostrazione
del Teorema 15.2.7-ii) con l’unica differenza che, al posto della (15.2.6), occorre utilizzare la (14.4.5) nella
forma h i h i
E (B1T − B1t )(B2T − B2t ) | Ft = E ⟨B1 , B2 ⟩T − ⟨B1 , B2 ⟩t | Ft , 0≤t ≤T.
La dimostrazione della (16.3.1) è completamente analoga al caso in cui B1 = B2 .

16.3. IL CASO MULTI-DIMENSIONALE 365
Corollario 16.3.3. Se W = (W 1 , . . . , W d ) è un moto Browniano d-dimensionale (cfr. Definizione 14.5.1) su

(Ω, F , P , (Ft )t≥0 ) allora per ogni u, v ∈ L2W si ha
"Z T Z T # "Z T #
j
E us dWsi vs dWs | Ft = δij E us vs ds | Ft , 0 ≤ t ≤ T , i, j = 1, . . . , d. (16.3.3)
t t t
Dimostrazione. La (16.3.3) segue direttamente dalla (16.3.2) e dal punto iii) della Proposizione 14.5.2.
Osservazione 16.3.4. Le componenti della matrice di co-variazione (cfr. Definizione 14.4.6) del processo
integrale
Zt
Xt = us dBs
0
sono
d Z t d Z t
ij jk
X X
⟨X⟩t = ⟨ usih dBhs , us dBks ⟩ =
h=1 0 k=1 0
(per la (16.3.1))
d Z t
jk
X
= usih us d⟨Bh , Bk ⟩s (16.3.4)
h,k=1 0
per i, j = 1, . . . , N .
16.3.1 Processi di Itô multi-dimensionali

Definizione 16.3.5 (Processo di Itô). [!] Sia W un moto Browniano d-dimensionale. Un processo di Itô
N -dimensionale è un processo della forma
Z t Z t
Xt = X0 + us ds + vs dWs (16.3.5)
0 0
dove:
i) X0 ∈ mF0 è una v.a. N -dimensionale;
ii) u è un processo N -dimensionale in L1loc , ossia u è progressivamente misurabile e tale che, per ogni
t ≥ 0, Zt
|us |ds < ∞, q.c.
0
iii) v è un processo in L2loc a valori nello spazio delle matrici N × d, ossia v è progressivamente misurabile
e tale che, per ogni t ≥ 0,
Zt
|vs |2 ds < ∞ q.c.
0
dove |v| indica la norma di Hilbert-Schmidt della matrice v, ossia la norma Euclidea in RN ×d , definita
da
N X
X d
|v|2 = (v ij )2 .
i=1 j=1
Con la notazione differenziale scriviamo
dXt = ut dt + vt dWt .
Combinando la (16.3.4) col fatto che ⟨W ⟩t = tI otteniamo la seguente

Proposizione 16.3.6. Sia X il processo di Itô in (16.3.5). La matrice di co-variazione di X è
Zt
⟨X⟩t = vs vs∗ ds, t ≥ 0,
0
o, in notazione differenziale,
d
ij
X
d⟨X i , X j ⟩t = Ct dt, C ij = (vv ∗ )ij = v ik v jk . (16.3.6)
k=1
Proposizione 16.3.7 (Isometria di Itô). Per ogni v ∈ L2 ,

matrice di dimensione N ×d, e W moto Browniano
d-dimensionale vale Z t 2  "Z t #
  2
E  vs dWs  = E
|v| ds .
0 0
Z t 2  N  d Z 2 
 t  
ij j
  X   X
E  vs dWs  = E  vs dWs  
 
0  0  
i=1 j=1
(per la (16.3.3))
N X
d  Zt !2 
ij j
X  
= E  vs dWs 
i=1 j=1 0
(per l’isometria di Itô scalare)

N X
d "Z t #
ij
X
= E (vs )2 ds .
i=1 j=1 0
Esempio 16.3.8. Nel caso più semplice in cui u, v sono costanti si ha
Xt = X0 + ut + vWt ,
ossia X è un moto Browniano correlato con drift.
16.3.2 Formula di Itô multi-dimensionale

La seguente versione multi-dimensionale della formula di Itô si prova in modo simile al caso scalare.
Teorema 16.3.9 (Formula di Itô per semi-martingale continue). Siano X = (X 1 , . . . , X d ) una semi-martingala
continua d-dimensionale e F = F(t, x) ∈ C 1,2 (R≥0 × Rd ). Allora quasi certamente, per ogni t ≥ 0 si ha
t d Z t d Z
1X t
Z
j
X
F(t, Xt ) = F(0, X0 ) + (∂t F)(s, Xs )ds + (∂xj F)(s, Xs )dXs + (∂xi xj F)(s, Xs )d⟨X i , X j ⟩s
0 0 2 0
j=1 i,j=1

d d
X j 1X
dF(t, Xt ) = ∂t F(t, Xt )dt + (∂xj F)(t, Xt )dXt + (∂xi xj F)(t, Xt )d⟨X i , X j ⟩t .
2
j=1 i,j=1
Di seguito esaminiamo due casi particolarmente importanti in cui usiamo le espressioni (14.5.1) e
(16.3.6) delle co-variazioni ⟨X i , X j ⟩:
i) se W è un moto Browniano d-dimensionale (cfr. Definizione 14.5.1) si ha
d⟨W i , W j ⟩t = δij dt (16.3.7)
dove δij è la delta di Kronecker;

ii) se X è un processo di Itô della forma
dXt = µt dt + σt dWt (16.3.8)
con µ processo N -dimensionale in L1loc e σ matrice N × d in L2loc , allora

ij
d⟨X i , X j ⟩t = Ct dt, C ij = (σ σ ∗ )ij , (16.3.9)
ossia, ricordando la notazione ⟨X⟩ per la matrice di co-variazione di X (cfr. Definizione 14.4.6),
d⟨X⟩t = Ct dt.
Corollario 16.3.10 (Formula di Itô per il moto Browniano). Sia W un moto Browniano d-dimensionale.
Per ogni F = F(t, x) ∈ C 1,2 (R≥0 × Rd ) si ha
Z t d Z t Z t
X j 1
F(t, Wt ) = F(0, 0) + (∂t F)(s, Ws )ds + (∂xj F)(s, Ws )dWs + (∆F)(s, Ws )ds
0 0 2 0
j=1
dove ∆ è l’operatore di Laplace in Rd :

d
X
∆= ∂xj xj .
j=1
Con la notazione differenziale si ha

1

dF(t, Wt ) = ∂t F + ∆F (t, Wt )dt + (∇x F)(t, Wt )dWt ,
2

dove ∇x = ∂x1 , . . . , ∂xd indica il gradiente spaziale.
Esempio 16.3.11. Calcoliamo il differenziale stocastico di |Wt |2 dove W è un moto Browniano N -dimensionale.
In questo caso
F(x) = |x|2 = x12 + · · · + xd2 , ∂xi F(x) = 2xi , ∂xi xj F(x) = 2δij ,
dove δij è la delta di Kronecker. Dunque si ha
N
X
d|Wt |2 = N dt + 2Wt dWt = N dt + 2 Wti dWti .
i=1
Ne segue che il processo Xt = |Wt |2 − N t è una martingala.

Corollario 16.3.12 (Formula di Itô per processi di Itô). [!] Sia X un processo di Itô in RN della forma
(16.3.8). Per ogni F = F(t, x) ∈ C 1,2 (R≥0 × RN ) si ha
t N Z t N Z
1 X t ij
Z
j
X
F(t, Xt ) = F(0, X0 ) + (∂t F)(s, Xs )ds + (∂xj F)(s, Xs )dXs + Cs (∂xi xj F)(s, Xs )ds
0 0 2 0
j=1 i,j=1
dove C = σ σ ∗ . Con la notazione differenziale si ha

 
N N d
N X
 1 X ij X j
 X jk
dF(t, Xt ) = ∂t F + Cs ∂xi xj F + µt ∂xj F  (t, Xt )dt + σt ∂xj F(t, Xt )dWtk .
 
 2 
i,j=1 j=1 j=1 k=1
Esempio 16.3.13 (Martingala esponenziale). Sia

dMt = σt dWt
con σ di dimensione N × d e W moto Browniano d-dimensionale. Ricordiamo che la matrice di co-
variazione di M è d⟨M⟩t = σt σt∗ dt. Fissato η ∈ RN poniamo
1

Zt = exp ⟨η, Mt ⟩ − ⟨⟨M⟩t η, η⟩
2
1 t
Z !
∗
= exp ⟨η, Mt ⟩ − ⟨σ σ η, η⟩ds .
2 0 s s
Applichiamo la formula di Itô con F(x) = e⟨x,η⟩ e

1
dXt = dMt − σt σt∗ ηdt.
2
Si ha Zt = F(Xt ) e
∂xi F(x) = ηi F(x), ∂xi xj F(x) = ηi ηj F(x),
da cui
N X
d
1

ij j
X
dZt = Xt ηdXt + ⟨σt σt∗ η, η⟩dt = Xt ηdMt = Xt ηi σt dWt .
2
i=1 j=1
Ne viene in particolare che Z è una martingala locale positiva (e quindi una super-martingala per l’Osser-
vazione 13.4.5-vi)).
Osservazione 16.3.14 (Regole formali per il calcolo delle co-variazioni). [!] Sia X il processo di Itô in
(16.3.8) con componenti
d
X
dXti = µit dt + σtik dWtk , i = 1, . . . , N . (16.3.10)
k=1
Per determinare icoefficienti
delle derivate seconde nella formula di Itô occorre calcolare la matrice di co-
variazione ⟨X⟩ = ⟨X i , X j ⟩ che sappiamo essere data da d⟨X⟩t = σt σt∗ dt per la (16.3.9). Dal punto di vista
pratico il calcolo di σ σ ∗ può essere oneroso ed è quindi preferibile utilizzare le seguenti regole formali di
calcolo: si scrive
d⟨X i , X j ⟩ = dX i ∗ dX j
e si calcola il prodotto “∗′′ nel membro a destra come un prodotto dei “polinomi” dX i in (16.3.10) secondo
le seguenti regole di calcolo
j
dt ∗ dt = dt ∗ dWti = dWti ∗ dt = 0, dWti ∗ dWt = δij dt,
dove δij è la delta di Kronecker.
Esempio 16.3.15. Supponiamo N = d = 2 in (16.3.10) e calcoliamo il differenziale stocastico del prodotto

di Zt = Xt1 Xt2 . Si ha Zt = F(Xt ) dove F(x1 , x2 ) = x1 x2 e
∂x1 F(x) = x2 , ∂x2 F(x) = x1 , ∂x1 x1 F(x) = ∂x2 x2 F(x) = 0, ∂x1 x2 F(x) = ∂x2 x1 F(x) = 1.
Di conseguenza
d(Xt1 Xt2 ) = Xt1 dXt2 + Xt2 dXt1 + d⟨X 1 , X 2 ⟩t

= Xt1 dXt2 + Xt2 dXt1 + σt11 σt21 + σt12 σt22 dt.
Inoltre, per quanto riguarda la variazione quadratica di X 1 , si ha

d⟨X 1 ⟩t = (σt11 )2 + (σt12 )2 dt.
Diamo la versione multi-dimensionale del Corollario 16.2.2 sulle stime Lp per l’integrale stocastico.
Omettiamo la dimostrazione che è simile al caso scalare.
Corollario 16.3.16. [!] Siano σ ∈ L2 , matrice N ×d-dimensionale, e W un moto Browniano d-dimensionale.

Per ogni p ≥ 2 e T > 0 si ha Z p #
t
" "Z T #
p−2
p
E sup σs dWs ≤ cT E 2 |σs | ds
0≤t≤T 0 0
dove |σ | indica la norma di Hilbert-Schmidt4 di σ e c è una costante positiva che dipende solo da p, N e d.
16.3.3 Caratterizzazione di Lévy del moto Browniano

Ricordiamo l’espressione (16.3.7) delle co-variazioni di un moto Browniano W . È notevole il fatto che le
co-variazioni e la proprietà di martingala caratterizzino il moto Browniano come mostra il seguente classico
Teorema 16.3.17 (Caratterizzazione di Lévy del moto Browniano). Sia X un processo d-dimensionale
definito sullo spazio (Ω, F , P , (Ft )) e tale che X0 = 0 q.c. Allora X è un moto Browniano se e solo se X è una
martingala locale continua tale che
⟨X i , X j ⟩t = δij t, t ≥ 0. (16.3.11)
Dimostrazione. Usiamo la Proposizione 14.5.3 e verifichiamo che, per ogni η ∈ Rd , il processo esponenziale
η |η|2
Mt := eiη·Xt + 2 t
è una martingala. Per la formula di Itô abbiamo

 
 |η|2 d
η η 1X i j 

dMt = Mt  dt + iη · dXt − ηi ηj d⟨X , X ⟩t  =

 2 2 
i,j=1
(per l’ipotesi (16.3.11))

η
= Mt iη · dXt
e quindi, per il Teorema 15.2.23, M η è una martingala locale continua. D’altra parte M η è anche una vera
martingala essendo un processo limitato, da cui la tesi.
4 Ossia la norma Euclidea in RN ×d .
Corollario 16.3.18. Sia σ = (σ 1 , . . . , σ d ) un processo d-dimensionale progressivamente misurabile e tale che

|σt | = 1 per t ≥ 0 quasi certamente. Per ogni un moto Browniano d-dimensionale W , il processo
Z t
Bt := σs dWs
0
è un moto Browniano reale.
Dimostrazione. Per il Teorema 15.2.15 B è una martingala continua e vale

Z t
⟨B⟩t = |σs |2 ds = t.
0
La tesi segue dal Teorema 16.3.17.
Definizione 16.3.19. Sia σ un processo progressivamente misurabile a valori nello spazio delle matrici di
dimensione N × d, le cui righe σ i sono tali che |σti | = 1 per t ≥ 0 quasi certamente. Dato un moto Browniano
W , il processo
Zt
Bt := σs dWs
0
è chiamato moto Browniano correlato.
Per il Corollario 16.3.18, ogni componente di B è un moto Browniano reale e per la (16.3.9) si ha
Z t
i j ij
⟨B , B ⟩t = ϱs ds
0
dove ϱt = σt σt∗ è detta matrice di correlazione di B. Inoltre vale

Z t
cov(Bt ) = E [ϱs ] ds,
0
poiché
 d Z d Z t

j

j
X t X jh 
cov(Bit , Bt ) = E Bit Bt = E  σsik dWsk σs dWsh  =
k=1 0 0 h=1
(per l’isometria di Itô, Proposizione 16.3.7)

Z d  Z
 t X jk 
t
ij

ik
= E  σs σs ds = E ϱs ds.
 
0 k=1 0
Nel caso in cui σ sia ortogonale si ha σ ∗ = σ −1 e quindi σ i · σ j = δij per ogni coppia di righe: in questo caso
particolare B è un moto Browniano standard secondo la Definizione 14.5.1.
16.4 Dimostrazione della formula di Itô

Dimostriamo il Teorema 16.1.1. Sia X = A + M una semi-martingala continua a valori reali dove A è un
processo adattato, continuo e localmente a variazione limitata e M ∈ M c,loc . Nel Teorema 14.4.1 abbiamo
definito il processo variazione quadratica ⟨M⟩ come l’unico (a meno di indistinguibilità) processo adattato,
16.4. DIMOSTRAZIONE DELLA FORMULA DI ITÔ 371
continuo, crescente tale che ⟨M⟩0 = 0 e M 2 − ⟨M⟩ ∈ M c,loc . Inoltre, se M è di quadrato sommabile, ossia
M ∈ M c,2 , allora si hanno le importanti identità
h i h i
E (Mt − Ms )2 | Fs = E Mt2 − Ms2 | Fs (16.4.1)
= E [⟨M⟩t − ⟨M⟩s | Fs ] , 0 ≤ s ≤ t. (16.4.2)
Anche se è un calcolo che abbiamo già svolto, è utile ricordare che la (16.4.1) viene semplicemente da
h i h i
E (Mt − Ms )2 | Fs = E Mt2 − 2Mt Ms + Ms2 | Fs
h i
= E Mt2 | Fs − 2Ms E [Mt | Fs ] + Ms2 =
(per la proprietà di martingala di M)

h i
= E Mt2 | Fs − Ms2 .
Invece la (16.4.2) equivale alla proprietà di martingala di M 2 − ⟨M⟩. La dimostrazione della formula di Itô
si basa essenzialmente su queste due identità. Un ulteriore ingrediente è la stima uniforme (14.6.3) della
norma L2 della variazione quadratica di M sui diadici.
Dividiamo la prova del Teorema 16.1.1 in quattro passi.
[Primo passo] Consideriamo la semi-martingala continua X = A+M. Poiché la (16.1.1) è un’uguaglianza di
processi continui, è sufficiente dimostrare che si tratta di modificazioni: in altri termini, possiamo ragionare
per t > 0 fissato. Poniamo
τn = t ∧ inf{s ≥ 0 | |Xs | ≥ n, ⟨X⟩s ≥ n, Vs (A) ≥ n}, n ∈ N,
dove Vs (A) indica il processo variazione prima di A su [0, s] (cfr. Definizione 14.1.1). Per continuità, τn ↗ ∞
q.c. e quindi basta provare la formula di Itô per Xt∧τn per ogni n ∈ N: equivalentemente, basta provare per
ogni fissato N̄ ∈ N vale la (16.1.1) nel caso in cui i processi |X|, |M|, A, ⟨X⟩ e V (A) siano limitati da N̄ . In tal
caso, non è restrittivo assumere che la funzione F abbia supporto compatto, eventualmente modificandola
fuori da [−N̄ , N̄ ]. In un primo momento, assumiamo anche che F ∈ C 3 (R).
Usiamo la notazione (13.1.1) per i diadici
D(t) = {tn,k = tk
2n | k = 0, . . . , 2n , n ∈ N}
di [0, t] e indichiamo con ∆n,k Y = Ytn,k − Ytn,k−1 l’incremento di un generico processo Y . Inoltre, poniamo
Fn,k := Ftn,k e
δn (Y ) = sup |Ys − Yr |, n ∈ N.
s,r∈D(t)
|s−r|< 1n
2
Sviluppando in serie di Taylor al second’ordine con resto secondo Lagrange, otteniamo
2n
X
F(Xt ) − F(X0 ) = F(Xtn,k ) − F(Xtn,k−1 )
k=1
2n 2n
X 1 X ′′
F ′ (Xtn,k−1 )∆n,k X + F (Xtn,k−1 ) ∆n,k X 2 + Rn

= (16.4.3)
2
k=1 k=1
con
2n
X
′′′ 3
|Rn | ≤ ∥F ∥∞ ∆n,k X . (16.4.4)
k=1
Nei prossimi due passi stimiamo i singoli termini in (16.4.3) per mostrare che convergono ai corrispondenti
termini in (16.1.1) e Rn −→ 0 per n → ∞.
[Secondo passo] Per quanto riguarda la prima somma in (16.4.3), abbiamo
2n
X
F ′ (Xtn,k−1 )∆n,k X = In1,A + In1,M
k=1
dove, per la Proposizione 14.1.3,

2n
X Z t
In1,A := F ′ (Xtn,k−1 )∆n,k A −→ F ′ (Xs )dAs (16.4.5)
k=1 0
quasi certamente per n → ∞, con l’integrale inteso nel senso di Riemann-Stieltjes (o nel senso di Lebesgue-
Stieltjes, per la Proposizione 14.2.2) e
2n
X Z t
In1,M := F ′ (Xtn,k−1 )∆n,k M −→ F ′ (Xs )dMs
k=1 0
in probabilità, per il Corollario 15.2.26.

[Terzo passo] Per quanto riguarda la seconda somma in (16.4.3), abbiamo
2n
X
F ′′ (Xtn,k−1 )(∆n,k X)2 = In2,A + 2In2,AM + In2,M
k=1
dove
2n
X 2n
X 2n
X
In2,A := ′′ 2
F (Xtn,k−1 )(∆n,k A) , In2,AM := ′′
F (Xtn,k−1 )(∆n,k A)(∆n,k M), In2,M := F ′′ (Xtn,k−1 )(∆n,k M)2 .
k=1 k=1 k=1
Ora si ha
|In2,A | ≤ ∥F ′′ ∥∞ δn (A)Vt (A) ≤ N̄ ∥F ′′ ∥∞ δn (A) −→ 0
quasi certamente per n → ∞, per l’uniforme continuità delle traiettorie di A su [0, t]. Un risultato analogo
si ha per In2,AM . Ricordando che per definizione ⟨X⟩ = ⟨M⟩, rimane da provare che
Zt
In2,M −→ F ′′ (Xs )d⟨M⟩s .
0
Poiché analogamente a (16.4.5) si ha quasi certamente

2n
X Z t
F ′′ (Xtn,k−1 )∆n,k ⟨M⟩ −→ F ′′ (Xs )d⟨M⟩s ,
k=1 0
dimostriamo che
2n
X
F ′′ (Xtn,k−1 ) (∆n,k M)2 − ∆n,k ⟨M⟩ −→ 0
k=1

in norma L2 (Ω, P ). Posto Gn,k = F ′′ (Xtn,k−1 ) (∆n,k M)2 − ∆n,k ⟨M⟩ , sviluppando il quadrato della somma,
abbiamo
 n
2
2   2n 
X   X 
2
E  Gn,k   = E  Gn,k 
   
 
k=1 k=1
16.4. DIMOSTRAZIONE DELLA FORMULA DI ITÔ 373
poiché i doppi prodotti si annullano: infatti, se h < k, si ha

h h ii
E Gn,h Gn,k = E Gn,h F ′′ (Xtn,k−1 )E (∆n,k M)2 − ∆n,k ⟨M⟩ | Fn,k−1 = 0

per la (16.4.2). Ora, per la disuguaglianza elementare (x + y)2 ≤ 2x2 + 2y 2 , abbiamo

 2n   2n 
X  X 
2 
E  Gn,k  ≤ 2∥F ′′ ∥∞ E 
  (∆n,k M)4 + (∆n,k ⟨M⟩)2 
k=1 k=1
2n
 
 X 
′′ 2 2
≤ 2∥F ∥∞ E δn (M)
 (∆n,k M) + δn (M)Vt (⟨M⟩) ≤
k=1
(applicando la disuguaglianza di Hölder al primo termine)
2  12
  n 

 h i 12 X 2  


′′ 4 2
≤ 2∥F ∥∞ E δn (M) E  (∆n,k M)   + N̄ E [δn (⟨M⟩)] −→ 0

 
 
  

   
k=1
per n → ∞, poiché:
h i
• δn (M) ≤ 2N̄ e δn (M) → 0 q.c. per l’uniforme continuità di M su [0, t]: di conseguenza E δn4 (M) → 0
per il teorema della convergenza dominata. In modo analogo, E [δn (⟨M⟩)] → 0;
 n !2 
2
2
(∆n,k M)  ≤ 16N̄ 4 per la stima (14.6.3).
 P 
• sup E 
n∈N k=1
In base alla (16.4.4), la prova del fatto che

h i
lim E |Rn |2 = 0
n→∞
è del tutto analoga.

[Quarto passo] Concludiamo la prova rimuovendo l’ipotesi di regolarità aggiuntiva su F. Data F ∈ C 2 (R)
con supporto compatto, consideriamo una successione (Fn )n∈N di funzioni C 3 che convergono uniforme-
mente a F insieme con le derivate prime e seconde. Applichiamo la formula di Itô a Fn e mandiamo n a
infinito: si ha Fn (Xs ) → F(Xs ) per ogni s ∈ [0, t]. Per il teorema della convergenza dominata si ha q.c.
Z t Z t
lim (Fn′ (Xs ) − F ′ (Xs )) dAs = lim (Fn′′ (Xs ) − F ′′ (Xs )) d⟨X⟩s = 0
n→∞ 0 n→∞ 0
e per l’isometria di Itô

 Zt !2  "Z t #

 ′ ′  ′ ′ 2
lim E  (Fn (Xs ) − F (Xs )) dMs  = lim E
 Fn (Xs ) − F (Xs ) d⟨M⟩s = 0.
n→∞  0 n→∞ 0
Capitolo 17
Equazioni differenziali stocastiche
It seems fair to say that all

differential equations are better
models of the world when a
stochastic term is added and that
their classical analysis is useful only
if it is stable in an appropriate sense
to such perturbations.
David Mumford
A partire da questo capitolo iniziamo lo studio delle equazioni differenziali stocastiche. In tutto il
capitolo N , d ∈ N e T > t0 ≥ 0 sono numeri fissati.
Un’equazione differenziale stocastica (nel seguito abbreviata in SDE dalla locuzione anglosassone “sto-
chastic differential equation”) è un’espressione della forma
dXt = b(t, Xt )dt + σ (t, Xt )dWt (17.0.1)
dove W è un moto Browniano d-dimensionale e
b = b(t, x) : [t0 , T ] × RN −→ RN , σ = σ (t, x) : [t0 , T ] × RN −→ RN ×d , (17.0.2)
sono funzioni misurabili1 : b è chiamato coefficiente di drift e σ coefficiente di diffusione dell’SDE.
Definizione 17.0.1 (Soluzione debole). Sia W un moto Browniano d-dimensionale sullo spazio con fil-
trazione (Ω, F , P , (Ft )t≥0 ) in cui valgono le ipotesi usuali e sia Z ∈ mFt0 tale che |Z| < +∞ q.c. Dicia-
mo che X è soluzione debole dell’SDE di coefficienti b, σ relativa a (W , Ft ) e con dato iniziale Z e scriviamo
X ∈ SDE(b, σ , W , Ft , Z), se X = (Xt )t∈[t0 ,T ] è un processo continuo, definito sullo stesso spazio di W e tale
che:
i) X è adattato a (Ft )t∈[t0 ,T ] ;
ii) vale
Z T Z T
|b(t, Xt )|dt + |σ (t, Xt )|2 dt < ∞ q.c. (17.0.3)
t0 t0
1 Più in generale, è possibile studiare equazioni i cui coefficienti dipendano in modo stocastico dalla variabile temporale. Questo
tipo di equazioni intervengono, per esempio, nello studio di problemi di controllo ottimo e filtraggio stocastico. Noi ci limiteremo a
considerare coefficienti deterministici. Rimandiamo, per esempio, a [42] per la trattazione generale. In (17.0.2) RN ×d indica lo spazio
delle matrici (N × d)-dimensionali.
375
376 CAPITOLO 17. EQUAZIONI DIFFERENZIALI STOCASTICHE
iii) quasi certamente vale2

Z t Z t
Xt = Z + b(s, Xs )ds + σ (s, Xs )dWs , t ∈ [t0 , T ]. (17.0.4)
t0 t0
Si noti che il dato iniziale è assunto q.c.: quindi, se X ∈ SDE(b, σ , W , Ft , Z) e Z = Z ′ q.c. allora si ha
anche X ∈ SDE(b, σ , W , Ft , Z ′ ).
17.1 Risolubilità forte e debole

Esistono vari approcci allo studio delle SDE. In particolare, il problema dell’esistenza di soluzioni o
risolubilità dell’SDE ammette diverse formulazioni.
• Problema della risolubilità in senso debole: diciamo che l’SDE di coefficienti b, σ è risolubile in sen-
so debole se, assegnata una distribuzione µ su BN , esiste uno spazio con filtrazione (Ω, F , P , (Ft )t≥0 )
in cui valgono le ipotesi usuali e su cui sono definiti un moto Browniano W e un processo X tali che
X ∈ SDE(b, σ , W , Ft , Xt0 ) con Xt0 ∼ µ.
• Problema della risolubilità in senso forte: diciamo che l’SDE di coefficienti b, σ è risolubile in sen-
so forte se, assegnati un moto Browniano d-dimensionale W definito sullo spazio con filtrazione
(Ω, F , P , (Ft )t≥0 ) in cui valgono le ipotesi usuali e una variabile aleatoria Z ∈ mFt0 tale che |Z| < +∞
q.c., esiste X ∈ SDE(b, σ , W , FtW ,Z , Z) dove (FtW ,Z )t∈[t0 ,T ] è la filtrazione standard di W e Z, ossia il
minimo ampliamento della filtrazione generata da W e Z che soddisfa le ipotesi usuali: in questo
caso diciamo che X è una soluzione forte dell’SDE di coefficienti b, σ .
Le soluzioni forti si distinguono da quelle deboli della Definizione 17.0.1 per la proprietà di essere adattate
alla filtrazione standard F W ,Z . Si noti che F W ,Z è la minima filtrazione rispetto alla quale si può definire
una soluzione debole: ne segue che ogni soluzione forte è anche debole. Si ha inoltre la seguente
Proposizione 17.1.1. Se un’SDE è risolubile in senso forte allora lo è anche in senso debole.
Dimostrazione. Sia µ un’assegnata distribuzione su BN . Costruiamo uno spazio con filtrazione (Ω, F , P , (Ft )t≥0 )
in cui valgono le ipotesi usuali e su cui sono definiti un moto Browniano W e una variabile aleatoria
Z ∈ mFt0 tale che |Z| < +∞ q.c. e Z ∼ µ. Una volta fatto ciò, l’ipotesi di risolubilità in senso forte dell’SDE
implicherà l’esistenza di una soluzione X ∈ SDE(b, σ , W , FtW ,Z , Z).
Consideriamo un moto Browniano d-dimensionale B definito sullo
spazio (Ω1 , G∞
B , P , (G B )
1 t t≥0 ) dove
Gt = σ (Bs , s ≤ t) indica la filtrazione generata da B e G∞ = σ Gt , t ≥ 0 . Inoltre sia Z una variabile aleatoria,
B B B e
definita su un altro spazio (Ω2 , σ (Z),
e P2 ), tale che Z
e ∼ µ. Poniamo:
• Ω = Ω1 × Ω2 ;
• P = P1 ⊗ P2 , la misura prodotto estesa al completamento3 F di G∞

B ⊗ σ (Z);
e
• Gt = GtB ⊗ σ (Z)
e per t ≥ 0;
2 Ossia esiste una versione dell’integrale stocastico
Zt
σ (s, Xs )dWs
t0
tale che la (17.0.4) valga per ogni t ∈ [t0 , T ] quasi certamente.
3 Si ricordi l’Osservazione 2.4.3: si ha F = σ (N ∪ (G B ⊗ σ (Z)))
e dove
∞
B ⊗ σ (Z)
N := {A ⊆ Ω1 × Ω2 | A ⊆ N per un certo N ∈ G∞ e tale che P (N ) = 0}.
17.1. RISOLUBILITÀ FORTE E DEBOLE 377
• Wt (ω1 , ω2 ) = Bt (ω1 ) e Z(ω1 , ω2 ) = Z(ω

e 2 ) per (ω1 , ω2 ) ∈ Ω1 × Ω2 .
Con un po’ di pazienza si verifica che:
• W è un moto Browniano su (Ω, F , P , (Gt )t≥0 );
• Z ∈ mG0 (da cui segue che Z ∈ mGt ed è indipendente da Wt nella misura P per ogni t ≥ 0);
• Z ∼ µ.
Poniamo Ft := σ (Gt+ ∪ N ) per t ≥ 0. Per la Proposizione 11.2.20, W è un moto Browniano anche sullo
spazio (Ω, F , P , (Ft )t≥0 ) in cui valgono le ipotesi usuali.
Osservazione 17.1.2. [!] La condizione di misurabilità nella definizione di soluzione forte (ossia, il fatto
che una soluzione forte sia adattata alla filtrazione standard F W ,Z ) è cruciale. Ribadiamo che F W ,Z è
la più piccola filtrazione rispetto alla quale si può definire una soluzione debole X dell’SDE e quindi la
condizione di essere adattata a F W ,Z è la più restrittiva possibile su X.
Un caso particolarmente importante è quando il dato iniziale è deterministico, ossia Z ∈ RN : allora
F ,Z = F W e X è adattato alla filtrazione standard Browniana F W . Ciò significa che al Browniano W ,
W
tramite l’SDE di coefficienti b, σ , è associato un processo (la soluzione) X che è un “funzionale” di W , nel
senso che Xt si può esprimere in funzione di (Ws )s≤t . Questa osservazione è rilevante poiché in diverse
applicazioni, come per esempio nella teoria dei segnali, W rappresenta un insieme di dati osservati che
sono utilizzati come “input” di un modello o sistema dinamico (formalizzato dall’SDE) che produce come
“output” la soluzione X in funzione dei dati di partenza.
Anche se sembra contro-intuitivo esistono SDE del tipo (17.0.1), con dato iniziale deterministico, che
non ammettono soluzioni adattate alla filtrazione standard F W di un opportuno moto Browniano W : in altri
termini, in alcuni casi una soluzione X dell’SDE necessita di maggiore aleatorietà di quella contenuta in W .
Un famoso esempio al riguardo è stato esibito da Tanaka [73] (si veda anche [77]): qui descriviamo l’idea
generale e rimandiamo alla Sezione 9.2.1 in [58] o all’Esempio 3.5, Capitolo 5 in [38] per i dettagli.
Esempio 17.1.3. Consideriamo l’SDE scalare (ossia con N = d = 1)
dXt = σ (Xt )dWt (17.1.1)
con drift e dato iniziale nulli, b = Z = 0, e coefficiente di diffusione

1 se x ≥ 0,


σ (x) = sgn(x) := 
−1 se x < 0.

Per provare che l’SDE (17.1.1) è risolubile in senso debole, consideriamo un moto Browniano X definito
sullo spazio (Ω, F , P , (FtX )t≥0 ). Il processo
Zt
Wt := σ (Xs )dXs , t ≥ 0, (17.1.2)
0
è una martingala continua con variazione quadratica ⟨W ⟩t = t e di conseguenza, per il Teorema 16.3.17,
anche W è un moto Browniano su (Ω, F , P , (FtX )t≥0 ). Dalla definizione dWt = σ (Xt )dXt otteniamo
dXt = σ 2 (Xt )dXt = σ (Xt )dWt
che significa che X è soluzione dell’SDE (17.1.1) relativa a W , ossia X ∈ SDE(0, σ , W , FtX , 0). Il punto cru-
ciale è che si può dimostrare4 che W definito da (17.1.2) è adattato alla filtrazione standard F |X| generata
dal processo in valore assoluto |X|: se X fosse adattato a F W allora dovrebbe essere adattato anche a F |X|
e ciò è assurdo. Questo esempio può sembrare un po’ patologico perché il coefficiente σ è una funzione
discontinua: più recentemente Barlow [4] ha dimostrato che per ogni α < 21 esiste una funzione σ che è α-
Hölderiana, limitata dall’alto e dal basso da costanti positive, e tale che l’SDE (17.1.1) è risolubile in senso
debole ma non in senso forte.
4 Qui si utilizza la formula di Meyer-Tanaka: si veda, per esempio, la Sezione 5.3.2 in [58] o la Sezione 2.11 in [20].
In definitiva, un’SDE può essere risolubile debolmente senza esserlo in senso forte: la risolubilità debole
è meno restrittiva perché dà la libertà di scelta dello spazio, del moto Browniano e della filtrazione rispetto
a cui scrivere l’SDE. Al contrario, nella formulazione forte lo spazio, il moto Browniano W e il dato iniziale
Z sono assegnati a priori e la soluzione è vincolata ad essere adattata alla filtrazione standard F W ,Z .
17.2 Unicità forte e debole

Cosı̀ come per l’esistenza, esistono anche differenti nozioni di unicità per la soluzione di un’SDE. La
prima definizione è quella nota nella letteratura anglosassone come “pathwise uniqueness”.
Definizione 17.2.1 (Unicità in senso forte o traiettoria per traiettoria). Si dice che c’è unicità in senso
forte per l’SDE di coefficienti b, σ se il fatto che X ∈ SDE(b, σ , W , Ft , Z), Y ∈ SDE(b, σ , W , Gt , Z) implica che
X e Y sono processi indistinguibili.
Nella definizione precedente i due processi X e Y sono definiti sullo stesso spazio di probabilità (Ω, F , P )
e sono soluzioni deboli dell’SDE relative a (W , Ft ) e (W , Gt ) dove W è un moto Browniano rispetto ad en-
trambe le filtrazioni (Ft )t≥0 e (Gt )t≥0 che possono essere differenti. Se per un’SDE c’è risolubilità ed unicità
in senso forte allora ogni5 soluzione debole è anche forte, ossia è necessariamente adattata alla filtrazione
standard F W ,Z .
Definizione 17.2.2 (Unicità in senso debole o in legge). Si dice che c’è unicità in senso debole per l’SDE
d
di coefficienti b, σ se il fatto che X ∈ SDE(b, σ , W , Ft , Xt0 ) e Y ∈ SDE(b, σ , B, Gt , Yt0 ) con Xt0 = Yt0 implica che
(X, W ) e (Y , B) sono uguali in legge o, equivalentemente, hanno le stesse distribuzioni finito-dimensionali.
Nella definizione di unicità in senso debole, i processi X e Y possono essere definiti su spazi di proba-
bilità differenti ed essere soluzioni relative a moti Browniani (W , Ft ) e (B, Gt ) distinti.
Esempio 17.2.3. Proviamo che per l’SDE dell’Esempio 17.1.3 c’è unicità in senso debole ma non forte. Se
W è un moto Browniano sullo spazio (Ω, F , P , (Ft )t≥0 ) e X è soluzione debole dell’SDE (17.1.1) relativa
a (W , Ft ) allora per il Teorema 16.3.17 di caratterizzazione di Lévy anche X è un moto Browniano sullo
stesso spazio e quindi, grazie anche al seguente Lemma 17.2.5, c’è unicità in senso debole. Tuttavia se X è
la soluzione debole costruita nell’Esempio 17.1.3, possiamo verificare che anche −X è soluzione dell’SDE e
quindi non c’è unicità in senso forte: infatti, poiché σ (−x) = −σ (x) se x , 0, si ha
Z t Z t Z t
σ (−Xs )dWs = − σ (Xs )dWs + 2 1(Xs =0) dWs
0 0 0
Zt
=− σ (Xs )dWs q.c.
0
poiché, per l’isometria di Itô,

 Zt !2  Z t
  h i
E  1(Xs =0) dWs  = E 1(Xs =0) ds = 0.
0 0
Qui abbiamo usato il fatto che P (Xs = 0) = 0 poiché X è un moto Browniano.
Proviamo ora che l’unicità forte implica quella debole: questo risultato sembra naturale ma ha una
dimostrazione tutt’altro che banale e abbastanza tecnica che si consiglia di saltare ad una prima lettura.
Tutta la difficoltà sta nel fatto che l’unicità forte riguarda soluzioni definite sullo stesso spazio mentre per
provare l’unicità debole si ha a che fare con soluzioni possibilmente definite su spazi differenti.
5 Se X ∈ SDE(b, σ , W , F , Z), per la risolubilità in senso forte esiste anche Y ∈ SDE(b, σ , W , F W ,Z , Z) e X, Y sono indistinguibili.
t t
17.2. UNICITÀ FORTE E DEBOLE 379
Teorema 17.2.4. [!] Se c’è unicità in senso forte per l’SDE di coefficienti b, σ allora c’è anche unicità in
senso debole.
Dimostrazione. Per semplicità consideriamo t0 = 0. L’idea è di ambientare il problema in uno spazio canoni-
co di riferimento, lo spazio di Wiener delle traiettorie continue. Precisamente, data X ∈ SDE(b, σ , W , Ft , X0 ),
soluzione dell’SDE sull’intervallo [0, T ], indichiamo con (X,eWf) la versione canonica di (X, W ) (cfr. Defini-
zione 9.2.4):
(X,
eW f) : (ΩN × Ωd , B(N ×d) , P) −→ (ΩN × Ωd , B(N ×d) ), Ωi := C([0, T ]; Ri ), i = N , d, (17.2.1)
dove P := µ(X,W ) indica la legge di (X, W ) e B(N ×d) è l’usuale σ -algebra di Borel su Ω := ΩN × Ωd .
Come primo passo proviamo un lemma che mostra che l’unicità in senso debole ammette una formula-
zione equivalente che è più semplice da verificare in quanto coinvolge solo dati iniziali deterministici.
Lemma 17.2.5. Per l’SDE di coefficienti b, σ si ha unicità in senso debole se, per ogni x ∈ RN , il fatto che
X ∈ SDE(b, σ , W , Ft , x) e Y ∈ SDE(b, σ , B, Gt , x) implica che (X, W ) e (Y , B) sono uguali in legge.
Sia X ∈ SDE(b, σ , W , Ft , X0 ). Per provare il lemma lavoriamo nello spazio di Wiener (Ω, B(N ×d) ) e con-
dizioniamo al dato iniziale per passare dalla misura P in cui il dato è aleatorio ad una misura in cui è
deterministico. Qui usiamo il fatto cruciale che Ω è uno spazio polacco e quindi per il Teorema 5.3.2 esiste
una versione regolare P(· | Xe0 ) = Pw (· | X
e0 ) della probabilità P condizionata al valore (aleatorio) iniziale
w∈Ω
X0 . Ricordiamo che, per P-quasi ogni w ∈ Ω, Pw (· | X
e e0 ) è una distribuzione su B(N ×d) e vale
h i
e0 ) = E 1H | X
P(H | X e0 , H ∈ B(N ×d) .
Indichiamo con wN il vettore delle prime N componenti della traiettoria w ∈ Ω: si noti che, per definizione
di versione canonica di X, si ha semplicemente X(w) e = wN . Ora per P-quasi ogni w ∈ Ω, nella misura
Pw (· | X
e0 ) si ha che il processo (X,
eW f) ha la stessa legge di (X̂, W ) dove X̂ ∈ SDE(b, σ , W , Ft , wN (0)): segue dal
Corollario 15.2.27 che, per P-quasi ogni w ∈ Ω, nella misura Pw (· | X e0 ), X
e è soluzione dell’SDE di coefficienti
b, σ relativa a W f e con dato iniziale X e0 (w) = wN (0).
Con analoga costruzione indichiamo con Q e Q(· | Y e0 ) rispettivamente la legge e la legge condizionata
di Y ∈ SDE(b, σ , B, Gt , Y0 ). Per l’ipotesi di unicità in legge con dati iniziali deterministici, si ha Pw (· | X e0 ) =
d
e0 ) per quasi ogni w ∈ Ω in P e Q. Nel caso in cui X0 = Y0 , con la formula della probabilità totale del
Qw (· | Y
Teorema 5.3.11 si prova che P = Q e questo conclude la dimostrazione del Lemma 17.2.5.
Ora siano X ∈ SDE(b, σ , W , Ft , x) e Y ∈ SDE(b, σ , B, Gt , x) con x ∈ RN fissato: dobbiamo provare che
d
l’ipotesi di unicità forte implica (X, W ) = (Y , B). L’idea è di costruire delle versioni di X e Y che siano
soluzioni dell’SDE sullo stesso spazio e relativamente allo stesso Browniano. A tal fine costruiamo uno
spazio di Wiener su cui siano definiti tre processi: un moto Browniano e le versioni di X e Y .
Consideriamo la versione canonica di (X, W ) in (17.2.1). Per il Teorema 5.3.4 (e la successiva Osserva-
zione 5.3.5) esiste una versione regolare µX| f = µX|
eW eWf(·; w) della legge di X
e condizionata a W
f: per ogni
w∈Ω
w ∈ Ω, µX| f(·; w) è una distribuzione sui Boreliani B(N ) di ΩN tale che
eW
h i
µX|
eW f(H; w) = E 1(X∈H)
e |W
f, H ∈ B(N ) .
In particolare µX| 6
f(H; w) è σ (W )-misurabile e quindi, per la versione funzionale del Teorema 3.3.3 di
eW
f
Doob, è funzione misurabile di Wf: essendo W
f(w) = wd (dove wd indica il vettore delle ultime d componenti
6 Ricordiamo l’enunciato del Teorema 3.3.3: siano X, Y v.a. reali su (Ω, F , P ). Allora X ∈ mσ (Y ) se e solo se esiste f ∈ mB tale che
X = f (Y ). Il teorema si estende, con dimostrazione pressoché identica, al caso in cui X sia a valori in uno spazio metrico polacco
munito della σ -algebra di Borel e Y sia a valori in un generico spazio misurabile. Per i dettagli si veda, per esempio, il Lemma 1.13 a
pag.7 in [37].
della traiettoria
w ∈ Ω, cosicché w = (wN , wd )) possiamo dunque, con un ovvio
cambio di notazione, scrivere
µX|
eW f = µX|eWf(·; wd ) . In modo analogo definiamo la famiglia µYe|Be = µYe|Be(·; wd ) di distribuzioni
wd ∈Ωd wd ∈Ωd
sui Boreliani B(N ) di ΩN .

Ora consideriamo lo spazio di Wiener ΩN × ΩN × Ωd , B(N ×N ×d) su cui definiamo la misura di proba-
bilità Q ponendo
Z
Q(H × K × A) = µX|
eW f(H; ·)µY e(K; ·)dµW
e|B f, H, K ∈ B(N ) , A ∈ B(d) , (17.2.2)
A
dove µW f è la misura di Wiener su B(d) , ossia la legge di un moto Browniano d-dimensionale. Infine introdu-
ciamo il processo canonico (X̄, Ȳ , W̄ ) definito come funzione identità su ΩN ×ΩN ×Ωd , ossia X̄(w1 , w2 , w3 ) =
w1 , Ȳ (w1 , w2 , w3 ) = w2 e W̄ (w1 , w2 , w3 ) = w3 , avendo indicato con w = (w1 , w2 , w3 ) il generico elemento di
ΩN × ΩN × Ωd . Ponendo rispettivamente H = ΩN oppure K = ΩN in (17.2.2), si verifica che
d d
(X, W ) = (X̄, W̄ ), (Y , B) = (Ȳ , W̄ ),
da cui si ricava in particolare che W̄ è un moto Browniano nella misura Q e, per il Corollario 15.2.27, che
X̄ e Ȳ sono entrambe soluzioni dell’SDE di coefficienti b, σ relative a W̄ e con dato iniziale x. Per l’unicità
in senso forte si ha che X̄ e Ȳ sono indistinguibili nella misura Q e quindi
d d d
(X, W ) = (X̄, W̄ ) = (Ȳ , W̄ ) = (Y , B)
che conclude la prova.

Concludiamo il capitolo riportando il seguente interessante risultato (Teorema XI.1.7 in [64] e la suc-
cessiva osservazione).
Teorema 17.2.6. [!] Se c’è unicità in senso forte per l’SDE di coefficienti b, σ allora ogni soluzione debole è
anche forte.
Capitolo 18
Soluzioni forti
Proviamo alcuni risultati classici sulla risolubilità ed unicità in senso forte dell’equazione differenziale
stocastica (SDE)
dXt = b(t, Xt )dt + σ (t, Xt )dWt (18.0.1)
sotto ipotesi standard di regolarità (Lipschitzianità locale) e crescita lineare dei coefficienti. In tutto il
capitolo [0, T ] è intervallo temporale fissato e d, N ∈ N sono rispettivamente la dimensione del Browniano
W e della soluzione X di (18.0.1). I risultati principali di questo capitolo riguardano:
• l’unicità in senso forte, Teorema 18.1.5;
• la risolubilità in senso forte e la proprietà di flusso, Teorema 18.2.2;
• la proprietà di Markov, Teorema 18.3.1
• le stime di sommabilità Lp ed esponenziale, Teoremi 18.4.1 e 18.4.3;
• le stime di dipendenza dal dato iniziale, regolarità delle traiettorie, proprietà di Feller e di Markov
forte, Teorema 18.5.1 e Corollario 18.5.2.
Infine, nella Sezione 18.6 esaminiamo il caso notevole delle SDE lineari.
18.1 Unicità
Definizione 18.1.1 (Ipotesi standard). Il coefficienti b, σ verificano le ipotesi standard su [0, T ] se esistono
due costanti positive c1 , c2 tali che
|b(t, x)| + |σ (t, x)| ≤ c1 (1 + |x|), (18.1.1)

b(t, x) − b(t, y) + σ (t, x) − σ (t, y) ≤ c2 |x − y|, (18.1.2)
per ogni t ∈ [0, T ] e x, y ∈ RN .

Le (18.1.1) e (18.1.2) sono rispettivamente ipotesi di crescita lineare e Lischitzianità globale in x, uni-
formi in t ∈ [0, T ]. Notiamo che se esiste x ∈ RN tale che b(·, x), σ (·, x) ∈ L∞ ([0, T ]) allora la (18.1.2) implica
la (18.1.1). Nel seguito indeboliremo la (18.1.2) richiedendo la Lischitzianità locale in x.
Useremo ripetutamente il seguente classico
Lemma 18.1.2 (Gronwall). Sia v ∈ bB una funzione non-negativa che verifica la stima integrale
Zt
v(t) ≤ a + b v(s)ds, t ∈ [0, T ],
0
381
382 CAPITOLO 18. SOLUZIONI FORTI
per certi a, b ∈ R≥0 . Allora si ha

v(t) ≤ aebt , t ∈ [0, T ].
Convenzione 18.1.3. Nel seguito proveremo varie stime in cui appaiono delle costanti: per indicare che
una costante c dipende solo ed esclusivamente dai valori di altri parametri α1 , . . . , αn scriveremo c = c(α1 , . . . , αn ).
Lemma 18.1.4. Siano X, Y processi adattati e continui q.c., T > 0 e p ≥ 2. Allora:
• se b, σ verificano la condizione (18.1.1) di crescita lineare, esiste una costante positiva c̄1 = c̄1 (T , d, N , p, c1 ),
tale che
Z p #
t
" Zt Z t1 " #!
p−2
1 + E sup |Xr |p ds

E sup b(s, Xs )ds + σ (s, Xs )dWs ≤ c̄1 (t1 − t0 ) 2 (18.1.3)
t0 ≤t≤t1 t0 t0 t0 t0 ≤r≤s
per ogni 0 ≤ t0 ≤ t1 ≤ T ;
• se b, σ verificano la condizione (18.1.2) di Lischitzianità globale, esiste una costante positiva c̄2 =
c̄2 (T , d, N , p, c2 ) tale che
Z p #
t
" Zt Z t1 " #
p−2
E sup |Xr − Yr |p ds

E sup (b(s, Xs ) − b(s, Ys )) ds + (σ (s, Xs ) − σ (s, Ys )) dWs ≤ c̄2 (t1 −t0 ) 2
t0 ≤t≤t1 t0 t0 t0 t0 ≤r≤s
(18.1.4)
per ogni 0 ≤ t0 ≤ t1 ≤ T .
Dimostrazione. Ricordiamo la disuguaglianza elementare
|x1 + · · · + xn |p ≤ np−1 (|x1 |p + · · · |xn |p ) , x1 , . . . , xn ∈ RN , n ∈ N. (18.1.5)
Per la disuguaglianza di Hölder si ha

Z p #
t
" "Z t #
1
p−1 p
E sup b(s, Xs )ds ≤ (t1 − t0 ) E |b(s, Xs )| ds ≤
t0 ≤t≤t1 t0 t0
(per la (18.1.1))
Z t1
p
≤ (t1 − t0 )p−1 c1 E [(1 + |Xs |)p ] ds
t0
(per la (18.1.5))
Z t1
p−1 p
≤2 (t1 − t0 )p−1 c1 (1 + E [|Xs |p ]) ds
t0
Z t1 " #!
p
≤ 2p−1 (t1 − t0 )p−1 c1 1 + E sup |Xr |p ds.
t0 t0 ≤r≤s
Analogamente, per la disuguaglianza di Burkholder-Davis-Gundy, nella versione del Corollario 16.3.16,

esiste una costante c = c(d, N , p) tale che
Z p #
t
" "Z t #
p−2 1
|σ (s, Xs )|p ds ≤

E sup σ (s, Xs )dWs ≤ c(t1 − t0 ) 2 E
t0 ≤t≤t1 t0 t0
(procedendo come nella stima precedente)

p−2
Z t1 " #!
p
≤ c(t1 − t0 ) 2 2p−1 c1 1 + E sup |Xr |p ds.
t0 t0 ≤r≤s
18.1. UNICITÀ 383

Ancora per la disuguaglianza di Hölder si ha
Z p #
t
" "Z t #
1
p−1 p
E sup (b(s, Xs ) − b(s, Ys )) ds ≤ (t1 − t0 ) E |b(s, Xs ) − b(s, Ys )| ds ≤
t0 ≤t≤t1 t0 t0
(per la (18.1.2))
Z t1
p
≤ (t1 − t0 )p−1 c2 E [|Xs − Ys |p ] ds
t0
Z t1 " #
p
≤ (t1 − t0 )p−1 c2 E sup |Xr − Yr | ds. p
t0 t0 ≤r≤s
Analogamente, per il Corollario 16.3.16, si ha

Z p #
t
" "Z t #
p−2 1
p
E sup (σ (s, Xs ) − σ (s, Ys )) dWs ≤ cp (t1 − t0 ) E
2 |σ (s, Xs ) − σ (s, Ys )| ds ≤
t0 ≤t≤t1 t0 t0
(procedendo come nella stima precedente, per la (18.1.2))
p−2
Z t1 " #
p
≤ cp (t1 − t0 ) 2 c2 E sup |Xr − Yr |p ds.
t0 t0 ≤r≤s
Il seguente risultato vale sotto l’ipotesi, più debole della (18.1.2), di Lischitzianità locale in x.
Teorema 18.1.5 (Unicità in senso forte). [!] Assumiamo che per ogni n ∈ N esista una costante κn tale che

b(t, x) − b(t, y) + σ (t, x) − σ (t, y) ≤ κn |x − y|, (18.1.6)
per ogni t ∈ [t0 , T ] e x, y ∈ RN tali che |x|, |y| ≤ n. Allora per l’SDE (17.0.4) si ha unicità in senso forte, nel
senso che due qualsiasi soluzioni dell’SDE relative allo stesso Browniano W sono indistinguibili.
Dimostrazione. Siano X, Y due soluzioni dell’SDE (17.0.4). Utilizziamo un argomento1 di localizzazione:

poniamo
τn = inf{t ∈ [t0 , T ] | |Xt | ∨ |Yt | ≥ n}, n ∈ N,
con la convenzione min ∅ = T . Si noti che τn = t0 su (|Z| > n). Essendo per ipotesi X, Y adattati e continui
q.c. e |Z| < ∞ q.c., τn è una successione crescente di tempi d’arresto a valori in [t0 , T ], tale che τn ↗ T q.c.
Poniamo
bn (t, x) = b(t, x)1[t0 ,τn] (t), σn (t, x) = σ (t, x)1[t0 ,τn] (t), n ∈ N. (18.1.7)
I processi Xt∧τn , Yt∧τn soddisfano quasi certamente l’equazione
Z t∧τn Z t∧τn
Xt∧τn − Yt∧τn = (b(s, Xs ) − b(s, Ys )) ds + (σ (s, Xs ) − σ (s, Ys )) dWs
t0 t0
1 L’argomento di localizzazione è necessario anche sotto l’ipotesi di Lischitzianità globale perché l’idea è di applicare il lemma di
Gronwall alla funzione  
v(t) = E  sup |Xs − Ys |2 
 
t0 ≤s≤t
assumendo che v sia limitata.
Z t Z t
= bn (s, Xs∧τn ) − bn (s, Ys∧τn ) ds + σn (s, Xs∧τn ) − σn (s, Ys∧τn ) dWs . (18.1.8)
t0 t0
Inoltre si ha

bn (s, Xs∧τn ) − bn (s, Ys∧τn ) = bn (s, Xs∧τn ) − bn (s, Ys∧τn ) 1(|Z|≤n) ≤
(poichè |Xs∧τn |, |Ys∧τn | ≤ n su (|Z| ≤ n) per s ∈ [t0 , T ])

≤ κn Xs∧τn − Xs∧τn (18.1.9)
e una stima analoga si ha con σn al posto di bn . Ora poniamo

" #
2
vn (t) = E sup Xs∧τn − Ys∧τn , t ∈ [t0 , T ].
t0 ≤s≤t
Da (18.1.8) e (18.1.9), procedendo esattamente come nella prova della stima (18.1.4) con p = 2, otteniamo
Z t
vn (t) ≤ c̄ v(s)ds, t ∈ [t0 , T ],
t0
per una costante positiva c̄ = c̄(T , d, N , κn ). Poiché X e Y sono processi continui q.c. e adattati (e quindi
progressivamente misurabili), il teorema di Fubini assicura che v è una funzione misurabile su [t0 , T ], ossia
vn ∈ mB. Inoltre vn è limitata, precisamente |vn | ≤ 4n2 , per costruzione. Dal lemma di Gronwall otteniamo
che vn ≡ 0 e quindi  
 2 
E  sup Xt∧τn − Yt∧τn  = vn (T ) = 0.
t0 ≤t≤T
Passando al limite per n → ∞, per il teorema di Beppo-Levi, si ha che X e Y sono indistinguibili su

[t0 , T ].
18.2 Esistenza
Siamo interessati a studiare la risolubilità in senso forte che, per quanto visto nella Sezione 17.1, richiede
che la soluzione sia adattata alla filtrazione standard del Browniano e del dato iniziale. Preliminarmente
introduciamo alcune notazioni e facciamo qualche osservazione sulle filtrazioni Browniane.
Sia W un moto Browniano definito sullo spazio completo (Ω, F , P , (Ft )t≥0 ). Fissato t0 ≥ 0, indichiamo
con
W ,t
Gt 0 = σ (Ws − Wt0 , t0 ≤ s ≤ t), t ≥ t0 ,
la σ -algebra generata dagli incrementi2 Browniani nell’intervallo [t0 , t]. È facile verificare che il processo
t
Wt 0 := Wt − Wt0 , t ≥ t0 ,
W ,t
è un moto Browniano sullo spazio (Ω, F , P , (Gt 0 )t≥t0 ). Per il Teorema 11.2.22, W t0 è anche un moto
Browniano rispetto alla filtrazione completata che coincide con la filtrazione standard di W t0 ,
W ,t
W ,t
Ft 0 = σ G t 0 ∪ N , t ≥ t0 ,
2 Si noti che
Wt − Ws = Wt − Wt0 − (Ws − Wt0 ), t0 ≤ s ≤ t.
18.2. ESISTENZA 385
e verifica le ipotesi usuali. Nel caso in cui t0 > 0, è comodo estendere le definizioni precedenti ponendo
W ,t0 W ,t0 t
Gt := Ft := σ (N ), Wt 0 = 0, t ∈ [0, t0 ].
Notiamo esplicitamente che vale l’inclusione (stretta se t0 > 0)

W ,t0
Ft ⊆ FtW , t ≥ 0,
dove F W indica la filtrazione standard di W . Una proprietà non sorprendente ma cruciale è data dal
seguente
W ,t0
Lemma 18.2.1. Per ogni t ≥ 0 le σ -algebre Ft0 e Ft sono indipendenti.
Dimostrazione. La tesi è ovvia se t ≤ t0 . Invece se t > t0 , per definizione di moto Browniano, Ft0 è indi-
pendente da ogni v.a. della forma ϕ(Wt1 − Wt0 , . . . , Wtn − Wtn−1 ) con t0 ≤ t1 < · · · < tn ≤ t e ϕ ∈ bB. Allora
W ,t
segue dal secondo teorema di Dynkin3 che Ft0 è indipendente da Gt 0 . Infine, la tesi segue dal fatto che
G ∈ FTW ,t = σ (GTW ,t ∪ N ) se e solo se G △ A ∈ N per un certo A ∈ GTW ,t .
Abbiamo già provato nel Teorema 18.1.5 che si ha unicità in senso forte per l’SDE sotto le ipotesi
standard (18.1.1)-(18.1.2). Ora proviamo un risultato di risolubilità in senso forte.
Teorema 18.2.2 (Esistenza di soluzioni forti). [!] Supponiamo che i coefficienti b, σ soddisfino le ipotesi
standard4 (18.1.1)-(18.1.2) su [t0 , T ]×RN . Sia W un moto Browniano definito sullo spazio (Ω, F , P , (Ft )t≥0 )
in cui valgono le ipotesi usuali. Valgono i seguenti risultati:
t ,x t ,x
i) per ogni x ∈ RN , esiste la soluzione forte X t0 ,x = (Xt 0 )t∈[t0 ,T ] dell’SDE (18.0.1) con dato iniziale Xt00 =
x ∈ RN . Inoltre, per ogni t ∈ [t0 , T ] si ha
t ,x W ,t0
(x, ω) 7−→ ψt0 ,t (x, ω) := Xt 0 (ω) ∈ m(BN ⊗ Ft ); (18.2.1)
ii) per ogni Z ∈ mFt0 , tale che |Z| < +∞ q.c., il processo X t0 ,Z definito da
t ,Z
Xt 0 (ω) := ψt0 ,t (Z(ω), ω), ω ∈ Ω, t ∈ [t0 , T ], (18.2.2)
è soluzione forte dell’SDE (18.0.1) con dato iniziale Z. Inoltre vale la proprietà di flusso:
t ,Z
t ,Z t,Xt 0
XT0 = XT , t0 ≤ t ≤ T , q.c. (18.2.3)
Dimostrazione. Dividiamo la prova in alcuni passi.

(1) Proviamo l’esistenza della soluzione di (18.0.1) su [t0 , T ] col dato iniziale deterministico Xt0 = x ∈
RN .Utilizziamo il metodo delle approssimazioni successive e definiamo ricorsivamente la successione di
processi di Itô
(0)
Xt ≡ x,
Z t Z t
(n) (n−1) (n−1)
Xt =x+ b(s, Xs )ds + σ (s, Xs )dWs , n ∈ N, (18.2.4)
t0 t0
3 Usiamo il Teorema A.1.8 di Dynkin in modo analogo a quanto fatto nella dimostrazione del Teorema 7.2.4.
4 In realtà, utilizzando un argomento di localizzazione come nella prova del Teorema 18.1.5, è sufficiente assumere l’ipotesi (18.1.6)
(Lipschitzianità locale) al posto della (18.1.2).
per t ∈ [t0 , T ]. La successione è ben definita e X (n) è adattato e continuo q.c. per ogni n. Inoltre, con un
(n) (n) W ,t
argomento induttivo5 in n si prova che Xt = Xt (x, ω) ∈ m(BN ⊗ Ft 0 ) per ogni n ≥ 0 e t ∈ [t0 , T ].
Proviamo per induzione la stima
cn (t1 − t0 )n
" #
(n) (n−1) 2
E sup |Xt − Xt | ≤ , t1 ∈ [t0 , T ], n ∈ N, (18.2.5)
t0 ≤t≤t1 n!
con c = c(T , d, N , x, c1 , c2 ) > 0 dove c1 , c2 sono le costanti delle ipotesi standard sui coefficienti. Sia n = 1: per
la (18.1.3) si ha
Z 2 
t
" #  Zt
(1) (0) 2
σ (s, x)dWs  ≤ c̄1 (1 + |x|2 )(t1 − t0 ).
 
E sup |Xt − Xt | = E  sup b(s, x)ds +

t0 ≤t≤t1 t0 ≤t≤t1 t0 t0
Supposta vera la (18.2.5) per n, proviamola per n + 1: si ha

Z 2 
t
" #  Z t
(n+1) (n) 2  (n) (n−1) (n) (n−1) 
E sup |Xt − Xt | = E  sup
 b(s, Xs ) − b(s, Xs ) ds + σ (s, Xs ) − σ (s, Xs ) dWs  ≤
t0 ≤t≤t1 t0 ≤t≤t1 t0
t0
(per la (18.1.4))
Z t1 " #
(n) (n−1) 2
≤ c̄2 E sup |Xr − Xr | ds ≤
t0 t0 ≤r≤s
(per ipotesi induttiva, con c = c̄2 ∨ c̄1 (1 + |x|2 ))

Z t1
(s − t0 )n
≤ cn+1 ds
t0 n!
e questo prova la (18.2.5).

Combinando la disuguaglianza di Markov con la (18.2.5) otteniamo
   
1  n
 (n) (n−1) 2n  (n) (n−1) 2  (4cT )
P  sup |Xt − Xt | ≥ n  ≤ 2 E  sup |Xt − Xt |  ≤ , n ∈ N.
 
t0 ≤t≤T 2 t0 ≤t≤T n!
Allora, per il Lemma 2.3.28 di Borel-Cantelli si ha

 
 (n) (n−1) 1 
P  sup |Xt − Xt |≥ n i.o = 0
t0 ≤t≤T 2
ossia, per quasi ogni ω ∈ Ω esiste nω ∈ N tale che
(n) (n−1) 1
sup |Xt (ω) − Xt (ω)| ≤ , n ≥ nω .
t0 ≤t≤T 2n
Essendo
n
(n) (k) (k−1)
X
Xt =x+ (Xt − Xt )
k=1
(n)
si ha che, quasi certamente, Xt converge uniformemente in t ∈ [t0 , T ] per n → +∞ ad un limite che
(n)
indichiamo con Xt : per esprimere questo fatto, in simboli scriviamo Xt ⇒ Xt q.c. Notiamo che X =
5 La misurabilità in (x, ω) è ovvia per n = 0. Assumendo la tesi vera per n − 1, è sufficiente approssimare l’integrando in (18.2.4) con
processi semplici e utilizzare il Corollario 15.2.26, ricordando che la convergenza in probabilità mantiene la proprietà di misurabilità.
18.2. ESISTENZA 387
(Xt )t∈[t0 ,T ] è un processo continuo q.c. (grazie alla convergenza uniforme) e adattato: inoltre, Xt = Xt (x, ω) ∈
W ,t (n)
m(BN ⊗ Ft 0 ) per ogni t ∈ [t0 , T ] perché tale proprietà di misurabilità vale per Xt per ogni n ∈ N.
Per la (18.1.1) ed essendo X continuo q.c. è chiaro che la condizione (17.0.3) è soddisfatta. Per verificare
che, quasi certamente, vale
Z t Z t
Xt = x + b(s, Xs )ds + σ (s, Xs )dWs , t ∈ [t0 , T ],
t0 t0
è sufficiente osservare che:

(n) (n)
• per la proprietà di Lipschitzianità di b e σ uniforme in t, si ha che b(t, Xt ) ⇒ b(t, Xt ) e σ (t, Xt ) ⇒
σ (t, Xt ) q.c. da cui
Z t Z t
(n)
lim b(s, Xs )ds = b(s, Xs )ds q.c.
n→+∞ t0 t0
Z t 2
(n)
lim σ (s, X s ) − σ (s, X )
s ds = 0
q.c. (18.2.6)
n→+∞

t0
• per la Proposizione 15.2.25, la (18.2.6) implica che

Z t Z t
(n)
lim σ (s, Xs )dWs = b(s, Xs )dWs q.c.
n→+∞ t0 t0
Questo conclude la prova dell’esistenza nel caso del dato iniziale deterministico.
(2) Consideriamo ora il caso di un dato iniziale aleatorio Z ∈ mFt0 tale che |Z| < +∞ q.c. Sia f = f (x, ω)
la funzione su RN × Ω definita da
Zt Zt
t0 ,x t0 ,x t0 ,x
f (x, ·) := sup Xt − x − b(s, Xs )ds − σ (s, Xs )dWs .
t0 ≤t≤T t0 t0
W ,t t ,· W ,t
Notiamo che f ∈ m(BN ⊗ FT 0 ) poiché Xt 0 ∈ m(BN ⊗ Ft 0 ) per ogni t ∈ [t0 , T ]. Inoltre, per ogni x ∈ RN
si ha f (x, ·) = 0 q.c. e quindi anche F(x) := E [f (x, ·)] ≡ 0. Allora vale
0 = F(Z) = E [f (x, ·)] |x=Z =

W ,t0 W ,t0
(per il Lemma di freezing, Teorema 5.2.10-13), poiché Z ∈ mFt0 , f ∈ m(BN ⊗ FT ) con Ft0 e Ft
σ -algebre indipendenti per il Lemma 18.2.1 e f ≥ 0)
h i
= E f (Z, ·) | Ft0 .
Applicando il valore atteso abbiamo anche
E [f (Z, ·)] = 0
e quindi X t0 ,Z in (18.2.2) è soluzione dell’SDE (17.0.4) e lo è anche in senso forte perché è chiaramente
adattato a F W ,Z .
(3) Per 0 ≤ t0 ≤ t ≤ T , con uguaglianze che valgono quasi certamente, si ha
Z T Z T
t ,Z t ,Z t ,Z
XT0 =Z+ b(s, Xs 0 )ds + σ (s, Xs 0 )dWs
t0 t0
Z t Z t
t ,Z t ,Z
=Z+ b(s, Xs 0 )ds + σ (s, Xs 0 )dWs
t0 t0
ZT ZT
t ,Z t ,Z
+ b(s, Xs 0 )ds + σ (s, Xs 0 )dWs
t t
Z T Z T
t ,Z t ,Z t ,Z
= Xt 0 + b(s, Xs 0 )ds + σ (s, Xs 0 )dWs ,
t t
t ,Z
ossia X t0 ,Z è soluzione dell’SDE (18.0.1) con dato iniziale Xt 0 al tempo t. D’altra parte, per quanto provato
t ,Z
0 t ,Z
al punto (2), anche X t,Xt è soluzione dell’SDE (18.0.1) con dato iniziale Xt 0 al tempo t. Dall’unicità della
soluzione segue la (18.2.3) e questo conclude la prova del teorema.
18.3 Proprietà di Markov

Teorema 18.3.1 (Proprietà di Markov). Supponiamo che i coefficienti b, σ verifichino le ipotesi di crescita
lineare (18.1.1) e Lipschitzianità locale (18.1.6). Per ogni 0 ≤ t ≤ s ≤ T e x ∈ RN , sia p = p(t, x; s, ·) la
legge della soluzione dell’SDE (18.0.1) con condizione iniziale x al tempo t, calcolata al tempo s. Se X ∈
SDE(b, σ , W , Ft , Z) allora X è un processo di Markov con legge di transizione p.
Dimostrazione. Sia X soluzione dell’SDE
Zt Zt
Xt = Z + b(s, Xs )ds + σ (s, Xs )dWs , t ∈ [t0 , T ], (18.3.1)
t0 t0
relativa al moto Browniano W sullo spazio con filtrazione (Ω, F , P , (Ft )t≥0 ) in cui valgono le ipotesi usuali
e con dato iniziale Z ∈ mFt0 tale che |Z| < +∞ q.c. Per 0 ≤ t ≤ s ≤ T e x ∈ RN , sia p(t, x; s, ·) la legge della
soluzione Xst,x dell’SDE con condizione iniziale x al tempo t, calcolata al tempo s. Osserviamo che p è una
legge di transizione secondo la Definizione 7.1.1. Infatti, si ha:
i) per ogni x ∈ RN , per definizione, p(t, x; s, ·) è una distribuzione tale che p(t, x; t, ·) = δx ;
ii) per ogni H ∈ BN h i
x 7→ p(t, x; s, H) = P Xst,x ∈ H = E 1H Xst,x ∈ mBN
grazie alla proprietà di misurabilità (18.2.1) e al teorema di Fubini.
Proviamo che X in (18.3.1) ha legge di transizione p: in base alla Definizione 7.1.1, si tratta di verificare che
p(t, Xt ; s, H) = P (Xs ∈ H | Xt ), 0 ≤ t0 ≤ t ≤ s ≤ T , H ∈ BN .
Si ha
P (Xs ∈ H | Xt ) = E [1H (Xs ) | Xt ] =
(per la proprietà di flusso (18.2.3))
t,X
h i
= E 1H (Xs t ) | Xt =
(per il Lemma di freezing, essendo Xt ∈ mFt e quindi, per il Lemma 18.2.1, indipendente da FsW ,t e
(x, ω) 7→ 1H (Xst,x (ω)) ∈ m(BN × FsW ,t ) grazie alla (18.2.1))
h i
= E 1H (Xst,x ) |x=Xt = p(t, Xt ; s, H).
Infine, basta ripetere i passaggi precedenti, condizionando a Ft invece che a Xt , per provare la proprietà di
Markov
p(t, Xt ; s, H) = P (Xs ∈ H | Ft ), 0 ≤ t0 ≤ t ≤ s ≤ T , H ∈ BN .
18.4. STIME A PRIORI DI SOMMABILITÀ 389
18.4 Stime a priori di sommabilità

In questa sezione proviamo alcune “stime a priori” per le soluzioni dell’SDE (18.3.1). Si tratta di stime
che valgono sotto condizioni che, in generale, non sono sufficienti a garantire l’esistenza della soluzione
stessa che viene assunta come ipotesi.
Teorema 18.4.1 (Stime a priori in Lp ). Sia X ∈ SDE(b, σ , W , Ft , Z), soluzione dell’SDE (18.3.1) con b, σ che
soddisfano l’ipotesi (18.1.1) di crescita lineare. Per ogni p ≥ 2 esiste una costante positiva c = c(T , d, N , p, c1 ),
tale che  
p
E  sup |Xt |  ≤ c(1 + E [|Z|p ]).
 
(18.4.1)
t0 ≤t≤T
Dimostrazione. Procediamo come nella dimostrazione del Teorema 18.1.5 utilizzando un argomento di
localizzazione e il lemma di Gronwall. Nel seguito assumiamo E [|Z|p ] < ∞ altrimenti la tesi è ovvia.
Poniamo
τn = inf{t ∈ [t0 , T ] | |Xt | ≥ n}, n ∈ N,
con la convenzione min ∅ = T . Essendo |Z| < +∞ e X continuo q.c., si ha che τn è una successione crescente
di tempi d’arresto tali che τn ↗ T q.c. Con bn , σn come in (18.1.7), abbiamo
Z t∧τn Z t∧τn
Xt∧τn = Z + b(s, Xs )ds + σ (s, Xs )dWs
t0 t0
Z t Z t
=Z+ bn (s, Xs∧τn )ds + σn (s, Xs∧τn )dWs .
t0 t0
I coefficienti bn = bn (t, x) e σn = σn (t, x), pur essendo stocastici, verificano la condizione di crescita li-
neare (18.1.1) con la stessa costante c1 : la dimostrazione della stima (18.1.3) si può ripetere in modo
sostanzialmente identico al caso di b, σ deterministici, per ottenere
" # Z t1 " #! !
vn (t1 ) := E sup |Xt∧τn |p ≤ 2p−1 E [|Z|p ] + c̄1 1 + E sup |Xr∧τn |p ds , t1 ∈ [t0 , T ],
t0 ≤t≤t1 t0 t0 ≤r≤s
| {z }
=vn (s)
o equivalentemente
Z t1 !
p
vn (t1 ) ≤ c 1 + E [|Z| ] + vn (s)ds , t1 ∈ [t0 , T ],
t0
con c costante positiva che dipende solo da T , d, N , p, c1 e non da n. Osserviamo che vn è una funzione
misurabile e limitata poichè |Xt∧τn | ≤ |Z|1(|Z|≥n) + n1(|Z|<n) e quindi vn (t) ≤ E [(|Z| + n)p ] < +∞: allora per il
lemma di Gronwall abbiamo
 
p 
E  sup Xt∧τn  = vn (T ) ≤ cec(T −t0 ) (1 + E [|Z|p ]) ,

t0 ≤t≤T
da cui, passando al limite per n che tende all’infinito, segue la (18.4.1) grazie al teorema di Beppo-Levi.
Nel caso in cui il coefficiente diffusivo sia limitato, vale una stima di sommabilità più forte di quella del
Teorema 18.4.1. Proviamo un risultato preliminare e di interesse indipendente.
Lemma 18.4.2. Sia σ ∈ L2 tale che |σt |2 ≤ κ q.c. per t ∈ [0, T ]. Allora per il processo
Zt
Mt := σs dWs
0
vale la stima !
λ2
P sup |Mt | ≥ λ ≤ 2N e− 2N κT , λ > 0.
0≤t≤T
Dimostrazione. Consideriamo prima il caso N = 1. Per ogni α > 0 il processo

Z t
(α) α 2 ⟨M⟩
Zt = eαMt − 2 t , ⟨M⟩t = σs2 ds,
0
è una martingala, come si verifica facilmente con la formula di Itô, e ⟨M⟩t ≤ κt q.c. Inoltre, per λ > 0 e
t ∈ [0, T ], vale
(α) α 2 κT

(Mt ≥ λ) = eαMt ≥ eαλ ⊆ Zt ≥ eαλ− 2 .
Allora si ha
! !
2 κT
(α) αλ− α
P sup Mt ≥ λ ≤ P sup Zt ≥e 2 ≤
0≤t≤T 0≤t≤T
(per la disuguaglianza massimale di Doob, Teorema 13.1.2)
α 2 κT α 2 κT

(α)
≤ e−αλ+ 2 E ZT = e−αλ+ 2
(α) (α)
dove nell’ultima uguaglianza abbiamo utilizzato la proprietà di martingala E[ZT ] = E[Z0 ] = 1. Sceglien-
do α in modo da minimizzare l’ultimo termine6 , otteniamo
!
λ2
P sup Mt ≥ λ ≤ e− 2κT
0≤t≤T
Una stima analoga vale per −M e questo prova la tesi nel caso scalare.
Nel caso multi-dimensionale, basta notare che
! !
i λ
sup |Mt | ≥ λ ⊆ sup |Mt | ≥ √
0≤t≤T 0≤t≤T N
per almeno una componente M i , con i ∈ {1, . . . , N }, di M. Allora si ha

! XN !
λ
P sup |Mt | ≥ λ ≤ P sup |Mti | ≥ √
0≤t≤T i=1 0≤t≤T N
da cui la tesi.
Teorema 18.4.3 (Stima a priori esponenziale). Assumiamo le ipotesi del Teorema 18.2.2 e supponiamo
che il coefficiente σ sia limitato da una costante κ, ossia |σ (t, x)| ≤ κ per (t, x) ∈ [t0 , T ] × RN . Allora esistono
due costanti positive α e c, dipendenti solo da T , κ, c1 e N , tali che se X è soluzione dell’SDE (18.3.1) si ha

2 h 2i
E eα X̄T ≤ cE ec|Z| , X̄T := sup |Xt |.
t0 ≤t≤T
α 2 κT
6 La funzione α 7→ e−αλ+ 2 λ .
raggiunge il suo minimo in ᾱ = κT
18.4. STIME A PRIORI DI SOMMABILITÀ 391
Dimostrazione. Consideriamo prima il caso in cui il dato iniziale è deterministico, Z ≡ x ∈ RN , e poniamo

Z
t
M̄T = sup σ (s, Xs )dWs .
t0 ≤t≤T t0
Dato δ > 0, su (M̄T < δ) a meno di un evento trascurabile si ha

Zt
|Xt | < |x| + c1 T + c1 sup |Xs |ds + δ, t ∈ [t0 , T ],
t0 t0 ≤r≤s
da cui, per il lemma di Gronwall,

X̄T < (|x| + c1 T + δ)ec1 T .
Di conseguenza
X̄T ≥ (|x| + c1 T + δ)ec1 T ⊆ M̄T ≥ δ
e per il Lemma 18.4.2 esiste una costante positiva c, dipendente solo da N , κ e T , tale che
δ2
P X̄T ≥ (|x| + c1 T + δ)ec1 T ≤ ce− c . (18.4.2)
Poniamo λ = (|x| + c1 T + δ)ec1 T e osserviamo che

λ −c1 T
δ = λe−c1 T − |x| − c1 T ≥ e se λ ≥ λ̄ := 2ec1 T (|x| + c1 T ) . (18.4.3)
2
Allora, combinando (18.4.2) e (18.4.3), abbiamo
λ2
P X̄T ≥ λ ≤ ce− c , λ ≥ λ̄, (18.4.4)
con c costante positiva dipendente solo da T , κ, c1 e N . Ora applichiamo la Proposizione 4.1.5 con f (λ) =
2
eαλ , dove la costante α > 0 sarà determinata in seguito: vale
Z∞
α X̄T2 2
E e = 1 + 2α λeαλ P X̄T ≥ λ dλ ≤
0
(per la (18.4.4))
Z λ̄ Z +∞
2 2 1
≤ 1 + 2α λeαλ dλ + 2αc λeλ (α− c ) dλ =
0 λ̄
1
(posto α = 2c )
λ̄2 λ̄2
= e 2c + ce− 2c ,
da cui, ricordando l’espressione di λ̄ in (18.4.3), si ha la tesi nel caso Z = x ∈ RN .

In generale, consideriamo la funzione
t ,x
F(x, ω) = sup |Xt 0 (ω)|2 , (x, ω) ∈ RN × Ω.
t0 ≤t≤T
W ,t0
Per il Teorema 18.2.2 X̄T2 = F(Z, ·) q.c. e per il lemma di freezing, essendo F ∈ m(BN ⊗ FT ), si ha
h i h i 2
E eαF(Z,·) | Z = E eαF(x,·) |x=Z ≤ cec|Z|
grazie alla stima provata nel caso del dato iniziale deterministico. Per concludere, basta applicare il valore
atteso.
18.5 Regolarità e dipendenza dal dato iniziale

Teorema 18.5.1 (Stime di regolarità e dipendenza dal dato iniziale). Sotto le ipotesi standard (18.1.1)-
(18.1.2), siano X t0 ,Z0 e X t1 ,Z1 soluzioni dell’SDE (18.0.1), rispettivamente con dati iniziali (t0 , Z0 ) e (t1 , Z1 )
con 0 ≤ t0 ≤ t1 ≤ t2 ≤ T . Allora per ogni p ≥ 2 esiste una costante positiva c = c(T , d, N , p, c1 , c2 ) tale che
 
t1 ,Z1 p  p p

t0 ,Z0

 p p
E  sup Xt − Xs  ≤ cE [|Z0 − Z1 | ] + c (1 + E [|Z1 | ]) |t1 − t0 | 2 + |T − t2 | 2 . (18.5.1)
 
t2 ≤t,s≤T
Dimostrazione. Per la disuguaglianza elementare (18.1.5) si ha

 p   p 
X t0 ,Z0 − Xst1 ,Z1  ≤ 3p−1 E  supX t0 ,Z0 − X t0 ,Z1 
 
E  sup t   t t 
t2 ≤t,s≤T t2 ≤t≤T
   p 
t1 ,Z1 p 

p−1  t0 ,Z1 p−1  X t1 ,Z1 − Xst1 ,Z1  .(18.5.2)
+ 3 E  sup Xt − Xt  + 3 E  sup
  
t 
t2 ≤t≤T t2 ≤t,s≤T
Ancora per la (18.1.5) e la (18.1.4) si ha

" # Zt
t ,Z p p−2

t ,Z
v(t) := E sup Xs 0 0 − Xs 0 1 ≤ 2p−1 E [|Z0 − Z1 |p ] + 2p−1 c̄2 T 2 v(s)ds,
t0 ≤s≤t t0
e, per il lemma di Gronwall,

 p 
X t0 ,Z0 − X t0 ,Z1  ≤ v(T ) ≤ cE [|Z0 − Z1 |p ]

E  sup t t  (18.5.3)
t2 ≤t≤T
con c che dipende solo da p, T e c2 .

D’altra parte, per la proprietà di flusso abbiamo
 p   t ,Z
p 
t1 ,Xt 0 1

 t0 ,Z1 t 1 ,Z1
 1 t 1 ,Z1

E  sup Xt − Xt  = E  sup X − Xt  ≤

  t
t2 ≤t≤T t2 ≤t≤T
(per la (18.5.3))
p
t ,Z
≤ cE Xt10 1 − Z1 ≤
(per la (18.1.3))
p−2
Z t1 " #!
t ,Z
≤ cc̄1 |t1 − t0 | 2 1 + E sup |Xr 0 1 |p ds ≤
t0 t0 ≤r≤s
(per la stima Lp (18.4.1), con una nuova costante c = C(T , d, N , p, c1 , c2 ))

p
≤ c(1 + E [|Z1 |p ])|t1 − t0 | 2 .
L’ultimo termine della (18.5.2) si stima in modo completamente analogo e questo conclude la prova.
Corollario 18.5.2 (Proprietà di Feller e di Markov forte). Sotto le ipotesi standard (18.1.1)-(18.1.2), se
X ∈ SDE(b, σ , W , Ft , Z) allora X è un processo di Feller e soddisfa la proprietà di Markov forte.
18.6. EQUAZIONI STOCASTICHE LINEARI 393
Dimostrazione. Per il Teorema 18.3.1, X è un processo di Markov con legge di transizione p = p(t, x; T , ·)
dove, per ogni t, T ≥ 0 con t ≤ T e x ∈ RN , p(t, x; T , ·) è la legge della v.a. XTt,x . Per la (18.5.1) e il Teorema 9.3.1
di continuità di Kolmogorov (nella versione multi-dimensionale del Teorema 9.3.4), il processo (t, x, T ) 7→
XTt,x ammette una modificazione X et,x con traiettorie localmente α-Hölderiane per ogni α ∈ [0, 1[ rispetto
T
alla cosiddetta distanza “parabolica”: precisamente, per ogni α ∈ [0, 1[, n ∈ N e ω ∈ Ω esiste cα,n,ω > 0 tale
che α
eus,y (ω) ≤ cα,n,ω |x − y| + |t − s| 12 + |r − u| 12 ,

Xert,x (ω) − X
per ogni t, s, r, u ∈ [0, T ] tali che t ≤ r, s ≤ u, e per ogni x, y ∈ RN tali che |x|, |y| ≤ n. Di conseguenza, per ogni
ϕ ∈ bC(RN ) e h > 0, la funzione
Z
et,x )
h i
(t, x) 7−→ p(t, x; t + h, dy)ϕ(y) = E ϕ(Xt+h
RN
è continua grazie al teorema della convergenza dominata e questo prova che X è un processo di Feller. La
proprietà di Markov forte segue dal Teorema 12.1.2.
18.6 Equazioni stocastiche lineari

Consideriamo un’SDE della forma
dXt = (BXt + b)dt + σ dWt (18.6.1)
dove B ∈ RN ×N , b ∈ RN , σ ∈ RN ×d e W è un moto Browniano d-dimensionale. La (18.6.1) è un’SDE della

forma (18.0.1) con i coefficienti b(t, x) = Bx + b e σ (t, x) = σ che sono funzioni lineari della variabile x (in
realtà il coefficiente di diffusione è addirittura costante) e pertanto diciamo che (18.6.1) è un’SDE lineare. I
risultati generali, Teoremi 18.1.5 e 18.2.2, garantiscono l’esistenza e unicità in senso forte della soluzione.
Il teorema seguente fornisce l’espressione esplicita della soluzione.
Teorema 18.6.1. La soluzione X x = (Xtx )t≥0 di (18.6.1) con dato iniziale X0x = x ∈ RN è data da
Z t Z t !
Xtx = etB x + e−sB bds + e−sB σ dWs . (18.6.2)
0 0
Di conseguenza, Xtx ∼ Nmt (x),Ct dove

Z t ! Z t
tB
mt (x) = e x+ e −sB
bds , Ct = esB σ (esB σ )∗ ds.
0 0
Dimostrazione. Per provare che X x in (18.6.2) risolve l’SDE (18.6.1) è sufficiente applicare la formula di Itô
usando l’espressione Xtx = etB Ytx dove
dYtx = e−tB bdt + e−tB σ dWt , Y0x = x.
Ricordiamo ora che, poiché Y x è un processo di Itô a coefficienti deterministici, per la versione multi-
dimensionale dell’Esempio 16.1.10 si ha
Z t Z t
∗
Ytx ∼ Nµt (x),Ct , µt (x) = x + e −sB
bds, Ct = e−sB σ σ ∗ e−sB ds.
0 0
La tesi segue facilmente poiché X x è una trasformazione lineare di Y x .

Osservazione 18.6.2. Più in generale, la soluzione X t,x = (XTt,x )T ≥t di (18.6.1), con condizione iniziale Xtt,x =
x, è data da Z T Z !T
XTt,x = e(T −t)B x + e−(s−t)B bds + e−(s−t)B σ dWs ∼ NmT −t (x),CT −t .
t t
Se la matrice di covarianza CT −t è definita positiva per T > t allora il processo X ha densità di transizione
Gaussiana
N
(2π)− 2 1

Γ (t, x; T , y) = √ exp − ⟨CT−1−t (y − mT −t (x)), (y − mT −t (x))⟩ , t < T , x, y ∈ RN .
det CT −t 2
Sia
N
1X
Ax := (σ σ ∗ )ij ∂xi xj + ⟨Bx + b, ∇⟩
2
i,j=1
N N N
1X ∗
X X
= (σ σ )ij ∂xi xj + bij xj ∂xi + bi ∂xi
2
i,j=1 i,j=1 i=1
l’operatore alle derivate parziali che compare nella formula di Itô per X: in analogia con quanto visto nella
Sezione 10.2 per il moto Browniano, Ax è il generatore infinitesimale (anche chiamato, operatore caratteristi-
co) del processo di Markov X. Come nell’Osservazione 10.2.6, la funzione (t, x) 7→ Γ (t, x; T , y) è la soluzione
fondamentale dell’operatore ∂t + Ax , detto operatore di Kolmogorov backward di X, con polo in (T , y) e vice-
versa (T , y) 7→ Γ (t, x; T , y) è la soluzione fondamentale dell’operatore −∂T +Ay∗ , detto operatore di Kolmogorov
forward di X, con polo in (t, x).
Esempio 18.6.3 (Equazione di Langevin). [!] Consideriamo l’SDE in R2


dVt = dWt ,


(18.6.3)
dXt = Vt dt,


che è la versione semplificata dell’equazione di Langevin [47] utilizzata in fisica per descrivere il moto
aleatorio di una particella nello spazio delle fasi: Vt e Xt rappresentano rispettivamente la velocità e la
posizione della particella. Paul Langevin fu il primo, nel 1908, ad applicare le leggi di Newton al moto
casuale Browniano studiato da Einstein pochi anni prima. Lemons [48] fornisce un interessante resoconto
degli approcci di Einstein e Langevin.
Riferendoci alla notazione generale (18.6.1) abbiamo d = 1 < N = 2 e
! !
0 0 1
B= , σ= .
1 0 0
Poiché B2 = 0, la matrice B è nilpotente e !

1 0
etB = .
t 1
Inoltre, posto z = (v, x), si ha
mt (z) = etB z = (v, x + tv),
e
t2 
 
Z t Z t ! ! !
sB ∗ sB∗ 1 0 1 0 1 s  t
Ct = e σσ e ds = ds =  t 2 2  .
t3 
0 0 s 1 0 0 0 1
2 3
18.6. EQUAZIONI STOCASTICHE LINEARI 395
Si noti che Ct è definita positiva per ogni t > 0 e quindi (V , X) ha densità di transizione
√
3 1 −1

(T −t)B (T −t)B
Γ (t, z; T , ζ) = exp − ⟨C (ζ − e z), (ζ − e z)⟩
π(T − t)2 2 T −t
per t < T e z = (v, x), ζ = (η, ξ) ∈ R2 , dove
4
− t62
!
Ct−1 = t .
− t62 12
t3
Inoltre, (t, v, x) 7→ Γ (t, v, x; T , η, ξ) è soluzione fondamentale dell’operatore di Kolmogorov backward

1
∂ + v∂x + ∂t (18.6.4)
2 vv
e (T , η, ξ) 7→ Γ (t, v, x; T , η, ξ) è soluzione fondamentale dell’operatore di Kolmogorov forward
1
∂ − η∂ξ − ∂T . (18.6.5)
2 ηη
Gli operatori in (18.6.4) e (18.6.5) non sono uniformemente parabolici poiché la matrice della parte del
second’ordine !
1 0
σσ∗ =
0 0
è degenere; tuttavia essi hanno una soluzione fondamentale Gaussiana come l’operatore del calore. Kol-
mogorov [40] fu il primo a determinare la soluzione fondamentale di (18.6.4) (si veda anche l’introduzione
del lavoro di Hörmander’s [33]). In finanza l’operatore backward (18.6.4) interviene nella valutazione di
alcuni strumenti derivati complessi, come per esempio le cosiddette opzioni Asiatiche.
Esempio 18.6.4. [!] Nell’Esempio 16.1.6 avevamo visto che
Zt
Xt := Ws ds
0
ha distribuzione normale, precisamente Xt ∼ N0, t3 . Diamo una dimostrazione alternativa di questo fatto:
3
osserviamo anzitutto che X è un processo di Itô ma non è soluzione di un’SDE della forma (17.0.1)-(17.0.2)
dove i coefficienti b, σ sono funzioni deterministiche. Al contrario, la coppia (W , X) è soluzione dell’SDE
lineare (18.6.3): risolvendo tale equazione si determina la distribuzione congiunta di W e X (che è normale
bidimensionale come nell’Esempio 18.6.3) e da ciò si ricava la distribuzione di X.
È interessante osservare che (W , X) è un processo di Markov (rispetto alla filtrazione Browniana F W )
per il Teorema 18.3.1. Al contrario, X non è un processo di Markov rispetto a F W : se lo fosse, dovrebbe
valere h i
E [XT | Xt ] = E XT | FtW , t ≤T, (18.6.6)
h i
e di conseguenza (si ricordi l’Osservazione 7.2.3!) ogni versione di E XT | FtW dovrebbe essere uguale q.c. a
una funzione misurabile di Xt . Ora, un semplice conto mostra che
"Z T #
h i
W W
E XT | Ft = Xt + E Ws ds | Ft
t
"Z T #
= Xt + E (Ws − Wt )ds + (T − t)Wt | FtW = Xt + (T − t)Wt .
t
Se valesse la (18.6.6), allora dovrebbe esistere f ∈ mB tale che Wt = f (Xt ) q.c. ma questo è assurdo: in-
fatti se Wt = f (Xt ) q.c. allora µWt |Xt = δf (Xt ) e ciò contrasta con il fatto che (Wt , Xt ) ha densità Gaussiana
bidimensionale.
Capitolo 19
Problema di Cauchy per equazioni

paraboliche
In questo capitolo presentiamo in maniera sintetica alcuni risultati di base sul problema di Cauchy per
equazioni differenziali alle derivate parziali (abbreviato nel seguito in PDE, dalla locuzione anglosassone
“partial differential equations”) di tipo parabolico. Le monografie di Friedman [27], Ladyzhenskaia, Solon-
nikov e Ural’tseva [43], Oleinik and Radkevic [57] anche se un po’ datate, sono classici testi di riferimento
per una trattazione più completa e approfondita.
Fissato T > 0, indichiamo con (t, x) il punto di ]0, T [×RN e consideriamo l’equazione L u(t, x) = 0 dove
L è un operatore alle derivate parziali del second’ordine della forma
N N
1X X
L =: cij (t, x)∂xi xj + bj (t, x)∂xj + a(t, x) − ∂t . (19.0.1)
2
i,j=1 j=1
Assumiamo siano soddisfatte le seguenti ipotesi minimali:

Ipotesi 19.0.1.
i) I coefficienti cij = cij (t, x), bi = bi (t, x) e a = a(t, x) sono funzioni misurabili a valori reali per ogni
i, j = 1, . . . , N ;
ii) la matrice C (t, x) := (cij (t, x)) è simmetrica e semi-definita positiva per ogni (t, x) ∈]0, T [×RN . Per
questo si dice che L è un operatore di tipo parabolico;
iii) il coefficiente a è superiormente limitato: esiste a0 ∈ R tale che
a(t, x) ≤ a0 , (t, x) ∈]0, T [×RN .
Indichiamo con C 1,2 (]0, T [×RN ) lo spazio delle funzioni differenziabili con continuità in ]0, T [×RN al
prim’ordine nella variabile t e fino al second’ordine nelle variabili x. Siamo interessati a studiare l’esistenza
e l’unicità delle soluzioni del seguente problema.
Definizione 19.0.2 (Problema di Cauchy). Una soluzione classica del problema di Cauchy per L su [0, T [×RN
è una funzione u ∈ C 1,2 (]0, T [×RN ) ∩ C([0, T [×RN ) tale che

L u = f , in ]0, T [×RN ,


(19.0.2)
u(0, ·) = ϕ, in RN ,


dove f e ϕ sono funzioni assegnate, chiamate rispettivamente termine noto e dato iniziale del problema.
397
398 CAPITOLO 19. PROBLEMA DI CAUCHY PER EQUAZIONI PARABOLICHE
19.1 Principio del massimo e unicità

Un classico esempio dovuto a Tychonoff [74] mostra che il problema (19.0.2) per l’operatore del calore
ammette infinite soluzioni: infatti si verifica che, oltre alla soluzione identicamente nulla, anche le funzioni
del tipo
∞
X x2k k − 1α
uα (t, x) := ∂ e t , α > 1, (19.1.1)
(2k)! t
k=0
sono soluzioni classiche del problema di Cauchy

1
 2 ∂xx uα − ∂t uα = 0 in R>0 × R,


uα (0, ·) = 0 in R.


Tuttavia le soluzioni in (19.1.1) sono in un certo senso “patologiche”, oscillano cambiando segno infinite
volte e hanno una crescita molto rapida per |x| → ∞. Alla luce dell’esempio di Tychonoff, lo studio dell’uni-
cità della soluzione del problema (19.0.2) consiste nel determinare opportune classi di funzioni, dette classi
di unicità per L , all’interno delle quali la soluzione, se esiste, è unica.
Proveremo che una classe di unicità è data dalle funzioni che crescono non troppo rapidamente all’in-
finito nel senso che soddisfano la stima
2
|u(t, x)| ≤ CeC|x| , (t, x) ∈]0, T [×RN , (19.1.2)
con C costante positiva. Questo risultato, contenuto nel Teorema 19.1.7, si prova sotto condizioni molto
generali, assumendo l’Ipotesi 19.0.1 e la seguente
Ipotesi 19.1.1. Esiste una costante M tale che
|cij (t, x)| ≤ M, |bi (t, x)| ≤ M(1 + |x|), |a(t, x)| ≤ M(1 + |x|2 ), (t, x) ∈]0, T [×RN , i, j = 1, . . . , N .
È possibile determinare un’altra classe di unicità imponendo altre condizioni di crescita sui coefficienti.
Ipotesi 19.1.2. Esiste una costante M tale che
|cij (t, x)| ≤ M(1 + |x|2 ), |bi (t, x)| ≤ M(1 + |x|), |a(t, x)| ≤ M, (t, x) ∈]0, T [×RN , i, j = 1, . . . , N .
Il Teorema 19.1.9 mostra che, sotto le Ipotesi 19.0.1 e 19.1.2, una classe di unicità è data dalle funzioni
con crescita al più polinomiale, che soddisfano una stima del tipo
|u(t, x)| ≤ C(1 + |x|p ), (t, x) ∈]0, T [×RN , (19.1.3)
per certe costanti positive C e p.
Notiamo esplicitamente che le ipotesi precedenti sono talmente deboli da non garantire in generale
l’esistenza della soluzione. Sotto ipotesi molto più forti che implicano la risolubilità del problema di Cauchy,
proveremo in seguito (cfr. Teorema 17.2.6) che anche la famiglia delle funzioni non-negative è una classe
di unicità per L .
19.1.1 Problema di Cauchy-Dirichlet

In questa sezione studiamo l’operatore L in (19.0.1) su un “cilindro” della forma
DT = ]0, T [×D
dove D è un dominio (insieme aperto e connesso) limitato di RN . Indichiamo con ∂D la frontiera di D e
diciamo che
∂p DT := ({0} × D) ∪ ([0, T [×∂D)
| {z } | {z }
base bordo laterale
19.1. PRINCIPIO DEL MASSIMO E UNICITÀ 399
è la frontiera parabolica di DT . Come in precedenza, C 1,2 (DT ) è lo spazio delle funzioni differenziabili con
continuità in DT al prim’ordine nella variabile t e fino al second’ordine nelle variabili x.
Definizione 19.1.3 (Problema di Cauchy-Dirichlet). Una soluzione classica del problema di Cauchy-Dirichlet
per L su DT è una funzione u ∈ C 1,2 (DT ) ∩ C(DT ∪ ∂p DT ) tale che

L u = f , in DT ,


(19.1.4)
u = ϕ, in ∂p DT ,


dove f ∈ C(DT ) e ϕ ∈ C(∂p DT ) sono funzioni assegnate, chiamate rispettivamente termine noto e dato al
bordo del problema.
Il risultato principale della sezione, da cui segue l’unicità della soluzione classica del problema (19.1.4)
(cfr. Corollario 19.1.5), è il seguente
Teorema 19.1.4 (Principio del massimo debole). Sotto l’Ipotesi 19.0.1, se u ∈ C 1,2 (DT ) ∩ C(DT ∪ ∂p DT ) è
tale che L u ≥ 0 in DT e u ≤ 0 su ∂p DT , allora si ha u ≤ 0 su DT .
Dimostrazione. Osserviamo anzitutto che non è restrittivo assumere a0 < 0 nell’Ipotesi 19.0.1. Se non lo
fosse, basterebbe provare la tesi per la funzione
uλ (t, x) := e−λt u(t, x) (19.1.5)
che soddisfa
L uλ − λuλ = e−λt L u, (19.1.6)
scegliendo λ > a0 .
Dunque assumiamo a0 < 0, indichiamo con D̄T = DT ∪ ∂DT la chiusura di DT e supponiamo per assurdo
che u(t0 , x0 ) > 0 in un punto (t0 , x0 ) ∈ DT . Allora per un certo (t1 , x1 ) ∈ D̄t0 \ ∂p Dt0 avremmo
u(t1 , x1 ) = max u ≥ u(t0 , x0 ) > 0,

D̄t0
e
∇2 u(t1 , x1 ) := (∂xi xj u(t1 , x1 )) ≤ 0, ∂xk u(t1 , x1 ) = 0, ∂t u(t1 , x1 ) ≥ 0,
per ogni k = 1, . . . , N . Allora esiste una matrice simmetrica e semi-definita positiva M = (mij ) tale che
N  N 
X  X 
2 2
−∇ u(t1 , x1 ) = M =  mih mhj  =  mih mjh 
h=1 i,j h=1 i,j
e quindi
N N N
1X X X
L u(t1 , x1 ) = − cij (t1 , x1 ) mih mjh + bj (t1 , x1 )∂xj u(t1 , x1 ) + a(t1 , x1 )u(t1 , x1 ) − ∂t u(t1 , x1 )
2
i,j=1 h=1 j=1
N N
1XX
=− cij (t1 , x1 )mih mjh +a(t1 , x1 )u(t1 , x1 ) − ∂t u(t1 , x1 )
2
h=1 i,j=1
| {z }
≥0 poiché C =(cij )≥0
≤ a(t1 , x1 )u(t1 , x1 ) < 0,
e questo contraddice l’ipotesi L u ≥ 0 in DT .

Corollario 19.1.5 (Principio del confronto). Assumiamo l’Ipotesi 19.0.1. Siano u, v ∈ C 1,2 (DT ) ∩ C(DT ∪
∂p DT ) tali che L u ≤ L v in DT e u ≥ v su ∂p DT . Allora u ≥ v in DT . In particolare, se esiste, la soluzione
classica del problema di Cauchy-Dirichlet (19.1.4) è unica.
Dimostrazione. Basta applicare il principio del massimo debole alla funzione v − u.
Il seguente utile risultato fornisce una stima del massimo della soluzione del problema di Cauchy-
Dirichlet (19.1.4) in funzione del termine noto f e del dato al bordo ϕ.
Teorema 19.1.6. Se l’operatore L soddisfa l’Ipotesi 19.0.1 allora per ogni u ∈ C 1,2 (DT ) ∩ C(DT ∪ ∂p DT ) vale
 
a+0 T
 
sup |u| ≤ e  sup |u| + T sup |L u| ,
  a+0 := max{0, a0 }. (19.1.7)
DT ∂p DT D T
Dimostrazione. Consideriamo prima il caso a0 ≤ 0 e quindi a+0 = 0. Supponiamo che u e L u siano limitate
rispettivamente su ∂p DT e DT , altrimenti non c’è nulla da provare. Posto
w(t) = sup |u| + t sup |L u|, t ∈ [0, T ],

∂p DT DT
abbiamo
L w = aw − sup |L u| ≤ L u, L (−w) = −aw + sup |L u| ≥ L u,
DT DT
e −w ≤ u ≤ w su ∂p DT . Allora la stima (19.1.7) segue dal principio del confronto, Corollario 19.1.5.
Sia ora a0 > 0. Consideriamo uλ in (19.1.5) con λ = a0 : per quanto appena provato, vale
sup |uλ | ≤ sup |uλ | + T sup |(L − a0 )uλ |.

DT ∂p DT DT
Allora, essendo a0 > 0, otteniamo
e−a0 T sup |u| ≤ sup |e−a0 t u(t, x)| ≤ sup |uλ | + T sup |(L − a0 )uλ | ≤
DT (t,x)∈DT ∂p DT DT
(per la (19.1.6))
≤ sup |e−a0 t u(t, x)| + T sup |e−a0 t L u(t, x)| ≤

(t,x)∈∂p DT (t,x)∈DT
(poiché a0 > 0)
≤ sup |u| + T sup |L u|,

∂p DT DT
19.1.2 Problema di Cauchy

Proviamo risultati analoghi a quelli della sezione precedente per il problema di Cauchy (19.0.2).
Teorema 19.1.7 (Principio del massimo debole). Assumiamo le Ipotesi 19.0.1 e 19.1.1. Se u ∈ C 1,2 (]0, T [×RN )∩
C([0, T [×RN ) è tale che 
L u ≤ 0, in ]0, T [×RN ,


(19.1.8)
u(0, ·) ≥ 0, in RN ,


19.1. PRINCIPIO DEL MASSIMO E UNICITÀ 401
e verifica la stima
2
u(t, x) ≥ −CeC|x| , (t, x) ∈ [0, T [×RN , (19.1.9)
per una costante positiva C, allora u ≥ 0 in [0, T [×RN . Di conseguenza, esiste al più una sola soluzione
classica u ∈ C 1,2 (]0, T [×RN ) ∩ C([0, T [×RN ) del problema di Cauchy (19.0.2) che verifica la stima (19.1.2) di
crescita all’infinito.
Proviamo prima il seguente
Lemma 19.1.8. Sotto l’Ipotesi 19.0.1, se u ∈ C 1,2 (]0, T [×RN ) ∩ C([0, T [×RN ) verifica (19.1.8) ed è tale che
lim inf inf u(t, x) ≥ 0, (19.1.10)

|x|→∞ t∈]0,T [
allora u ≥ 0 su [0, T [×RN .

Dimostrazione. Come nella prova del Teorema 19.1.4, non è restrittivo assumere a0 < 0 cosicché, per ogni
ε > 0, si ha 
L (u + ε) ≤ 0, in ]0, T [×RN ,


u(0, ·) + ε > 0, in RN .


Fissiamo (t0 , x0 ) ∈]0, T [×RN . Grazie alla condizione (19.1.10), esiste R > |x0 | tale che
u(t, x) + ε > 0, t ∈ ]0, T [, |x| = R,
e dal principio del massimo debole del Teorema 19.1.4, applicato sul cilindro
DT = ]0, T [×{|x| < R},
si deduce che u(t0 , x0 ) + ε ≥ 0. Ne segue che u(t0 , x0 ) ≥ 0, data l’arbitrarietà di ε.

Dimostrazione del Teorema 19.1.7. Proviamo che u ≥ 0 su una striscia ]0, T0 [×RN con T0 > 0 che dipende
solo dalla costante M dell’Ipotesi 19.1.1 e dalla costante C in (19.1.9): se necessario, basta poi applicare
ripetutamente tale risultato per provare la tesi sulla striscia ]0, T [×RN .
Anzitutto, per capire l’idea generale, diamo la prova nel caso particolare dell’operatore del calore
1
L = ∆ − ∂t ,
2
1
Fissato γ > C, poniamo T0 = 4γ e consideriamo la funzione
γ|x|2
!
1
v(t, x) := N
exp , (t, x) ∈ [0, T0 [×RN ,
(1 − 2γt) 2 1 − 2γt
tale che
2
L v(t, x) = 0 e v(t, x) ≥ eγ|x| .
Dal Lemma 19.1.8 deduciamo che u + εv ≥ 0 per ogni ε > 0, da cui la tesi.
Il caso generale è solo tecnicamente più complicato e sfrutta l’Ipotesi 19.1.1 sui coefficienti dell’opera-
tore. Fissato γ > C e due costanti α, β ∈ R che determineremo in seguito, consideriamo la funzione
γ|x|2
!
1
v(t, x) = exp + βt , 0≤t≤ , x ∈ RN .
1 − αt 2α
Poiché
N
Lv 2γ 2 γ 2γ X αγ|x|2
= ⟨C x, x⟩ + tr C + bi x i + a − − β,
v (1 − αt)2 1 − αt 1 − αt (1 − αt)2
i=1
per l’Ipotesi 19.1.1 è possibile scegliere α, β abbastanza grandi in modo che
Lv
≤ 0. (19.1.11)
v
Posto w := uv , per la condizione (19.1.9), si ha
 
 
lim inf  inf w(t, x) ≥ 0,

|x|→∞ 1
0≤t≤ 2α
e w soddisfa l’equazione
N N
1X X Lu
cij ∂xi xj w + b̂i ∂xi w + âw − ∂t w = ≤ 0,
2 v
i,j=1 i=1
dove
N ∂x j v
X Lv
b̂i = bi + cij , â = .
v v
j=1
Poiché â ≤ 0 per la (19.1.11), possiamo applicare il Lemma 19.1.8 per concludere che w (quindi anche u) è
non-negativa.
Teorema 19.1.9 (Principio del massimo debole). Assumiamo le Ipotesi 19.0.1 e 19.1.2. Se u ∈ C 1,2 (]0, T [×RN )∩
C([0, T [×RN ) verifica (19.1.8) e la stima
u(t, x) ≥ −C(1 + |x|p ), (t, x) ∈ [0, T [×RN , (19.1.12)
per certe costanti positive C e p, allora u ≥ 0 in [0, T [×RN . Di conseguenza, esiste al più una sola soluzione
classica del problema di Cauchy (19.0.2) che verifica la stima (19.1.3) di crescita polinomiale all’infinito.
Dimostrazione. Proviamo solo il caso a0 < 0. Si considera la funzione

q
v(t, x) = eαt κt + |x|2
e si verifica che per ogni q > 0 è possibile scegliere α, κ tali che L v < 0 su ]0, T [×RN . Allora per p < 2q e
per ogni ε > 0 si ha L (u +εv) < 0 su ]0, T [×RN e, grazie alla condizione (19.1.12), si può applicare il Lemma
19.1.8 per dedurre che u + εv ≥ 0 su ]0, T [×RN . La tesi segue dall’arbitrarietà di ε.
Proviamo ora l’analogo del Teorema 19.1.6: il seguente risultato fornisce delle stime, in norma L∞ , di
dipendenza della soluzione in termini del dato iniziale e del termine noto. Queste stime giocano un ruolo
cruciale, per esempio, nella prova della stabilità di alcuni metodi numerici.
Teorema 19.1.10. Se l’operatore L soddisfa l’Ipotesi 19.0.1 e una fra le Ipotesi 19.1.1 e 19.1.2, allora per
ogni u ∈ C 1,2 (]0, T [×RN ) ∩ C([0, T [×RN ) vale
 
−a+0 T 
 
sup |u| ≤ e sup |u(0, ·)| + T sup |L u| ,

  a+0 := max{0, a0 }.
[0,T [×R N R N N]0,T [×R
Dimostrazione. Se a0 < 0 allora, posto
w± = sup |u(0, ·)| + t sup |L u| ± u, in ]0, T [×RN ,

RN ]0,T [×RN
19.2. SOLUZIONE FONDAMENTALE 403
si ha 


L w± ≤ − sup |L u| ± L u ≤ 0, in ]0, T [×RN ,
]0,T [×RN


on RN ,

w± (0, ·) ≥ 0,

e chiaramente w± verifica la stima (19.1.12) (e quindi anche la (19.1.9)). A seconda delle ipotesi assunte,
segue dal Teorema 19.1.7 oppure 19.1.9 che w± ≥ 0 in [0, T [×RN e questo prova la tesi. D’altra parte, se
a0 ≥ 0 allora basta procedere come nella dimostrazione del Teorema 19.1.6.
19.2 Soluzione fondamentale

In questa sezione diamo un risultato di esistenza di soluzioni classiche del problema di Cauchy per
l’operatore L in (19.0.1). Il concetto cruciale a questo riguardo è quello di soluzione fondamentale.
Definizione 19.2.1 (Soluzione fondamentale). Una soluzione fondamentale per l’operatore L in [0, T [×RN
è una funzione Γ = Γ (t0 , x0 ; t, x), definita per 0 ≤ t0 < t < T e x0 , x ∈ RN , tale che per ogni ϕ ∈ bC(RN ) la
funzione1 Z
u(t, x) := ϕ(x0 )Γ (t0 , x0 ; t, x)dx0 , t ∈]t0 , T [, x ∈ RN , (19.2.1)
RN
è soluzione classica, secondo la Definizione 19.0.2, del problema di Cauchy

L u = 0 in ]t0 , T [×RN ,


(19.2.2)
u(t0 , ·) = ϕ in RN .


Una tecnica classica per dimostrare l’esistenza della soluzione fondamentale è il metodo della parametrice
introdotto da E.E. Levi in [50] e poi sviluppato da molti altri autori. Si tratta di una procedura costruttiva
abbastanza lunga e complessa che si basa sulla seguente2 Ipotesi 19.2.2 sull’operatore L . Per specifica-
re le condizioni di regolarità sui coefficienti di L , introduciamo lo spazio bC α (]0, T [×RN ) delle funzioni
continue, limitate e uniformemente Hölderiane nella variabile x di esponente α ∈]0, 1[ con la norma
|g(t, x) − g(t, y)|
[g]α := sup |g| + sup < ∞.
]0,T [×RN 0<t<T |x − y|α
x,y
Ipotesi 19.2.2.
i) cij , bi , a ∈ bC α (]0, T [×RN ) per un certo α ∈]0, 1[ e per ogni i, j = 1, . . . , N ;
ii) la matrice C := (cij )1≤i,j≤N è simmetrica e soddisfa la seguente condizione di uniforme parabolicità:
esiste una costante λ0 > 1 tale che
1 2
|η| ≤ ⟨C (t, x)η, η⟩ ≤ λ0 |η|2 , (t, x) ∈]0, T [×RN , η ∈ RN . (19.2.3)
λ0
Per comodità, assumiamo λ0 abbastanza grande in modo che λ0 ≥ [cij ]α , [bi ]α , [a]α per ogni i, j =
1, . . . , N .
Osservazione 19.2.3. Poniamo
N N
1X X
A := cij (t, x)∂xi xj + bj (t, x)∂xj + a(t, x)
2
i,j=1 j=1
cosicché L = A − ∂t e assumiamo valida l’Ipotesi 19.2.2. Allora sono equivalenti:

1 Prolungata a [t , T [×RN ponendo u(t , ·) = ϕ.
0 0
2 È possibile assumere ipotesi leggermente più deboli: al riguardo si veda la Sezione 6.4 in [28].
i) u ∈ C 1,2 (]t0 , T [×RN ) ed è soluzione classica dell’equazione L u = 0 su ]t0 , T [×RN ;

ii) u ∈ C(]t0 , T [×RN ), è differenziabile con continuità fino al second’ordine nelle variabili x e soddisfa
l’equazione integro-differenziale
Zt
u(t, x) = u(t1 , x) + A u(s, x)ds, t 0 < t 1 < t < T , x ∈ RN .
t1
Nel seguente teorema, consideriamo il problema di Cauchy con termine noto f che soddisfa le seguenti
condizioni di crescita e di Hölderianità locale.
Ipotesi 19.2.4. f ∈ C(]t0 , T [×RN ) ed esiste β > 0 tale che:
i)
2
c1 ec2 |x|
|f (t, x)| ≤ , (t, x) ∈]t0 , T [×RN , (19.2.4)
(t − t0 )1−β
1
dove c1 , c2 sono costanti positive con c2 < 4λ0 T ;
ii) per ogni n ∈ N, esiste una costante κn tale che

|x − y|β
|f (t, x) − f (t, y)| ≤ κn β
, t0 < t < T , |x|, |y| ≤ n. (19.2.5)
(t − t0 )1− 2
Il risultato principale del capitolo è il seguente

Teorema 19.2.5. [!!!] Sotto l’Ipotesi 19.2.2, esiste una soluzione fondamentale Γ per l’operatore L in
[0, T [×RN . Inoltre:
i) Γ = Γ (t0 , x0 ; t, x) è una funzione continua di (t0 , x0 , t, x) per 0 ≤ t0 < t < T e x, x0 ∈ RN . Per ogni
(t0 , x0 ) ∈ [0, T [×RN , Γ (t0 , x0 ; ·, ·) ∈ C 1,2 (]t0 , T [×RN ) e valgono le seguenti stime Gaussiane: per ogni
λ > λ0 , dove λ0 è la costante dell’Ipotesi 19.2.2, esiste una costante positiva c = c(T , N , λ, λ0 ) tale che
Γ (t0 , x0 ; t, x) ≤ c G (λ(t − t0 ), x − x0 ) , (19.2.6)
c
∂xi Γ (t0 , x0 ; t, x) ≤ √ G (λ(t − t0 ), x − x0 ) , (19.2.7)
t − t0
∂x x Γ (t0 , x0 ; t, x) + |∂t Γ (t0 , x0 ; t, x)| ≤ c G (λ(t − t0 ), x − x0 )

i j
(19.2.8)
t − t0
per ogni (t, x) ∈]t0 , T [×RN , dove G è la funzione Gaussiana in (19.3.1); inoltre, esistono due costanti
positive λ̄, c̄ che dipendono solo da T , N , λ0 e per cui vale

Γ (t0 , x0 ; t, x) ≥ c̄ G λ̄(t − t0 ), x − x0 (19.2.9)
per ogni (t, x) ∈]t0 , T [×RN ;

ii) per ogni f che soddisfa l’Ipotesi 19.2.4 e ϕ ∈ bC(RN ), la funzione
Z Z tZ
u(t, x) = ϕ(x0 )Γ (t0 , x0 ; t, x)dx0 − f (s, y)Γ (s, y; t, x)dyds, t ∈]t0 , T [, x ∈ RN , (19.2.10)
RN t0 RN
è soluzione classica del problema di Cauchy


L u = f in ]t0 , T [×RN ,


(19.2.11)
u(t0 , ·) = ϕ in RN .


La (19.2.10) è usualmente chiamata formula di Duhamel;

19.3. IL METODO DELLA PARAMETRICE 405
iii) vale l’equazione di Chapman-Kolmogorov

Z
Γ (t0 , x0 ; t, x) = Γ (t0 , x0 ; s, y)Γ (s, y; t, x)dy, 0 ≤ t0 < s < t < T , x, x0 ∈ RN ;
RN
iv) se il coefficiente a è costante si ha

Z
Γ (t0 , x0 ; t, x)dx0 = ea(t−t0 ) , t ∈]t0 , T [, x ∈ RN , (19.2.12)
RN
e in particolare se a ≡ 0 allora Γ (t0 , ·; t, x) è una densità.

Dimostriamo il Teorema 19.2.5 nella Sezione 19.3, insieme a numerosi risultati preliminari.
19.2.1 Operatori backward e forward

19.2.2 Soluzioni non-negative del problema di Cauchy
19.3 Il metodo della parametrice

In questa sezione proviamo il Teorema 19.2.5. Consideriamo L in (19.0.1) e assumiamo che verifichi
l’Ipotesi 19.2.2. L’idea principale del metodo della parametrice è di costruire una soluzione fondamentale
per approssimazioni successive utilizzando come primo termine di approssimazione la cosiddetta parame-
trice: essa è la soluzione fondamentale Gaussiana di un operatore del calore ottenuto da L calcolando i
coefficienti in un punto fissato y, lasciando libera la variabile temporale.
Notazione 19.3.1. Data una matrice C costante N × N , simmetrica e definita positiva, poniamo
1 1 −1
G(C, x) = p e− 2 ⟨C x,x⟩ , x ∈ RN .
N
(2π) det C
Notiamo che
N
1X
Cij ∂xi xj G(tC, x) = ∂t G(tC, x), t > 0, x ∈ RN .
2
i,j=1
Nel caso in cui C sia la matrice identità, C = IN , per semplicità scriviamo
1 |x|2
G(t, x) ≡ G(tIN , x) = N
e− 2t , t > 0, x ∈ RN , (19.3.1)
(2πt) 2
per l’usuale Gaussiana standard, soluzione dell’equazione del calore 21 ∆G(t, x) = ∂t G(t, x).
Fissato y ∈ RN , introduciamo l’operatore Ly ottenuto calcolando i coefficienti di L in y e annullando i

termini di ordine inferiore al secondo:
N
1X
Ly := cij (t, y)∂xi xj − ∂t .
2
i,j=1
L’operatore Ly agisce nelle variabili (t, x) e ha i coefficienti che dipendono solo dalla variabile temporale t,
essendo y fissato. Si verifica che la soluzione fondamentale di Ly ha la seguente espressione esplicita
Z t
Γy (t0 , x0 ; t, x) = G(Ct0 ,t (y), x − x0 ), Ct0 ,t (y) := C (s, y)ds, (19.3.2)
t0
per 0 ≤ t0 < t < T e x0 , x ∈ RN . Definiamo la parametrice per L come
P(t0 , x0 ; t, x) := Γx0 (t0 , x0 ; t, x), 0 ≤ t0 < t < T , x0 , x ∈ RN . (19.3.3)
Secondo il metodo della parametrice si cerca la soluzione fondamentale di L nella forma

Z tZ
Γ (t0 , x0 ; t, x) = P(t0 , x0 ; t, x) + Φ(t0 , x0 ; s, y)P(s, y; t, x)dyds (19.3.4)
t0 RN
dove Φ è una funzione incognita da determinare imponendo che valga3 L Γ (t0 , x0 ; t, x) = 0. Formalmente,
da (19.3.4) si ha4
Z tZ
L Γ (t0 , x0 ; t, x) = L P(t0 , x0 ; t, x) + Φ(t0 , x0 ; s, y)L P(s, y; t, x)dyds − Φ(t0 , x0 ; t, x) (19.3.5)
t0 RN
da cui si ricava l’equazione per Φ

Z tZ
Φ(t0 , x0 ; t, x) = L P(t0 , x0 ; t, x) + Φ(t0 , x0 ; s, y)L P(s, y; t, x)dyds (19.3.6)
t0 RN
valida per 0 ≤ t0 < t < T e x0 , x ∈ RN . Per approssimazioni successive si ottiene

∞
X
Φ(t0 , x0 ; t, x) = (L P)k (t0 , x0 ; t, x) (19.3.7)
k=1
dove
(L P)1 (t0 , x0 ; t, x) = L P(t0 , x0 ; t, x),

Z tZ
(19.3.8)
(L P)k+1 (t0 , x0 ; t, x) = (L P)k (t0 , x0 ; s, y)L P(s, y; t, x)dyds, k ∈ N.
t0 RN
Nella Sezione 19.3.2 proviamo la seguente
Proposizione 19.3.2. La serie in (19.3.7) converge e definisce Φ = Φ(t0 , x0 ; t, x) che è una funzione continua
di (t0 , x0 , t, x) per 0 ≤ t0 < t < T e x, x0 ∈ RN , e risolve l’equazione (19.3.6). Inoltre, per ogni λ > λ0 esiste una
costante positiva c = c(T , N , λ, λ0 ) tale che
c
|Φ(t0 , x0 ; t, x)| ≤ α G(λ(t − t0 ), x − x0 ), (19.3.9)
(t − t0 )1− 2
α
c |x − y| 2
Φ(t0 , x0 ; t, x) − Φ(t0 , x0 ; t, y) ≤ α (G(λ(t − t0 ), x − x0 ) + G(λ(t − t0 ), y − x0 )) (19.3.10)
(t − t0 )1− 4
per ogni 0 ≤ t0 < t < T e x, y, x0 ∈ RN .

3 Si ricordi che L agisce nelle variabili (t, x).
4 L’ultimo termine nel membro a destra della (19.3.5) deriva dall’applicare ∂ all’estremo dell’integrale in ds di (19.3.4) da cui si
t
otterrebbe Z
Φ(t0 , x0 ; t, y)P(t, y; t, x)dy = Φ(t0 , x0 ; t, x)
RN
poiché formalmente P(t, y; t, x)dy = δx (dy) dove δx indica la delta di Dirac centrata in x.
19.3.1 Stime Gaussiane

In questa sezione proviamo alcune stime preliminari per nuclei Gaussiani.
Notazione 19.3.3. Assumiamo la Convenzione 18.1.3 per indicare la dipendenza delle costanti. Inoltre,
poiché dovremo provare numerose stime, per comodità nelle dimostrazioni indicheremo con c una costante
generica il cui valore può variare da riga a riga: dove necessario, specificheremo esplicitamente le quantità
da cui c dipende.
Lemma 19.3.4. Per ogni p > 0 e λ > λ0 esiste una costante c = c(p, N , λ, λ0 ) tale che
!p
|x|
√ G(λ0 t, x) ≤ c G(λt, x), t > 0, x ∈ RN .
t
|x|
Dimostrazione. Posto per semplicità z = √ , abbiamo
t
!N
zp z2
!
p λ
z G(λ0 t, x) = N
exp − = g(z)G(λt, x)
(2πλ0 t) 2 2λ0 λ0
dove
1 1 κz2
g(z) := zp e− − > 0,
2 , κ= z ∈ R+ ,
λ0 λ
q
p
p p
assume il massimo globale in z0 = κ in cui vale g(z0 ) = eκ 2 .
Lemma 19.3.5. Consideriamo L in (19.0.1) e assumiamo che verifichi l’Ipotesi 19.2.2. Per G e Γy , definiti
rispettivamente in (19.3.1) e (19.3.2), vale
1 t−t
G λ0
0
, x − x0 ≤ Γy (t0 , x0 ; t, x) ≤ λN
0 G (λ0 (t − t0 ), x − x0 ) (19.3.11)
λN
0
per ogni 0 ≤ t0 < t < T e x, x0 , y ∈ RN , dove λ0 è la costante dell’Ipotesi 19.2.2. Inoltre, per ogni λ > λ0 esiste
una costante positiva c = c(T , N , λ, λ0 ) tale che
c
∂xi Γy (t0 , x0 ; t, x) ≤ √ G (λ(t − t0 ), x − x0 ) , (19.3.12)
t − t0
∂x x Γy (t0 , x0 ; t, x) ≤ c G (λ(t − t0 ), x − x0 ) ,

i j
(19.3.13)
t − t0
c
∂x x x Γy (t0 , x0 ; t, x) ≤ G (λ(t − t0 ), x − x0 ) , (19.3.14)
i j k
(t − t0 )3/2

Γy (t0 , x0 ; t, x) − Γη (t0 , x0 ; t, x) ≤ c|y − η|α G (λ(t − t0 ), x − x0 ) , (19.3.15)
c|y − η|α
∂xi Γy (t0 , x0 ; t, x) − ∂xi Γη (t0 , x0 ; t, x) ≤ √ G (λ(t − t0 ), x − x0 ) , (19.3.16)
t − t0
α
∂x x Γy (t0 , x0 ; t, x) − ∂x x Γη (t0 , x0 ; t, x) ≤ c|y − η| G (λ(t − t0 ), x − x0 ) ,

i j i j
(19.3.17)
t − t0
per ogni 0 ≤ t0 < t < T , x, x0 , y, η ∈ RN e i, j, k = 1, . . . , N .

Dimostrazione. Per la definizione di Ct0 ,t (y) in (19.3.2) e per l’ipotesi di uniforme parabolicità (19.2.3) si ha
t − t0 2
|η| ≤ ⟨Ct0 ,t (y)η, η⟩ ≤ λ0 (t − t0 )|η|2 (19.3.18)
λ0
e di conseguenza vale
|η|2 λ0 |η|2
≤ ⟨Ct−1,t (y)η, η⟩ ≤ (19.3.19)
λ0 (t − t0 ) 0 t − t0
e anche
!N
t − t0
≤ det Ct0 ,t (y) ≤ λN N
0 (t − t0 ) . (19.3.20)
λ0
La (19.3.19) segue dal fatto che se A, B sono matrici simmetriche e definite positive allora la disuguaglianza
fra forme quadratiche A ≤ B (ossia ⟨Aη, η⟩ ≤ ⟨Bη, η⟩ per ogni η ∈ RN ) implica B−1 ≤ A−1 . La (19.3.20)
segue dal fatto che il minimo e massimo autovalore di una matrice simmetrica C sono rispettivamente
min⟨Cη, η⟩ e max⟨Cη, η⟩ =: ∥C∥ dove ∥C∥ è la norma spettrale di C. Notiamo che le (19.3.18)-(19.3.19) si
|η|=1 |η|=1
riscrivono rispettivamente nella forma
t − t0 1 λ
≤ ∥Ct0 ,t (y)∥ ≤ λ0 (t − t0 ), ≤ ∥Ct−1
0 ,t
(y)∥ ≤ 0 . (19.3.21)
λ0 λ0 (t − t0 ) t − t0
Le stime (19.3.11) seguono allora direttamente dalla definizione di Γy (t0 , x0 ; t, x).

Per quanto riguarda la (19.3.12), posto ∇x = (∂x1 , . . . , ∂xN ), si ha

∇x Γy (t0 , x0 ; t, x) = |Ct−1
0 ,t
(y)(x − x0 )|Γy (t0 , x0 ; t, x)
≤ ∥Ct−1
0 ,t
(y)∥ |x − x0 |Γy (t0 , x0 ; t, x) ≤
(per la seconda stima in (19.3.21))

!
λ0 |x − x0 |
≤√ √ Γy (t0 , x0 ; t, x) ≤
t − t0 t − t0
(per la (19.3.11) e il Lemma 19.3.4)

c
≤√ G(λ(t − t0 ), x − x0 ).
t − t0
Le (19.3.13) e (19.3.14) si provano in modo completamente analogo.

Usando l’espressione esplicita di Γy , la (19.3.15) è diretta conseguenza delle seguenti stime:

1 1 c|y − η|α
p − p ≤ p , (19.3.22)
det Ct0 ,t (y) det Ct0 ,t (η) det Ct0 ,t (y)

1 −1 1 −1
|x|2
e− 2 ⟨Ct0 ,t (y)x,x⟩ − e− 2 ⟨Ct0 ,t (η)x,x⟩ ≤ c|y − η|α e− 2λ(t−t0 ) . (19.3.23)
Per quanto riguarda la (19.3.22), si ha

1 1 1 det Ct0 ,t (y) − det Ct0 ,t (η)
p −p = p p p p ≤
det Ct0 ,t (y) det Ct0 ,t (η) det Ct0 ,t (y) det Ct0 ,t (η) det Ct0 ,t (y) + det Ct0 ,t (η)
(per la (19.3.20))

λN
0
det Ct0 ,t (y) − det Ct0 ,t (η)
≤p
det Ct0 ,t (y) (t − t0 )N
λN
! !
0 1 1
=p det Ct0 ,t (y) − det Ct0 ,t (y) ≤
det Ct0 ,t (y) t − t0 t − t0
(poiché | det A − det B| ≤ c∥A − B∥ dove ∥ · ∥ indica la norma spettrale e c è una costante che dipende solo da
∥A∥, ∥B∥ e dalla dimensione delle matrici)

c 1
≤p
Ct0 ,t (y) − Ct0 ,t (η)
det C (y) t − t0 t0 ,t
e la (19.3.22) segue dall’Ipotesi 19.2.2, in particolare dalla condizione di Hölderianità dei coefficienti cij .
Per quanto riguarda la (19.3.23), per il teorema del valor medio e la (19.3.19) si ha
1 −1 1 −1
|x|2
e− 2 ⟨Ct0 ,t (y)x,x⟩ − e− 2 ⟨Ct0 ,t (η)x,x⟩ ≤ ⟨C −1 (y)x, x⟩ − ⟨C −1 (η)x, x⟩ e− 2λ0 (t−t0 )

t0 ,t t0 ,t
2
− 2λ |x|(t−t
≤ ∥Ct−1
0 ,t
(y) − Ct−1
0 ,t
(η)∥ |x|2 e 0 0) ≤
(per l’identità A−1 − B−1 = A−1 (B − A)B−1 )

2
− 2λ |x|(t−t
≤ c∥Ct−1
0 ,t
(y)∥ ∥Ct0 ,t (y) − Ct0 ,t (η)∥ ∥Ct−1
0 ,t
(η)∥ |x|2 e 0 0) ≤
(per la (19.3.21))

1 |x|2 − |x|2
≤ c C (y) − Ct0 ,t (η) e 2λ0 (t−t0 ) ≤
t − t0 t0 ,t t − t0
(per l’ipotesi di di Hölderianità dei coefficienti cij e per il Lemma 19.3.4)
2
|x|
− 2λ(t−t
≤ c|y − η|α e 0)
e questo è sufficiente a provare la (19.3.23) e quindi la (19.3.15).

La prova delle stime (19.3.16) e (19.3.17) è simile: per esempio, si ha

∇x Γy (t0 , x0 ; t, x) − ∇x Γη (t0 , x0 ; t, x) = Ct−1 0 ,t
(y)(x − x0 )Γy (t0 , x0 ; t, x) − Ct−10 ,t
(η)(x − x0 )Γη (t0 , x0 ; t, x)

≤ Ct−1 0 ,t
(y) − C −1
t0 ,t (η) (x − x 0 Γy (t0 , x0 ; t, x)
)

+ C −1 (η)(x − x ) Γ (t , x ; t, x) − Γ (t , x ; t, x)
t0 ,t 0 y 0 0 η 0 0
e la (19.3.16) si prova con argomenti simili a quelli usati in precedenza. In modo analogo si prova la
(19.3.17).

Grazie al Lemma 19.3.5 possiamo stimare i termini (L P)k in (19.3.8) del metodo della parametrice.
Lemma 19.3.6. Per ogni λ > λ0 esiste una costante positiva c = c(T , N , λ, λ0 ) tale che
mk
|(L P)k (t0 , x0 ; t, x)| ≤ αk
G(λ(t − t0 ), x − x0 ) (19.3.24)
(t − t0 )1− 2
per ogni k ∈ N, 0 ≤ t0 < t < T e x, x0 ∈ RN , dove

k
cΓE α2
mk =
ΓE αk
2
e ΓE indica la funzione Gamma di Eulero.

Dimostrazione. Anzitutto osserviamo che per l’Ipotesi 19.2.2 si ha

cij (t, x) − cij (t, x0 ) ≤ λ0 |x − x0 |α , 0 ≤ t < T , x, x0 ∈ RN , i, j = 1, . . . , N . (19.3.25)
Per k = 1 abbiamo

|L P(t0 , x0 ; t, x)| = (L − Lx0 )P(t0 , x0 ; t, x)
N N
1 X X
b (t, x)∂ Γ (t , x ; t, x)
≤ cij (t, x) − cij (t, x0 ) ∂xi xj Γx0 (t0 , x0 ; t, x) + i xi x0 0 0
2
i,j=1 i=1
+ |a(t, x)|Γx0 (t0 , x0 ; t, x).
Il primo termine è il più delicato: per le stime (19.3.25) e (19.3.13), per λ′ = λ02+λ si ha
α
cij (t, x) − cij (t, x0 ) ∂x x Γx (t0 , x0 ; t, x) ≤ c |x − x0 | G(λ′ (t − t0 ), x − x0 ) ≤

i j 0
t − t0
(per il Lemma 19.3.4)
c
≤ α G(λ(t − t0 ), x − x0 ).
(t − t0 )1− 2
Gli altri termini si stimano facilmente usando l’ipotesi di limitatezza dei coefficienti e la stima (19.3.12)
delle derivate prime:
!
1
bi (t, x)∂xi Γx0 (t0 , x0 ; t, x) + |a(t, x)|Γx0 (t0 , x0 ; t, x) ≤ c √ + 1 G(λ(t − t0 ), x − x0 ).
t − t0
Questo è sufficiente a provare la (19.3.24) nel caso k = 1.
Ora procediamo per induzione e, supposta vera la tesi per k, la proviamo per k + 1:
Z tZ
(L P) (t , x ; s, y) L P(s, y; t, x) dyds
|(L P)k+1 (t0 , x0 ; t, x)| ≤ k 0 0
t0 RN
Z t Z
mk m1
≤ αk α
G(λ(s − t0 ), y − x0 )G(λ(t − s), x − y)dyds =
t0 (s − t0 )1− 2 (t − s)1− 2 RN
(per l’equazione di Chapman-Kolmogorov (7.4.4))

Zt
mk m1
= G(λ(t − t0 ), x − x0 ) αk α
ds
t0 (s − t0 )1− 2 (t − s)1− 2
e la tesi segue dalle proprietà della funzione Gamma di Eulero.
Osservazione 19.3.7. L’equazione di Chapman-Kolmogorov è uno strumento cruciale nel metodo della
parametrice: essa si prova con un calcolo diretto o, in alternativa, come conseguenza del risultato di unicità
del Teorema 19.1.7. Infatti, per t0 < s < t < T e x, x0 , y ∈ RN , si ha che le funzioni u1 (t, x) := G(t − t0 , x − x0 ) e
Z
u2 (t, x) = G(s − t0 , y − x0 )G(t − s, x − y)dy
RN
sono entrambe soluzioni limitate del problema di Cauchy


1
 2 ∆u − ∂t u = 0

 in ]s, T [×RN ,
u(s, y) = G(s − t0 , y − x0 ) per y ∈ RN ,


e quindi sono uguali.

Lemma 19.3.8. Sia κ > 0. Dato κ1 ∈]0, κ[ esiste una costante positiva c tale che valga
|η−x0 |2 |y−x0 |2
e−κ t ≤ ce−κ1 t (19.3.26)
per ogni t > 0 e x0 , y, η ∈ RN tali che |y − η|2 ≤ t.
Dimostrazione. Anzitutto, per ogni ε > 0 e a, b ∈ R, valgono le disuguaglianze elementari
b2
2|ab| ≤ εa2 + ,
ε
e
1 2

2 2
(a + b) ≤ (1 + ε)a + 1 + b .
ε
La (19.3.26) segue dal fatto che
|y − x0 |2 |η − x0 |2 1 |y − η|2 ((1 + ε)κ1 − κ) |η − x0 |2

κ1 −κ ≤ κ1 1 + + ≤
t t ε t t
(poiché |y − η|2 ≤ t per ipotesi e per ε sufficientemente piccolo, essendo κ1 < κ)
1

≤ κ1 1 + .
ε
Dimostrazione della Proposizione 19.3.2. Per ogni λ > λ0 si ha

∞
X
|Φ(t0 , x0 ; t, x)| ≤ |(L P)k (t0 , x0 ; t, x)| ≤
k=1
(per la stima (19.3.24))

∞
X mk
≤ αk
G(λ(t − t0 ), x − x0 )
(t − t0 )1− 2
k=1
c
≤ α G(λ(t − t0 ), x − x0 )
(t − t0 )1− 2
∞
mk r k−1 ha raggio di convergenza in-
P
con c = c(T , N , λ, λ0 ) costante positiva, poiché la serie di potenze
k=1
finito. Questo prova la (19.3.9). La convergenza della serie è uniforme in (t0 , x0 , t, x) se t − t0 ≥ δ > 0, per
ogni δ > 0 sufficientemente piccolo, e di conseguenza Φ(t0 , x0 ; t, x) è una funzione continua di (t0 , x0 , t, x) per
0 ≤ t0 < t < T e x, x0 ∈ RN . Inoltre, scambiando i segni di serie ed integrale, si ha
Z tZ ∞ Z tZ
X
Φ(t0 , x0 ; s, y)L P(s, y; t, x)dyds = (L P)k (t0 , x0 ; s, y)L P(s, y; t, x)dyds
t0 RN k=1 t0 RN
∞
X
= (L P)k (t0 , x0 ; t, x)
k=2
= Φ(t0 , x0 ; t, x) − L P(t0 , x0 ; t, x)
e quindi Φ risolve l’equazione (19.3.6).

Per quanto riguarda la (19.3.10), dimostriamo prima la stima
|L P(t0 , x0 ; t, x) − L P(t0 , x0 ; t, y)| ≤

c |x − y|α/2 (19.3.27)
≤ (G(λ(t − t0 ), x − x0 ) + G(λ(t − t0 ), y − x0 ))
(t − t0 )1−α/4
per ogni λ > λ0 , 0 ≤ t0 < t < T e x, y, x0 ∈ RN , con c = c(T , N , λ, λ0 ) > 0. Ora, se |x − y|2 > t − t0 allora la
(19.3.27) segue direttamente dalla (19.3.24) con k = 1.
Per studiare il caso |x − y|2 ≤ t − t0 , osserviamo che
L P(t0 , x0 ; t, x) − L P(t0 , x0 ; t, y) = (L − Lx0 )P(t0 , x0 ; t, x) − (L − Lx0 )P(t0 , x0 ; t, y) = F1 + F2
dove
N
1 X
F1 = (cij (t, x) − cij (t, x0 ))∂xi xj P(t0 , x0 ; t, x) − (cij (t, y) − cij (t, x0 ))∂yi yj P(t0 , x0 ; t, y)
2
i,j=1
N
1X
= (cij (t, x) − cij (t, y))∂xi xj P(t0 , x0 ; t, x)
2
i,j=1
| {z }
G1
N
1X
+ (cij (t, y) − cij (t, x0 )) ∂xi xj P(t0 , x0 ; t, x) − ∂yi yj P(t0 , x0 ; t, y) ,
2
i,j=1
| {z }
G2
N
X
F2 = bj (t, x)∂xj P(t0 , x0 ; t, x) − bj (t, y)∂yj P(t0 , x0 ; t, y) + a(t, x)P(t0 , x0 ; t, x) − a(t, y)P(t0 , x0 ; t, y).
j=1
Per l’ipotesi di Hölderianità dei coefficienti e la stima Gaussiana (19.3.13), sotto la condizione |x −y|2 ≤ t −t0
si ha α
c |x − y|α c |x − y| 2
|G1 | ≤ G (λ(t − t0 ), x − x0 ) ≤ α G (λ(t − t0 ), x − x0 ) .
t − t0 (t − t0 )1− 4
Per quanto riguarda G2 , usiamo ancora l’Hölderianità dei coefficienti e combiniamo il teorema del valor
medio (con η che appartiene al segmento di estremi x, y) con la stima Gaussiana (19.3.14) delle derivate
terze: otteniamo
c |x − y| λ + λ0

|G2 | ≤ |y − x0 |α 3
G (t − t0 ), η − x 0 ≤
(t − t0 ) 2 2
(essendo |x − y|2 ≤ t − t0 e per il Lemma 19.3.8)

α
c |x − y| 2 λ + λ0

≤ α |y − x0 |α G (t − t0 ), y − x0 ≤
(t − t0 )1+ 4 2

α
c |x − y| 2
≤ α G (λ(t − t0 ), y − x0 ) .
(t − t0 )1− 4
Una stima simile si ottiene per F2 , utilizzando l’Hölderianità dei coefficienti bj e a. Questo conclude la
prova della (19.3.27).
Proviamo ora la (19.3.10) usando il fatto che Φ risolve l’equazione (19.3.6), per cui si ha
Φ(t0 , x0 ; t, x) − Φ(t0 , x0 ; t, y) = L P(t0 , x0 ; t, x) − L P(t0 , x0 ; t, y)

Z tZ
+ Φ(t0 , x0 ; s, η) (L P(s, η; t, x) − L P(s, η; t, y)) dηds .
t0 RN
| {z }
=:I(t0 ,x0 ;t,x,y)
Grazie alla (19.3.27) è sufficiente stimare il termine I(t0 , x0 ; t, x, y): ancora per le stime (19.3.9) e (19.3.27)
otteniamo
α
Zt c |x − y| 2
I(t0 , x0 ; t, x, y) ≤ ·
1− α 1− α
t0 (s − t0 ) 2 (t − s) 4
Z
· G(λ(s − t0 ), η − x0 ) (G(λ(t − s), x − η) + G(λ(t − s), y − η)) dηds =
RN
(per l’equazione di Chapman-Kolmogorov)

Zt
c |x − y|α/2
= 1− α
ds (G(λ(t − t0 ), x − x0 ) + G(λ(t − t0 ), y − x0 ))
1− α
t0 (s − t0 ) 2 (t − s) 4
c |x − y|α/2
= 3α
(G(λ(t − t0 ), x − x0 ) + G(λ(t − t0 ), y − x0 ))
(t − t0 )1− 4
data la formula generale

Z t
1 ΓE (1 − β) ΓE (1 − γ)
ds = (t − t0 )1−β−γ (19.3.28)
t0 (s − t0 )β (t − s)γ ΓE (2 − β − γ)
valida per ogni β, γ < 1.
19.3.3 Stime del potenziale

Assumiamo l’Ipotesi 19.2.2 e ricordiamo la definizione (19.3.3) di parametrice. In questa sezione con-
sideriamo il cosiddetto potenziale
Z tZ
Vf (t, x) := f (s, y)P(s, y; t, x)dyds, (t, x) ∈]t0 , T [×RN , (19.3.29)
t0 RN
dove f ∈ C(]t0 , T [×RN ) soddisfa l’Ipotesi 19.2.4 di crescita e Hölderianità locale. Nel seguito sarà utile la
seguente
Osservazione 19.3.9. Poniamo
(x−y)2
Z
I(t, x) = e− t dy, t > 0, x ∈ R.
R
Per il classico teorema di scambio di segni di derivata e integrale, per ogni k ∈ N esistono e sono continue
le derivate
|x−y|2 |x−y|2
Z Z
k k − t
∂x I(t, x) = ∂x e dy, ∂t I(t, x) = ∂t e− t dy.
RN RN
Il risultato principale della sezione è la seguente
Proposizione 19.3.10. La definizione (19.3.29) è ben posta e Vf ∈ C(]t0 , T [×RN ). Inoltre, per ogni i, j =
1, . . . , N esistono e sono continue su ]t0 , T [×RN le derivate
Z tZ
∂xi Vf (t, x) = f (s, y)∂xi P(s, y; t, x)dyds, (19.3.30)
t0 R N
Z tZ
∂xi xj Vf (t, x) = f (s, y)∂xi xj P(s, y; t, x)dyds, (19.3.31)
t0 RN
Z tZ
∂t Vf (t, x) = f (t, x) + f (s, y)∂t P(s, y; t, x)dyds. (19.3.32)
t0 RN
Z
I(s; t, x) := f (s, y)Γy (s, y; t, x)dy, t 0 ≤ s < t < T , x ∈ RN ,
RN
cosicché Z t
Vf (t, x) = I(s; t, x)ds.
t0
Per la stima (19.3.11) e l’ipotesi (19.2.4), si ha
c1 λN |x−y|2
Z
0 c2 |y|2 − 2λ
|I(s; t, x)| ≤ e 0 (t−s) dy =
N
(s − t0 )1−β (2πλ0 (t − s)) 2 RN
x−y
(col cambio di variabili z = √ e posto c0 = c1 λN π−N /2 )
2λ0 (t−s)
Z √ 2
c0 c2 x−z 2λ0 (t−s) −|z|2
= e dz ≤
(s − t0 )1−β RN
(posto κ = 1 − 4c2 λ0 T > 0 per ipotesi)

2
ce2c2 |x|
Z
c0 2 2
≤ e2c2 |x| e−κ|z| dz ≤ (19.3.33)
(s − t0 )1−β RN (s − t0 )1−β
con c = c(λ0 , T , N , c1 , c2 ) costante positiva opportuna. Ne segue che la funzione Vf ∈ C(]t0 , T [×RN ) è ben
definita e 2
Vf (t, x) ≤ c(t − t0 )β e2c2 |x| , t0 < t < T , x ∈ RN , (19.3.34)
con β > 0.
[Prova della (19.3.30)] Per l’Osservazione 19.3.9, per t0 ≤ s < t < T si ha
Z
∂xi I(s; t, x) = f (s, y)∂xi P(s, y; t, x)dy ≤
RN
(procedendo come nella prova di (19.3.33), utilizzando la stima (19.3.12))

2
ce2c2 |x|
≤ √ .
(s − t0 )1−β t − s
Questo è sufficiente a provare la (19.3.30) e inoltre, per la (19.3.28) si ha

2
ce2c2 |x|
∂xi Vf (t, x) ≤ 1
, t 0 < t < T , x ∈ RN .
(t − t0 ) 2 −β
[Prova della (19.3.31)] La prova dell’esistenza della derivata seconda è più complessa poiché ripetendo
1
l’argomento precedente con la stima (19.3.13) si otterrebbe un termine singolare del tipo t−s che non è som-
mabile nell’intervallo [t0 , t]. In maniera più attenta è possibile provare delle stime più precise e uniformi
su ]t0 , T [×Dn per ogni n ∈ N fissato, dove Dn := {|x| ≤ n}.
Supponiamo x ∈ Dn . Anzitutto, come nell’Osservazione 19.3.9, per ogni s < t si ha
Z
∂xi xj I(s; t, x) = f (s, y)∂xi xj P(s, y; t, x)dy = J(s; t, x) + H(s; t, x)
RN
dove
Z Z
J(s; t, x) = f (s, y)∂xi xj P(s, y; t, x)dy, H(s; t, x) = f (s, y)∂xi xj P(s, y; t, x)dy.
Dn+1 RN \Dn+1
Decomponiamo J nella somma di tre termini, J = J1 + J2 + J3 , dove5

Z
J1 (s; t, x) = (f (s, y) − f (s, x)) ∂xi xj Γy (s, y; t, x)dy,
Dn+1
Z
J2 (s; t, x) = f (s, x) ∂xi xj Γy (s, y; t, x) − ∂xi xj Γη (s, y; t, x) |η=x dy,
Dn+1
Z
J3 (s; t, x) = f (s, x) ∂xi xj Γη (s, y; t, x) |η=x dy.
Dn+1
Per l’ipotesi di Hölderianità locale di f , essendo x, y ∈ Dn+1 , e la stima (19.3.13), si ha
|x − y|β
Z
c
|J1 (s; t, x)| ≤ β
G (λ(t − s), x − y) dy ≤
(s − t0 )1− 2 Dn+1 t − s
Z
c c
≤ β β
G (2λ(t − s), x − y) dy ≤ β β
,
1− 2 1− 2 1− 2
(s − t0 ) (t − s) Dn+1 (s − t0 ) (t − s)1− 2
con c costante positiva che dipende da κn in (19.2.5), oltre che da T , N , λ e λ0 . Procedendo in modo simile,
utilizzando la (19.3.17) e la (19.2.4), si ha
2 2
cec2 |x| |y − x|α cec2 |x|
Z
|J2 (s; t, x)| ≤ G (λ(t − s), x − y) dy ≤ α .
(s − t0 )1−β Dn+1 t − s (s − t0 )1−β (t − s)1− 2
Ora, notiamo che
∂xi Γη (s, y; t, x) = −∂yj Γη (s, y; t, x)
e quindi
Z Z
∂xi xj Γη (s, y; t, x) |η=x dy = − ∂yi xj Γη (s, y; t, x) |η=x dy =
Dn+1 Dn+1

5 Per chiarezza, il termine ∂
xi xj Γη (s, y; t, x) |η=x si ottiene applicando prima le derivate ∂xi xj Γη (s, y; t, x), tenendo η fissato, e poi
calcolando il risultato ottenuto in η = x. Si noti che, sotto l’Ipotesi 19.2.2, Γη (s, y; t, x) come funzione di η non è differenziabile.
(per il teorema della divergenza, indicando con ν la normale esterna a Dn+1 e con dσ (y) la misura di
superficie sul bordo ∂Dn+1 )
Z
=− ∂xj Γη (s, y; t, x) |η=x ν(y)dσ (y)
∂Dn+1
da cui, ancora per la (19.3.12) e la (19.2.4), si ottiene

2 2
cec2 |x| cec2 |x|
Z
1
|J3 (s; t, x)| ≤ √ G (λ(t − s), x − y) dσ (y) ≤ √ .
(s − t0 )1−β ∂Dn+1 t−s (s − t0 )1−β t − s
Infine, per la (19.3.13) si ha

Z
c
|H(s; t, x)| ≤ |f (s, y)| G (λ(t − s), x − y) dy ≤
RN \Dn+1 t−s
(essendo |x − y| ≥ 1 poiché |y| ≥ n + 1 e |x| ≤ n)
|x − y|2
Z
≤c |f (s, y)| G (λ(t − s), x − y) dy ≤
RN \Dn+1 t−s
(per il Lemma 19.3.4, con λ′ > λ, e l’ipotesi (19.2.4) sulla crescita di f )

2
cec|x|
Z
c 2
≤ ec2 |y| G (λ′ (t − s), x − y) dy ≤
(s − t0 )1−β RN (s − t0 )1−β
con c > 0 opportuna, ricordando che c2 < 4λ1 T per ipotesi e scegliendo λ′ − λ0 sufficientemente piccolo. In
0
definitiva, abbiamo provato che, per ogni t0 ≤ s < t < T e x ∈ Dn , con n ∈ N fissato, esiste una costante c tale
che Z
c
|∂xi xj I(s; t, x)| = f (s, y)∂xi xj P(s, y; t, x)dy ≤ β γ
(19.3.35)
R N 1−
(s − t0 ) 2 (t − s)1− 2
dove γ = α ∧ β, da cui anche
c
|∂xi xj Vf (t, x)| ≤ 1 β γ
(t − t0 ) 2 − 2 − 2
grazie alla (19.3.28). Questo conclude la dimostrazione della formula (19.3.31).
[Prova della (19.3.32)] Preliminarmente osserviamo che, come nell’Osservazione 19.3.9, vale
Z
|∂t I(s; t, x)| = f (s, y)∂t Γy (s, y; t, x)dy =

RN
(poiché Γy è soluzione fondamentale di Ly )

Z N
1 X
= f (s, y) cij (t, y)∂xi xj Γy (s, y; t, x)dy ≤
RN 2
i,j=1
(procedendo come nella prova di (19.3.35) e usando l’ipotesi di limitatezza dei coefficienti)
c
≤ γ . (19.3.36)
(s − t0 )1−β (t − s)1− 2
per ogni t0 ≤ s < t < T e x ∈ Dn , con n ∈ N fissato. Ora, si ha
Vf (t + h, x) − Vf (t, x)
Z t Z t+h
I(s; t + h, x) − I(s; t, x) 1
= ds + I(s; t + h, x)ds =: I1 (t, x) + I2 (t, x).
h t0 h h t
Per il teorema del valor medio, esiste t̂s ∈ [t, t + h] tale che
Z t Z t
I1 (t, x) = ∂t I(s; t̂s , x)ds −−−−−→ ∂t I(s; t, x)ds
t0 h→0 t0
dove il passaggio al limite è giustificato dal teorema della convergenza dominata grazie alla stima (19.3.36).
Per quanto riguarda I2 , si ha
Z t+h Z t+h
1 1
I2 (t, x) − f (t, x) = (I(s; t + h, x) − f (s, x)) ds + (f (s, x) − f (t, x))ds
h t h t
dove il secondo integrale nel membro destro tende a zero per h → 0 essendo f continua, mentre per sti-
mare il primo integrale assumiamo x ∈ Dn e procediamo come nella prova della (19.3.31): precisamente,
scriviamo
1 t+h 1 t+h
Z Z Z
(I(s; t + h, x) − f (s, x)) ds = (f (s, y) − f (s, x))Γy (s, y; t + h, x)dyds
h t h t Dn+1
| {z }
=:J1 (t,x)
Z t+h Z
1
+ (f (s, y) − f (s, x))Γy (s, y; t + h, x)dyds .
h t RN \Dn+1
| {z }
=:J2 (t,x)
Assumiamo h > 0 per semplicità: per l’ipotesi di Hölderianità di f e la stima (19.3.11) di Γy , si ha
t+h Z
λN κn+1
Z
|J1 (t, x)| ≤ |x − y|β G (λ0 (t + h − s), x − y) dyds ≤
h t Dn+1

Z t+h Z
c β
≤ (t + h − s) 2 G (λ0 (t + h − s), x − y) dy ds −−−−−−+→ 0.
h t Dn+1 h→0
| {z }
≤1
D’altra parte, grazie all’ipotesi (19.2.4) di crescita su f e alla (19.3.11), si verifica facilmente che
Z t+h Z
c 2
|J2 (t, x)| ≤ ec2 |y| G (λ0 (t + h − s), x − y) dyds −−−−−−+→ 0.
h t |x−y|>1 h→0
Questo è sufficiente a concludere la prova della proposizione.

Dividiamo la prova in alcuni passi.
Passo 1. Per costruzione e per le proprietà di Φ della Proposizione 19.3.2, Γ = Γ (t0 , x0 ; t, x) in (19.3.4) è una
funzione continua di (t0 , x0 , t, x) per 0 ≤ t0 < t < T e x, x0 ∈ RN . Dimostriamo che Γ è soluzione di L . Grazie
alle stime di Φ della Proposizione 19.3.2, applicando la Proposizione 19.3.10 otteniamo
Z tZ
∂xi Γ (t0 , x0 ; t, x) = ∂xi P(t0 , x0 ; t, x) + Φ(t0 , x0 ; s, y)∂xi P(s, y; t, x)dyds,
t0 RN
Z tZ
∂xi xj Γ (t0 , x0 ; t, x) = ∂xi xj P(t0 , x0 ; t, x) + Φ(t0 , x0 ; s, y)∂xi xj P(s, y; t, x)dyds,
t0 RN
Z tZ
∂t Γ (t0 , x0 ; t, x) = Φ(t0 , x0 ; s, y)∂t P(s, y; t, x)dyds + Φ(t0 , x0 ; t, x),
t0 RN
per t0 < t < T , x, x0 ∈ RN . Allora si ha

Z tZ
L Γ (t0 , x0 ; t, x) = L P(t0 , x0 ; t, x) + Φ(t0 , x0 ; s, y)L P(s, y; t, x)dyds − Φ(t0 , x0 ; t, x)
t0 RN
da cui si deduce che

L Γ (t0 , x0 ; t, x) = 0, 0 ≤ t0 < t < T , x, x0 ∈ RN , (19.3.37)
poiché, per la Proposizione 19.3.2, Φ risolve l’equazione (19.3.6).
Passo 2. Proviamo la stima Gaussiana dall’alto (19.2.6). Per la definizione (19.3.4) di Γ si ha
Z tZ
Φ(t , x ; s, y) P(s, y; t, x)dyds ≤
|Γ (t0 , x0 ; t, x)| ≤ P(t0 , x0 ; t, x) + 0 0
t0 RN
(per la (19.3.9) e la (19.3.11))
≤ λN G (λ(t − t0 ), x − x0 )
Zt Z
c
+ 1− α
G(λ(s − t0 ), y − x0 )G(λ(t − s), x − y)dyds =
t0 (s − t0 ) 2 RN
(per l’equazione di Chapman-Kolmogorov)

α
≤ λN G (λ(t − t0 ), x − x0 ) + c(t − t0 ) 2 G(λ(t − t0 ), x − x0 ) (19.3.38)
e questo prova in particolare la stima dall’alto (19.2.6). La (19.2.7) si dimostra in modo completamente
analogo.
Proviamo ora la (19.2.8). Ripetendo la dimostrazione della (19.3.35) con Φ(t0 , x0 ; s, y) al posto di f (s, y) e
utilizzando le stime della Proposizione 19.3.2, si prova l’esistenza di una costante positiva c = c(T , N , λ, λ0 )
tale che
Z
c

N Φ(t ,
0 0x ; s, y)∂ xi xj P(s, y; t, x)dy (s − t )1− α4 (t − s)1− α4 G(λ(t − t0 ), x − x0 ),
≤ t0 ≤ s < t < T , x, x0 ∈ RN .
R 0
(19.3.39)
Dunque per la (19.3.4) e (19.3.31), si ha
Z t Z
∂x x Γ (t0 , x0 ; t, x) ≤ ∂x x P(t0 , x0 ; t, x) +
Φ(t0 , x0 ; s, y)∂xi xj P(s, y; t, x)dyds ≤
i j i j t0 RN
(per la (19.3.13) e la (19.3.39))

!
1 1
≤c + G (λ(t − t0 ), x − x0 ) .
t − t0 (t − t0 )1− α2
Passo 3. Dimostriamo che Γ è soluzione fondamentale di L . Data ϕ ∈ bC(RN ), consideriamo la funzione u

in (19.2.1). Grazie alle stime (19.2.6)-(19.2.8) si ha
Z
L u(t, x) = ϕ(ξ)L Γ (t0 , ξ; t, x)dξ = 0, 0 ≤ t0 < t < T , x ∈ RN ,
RN
per la (19.3.37). Per quanto riguarda il dato iniziale, abbiamo

Z Z Z tZ
u(t, x) = ϕ(ξ)P(t0 , ξ; t, x)dξ + ϕ(ξ) Φ(t0 , ξ; s, y)P(s, y; t, x)dyds dξ .
RN RN t0 RN
| {z } | {z }
J(t,x) H(t,x)
Ora, fissato x0 ∈ RN ,
Z Z
J(t, x) = ϕ(ξ) Γξ (t0 , ξ; t, x) − Γx0 (t0 , ξ; t, x) dξ + ϕ(ξ)Γx0 (t0 , ξ; t, x)dξ
RN RN
| {z }
J1 (t,x)
e, per la (19.3.15), si ha
Z
|J1 (t, x)| ≤ c |ϕ(ξ)||ξ − x0 |α G (λ(t − t0 ), x − ξ) dξ −−−−−−−−−−−−→ 0,
RN (t,x)→(t0 ,x0 )
Z
ϕ(ξ)Γx0 (t0 , ξ; t, x)dξ −−−−−−−−−−−−→ ϕ(x0 ).
RN (t,x)→(t0 ,x0 )
I passaggi al limite si giustificano come nell’Esempio 4.1.3 e, in termini probabilistici, corrispondono alla
convergenza debole della distribuzione normale alla delta di Dirac, al tendere della varianza a zero. D’altra
parte, per la (19.3.38)
Z
α
|H(t, x)| ≤ c(t − t0 ) 2 ϕ(x0 )G(λ(t − t0 ), x − x0 )dx0 −−−−−−−−−−−→ 0.
RN (t,x)→(t0 ,x̄)
Questo prova che u ∈ C([t0 , T [×RN ) e quindi è soluzione classica del problema di Cauchy (19.2.2).
Passo 4. Proviamo che u in (19.2.10) è soluzione classica del problema di Cauchy non omogeneo (19.2.11).
Usiamo la definizione di Γ in (19.3.4) e ci concentriamo sul termine
Z tZ Z tZ
f (s, y)Γ (s, y; t, x)dyds = f (s, y)P(s, y; t, x)dyds
t0 RN t0 RN
Z tZ Z tZ
+ f (s, y) Φ(s, y; τ, η)P(τ, η; t, x)dηdτdyds =
t0 RN s RN
(con la notazione (19.3.29), posto Φ(s, y; τ, η) = 0 per τ ≤ s e scambiando l’ordine di integrazione dell’ultimo
integrale)
= Vf (t, x) + VF (t, x)
dove Z τZ
F(τ, η) := f (s, y)Φ(s, y; τ, η)dyds.
t0 RN
Proviamo fra poco che F soddisfa l’Ipotesi 19.2.4 ed è quindi possibile applicare a Vf e VF la Proposizione
19.3.10 da cui otteniamo
Z tZ
L Vf (t, x) + VF (t, x) = −f (t, x) − F(t, x) + (f (s, y) + F(s, y)) L P(s, y; t, x)dyds
t0 RN
Z tZ
= −f (t, x) + f (s, y)I(s, y; t, x)dyds
t0 RN
dove Z tZ
I(s, y; t, x) := −Φ(s, y; t, x) + L P(s, y; t, x) + Φ(s, y; τ, η)L P(τ, η; t, x)dηdτ ≡ 0
s RN
per la (19.3.6). Questo prova che
L u(t, x) = f (t, x), 0 ≤ t0 < t < T , x, x0 ∈ RN .
Verifichiamo che F soddisfa l’Ipotesi 19.2.4: per la (19.3.9), le ipotesi su f e la (19.3.28), si ha

2
Z τ Z cec2 |y| c 2
F(τ, η) ≤ β
G(λ(τ − s), η − y)dyds ≤ α+β
ec|η| .
t0 RN 1− 2 1− α2 1− 2
(s − t0 ) (τ − s) (τ − t0 )
Inoltre, per la (19.3.10) si ha

Z τZ 2
α ec2 |y|
F(τ, η) − F(τ, η ′ ) ≤ c|η − η ′ | 2 β
(G(λ(τ − s), η − y) + G(λ(τ − s), η ′ − y)) dyds
t0 RN 1− 2 1− α4
(s − t0 ) (τ − s)
α
c|η − η ′ | 2 2 ′ 2
≤ α+2β
ec|η| + ec|η | .
1− 4
(τ − t0 )
Infine, usando la stima dall’alto (19.2.6) di Γ e procedendo come nella prova della stima (19.3.34), si
prova che
Z tZ
f (s, y)Γ (s, y; t, x)dyds −−−−−−−−−−−→ 0,
t0 RN (t,x)→(t0 ,x̄)
per ogni x̄ ∈ RN . Questo conclude la prova del fatto che u in (19.2.10) è soluzione classica del problema di
Cauchy non omogeneo (19.2.11).
Passo 5. L’equazione di Chapman-Kolmogorov e la formula (19.2.12) si provano come nell’Osservazione
19.3.7, come conseguenza del risultato di unicità del Teorema 19.1.7. In particolare, per quanto provato
nei punti precedenti, se a è costante, le funzioni
Z
a(t−t0 )
u1 (t, x) := e , u2 (t, x) := Γ (t0 , x0 ; t, x)dx0
RN
sono entrambe soluzioni del problema di Cauchy


L u = 0 in ]t0 , T [×RN ,


u(t0 , ·) = 1 in RN ,


e quindi coincidono.
Passo 6. Come ultimo passo proviamo la stima dal basso di Γ in (19.2.9). Si tratta di un risultato non
banale, per il quale adattiamo una tecnica introdotta da D.G. Aronson che sfrutta alcune classiche stime di
J. Nash: per maggiori dettagli rimandiamo anche alla Sezione 2 in [24]. Qui, al posto delle stime di Nash
utilizziamo altre stime ricavate direttamente dal metodo della parametrice.
Anzitutto, proviamo che Γ ≥ 0: per assurdo, se fosse Γ (t0 , x0 ; t1 , x1 ) < 0 per certi x0 , x1 ∈ RN e 0 ≤ t0 <
t1 < T , allora per continuità si avrebbe
Γ (t0 , y; t1 , x1 ) < 0, |y − x0 | < r,
con r > 0 opportuno. Consideriamo ϕ ∈ bC(RN ) tale che ϕ(y) > 0 per |y − x0 | < r e ϕ(y) ≡ 0 per |y − x0 | ≥ r:
la funzione Z
u(t, x) := ϕ(y)Γ (t0 , y; t, x)dy, t ∈]t0 , T [, x ∈ RN ,
RN
è limitata grazie alla stima (19.3.38) di Γ , è tale che u(t1 , x1 ) < 0 ed è soluzione classica del problema di
Cauchy (19.2.2). Questo è assurdo perché contraddice il principio del massimo, Teorema 19.1.7.
Ora osserviamo che per ogni λ > 1 si ha
t

G(λt, x) ≤ G , x
λ
√ q
se |x| < cλ t dove cλ = λλN 2 −1 log λ. Allora, per la definizione (19.3.4) si ha
Z Z
t
Γ (t0 , x0 ; t, x) ≥ P(t0 , x0 ; t, x) − Φ(t0 , x0 ; s, y)P(s, y; t, x)dyds ≥
t0 RN
(per la (19.3.11) e procedendo come nella prova della (19.3.38))

1 t − t0
α
≥ NG , x − x0 − c(t − t0 ) 2 G (λ(t − t0 ), x − x0 ) =
λ λ
√
(se |x − x0 | ≤ cλ t − t0 )
t − t0
α

≥ λ−N − c(t − t0 ) 2 G , x − x0
λ
1 t − t0

≥ G , x − x0 (19.3.40)
2λN λ
− 2
se 0 < t − t0 ≤ Tλ := 2cλN α ∧ T .
Dati x, x0 ∈ RN e 0 ≤ t0 < t < T , sia m ∈ N la parte intera di
 4|x − x0 |2 T 
 

max  c2 (t − t ) , T .

λ 0 λ
Poniamo
t − t0 x − x0
tk = t0 + k , x k = x0 + k , k = 1, . . . , m,
m+1 m+1
e osserviamo che, grazie alla scelta di m, si ha
t − t0 T
tk+1 − tk = ≤ ≤ Tλ . (19.3.41)
m+1 m+1
q
cλ t−t0
Inoltre, se yk ∈ D(xk , r) := {y ∈ RN | |xk − y| < r} per ogni k = 1, . . . , m allora, scelto r = 4 m+1 , si ha
r r
|x − x0 | c t − t0 t − t0
|yk+1 − yk | ≤ 2r + |xk+1 − xk | = 2r + ≤ 2r + λ = cλ (19.3.42)
m+1 2 m+1 m+1
√
= cλ tk+1 − tk . (19.3.43)
Applicando ripetutamente l’equazione di Chapman-Kolmogorov si ha

Z m−1
Y
Γ (t0 , x0 ; t, x) = Γ (t0 , x0 ; t1 , y1 ) Γ (tk , yk ; tk+1 , yk+1 )Γ (tm , ym ; t, x)dy1 . . . dym ≥
RN m k=1
(usando il fatto che Γ ≥ 0)

Z m−1
Y
≥ Γ (t0 , x0 ; t1 , y1 ) 1D(xk ,r) (yk )Γ (tk , yk ; tk+1 , yk+1 )1D(xm ,r) (ym )Γ (tm , ym ; t, x)dy1 . . . dym ≥
RN m k=1
(poiché, per le (19.3.41) e (19.3.43), vale la stima (19.3.40))

Z !
1 t − t0
≥ G , y − x 0 ·
(2λN )m+1 RN m λ(m + 1) 1
m−1 ! !
Y t − t0 t − t0
· 1D(xk ,r) (yk )G , yk+1 − yk 1D(xm ,r) (ym )G , x − ym dy1 . . . dym ≥
λ(m + 1) λ(m + 1)
k=1
(indicando con ωN il volume della palla unitaria in RN , per la (19.3.42))

! N2 (m+1)
 λcλ2
 
1 m λ(m + 1)
ωN r N

≥ N m+1
exp −
 (m + 1) .
(2λ ) 2π(t − t0 ) 2
Ne segue l’esistenza di una costante c = c(N , T , α, λ, λ0 ) tale che
1
Γ (t0 , x0 ; t, x) ≥ N
e−cm
c(t − t0 ) 2
e per la scelta di m questo basta a provare la tesi e concludere la dimostrazione del Teorema 19.2.5.
Capitolo 20
Soluzioni deboli di SDE: il problema

della martingala
[39], Chap.26
[60] Sect.3.6
20.1 Teorema di Girsanov
423
424 CAPITOLO 20. SOLUZIONI DEBOLI DI SDE: IL PROBLEMA DELLA MARTINGALA
Capitolo 21
Relazione fra SDE e PDE
21.1 Equazione di Kolmogorov backward

21.2 Equazione di Kolmogorov forward
Supponiamo che l’SDE (17.0.1) sia risolubile nel senso che, per ogni (t0 , x0 ) ∈ [0, +∞[×RN esista una
t ,x t ,x
soluzione X t0 ,x0 = (Xt 0 0 )t≥t0 con dato iniziale Xt00 0 = x0 relativa ad un moto Browniano fissato. Assu-
∞
miamo inoltre che b, σ ∈ Lloc . All’equazione (17.0.1) è formalmente associato l’operatore differenziale del
second’ordine a coefficienti variabili
N N
1X ∗
X
At = (σ (t, x)σ (t, x))ij ∂xi xj + bi (t, x)∂xi
2
i,j=1 i=1
che appare nella formula di Itô per X ed è chiamato operatore caratteristico dell’SDE (17.0.1).
Consideriamo una funzione test ϕ = ϕ(t, x) ∈ C0∞ (R×RN ), col supporto compatto contenuto in ]t0 , T [×RN :
per la formula di Itô si ha
Z T Z T
t ,x0 t ,x0 t ,x0 t ,x0
0 = ϕ(T , XT0 ) − ϕ(t0 , x0 ) = (∂t + At ) ϕ(t, Xt 0 )dt + ∇ϕ(t, Xt 0 )σ (t, Xt 0 )dWt .
t0 t0
Applicando il valore atteso, otteniamo

"Z T # Z T Z
t ,x
0=E (∂t + At ) ϕ(t, Xt 0 0 )dt = (∂t + At ) ϕ(t, x)p(t0 , x0 ; t, dx)dt (21.2.1)
t0 t0 RN
t ,x
dove al solito p(t0 , x0 ; t, dx) indica la legge della v.a. Xt 0 0 . Ricordiamo (cfr. Teorema 18.3.1) che, sotto
opportune ipotesi, p è la legge di transizione di ogni soluzione X dell’SDE: p(t0 , Xt0 ; t, dx) = µXt |Xt per
0
t ≥ t0 .
Per la (21.2.1), per ogni t0 ≥ 0 vale
"
(∂t + At ) ϕ(t, x)p(t0 , x0 ; t, dx)dt = 0, ϕ ∈ C0∞ (]t0 , +∞[×RN ). (21.2.2)
RN +1
La (21.2.2) si esprime dicendo che p(t0 , x0 ; t, dx) è soluzione distribuzionale dell’equazione forward di Kol-
mogorov
(−∂t + At∗ ) p(t0 , x0 ; t, dx) = 0, t > t0 , x ∈ RN . (21.2.3)
425
426 CAPITOLO 21. RELAZIONE FRA SDE E PDE
Qui At∗ indica l’operatore aggiunto formale di At , definito da

N N
1X X
At∗ f (t, x) = ∗
∂xi xj (σ (t, x)σ (t, x)f (t, x))ij − ∂xi (bi (t, x)f (t, x)),
2
i,j=1 i=1
che si ottiene per integrazione per parti: per ogni ϕ, ψ ∈ C0∞ (RN +1 ) vale
" "
((∂t + At ) ϕ(t, x)) ψ(x)dxdt = ϕ(t, x) (−∂t + At∗ ) ψ(x)dxdt.
RN +1 RN +1
L’equazione forward di Kolmogorov (21.2.3) è risolta da p(t0 , x0 ; t, dx) nelle variabili (t, x): in realtà, p non ha
la regolarità necessaria a scrivere l’equazione in senso classico, anzi p(t0 , x0 ; t, ·) non è neppure una funzione
della variabile x ma solo una distribuzione, ossia una misura di probabilità. Per questo motivo, l’equazione
(21.2.3) è da intendersi in senso distribuzionale e il suo significato rigoroso è espresso dalla (21.2.2).
L’equazione (21.2.3) è il punto di partenza per lo studio dell’esistenza e regolarità della densità di p
tramite tecniche analitiche (il risultato classico più importante in questo ambito è il famoso Teorema di
Hörmander [34]) e probabilistiche, il cosiddetto calcolo di Malliavin per il quale si veda, per esempio, [55]).
Si noti che se p è assolutamente continua con densità Γ , ossia
Z
p(t0 , x0 ; t, H) = Γ (t0 , x0 ; t, x)dx, H ∈ BN ,
H
allora Γ (t0 , x0 ; t, x) è soluzione debole della (21.2.3) ossia vale

"
(∂t + At ) ϕ(t, x)Γ (t0 , x0 ; t, x)dxdt = 0, ϕ ∈ C0∞ (]t0 , +∞[×RN ).
RN +1
In tal caso, si dice anche che (t, x) 7→ Γ (t0 , x0 ; t, x) è soluzione fondamentale dell’operatore forward −∂t + At∗ con
polo in (t0 , x0 ).
21.3 Integrale stocastico backward

21.4 SPDE di Krylov
21.5 Teorema di Gyöngy
Capitolo 22
Metodi numerici stocastici
427
428 CAPITOLO 22. METODI NUMERICI STOCASTICI
Capitolo 23
Applicazioni
Il non poter essere soddisfatto da

alcuna cosa terrena, nè, per dir cosı̀,
dalla terra intera; considerare
l’ampiezza inestimabile dello spazio,
il numero e la mole maravigliosa dei
mondi, e trovare che tutto è poco e
piccino alla capacità dell’animo
proprio; immaginarsi il numero dei
mondi infinito, e l’universo infinito,
e sentire che l’animo e il desiderio
nostro sarebbe ancora più grande che
siı̀ fatto universo; e sempre accusare
le cose d’insufficienza e di nullità, e
patire mancamento e vòto, e però
noia, pare a me il maggior segno di
grandezza e di nobiltà, che si vegga
della natura umana.
Giacomo Leopardi
23.1 Valutazione di derivati finanziari

[21], [58]
23.2 Filtraggio stocastico
429
430 CAPITOLO 23. APPLICAZIONI
Appendice A
A.1 Teoremi di Dynkin

Indichiamo con Ω un generico insieme non vuoto. Come anticipato nella Sezione 2.4.1, è difficile dare
una rappresentazione esplicita della σ -algebra σ (A ) generata da una famiglia A di sottoinsiemi di Ω.
I risultati di questa sezione, dal carattere piuttosto tecnico, permettono di dimostrare che se una certa
proprietà vale per gli elementi di una famiglia A allora vale anche per tutti gli elementi di σ (A ).
Definizione A.1.1 (Famiglia monotona di insiemi). Una famiglia M di sottoinsiemi di Ω è una famiglia
monotona se gode delle seguenti proprietà:
i) Ω ∈ M ;
ii) se A, B ∈ M e A ⊆ B, allora B \ A ∈ M ;
iii) se (An )n∈N è una successione crescente di elementi di M , allora An ∈ M .

S
n∈N
Ogni σ -algebra è una famiglia monotona mentre il viceversa non è necessariamente vero poiché la pro-
prietà iii) di “chiusura rispetto all’unione numerabile” vale solo per successioni crescenti, ossia tali che
An ⊆ An+1 per ogni n ∈ N. Tuttavia si ha il seguente risultato.
Lemma A.1.2. Se la famiglia monotona M è ∩-chiusa1 allora è una σ -algebra.
Dimostrazione. Se M è monotona verifica le prime due proprietà della definizione di σ -algebra: rimane
solo da provare la ii-b) della Definizione 2.1.1, ossia che l’unione numerabile di elementi di M appartiene
ad M . Anzitutto, dati A, B ∈ M , poiché
A ∪ B = (Ac ∩ Bc )c ,
l’ipotesi di chiusura rispetto all’intersezione implica che A ∪ B ∈ M . Ora, data una successione (An )n∈N di
elementi di M , definiamo la successione
n
[
Ān := Ak , n ∈ N,
k=1
che è crescente e tale che Ān ∈ M per quanto appena dimostrato. Allora si conclude che
[ [
An = Ān ∈ M
n∈N n∈N
per la iii) della Definizione A.1.1.

1 Ossia tale che A ∩ B ∈ M per ogni A, B ∈ M .
431
432 APPENDICE A.
Osserviamo che l’intersezione di famiglie monotone è una famiglia monotona. Data una famiglia A
di sottoinsiemi di Ω, indichiamo con M (A ) l’intersezione di tutte le famiglie monotone che contengono
A : diciamo cheM (A ) è la famiglia monotona generata da A , ossia la più piccola famiglia monotona che
contiene A .
Teorema A.1.3 (Primo Teorema di Dynkin). [!] Sia A una famiglia di sottoinsiemi di Ω. Se A è ∩-chiusa
allora M (A ) = σ (A ).
Dimostrazione. σ (A ) è monotona e quindi σ (A ) ⊇ M (A ). Viceversa, se proviamo che M (A ) è ∩-chiusa
allora dal Lemma A.1.2 seguirà che M (A ) è una σ -algebra e quindi σ (A ) ⊆ M (A ).
Proviamo dunque che M (A ) è ∩-chiusa. Poniamo
M1 = {A ∈ M (A ) | A ∩ I ∈ M (A ), ∀ I ∈ A },
e proviamo che M1 è una famiglia monotona: poiché A ⊆ M1 , ne seguirà M (A ) ⊆ M1 e quindi M (A ) =

M1 . Abbiamo:
i) Ω ∈ M1 ;
ii) per ogni A, B ∈ M1 con A ⊆ B, vale
(B \ A) ∩ I = (B ∩ I) \ (A ∩ I) ∈ M (A ), I ∈A,
e quindi B \ A ∈ M1 ;
iii) sia (An ) una successione crescente in M1 e indichiamo con A l’unione degli An . Allora abbiamo
[
A∩I = (An ∩ I) ∈ M (A ), I ∈A,
n≥1
e quindi A ∈ M1 .
Questo prova che M (A ) = M1 . Ora poniamo
M2 = {A ∈ M (A ) | A ∩ I ∈ M (A ), ∀ I ∈ M (A )}.
Abbiamo provato sopra che A ⊆ M2 . Inoltre, in modo analogo possiamo provare che M2 è una famiglia
monotona: ne viene che M (A ) ⊆ M2 e quindi M (A ) = M2 ossia M (A ) è ∩-chiusa.
Segue immediatamente dal Teorema A.1.3 il seguente
Corollario A.1.4. Sia M una famiglia monotona. Se M contiene una famiglia ∩-chiusa A , allora contiene
anche σ (A ).
Come secondo corollario dimostriamo la parte sull’unicità del Teorema 2.4.29 di Carathéodory (si veda
l’Osservazione A.1.6).
Corollario A.1.5. [!] Siano µ, ν misure finite su (Ω, σ (A )) dove A è una famiglia ∩-chiusa e tale che Ω ∈ A .
Se µ(A) = ν(A) per ogni A ∈ A allora µ = ν.
Dimostrazione. Sia
M = {A ∈ σ (A ) | P (A) = Q(A)}.
Verifichiamo che M è una famiglia monotona: dal primo Teorema di Dynkin seguirà che M ⊇ M (A ) =
σ (A ) da cui la tesi.
Delle tre condizioni della Definizione A.1.1, la i) è vera per ipotesi. Per quanto riguarda la ii), se A, B ∈
M con A ⊆ B allora si ha
µ(B \ A) = µ(B) − µ(A) = ν(B) − ν(A) = ν(B \ A)
A.2. ASSOLUTA CONTINUITÀ 433
e quindi (B \ A) ∈ M . Infine, se (An )n∈N è una successione crescente in M e A =

S
An , allora per la
n∈N
continuità dal basso delle misure (cfr. Proposizione 2.1.31) si ha
µ(A) = lim µ(An ) = lim ν(An ) = ν(A)

n→∞ n→∞
da cui A ∈ M e questo conclude la prova.
Osservazione A.1.6. La parte sull’unicità del Teorema 2.4.29 di Carathéodory segue facilmente dal Corol-
lario A.1.5: la tesi è che se µ, ν sono misure σ -finite su un’algebra A e coincidono su A allora coincidono
anche su σ (A ).
Per ipotesi, esiste una successione (An )n∈N in A tale che µ(An ) = ν(An ) < ∞ e Ω =
S
An . Fissato n ∈ N,
n∈N
poiché A è ∩-chiusa, utilizzando il Corollario A.1.5 si prova facilmente che
µ(A ∩ An ) = ν(A ∩ An ), ∀A ∈ σ (A ).
Passando al limite in n, la tesi segue dalla continuità dal basso delle misure.
Definizione A.1.7 (Famiglia monotona di funzioni). Una famiglia H di funzioni limitate, definite da un
insieme Ω a valori reali, è monotona se gode delle seguenti proprietà:
i) H è uno spazio vettoriale reale;
ii) la funzione costante 1 appartiene ad H ;
iii) se (Xn )n∈N è una successione di funzioni non-negative di H tale che Xn ↗ X con X limitata, allora
X∈H .
Teorema A.1.8 (Secondo Teorema di Dynkin). [!] Sia A una famiglia ∩-chiusa di sottoinsiemi di Ω. Se
H è una famiglia monotona che contiene le funzioni indicatrici di elementi di A , allora H contiene anche
tutte le funzioni limitate e σ (A )-misurabili.
M = {H ⊆ Ω | 1H ∈ H }.
Per ipotesi, A ⊆ M e, usando il fatto che H è una famiglia monotona, è facile provare che M è una
famiglia monotona di insiemi. Allora M ⊇ M (A ) = σ (A ), dove l’uguaglianza è conseguenza del primo
Teorema di Dynkin. Dunque H contiene le funzioni indicatrici di elementi di σ (A ).
Data X ∈ mσ (A ), non-negativa e limitata, per Lemma 3.2.3 esiste una successione (Xn )n∈N di funzioni
semplici σ (A )-misurabili e non-negative tali che Xn ↗ X. Ogni Xn è combinazione lineare di funzioni
indicatrici di elementi di σ (A ) e quindi appartiene ad H , essendo H uno spazio vettoriale: per la proprietà
iii) di H , si ha che X ∈ H . Infine, per provare che ogni funzione σ (A )-misurabile e limitata appartiene ad
H , è sufficiente decomporla nella somma della sua parte positiva e negativa.
A.2 Assoluta continuità

A.2.1 Teorema di Radon-Nikodym
In questa sezione approfondiamo il concetto di assoluta continuità fra misure di cui avevamo considerato
un caso particolare (l’assoluta continuità rispetto alla misura di Lebesgue) nella Sezione 2.4.5. Come ri-
sultato principale proviamo che l’esistenza della densità è condizione necessaria e sufficiente per l’assoluta
continuità: questo è il contenuto del classico Teorema di Radon-Nikodym.
434 APPENDICE A.
Definizione A.2.1.1. Siano µ, ν misure σ -finite su (Ω, F ). Diciamo che ν è µ-assolutamente continua su
F , e scriviamo ν ≪ µ, se ogni insieme µ-trascurabile di F è anche ν-trascurabile. Quando è importante
specificare la σ -algebra considerata, si scrive anche
ν ≪F µ.
Ovviamente se F1 ⊆ F2 sono σ -algebre, allora ν ≪F2 µ implica ν ≪F1 µ ma non è vero il viceversa.
Esempio A.2.1.2. La Definizione 2.4.18 di assoluta continuità è un caso particolare della definizione pre-
cedente: infatti se µ è una distribuzione assolutamente continua allora µ(H) = 0 per ogni H ∈ B tale che
Leb(H) = 0 o, in altri termini,
µ ≪B Leb
ossia µ è assolutamente continua rispetto alla misura di Lebesgue.
Teorema A.2.1.3 (Teorema di Radon-Nikodym). [!] Se µ, ν sono misure σ -finite su (Ω, F ) e ν ≪ µ, allora
esiste g ∈ mF + tale che Z
ν(A) = gdµ, A ∈ F. (A.2.1)
A
g ∈ mF + verifica (A.2.1), allora g = e

Inoltre se e g quasi ovunque rispetto a µ. Si dice che g è la densità (o la
derivata di Radon-Nikodym) di ν rispetto a µ e si scrive
dν dν
dν = gdµ oppure g= oppure g= | .
dµ dµ F
Osservazione A.2.1.4. Siano µ, ν misure come nell’enunciato precedente, definite su (Ω, F ), e f ∈ mF + :

approssimando f con una successione crescente di funzioni semplici non-negative come nel Lemma 3.2.3,
grazie al Teorema di Beppo-Levi si ha
Z Z
f dν = lim fn dν =
Ω n→∞ Ω
dν
(per la (A.2.1) ed indicando con dµ la derivata di Radon-Nikodym di ν rispetto a µ)
Z
dν
= lim fn dµ =
n→∞ Ω dµ
(riapplicando il Teorema di Beppo-Levi)

Z
dν
= f dµ.
Ω dµ
Vale dunque la seguente formula per il cambio di misura di integrazione

Z Z
dν
f dν = f dµ
Ω Ω dµ
per ogni f ∈ mF + .
g ∈ mF + verificano la (A.2.1), allora si ha

Dimostrazione del Teorema A.2.1.3. [Unicità] Se g,e
Z
(g − e
g )dµ = 0, A ∈ F. (A.2.2)
A
g > 0} ∈ F , deve essere µ(A) = 0 ossia g ≤ e

In particolare, posto A = {g − e g µ-q.o. perché in caso contrario si
avrebbe Z
(g − e
g )dµ > 0
A
che contraddice la (A.2.2). Analogamente si prova che g ≥ e
g µ-q.o.
[Esistenza] Supponiamo dapprima che µ, ν siano finite. Diamo una dimostrazione basata sul Teorema
di rappresentazione di Riesz2 per i funzionali lineari e continui su uno spazio di Hilbert. Consideriamo
l’operatore lineare Z
L(f ) := f dµ
Ω
definito sullo spazio di Hilbert L2 (Ω, F , µ + ν) munito dell’usuale prodotto scalare

Z
⟨f , g⟩ = f gd(µ + ν).
Ω
L’operatore L è limitato e quindi continuo: infatti, applicando la disuguaglianza triangolare e poi la

disuguaglianza di Hölder, si ha
Z Z q
|L(f )| ≤ |f |dµ ≤ |f |d(µ + ν) ≤ ∥f ∥L2 (µ + ν)(Ω).
Ω Ω
Allora per il Teorema di Riesz esiste ϕ ∈ L2 (Ω, F , µ + ν) tale che

Z Z
f dµ = f ϕd(µ + ν), f ∈ L2 (Ω, F , µ + ν). (A.2.3)
Ω Ω
Proviamo che 0 < ϕ < 1 µ-quasi ovunque: a tal fine, poniamo A0 = {ϕ < 0}, A1 = {ϕ > 1} e fi = 1Ai ∈
L2 (Ω, F , µ + ν), per i = 0, 1. Se fosse µ(Ai ) > 0, dalla (A.2.3) si avrebbe
Z Z Z
µ(A0 ) = f0 dµ = ϕd(µ + ν) ≤ ϕdµ < 0,
Ω A0 A0
Z Z Z
µ(A1 ) = f1 dµ = ϕd(µ + ν) ≥ ϕdµ > µ(A1 ),
Ω A1 A1
che è assurdo.
Ora, la (A.2.3) equivale a
Z Z
f ϕdν = f (1 − ϕ)dµ, f ∈ L2 (Ω, F , µ + ν),
Ω Ω
e per il Lemma 3.2.3 e il Teorema di Beppo-Levi (che si applica poiché 0 < ϕ < 1 µ-quasi ovunque e quindi
anche ν-quasi ovunque), tale uguaglianza si estende ad ogni f ∈ mF + . In particolare, per f = 1ϕA si ottiene
Z
1−ϕ
ν(A) = dµ, A ∈ F.
A ϕ
2
Teorema A.2.1.5 (Teorema di rappresentazione di Riesz). Se L è un operatore lineare e continuo su uno spazio di Hilbert (H, ⟨·, ·⟩),
allora esiste ed è unico y ∈ H tale che
L(x) = ⟨x, y⟩, x ∈ H.
Per la dimostrazione del Teorema A.2.1.5, e più in generale per un’introduzione semplice ma completa agli spazi di Hilbert, si veda il
Capitolo 4 in [66].
436 APPENDICE A.
1−ϕ
Questo prova la tesi con g = ϕ ∈ mF + .
Consideriamo ora il caso generale in cui µ, ν siano σ -finite. Allora esiste una successione crescente
(An )n∈N in F , che ricopre Ω e tale che (µ + ν)(An ) < ∞ per ogni n ∈ N. Consideriamo le misure finite
µn (A) := µ(A ∩ An ), νn (A) := ν(A ∩ An ), A ∈ F , n ∈ N.
È facile vedere che νn ≪ µn e quindi esiste gn ∈ mF + tale che νn = gn dµn . Inoltre come nella dimostrazione
dell’unicità, si prova che gn = gm su An per n ≤ m. Allora consideriamo g ∈ mF + definita da g = gn su An .
Per ogni A ∈ F si ha Z Z
ν(A ∩ An ) = νn (A) = gn dµn = f dµ
A A∩An
e la tesi segue passando al limite per n → +∞.
A.2.2 Rappresentazione di aperti di R mediante intervalli

Lemma A.2.2.1. Ogni aperto A di R si scrive come unione numerabile di intervalli aperti disgiunti:
]
A= ]an , bn [. (A.2.4)
n≥1
Dimostrazione. Sia A un aperto di R. Dato x ∈ A poniamo
ax = inf{a ∈ R | esiste b tale che x ∈ ]ax , b[ ⊆ A} e bx = sup{b ∈ R |]ax , b[ ⊆ A}.
Allora è chiaro che x ∈ Ix := ]ax , bx [ ⊆ A. D’altra parte, se x, y ∈ A e x , y allora si ha che Ix ∩ Iy = ∅ oppure

Ix ≡ Iy . Infatti, se per assurdo fosse Ix ∩ Iy , ∅ e Ix , Iy allora I := Ix ∪ Iy sarebbe un intervallo aperto, incluso
in A e tale che x ∈ Ix ⊂ I: ciò contraddirebbe la definizione di ax e bx .
Abbiamo quindi provato che A si scrive come unione di intervalli aperti disgiunti: ognuno di essi
contiene un razionale differente e quindi si tratta di un’unione numerabile.
Osservazione A.2.2.2. [!] Come conseguenza del Lemma A.2.2.1, abbiamo che se µ è una distribuzione su
R e A è un aperto, allora per la (A.2.4) si ha
X
µ(A) = µ(]an , bn [).
n≥1
Unendo questo risultato al Corollario 2.4.10, si conclude che due distribuzioni µ1 e µ2 su R sono uguali se
e solo se µ1 (I) = µ2 (I) per ogni intervallo aperto I.
Il Lemma A.2.2.1 non si estende al caso multi-dimensionale (o, peggio ancora, al caso di uno spazio
metrico generico). Sembrerebbe naturale poter sostituire gli intervalli di R con i dischi. Tuttavia, cosı̀
facendo il risultato diventa falso anche in dimensione uno (almeno se si suppone che il raggio dei dischi
debba essere finito): basta considerare, per esempio, A = ]0, +∞[. Analogamente, un’unione disgiunta di
dischi aperti di R2 è un insieme connesso se e solo se consiste di un solo disco: quindi non c’è speranza di
rappresentare un generico aperto connesso di R2 come unione numerabile di dischi aperti disgiunti.
Nella dimostrazione del Lemma A.2.2.1 abbiamo usato la densità dei razionali in R: data la sottigliezza
degli argomenti, occorre fare attenzione a ciò che sembra intuitivo, come mostra il seguente
Esempio A.2.2.3. Sia (xn )n∈N una enumerazione dei punti di H := ]0, 1[∩Q ∈ B. Fissato ε ∈ ]0, 1[, sia (rn )n∈N
una successione di numeri reali positivi tali che la serie
X ε
rn < .
2
n≥1
Poniamo [
A := ]xn − rn , xn + rn [∩]0, 1[.
n≥1
Allora A è aperto, H ⊆ A e per la sub-additività (cfr. Proposizione 2.1.22-ii))

X
Leb(A) ≤ Leb(]xn − rn , xn + rn [) < ε.
n≥1
Ne segue anche che A è strettamente incluso ]0, 1[ (perché ha misura di Lebesgue minore di 1) pur essendo
aperto e denso in ]0, 1[.
A.2.3 Derivabilità di funzioni integrali

Il punto di partenza dei risultati di questa sezione è il classico Teorema di Lebesgue sulla derivabilità
delle funzioni monotone.
Teorema A.2.3.1 (di Lebesgue). [!!] Ogni funzione monotona (debolmente) crescente
F : [a, b] −→ R
è derivabile q.o. e vale

Z b
F ′ (x)dx ≤ F(b) − F(a). (A.2.5)
a
La disuguaglianza in (A.2.5) può essere stretta (si pensi alle funzioni costanti a tratti): la funzione di
Vitali dell’Esempio 2.4.36 è monotona, continua e verifica la (A.2.5) con la disuguaglianza stretta.
La dimostrazione standard del Teorema A.2.3.1 è basata sul Teorema di ricoprimento di Vitali e si può
trovare in [7], Teorema 14.18. Un’altra dimostrazione più diretta ma sotto l’ipotesi aggiuntiva di continuità,
è dovuta a Riesz (cfr. Capitolo 1.3 in [65]).
Proposizione A.2.3.2. Se γ ∈ L1 ([a, b]) e vale

Zx
γ(t)dt = 0 per ogni x ∈ [a, b],
a
allora γ = 0 q.o.
Dimostrazione. Dall’ipotesi segue anche che

Zx Zx Z x0
γ(t)dt = γ(t)dt − γ(t)dt = 0 a ≤ x0 < x ≤ b.
x0 a a
Inoltre, per il Lemma A.2.2.1 ogni aperto A ⊆ [a, b] si scrive nella forma (A.2.4) e quindi
Z ∞ Z
X bn
γ(t)dt = γ(t)dt = 0. (A.2.6)
A n=1 an
Ora sia H ∈ B, con H ⊆ [a, b]: per la Proposizione 2.4.9 sulla regolarità delle misure di Borel, per ogni n ∈ N
esiste un aperto An tale che H ⊆ An e Leb(An \ H) ≤ n1 . Allora si ha
Z Z Z
γ(t)dt = γ(t)dt − γ(t)dt =
H An An \H
438 APPENDICE A.
(per la (A.2.6))
Z
=− γ(t)dt −−−−−−−→ 0
An \H n→+∞
R
per il teorema della convergenza dominata. Dunque H γ(t)dt = 0 per ogni H ∈ B.
Allora, per ogni n ∈ N, poniamo Hn = {x ∈ [a, b] | γ(x) ≥ n1 } ∈ B: si ha
Z
Leb(Hn )
0= γ(t)dt ≥
Hn n
da cui Leb(Hn ) = 0 e quindi anche

∞
[
{x ∈ [a, b] | γ(x) > 0} = Hn
n=1
ha misura di Lebesgue nulla, ossia γ ≤ 0 q.o. Analogamente si prova che γ ≥ 0 q.o. e questo conclude la
prova.
Proposizione A.2.3.3. Se Z x
F(x) = F(a) + γ(t)dt, x ∈ [a, b],
a
con γ ∈ L1 ([a, b]), allora esiste F ′ = γ q.o.
Dimostrazione. A meno di considerare separatamente parte positiva e negativa di γ, possiamo assumere
γ ≥ 0 q.o. (e quindi F monotona crescente). Osserviamo anzitutto che F è continua poiché3
Z x+h
F(x + h) − F(x) = γ(t)dt −−−−→ 0
x h→0
per il Teorema della convergenza dominata.

Assumiamo dapprima anche che γ ∈ L∞ : allora si ha
Z x+h
F(x + h) − F(x) = 1
γ(t)dt ≤ ∥γ∥∞
h h x

e d’altra parte, per il Teorema A.2.3.1 di Lebesgue, essendo F monotona crescente, si ha che esiste
F(x + h) − F(x)
lim = F ′ (x) q.o.
h→0 h
Dunque, ancora per il Teorema della convergenza dominata, per a < x0 < x < b abbiamo
Zx Zx
F(t + h) − F(t)
F ′ (t)dt = lim dt
x0 h→0 x0 h
Z x+h Z x0 +h !
1
= lim F(t)dt − F(t)dt
h→0 h x x0
(poiché F è continua)
= F(x) − F(x0 ).
3 Se h < 0 poniamo per definizione
Z x+h Zx
γ(t)dt = − γ(t)dt.
x x+h
Ne segue che
Z x
(F ′ (t) − γ(t)) dt = 0, x ∈ [a, b]
a
e quindi, per la Proposizione A.2.3.2, F ′ = γ q.o.

Consideriamo ora il caso in cui γ ∈ L1 ([a, b]). Per n ∈ N, consideriamo la successione

γ(t) se 0 ≤ γ(t) ≤ n,


γn (t) = 
0
 se γ(t) > n.
Allora si ha F = Fn + Gn dove
Z x Z x
Fn (x) = γn (t)dt, Gn (x) = (γ(t) − γn (t)) dt.
a a
Da una parte, Gn è una funzione crescente (e quindi derivabile q.o. con Gn′ ≥ 0) poiché γ − γn ≥ 0 e d’altra
parte, per quanto appena provato, esiste Fn′ = γn q.o. Quindi si ha
F ′ = γn + G ′ ≥ γn q.o.
e, passando al limite per n → ∞, F ′ ≥ γ q.o. Allora vale

Z b Z b
F ′ (t)dt ≥ γ(t)dt = F(b) − F(a).
a a
Ma la disuguaglianza opposta viene dal Teorema A.2.3.1 di Lebesgue (si veda la (A.2.5)) e quindi
Z b
F ′ (t)dt = F(b) − F(a).
a
Allora si ha ancora Z b
(F ′ (t) − γ(t)) dt = 0
a
e, poiché F ′ ≥ γ q.o., si conclude che F ′ = γ q.o.
A.2.4 Assoluta continuità di funzioni

Definizione A.2.4.1 (Funzione assolutamente continua). Si dice che
F : [a, b] −→ R
è assolutamente continua, e si scrive F ∈ AC([a, b]), se, per ogni ε > 0 esiste δ > 0 tale che
N
X
|F(bn ) − F(an )| < ε (A.2.7)
n=1
per ogni scelta di un numero finito di intervalli disgiunti [an , bn ] ⊆ [a, b] tali che
N
X
(bn − an ) < δ.
n=1
440 APPENDICE A.
Esercizio A.2.4.2. Provare che se F ∈ AC([a, b]) allora, per ogni ε > 0 esiste δ > 0 tale che
∞
X
|F(bn ) − F(an )| < ε
n=1
per ogni successione di intervalli disgiunti [an , bn ] ⊆ [a, b] tali che

∞
X
(bn − an ) < δ.
n=1
L’importanza delle funzioni assolutamente continue sta nel fatto che sono le funzioni per cui vale il
teorema fondamentale del calcolo integrale. Il principale risultato di questa sezione è il seguente
Teorema A.2.4.3. [!] Una funzione F è assolutamente continua su [a, b] se e solo se F è derivabile q.o. con
F ′ ∈ L1 ([a, b]) e vale Z x
F(x) = F(a) + F ′ (t)dt, x ∈ [a, b].
a
Alla dimostrazione del Teorema A.2.4.3 premettiamo alcuni risultati preliminari. Anzitutto ricordiamo
la
Definizione A.2.4.4 (Funzione a variazione limitata). Si dice che
F : [a, b] −→ R
è a variazione limitata, e si scrive F ∈ BV([a, b]), se

b
_ q
X
(F) := sup |F(tk ) − F(tk−1 )| < ∞
a σ ∈P[a,b] k=1
dove P[a,b] indica l’insieme delle partizioni σ dell’intervallo [a, b], ossia delle scelte di un numero finito di
punti σ = {t0 , t1 , . . . , tq } tali che
a = t0 < t1 < · · · < tq = b.
Una presentazione dei principali risultati sulle funzioni a variazione limitata si trova in [45]. Qui
ricordiamo solo che per ogni F ∈ BV([a, b]) si ha
b
_ c
_ b
_
(F) = (F) + (F), c ∈ ]a, b[, (A.2.8)
a a c
e inoltre F si scrive come differenza di funzioni monotone crescenti nel modo seguente: per x ∈ [a, b]
x
_
F(x) = u(x) − v(x), u(x) := (F), v(x) := u(x) − F(x). (A.2.9)
a
Lemma A.2.4.5. Se F ∈ AC([a, b]) allora F ∈ BV([a, b]) e nella decomposizione (A.2.9), le funzioni u, v sono
monotone crescenti e assolutamente continue.
Dimostrazione. Poiché F ∈ AC([a, b]), esiste δ > 0 tale che
N
X
|F(bn ) − F(an )| < 1
n=1
per ogni scelta di un numero finito di intervalli disgiunti [an , bn ] ⊆ [a, b] tali che
N
X
(bn − an ) < δ.
n=1
Questo implica che F ∈ BV su ogni sotto-intervallo di [a, b] di lunghezza minore o uguale a δ. Allora il fatto
che F ∈ BV([a, b]) segue dalla (A.2.8), suddividendo [a, b] in un numero finito di intervalli di lunghezza
minore o uguale a δ.
Proviamo ora che u ∈ AC([a, b]) (e quindi anche v ∈ AC([a, b])). Per ipotesi F ∈ AC([a, b]) e quindi dato
ε > 0 esiste δ > 0 come nella Definizione A.2.4.1. Siano [an , bn ] ⊆ [a, b], n = 1, . . . , N , intervalli disgiunti tali
che
XN
(bn − an ) < δ.
n=1
Si ha
N
X X bn
N _ N
X qn
X
(u(bn ) − u(an )) = (F) = sup F(tn,k ) − F(tn,k−1 ) < ε
n=1 n=1 an n=1 σ ∈P[an ,bn ] k=1
poiché, in base alla (A.2.7), si ha

qn
N X
X
F(tn,k ) − F(tn,k−1 ) < ε
n=1 k=1
per ogni partizione (tn,0 , . . . , tn,qn ) ∈ P[an ,bn ] .
Dimostrazione del Teorema A.2.4.3. Se F ammette una rappresentazione del tipo
Zx
F(x) = F(a) + γ(t)dt, x ∈ [a, b],
a
con γ ∈ L1 ([a, b]) allora chiaramente F è assolutamente continua per il Teorema della convergenza dominata
di Lebesgue. Inoltre F ′ = γ q.o. per la Proposizione A.2.3.3.
Viceversa, se F ∈ AC([a, b]), per il Lemma A.2.4.5 non è restrittivo assumere anche che F sia monotona
crescente. Allora possiamo considerare la misura µF definita come nel Teorema 2.4.33-i):
µF (]x, y]) = F(y) − F(x), a ≤ x < y ≤ b.
Vogliamo provare che µF è assolutamente continua rispetto alla misura di Lebesgue ossia µF ≪ Leb. Con-
sideriamo B ∈ B tale che Leb(B) = 0: per definizione di misura di Lebesgue4 , per ogni δ > 0 esiste una
successione (]an , bn ])n∈N di intervalli disgiunti tale che
∞
[
A ⊇ B, Leb(A) < δ, A := ]an , bn ]. (A.2.10)
n=1
Di conseguenza, per ogni ε > 0 esistono δ > 0 e A come in (A.2.10) per cui si ha
µF (B) ≤ µF (A ∩ [a, b]) ≤ ε,
dove la prima disuguaglianza è per la monotonia di µF e la seconda viene dal fatto che F ∈ AC([a, b])
e Leb(A) < δ (si ricordi l’Esercizio A.2.4.2). Data l’arbitrarietà di ε, si conclude che µF (B) = 0 e quindi
µF ≪ Leb.
4 Ricordiamo che (cfr. (2.5.5))
Leb(B) = inf{Leb(A) | B ⊆ A ∈ U }
dove U indica la famiglia delle unioni numerabili di intervalli disgiunti della forma ]a, b].
442 APPENDICE A.
Per il Teorema A.2.1.3 di Radon-Nikodym, esiste γ ∈ L1 ([a, b]) tale che

Zx
F(x) − F(a) = µF (]a, x]) = γ(t)dt, x ∈ [a, b],
a
e grazie alla Proposizione A.2.3.3 concludiamo che F′ = γ q.o.
A.3 Uniforme integrabilità

Forniamo uno strumento utile allo studio delle successioni di variabili aleatorie, il Teorema di Vitali:
si tratta di una generalizzazione del Teorema della convergenza dominata di Lebesgue. In questa sezione
X = (Xt )t∈I è una famiglia di v.a. sullo spazio (Ω, F , P ) a valori in Rd , con I insieme qualsiasi di indici.
Diciamo che X è un processo stocastico.
Definizione A.3.0.1 (Uniforme integrabilità). Un processo stocastico (Xt )t∈I sullo spazio (Ω, F , P ) è uni-
formemente integrabile se vale h i
lim sup E |Xt |1(|Xt |≥R) = 0,
R→∞ t∈I
h i
o, in altri termini, se per ogni ε > 0 esiste R > 0 tale che E |Xt |1(|Xt |≥R) < ε per ogni t ∈ I.
q.c.
Teorema A.3.0.2 (Teorema di convergenza di Vitali). Se Xn −−−−→ X e (Xn )n∈N è uniformemente integrabile
allora E [|Xn − X|] −→ 0.
h i
Dimostrazione. Proviamo la tesi nel caso X = 0. Fissato ε > 0, esiste R > 0 tale che E |Xn |1(|Xn |≥R) < 2ε per
ogni
h n ∈ N; inoltre,
i per il teorema della convergenza dominata esiste n̄, che dipende da ε e R, tale che
E |Xn |1(|Xn |<R) < 2ε per ogni n ≥ n̄. In definitiva
h i h i
E [|Xn |] = E |Xn |1(|Xn |≥R) + E |Xn |1(|Xn |<R) < ε
per ogni n ≥ n̄.

In generale, vedremo fra poco nel Corollario A.3.0.5, che la somma di processi uniformemente integra-
bili è uniformemente integrabile. Dunque per riportarsi al caso precedente basta considerare il processo
q.c.
Yn = Xn − X che è uniformemente integrabile e tale Yn −−−−→ 0.
Diamo una caratterizzazione dell’uniforme integrabilità.
Definizione A.3.0.3 (Uniforme assoluta continuità). Un processo (Xt )t∈I sullo spazio (Ω, F , P ) è unifor-
memente assolutamente continuo se per ogni ε > 0 esiste δ > 0 tale che E [|Xt |1A ] < ε per ogni t ∈ I e A ∈ F
tale che P (A) < δ.
Proposizione A.3.0.4. Sono equivalenti:
i) il processo (Xt )t∈I è uniformemente integrabile;
ii) il processo (Xt )t∈I è uniformemente assolutamente continuo e sup E [|Xt |] < ∞.
t∈I
Dimostrazione. Se (Xt )t∈I è uniformemente integrabile esiste R > 0 tale che

h i
sup E |Xt |1(|Xt |≥R) ≤ 1.
t∈I
Allora si ha h i
E [|Xt |] ≤ 1 + E |Xt |1(|Xt |≤R) ≤ 1 + R.
A.3. UNIFORME INTEGRABILITÀ 443
h i
Analogamente, dato ε > 0 esiste R tale che E |Xt |1(|Xt |≥R) < 2ε per ogni t ∈ I: allora per ogni A ∈ F tale che
ε
P (A) < 2R , si ha
h i h i ε
E [|Xt |1A ] = E |Xt |1A∩(|Xt |≥R) + E |Xt |1A∩(|Xt |<R) < + RP (A) < ε.
2
Viceversa, per ipotesi, dato ε > 0 esiste δ > 0 tale che E [|Xt |1A ] < ε per ogni t ∈ I e A ∈ F tale che P (A) < δ.
Per la disuguaglianza di Markov, esiste R tale che
1
P (|Xt | ≥ R) ≤ sup E [|Xt |] < δ
R t∈I
e di conseguenza h i
E |Xt |1(|Xt |≥R) < ε
per ogni t ∈ I.
Corollario A.3.0.5. Se (Xt )t∈I e (Yt )t∈I sono uniformemente integrabili allora (Xt + Yt )t∈I è uniformemente
integrabile.
Dimostrazione. Utilizzando la caratterizzazione della Proposizione A.3.0.4, si tratta di una semplice verifi-
ca.
Diamo ora qualche esempio.
Proposizione A.3.0.6. Se esiste Y ∈ L1 (Ω, P ) tale che |Xt | ≤ Y per ogni t ∈ I allora (Xt )t∈I è uniformemente
integrabile.
Dimostrazione. Sia ε > 0: per l’assoluta continuità del valore atteso (Corollario 3.2.12), esiste δ > 0 tale che
E [|Y |1A ] < ε per ogni A ∈ F tale che P (A) < δ. Ora, per la disuguaglianza di Markov si ha
E [|Xt |] E [|Y |] E [|Y |]
P (|Xt | ≥ R) ≤ ≤ < δ, se R > .
R R δ
Allora h i h i
E |Xt |1(|Xt ≥R|) ≤ E |Y |1(|Xt ≥R|) < ε.
Dalla Proposizione A.3.0.6 deduciamo che:

• un processo formato da una sola v.a. X sommabile è uniformemente integrabile;
• il teorema della convergenza dominata è un corollario del Teorema di Vitali.
Proposizione A.3.0.7. Siano X ∈ L1 (Ω, F , P ) e (Ft )t∈I una famiglia di sotto-σ -algebre di F . Il processo
definito da Xt = E [X | Ft ] è uniformemente integrabile.
Dimostrazione. La prova è analoga a quella del Lemma A.3.0.6. Fissato ε > 0, sia δ > 0 tale che E [|X|1A ] < ε
per ogni A ∈ F tale che P (A) < δ. Combinando le disuguaglianze di Markov e di Jensen abbiamo
E [|Xt |] E [|X|] E [|X|]
P (|Xt | ≥ R) ≤ ≤ < δ, se R > .
R R δ
Ancora per la disuguaglianza di Jensen si ha
h i h i
E |Xt |1(|Xt |≥R) ≤ E E [|X| | Ft ] 1(|Xt |≥R) =
(per le proprietà dell’attesa condizionata, essendo 1(|Xt |≥R) ∈ bFt )

h i
= E |X|1(|Xt |≥R) < ε.
444 APPENDICE A.
Osservazione A.3.0.8. [!] La Proposizione A.3.0.7 si applica spesso nello studio della convergenza di par-
ticolari processi stocastici detti martingale. La situazione tipica è quella in cui si ha una successione (Xn )n∈N
che converge puntualmente; se Xn è della forma Xn = E [X | Fn ] per una certa X ∈ L1 (Ω, P ) e una famiglia
(Fn )n∈N di sotto-σ -algebre di F , allora per la Proposizione A.3.0.7, (Xn )n∈N è uniformemente integrabile.
Il Teorema di convergenza di Vitali garantisce che (Xn )n∈N converge anche in norma L1 (Ω, P ).
Proposizione A.3.0.9. Se esiste una funzione
ϕ : R≥0 −→ R≥0
ϕ(r)
crescente, tale che lim r = +∞ e sup E [ϕ(|Xt |)] < ∞ allora (Xt )t∈I è uniformemente integrabile.
r→+∞ t∈I
ϕ(r) 1
Dimostrazione. Per ogni ε > 0 esiste rε > 0 tale che r > ε per ogni r ≥ rε . Allora, per R > rε si ha
" #
h i |Xt |
E |Xt |1(|Xt |≥R) = E ϕ(|Xt |)1(|Xt |≥R) ≤ ε sup E [ϕ(|Xt |)]
ϕ(|Xt |) t∈I
Osservazione A.3.0.10. Applichiamo la Proposizione A.3.0.9 con ϕ(r) = r p per un p > 1: si ha che se (Xt )t∈I
è limitata in norma Lp (Ω, P ), ossia sup E [|Xt |p ] < ∞, allora è uniformemente integrabile.
t∈I
Appendice B
Temi d’esame risolti
445
446 APPENDICE B. TEMI D’ESAME RISOLTI
Probabilità e Statistica Matematica 1 - Prof. Andrea Pascucci

– Dicembre 2016 –
1. L’urna A contiene tre palline, una bianca, una rossa e una nera. L’urna B contiene tre palline, due
bianche e una nera. Si sceglie a caso un’urna e estrae una pallina. Determinare:
i) la probabilità di estrarre una pallina bianca;

ii) sapendo che è estratta una pallina bianca, la probabilità che sia stata scelta l’urna A.
2. Una lampadina led ha ogni giorno, indipendentemente dagli altri giorni, probabilità p = 0.1% di
fulminarsi. Determinare:
i) la durata media (in giorni) della lampadina;

ii) la probabilità che la lampadina duri almeno un anno.
In una città ci sono 10000 lampioni che montano tale lampadina. Scrivere una formula per determi-
nare (non occorre calcolarlo) il numero minimo di lampadine di scorta occorrenti affinché, con pro-
babilità del 99%, si riescano a cambiare tutte le lampadine, fra le 10000 montate, che si fulminano in
un giorno.
3. Data una v.a. C ∼ Unif[0,λ] , dove λ > 0, si determini il massimo valore di λ tale che l’equazione
x2 − 2x + C = 0
abbia, con probabilità uno, due soluzioni reali. Per tale valore di λ si determini la densità di una
delle soluzioni dell’equazione.
4. Siano X, Y variabili aleatorie indipendenti con distribuzione µ = 12 (δ−1 + δ1 ). Determinare:
i) la funzione caratteristica congiunta ϕ(X,Y ) ;

ii) la funzione caratteristica ϕX+Y della somma X + Y ;
iii) la funzione caratteristica ϕXY e la distribuzione del prodotto XY ;
iv) facoltativo: provare che X e XY sono indipendenti.
447

1. L’urna A contiene tre palline, una bianca, una rossa e una nera. L’urna B contiene tre palline, due
bianche e una nera. Si sceglie a caso un’urna e estrae una pallina. Determinare:
i) la probabilità di estrarre una pallina bianca;
ii) sapendo che è estratta una pallina bianca, la probabilità che sia stata scelta l’urna A.
Soluzione.
i) la probabilità di estrarre una pallina bianca è 12 perché ci sono 3 palline bianche in totale su 6 con
uguale probabilità di essere estratte; oppure indicando con b l’evento di estrarre una pallina bianca e
con A, B gli eventi relativi alle scelte delle urne, si ha
1 1 2 1 1
P (b) = P (b | A)P (A) + P (b | B)P (B) = · + · = .
3 2 3 2 2
i) per la formula di Bayes si ha
P (b | A)P (A) 1
P (A | b) = = .
P (b) 3
2. Una lampadina led ha ogni giorno, indipendentemente dagli altri giorni, probabilità p = 0.1% di
fulminarsi. Determinare:
i) la durata media (in giorni) della lampadina;
ii) la probabilità che la lampadina duri almeno un anno.
In una città ci sono 10000 lampioni che montano tale lampadina. Scrivere una formula per determi-
nare (non occorre calcolarlo) il numero minimo di lampadine di scorta occorrenti affinché, con pro-
babilità del 99%, si riescano a cambiare tutte le lampadine, fra le 10000 montate, che si fulminano in
un giorno.
Soluzione.
i)-ii) Sia T la v.a. aleatoria che indica il giorno in cui la lampadina si fulmina. Allora T ∼ Geomp (cfr.
Esempio 3.1.24). Quindi la durata media (in giorni) della lampadina è
1
E [T ] = = 1000.
p
Inoltre la probabilità che la lampadina duri almeno un anno è (cfr. Teorema 3.1.25)
P (T > 365) = (1 − p)365 ≈ 69.4%
iii) Indichiamo con X il numero di lampadine, fra le 10000 montate, che si fulminano in un giorno. Allora
X ∼ Bin10000,p (cfr. Esempio 3.1.20). Dobbiamo determinare il minimo N tale che
P (X ≤ N ) ≥ 99%.
Ora si ha (si potrebbe anche usare l’approssimazione con la Poisson, cfr. Esempio 3.1.23):
N !
X 10000 k
P (X ≤ N ) = p (1 − p)n−k .
k
k=0
Un calcolo esplicito mostra che
P (X ≤ 17) = 98.57%, P (X ≤ 18) = 99.28%,
quindi N = 18.
3. Data una v.a. C ∼ Unif[0,λ] , dove λ > 0, si determini il massimo valore di λ tale che l’equazione
x2 − 2x + C = 0
abbia, con probabilità uno, soluzioni reali. Per tale valore di λ si determini la densità di una delle
soluzioni dell’equazione.
Soluzione. L’equazione ha soluzioni reali se ha il discriminante non negativo:
∆ = 4 − 4C ≥ 0
ossia C ≤ 1. Dunque se λ ≤ 1 l’equazione ha soluzioni reali con probabilità uno, mentre se λ > 1 allora
la probabilità che l’equazione non abbia soluzioni reali è pari a Unifλ (]1, λ]) = λ−1
λ > 0. Dunque il valore
massimo cercato è λ = 1.
√
Consideriamo la soluzione X = 1 + 1 − C e calcoliamone la funzione di ripartizione. Anzitutto se C ∼
Unif[0,1] allora X assume valori in [1, 2]: dunque per x ∈ [1, 2] si ha
√
P (X ≤ x) = P 1 − C ≤ x − 1

= P C ≥ 1 − (x − 1)2
Z1
= dy = (x − 1)2 .
1−(x−1)2
Derivando si ottiene la densità di X:
γX (x) = (2x − 2)1[1,2] (x), x ∈ R.
3. Siano X, Y variabili aleatorie indipendenti con distribuzione µ = 12 (δ−1 + δ1 ). Determinare:

i) la funzione caratteristica congiunta ϕ(X,Y ) ;
ii) la funzione caratteristica ϕX+Y della somma X + Y ;
iii) la funzione caratteristica ϕXY e la distribuzione del prodotto XY ;
iv) facoltativo: provare che X e XY sono indipendenti.
Soluzione.
i) Essendo v.a. indipendenti, la funzione caratteristica congiunta è il prodotto delle marginali:
h i h i h i
ϕ(X,Y ) (η1 , η2 ) = E ei(η1 X+η2 Y ) = E eiη1 X E eiη2 Y = cos(η1 ) cos(η2 ),
poiché
h i 1
ϕY (η) = ϕX (η) = E eiηX = eiη + e−iη = cos η.
2
ii) ancora per l’indipendenza, la funzione caratteristica della somma è
h i h i h i
ϕX+Y (η) = E eiη(X+Y ) = E eiηX E eiηY = (cos η)2 .
449
iii) si ha
h i "
ϕXY (η) = E eiηXY = eiηxy (µ ⊗ µ) (dx, dy) =
R2

Z Z !
iηxy
= e µ(dx) µ(dy)
R R
Z
= cos(ηy)µ(dy)
R
1
= (cos η + cos(−η)) = cos η.
2
Dunque XY ha la stessa funzione caratteristica di X e quindi anche la stessa distribuzione µ.
iv) per provare che X e XY sono indipendenti calcoliamo la funzione caratteristica di X e XY , e verifichia-
mo che è uguale al prodotto delle funzioni caratteristiche marginali:
h i "
i(η1 X+η2 XY )
ϕ(X,XY ) (η1 , η2 ) = E e = eix(η1 +η2 y) (µ ⊗ µ) (dx, dy) =
R2

Z Z !
ix(η1 +η2 y)
= e µ(dx) µ(dy)
R R
Z
1
= e−i(η1 +η2 y) + e−i(η1 +η2 y) µ(dy)
2 R
1 −i(η1 −η2 ) −i(η1 +η2 ) i(η1 −η2 ) i(η1 +η2 )
= e +e +e +e
4
= cos(η1 ) cos(η2 ) = ϕX (η1 )ϕXY (η2 ).

– Gennaio 2017 –
1. Siano A, B, C eventi indipendenti sullo spazio di probabilità (Ω, F , P ), con P (A) = P (B) = P (C) = 12 .
Calcolare:
i) P (A ∪ B);
ii) P (A ∪ B ∪ C).
2. Verificare che la funzione
γ(x, y) = (x + y)1[0,1]×[0,1] (x, y), (x, y) ∈ R2 ,
è una densità. Siano X, Y v.a. con densità congiunta γ: determinare

i) se X, Y sono indipendenti;
ii) il valore atteso E [XY ];
iii) la densità della somma X + Y .
3. Dato n ≥ 2, sia Ω lo spazio delle permutazioni di In := {1, 2, . . . , n}, cioè delle funzioni biunivoche da In
in sé, dotato della probabilità uniforme P . Una permutazione ω ha i ∈ In come punto fisso se e solo se
ω(i) = i. Definiamo l’evento Ai come l’evento “la permutazione ha i come punto fisso”. Determinare:
i) P (Ai ) per i = 1, . . . , n;
ii) se tali eventi sono indipendenti o meno;
iii) il valore atteso del numero di punti fissi.
4. Sia Y = Y (t) la soluzione del problema di Cauchy

Y ′ (t) = AY (t),


Y (0) = y0 ,


dove A ∼ Nµ,σ 2 e y0 > 0.
i) Per ogni t > 0 determinare la distribuzione e la densità della v.a. Y (t);

ii) scrivere l’espressione della funzione caratteristica ϕA della v.a. A e da essa ricavare
h i
E eA = ϕA (−i),
e quindi calcolare E [Y (t)];

iii) le v.a. Y (1) e Y (2) sono indipendenti?
451

1. Siano A, B, C eventi indipendenti sullo spazio di probabilità (Ω, F , P ), con P (A) = P (B) = P (C) = 12 .
Calcolare:
i) P (A ∪ B);
ii) P (A ∪ B ∪ C).
Soluzione.
i) Si ha
1 3
P (A ∪ B) = 1 − P (Ac ∩ Bc ) = 1 − P (Ac )P (Bc ) = 1 − = .
4 4
Oppure in alternativa, ricordando che il simbolo ⊎ indica l’unione disgiunta, si ha
P (A ∪ B) = P (A ⊎ (B ∩ Ac )) = P (A) + P (B ∩ Ac ) =
(per l’indipendenza di B e Ac )
1 1 1 3
= + · = .
2 2 2 4
ii) Analogamente si ha
1 7
P (A ∪ B ∪ C) = 1 − P (Ac ∩ Bc ∩ C c ) = 1 − P (Ac )P (Bc )P (C c ) = 1 − = ,
8 8
oppure
P (A ∪ B ∪ C) = P (A ∪ B) + P (C ∩ (A ∪ B)c ) =
(per il punto i))
3
= + P (C ∩ Ac ∩ Bc ) =
4
3 3 1 7
= + P (C)P (Ac )P (Bc ) = + = .
4 4 8 8
2. Verificare che la funzione
γ(x, y) = (x + y)1[0,1]×[0,1] (x, y), (x, y) ∈ R2 ,
è una densità. Siano X, Y v.a. con densità congiunta γ: determinare
i) se X, Y sono indipendenti;
ii) il valore atteso E [XY ];
iii) la densità della somma X + Y .
Soluzione. La funzione γ è non-negativa e vale

" #x=y=1
x2 y + xy 2
"
γ(x, y)dxdy = =1
R2 2 x=y=0
e quindi è una densità. Inoltre:
i) La densità di X è Z
1

γX (x) := γ(x, y)dy = x + 1[0,1] (x), x ∈ R.
R 2
In modo analogo si calcola γY e si verifica che X, Y non sono indipendenti poiché γ , γX γY ;
ii) si ha
Z 1Z 1
1
E [XY ] = xy(x + y)dxdy = ;
0 0 3
iii) per il Teorema 3.6.1, la densità di X + Y vale

Z
γX+Y (z) = γ(x, z − x)dx, z ∈ [0, 2].
R
Imponendo la condizione (x, z − x) ∈ [0, 1] × [0, 1], si ha


z 2
Z 
 se z ∈ [0, 1],
γ(x, z − x)dx = 
R

z(2 − z) se z ∈ [1, 2].
3. Dato n ≥ 2, sia Ω lo spazio delle permutazioni di In := {1, 2, . . . , n}, cioè delle funzioni biunivoche da In
in sé, dotato della probabilità uniforme P . Una permutazione ω ha i ∈ In come punto fisso se e solo se
ω(i) = i. Definiamo l’evento Ai come l’evento “la permutazione ha i come punto fisso”. Determinare:
i) P (Ai ) per i = 1, . . . , n;
ii) se tali eventi sono indipendenti o meno;
iii) il valore atteso del numero di punti fissi.
Soluzione.
i) Una permutazione con i come punto fisso equivale ad una permutazione dei restanti (n − 1) elementi
(n−1)!
quindi ci sono (n − 1)! tali permutazioni (indipendentemente da i), dunque P (Ai ) = n! = n1 .
ii) Procedendo come nel punto precedente, per i , j si ha
(n − 2)! 1 1
P (Ai ∩ Aj ) = = , = P (Ai )P (Aj )
n! n(n − 1) n2
e dunque gli eventi non sono indipendenti.

iii) Occorre determinare il valore atteso della variabile aleatoria
1A1 + 1A2 + · · · + 1An .
Per linearità del valore atteso, questo è pari a n · n1 = 1.

453
4. Sia Y = Y (t) la soluzione del problema di Cauchy


Y ′ (t) = AY (t),


Y (0) = y0 ,


dove A ∼ Nµ,σ 2 e y0 > 0.

i) Per ogni t > 0 determinare la distribuzione e la densità della v.a. Y (t);
ii) scrivere l’espressione della funzione caratteristica ϕA della v.a. A e da essa ricavare
h i
E eA = ϕA (−i),
e quindi calcolare E [Y (t)];

iii) le v.a. Y (1) e Y (2) sono indipendenti?
Soluzione.
i) Si ha
Y (t) = y0 etA
e quindi Y (t) ha distribuzione log-normale. Più precisamente, per ogni y > 0 vale
! !
1 y 1 y
P (Y (t) ≤ y) = P A ≤ log = FA log
t y0 t y0
dove FA è la CDF di A. Derivando si ricava la densità di Y (t) che è nulla per y ≤ 0 e vale
!
d 1 1 y
γ(y) = P (Y (t) ≤ y) = FA′ log
dy ty t y0
2
1 ( 1t log yy0 −µ)
−
= √ e 2σ 2 ,
ty 2πσ 2
per y > 0.
ii) Ricordando la (3.5.7) si ha
h i σ2
E eA = ϕA (−i) = eµ+ 2 .
Poiché tA ∼ Ntµ,t 2 σ 2 si ha
h i t2 σ 2
E [Y (t)] = E y0 etA = y0 etµ+ 2 .
iii) Osserviamo che

h i 9σ 2
E [Y (1)Y (2)] = y02 E e3A = y02 e3µ+ 2
è differente da
h i h i σ2 4σ 2
E [Y (1)] E [Y (2)] = y02 E eA E e2A = y02 eµ+ 2 e2µ+ 2
tranne nel caso in cui σ = 0 (in cui chiaramente Y (1), Y (2) sono indipendenti).

– Febbraio 2017 –
1. Siano A, B, C eventi indipendenti sullo spazio di probabilità (Ω, F , P ). Determinare se:
i) A e Bc sono indipendenti;
ii) A e B ∪ C sono indipendenti;
iii) A ∪ C e B ∪ C sono indipendenti.
2. Dato γ ∈ R, consideriamo la funzione
µγ (n) = (1 − γ)γ n , n ∈ N0 := N ∪ {0}.
i) Determinare i valori di γ per cui µγ è una funzione di distribuzione discreta. Può essere utile
ricordare che
∞
X 1
xn = , |x| < 1;
1−x
n=0
ii) sia γ tale che µγ sia una funzione di distribuzione e si consideri la v.a. X che ha funzione di
distribuzione µγ . Fissato m ∈ N, calcolare la probabilità che X sia divisibile per m;
iii) trovare una funzione f : R → R tale che Y = f (X) abbia distribuzione Geomp e determinare p in
funzione di γ;
iv) calcolare E [X].
3. Siano X, Y variabili aleatorie indipendenti con distribuzione Expλ . Determinare:
i) le densità di X + Y e X − Y ;
ii) le funzioni caratteristiche di X + Y e X − Y ;
iii) X + Y e X − Y sono indipendenti?
455

1. Siano A, B, C eventi indipendenti sullo spazio di probabilità (Ω, F , P ). Determinare se:

i) A e Bc sono indipendenti;
ii) A e B ∪ C sono indipendenti;
iii) A ∪ C e B ∪ C sono indipendenti.
Soluzione.
i) È il contenuto della Proposizione 2.3.25, in base alla quale A, B ∈ F sono indipendenti se e solo se lo
sono Ac , B oppure A, Bc oppure Ac , Bc ;
ii) in base al punto i), per dimostrare che A e B ∪ C sono indipendenti, è sufficiente verificare che A
e (B ∪ C)c = Bc ∩ C c siano indipendenti oppure che A e B ∩ C siano indipendenti: per l’ipotesi di
indipendenza di A, B, C si ha
P (A ∩ (B ∩ C)) = P (A)P (B)P (C) = P (A)P (B ∩ C)
da cui la tesi.
iii) in generale A ∪ C e B ∪ C non sono indipendenti; per far vedere ciò, usiamo ancora la Proposizione
2.3.25 e verifichiamo che A ∩ C e B ∩ C non sono, in generale, indipendenti: infatti si ha
P ((A ∩ C) ∩ (B ∩ C)) = P (A ∩ B ∩ C) = P (A)P (B)P (C),
ma
P (A ∩ C)P (B ∩ C) = P (A)P (B)P (C)2 .
2. Dato γ ∈ R, consideriamo la funzione
µγ (n) = (1 − γ)γ n , n ∈ N0 := N ∪ {0}.
i) Determinare i valori di γ per cui µγ è una funzione di distribuzione discreta. Può essere utile
ricordare che
∞
X 1
xn = , |x| < 1;
1−x
n=0
ii) sia γ tale che µγ sia una funzione di distribuzione e si consideri la v.a. X che ha funzione di
distribuzione µγ . Fissato m ∈ N, calcolare la probabilità che X sia divisibile per m;
iii) trovare una funzione f : R → R tale che Y = f (X) abbia distribuzione Geomp e determinare p in
funzione di γ;
iv) calcolare E [X].
Soluzione.
i) I valori µγ (n) devono essere non-negativi da cui 0 < γ < 1. Per tali valori di γ si ha che µγ è una
funzione di distribuzione poiché
∞
X ∞
X
µγ (n) = (1 − γ) γ n = 1.
n=0 n=0
ii) X è divisibile per m se esiste k ∈ N0 tale che X = km. Poiché P (X = km) = (1 − γ)γ km , allora la
probabilità cercata è
∞ ∞
X X 1−γ
P (X = km) = (1 − γ) γ km = .
1 − γm
k=0 k=0
iii) La v.a. Y = X + 1 è tale che
P (Y = n) = P (X = n − 1) = (1 − γ)γ n−1 , n ∈ N.
Quindi Y ∼ Geom1−γ .
iv) Per il punto iii) si ha
1 γ
E[X] = E[Y ] − 1 = −1 = .
1−γ 1−γ
3. Siano X, Y variabili aleatorie indipendenti con distribuzione Expλ . Determinare:
i) le densità di X + Y e X − Y ;
ii) le funzioni caratteristiche di X + Y e X − Y ;
iii) X + Y e X − Y sono indipendenti?
Soluzione.
i) Sappiamo (cfr. Esempio 3.6.7) che se X, Y ∼ Expλ ≡ Gamma1,λ sono v.a. indipendenti, allora
X + Y ∼ Gamma2,λ
con densità
γX+Y (z) = λ2 ze−λz 1R>0 (z).
Calcoliamo ora la densità di X − Y come convoluzione delle densità di X e −Y . Per far ciò, anzitutto
calcoliamo la densità di −Y : si ha P (−Y ≤ y) = 1 se y ≥ 0 e, per y < 0,
Z∞ Zy
P (−Y ≤ y) = P (Y ≥ −y) = λe−λx dx = λeλz dt
−y −∞
da cui
γ−Y (y) = λeλy 1R<0 (y).
Ora
Z
λ −λ|w|
γX−Y (w) = (γX ∗ γ−Y ) (w) = γX (x)γ−Y (w − x)dx = e , w ∈ R.
R 2
λ
ii) Ricordando che ϕX (η) = λ−iη , per l’indipendenza di X e Y si ha
h i h i h i λ2
ϕX+Y (η) = E eiη(X+Y ) = E eiηX E eiηY = ,
(λ − iη)2
e analogamente
h i λ2 λ2
ϕX−Y (η) = E eiη(X−Y ) = = 2 .
(λ − iη)(λ + iη) λ + η 2
457
iii) X + Y e X − Y sono indipendenti se e solo se
ϕ(X+Y ,X−Y ) (η1 , η2 ) = ϕX+Y (η1 )ϕX−Y (η2 ).
Abbiamo già l’espressione di ϕX+Y e ϕX−Y dal punto ii). Calcoliamo

h i
ϕ(X+Y ,X−Y ) (η1 , η2 ) = E eiη1 (X+Y )+iη2 (X−Y )
h i
= E eiX(η1 +η2 )+iY (η1 −η2 ) =
(per l’indipendenza di X e Y )
h i h i λ λ
= E eiX(η1 +η2 ) E eiY (η1 −η2 ) = .
λ − i(η1 + η2 ) λ − i(η1 − η2 )
Ne viene che X + Y e X − Y non sono indipendenti.


– Giugno 2017 –
NB. Non è necessario svolgere tutti i calcoli numerici, basta indicare chiaramente la formula che si intende
utilizzare e il valore da assegnare ai parametri.
1. Due urne contengono ciascuna 1 pallina bianca e 4 nere.

i) Estratte 3 palline dalla prima urna e tre palline dalla seconda urna, calcolare la probabilità che
almeno una di esse sia bianca.
ii) Si mettano tutte le palline nella stessa urna (che quindi contiene 2 palline bianche e 8 nere) e si
estraggano 6 palline. Calcolare la probabilità che almeno una di esse sia bianca.
iii) Come nel punto ii) assumendo che l’estrazione avvenga con reinserimento, ossia estraendo una
pallina alla volta e rimettendola nell’urna. Calcolare la probabilità che il colore di almeno una
delle sei palline estratte sia bianco.
2. Siano X ∼ Expλ e Y ∼ Bep variabili aleatorie indipendenti con λ > 0 e 0 < p < 1.
i) Determinare la CDF di X + Y e XY .
ii) Stabilire se X + Y e XY sono assolutamente continue e in tal caso determinarne la densità.
iii) Determinare la funzione caratteristica di X + Y e XY .
3. Dare un esempio di v.a. X, Y ∈ L1 (Ω, P ) tali che XY < L1 (Ω, P ).
459

– Giugno 2017 –
NB. Non è necessario svolgere tutti i calcoli numerici, basta indicare chiaramente la formula che si intende
utilizzare e il valore da assegnare ai parametri.
1. Due urne contengono ciascuna 1 pallina bianca e 4 nere.

i) Estratte 3 palline dalla prima urna e tre palline dalla seconda urna, calcolare la probabilità che
almeno una di esse sia bianca.
ii) Si mettano tutte le palline nella stessa urna (che quindi contiene 2 palline bianche e 8 nere) e si
estraggano 6 palline. Calcolare la probabilità che almeno una di esse sia bianca.
iii) Come nel punto ii) assumendo che l’estrazione avvenga con reinserimento, ossia estraendo una
pallina alla volta e rimettendola nell’urna. Calcolare la probabilità che il colore di almeno una
delle sei palline estratte sia bianco.
Soluzione.
3
i) La probabilità di estrarre una pallina bianca dalla prima urna (evento A) è pari a 5 e ugualmente per
la seconda urna (evento B). Inoltre A e B sono indipendenti. Allora
P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
21
= P (A) + P (B) − P (A)P (B) = = 0.84.
25
ii) Numeriamo le due palline bianche (pallina 1 e pallina 2) e indichiamo con Ai , i = 1, 2, l’evento secondo
6
cui fra le 6 palline estratte c’è la pallina i. Allora si ha P (A1 ) = P (A2 ) = 10 , P (A1 | A2 ) = 59 e
P (A1 ∪ A2 ) = P (A1 ) + P (A2 ) − P (A1 ∩ A2 )

13
= P (A1 ) + P (A2 ) − P (A1 | A2 )P (A2 ) = ≈ 0.87.
15
In alternativa, possiamo considerare la v.a. X ∼ Ipern,b,N con distribuzione ipergeometrica, secondo la
formula (3.1.9) con b = 2, N = 10 e n = 6. Allora X indica il numero di palline bianche estratte. La
13
P (X = 1) + P (X = 2) = .
15
iii) In questo caso, possiamo considerare la v.a. S ∼ Binn,p con distribuzione binomiale, secondo la formula
2
(3.1.5) con n = 6 e p = 10 . Allora S indica il numero di palline bianche estratte. La probabilità cercata
è
X6
P (S = i) ≈ 0.74.
i=1
2. Siano X ∼ Expλ e Y ∼ Bep variabili aleatorie indipendenti con λ > 0 e 0 < p < 1.
i) Determinare la CDF di X + Y e XY .
ii) Stabilire se X + Y e XY sono assolutamente continue e in tal caso determinarne la densità.
iii) Determinare la funzione caratteristica di X + Y e XY .
Soluzione.
i) Si ha
P (X + Y ≤ z) = P ((X + Y ≤ z) ∩ (Y = 0)) + P ((X + Y ≤ z) ∩ (Y = 1))
= P (X ≤ z)P (Y = 0) + P (X ≤ z − 1)P (Y = 1)
= (1 − p)P (X ≤ z) + pP (X ≤ z − 1),
e inoltre ricordiamo che P (X ≤ z) = 1 − e−λz . Allora si ha



 0 se z < 0,
−λz

FX+Y (z) := P (X + Y ≤ z) =  (1 − p) 1 − e se 0 ≤ z ≤ 1,


(1 − p) 1 − e−λz + p 1 − e−λ(z−1)

se z > 1.

Analogamente, si ha
FXY (z) := P (XY ≤ z) = P ((XY ≤ z) ∩ (Y = 0)) + P ((XY ≤ z) ∩ (Y = 1))
= P (0 ≤ z)P (Y = 0) + P (X ≤ z)P (Y = 1)

0 se z < 0,


=
−λz
(1 − p) + p 1 − e
 se z ≥ 0.
ii) La funzione FX+Y è assolutamente continua e la densità di X + Y si ricava semplicemente derivando

(cfr. Teorema 2.4.33):


 0 se z < 0,
d 

−λz
FX+Y (z) =  (1 − p)λe se 0 ≤ z ≤ 1,

dz 
(1 − p)λe−λz + pλe−λ(z−1) se z > 1.



La funzione FXY è discontinua in 0 e quindi la v.a. XY non è assolutamente continua: anzi si ha (cfr.
(2.4.10))
P (XY = 0) = FXY (0) − FXY (0−) = 1 − p.
iii) Per l’indipendenza (cfr. Proposizione 3.5.11) si ha
λ
ϕX+Y (η) = ϕX (η)ϕY (η) = (1 + p(eiη − 1)).
λ − iη
Inoltre
h i "
iηXY
ϕXY (η) = E e = eiηxy Expλ ⊗ Bep (dx, dy) =
R2
Z Z !
= eiηxy Bep (dy) Expλ (dx)
ZR R
= 1 − p + peiηx Expλ (dx)
R
λ
= 1−p+p .
λ − iη
3. Dare un esempio di v.a. X, Y ∈ L1 (Ω, P ) tali che XY < L1 (Ω, P ).
Soluzione. Si veda l’Esempio 3.2.35.
461

– Luglio 2017 –
1. Si effettuano tre estrazioni senza reinserimento da un’urna che contiene 3 palline bianche, 2 nere e 2
rosse. Siano X e Y rispettivamente il numero di palline bianche e di palline nere estratte. Calcolare:
i) P ((X = 1) ∩ (Y = 0));
ii) P (X = 1 | Y = 0).
2. Siano X, Y ∼ Bep indipendenti con 0 < p < 1. Posto Z = 1(X+Y =0) , si determini:
i) la distribuzione di Z;
ii) se X e Z sono indipendenti.
3. Supponiamo che le nazioni possano essere suddivise in tre fasce in base alla propria solidità finanzia-
ria: A (solidità ottima), B (buona) o C (mediocre). Per una generica nazione, la probabilità di essere
in fascia A, B o C è ritenuta uguale, pari a 31 . Per stabilire a quale gruppo appartiene una determinata
nazione, si svolge un’analisi economica il cui esito può essere solo positivo o negativo. È noto che l’a-
nalisi economica di nazioni in fascia A ha esito positivo con probabilità del 99%; inoltre per nazioni
in fascia B e C, l’esito è positivo rispettivamente con probabilità dell’80% e 30%.
i) Si determini la probabilità che l’analisi economica dell’Italia abbia esito positivo.

ii) Sapendo che l’analisi economica dell’Italia ha avuto esito negativo, qual è la probabilità di essere
in fascia C?
4. Determinare i valori di a, b ∈ R tale che la funzione
F(x) = a arctan x + b
sia una CDF. Per tali valori, sia X v.a. con CDF uguale a F: determinare la densità di X e stabilire se
X ∈ L1 .

– Luglio 2017 –
1. Si effettuano tre estrazioni senza reinserimento da un’urna che contiene 3 palline bianche, 2 nere e 2
rosse. Siano X e Y rispettivamente il numero di palline bianche e di palline nere estratte. Calcolare:
i) P ((X = 1) ∩ (Y = 0));
ii) P (X = 1 | Y = 0).
Soluzione.
i) Si ha
3 3
P ((X = 1) ∩ (Y = 0)) = 7
= .
35
3
ii) Poiché
5
3 2
P (Y = 0) = 7
=
7
3
si ha
P ((X = 1) ∩ (Y = 0)) 3
P (X = 1 | Y = 0) = = .
P (Y = 0) 10
2. Siano X, Y ∼ Bep indipendenti con 0 < p < 1. Posto Z = 1(X+Y =0) , si determini:
i) la distribuzione di Z;
ii) se X e Z sono indipendenti.
Soluzione.
i) Z può assumere solo i valori 0, 1 e vale
P (Z = 1) = P ((X = 0) ∩ (Y = 0)) = (1 − p)2
da cui
Z ∼ (1 − p)2 δ1 + (1 − (1 − p)2 )δ0 .
ii) X e Z non sono indipendenti poiché, per esempio, si ha
P ((X = 0) ∩ (Z = 1)) = P (Y = 0) = 1 − p
e
P (X = 0)P (Z = 1) = (1 − p)3 .
3. Supponiamo che le nazioni possano essere suddivise in tre fasce in base alla propria solidità finanzia-
ria: A (solidità ottima), B (buona) o C (mediocre). Per una generica nazione, la probabilità di essere
in fascia A, B o C è ritenuta uguale, pari a 31 . Per stabilire a quale gruppo appartiene una determinata
nazione, si svolge un’analisi economica il cui esito può essere solo positivo o negativo. È noto che l’a-
nalisi economica di nazioni in fascia A ha esito positivo con probabilità del 99%; inoltre per nazioni
in fascia B e C, l’esito è positivo rispettivamente con probabilità dell’80% e 30%.
i) Si determini la probabilità che l’analisi economica dell’Italia abbia esito positivo.
463
ii) Sapendo che l’analisi economica dell’Italia ha avuto esito negativo, qual è la probabilità di essere
in fascia C?
Soluzione.
i) Indichiamo con E l’evento “l’analisi economica dell’Italia ha esito positivo”. Per la Formula della
probabilità totale si ha
P (E) = P (E | A)P (A) + P (E | B)P (B) + P (E | C)P (C)

1
= (99% + 80% + 30%) ≈ 70%.
3
1
ii) Si tratta di calcolare P (C | E c ): sapendo che P (C) = 3 e
P (E c | C) = 1 − P (E | C) = 70%,
per la Formula di Bayes si ha
P (E c | C)P (C)
P (C | E c ) = ≈ 77%.
P (E c )
4. Determinare i valori di a, b ∈ R tale che la funzione
F(x) = a arctan x + b
sia una CDF. Per tali valori, sia X v.a. con CDF uguale a F: determinare la densità di X e stabilire se
X ∈ L1 .
1 1
Soluzione. Affinché siano verificate le proprietà di una CDF, deve essere a = π eb= 2. La densità si
determina semplicemente derivando F:
1
γ(x) = F ′ (x) = .
π(1 + x2 )
|x|
La v.a. X non è sommabile poiché la funzione π(1+x2 )
< L1 (R).

– Settembre 2017 –
1. Sono date tre urne: la prima contiene due palline rosse, la seconda contiene una pallina rossa e una
nera, la terza contiene due palline nere. Si sceglie a caso un’urna e si estrae una pallina: osservato che
tale pallina è rossa, qual è la probabilità che anche l’altra pallina nell’urna scelta lo sia?
2. In una porzione di cielo si contano N stelle, posizionate uniformemente in maniera indipendente le
une dalle altre. Supponiamo che la porzione di cielo sia suddivisa in due parti A e B la cui area è una
il doppio dell’altra, |A| = 2|B|, e sia NA il numero della stelle in A.
i) Determinare P (NA = k).

ii) Il numero N dipende dalla potenza del telescopio utilizzato. Allora supponiamo che N sia una
variabile aleatoria di Poisson, N ∼ Poissonλ con λ > 0: determinare la probabilità che ci sia una
sola stella in A.
3. Sia (X, Y ) un vettore aleatorio con distribuzione uniforme sul disco
D = {(x, y) ∈ R2 | x2 + y 2 ≤ 1}.
i) Determinare la densità di (X, Y ) e se X, Y sono indipendenti;

ii) scrivere l’espressione (non importa calcolare gli integrali) di P (X > 12 ) e P (X > 1
2 | Y > 0).
465

1. Sono date tre urne: la prima contiene due palline rosse, la seconda contiene una pallina rossa e una
nera, la terza contiene due palline nere. Si sceglie un’urna e si estrae una pallina: osservato che tale
pallina è rossa, qual è la probabilità che anche l’altra pallina nell’urna scelta lo sia?
Soluzione. Consideriamo gli eventi:
– A: scegliendo un’urna ed estraendo una pallina, essa è rossa;

– B: scegliendo a caso un’urna, essa contiene due palline rosse.
Siamo interessati a calcolare P (B | A) e per il Teorema di Bayes abbiamo
P (A | B)P (B) 1 · 13 2
P (B | A) = = 1 = .
P (A) 2
3
2. In una porzione di cielo si contano N stelle, posizionate uniformemente in maniera indipendente le

une dalle altre. Supponiamo che la porzione di cielo sia suddivisa in due parti A e B la cui area è una
il doppio dell’altra, |A| = 2|B|, e sia NA il numero della stelle in A.
i) Determinare P (NA = k).

ii) Il numero N dipende dalla potenza del telescopio utilizzato. Allora supponiamo che N sia una
variabile aleatoria di Poisson, N ∼ Poissonλ con λ > 0: determinare la probabilità che ci sia una
sola stella in A.
Soluzione.
2
i) Poiché la distribuzione della posizione è uniforme, ogni stella ha probabilità p = 3 di essere in A
indipendentemente dalle altre. Allora
N 2k
!
P (NA = k) = BinN ,p (k) = .
k 3N
ii) Per la formula della probabilità totale, la probabilità cercata è

∞ ∞
X e−λ λN X 2N λN 2λ 2λ
P (NA = 1) = e−λ = e− 3 .
N! 3N N ! 3
N =0 N =1
3. Sia (X, Y ) un vettore aleatorio con distribuzione uniforme sul disco
D = {(x, y) ∈ R2 | x2 + y 2 ≤ 1}.
i) Determinare la densità di (X, Y ) e se X, Y sono indipendenti;

ii) scrivere l’espressione (non importa calcolare gli integrali) di P (X > 12 ) e P (X > 1
2 | Y > 0).
Soluzione.
i) La densità congiunta è
1
γ(X,Y ) (x, y) = 1 (x, y).
π D
Allora
2√
Z
γX (x) = γ(X,Y ) (x, y)dy = 1 − x2 1[−1,1] (x)
R π
e in modo analogo si calcola γY e si verifica facilmente che X, Y non sono indipendenti.
ii) si ha
Z1
1
P X>2 = γX (x)dx,
1
2
P ((X > 1 ) ∩ (Y > 0)) 2
1 2
P X> 2 |Y >0 = = Leb({(x, y) ∈ D | x > 12 , y > 0}).
P (Y > 0) π
467

1. Un’azienda ha due linee di produzione A e B che realizzano rispettivamente il 30% e il 70% dei
prodotti. La percentuale di prodotti difettosi delle linee A e B è pari rispettivamente al 0.5% e 0.1%.
Determinare:
i) la probabilità che ci sia esattamente un prodotto difettoso in una scatola contenente 10 prodotti
tutti provenienti dalla stessa linea;
ii) la probabilità che una scatola che contiene esattamente un prodotto difettoso, provenga dalla
linea A;
iii) la probabilità che ci sia esattamente un prodotto difettoso in una scatola contenente 10 prodotti
supponendo che i prodotti siano inscatolati senza distinguere la linea di produzione.
2. Un algoritmo antispam classifica come “sospette” le email che contengono alcune parole chiave. Per
allenare l’algoritmo antispam si utilizzano i dati che riguardano un set di 100 email di cui 60 sono
spam, il 90% delle email di spam sono sospette e solo l’1% delle email che non sono spam, sono
sospette. In base a questi dati si stimi la probabilità che un’email sospetta sia effettivamente spam.
3. Sia (X, Y ) ∼ N0,C con !
1 ϱ
C= , |ϱ| ≤ 1.
ϱ 1
Determinare:
i) per quali valori di ϱ le v.a. X + Y e X − Y sono indipendenti;
ii) la distribuzione di X +Y , i valori di ϱ per cui è assolutamente continua e, per tali valori, la densità
γX+Y .
4. Sia X una v.a. reale con densità γX .
i) Provare che
γX (x) + γX (−x)
γ(x) :=
2
è una densità.
ii) Sia Y una v.a. con densità γ: esiste una relazione fra le CHF ϕX e ϕY ?
iii) Determinare una v.a. Z tale che ϕZ (η) = ϕX (η)2 .
5. Nello spazio (Ω, F , P ), sia X una v.a. sommabile indipendente da B ∈ F con P (B) > 0. Provare che
E [X | B] = E [X] .

1. Un’azienda ha due linee di produzione A e B che realizzano rispettivamente il 30% e il 70% dei
prodotti. La percentuale di prodotti difettosi delle linee A e B è pari rispettivamente al 0.5% e 0.1%.
Determinare:
i) la probabilità che ci sia esattamente un prodotto difettoso in una scatola contenente 10 prodotti
tutti provenienti dalla stessa linea;
ii) la probabilità che una scatola che contiene esattamente un prodotto difettoso, provenga dalla
linea A;
iii) la probabilità che ci sia esattamente un prodotto difettoso in una scatola contenente 10 prodotti
supponendo che i prodotti siano inscatolati senza distinguere la linea di produzione.
Soluzione.
i) Indichiamo con D l’evento di cui dobbiamo calcolare la probabilità. La probabilità che una scatola
prodotta da A abbia esattamente un prodotto difettoso è pA = Bin10,0.5% ({1}) ≈ 4.78%. Analogamen-
te pB = Bin10,0.1% ({1}) ≈ 0.99%. Allora, con notazioni il cui significato dovrebbe essere evidente, la
P (D) = P (D | A)P (A) + P (D | B)P (B) = pA ∗ 30% + pB ∗ 70% ≈ 2.13%.
ii) Per la formula di Bayes, si ha
P (D | A)P (A) pA ∗ 30%

P (A | D) = = ≈ 67.39%.
P (D) 2.13%
iii) La probabilità che è un singolo prodotto sia difettoso è pari a
pD = 0.5% ∗ 30% + 0.1% ∗ 70% ≈ 0.22%.
Allora la probabilità cercata è pari a Bin10,pD ({1}) ≈ 2.15%.

2. Un algoritmo antispam classifica come “sospette” le email che contengono alcune parole chiave. Per
allenare l’algoritmo antispam si utilizzano i dati che riguardano un set di 100 email di cui 60 sono
spam, il 90% delle email di spam sono sospette e solo l’1% delle email che non sono spam, sono
sospette. In base a questi dati si stimi la probabilità che un’email sospetta sia effettivamente spam.
Soluzione. Indichiamo con X l’evento “un’email è spam” e con S l’evento “un’email è sospetta”. Per ipotesi
si ha
P (X) = 60%, P (S | X) = 90%, P (S | X c ) = 1%.
Allora per la formula di Bayes otteniamo
P (S | X)P (X)
P (X | S) = =
P (S)
(per la formula della probabilità totale)
P (S | X)P (X)
= ≈ 99.26%.
P (S | X)P (X) + P (S | X c )P (X c )
469
3. Sia (X, Y ) ∼ N0,C con

!
1 ϱ
C= , |ϱ| ≤ 1.
ϱ 1
Determinare:
i) per quali valori di ϱ le v.a. X + Y e X − Y sono indipendenti;

ii) la distribuzione di X +Y , i valori di ϱ per cui è assolutamente continua e, per tali valori, la densità
γX+Y .
Soluzione.
i) Si ha ! ! !
X +Y X 1 1
=α , α= ,
X −Y Y 1 −1
e quindi (X + Y , X − Y ) ∼ N0,αCα ∗ . Inoltre
!
2(1 + ϱ) 0
αCα ∗ =
0 2(1 − ϱ)
da cui segue che X + Y e X − Y sono indipendenti per ogni ϱ ∈ [−1, 1];

ii) Da i) segue anche che X + Y ∼ N0,2(1+ϱ) e quindi X + Y ∈ AC per ϱ ∈] − 1, 1] con densità normale
2
1 − z
γX+Y (z) = p e 4(1+ϱ) , z ∈ R.
2 π(1 + ϱ)
4. Sia X una v.a. reale con densità γX .
i) Provare che
γX (x) + γX (−x)
γ(x) :=
2
è una densità.
ii) Sia Y una v.a. con densità γ: esiste una relazione fra le CHF ϕX e ϕY ?
iii) Determinare una v.a. Z tale che ϕZ (η) = ϕX (η)2 .
Soluzione.
i) Chiaramente γ ≥ 0 e vale
Z Z Z ! Z
1
γ(x)dx = γX (x)dx + γX (−x)dx = γX (x)dx = 1.
R 2 R R R
ii) Si ha
h i
ϕY (η) = E eiηY
Z
γ (x) + γX (−x)
= eiηx X dx
R 2
1
= (ϕX (η) + ϕX (−η)) = Re (ϕX (η)) .
2
iii) Siano X1 e X2 v.a. indipendenti, uguali in legge a X. Allora
ϕX1 +X2 (η) = ϕX1 (η)ϕX2 (η) = ϕX (η)2 .
5. Nello spazio (Ω, F , P ), sia X una v.a. sommabile indipendente da B ∈ F con P (B) > 0. Provare che
E [X | B] = E [X] .
Soluzione. Si ha
Z
1 1
E [X | B] = XdP = E [X1B ] =
P (B) B P (B)
(per l’indipendenza di X e B)
1
= E [X] E [1B ] = E [X] .
P (B)
471

1. Siano X e Y i valori (numeri naturali da 1 a 10) di due carte estratte in sequenza da un mazzo di 40
carte, senza reinserimento. Si determini:
i) la funzione di distribuzione congiunta di X e Y ;

ii) P (X < Y );
iii) la funzione di distribuzione di Y . Le v.a. X e Y sono indipendenti?
2. Sia X ∼ Poissonλ con λ > 0. Dare un esempio di f ∈ mB tale che f (X) non sia sommabile.
3. Preso a caso un punto Q di [0, 1], sia X la lunghezza dell’intervallo di ampiezza maggiore fra i due in
cui [0, 1] viene diviso da Q. Si determini la distribuzione e il valore atteso di X.
4. Sia X = (X1 , X2 , X3 ) ∼ N0,C con
 
1 0 0 
C = 0 1 −1 .
 
0 −1 1
 
Dati i vettori aleatori Y := (X1 , X2 ) e Z := (X2 , X3 ), si determini:

i) la distribuzione di Y e Z, specificando se sono assolutamente continui;
ii) se Y e Z sono indipendenti;
iii) le funzioni caratteristiche ϕY e ϕZ .
5. Sia X ∼ Nµ,1 con µ ∈ R e sia ϕX (η) la CHF di X.
h i
i) Dato c ∈ R, si calcoli E ecX : a tal fine si scelga un opportuno valore complesso ηc per cui vale
h i
E ecX = ϕX (ηc ).
ii) Data Y ∼ Unifn , con n ∈ N, indipendente da X, si scriva la distribuzione congiunta di X e Y . Si
h Xi
calcoli E e Y .
X
iii) Posto Z = Y, si determini la CDF di Z. Nel caso in cui Z ∈ AC, se ne determini la densità.

1. Siano X e Y i valori (numeri naturali da 1 a 10) di due carte estratte in sequenza da un mazzo di 40
carte, senza reinserimento. Si determini:
i) la funzione di distribuzione congiunta di X e Y ;
ii) P (X < Y );
iii) la funzione di distribuzione di Y . Le v.a. X e Y sono indipendenti?
Soluzione.
1
i) Per h, k ∈ I10 si ha P (X = h) = 10 ossia X ∼ Unif10 e

3


 39 se h = k,
P (Y = k | X = h) =  4

 39 se h , k.
Allora la funzione di distribuzione di (X, Y ) è data da


1


 130 se h = k,
µ̄(X,Y ) (h, k) = P ((X = h) ∩ (Y = k)) = P (Y = k | X = h) P (X = h) =  2 .

 195 se h , k.
ii) Si ha
10
X 2 X 2
P (X < Y ) = µ̄(X,Y ) (h, k) = (k − 1) = · 45.
195 195
1≤h<k≤10 k=2
iii) La funzione di distribuzione di Y si ottiene da

10 10
1 X 1 3 4 1
X
µ̄Y (k) = µ̄(X,Y ) (h, k) = P (Y = k | X = h)) = +9· =
10 10 39 39 10
h=1 h=1
ossia anche Y ∼ Unif10 . Ne viene anche che X, Y non sono indipendenti poiché la funzione di
distribuzione congiunta non è il prodotto delle marginali (cfr. Teorema 3.3.23).
2. Sia X ∼ Poissonλ con λ > 0. Dare un esempio di f ∈ mB tale che f (X) non sia sommabile.
k!
Soluzione. Basta considerare una qualsiasi funzione misurabile tale che f (k) = λk
per k ∈ N: per esempio si
può prendere f costante a tratti.
3. Preso a caso un punto Q di [0, 1], sia X la lunghezza dell’intervallo di ampiezza maggiore fra i due in
cui [0, 1] viene diviso da Q. Si determini la distribuzione e il valore atteso di X.
Soluzione. Osserviamo che X = max{Q, 1 − Q} e 21 ≤ X ≤ 1. Determiniamo la CDF di X: per 1

2 ≤ x ≤ 1 si ha

P (X ≤ x) = P (Q ≤ x) ∩ (Q ≥ 21 ) + P (1 − Q ≤ x) ∩ (Q ≤ 21 )
= P ( 12 ≤ Q ≤ x) + P (1 − x ≤ Q ≤ 21 ) = 2x − 1.
Ne viene che X ∈ AC e precisamente X ∼ Unif 1 . In particolare E [X] = 34 .

2 ,1
473
4. Sia X = (X1 , X2 , X3 ) ∼ N0,C con

 
1 0 0 
C = 0 1 −1 .
 
0 −1 1
 
Dati i vettori aleatori Y := (X1 , X2 ) e Z := (X2 , X3 ), si determini:
i) la distribuzione di Y e Z, specificando se sono assolutamente continui;

ii) se Y e Z sono indipendenti;
iii) le funzioni caratteristiche ϕY e ϕZ .
Soluzione.
i) Poiché ! !
1 0 0 0 1 0
Y= X, Z= X
0 1 0 0 0 1
si ha Y ∼ N0,CY e Z ∼ N0,CZ con
! !
1 0 1 −1
CY = , CZ = .
0 1 −1 1
Ne viene che Y è assolutamente continuo, mentre Z non lo è perché CZ è singolare.

ii) Per vedere che Y e Z non sono indipendenti basta osservare che, per ogni H ∈ B1 , si ha
P ((Y ∈ R × H) ∩ (Z ∈ H × R)) = P (X2 ∈ H),
e
P (Y ∈ R × H) = P (X2 ∈ H) = P (Z ∈ H × R).
iii) Si ha
1 2 2 1 2 2
ϕY (η1 , η2 ) = e− 2 (η1 +η1 ) , ϕZ (η1 , η2 ) = e− 2 (η1 +η1 −2η1 η2 ) .
5. Sia X ∼ Nµ,1 con µ ∈ R e sia ϕX (η) la CHF di X.

h i
i) Dato c ∈ R, si calcoli E ecX : a tal fine si scelga un opportuno valore complesso ηc per cui vale
h i
E ecX = ϕX (ηc ).
ii) Data Y ∼ Unifn , con n ∈ N, indipendente da X, si scriva la distribuzione congiunta di X e Y . Si
h Xi
calcoli E e Y .
X
iii) Posto Z = Y, si determini la CDF di Z. Nel caso in cui Z ∈ AC, se ne determini la densità.
Soluzione.
i) Posto ηc = −ic si ha
h i c2
E ecX = ϕX (−ic) = ecµ+ 2 .
ii) Per l’indipendenza, si ha µ(X,Y ) = Nµ,1 ⊗ Unifn e

X " x
E eY = e y Nµ,1 ⊗ Unifn (dx, dy) =
R2

n Z
1X x
= e k Nµ,1 (dx) =
n R
k=1
(per quanto visto nel punto i) con c = 1k )

n
1 X µk + 12
= e 2k .
n
k=1
iii) Per la formula della probabilità totale, si ha

n
X
FZ (z) = P (Z ≤ z) = P (Z ≤ z | Y = k) P (Y = k)
k=1
n n Z kz
1X 1X
= P (X ≤ kz) = Γ (x − µ)dx
n n −∞
k=1 k=1
x2
dove Γ (x) = √1 e− 2 è la densità normale standard. Z ∈ AC poiché FZ ∈ C ∞ (R) e vale
2π
n
1X
FZ′ (z) = kΓ (kz − µ).
n
k=1
475

1. Si effettuano estrazioni, senza reinserimento, da un mazzo di 40 carte. Si determini:
i) la probabilità che le prime due carte abbiano lo stesso seme;

ii) la distribuzione della v.a. N che indica il numero della prima estrazione in cui si ha un asso.
2. Siano F una CDF e α > 0.

i) Si provi che F α è ancora una CDF;
ii) sia F la CDF di Expλ : si determini la densità della v.a. con CDF F α ;
iii) sia F la CDF della distribuzione discreta Unifn , con n ∈ N fissato. Per α che tende a +∞, F α tende
a una CDF? In tal caso, a quale distribuzione corrisponde? E nel caso in cui F sia la CDF della
normale standard?
3. Data una v.a. reale X, quali implicazioni sussistono fra le seguenti proprietà?
i) X è assolutamente continua;
ii) la CHF ϕX è sommabile.
4. Sia (X, Y ) una variabile aleatoria bidimensionale con densità

2xy se 0 < x < 1, 0 < y <

 √1 ,
f (x, y) =  x
0
 altrimenti.
i) Calcolare le densità marginali di X, Y e stabilire se X, Y sono indipendenti.

ii) Le variabili aleatorie X e Y hanno media e varianza finite?
5. Date tre v.a. indipendenti X, Y , α con X, Y ∼ N0,1 e α ∼ Unif[0,2π] , si ponga
Z = X cos α + Y sin α.
Si determini:
i) la CHF e la distribuzione di Z;
ii) cov(X, Z);
iii) il valore della CHF congiunta ϕ(X,Z) (1, 1) per stabilire se X e Z sono indipendenti, dando per
R 2π
noto che 0 e− cos t dt ≈ 8.

1. Si effettuano estrazioni, senza reinserimento, da un mazzo di 40 carte. Si determini:
i) la probabilità che le prime due carte abbiano lo stesso seme;

ii) la distribuzione della v.a. N che indica il numero della prima estrazione in cui si ha un asso.
Soluzione.
9
i) 39 ;
4
ii) P (N = 1) = 40 e per 1 < n ≤ 36
4 D36,n−1
P (N = n) =
D
40,n
dove D36,n−1 rappresenta le disposizioni delle prime n − 1 estrazioni di carte diverse dagli assi e D40,n
tutte le possibili disposizioni delle prime n estrazioni.
2. Siano F una CDF e α > 0.
i) Si provi che F α è ancora una CDF;

ii) sia F la CDF di Expλ : si determini la densità della v.a. con CDF F α ;
iii) sia F la CDF della distribuzione discreta Unifn , con n ∈ N fissato. Per α che tende a +∞, F α tende
a una CDF? In tal caso, a quale distribuzione corrisponde? E nel caso in cui F sia la CDF della
normale standard?
Soluzione.
i) Per ogni α > 0 la funzione f (x) = xα è continua, monotona crescente su [0, 1], f (0) = 0 e f (1) = 1. Ne
segue che le proprietà di monotonia, continuità a destra e i limiti a ±∞ si conservano componendo f
con una CDF F.
α
ii) La funzione F α (t) = 1 − e−λt 1R≥0 (t) è assolutamente continua e derivando si ottiene la densità
γ(t) = αλe−λt (1 − e−λt )α−1 1R≥0 (t).
ii) Poiché F(x) < 1 per x < n e F(x) = 1 per x ≥ n, si ha


0 se x < n,

α

G(x) = lim F (x) = 
α→+∞ 1 se x ≥ n,

ossia G è la CDF della Delta di Dirac centrata in n. Se F è la CDF della normale standard si ha
0 < F(x) < 1 per ogni x ∈ R e quindi, per α → +∞, F α tende puntualmente alla funzione identicamente
nulla che non è una CDF.
3. Data una v.a. reale X, quali implicazioni sussistono fra le seguenti proprietà?
i) X è assolutamente continua;
ii) la CHF ϕX è sommabile.
477
sin η
Soluzione. i) non implica ii): per esempio, X ∼ Unif[−1,1] è assolutamente continua ma ϕX (η) = η non è
sommabile come si può verificare direttamente oppure col Teorema di inversione. Invece ii) implica i) per il
Teorema di inversione.
4. Sia (X, Y ) una variabile aleatoria bidimensionale con densità

2xy se 0 < x < 1, 0 < y <

 √1 ,
f (x, y) =  x
0
 altrimenti.
i) Calcolare le densità marginali di X, Y e stabilire se X, Y sono indipendenti.
ii) Le variabili aleatorie X e Y hanno media e varianza finite?
Soluzione.
i) Si ha
R √1
 0 x 2xydy = 1 se 0 < x < 1,


fX (x) = 

0 altrimenti,
 1
 R 2
 0y 2xydx = 13 se y > 1,



 y
fY (y) = 
R 1
 2xydx = y se 0 < y < 1,
0



 0 se y < 0.
X, Y non sono indipendenti perché la densità congiunta non è il prodotto delle marginali.
ii) X ∼ Unif[0,1] e quindi ha media e varianza finite. La densità di Y è limitata sui compatti ed è uguale a
y −3 per y > 1. Ne viene che Y ha media finita e varianza infinita.
5. Date tre v.a. indipendenti X, Y , α con X, Y ∼ N0,1 e α ∼ Unif[0,2π] , si ponga
Z = X cos α + Y sin α.
Si determini:
i) la CHF e la distribuzione di Z;
ii) cov(X, Z);
iii) il valore della CHF congiunta ϕ(X,Z) (1, 1) per stabilire se X e Z sono indipendenti, dando per
R 2π
noto che 0 e− cos t dt ≈ 8.
Soluzione.
i) Determiniamo la distribuzione di Z calcolandone la CHF:
h i
ϕZ (η) = E eiη(X cos α+Y sin α) =

Z 2π Z Z
1
= eiη(x cos t+y sin t) N0,1 (dx)N0,1 (dy)dt =
2π 0 R R
(nota la CHF della normale standard)
Z 2π
1 1 2 2 2 η2
= e− 2 η (cos t+sin t ) dt = e− 2
2π 0
e quindi Z ∼ N0,1 .
ii)
h i
cov(X, Z) = E [XZ] = E X 2 cos α + XY sin α =

h i
= E X 2 E [cos α] = 0
h i
poiché E X 2 = var(X) = 1 e
Z 2π
1
E [cos α] = cos tdt = 0.
2π 0
iii) Si ha
h i h i
ϕ(X,Z) (1, 1) = E ei(X+Z) = E eiX(1+cos α)+iY sin α

Z 2π Z Z
1
= eix(1+cos t)+iy sin t N0,1 (dx)N0,1 (dy)dt
2π 0 R R
Z 2π
1 1 2
− 21 sin2 t
= e− 2 (1+cos t) dt
2π 0
2π
e−1
Z
= e− cos t dt.
2π 0
Allora X e Z non sono indipendenti perché altrimenti dovrebbe essere
ϕ(X,Z) (1, 1) = ϕX (1)ϕZ (1) = e−1 .

479

– Maggio 2018 –
1. Si effettuano in sequenza due estrazioni senza reinserimento da un’urna che contiene 90 palline nu-
merate. Siano p1 e p2 i numeri delle due palline estratte. Determinare (non è necessario svolgere i
conti):
i) la probabilità dell’evento A = (p2 > p1 );
ii) la distribuzione della variabile aleatoria 1A ;
iii) la probabilità che p1 ≥ 45 sapendo che p2 > p1 .
2. In un supermercato ci sono un numero N di clienti che all’uscita si distribuiscono uniformemente fra

le 5 casse disponibili. Indichiamo con N1 il numero di clienti che vanno alla prima cassa.
i) Supposto N = 100, si determini (o si spieghi come è possibile determinare) il massimo valore
n̄ ∈ N tale che
P (N1 ≥ n̄) ≥ 90%.
ii) Assumendo che N ∼ Poisson100 , si scriva una formula per calcolare
P (N1 ≥ 15).
3. Sia X ∼ Unif[−1,1] . Dare un esempio di f ∈ mB tale che f (X) sia sommabile ma abbia varianza infinita.
4. Siano X e Y v.a. con densità congiunta
1
γ(X,Y ) (x, y) = 1 1 (x, y), λ > 0.
y ]0,λy[ × ]0, λ [
i) Si calcolino le densità marginali.

ii) Le v.a. Z := eX e W := eY sono indipendenti?
5. Siano X ∼ Expλ1 e Y ∼ Expλ2 v.a. indipendenti con λ1 , λ2 > 0. Determinare:
i) la densità di X 2 ;
ii) la CHF congiunta ϕ(X,Y ) ;
iii) la CHF della somma ϕX+Y .

– Maggio 2018 –
1. Si effettuano in sequenza due estrazioni senza reinserimento da un’urna che contiene 90 palline nu-
merate. Siano p1 e p2 i numeri delle due palline estratte. Determinare (non è necessario svolgere i
conti):
i) la probabilità dell’evento A = (p2 > p1 );
ii) la distribuzione della variabile aleatoria 1A ;
iii) la probabilità che p1 ≥ 45 sapendo che p2 > p1 .
Soluzione.
i) Per la formula della probabilità totale si ha
90 90
X X 90 − k 1 1
P (A) = P (A | p1 = k)P (p1 = k) = · = .
89 90 2
k=1 k=1
ii) 1A ha distribuzione di Bernoulli, 1A ∼ Be 1 .

2
iii)
90
P ((p1 ≥ 45) ∩ A) X 90 − k 1
P (p1 ≥ 45 | A) = =2 · ≈ 25.8%.
P (A) 89 90
k=45
2. In un supermercato ci sono un numero N di clienti che all’uscita si distribuiscono uniformemente fra

le 5 casse disponibili. Indichiamo con N1 il numero di clienti che vanno alla prima cassa.
i) Supposto N = 100, si determini (o si spieghi come è possibile determinare) il massimo valore
n̄ ∈ N tale che
P (N1 ≥ n̄) ≥ 90%.
ii) Assumendo che N ∼ Poisson100 , si scriva una formula per calcolare
P (N1 ≥ 15).
Soluzione.
i) Ogni cliente ha la probabilità di 15 di andare alla prima cassa, indipendentemente dagli altri, e quindi
N1 ∼ Bin100, 1 . Allora occorre determinare il massimo valore di n tale che
5
100
100 1 k 4 100−k
X !
90% ≤ P (N1 ≥ n) = .
k 5 5
k=n
Si trova che P (N1 ≥ 16) ≈ 87.1% e P (N1 ≥ 15) ≈ 91.9%, quindi n̄ = 15.
ii) Si ha
∞
X
P (N1 ≥ 15) = P (N1 ≥ 15 | N = h)P (N = h)
h=0
h
∞ X
h 1 k 4 h−k e−100 100h
X !
= ≈ 89.5%.
k 5 5 h!
h=15 k=15
481
3. Sia X ∼ Unif[−1,1] . Dare un esempio di f ∈ mB tale che f (X) sia sommabile ma abbia varianza infinita.
Soluzione. Per esempio  sgn(x)

 √|x|

 se x , 0,
f (x) = 
0 se x = 0.

Si ha Z 1
1
E [f (X)] = f (x)dx = 0
2 −1
e
i Z 1
h
2 1
var(f (X)) = E f (X) = dx = +∞.
−1 |x|

1
γ(X,Y ) (x, y) = 1 1 (x, y), λ > 0.
y ]0,λy[ × ]0, λ [
Soluzione.
i) Si ha
Z Z 1
λ 1
γX (x) = γ(X,Y ) (x, y)dy = dy = − log x, x ∈ ]0, 1[,
R x y
λ
Z Z λy
1 i h
γY (y) = γ(X,Y ) (x, y)dx = dx = λ, y ∈ 0, λ1 .
R 0 y
Quindi γX (x) = log x · 1]0,1[ (x) e γY (y) = λ1]0, 1 [ (y).
λ
ii) Se Z e W fossero indipendenti allora lo sarebbero anche X = log Z e Y = log W . Tuttavia X e Y non
sono indipendenti poiché la densità congiunta non è uguale al prodotto delle marginali.
5. Siano X ∼ Expλ1 e Y ∼ Expλ2 v.a. indipendenti con λ1 , λ2 > 0. Determinare:
i) la densità di X 2 ;
ii) la CHF congiunta ϕ(X,Y ) ;
iii) la CHF della somma ϕX+Y .
Soluzione.
i) La CDF di X 2 è data da
√
√
Z z √
2
FX 2 (z) = P (X ≤ z) = P (X ≤ z) = λ1 e−λ1 t dt = 1 − e−λ1 z
0
se z ≥ 0 e FX 2 ≡ 0 su ] − ∞, 0]. Trattandosi di una funzione AC, ricaviamo la densità di X 2

differenziando √
d λ1 e−λ1 z
γX 2 (z) = F 2 (z) = √ 1R≥0 (z).
dz X 2 z
ii) Per l’indipendenza si ha
λ1 λ2
ϕ(X,Y ) (η1 , η2 ) = ϕX (η1 )ϕY (η2 ) = .
(λ1 − iη1 )(λ2 − iη2 )
iii) Analogamente
λ1 λ2
ϕX+Y (η) = ϕX (η)ϕY (η) = .
(λ1 − iη)(λ2 − iη)
483

– Luglio 2018 –
Nota bene: Non è necessario svolgere tutti i calcoli numerici, basta indicare chiaramente la formula che si
intende utilizzare e il valore da assegnare ai parametri.
1. Da un mazzo di 40 carte vengono estratte tre carte in sequenza e senza reinserimento, i cui valori
(numeri interi da 1 a 10) sono indicati rispettivamente con X1 , X2 e X3 .
i) Determinare la distribuzione di X2 ;
ii) Si calcolino le probabilità degli eventi:
A = (X1 ≤ 4) ∩ (X2 ≥ 5) ∩ (X3 ≥ 5);
B = “al più una carta estratta ha valore minore o uguale a 4”;
iii) A e B sono indipendenti? Si determini P (A | B);
iv) Consideriamo ora la variabile aleatoria
N = “numero di carte estratte il cui valore è minore o uguale a 4”.
Le v.a. X2 e N sono indipendenti?
2. Sia data la funzione  α

β − e−x se x ≥ 0,


F(x) = 
0
 se x < 0.
i) Esistono valori di α e β tali che F sia la CDF della distribuzione Delta di Dirac? Determinare
tutti i valori di α e β per cui F è una CDF;
ii) Per tali valori, si consideri una v.a. X che abbia F come CDF. Calcolare P (X ≤ 0) e P (X ≥ 1);
iii) Per i valori di α, β per cui X ∈ AC determinare una densità di X;
h i
iv) Ora fissiamo α = 2. Calcolare E X −1 e determinare la densità di Z := X 2 + 1.
3. Siano X, Y v.a. con distribuzione normale standard, ossia X, Y ∼ N0,1 , e T una v.a. con distribuzione
di Bernoulli, T ∼ Be 1 . Assumiamo che X, Y e T siano indipendenti.
2
i) Provare che le v.a.

Z := X − Y , W := T X + (1 − T )Y ,
hanno distribuzione normale;
ii) si calcoli cov(Z, W );
iii) si determini la CHF congiunta ϕ(Z,W ) ;
iv) le v.a. Z e W sono indipendenti?

– Luglio 2018 –
Nota bene: Non è necessario svolgere tutti i calcoli numerici, basta indicare chiaramente la formula che si
intende utilizzare e il valore da assegnare ai parametri.
1. Da un mazzo di 40 carte vengono estratte tre carte in sequenza e senza reinserimento, i cui valori
(numeri interi da 1 a 10) sono indicati rispettivamente con X1 , X2 e X3 .
i) Determinare la distribuzione di X2 ;
ii) Si calcolino le probabilità degli eventi:
A = (X1 ≤ 4) ∩ (X2 ≥ 5) ∩ (X3 ≥ 5);
B = “al più una carta estratta ha valore minore o uguale a 4”;
iii) A e B sono indipendenti? Si determini P (A | B);
iv) Consideriamo ora la variabile aleatoria
N = “numero di carte estratte il cui valore è minore o uguale a 4”.
Le v.a. X2 e N sono indipendenti?
Soluzione.
i) X2 ha distribuzione uniforme su I10 = {n ∈ N | n ≤ 10}, ossia X2 ∼ UnifI10 : per verificarlo in modo
rigoroso si può procedere come nell’Esempio 3.3.24 oppure con la Formula della probabilità totale:
P (X2 = n) = P (X2 = n | X1 = n)P (X1 = n) + P (X2 = n | X1 , n)P (X1 , n)

3 1 4 9 1
= · + · = , n ∈ I10 .
39 10 39 10 10
ii) Risolviamo il quesito in due modi: utilizzando la probabilità condizionata e in particolare la formula
(2.3.5) si ha
4 24 23
P (A) = P (X1 ≤ 4)P (X2 ≥ 5 | X1 ≤ 4)P (X3 ≥ 5 | (X1 ≤ 4) ∩ (X2 ≥ 5)) = · · .
10 39 38
Si ottiene lo stesso risultato col metodo delle scelte successive: osserviamo che occorre usare le disposi-
zioni perché siamo interessati all’ordine di estrazione delle carte. Dunque
16 · |D24,2 |
P (A) = .
|D40,3 |
Poi B = B0 ⊎B1 dove B0 è l’evento “nessuna carta estratta ha valore minore o uguale a 4” e B1 è l’evento
“esattamente una carta estratta ha valore minore o uguale a 4”. Si ha P (B) = P (B0 ) + P (B1 ) e
|C24,3 | |D24,3 |
P (B0 ) = =
|C40,3 | |D40,3 |
16 · |C24,2 | 3 · 16 · |D24,2 |
P (B1 ) = = .
|C40,3 | |D40,3 |
Il fattore “3” che appare nell’ultima espressione è dovuto al fatto che, se usiamo le disposizioni, allora
dobbiamo tenere conto dell’ordine e pertanto dobbiamo anche fare la scelta della posizione (fra le tre
possibili) della carta che ha valore minore o uguale a 4.
485
iii) A ⊆ B e quindi A∩B = A. Ma P (A∩B) = P (A) , P (A)P (B) e quindi non si tratta di eventi indipendenti.
P (A)
Inoltre si ha P (A | B) = P (B) .
iv) X2 e N non sono indipendenti perché, per esempio, (X2 = 4) ∩ (N = 0) = ∅ ma
P (X2 = 4)P (N = 0) , 0.
2. Sia data la funzione  α

β − e−x se x ≥ 0,


F(x) = 
0
 se x < 0.
i) Esistono valori di α e β tali che F sia la CDF della distribuzione Delta di Dirac? Determinare
tutti i valori di α e β per cui F è una CDF;
ii) Per tali valori, si consideri una v.a. X che abbia F come CDF. Calcolare P (X ≤ 0) e P (X ≥ 1);
iii) Per i valori di α, β per cui X ∈ AC determinare una densità di X;
h i
iv) Ora fissiamo α = 2. Calcolare E X −1 e determinare la densità di Z := X 2 + 1.
Soluzione.
i) Se α = 0 e β = 1 + 1e allora F è la CDF della distribuzione Delta di Dirac centrata in 0. Gli altri valori
per cui F è una CDF sono α > 0 e β = 1;
ii) se α > 0 e β = 1 allora
1
P (X ≤ 0) = F(0) = 0, P (X ≥ 1) = 1 − F(1) = .
e
Se α = 0 e β = 1 + 1e allora P (X ≤ 0) = 1 e P (X ≥ 1) = 0.
iii) X ∈ AC se α > 0 e β = 1 e in tal caso una densità si determina derivando F:
 α
αxα−1 e−x se x > 0,

′

γ(x) = F (x) = 
0
 se x < 0.
iv) Se α = 2 si ha Z +∞ √
h
−1
i 2
E X =2 e−x dx = π.
0
Determiniamo la CDF di Z: anzitutto P (Z ≤ 1) = 0 e per z > 1 si ha
√ √ √
P (X 2 + 1 ≤ z) = P (− z − 1 ≤ X ≤ z − 1) = P (X ≤ z − 1) = 1 − e1−z .
Allora la densità di Z è
γZ (z) = e1−z 1[1,+∞[ (z).
3. Siano X, Y v.a. con distribuzione normale standard, ossia X, Y ∼ N0,1 , e T una v.a. con distribuzione
di Bernoulli, T ∼ Be 1 . Assumiamo che X, Y e T siano indipendenti.
2

Z := X − Y , W := T X + (1 − T )Y ,
hanno distribuzione normale;
ii) si calcoli cov(Z, W );
iii) si determini la CHF congiunta ϕ(Z,W ) ;
iv) le v.a. Z e W sono indipendenti?
Soluzione.
i) Il vettore aleatorio (X, Y ) ha distribuzione normale standard bidimensionale (essendo, per ipotesi, X, Y
indipendenti). Inoltre si ha
!
X
Z =α , α = 1 −1
Y
e quindi, indicando con I la matrice identità 2 × 2, si ha Z ∼ N0,αIα ∗ = N0,2 .
Per l’ipotesi di indipendenza, la distribuzione congiunta di X, Y e T è la distribuzione prodotto
N0,1 ⊗ N0,1 ⊗ Be 1
2

Z
E [f (W )] = f (tx + (1 − t)y) N0,1 ⊗ N0,1 ⊗ Be 1 (dx, dy, dt) =
2
R3

Z Z Z ! !
= f (tx + (1 − t)y)N0,1 (dx) N0,1 (dy) Be 1 (dt)
2
R R R
Z Z ! Z Z !
1 1
= f (x)N0,1 (dx) N0,1 (dy) + f (y)N0,1 (dx) N0,1 (dy)
2 R R 2 R R
Z Z
1 1
= f (x)N0,1 (dx) + f (y)N0,1 (dy)
2 R 2 R
Z
= f (x)N0,1 (dx).
R
Quindi W ∼ N0,1 .
ii) Si ha
cov(Z, W ) = E [(X − Y )(T X + (1 − T )Y )]

h i h i
= E T X 2 + E [(1 − 2T )XY ] − E (1 − T )Y 2 =
(per l’indipendenza di X, Y , T )
h i h i
= E [T ] E X 2 − E [1 − T ] E Y 2 = 0.
iii) La CHF congiunta è data da

h i
ϕ(Z,W ) (η1 , η2 ) = E ei(η1 (X−Y )+η2 (T X+(1−T )Y ))
h i h i
= E ei(η1 (X−Y )+η2 X) 1(T =1) + E ei(η1 (X−Y )+η2 Y ) 1(T =0) =
1 h i(η1 +η2 )X i h −iη1 Y i 1 h iη1 X i h i(η2 −η1 )Y i

= E e E e + E e E e =
2 2
487
(poiché X, Y ∼ N0,1 )
η12
e− 2
!
(η1 +η2 )2 (y1 −η2 )2
− −
= e 2 +e 2 ,
2
che non è la CHF di una normale bidimensionale. Questo prova anche che
ϕ(Z,W ) (η1 , η2 ) , ϕZ (η1 )ϕW (η2 )
e quindi Z, W non sono indipendenti.


1. Due amici, A e B, giocano lanciando ognuno un dado: il dado di A è normale mentre il dado di B ha
sulle facce i numeri da 2 a 7. Vince chi ottiene il numero strettamente maggiore dell’altro: in caso di
parità si rilanciano i dadi. Determinare:
i) la probabilità che, lanciando i dadi una volta, vinca A;
ii) la probabilità che A vinca entro i primi dieci lanci (≤ 10);
iii) la probabilità che nei primi dieci lanci non ci siano vincitori;
iv) il numero atteso di vincite di A entro i primi dieci lanci (≤ 10).
2. Ogni anno, la probabilità di contrarre una malattia infettiva è 1% se si è vaccinati e 80% se non si è
vaccinati.
i) Sapendo che in un anno il 10% della popolazione contrae la malattia, stimare la percentuale dei
vaccinati;
ii) calcolare la probabilità che un malato sia vaccinato.
3. Sia X una v.a. con CDF 


0 x < 0,

F(x) = λx 0 ≤ x < 1,



1

x ≥ 1,
dove λ è un parametro fissato tale che 0 < λ < 1. Sia Y ∼ Unif[0,1] indipendente da X.
i) X è assolutamente continua?
ii) si determini la distribuzione di
Z := X1(X<1) + Y 1(X≥1) .
4. Sia (X, Y ) una v.a. aleatoria bidimensionale con distribuzione uniforme sul triangolo T di vertici (0, 0),
(2, 0) e (0, 2).
i) Si determini la densità di X;
ii) X e Y sono indipendenti?
iii) si determini la densità e l’attesa di Z := X + Y .
489

1. Due amici, A e B, giocano lanciando ognuno un dado: il dado di A è normale mentre il dado di B ha
sulle facce i numeri da 2 a 7. Vince chi ottiene il numero strettamente maggiore dell’altro: in caso di
parità si rilanciano i dadi. Determinare:
i) la probabilità che, lanciando i dadi una volta, vinca A;

ii) la probabilità che A vinca entro i primi dieci lanci (≤ 10);
iii) la probabilità che nei primi dieci lanci non ci siano vincitori;
iv) il numero atteso di vincite di A entro i primi dieci lanci (≤ 10).
Soluzione.
i) Siano NA e NB i numeri ottenuti nel primo lancio di dadi: allora
7
1 4 3 2 1 10
X
P (NA > NB ) = P (NA > k | NB = k)P (NB = k) = + + + = =: p.
6 6 6 6 6 36
k=2
ii) La v.a. T che indica il primo istante in cui A vince ha distribuzione geometrica di parametro p: quindi
P (T ≤ 10) = 1 − P (T > 10) = 1 − (1 − p)10 ≈ 96%.
iii) Come nel punto i), si calcola

5
P (NA = NB ) =
36
5 10

e quindi la probabilità cercata è 36 .
iv) se N rappresenta il numero di vincite di A nei primi dieci lanci, allora N ∼ Bin10,p e quindi E [N ] =
100
36 .
2. Ogni anno, la probabilità di contrarre una malattia infettiva è 1% se si è vaccinati e 80% se non si è
vaccinati.
i) Sapendo che in un anno il 10% della popolazione contrae la malattia, stimare la percentuale dei
vaccinati;
ii) calcolare la probabilità che un malato sia vaccinato.
Soluzione.
i) Se M è l’evento “contrarre la malattia” e V è l’evento “essere vaccinato”, si ha
P (M) = P (M | V )P (V ) + P (M | V c )(1 − P (V ))
da cui
P (M) − P (M | V c )
P (V ) = ≈ 89%
P (M | V ) − P (M | V c )
ii) Per il Teorema di Bayes, si ha

P (M | V )P (V )
P (V | M) = ≈ 0.09%
P (M)
3. Sia X una v.a. con CDF 


0 x < 0,

F(x) = λx 0 ≤ x < 1,



1

x ≥ 1,
dove λ è un parametro fissato tale che 0 < λ < 1. Sia Y ∼ Unif[0,1] indipendente da X.
i) X è assolutamente continua?
ii) si determini la distribuzione di
Z := X1(X<1) + Y 1(X≥1) .
Soluzione.
i) No, P (X = 1) = F(1) − F(1−) = 1 − λ > 0. Riconosciamo che X ∼ λUnif[0,1] + (1 − λ)δ1 .
ii) Calcoliamo la CDF di Z. Per z ∈ [0, 1] si ha
P (Z ≤ z) = P ((Z ≤ z) ∩ (X < 1)) + P ((Z ≤ z) ∩ (X ≥ 1))
= P ((X ≤ z) ∩ (X < 1)) + P ((Y ≤ z) ∩ (X ≥ 1))
= λz + P (Y ≤ z)P (X ≥ 1) = λz + z(1 − λ) = z.
Di conseguenza Z ∼ Unif[0,1] .
4. Sia (X, Y ) una v.a. aleatoria bidimensionale con distribuzione uniforme sul triangolo T di vertici (0, 0),
(2, 0) e (0, 2).
i) Si determini la densità di X;
ii) X e Y sono indipendenti?
iii) si determini la densità e l’attesa di Z := X + Y .
Soluzione.
i) La densità di (X, Y ) è
1
γ(X,Y ) (x, y) = 1 (x, y), T = {x, y ∈ R | x, y ≥ 0, x + y ≤ 2}.
2 T
Si ha Z Z 2−x
1 2−x
γX (x) = γ(X,Y ) (x, y)dy = 1 (x)dy = 1 (x).
R 0 2 [0,2] 2 [0,2]
Il calcolo di γY è analogo.
ii) X, Y non sono indipendenti perché la densità congiunta non è il prodotto delle marginali.
iii) Si ha Z Z
1 z
γZ (z) = γ(X,Y ) (x, z − x)dx = 1T (x, z − x)dx = 1[0,2] (z).
R 2 R 2
Quindi Z2 2
z 4
E [Z] = dz = .
0 2 3
491

1. Un’urna contiene 3 palline bianche, 6 palline rosse e 6 palline nere. Si estraggono 2 palline: se hanno
lo stesso colore vengono buttate via, mentre se hanno colore diverso vengono rimesse nell’urna. Poi
si estraggono nuovamente due palline. Determinare la probabilità dei seguenti eventi:
i) A1 = le due palline della prima estrazione sono bianche;
ii) A2 = le due palline della prima estrazione hanno lo stesso colore;
iii) A3 = le quattro palline estratte sono tutte bianche;
iv) A4 = le quattro palline estratte sono tutte rosse.
2. Un centralino smista le telefonate che riceve in maniera casuale fra 10 operatori. Sia Yn , variabile
aleatoria uniforme su {1, 2, 3, . . . , 10}, la v.a. che indica l’operatore scelto dal centralino per l’n-esima
chiamata. Quando l’operatore i-esimo riceve l’n-esima telefonata (evento Yn = i), c’è una probabilità
pi in ]0, 1[ che l’operatore sia in pausa e quindi la telefonata sia persa. Sia Xn la v.a. che indica se
la telefonata n-esima è persa (Xn = 1) oppure è ricevuta (Xn = 0). Supponiamo che le v.a. Xn siano
indipendenti.
i) Determinare la distribuzione di Xn .
ii) Sia N il numero in sequenza della prima telefonata persa. Determinare la distribuzione e la
media di N .
iii) Calcolare la probabilità che nessuna delle prime 100 chiamate sia persa.
3. Sia (X, Y , Z) ∼ N0,C con
 
1 1 0 
C = 1 2 −1 .
 
0 −1 2
 
Determinare:
i) la distribuzione di X + Y ;
ii) la CHF di (X, Y );
iii) (X, Y ) e Z sono indipendenti?

4. Sia (Xn )n∈N una successione di v.a. con distribuzione Xn ∼ 1 − n1 δ0 + n1 δn .
i) Si calcoli media, varianza e CHF di Xn .

X −1 d
ii) Si calcoli la CHF di Zn := √n e si deduca che Zn −−−−→ 0 per il Teorema di continuità di Lévy.
n−1
L2
iii) Vale anche Zn −−−→ 0 ?
P
iv) [Facoltativo] Vale anche Zn −−→ 0 ?
5. Verificare che la funzione 
4y

 se x > 0 e 0 < y < e−x ,
γ(x, y) = 
0
 altrimenti,
è una densità. Siano X, Y v.a. con densità congiunta γ.
i) Determinare le densità marginali γX e γY .

ii) X, Y sono indipendenti?
iii) Determinare la densità condizionata γX|Y e riconoscere di quale densità nota si tratta.
iv) calcolare E [X | Y ] e var(X | Y ).
493

1. Un’urna contiene 3 palline bianche, 6 palline rosse e 6 palline nere. Si estraggono 2 palline: se hanno
lo stesso colore vengono buttate via, mentre se hanno colore diverso vengono rimesse nell’urna. Poi
si estraggono nuovamente due palline. Determinare la probabilità dei seguenti eventi:
i) A1 = le due palline della prima estrazione sono bianche;

ii) A2 = le due palline della prima estrazione hanno lo stesso colore;
iii) A3 = le quattro palline estratte sono tutte bianche;
iv) A4 = le quattro palline estratte sono tutte rosse.
Soluzione.
|C3,2 | (3) 1
i) P (A1 ) = = 2 = 35 .
|C15,2 | (152)
|C3,2 |+|C6,2 |+|C6,2 | (32)+2(62) 11
ii) P (A2 ) = = 15 = 35 .
|C15,2 | (2)
iii) se B = “le due palline della seconda estrazione sono bianche” allora
P (A3 ) = P (B | A1 )P (A1 ) = 0.
iv) se Ci = “le due palline della i-esima estrazione sono rosse” allora

C4,2 C6,2 4 6
2 2 1
P (A4 ) = P (C1 ∩ C2 ) = P (C2 | C1 )P (C1 ) = =
13 15
= .
C C
13,2 15,2 91
2 2
2. Un centralino smista le telefonate che riceve in maniera casuale fra 10 operatori. Sia Yn , variabile
aleatoria uniforme su {1, 2, 3, . . . , 10}, la v.a. che indica l’operatore scelto dal centralino per l’n-esima
chiamata. Quando l’operatore i-esimo riceve l’n-esima telefonata (evento Yn = i), c’è una probabilità
pi in ]0, 1[ che l’operatore sia in pausa e quindi la telefonata sia persa. Sia Xn la v.a. che indica se
la telefonata n-esima è persa (Xn = 1) oppure è ricevuta (Xn = 0). Supponiamo che le v.a. Xn siano
indipendenti.
i) Determinare la distribuzione di Xn .
ii) Sia N il numero in sequenza della prima telefonata persa. Determinare la distribuzione e la
media di N .
iii) Calcolare la probabilità che nessuna delle prime 100 chiamate sia persa.
Soluzione.
i) Xn è una v.a. di Bernoulli e, per la formula della probabilità totale, si ha

10 10
X 1 X
P (Xn = 1) = P (Xn = 1 | Yn = i)P (Yn = i) = pi =: p.
10
i=1 i=1
Dunque Xn ∼ Bep .
ii) N ∼ Geomp e quindi E [N ] = p1 .

iii) Si ha (cfr. Teorema 3.1.25)
P (N > 100) = (1 − p)100 .
3. Sia (X, Y , Z) ∼ N0,C con

 
1 1 0 
C = 1 2 −1 .
 
0 −1 2
 
Determinare:
i) la distribuzione di X + Y ;
ii) la CHF di (X, Y );
iii) (X, Y ) e Z sono indipendenti?
Soluzione. Osserviamo che (X, Y ) ∼ N0,D con

!
1 1
D=
1 2
e quindi:
!
X
i) essendo X + Y = 1 1 , si ha X + Y ∼ N0,5 poiché
Y
!
1
A= 1 1 D = 5.
1
ii)
1
ϕ(X,Y ) (η) = e− 2 ⟨Dη,η⟩ , η ∈ R2 .
iii) se (X, Y ) e Z fossero indipendenti, allora lo sarebbero anche Y e Z, ma cov(Y , Z) = −1.

4. Sia (Xn )n∈N una successione di v.a. con distribuzione Xn ∼ 1 − n1 δ0 + n1 δn .
i) Si calcoli media, varianza e CHF di Xn .

X −1 d
ii) Si calcoli la CHF di Zn := √n e si deduca che Zn −−−−→ 0 per il Teorema di continuità di Lévy.
n−1
L2
iii) Vale anche Zn −−−→ 0 ?
P
iv) [Facoltativo] Vale anche Zn −−→ 0 ?
Soluzione.
i) Si ha
1 1
h i
E [Xn ] = 0 · 1 − + n · = 1, var(Xn ) = E (Xn − 1)2 = n − 1.
n n
Inoltre
h i 1 1
ϕXn (η) = E eiηXn = 1 − + eiηn .
n n
495
ii) Si ha
η √η
−i √ i X
ϕZn (η) = e n−1 E e n−1 n
η
!
−i √ η
=e n−1 ϕXn √
n−1
η η
1 1 in √n−1

−i √
=e n−1 1− + e −−−−−−→ 1.
n n n→∞
Ora la funzione costante 1 è la CHF della Delta di Dirac centrata in zero, da cui la tesi.
iii) Si ha
h i 1
∥Zn ∥22 = E Zn2 = var(Xn ) = 1
n−1
e quindi non si ha convergenza in L2 (Ω, P ).
iv) Si ha convergenza in probabilità per il punto vi) del Teorema 4.1.9.
5. Verificare che la funzione 
4y

 se x > 0 e 0 < y < e−x ,
γ(x, y) = 
0
 altrimenti,
è una densità. Siano X, Y v.a. con densità congiunta γ.
i) Determinare le densità marginali γX e γY .
ii) X, Y sono indipendenti?
iii) Determinare la densità condizionata γX|Y e riconoscere di quale densità nota si tratta.
iv) calcolare E [X | Y ] e var(X | Y ).
Soluzione. La funzione γ è non-negativa e misurabile con

Z Z +∞ Z e−x Z +∞
γ(x, y)dxdy = 4ydydx = 2e−2x dx = 1.
R2 0 0 0
i) Abbiamo appena calcolato

Z Z e−x
γX (x) = γ(x, y)dy = 4ydy = 2e−2x 1]0,+∞[ (x)
R 0
da cui si riconosce che X ∼ Exp2 . Poi osserviamo che

γ(x, y) = 4y1]0,− log y[ (x)1]0,1[ (y)
da cui Z Z − log y
γY (y) = γ(x, y)dx = 4y1]0,1[ (y)dx = −4y log y 1]0,1[ (y).
R 0
ii) X, Y non sono indipendenti perché la densità congiunta non è il prodotto delle marginali.
iii) Si ha
γ(x, y) 1
γX|Y (x, y) = 1 (y) = − 1 (x)1]0,1[ (y)
γY (y) (γY >0) log y ]0,− log y[
e quindi X ha densità condizionata uniforme su ]0, − log Y [.
iv) Per quanto visto al punto iii), si ha
− log Y (log Y )2
E [X | Y ] = , var(X | Y ) = .
2 12

1. Un sacchetto contiene due monete: una d’oro che è equilibrata e una d’argento per la quale la proba-
bilità di ottenere testa è pari a p ∈ ]0, 1[. Si estrae a caso una delle due monete e la si lancia n volte: sia
X la v.a. che indica il numero di teste ottenute. Dato k ∈ N0 , si determini:
i) la probabilità che X sia uguale a k, sapendo che è stata estratta la moneta d’argento;
ii) P (X = k);
iii) la probabilità che sia stata estratta la moneta d’argento, sapendo che X = n;
iv) la media di X.
2. Data la funzione
γ(x) = (ax + b)1[−1,1] (x), x ∈ R,
determinare i valori di a, b ∈ R tali che:
i) γ sia una densità;
ii) la corrispondente CHF sia a valori reali.
3. Sia (X, Y ) un vettore aleatorio con distribuzione uniforme sul disco unitario C di centro l’origine in
R2 .
i) Scrivere la densità di (X, Y ) e calcolare E [X];
ii) X e X − Y sono indipendenti?
Sia ora α
Zα = X 2 + Y 2 , α > 0.
iii) scrivere la CDF di Zα e disegnarne il grafico;

iv) stabilire se Zα ∈ AC e in tal caso scriverne la densità;
v) determinare i valori di α > 0 per cui Z1 è sommabile e per tali valori calcolare il valore atteso.
α
4. Sia (Xn )n∈N una successione di variabili aleatorie i.i.d. con distribuzione Unif[0,λ] , con λ > 0. Si
determini:
i) la CDF della v.a. nX1 per n ∈ N;
ii) la CDF della v.a.
Yn := min{nX1 , . . . , nXn },
per n ∈ N;
iii) il limite in legge di (Yn )n∈N , riconoscendo di quale distribuzione notevole si tratta.
5. In farmacologia, l’emivita è il tempo richiesto (espresso in giorni) per ridurre del 50% la quantità di
un farmaco nell’organismo. Sia T ∼ Gamma2,1 l’emivita di un antibiotico all’assunzione della prima
dose e sia S ∼ Unif[T ,2T ] l’emivita all’assunzione della seconda dose. Determinare:
i) la densità congiunta γ(S,T ) e marginale γS ;
ii) il valore atteso di T condizionato a (S < 2).
iii) il valore atteso di T , dando per noto il valore di S (è sufficiente scrivere le formule senza svolgere
tutti i calcoli).
497

1. Un sacchetto contiene due monete: una d’oro che è equilibrata e una d’argento per la quale la proba-
bilità di ottenere testa è pari a p ∈ ]0, 1[. Si estrae a caso una delle due monete e la si lancia n volte: sia
X la v.a. che indica il numero di teste ottenute. Dato k ∈ N0 , si determini:
i) la probabilità che X sia uguale a k, sapendo che è stata estratta la moneta d’argento;
ii) P (X = k);
iii) la probabilità che sia stata estratta la moneta d’argento, sapendo che X = n;
iv) la media di X.
Soluzione.
i) Sia A =“è estratta la moneta d’argento”. Allora per k = 0, 1, . . . , n si ha
!
n k
P (X = k | A) = Binn,p (k) = p (1 − p)n−k .
k
ii) Per la formula della probabilità totale, si ha

1 1
P (X = k) = (P (X = k | Ac ) + P (X = k | A)) = Binn, 1 (k) + Binn,p (k) (B.0.1)
2 2 2
iii) Anzitutto
1 1

n
P (X = n) = + p .
2 2n
Per il Teorema di Bayes, si ha
P (X = n | A)P (A) pn
P (A | X = n) = = 1
.
P (X = n) 2n + pn
iv) Ricordando che l’attesa di una v.a. con distribuzione Binn,p è pari a np, per la (B.0.1) si ha
1 n

E [X] = + np .
2 2
2. Data la funzione
γ(x) = (ax + b)1[−1,1] (x), x ∈ R,
determinare i valori di a, b ∈ R tali che:
i) γ sia una densità;
ii) la corrispondente CHF sia a valori reali.
Soluzione.
i) Imponendo Z
1= γ(x)dx = 2b
R
si ha b = 21 . Inoltre γ ≥ 0 se e solo se ax ≥ − 12 per ogni x ∈ [−1, 1] da cui si ricava la condizione
− 12 ≤ a ≤ 12 .
1.0
0.8 0.8
0.6 0.6
0.4 0.4
0.2 0.2
-1.0 -0.5 0.5 1.0 1.5 2.0 -1.0 -0.5 0.5 1.0 1.5 2.0
Figura B.1: A sinistra: grafico di F per α > 1. A destra: grafico di F per 0 < α < 1.
ii) La CHF è data da Z 1

1 sin η sin η − η cos η

eiηx ax + dx = + 2ia
−1 2 η η2
e ha valori reali se a = 0.
3. Sia (X, Y ) un vettore aleatorio con distribuzione uniforme sul disco unitario C di centro l’origine in
R2 .
i) Scrivere la densità di (X, Y ) e calcolare E [X];
ii) X e X − Y sono indipendenti?
Sia ora α
Zα = X 2 + Y 2 , α > 0.
iii) scrivere la CDF di Zα e disegnarne il grafico;

iv) stabilire se Zα ∈ AC e in tal caso scriverne la densità;
1
v) determinare i valori di α > 0 per cui Zα è sommabile e per tali valori calcolare il valore atteso.
Soluzione.
i) γ(X,Y ) = π1 1C e E [X] = 0.
ii) Se X e X − Y fossero indipendenti allora si avrebbe
h i 1
0 = E [X] E [X − Y ] = E [X(X − Y )] = E X 2 − E [XY ] = ,
4
dove i valori attesi si determinano con un semplice calcolo come nell’Esempio 3.3.34.
iii) Si ha 
0 se t ≤ 0,


F(t) := P (Zα ≤ t) = 
1 se t ≥ 1

e, per 0 < t < 1,

1 1
P (Zα ≤ t) = P X 2 + Y 2 ≤ t α = t α
1
dove la probabilità è calcolata come rapporto fra l’area del cerchio di raggio t 2α e quello di raggio
unitario: si veda la Figura B.1.
499
Rt
iv) F è assolutamente continua perché è derivabile q.o. e vale F(t) = 0
F ′ (s)ds (cfr. Definizione 2.4.30).
Una densità di Zα è data da
1 1
F ′ (t) = t α −1 1]0,1[ (t).
α
v) Si ha
1
h
−1
i Z F ′ (t)
E Zα = dt < ∞
0 t
h i
1 1
se 2 − α < 1 ossia 0 < α < 1. In tal caso E Zα−1 = 1−α .
4. Sia (Xn )n∈N una successione di variabili aleatorie i.i.d. con distribuzione Unif[0,λ] , con λ > 0. Si
determini:
i) la CDF della v.a. nX1 per n ∈ N;

ii) la CDF della v.a.
Yn := min{nX1 , . . . , nXn },
per n ∈ N;
iii) il limite in legge di (Yn )n∈N , riconoscendo di quale distribuzione notevole si tratta.
Soluzione.
i) Si ha 

0 se x ≤ 0,
x

x

FnX1 (x) = P X1 ≤ = λn se 0 < x < λn,
n 

1 se x ≥ λn.

ii) Per la Proposizione 3.6.9, si ha



 0 se x ≤ 0,
x n

n 

FYn (x) = 1 − (1 − FnX1 (x)) = 
 1 − 1 − λn se 0 < x < λn,

1 se x ≥ λn.

iii) Si ha 
0

 se x ≤ 0,
lim FYn (x) =  x
n→∞ 1 − e − λ
 se x > 0,
d
e quindi per il Teorema 4.3.3 Yn −−−−→ Y ∼ Exp 1 per n → ∞.
λ
5. In farmacologia, l’emivita è il tempo richiesto (espresso in giorni) per ridurre del 50% la quantità di
un farmaco nell’organismo. Sia T ∼ Gamma2,1 l’emivita di un antibiotico all’assunzione della prima
dose e sia S ∼ Unif[T ,2T ] l’emivita all’assunzione della seconda dose. Determinare:
i) la densità congiunta γ(S,T ) e marginale γS ;

ii) il valore atteso di T condizionato a (S < 2).
iii) il valore atteso di T , dando per noto il valore di S (è sufficiente scrivere le formule senza svolgere
tutti i calcoli).
Soluzione.
i) Per ipotesi γT (t) = te−t 1R≥0 (t) e γS|T (s, t) = 1t 1[t,2t] (s). Dalla formula (5.3.8) per la densità condizio-
nata ricaviamo
γ(S,T ) (s, t) = γS|T (s, t)γT (t) = e−t 1[t,2t]×R≥0 (s, t) = e−t 1R≥0 ×[s/2,s] (s, t)
e Z Z s s
γS (s) = γ(S,T ) (s, t)dt = e−t dt 1R≥0 (s) = e− 2 − e−s 1R≥0 (s).
R s/2
ii) Si ha
2
1 2
Z
P (S < 2) = γS (s)ds = 1 − ≈ 40%,
0 e
Z 2 Z +∞
1 2(e − 2)
E [T | S < 2] = tγ(S,T ) (s, t)dtds = ≈ 0.84.
P (S < 2) 0 0 e−1
iii) Anzitutto
γ(S,T ) (s, t) e−t
γT |S (t, s) = 1(γS >0) (s) = − 2s
1R≥0 ×[s/2,s] (s, t).
γS (s) e − e−s
Allora si ha Z +∞
1 S

E [T | S] = t γT |S (t, S)dt = − S/2 +S +2 .
0 2 e −1
501

1. Nove studenti scelgono in maniera casuale e indipendente un professore, fra tre disponibili, con cui
sostenere l’esame. Consideriamo gli eventi:
A = esattamente tre studenti scelgono il primo professore;
B = ogni professore viene scelto da tre studenti;
C = un professore viene scelto da due studenti, un altro da tre studenti e il rimanente da quattro
studenti.
Si determini:
i) P (A);
ii) P (B);
iii) P (A | B) e P (B | A);
iv) P (C).
2. Sia (X, Y , Z) ∼ Nµ,C con
   
0  1 0 −1
µ = 1 , C =  0 2 2  .
   
2 −1 2 3
   
i) Si determini la CHF di (X, Y );

ii) le v.a. X + Y e Z sono indipendenti?
3. Sia B ∼ Unif[−2,2] . Determinare la probabilità che l’equazione di secondo grado
x2 + 2Bx + 1 = 0
abbia soluzioni reali. Qual è la probabilità che tali soluzioni siano coincidenti?
4. Siano X e (Xn )n∈N rispettivamente una v.a. e una successione di v.a. definite su uno spazio di
probabilità (Ω, F , P ) e tali che (X, Xn ) ∼ Unif[−1,1]×[−1− 1 ,1+ 1 ] per ogni n ∈ N.
n n
i) Per ogni n ∈ N, determinare la distribuzione di Xn . Le v.a. X e Xn sono indipendenti?

ii) calcolare E [X], E [Xn ], var(X) e var(Xn );
iii) Xn converge a X in L2 (Ω, P )?
d
iv) Xn −−−−→ X?
P
v) Facoltativo: Xn −−→ X?
5. Viene avviato un cronometro che si ferma automaticamente in un tempo aleatorio T ∼ Exp1 . Si
attende fino all’istante 3 e in quel momento si osserva il valore X riportato sul cronometro.
i) Si determini la CDF di X, calcolando FX (x) separatamente per x ≤ 3 e x > 3;
ii) X è assolutamente continua?
iii) si calcoli E [X];
iv) si calcoli E [X | T ];
v) Facoltativo: X è discreta?

1. Nove studenti scelgono in maniera casuale e indipendente un professore, fra tre disponibili, con cui
sostenere l’esame. Consideriamo gli eventi:
A = esattamente tre studenti scelgono il primo professore;
B = ogni professore viene scelto da tre studenti;
C = un professore viene scelto da due studenti, un altro da tre studenti e il rimanente da quattro
studenti.
Si determini:
i) P (A);
ii) P (B);
iii) P (A | B) e P (B | A);
iv) P (C).
Soluzione. Lo spazio campione di tutte le scelte possibili degli studenti è Ω = DR3,9 , da cui |Ω| = 39 . Si
ricordi che Ω è lo spazio delle funzioni da I9 a I3 e ogni funzione corrisponde ad una scelta possibile dei nove
studenti.

i) Si determinano in C modi possibili i tre studenti che scelgono il primo professore e di conseguenza
9,3

9 6
C9,3 DR2,6 2
P (A) = = 3 9 ≈ 27%.
DR3,9 3
Si ha equivalentemente P (A) = Bin9, 1 ({3}).

3

ii) Si determinano in C9,3 modi possibili i tre studenti che scelgono il primo professore e in C6,3 modi
possibili i tre studenti che scelgono il secondo professore: di conseguenza

C9,3 C6,3 9 6
P (B) = = 3 3 ≈ 8.5%.
DR
3,9 39
iii) Poiché B ⊆ A si ha
P (B)
P (A | B) = 1, P (B | A) = ≈ 31%.
P (A)
iv) Si procede in maniera analoga al punto ii) ma con la differenza che occorre aggiungere un fattore 3!
per il fatto che non viene specificato l’ordine di scelta dei professori. In definitiva

C9,2 C7,3 9 6
P (C) = 3! = 6 3 3 ≈ 38%.
DR
3,9 39

   
0  1 0 −1
µ = 1 , C =  0 2 2  .
   
2 −1 2 3
   
503

ii) le v.a. X + Y e Z sono indipendenti?
Soluzione.
! !
0 1 0
i) Si ha (X, Y ) ∼ Nµ̄,C̄ con µ̄ = e C̄ = e quindi
1 0 2
1 2 2
ϕ(X,Y ) (η1 , η2 ) = eiη2 − 2 (η1 +2η2 ) .
ii) (X + Y , Z) ha distribuzione normale bidimensionale poiché è combinazione lineare di (X, Y , Z). Di

conseguenza, X + Y e Z sono indipendenti se e solo se sono scorrelate: poiché
cov(X + Y , Z) = cov(X, Z) + cov(Y , Z) = −1 + 2,
allora X + Y e Z non sono indipendenti.

3. Sia B ∼ Unif[−2,2] . Determinare la probabilità che l’equazione di secondo grado
x2 + 2Bx + 1 = 0
abbia soluzioni reali. Qual è la probabilità che tali soluzioni siano coincidenti?
Soluzione. Si ha ∆ = 4B2 − 4. Le soluzioni sono reali se e solo se ∆ ≥ 0 ossia |B| ≥ 1: ora si ha semplicemente
P (|B| ≥ 1) = 21 . Inoltre le soluzioni sono coincidenti se e solo se |B| = 1, quindi con probabilità nulla.
4. Siano X e (Xn )n∈N rispettivamente una v.a. e una successione di v.a. definite su uno spazio di
probabilità (Ω, F , P ) e tali che (X, Xn ) ∼ Unif[−1,1]×[−1− 1 ,1+ 1 ] per ogni n ∈ N.
n n
i) Per ogni n ∈ N, determinare la distribuzione di Xn . Le v.a. X e Xn sono indipendenti?

ii) Calcolare E [X], E [Xn ], var(X) e var(Xn );
iii) Xn converge a X in L2 (Ω, P )?
d
iv) Xn −−−−→ X?
P
v) Facoltativo: Xn −−→ X?
Soluzione.
i) Integrando la densità congiunta si vede che Xn ∼ Unif[−1− 1 ,1+ 1 ] . La densità congiunta è il prodotto
n n
delle densità marginali e quindi le X e Xn sono indipendenti.
2
ii) È noto che E [X] = E [Xn ] = 0, var(X) = 13 e var(Xn ) = 31 1 + n1 .
iii) Si ha
h i h i h i
E (X − Xn )2 = E X 2 + E Xn2 − 2E [XXn ] =
1 1 1 2

= var(X) + var(Xn ) = + 1+
3 3 n
e quindi non c’è convergenza in L2 (Ω, P ).

iv) Data l’espressione della CHF uniforme, si ha che

1 1
eiη (1+ n ) − e−iη (1+ n )
ϕXn (η) =
2iη 1 + n1
converge puntualmente a ϕX per n → ∞. In alternativa, senza usare l’espressione esplicita delle CHF,
basta semplicemente notare che
Z 1 Z 1
iηy 1
lim ϕXn (η) = lim e γXn (y)dy = eiηy dy = ϕX (η).
n→∞ n→∞ −1 2 −1
per il Teorema della convergenza dominata. In ogni caso, per il Teorema di continuità di Lévy si ha
d
che Xn −−−−→ X.
v) Xn non converge in probabilità a X, poiché per ogni 0 < ε < 1
"
P (|X − Xn | ≥ ε) = γ(X,Xn ) (x, y)dxdy
|x−y|>ε
non tende a zero per n → ∞: è sufficiente osservare la Figura B.2 dove in blu è rappresentato il
supporto della densità di (X, Xn ) e in arancione la striscia {(x, y) ∈ R2 | |x − y| < ε}.
-1
-2
-2 -1 0 1 2
Figura B.2:
5. Viene avviato un cronometro che si ferma automaticamente in un tempo aleatorio T ∼ Exp1 . Si

attende fino all’istante 3 e in quel momento si osserva il valore X riportato sul cronometro.
i) Si determini la CDF di X, calcolando FX (x) separatamente per x < 3 e x ≥ 3;

ii) X è assolutamente continua?
iii) si calcoli E [X];
iv) si calcoli E [X | T ];
v) Facoltativo: X è discreta?
Soluzione. Osserviamo che

X = min{T , 3} = T 1(T ≤3) + 31(T >3) .
505
i) Si ha P (X ≤ 0) = 0 e
P (X ≤ x) = P ((X ≤ x) ∩ (T ≤ 3)) + P ((X ≤ x) ∩ (T > 3))


P (T ≤ x) = 1 − e−x se 0 ≤ x < 3,


=
1
 se x ≥ 3.
ii) X non è assolutamente continua perché la CDF è discontinua nel punto 3.

iii) Si ha
h i Z3
E [X] = E T 1(T ≤3) + 31(T >3) = te−t dt + 3P (T > 3) = 1 − e−3 .
0
iv) X è σ (T )-misurabile perché è funzione (misurabile) di T . Di conseguenza
E [X | T ] = X = min{T , 3}.
v) X non è discreta poiché P (X = 3) = P (T ≥ 3) è positiva e strettamente minore di 1, e P (X = x) = 0 per

ogni x , 3.

– Giugno 2019 – Primo appello –
1. L’urna A contiene una pallina rossa e una verde. L’urna B invece contiene due palline rosse e quattro
palline verdi. Estraiamo una pallina a caso dall’urna A e la mettiamo nell’urna B, poi estraiamo una
pallina dall’urna B.
i) Qual è la probabilità che la pallina estratta dall’urna B sia rossa?

ii) Sapendo che la pallina estratta dall’urna B è rossa, qual è la probabilità che la pallina estratta
dall’urna A sia anch’essa rossa?
iii) Qual è la probabilità che le due palline estratte siano dello stesso colore?
2. Una cantina produce una serie numerata di bottiglie di vino. In un controllo di qualità, ogni bottiglia
per essere idonea deve superare tre test: la probabilità di superare il primo test è 90%; nel caso sia
superato il primo, la probabilità di superare il secondo test è 95%; se è superato anche il secondo test,
la probabilità di superare il terzo è 99%. Supponiamo che gli esiti del controlli su bottiglie diverse
siano indipendenti fra loro.
i) Si determini la probabilità che una bottiglia sia idonea.

ii) Si determini la probabilità che una bottiglia non idonea non abbia superato il primo test.
iii) Sia Xn la v.a. aleatoria che vale 0 oppure 1 a seconda che l’n-esima bottiglia sia idonea. Determi-
nare la distribuzione di Xn e di (Xn , Xn+1 ).
iv) Sia N il numero corrispondente alla prima bottiglia non idonea. Determinare la distribuzione e
la media di N .
v) Calcolare la probabilità che tutte le prime 100 bottiglie siano idonee.
3. Si verifichi che la funzione

e−x
γ(x, y) = 1 (x, y), A = {(x, y) ∈ R2 | x + y > 0, 0 < y < 1},
e−1 A
è una densità e si consideri (X, Y ) con densità γ(X,Y ) = γ.
i) Giustificare la validità della formula (senza svolgere i calcoli)




0 se x ≤ −1,
 (1+x)e−x

γX (x) =  se − 1 < x < 0,
 e−xe−1

se x ≥ 0,


e−1
e stabilire se X e Y sono indipendenti;

ii) determinare la densità di Y 2 ;
iii) determinare la densità condizionata γX|Y .
4. Sia (Xn )n∈N una successione di variabili aleatorie tali che Xn ∼ Exp 1 con 0 < α ≤ 1.
nα
Xn −1
i) Posto Yn = n , per ogni 0 < α < 1 si studi la convergenza della successione (Yn )n∈N in L2 ;
507
ii) per α = 1, la successione (Yn )n∈N converge in distribuzione? In caso affermativo, si determini il
limite.
5. In una gara di corsa sui 100 metri, T1 e T2 sono rispettivamente i tempi (in secondi) ottenuti da due
corridori. Assumiamo che T1 , T2 siano variabili aleatorie indipendenti con Ti ∼ Expλi , λi > 0 per
i = 1, 2. Posto Tmax = T1 ∨ T2 e Tmin = T1 ∧ T2 , si determini:
i) le CDF di Tmax e Tmin ;

ii) la probabilità che almeno uno dei due corridori ottenga un tempo inferiore a 10 secondi, assu-
1
mendo λ1 = λ2 = 10 ;
iii) la probabilità che entrambi i corridori ottengano un tempo inferiore a 10 secondi, assumendo
1
λ1 = λ2 = 10 ;
iv) E [t ∨ T2 ] per ogni t > 0 e, tramite il Lemma di freezing, E [Tmax | T1 ].

– Giugno 2019 – Primo appello –
1. L’urna A contiene una pallina rossa e una verde. L’urna B invece contiene due palline rosse e quattro
palline verdi. Estraiamo una pallina a caso dall’urna A e la mettiamo nell’urna B, poi estraiamo una
pallina dall’urna B.
i) Qual è la probabilità che la pallina estratta dall’urna B sia rossa?

ii) Sapendo che la pallina estratta dall’urna B è rossa, qual è la probabilità che la pallina estratta
dall’urna A sia anch’essa rossa?
iii) Qual è la probabilità che le due palline estratte siano dello stesso colore?
Soluzione. Introduciamo gli eventi:
RA = “la pallina estratta dall’urna A è rossa”,

VA = “la pallina estratta dall’urna A è verde” = RcA ,
RB = “la pallina estratta dall’urna B è rossa”,
VB = “la pallina estratta dall’urna B è verde” = RcB .
i) Per la Formula della probabilità totale si ha
3 1 2 1 5
P (RB ) = P (RB | RA )P (RA ) + P (RB | VA )P (VA ) = · + · = .
7 2 7 2 14
ii) Per la formula di Bayes si ha

3
P (RB | RA )P (RA ) 7 · 21 3
P (RA |RB ) = = 5
= .
P (RB ) 14
5
iii) Ancora per la Formula della probabilità totale, se E indica l’evento di cui è richiesta la probabilità
3 1 5 1 4
P (E) = P (E | RA )P (RA ) + P (E | VA )P (VA ) = · + · = .
7 2 7 2 7
2. Una cantina produce una serie numerata di bottiglie di vino. In un controllo di qualità, ogni bottiglia
per essere idonea deve superare tre test: la probabilità di superare il primo test è 90%; nel caso sia
superato il primo, la probabilità di superare il secondo test è 95%; se è superato anche il secondo test,
la probabilità di superare il terzo è 99%. Supponiamo che gli esiti del controlli su bottiglie diverse
siano indipendenti fra loro.
i) Si determini la probabilità che una bottiglia sia idonea.

ii) Si determini la probabilità che una bottiglia non idonea non abbia superato il primo test.
iii) Sia Xn la v.a. aleatoria che vale 0 oppure 1 a seconda che l’n-esima bottiglia sia idonea. Determi-
nare la distribuzione di Xn e di (Xn , Xn+1 ).
iv) Sia N il numero corrispondente alla prima bottiglia non idonea. Determinare la distribuzione e
la media di N .
v) Calcolare la probabilità che tutte le prime 100 bottiglie siano idonee.
509
Soluzione.
i) Sia Ti , i = 1, 2, 3, l’evento “l’i-esimo test è superato”, e T = T1 ∩ T2 ∩ T3 . Per la Formula di moltiplica-
zione si ha
90 · 95 · 99
P (T ) = P (T1 )P (T2 | T1 )P (T3 | T1 ∩ T2 ) = ≈ 85%.
1003
ii) Per la formula di Bayes, si ha
P (T c | T1c )P (T1c ) 1 · 10%
P (T1c | T c ) = = ≈ 65%
P (T c ) 1 − P (T )
iii) Xn ∼ Bep con p = P (T ). Per l’indipendenza, (X1 , X2 ) ∼ Bep ⊗ Bep .

1
iv) N ∼ Geom1−p e E [N ] = 1−p .
v) Si ha (cfr. Teorema 3.1.25)
P (N > 100) = (1 − (1 − p))100 = p100 .
3. Si verifichi che la funzione
e−x
γ(x, y) = 1 (x, y), A = {(x, y) ∈ R2 | x + y > 0, 0 < y < 1},
e−1 A
è una densità e si consideri (X, Y ) con densità γ(X,Y ) = γ.
i) Giustificare la validità della formula (senza svolgere i calcoli)



0 se x ≤ −1,
 (1+x)e−x

γX (x) =  se − 1 < x < 0,
 e−xe−1



e−1 se x ≥ 0,
e stabilire se X e Y sono indipendenti;

ii) determinare la densità di Y 2 ;
iii) determinare la densità condizionata γX|Y .
Soluzione. La funzione γ è misurabile, non-negativa e con integrale pari a uno.

i) Basta utilizzare la formula Z
γX (x) = γ(X,Y ) (x, y)dy.
R
Calcolando anche la densità marginale
ey
Z
γY (y) = γ(X,Y ) (x, y)dx = 1 (y),
R e − 1 [0,1]
si riconosce che X, Y non sono indipendenti poiché la densità congiunta non è il prodotto delle margi-
nali.
ii) Calcoliamo prima la CDF per 0 < z < 1:
√ √
z
√ ey e z −1
Z
FY 2 (z) = P (Y 2 ≤ z) = P (Y ≤ z) = dy = .
0 e−1 e−1
Derivando si ottiene √
e z
γY 2 (z) = √ 1[0,1] (z).
2(e − 1) z
iii) Si ha
γ(X,Y ) (x, y)
γX|Y (x, y) = 1(γY >0) (y) = e−(x+y) 1A (x, y).
γY (y)
4. Sia (Xn )n∈N una successione di variabili aleatorie tali che Xn ∼ Exp 1 con 0 < α ≤ 1.
nα
Xn −1
i) Posto Yn = n , per ogni 0 < α < 1 si studi la convergenza della successione (Yn )n∈N in L2 ;
ii) per α = 1, la successione (Yn )n∈N converge in distribuzione? In caso affermativo, si determini il
limite.
Soluzione.
i) Si ha
h i 1 Z +∞ t dt
E Yn2 = 2 (t − 1)2 e− nα α =
n 0 n
t
(col cambio di variabili τ = nα )
+∞
n2α 2n2a − 2nα + 1
Z
= (τ − n−α )2 e−τ dτ =
n2 0 n2
che tende a zero per n → ∞. Più semplicemente, senza calcolare esplicitamente l’integrale, si ha
+∞ +∞
n2α
Z Z
−α 2 −τ c
0≤ 2 (τ − n ) e dτ ≤ −→ 0, c= (τ + 1)2 e−τ dτ.
n 0 n2−2α 0
ii) Si ha
1
ϕXn (η) =
1 − iηnα
da cui, per α = 1,
iη
η e− n 1
iη

ϕYn (η) = e− n ϕXn = −→ .
n 1 − iη 1 − iη
d
Dunque per α = 1 si ha Yn −−−−→ Y ∼ Exp1 .
5. In una gara di corsa sui 100 metri, T1 e T2 sono rispettivamente i tempi (in secondi) ottenuti da due
corridori. Assumiamo che T1 , T2 siano variabili aleatorie indipendenti con Ti ∼ Expλi , λi > 0 per
i = 1, 2. Posto Tmax = T1 ∨ T2 e Tmin = T1 ∧ T2 , si determini:
i) le CDF di Tmax e Tmin ;

ii) la probabilità che almeno uno dei due corridori ottenga un tempo inferiore a 10 secondi, assu-
1
mendo λ1 = λ2 = 10 ;
iii) la probabilità che entrambi i corridori ottengano un tempo inferiore a 10 secondi, assumendo
1
λ1 = λ2 = 10 ;
iv) E [t ∨ T2 ] per ogni t > 0 e, tramite il Lemma di freezing, E [Tmax | T1 ].
Soluzione.
511
i) Per la Proposizione 3.6.9 sul massimo e minimo di variabili indipendenti si ha la seguente relazione
fra le funzioni di ripartizione

FTmax (t) = FT1 (t)FT2 (t) = 1 − e−λ1 t 1 − e−λ2 t , t ≥ 0,

FTmin (t) = 1 − 1 − FT1 (t) 1 − FT2 (t) = 1 − e−(λ1 +λ2 )t , t ≥ 0.
ii) la probabilità cercata è FTmin (10) ≈ 86%;

iii) la probabilità cercata è FTmax (10) ≈ 40%;
iv) si ha
Z +∞
E [t ∨ T2 ] = (t ∨ s)λ2 e−λ2 s ds
0
t +∞
e−λ2 t
Z Z
−λ2 s
= tλ2 e ds + sλ2 e−λ2 s ds = t + .
0 t λ2
Per il Lemma di freezing (cfr. Teorema 5.2.10), si ha
e−λ2 T1
E [Tmax | T1 ] = T1 + .
λ2

– Giugno 2019 – Secondo appello –
1. Un’urna contiene 4 palline bianche, 4 rosse e 4 nere. Si effettua una serie di estrazioni nel modo
seguente: si estrae una pallina e la si rimette nell’urna insieme ad un’altra pallina dello stesso colore
di quella estratta. Calcolare la probabilità:
i) di estrarre una pallina bianca alla seconda estrazione;

ii) di estrarre una pallina rossa alla prima estrazione sapendo che alla seconda estrazione viene
estratta una pallina bianca;
iii) dopo tre estrazioni, di aver estratto tutte palline bianche;
iv) dopo tre estrazioni, di non aver estratto palline che abbiano tutte lo stesso colore.
2. Sia X = (X1 , X2 , X3 ) ∼ N0,C con

 
 2 1 −1
C =  1 1 −1 .
 
−1 −1 1
 
Dati i vettori aleatori Y := (X1 , X3 ) e Z := (X2 , 2X3 ), si determini:
i) le distribuzioni di Y e Z, specificando se sono assolutamente continui;

ii) Y e Z sono indipendenti?
iii) la funzione caratteristica ϕZ specificando se è una funzione sommabile su R2 .
3. Data X ∈ N0,1 , si consideri la successione

r
1 1
Xn = − 1 + X, n ∈ N.
n n
Stabilire se:
d
i) Xn −−−−−→ X;
n→∞
L2
ii) Xn −−−−−→ X;
n→∞
q.c.
iii) Xn −−−−−→ X.
n→∞
4. Siano X, Y v.a. con distribuzione normale standard, ossia X, Y ∼ N0,1 , e T ∼ µ := 1

2 (δ−1 + δ1 ). Assu-
miamo che X, Y e T siano indipendenti.

Z := X + Y , W := X + T Y ,
hanno la stessa legge;
ii) Z e W sono indipendenti?
iii) si determini la CHF congiunta ϕ(Z,W ) .
513
5. Il tempo di consegna di un corriere è descritto da una v.a. T ∼ Expλ con λ > 0. Supponiamo che
l’unità di tempo sia il giorno, ossia T = 1 equivale a un giorno, e indichiamo con N la v.a. che indica
il giorno di consegna, definita da N = n se T ∈ [n − 1, n[ per n ∈ N. Si determini
i) la legge e la CDF di N ;
ii) E [N ] e E [N | T > 1] (non è necessario svolgere i conti);
iii) E [N | T ].

– Giugno 2019 – Secondo appello –
1. Un’urna contiene 4 palline bianche, 4 rosse e 4 nere. Si effettua una serie di estrazioni nel modo
seguente: si estrae una pallina e la si rimette nell’urna insieme ad un’altra pallina dello stesso colore
di quella estratta. Calcolare la probabilità:
i) di estrarre una pallina bianca alla seconda estrazione;

ii) di estrarre una pallina rossa alla prima estrazione sapendo che alla seconda estrazione viene
estratta una pallina bianca;
iii) dopo tre estrazioni, di aver estratto tutte palline bianche;
iv) dopo tre estrazioni, di non aver estratto palline che abbiano tutte lo stesso colore.
Soluzione. Indichiamo con Bn l’evento “la pallina estratta all’n-esima estrazione è bianca”, con n ∈ N.
Analogamente siano definiti Nn e Rn .
i) per la Formula della probabilità totale si ha
P (B2 ) = P (B2 | B1 )P (B1 ) + P (B2 | R1 )P (R1 ) + P (B2 | N1 )P (N1 )

5 1 4 1 4 1 1
= · + · + · = .
13 3 13 3 13 3 3
ii) Per la Formula di Bayes si ha

4 1
P (B2 | R1 ) 13 · 3 4
P (R1 | B2 ) = P (R1 ) = 1
= .
P (B2 ) 3
13
iii) Per la Formula di moltiplicazione si ha
1 5 6 5
P (B1 ∩ B2 ∩ B3 ) = P (B1 )P (B2 | B1 )P (B3 | B1 ∩ B2 ) = · · = .
3 13 14 91
15
iv) Per il punto iii), la probabilità che tutte le palline abbiano lo stesso colore è 91 . La probabilità cercata
15
è quindi 1 − 91 .
2. Sia X = (X1 , X2 , X3 ) ∼ N0,C con

 
 2 1 −1
C =  1 1 −1 .
 
−1 −1 1
 
Dati i vettori aleatori Y := (X1 , X3 ) e Z := (X2 , 2X3 ), si determini:
i) le distribuzioni di Y e Z, specificando se sono assolutamente continui;

ii) Y e Z sono indipendenti?
iii) la funzione caratteristica ϕZ specificando se è una funzione sommabile su R2 .
Soluzione.
515
i) Poiché
!
1 0 0
Y = αX, α= ,
0 0 1
!
0 1 0
Z = βX, β= ,
0 0 2
si ha Y ∼ N0,αCα ∗ e Z ∼ N0,βCβ ∗ con

! !
2 −1 1 −2
αCα ∗ = , βCβ ∗ = .
−1 2 −2 4
Ne viene che Y è assolutamente continuo, mentre Z non lo è perché βCβ ∗ è singolare.

ii) Y e Z non sono indipendenti: osserviamo infatti che hanno la seconda componente proporzionale;
quindi, posto f (x1 , x2 ) = x2 si ha
h i
E [f (Y )f (Z)] = 2E X32 = 2
ma E [f (Y )] = E [f (Z)] = 0.
iii) Poiché Z ∼ N0,βCβ ∗ si ha
1 2 2
ϕZ (η1 , η2 ) = e− 2 (η1 +4η2 −4η1 η2 ) .
ϕZ non è sommabile altrimenti, per il teorema di inversione, Z sarebbe assolutamente continua.
3. Data X ∈ N0,1 , si consideri la successione

r
1 1
Xn = − 1 + X, n ∈ N.
n n
Stabilire se:
d
i) Xn −−−−−→ X;
n→∞
L2
ii) Xn −−−−−→ X;
n→∞
q.c.
iii) Xn −−−−−→ X.
n→∞
Soluzione.
i) Si ha Xn ∼ N 1 ,1+ 1 . Poiché
n n
η η 2 η 2
1
ϕXn (η) = ei n − 2 (1+ n ) −−−−−→ e− 2 = ϕX (η),
n→∞
d
per il Teorema di continuità di Lévy si ha che Xn −−−−→ X.
ii) Si ha  r  2  r 2
h i  1  1    1  1  h i
2
E (Xn − X) = E  −  1 + + 1 X   = 2 +  1 + + 1 E X 2 −−−−−→ 4
 
 n n  n n n→∞
e quindi non c’è convergenza in L2 .

iii) Per ogni ω ∈ Ω si ha

Xn (ω) −−−−−→ −X(ω)
n→∞
e quindi non c’è convergenza q.c.: Xn converge a X solo sull’evento trascurabile (X = 0).
4. Siano X, Y v.a. con distribuzione normale standard, ossia X, Y ∼ N0,1 , e T ∼ µ := 1

2 (δ−1 + δ1 ). Assu-
miamo che X, Y e T siano indipendenti.

Z := X + Y , W := X + T Y ,
hanno la stessa legge;
ii) Z e W sono indipendenti?
iii) si determini la CHF congiunta ϕ(Z,W ) .
Soluzione.
i) Il vettore aleatorio (X, Y ) ha distribuzione normale standard bidimensionale (essendo, per ipotesi, X, Y
indipendenti). Inoltre si ha
!
X
Z =α , α= 1 1
Y
e quindi, indicando con I la matrice identità 2 × 2, si ha Z ∼ N0,αIα ∗ = N0,2 .
Per l’ipotesi di indipendenza, la distribuzione congiunta di X, Y e T è la distribuzione prodotto
N0,1 ⊗ N0,1 ⊗ µ

Z
f (x + ty) N0,1 ⊗ N0,1 ⊗ µ (dx, dy, dt) =

E [f (W )] =
R3

Z Z Z ! !
= f (x + ty)N0,1 (dx) N0,1 (dy) µ(dt)
R R R
Z Z ! Z Z !
1 1
= f (x + y)N0,1 (dx) N0,1 (dy) + f (x − y)N0,1 (dx) N0,1 (dy)
2 R R 2 R R
(col cambio di variabili z = −y nel secondo integrale)

Z
= f (x + y)N0,1 (dx)N0,1 (dy) = E [f (Z)] .
R2
Ne segue che Z e W hanno entrambe distribuzione N0,2 .

ii) Poiché
cov(Z, W ) = E [(X + Y )(X + T Y )]

h i h i
= E X 2 + E [(1 + T )XY ] + E T Y 2 = 1
per l’indipendenza di X, Y , T , allora Z e W non sono indipendenti.

517
iii) La CHF congiunta è data da

h i
ϕ(Z,W ) (η1 , η2 ) = E ei(η1 (X+Y )+η2 (X+T Y ))
h i h i
= E ei(η1 +η2 )(X+Y ) 1(T =1) + E ei(η1 +η2 )X+i(η1 −η2 )Y 1(T =−1) =
1 h i(η1 +η2 )(X+Y ) i h i h i

= E e + E ei(η1 +η2 )X E ei(η1 −η2 )Y =
2
(poiché X, Y ∼ N0,1 e X + Y ∼ N0,2 )
1 −(η1 +η2 )2 −η 2 −η 2

= e +e 1 2 .
2
5. Il tempo di consegna di un corriere è descritto da una v.a. T ∼ Expλ con λ > 0. Supponiamo che
l’unità di tempo sia il giorno, ossia T = 1 equivale a un giorno, e indichiamo con N la v.a. che indica
il giorno di consegna, definita da N = n se T ∈ [n − 1, n[ per n ∈ N. Si determini
i) la legge e la CDF di N ;
ii) E [N ] e E [N | T > 1] (non è necessario svolgere i conti);
iii) E [N | T ].
Soluzione.
i) N è una v.a. discreta che assume solo valori in N: vale
Zn
P (N = n) = P (n − 1 ≤ T < n) = λe−λt dt = e−λn (eλ − 1) =: pn , n ∈ N.
n−1
Allora
∞
X
N∼ pn δ n
n=1
e la CDF di N è 


 0 se x < 0,
FN (x) = 
P n
 pk

 se n − 1 ≤ x < n.
k=1
ii) Si ha
∞
X eλ
E [N ] = npn = ,
n=1
eλ − 1
h i
E N 1(T >1) ∞
X 2eλ − 1
E [N | T > 1] = = eλ npn = .
P (T > 1)
n=2
eλ − 1
iii) osserviamo che N è σ (T )-misurabile perché è funzione (misurabile) di T : precisamente N = 1 + [T ]

dove [x] indica la funzione parte intera di x ∈ R. Di conseguenza
E [N | T ] = N .

1. Si prendono due dadi di cui il primo ha sei facce numerate da 1 a 6 e il secondo ha sei facce numerate
da 2 a 7. Si sceglie a caso uno dei due dadi e lo si lancia n volte. Sia X la v.a. che indica il numero di
volte in cui si ottiene un numero maggiore o uguale a 4. Si determini:
i) la probabilità che X sia uguale a k, sapendo che è stato scelto il primo dado;
ii) la probabilità che X sia uguale a k;
iii) la probabilità che sia stato scelto il primo dado, sapendo che X = n;
iv) il valore atteso di X.
2. Secondo una recente analisi, la probabilità che chi svolge attività sportiva abbia buoni rendimenti
scolastici è pari al 90%, mentre è del 70% per chi non svolge attività sportiva.
i) Sapendo che in un anno la percentuale di studenti con buoni rendimenti scolastici è pari al 85%,
stimare la percentuale di studenti che svolgono attività sportiva;
ii) calcolare la probabilità che chi ha buoni rendimenti scolastici svolga attività sportiva.
3. Si consideri la funzione
1
γ(x, y) = (ax + by + 1)1[−1,1]×[−1,1] (x, y), (x, y) ∈ R2 .
4
Determinare:
i) per quali a, b ≥ 0, la funzione γ è una densità;

ii) la densità di X e Y supponendo che γ sia densità di (X, Y );
iii) per quali a, b ≥ 0 le v.a. X e Y sono indipendenti.
   
1 2 0 0 
µ = 2 , C = 0 2 −1 .
   
3 0 −1 2
   

ii) le v.a. X e Y − Z sono indipendenti?
5. Sia (Xn )n∈N una successione di variabili aleatorie con Xn ∼ Unif[0,n] .
i) Si studi la convergenza puntuale della successione delle funzioni caratteristiche ϕXn e si stabili-
sca se (Xn )n∈N converge debolmente;
ii) (Xn )n∈N converge q.c.?
519

1. Si prendono due dadi di cui il primo ha sei facce numerate da 1 a 6 e il secondo ha sei facce numerate
da 2 a 7. Si sceglie a caso uno dei due dadi e lo si lancia n volte. Sia X la v.a. che indica il numero di
volte in cui si ottiene un numero maggiore o uguale a 4. Si determini:
i) la probabilità che X sia uguale a k, sapendo che è stato scelto il primo dado;
ii) la probabilità che X sia uguale a k;
iii) la probabilità che sia stato scelto il primo dado, sapendo che X = n;
iv) il valore atteso di X.
Soluzione.
i) Sia A =“è scelto il primo dado”. Allora per k = 0, 1, . . . , n si ha
!
n k 1
P (X = k | A) = Binn,p (k) = p (1 − p)n−k , p= .
k 2
ii) Per la formula della probabilità totale, si ha

1 1
P (X = k) = (P (X = k | Ac ) + P (X = k | A)) = Binn, 2 (k) + Binn, 1 (k) (B.0.2)
2 2 3 2
iii) Anzitutto
1 2n 1
!
P (X = n) = + .
2 3n 2n
Per il Teorema di Bayes, si ha
1
P (X = n | A)P (A) 2n
P (A | X = n) = = 2n
.
P (X = n) 3n + 21n
iv) Ricordando che l’attesa di una v.a. con distribuzione Binn,p è pari a np, per la (B.0.2) si ha
1 2n n

E [X] = + .
2 3 2
2. Secondo una recente analisi, la probabilità che chi svolge attività sportiva abbia buoni rendimenti
scolastici è pari al 90%, mentre è del 70% per chi non svolge attività sportiva.
i) Sapendo che in un anno la percentuale di studenti con buoni rendimenti scolastici è pari al 85%,
stimare la percentuale di studenti che svolgono attività sportiva;
ii) calcolare la probabilità che chi ha buoni rendimenti scolastici svolga attività sportiva.
Soluzione.
i) Se B è l’evento “avere buoni rendimenti scolastici” e S è l’evento “svolgere attività sportiva”, si ha
P (B) = P (B | S)P (S) + P (B | S c )(1 − P (S))
da cui
P (B) − P (B | S c )
P (S) = = 75%
P (B | S) − P (B | S c )
ii) Per il Teorema di Bayes, si ha

P (B | S)P (S)
P (S | B) = ≈ 79%
P (B)
3. Si consideri la funzione
1
γ(x, y) = (ax + by + 1)1[−1,1]×[−1,1] (x, y), (x, y) ∈ R2 .
4
Determinare:
i) per quali a, b ≥ 0, la funzione γ è una densità;
ii) la densità di X e Y supponendo che γ sia densità di (X, Y );
iii) per quali a, b ≥ 0 le v.a. X e Y sono indipendenti.
Soluzione.
i) γ è una funzione misurabile con "
γ(x, y)dxdy = 1
R2
per ogni a, b ≥ 0. Inoltre, poiché a, b ≥ 0, si ha
γ(x, y) ≥ γ(−1, −1) = −a − b + 1, (x, y) ∈ [−1, 1] × [−1, 1]
e quindi γ ≥ 0 se a + b ≤ 1.
ii) Z 1 Z 1
ax + 1 by + 1
γX (x) = γ(x, y)dy = 1[−1,1] (x), γY (y) = γ(x, y)dx = 1[−1,1] (y).
−1 2 −1 2
iii) (X, Y ) sono indipendenti se e solo se γ(x, y) = γX (x)γY (y) ossia
(ax + 1)(by + 1) = ax + by + 1
ossia abxy = 0 ossia a = 0 oppure b = 0.
   
1 2 0 0 
µ = 2 , C = 0 2 −1 .
   
3 0 −1 2
   

ii) le v.a. X e Y − Z sono indipendenti?
Soluzione.
! !
1 2 0
i) Si ha (X, Y ) ∼ Nµ̄,C̄ con µ̄ = e C̄ = e quindi
2 0 2
2 2
ϕ(X,Y ) (η1 , η2 ) = ei(η1 +2η2 )−(η1 +η2 ) .
ii) (X, Y − Z) ha distribuzione normale bidimensionale poiché è combinazione lineare di (X, Y , Z). Di
conseguenza, X e Y − Z sono indipendenti se e solo se sono scorrelate: poiché
cov(X, Y − Z) = cov(X, Y ) − cov(X, Z) = 0,
allora X e Y − Z sono indipendenti.
521
5. Sia (Xn )n∈N una successione di variabili aleatorie con Xn ∼ Unif[0,n] .

i) Si studi la convergenza puntuale della successione delle funzioni caratteristiche ϕXn e si stabili-
sca se (Xn )n∈N converge debolmente;
ii) (Xn )n∈N converge q.c.?
Soluzione.
i) Si ha 
h
iηXn 1
i 
 se η = 0,
ϕXn (η) = E e = iηn
 e iηn−1
 altrimenti.
Si noti che ϕXn è una funzione continua poiché, per ogni n ∈ N, si ha
eiηn − 1
lim = 1.
η→0 iηn
Allora 
1 se η = 0,


lim ϕXn (η) = 
n→∞ 0 altrimenti.

che non è continua in η = 0. Dunque per il Teorema 4.3.8 di continuità di Lévy, la successione (Xn )n∈N
non converge debolmente.
ii) Poiché (Xn )n∈N non converge debolmente, per il Teorema 4.1.9, non si ha neppure la convergenza q.c.

1. Un’urna contiene 3 palline rosse, 3 palline bianche e 4 palline nere. Si lanciano due monete: se si
hanno due teste si aggiunge una pallina rossa all’urna, se si hanno due croci si aggiunge una pallina
bianca, negli altri casi non si aggiunge nulla. Si estraggono in sequenza e senza reinserimento, due
palline dall’urna. Determinare la probabilità:
i) che la prima pallina estratta sia nera;
ii) di aver ottenuto almeno una croce, sapendo che la prima pallina estratta è nera;
iii) che le due palline estratte siano entrambe nere, sapendo di non aver aggiunto palline.
2. Sia X = (X1 , X2 , X3 ) ∼ N0,C con
 
 2 1 −1
C =  1 1 0  .
 
−1 0 1
 
Si determini per quali a ∈ R:
i) Y := (aX1 + X2 , X3 ) è una v.a. assolutamente continua;

ii) aX1 + X2 e X3 sono indipendenti;
iii) la funzione caratteristica ϕY è una funzione sommabile su R2 .
3. Siano X ∼ Nµ,σ 2 e Y ∼ Bep , con 0 < p < 1, v.a. indipendenti. Posto Z = X Y , si determini:
i) E [Z];
ii) la CDF di Z e se Z è assolutamente continua;
h i
iii) la CHF di Z e utilizzarla per calcolare E Z 2 .
4. i) Per quali valori di a, b ∈ R la funzione
γ(x) = (2ax + b)1[0,1] (x), x ∈ R,
è una densità?
ii) √
Si consideri una successione di v.a. (Xn )n∈N i.i.d. con densità γ con b = 0. Si determini la CDF di
nX1 e di √ √
Yn = min{ nX1 , . . . , nXn }.
iii) Si provi che (Yn )n∈N converge debolmente e si determini la densità della v.a. limite.
523

1. Un’urna contiene 3 palline rosse, 3 palline bianche e 4 palline nere. Si lanciano due monete: se si
hanno due teste si aggiunge una pallina rossa all’urna, se si hanno due croci si aggiunge una pallina
bianca, negli altri casi non si aggiunge nulla. Si estraggono in sequenza e senza reinserimento, due
palline dall’urna. Determinare la probabilità:
i) che la prima pallina estratta sia nera;

ii) di aver ottenuto almeno una croce, sapendo che la prima pallina estratta è nera;
iii) che le due palline estratte siano entrambe nere, sapendo di non aver aggiunto palline.
Soluzione.
i) Consideriamo i seguenti eventi: N 1=“la prima pallina estratta è nera”, T T =“il risultato dei due lanci
di moneta sono due teste”, CT =“il risultato del primo lancio di moneta è croce e del secondo è testa” e
analogamente definiamo CC e T C. Per la Formula della probabilità totale si ha
P (N 1) = P (N 1 | T T )P (T T ) + P (N 1 | CC)P (CC) + P (N 1 | CT ∪ T C)P (CT ∪ T C)

4 1 4 1 4 2 21
= · + · + · = .
11 4 11 4 10 4 55
ii) Per la Formula di Bayes si ha
P (N 1 | T T )P (T T ) 16
P (CT ∪ T C ∪ CC | N 1) = 1 − P (T T | N 1) = 1 − = .
P (N 1) 21
iii) Poniamo P¯ = P (· | CT ∪ T C). Per la formula di moltiplicazione si ha
4 3 2
P¯ (N 1 ∩ N 2) = P¯ (N 1)P¯ (N 2 | N 1) = · = .
10 9 15
2. Sia X = (X1 , X2 , X3 ) ∼ N0,C con

 
 2 1 −1
C =  1 1 0  .
 
−1 0 1
 
Si determini per quali a ∈ R:
i) Y := (aX1 + X2 , X3 ) è una v.a. assolutamente continua;

ii) aX1 + X2 e X3 sono indipendenti;
iii) la funzione caratteristica ϕY è una funzione sommabile su R2 .
Soluzione.
i) Poiché
!
a 1 0
Y = αX, α= ,
0 0 1
si ha Y ∼ N0,αCα ∗ con
!
1 + 2a + 2a2 −a
αCα ∗ = , det(αCα ∗ ) = (1 + a)2 .
−a 1
Solo per a = −1 la matrice αCα ∗ è singolare e per tale valore di a la v.a. Y non è assolutamente
continua.
ii) data l’espressione della matrice di covarianza αCα ∗ , si ha che aX1 + X2 e X3 sono scorrelate (e quindi
indipendenti) se a = 0.
iii) Poiché Y ∼ N0,αCα ∗ si ha
1 ∗ η,α ∗ η⟩
ϕY (η) = e− 2 ⟨Cα .
ϕY non è sommabile se a = −1 altrimenti, per il teorema di inversione, Y sarebbe assolutamente
continua.
3. Siano X ∼ Nµ,σ 2 e Y ∼ Bep , con 0 < p < 1, v.a. indipendenti. Posto Z = X Y , si determini:
i) E [Z];
ii) la CDF di Z e se Z è assolutamente continua;
h i
iii) la CHF di Z e utilizzarla per calcolare E Z 2 .
Soluzione.
i) Per l’indipendenza, si ha
"
E [Z] = xy Nµ,σ 2 ⊗ Bep (dx, dy) =
R2

Z Z
=p xNµ,σ 2 (dx) + (1 − p) Nµ,σ 2 (dx) = pµ + (1 − p).
R R
ii) Si ha
FZ (z) = P (Z ≤ z) = P ((Z ≤ z) ∩ (Y = 1)) + P ((Z ≤ z) ∩ (Y = 0)) =
= P (X ≤ z)P (Y = 1) + P (1 ≤ z)P (Y = 0) = pFX (z) + (1 − p)1[1,+∞[ (z).
Poiché FZ ha un salto in z = 1 di ampiezza 1 − p, la v.a. Z non è assolutamente continua.

iii) Si ha
h i h i h i σ 2 η2
ϕZ (η) = E eiηZ = pE eiηX + (1 − p)E eiη = pϕX (η) + (1 − p)eiη , ϕX (η) = eiµη− 2 .
Per il Teorema 3.5.20 si ha

h i
E Z 2 = −∂2η ϕZ (η)|η=0 = p(µ2 + σ 2 ) + (1 − p).
4. i) Per quali valori di a, b ∈ R la funzione
γ(x) = (2ax + b)1[0,1] (x), x ∈ R,
è una densità?
525
ii) √
Si consideri una successione di v.a. (Xn )n∈N i.i.d. con densità γ con b = 0. Si determini la CDF di
nX1 e di √ √
Yn = min{ nX1 , . . . , nXn }.
iii) Si provi che (Yn )n∈N converge debolmente e si determini la densità della v.a. limite.
Soluzione.
i) Deve essere Z Z 1
1= γ(x)dx = (2ax + b)dx = a + b
R 0
da cui b = 1 − a. Inoltre γ deve essere non-negativa: se a ≥ 0 allora il minimo di γ è assunto per x = 0
e si ha la condizione 1 − a ≥ 0; se a < 0 allora il minimo di γ è assunto per x = 1 e si ha la condizione
a + 1 ≥ 0. In definitiva, per |a| ≤ 1 e b = 1 − a, γ è una densità.
ii) Si ha 

 0 se x < 0,
√

R √x

P ( nX1 ≤ x) = 
 n x2 √
0 2ydy = n se 0 ≤ x < n,
√



1 se x ≥ n.

Per la Proposizione 3.6.9, si ha



0 se x < 0,
n


 2 n √
√
FYn (x) = 1 − (1 − F nX1 (x)) = 1 − 1 − xn se 0 ≤ x < n,

 √
1 se x ≥ n.

iii) Si ha 
0

 se x < 0,
lim FYn (x) = FY (x) :=  2
n→∞ 1 − e−x
 se x ≥ 0,
d 2
e quindi per il Teorema 4.3.3 Yn −−−−→ Y per n → ∞ con Y che ha densità γY (x) = FY′ (x) = 2xe−x 1[0,+∞[ (x).

1. I test dimostrano che un vaccino è efficace contro il virus α in 55 casi su 100, contro il virus β in 65
casi su 100 e contro almeno uno dei due virus in 80 casi su 100. Determinare la probabilità che il
vaccino sia efficace contro entrambi i virus.
2. In una catena di produzione, un bullone è idoneo se supera due test di qualità: la probabilità di
superare il primo test è 90%; nel caso sia superato il primo, la probabilità di superare il secondo
test è 95%. Supponiamo che gli esiti del controlli su bulloni diversi siano indipendenti fra loro. Si
determini:
i) la probabilità che un bullone sia idoneo;
ii) la probabilità che un bullone non idoneo abbia superato il primo test;
iii) la distribuzione del numero N di bulloni idonei fra i primi 100 prodotti;
iv) la distribuzione e la media di M, dove M è il numero corrispondente al primo bullone non
idoneo.
3. Si consideri la funzione !
p
Fp (x) := 1 − 1 (x), x ∈ R.
p − 1 + ex R≥0
i) Si provi che Fp è una funzione di ripartizione per ogni p ≥ 0 e non lo è per p < 0;
ii) sia µp la distribuzione con CDF Fp : per quali p, µp è assolutamente continua?
iii) si studi la convergenza debole di µpn con pn −→ 0+ e con pn −→ 1 e si riconoscano le distribuzioni
limite.
e−y|x|
γ(X,Y ) (x, y) = 1 (y), (x, y) ∈ R2 .
log 4 [1,2]
iii) Si calcoli E [Y | X > 0].
5. A partire dalle 8 del mattino il sig. Smith riceve in media due telefonate all’ora. Supponiamo che,
in ogni ora, il numero di chiamate ricevute sia una v.a. di Poisson e che tali v.a. siano indipendenti.
Determinare:
i) la distribuzione del numero di chiamate ricevute fra le 8 e le 10;
ii) la probabilità di ricevere almeno 4 chiamate fra le 8 e le 10;
iii) la probabilità di ricevere almeno 2 chiamate all’ora fra le 8 e le 10;
iv) la probabilità di ricevere almeno 4 chiamate fra le 8 e le 10, sapendo di riceverne almeno 2 fra le
8 e le 10;
v) la probabilità di ricevere almeno 4 chiamate fra le 8 e le 10, sapendo di riceverne almeno 2 fra le
8 e le 9.
527

1. I test dimostrano che un vaccino è efficace contro il virus α in 55 casi su 100, contro il virus β in 65
casi su 100 e contro almeno uno dei due virus in 80 casi su 100. Determinare la probabilità che il
vaccino sia efficace contro entrambi i virus.
Soluzione. Consideriamo gli eventi A=“il vaccino è efficace contro il virus α” e B=“il vaccino è efficace
contro il virus β”. Sappiamo che P (A) = 55%, P (B) = 65% e P (A ∪ B) = 80%. Allora
P (A ∩ B) = P (A) + P (B) − P (A ∪ B) = 40%.
2. In una catena di produzione, un bullone è idoneo se supera due test di qualità: la probabilità di
superare il primo test è 90%; nel caso sia superato il primo, la probabilità di superare il secondo
test è 95%. Supponiamo che gli esiti del controlli su bulloni diversi siano indipendenti fra loro. Si
determini:
i) la probabilità che un bullone sia idoneo;

ii) la probabilità che un bullone non idoneo abbia superato il primo test;
iii) la distribuzione del numero N di bulloni idonei fra i primi 100 prodotti;
iv) la distribuzione e la media di M, dove M è il numero corrispondente al primo bullone non
idoneo.
Soluzione.
i) Sia Ti , i = 1, 2, l’evento “l’i-esimo test è superato” e T = T1 ∩ T2 . Per la Formula di moltiplicazione si

ha
90 · 95
p := P (T ) = P (T1 )P (T2 | T1 ) = = 85.5%;
1002
ii) per la formula di Bayes e poiché P (T c | T1 ) = P (T2c | T1 ) = 5%, si ha
P (T c | T1 )P (T1 ) 5% · 90%
P (T1 | T c ) = = ≈ 31%;
P (T c ) 14.5%
iii) N ∼ Bin100,p ;
1
iv) M ∼ Geom1−p e E [M] = 1−p .
3. Si consideri la funzione !
p
Fp (x) := 1 − 1 (x), x ∈ R.
p − 1 + ex R≥0
i) Si provi che Fp è una funzione di ripartizione per ogni p ≥ 0 e non lo è per p < 0;
ii) sia µp la distribuzione con CDF Fp : per quali p, µp è assolutamente continua?
iii) si studi la convergenza debole di µpn con pn −→ 0+ e con pn −→ 1 e si riconoscano le distribuzioni
limite.
Soluzione. Calcoliamo la derivata

pex
Fp′ (x) = 1R≥0 (x)
(p − 1 + ex )2
da cui si vede che Fp è monotona crescente per p ≥ 0 e descrescente per p < 0. Fp con p = 0 è la CDF della
delta di Dirac centrata in zero. Se p > 0 allora Fp è una funzione assolutamente continua su R:
Z x
Fp (x) = Fp′ (y)dy, x ∈ R.
0
Infine Fp (x) ≡ 0 per x < 0 e

lim Fp (x) = 1.
x→∞
Applichiamo il Teorema 4.3.3: per pn −→ 0+ , si ha
Fp (x) −→ F0 (x), x ∈ R \ {0}
con 0 unico punto di discontinuità di F0 : quindi µpn converge debolmente alla delta di Dirac centrata in
zero. Se pn −→ 1, allora
Fp (x) −→ F1 (x) = 1 − e−x , x∈R
e quindi µpn converge debolmente a Exp1 .
e−y|x|
γ(X,Y ) (x, y) = 1 (y), (x, y) ∈ R2 .
log 4 [1,2]

iii) Si calcoli E [Y | X > 0].
Soluzione.
i) Si ha
e−|x| − e−2|x|
Z
γX (x) = γ(X,Y ) (x, y)dy = ,
R |x| log 4
Z
1
γY (y) = γ(X,Y ) (x, y)dx = 1 .
R y log 2 ]1,2](y)
ii) Se Z e W fossero indipendenti allora lo sarebbero anche X = log Z e Y = log W . Tuttavia X e Y non
sono indipendenti poiché la densità congiunta non è uguale al prodotto delle marginali.
1
iii) Per simmetria P (X > 0) = 2 e si ha
Z Z 2 Z +∞
1 y 1
E [Y | X > 0] = Y dP = 2 e−y|x| dxdy = .
P (X > 0) (X>0) 1 log 4 0 log 2
5. A partire dalle 8 del mattino il sig. Smith riceve in media due telefonate all’ora. Supponiamo che,
in ogni ora, il numero di chiamate ricevute sia una v.a. di Poisson e che tali v.a. siano indipendenti.
Determinare:
i) la distribuzione del numero di chiamate ricevute fra le 8 e le 10;
529
ii) la probabilità di ricevere almeno 4 chiamate fra le 8 e le 10;

iii) la probabilità di ricevere almeno 2 chiamate all’ora fra le 8 e le 10;
iv) la probabilità di ricevere almeno 4 chiamate fra le 8 e le 10, sapendo di riceverne almeno 2 fra le
8 e le 10;
v) la probabilità di ricevere almeno 4 chiamate fra le 8 e le 10, sapendo di riceverne almeno 2 fra le
8 e le 9.
Soluzione. Sia Nn−m il numero di chiamate ricevute dall’ora n all’ora m. Allora N8−9 ∼ Poisson2 .
i) N8−10 = N8−9 + N9−10 ∼ Poisson4 per l’ipotesi di indipendenza (Esempio 3.6.5);
ii)
3
X 4k
P (N8−10 ≥ 4) = 1 − P (N8−10 ≤ 3) = 1 − e−4 ;
k!
k=0
iii) per l’indipendenza

 1
2
 X 2 k
P ((N8−9 ≥ 2) ∩ (N9−10 ≥ 2)) = 1 − e−2  ;

k! 
k=0
iv)
P (N8−10 ≥ 4)
P (N8−10 ≥ 4 | N8−10 ≥ 2) =
P (N8−10 ≥ 2)
e le probabilità si calcolano come nel punto ii);
v)
P ((N8−10 ≥ 4) ∩ (N8−9 ≥ 2))
P (N8−10 ≥ 4 | N8−9 ≥ 2) =
P (N8−9 ≥ 2)
1 X
= P (N9−10 ≥ 4 − k)P (N8−9 = k).
P (N8−9 ≥ 2)
k≥2

1. Sei monete sono disposte in modo casuale e indipendente in tre scatole. Consideriamo gli eventi:
A = la prima scatola contiene due monete;
B = ogni scatola contiene due monete.
Si determini:
i) P (A);
ii) P (B);
iii) P (A | B) e P (B | A).
!
1 0
2. Se (X, Y ) ∼ Nµ,C con µ = (0, 0) e C = . Determinare:
0 2
i) la legge di (Y , X);
ii) la legge e la CHF di (X, X). È una v.a. assolutamente continua? È vero che
lim ϕ(X,X) (η1 , η2 ) = 0?
|(η1 ,η2 )|→+∞
iii) (Y , X) e (X, X) sono indipendenti?

3. Si lanciano due dadi (non truccati) a tre facce, numerate da 1 a 3. Sullo spazio campione Ω = {(m, n) |
1 ≤ m, n ≤ 3}, siano X1 e X2 le variabili aleatorie che indicano rispettivamente i risultati dei lanci del
primo e secondo dado. Posto X = X1 + X2 , si determini σ (X) e se X1 è σ (X)-misurabile.
4. Sia (Xn )n∈N una successione di v.a. con distribuzione
1 √ 1

Xn ∼ µn := δ− n + δ√n + 1 − Unif[− 1 , 1 ] , n ∈ N.
2n n n n
i) Si calcoli media e varianza di Xn .

d
ii) Si calcoli la CHF di Xn e si deduca che Xn −−−−→ 0.
L2
iii) Vale anche Xn −−−→ 0 ?
5. Indichiamo con
1 y2
Γ (y) = √ e− 2 , y ∈ R,
2π
la Gaussiana standard.
i) Verificare che la funzione
γ(x, y) = 1H (x, y), H := {(x, y) ∈ R2 | 0 ≤ x ≤ Γ (y)}
è una densità.
ii) Siano X, Y variabili aleatorie con densità congiunta γ. Determinare le densità marginali γX e γY .
X e Y sono indipendenti?
iii) Ricordando la formula (5.3.8) per la densità condizionata
γ(x, y)
γX|Y (x, y) := , x ∈ R, y ∈ (γY > 0),
γY (y)
si calcoli γX|Y e il valore atteso condizionato E [X n | Y ] con n ∈ N.
531

1. Sei monete sono disposte in modo casuale e indipendente in tre scatole. Consideriamo gli eventi:
A = la prima scatola contiene due monete;
B = ogni scatola contiene due monete.
Si determini:
i) P (A);
ii) P (B);
iii) P (A | B) e P (B | A).
Soluzione. Lo spazio campione di tutte le disposizioni possibili delle monete è Ω = DR3,6 , da cui |Ω| = 36 . Si
ricordi che Ω è lo spazio delle funzioni da I6 a I3 e ogni funzione corrisponde ad una disposizione possibile
delle sei monete.

i) Si determinano in C modi possibili le due monete nella prima scatola e di conseguenza
6,2

6 4
C6,2 DR2,4 2
P (A) = = 2 6 ≈ 33%.
DR3,6 3
Si ha equivalentemente P (A) = Bin6, 1 ({2}).

3

ii) Si determinano in C6,2 modi possibili le due monete nella prima scatola e in C4,2 modi possibili le
due monete nella seconda scatola: di conseguenza

C6,2 C4,2 6 4
P (B) = = 2 2 ≈ 12%.
DR 3,6 36
iii) Poiché B ⊆ A si ha
P (B)
P (A | B) = 1, P (B | A) = ≈ 37.5%.
P (A)
!
1 0
2. Se (X, Y ) ∼ Nµ,C con µ = (0, 0) e C = . Determinare:
0 2
i) la legge di (Y , X);
ii) la legge e la CHF di (X, X). È una v.a. assolutamente continua? È vero che
lim ϕ(X,X) (η1 , η2 ) = 0?

|(η1 ,η2 )|→+∞
iii) (Y , X) e (X, X) sono indipendenti?
Soluzione.
! ! ! !
Y X 0 1 2 0
i) Poiché =α con α = , si ha (X, Y ) ∈ N(0,0),C1 con C1 = αCα ∗ = .
X Y 1 0 0 1
!
1 1
ii) In modo analogo si mostra che (X, X) ∈ N(0,0),C2 con C2 = . In questo caso la matrice di
1 1
covarianza è degenere e (X, X) non è assolutamente continua. Si ha
1 2 2
ϕ(X,X) (η1 , η2 ) = e− 2 (η1 +2η1 η2 +η2 )
e ϕ(X,X) (η1 , −η1 ) = 1 per ogni η1 ∈ R (da cui segue che ϕ(X,X) non tende a 0 all’infinito).
iii) Se (Y , X) e (X, X) fossero indipendenti allora lo sarebbero anche le loro seconde componenti che sono
entrambe uguali a X.
3. Si lanciano due dadi (non truccati) a tre facce, numerate da 1 a 3. Sullo spazio campione Ω = {(m, n) |
1 ≤ m, n ≤ 3}, siano X1 e X2 le variabili aleatorie che indicano rispettivamente i risultati dei lanci del
primo e secondo dado. Posto X = X1 + X2 , si determini σ (X) e se X1 è σ (X)-misurabile.
Soluzione. σ (X) è la σ -algebra i cui elementi sono ∅ e le unioni di
(X = 2) = {(1, 1)},
(X = 3) = {(1, 2), (2, 1)},
(X = 4) = {(1, 3), (3, 1), (2, 2)},
(X = 5) = {(2, 3), (3, 2)},
(X = 6) = {(3, 3)}.
L’evento (X1 = 1) < σ (X): intuitivamente non posso conoscere l’esito del primo lancio sapendo la somma dei
due lanci.
4. Sia (Xn )n∈N una successione di v.a. con distribuzione
1 √ 1

Xn ∼ µn := δ− n + δ√n + 1 − Unif[− 1 , 1 ] , n ∈ N.
2n n n n
i) Si calcoli media e varianza di Xn .

d
ii) Si calcoli la CHF di Xn e si deduca che Xn −−−−→ 0.
L2
iii) Vale anche Xn −−−→ 0 ?
Soluzione.
i) Si ha
Z Z 1
1 n n 2 1 1

2
E [Xn ] = 0, var(Xn ) = x µn (dx) = 1 + 1 − x dx = 1 + 2 1 − .
R n 2 −1 3n n
n
ii) Ricordando l’espressione della CHF uniforme si ha

η η
1 iη √n −iη √n 1 ei n − e−i n

ϕXn (η) = e +e + 1− −−−−−−→ 1.
2n n iη n2 n→∞
Ora la funzione costante 1 è la CHF della Delta di Dirac centrata in zero, da cui la tesi per il Teorema
di continuità di Lévy.
iii) Non si ha convergenza in L2 (Ω, P ) poiché, per quanto visto al punto i),
∥Xn ∥2L2 (Ω,P ) = var(Xn ) −−−−−−→ 1.

n→∞
533
5. Indichiamo con
1 y2
Γ (y) = √ e− 2 , y ∈ R,
2π
la Gaussiana standard.
i) Verificare che la funzione
γ(x, y) = 1H (x, y), H := {(x, y) ∈ R2 | 0 ≤ x ≤ Γ (y)}
è una densità.
ii) Siano X, Y variabili aleatorie con densità congiunta γ. Determinare le densità marginali γX e γY .
X e Y sono indipendenti?
iii) Ricordando la formula (5.3.8) per la densità condizionata
γ(x, y)
γX|Y (x, y) := , x ∈ R, y ∈ (γY > 0),
γY (y)
si calcoli γX|Y e il valore atteso condizionato E [X n | Y ] con n ∈ N.
Soluzione.
i) γ è una funzione misurabile, non-negativa e

" Z Z Γ (y) Z
γ(x, y)dxdy = dxdy = Γ (y)dy = 1.
R2 R 0 R
ii) Si ha
Z q √
γX (x) = γ(x, y)dy = 2 −2 log x 2π 1]0, √1 ] (x),
2π
ZR
γY (y) = γ(x, y)dx = Γ (y).
R
X e Y non sono indipendenti poiché la densità congiunta non è il prodotto delle marginali.
iii) Si ha
1
γX|Y (x, y) = 1 (x, y)
Γ (y) H
e Z Z Γ (y)
n n 1 1 n
E [X | Y ] = x γX|Y (x, y) = xn dx = Γ (y).
R Γ (y) 0 n+1

1. Si considerino le funzioni
X(n) = (−1)n , Y (n) = n, n ∈ N.
Determinare:
i) le σ -algebre σ (X) e σ (Y );
ii) se esiste una funzione f ∈ mB tale che Y = f (X).
Si considerino ora X e Y come variabili aleatorie sullo spazio di probabilità (N, σ (Y ), Geomp ) con 0 <
p < 1 fissato. Posto q := Geomp (2N), dove 2N indica l’insieme dei numeri naturali pari, determinare:
iii) le leggi µX e µY ;
iv) la CDF di X (con grafico);
v) se X e Y sono indipendenti.
2. Sia (X, Y ) una variabile aleatoria con distribuzione UnifH dove
H = {(x, y) ∈ R2 | 1 − e−|x| < y < 1}.
Si determini:
i) le densità congiunte e marginali di (X, Y );
ii) se X e Y sono indipendenti;
R1
iii) il valore atteso E [(X, Y )] dando per noto che 0
y log(1 − y)dy = − 34 ;
iv) la densità condizionata γX|Y e la varianza condizionata var(X | Y ) (si osservi che E [X | Y ] = 0).
3. Siano Xn ∼ N1, 1 , con n ∈ N, e Y ∼ Bep , con 0 < p < 1, variabili aleatorie indipendenti. Si determini:
n
i) la legge di (Xn , Y );
ii) il valore atteso e la CHF della variabile aleatoria Zn := (−1)Y Xn . La v.a. Zn è assolutamente
continua?
iii) il limite in legge della successione Zn per n → ∞. La distribuzione limite è assolutamente
continua?
535

1. Si considerino le funzioni
X(n) = (−1)n , Y (n) = n, n ∈ N.
Determinare:
i) le σ -algebre σ (X) e σ (Y );
ii) se esiste una funzione f ∈ mB tale che Y = f (X).
Si considerino ora X e Y come variabili aleatorie sullo spazio di probabilità (N, σ (Y ), Geomp ) con 0 <
p < 1 fissato. Posto q := Geomp (2N), dove 2N indica l’insieme dei numeri naturali pari, determinare:
iii) le leggi µX e µY ;
iv) la CDF di X (con grafico);
v) se X e Y sono indipendenti.
Soluzione.
i) Si ha σ (X) = {∅, N, 2N, 2N + 1}, dove 2N indica l’insieme dei numeri naturali pari, e σ (Y ) = P(N).
ii) No, per il Teorema 3.3.3 di Doob poiché σ (Y ) non è inclusa in σ (X). Si può anche provare direttamente
la tesi per assurdo in modo analogo all’Esercizio 3.3.6.
iii) Si ha µX = qδ1 + (1 − q)δ−1 e µY = Geomp .
iv) Vale 


 0 se x < −1,

FX (x) =  1−q se − 1 ≤ x < 1,



1 se x ≥ 1.

v) No, poiché per esempio si ha
P ((X = 1) ∩ (Y = 1)) = P (2N ∩ {1}) = 0 , P (X = 1)P (Y = 1) = pq.
2. Sia (X, Y ) una variabile aleatoria con distribuzione UnifH dove
H = {(x, y) ∈ R2 | 1 − e−|x| < y < 1}.
Si determini:
i) le densità congiunte e marginali di (X, Y );

R1
iii) il valore atteso E [(X, Y )] dando per noto che 0
y log(1 − y)dy = − 34 ;
iv) la densità condizionata γX|Y e la varianza condizionata var(X | Y ) (si osservi che E [X | Y ] = 0).
Soluzione.
i) Poiché Z
e−|x| dx = 2
R
si ha
1
γ(X,Y ) = 1 .
2 H
Inoltre
1
e−|x|
Z Z
1
γX (x) = γ(X,Y ) (x, y)dy = dy = ,
R 2 1−e−|x| 2
Z Z − log(1−y)
1
γY (y) = γ(X,Y ) (x, y)dx = 1]0,1[ (y) dy = −1]0,1[ (y) log(1 − y).
R 2 log(1−y)
ii) X e Y non sono indipendenti perché la densità congiunta non è il prodotto delle densità marginali.
iii) E [(X, Y )] = (E [X] , E [Y ]) con
Z
E [X] = xγX (x)dx = 0,
R
Z Z 1
3
E [Y ] = yγY (y)dy = y (− log(1 − y)) dy = .
R 0 4
iv) per la Proposizione 5.3.20, per 0 < y < 1, si ha
γ(X,Y ) (x, y) 1
γX|Y (x, y) = =− 1 (x, y), x ∈ R.
γY (y) 2 log(1 − y) H
Allora
Z Z − log(1−Y )
1 1
var(X | Y ) = x2 γX|Y (x, Y )dx = − x2 dx = log2 (1 − Y ).
R 2 log(1 − Y ) log(1−Y ) 3
3. Siano Xn ∼ N1, 1 , con n ∈ N, e Y ∼ Bep , con 0 < p < 1, variabili aleatorie indipendenti. Si determini:
n
i) la legge di (Xn , Y );
ii) il valore atteso e la CHF della variabile aleatoria Zn := (−1)Y Xn . La v.a. Zn è assolutamente
continua?
iii) il limite in legge della successione Zn per n → ∞. La distribuzione limite è assolutamente
continua?
Soluzione.
i) Per l’indipendenza si ha µ(Xn ,Y ) = N1, 1 ⊗ Bep ;
n
ii) ancora per l’indipendenza di Xn e Y , si ha

h i h i
E [Zn ] = E (−1)Y Xn = E (−1)Y E [Xn ] = 1 − 2p.
Inoltre
h Y i
ϕZn (η) = E eiη(−1) Xn
537
"
y
= eiη(−1) x N1, 1 ⊗ Bep (dx, dy) =
n
R2

Z Z !
iη(−1)y x
= e Bep (dy) N1, 1 (dx)
n
R R
Z Z
=p e−iηx N1, 1 (dx) + (1 − p) eiηx N1, 1 (dx)
n n
R R
η2 η2
−iη− 2n iη− 2n
= pe + (1 − p)e ;
Zn è assolutamente continua poiché ϕZn è una funzione sommabile (cfr. Teorema 3.5.6);
iii) la convergenza in legge di Zn segue dal Teorema 4.3.8 di continuità di Lévy: si ha
lim ϕZn (η) = pe−iη + (1 − p)eiη

n→∞
che è la CHF della distribuzione pδ−1 + (1 − p)δ1 che non è assolutamente continua.

1. Da un mazzo che contiene dieci carte rosse e dieci nere, si effettua una serie di estrazioni. Ad ogni
estrazione, se la carta estratta è rossa viene rimessa nel mazzo e viene aggiunta un’altra carta rossa; se
invece la carta estratta è nera viene messa da parte. Determinare la probabilità che:
i) la seconda carta estratta sia nera;
ii) la prima carta estratta sia rossa sapendo che la seconda estratta nera;
iii) le prime tre carte estratte siano nere;
iv) fra le prime tre carte estratte ce ne sia almeno una rossa.
   
1 2 0 0 
µ = 2 , C = 0 1 −1 .
   
3 0 −1 1
   
Si determini:
i) la CHF di (Y , Z);
ii) se X è indipendente da Y + Z;
iii) la legge di Y + Z.
Xn
3. Data X ∼ Expλ , con λ > 0, poniamo Xn = n , n ∈ N. Stabilire se:
i) Xn è assolutamente continua e, in caso affermativo, calcolarne una densità;
ii) Xn converge debolmente per n → ∞.
4. Assumiamo come unità di tempo l’anno. Sia T ∼ Unif[0,1] la data in cui un individuo riceve la prima
dose di vaccino contro il Covid-19; sia S ∼ Unif[T ,T +1] la data in cui riceve la seconda dose e inizia ad
essere immune; infine sia τ ∼ Exp1 la prima data in cui l’individuo viene a contatto con il virus.
i) Determinare le distribuzioni di (S, T ), di S e il valore atteso E [S];
ii) nell’ipotesi che τ sia indipendente da S, determinare P (τ ≥ S) che si può interpretare come la
percentuale di popolazione che verrà a contatto col virus dopo essere stata immunizzata col
vaccino. Non è necessario svolgere i calcoli numerici.
539

1. Da un mazzo che contiene dieci carte rosse e dieci nere, si effettua una serie di estrazioni. Ad ogni
estrazione, se la carta estratta è rossa viene rimessa nel mazzo e viene aggiunta un’altra carta rossa; se
invece la carta estratta è nera viene messa da parte. Determinare la probabilità che:
i) la seconda carta estratta sia nera;
ii) la prima carta estratta sia rossa sapendo che la seconda estratta nera;
iii) le prime tre carte estratte siano nere;
iv) fra le prime tre carte estratte ce ne sia almeno una rossa.
Soluzione. Sia Rn l’evento “la n-esima carta estratta è rossa” e analogamente si definisca Nn .
10 1 9 1
P (N2 ) = P (N2 | R1 )P (R1 ) + P (N2 | N1 )P (N1 ) = · + · .
21 2 19 2
ii) Per la formula di Bayes si ha

10 1
P (N2 | R1 ) 21 · 2
P (R1 | N2 ) = P (R1 ) = 10 1 9
.
P (N2 ) 21 · 2+ 19 · 12
iii) Per la formula di moltiplicazione si ha

1 9 8 2
P (N1 ∩ N2 ∩ N3 ) = P (N1 )P (N2 | N1 )P (N3 | N1 ∩ N2 ) = · · = .
2 19 18 19
2
iv) La probabilità cercata è 1 − 19 .
   
1 2 0 0 
µ = 2 , C = 0 1 −1 .
   
3 0 −1 1
   
Si determini:
i) la CHF di (Y , Z);
ii) se X è indipendente da Y + Z;
iii) la legge di Y + Z.
Soluzione.
i) Si ha (Y , Z) ∼ Nµ̄,C̄ con
! !
2 1 −1
µ̄ = , C̄ =
3 −1 1
e quindi
1 2
ϕ(Y ,Z) (η1 , η2 ) = ei(2η1 +3η2 )− 2 (η1 −η2 ) .
ii) (X, Y +Z) ha distribuzione normale bidimensionale perché è trasformazione lineare di (X, Y , Z). Allora
X e Y + Z sono indipendenti se e solo se sono scorrelate. Poiché
cov(X, Y + Z) = cov(X, Y ) + cov(X, Z) = 0,
X e Y + Z sono indipendenti.
iii) Vale  
X 
Y + Z = A Y  , A= 0 1 1
 
Z
 
e quindi Y + Z ∼ NAµ,ACA∗ = δ5 .
Xn
3. Data X ∼ Expλ , con λ > 0, poniamo Xn = n , n ∈ N. Stabilire se:
i) Xn è assolutamente continua e, in caso affermativo, calcolarne una densità;
ii) Xn converge debolmente per n → ∞.
Soluzione.
i) Calcoliamo la CDF di Xn : FXn (y) = 0 se y ≤ 0, mentre per y > 0 si ha
1 1
FXn (y) = P (Xn ≤ y) = P (X ≤ (ny) n ) = 1 − e−λ(ny) .
n
La funzione FXn ∈ AC e derivandola si ottiene una densità:

1 1
γXn (y) = λ(ny) n −1 e−λ(ny) 1R≥0 (y).
n
ii) Si ha
F(y) := lim FXn (y) = 1 − e−λ 1R>0 (y).
n→∞
Per ogni λ > 0, la funzione F non è una CDF (perché non converge a 1 per y → +∞): segue dal Teorema
4.3.3 che Xn non può convergere debolmente.
4. Assumiamo come unità di tempo l’anno. Sia T ∼ Unif[0,1] la data in cui un individuo riceve la prima
dose di vaccino contro il Covid-19; sia S ∼ Unif[T ,T +1] la data in cui riceve la seconda dose e inizia ad
essere immune; infine sia τ ∼ Exp1 la prima data in cui l’individuo viene a contatto con il virus.
i) Determinare le distribuzioni di (S, T ), di S e il valore atteso E [S];
ii) nell’ipotesi che τ sia indipendente da S, determinare P (τ ≥ S) che si può interpretare come la
percentuale di popolazione che verrà a contatto col virus dopo essere stata immunizzata col
vaccino. Non è necessario svolgere i calcoli numerici.
Soluzione.
i) Per ipotesi γS|T (s, t) = 1[t,t+1] (s). Per l’Osservazione 5.3.21, si ha
γ(S,T ) (s, t) = γS|T (s, t)γT (t) = 1[t,t+1] (s)1[0,1] (t) = 1[0,1] (s)1[0,s] (t) + 1[1,2] (s)1[s−1,1] (t).
Allora Z
γS (s) = γ(S,T ) (s, t)dt = s1[0,1] (s) + (2 − s)1[1,2] (s).
R
Infine
Z Z 1 Z 2
2
E [S] = sγS (s)ds = s ds + s(2 − s)ds = 1.
R 0 1
541
ii) Consideriamo λ > 0 generico. Per l’ipotesi di indipendenza si ha
γ(S,τ) (s, t) = γS (s)λe−λt 1R≥0 (t),
e quindi
Z Z +∞
P (τ ≥ S) = γS (s)λe−λt dtds
R s
Z 1 Z +∞ Z 2 Z +∞
−λt
= s λe dtds + (2 − s) λe−λt dtds
0 s 1 s
Z1 Z 2
= se−λs ds + (2 − s)e−λs ds
0 1
!2
eλ − 1
= .
λeλ
In particolare, per λ = 1 si ha
1 2

P (τ ≥ S) = 1 − ≈ 40%.
e

1. Quattro persone A, B, C, D lanciano un dado a testa. Determinare la probabilità che:
i) A, B, C ottengano 1 e D ottenga 6;
ii) A, B, C ottengano lo stesso numero e D ottenga un numero diverso;
iii) tre di loro ottengano 1 e il quarto ottenga 6.
2. i) Verificare che la funzione

1
γ(x) = 1]0,+∞[ (x)
(x + 1)2
è una densità;
ii) sia X una variabile aleatoria con densità γ. Determinare una funzione ϕ tale che ϕ(X) ∼ Expλ
con λ > 0.
3. Sullo spazio di probabilità R, B, N0,1 consideriamo la successione di variabili aleatorie definite da

1
Xn = 1 , n ∈ N,
pn [n−1,n]
dove
pn := N0,1 ([n − 1, n]).
Determinare:
i) la legge di Xn ;
ii) se Xn converge debolmente;
iii) se Xn converge quasi certamente;
iv) se Xn converge in L1 .
4. Siano X, Y variabili indipendenti con distribuzione Expλ . Determinare:

i) la CHF congiunta ϕ(X,Y ) ;
ii) la CHF ϕX+Y della somma;
iii) la CHF ϕXY del prodotto (non importa svolgere il calcolo fino all’espressione esplicita).
543

1. Quattro persone A, B, C, D lanciano un dado a testa. Determinare la probabilità che:

i) A, B, C ottengano 1 e D ottenga 6;
ii) A, B, C ottengano lo stesso numero e D ottenga un numero diverso;
iii) tre di loro ottengano 1 e il quarto ottenga 6.
Soluzione.
4
1
i) la probabilità cercata vale 6 ;
4
ii) la probabilità cercata vale 6 · 5 · 16 ;
4
iii) la probabilità cercata vale 4 · 16 .
2. i) Verificare che la funzione

1
γ(x) = 1]0,+∞[ (x)
(x + 1)2
è una densità;
ii) sia X una variabile aleatoria con densità γ. Determinare una funzione ϕ tale che ϕ(X) ∼ Expλ
con λ > 0.
Soluzione.
i) La funzione γ è misurabile, non negativa e tale che
Z Z +∞ Z +∞
1 1
γ(x)dx = 2
dx = dz = 1,
R 0 (x + 1) 1 z2
e quindi è una densità.
ii) Dato y > 0 e assumendo ϕ invertibile, calcoliamo
Z ϕ −1 (y) Z ϕ −1 (y)+1
1 1 1
P (ϕ(X) ≤ y) = P (X ≤ ϕ −1 (y)) = dx = dz = 1 − −1 .
0 (x + 1)2 1 z2 ϕ (y) + 1
Imponendo che P (ϕ(X) ≤ y) = 1 − e−λy otteniamo

1
= e−λy
ϕ −1 (y) + 1
1
da cui ϕ(x) = λ log(x + 1).
3. Sullo spazio di probabilità R, B, N0,1 consideriamo la successione di variabili aleatorie definite da

1
Xn = 1 , n ∈ N,
pn [n−1,n]
dove
pn := N0,1 ([n − 1, n]).
Determinare:
i) la legge di Xn ;
ii) se Xn converge debolmente;
iii) se Xn converge quasi certamente;
iv) se Xn converge in L1 .
Soluzione.
1
i) Xn assume solo i valori 0 e pn e quindi ha una distribuzione di tipo Bernoulli: precisamente, Xn ∼
pn δ 1 + (1 − pn )δ0 .
pn
ii) per ogni ϕ continua e limitata si ha

lim E [ϕ(Xn )] = lim (pn ϕ(1/pn ) + (1 − pn )ϕ(0)) = ϕ(0)
n→∞ n→∞
e quindi Xn converge debolmente ad una variabile aleatoria con distribuzione δ0 ;

iii) per ogni ω ∈ R si ha
lim Xn (ω) = 0
n→∞
e quindi Xn converge puntualmente (e quindi quasi certamente) alla variabile aleatoria identicamente
nulla;
iv) si ha E [Xn ] = 1 e quindi non si ha convergenza in L1 che contraddirrebbe il punto precedente.
4. Siano X, Y variabili indipendenti con distribuzione Expλ . Determinare:
i) la CHF congiunta ϕ(X,Y ) ;
ii) la CHF ϕX+Y della somma;
iii) la CHF ϕXY del prodotto (non importa svolgere il calcolo fino all’espressione esplicita).
Soluzione.
i) Per l’indipendenza, la CHF congiunta è il prodotto delle marginali
λ2
ϕ(X,Y ) (η1 , η2 ) = ϕX (η1 )ϕY (η2 ) = ;
(λ − iη1 )(λ − iη2 )
ii) analogamente si ha
h i λ2
ϕX+Y (η) = E eiη(X+Y ) = ϕX (η)ϕY (η) = ;
(λ − iη)2
iii) si ha
h i
ϕXY (η) = E eiηXY =
(poiché, per l’indipendenza, (X, Y ) ∼ Expλ ⊗ Expλ )
"
= eiηxy Expλ ⊗ Expλ (d(x, y))
R2
Z Z !
iηxy
= e Expλ (dx) Expλ (dy)
ZR R
λ
= Expλ (dy)
R λ − iηy
+∞
λ2
Z
= e−λy dy.
0 λ − iηy
545

– Maggio 2021 –
1. In un ristorante la probabilità che un cliente ordini un secondo (evento S) è pari al 50%, che ordini un
contorno (evento C) è pari al 35% e infine che ordini un secondo oppure un contorno è pari al 60%.
Si determini la probabilità che un cliente ordini:
i) un secondo e un contorno;
ii) un secondo ma non un contorno;
ii) né un secondo né un contorno.
2. Dopo la campagna vaccinale, al 40% della popolazione è stato somministrato il vaccino X, ad un altro
40% il vaccino Y e il restante 20% non è stato vaccinato. Si osserva che i soggetti immuni sono: il 95%
di coloro che hanno assunto X, l’80% di coloro che hanno assunto Y e il 25% di coloro che non sono
stati vaccinati. Si prendono a caso 10 individui:
i) qual è la probabilità che almeno 9 di essi siano immuni?
ii) se tutti sono immuni, qual è la probabilità che tutti siano stati vaccinati?
3. Posto
γλ (x, y) = λy1A (x, y), A := {(x, y) ∈ R2 | 0 < y < 2x < 2},
i) si determini λ ∈ R tale che γλ sia una densità e per tale valore si consideri (X, Y ) con tale densità;
ii) si trovino le densità di X 2 e Y ;
iii) X 2 e Y sono indipendenti?
iv) si determini la legge condizionata µX|Y riconoscendo di quale distribuzione notevole si tratta.
4. Sia (Xn )n∈N una successione di variabili aleatorie indipendenti con distribuzione di Bernoulli, Xn ∼
Bep = pδ1 + (1 − p)δ0 , e sia Sn = X1 + · · · + Xn , n ∈ N.
i) si determini la legge condizionata µX1 |Sn ;
ii) posto Yn = E [X1 | Sn ], si determini se e in quale senso Yn ha limite per n → ∞;
iv) si determini E [Xk | Sn ] per k > n.

– Maggio 2021 –
1. In un ristorante la probabilità che un cliente ordini un secondo (evento S) è pari al 50%, che ordini un
contorno (evento C) è pari al 35% e infine che ordini un secondo oppure un contorno è pari al 60%.
Si determini la probabilità che un cliente ordini:
i) un secondo e un contorno;
ii) un secondo ma non un contorno;
ii) né un secondo né un contorno.
Soluzione.
i)
P (S ∩ C) = P (S) + P (C) − P (S ∪ C) = 25%.
ii)
P (S \ C) = P (S) − P (S ∩ C) = 25%.
iii)
P ((S ∪ C)c ) = 1 − P (S ∪ C) = 40%.
2. Dopo la campagna vaccinale, al 40% della popolazione è stato somministrato il vaccino X, ad un altro
40% il vaccino Y e il restante 20% non è stato vaccinato. Si osserva che i soggetti immuni sono: il 95%
di coloro che hanno assunto X, l’80% di coloro che hanno assunto Y e il 25% di coloro che non sono
stati vaccinati. Si prendono a caso 10 individui:
i) qual è la probabilità che almeno 9 di essi siano immuni?

ii) se tutti sono immuni, qual è la probabilità che tutti siano stati vaccinati?
Soluzione.
i) I dati del problema sono
P (X) = P (Y ) = 0.4, P (Z) = 0.2, P (I | X) = 0.95, P (I | Y ) = 0.8, P (I | Z) = 0.2
con evidente significato degli eventi X, Y , Z, I. Per la formula della probabilità totale, la probabilità
che un individuo sia immune è
P (I) = P (I | X)P (X) + P (I | Y )P (Y ) + P (I | Z)P (Z) = 0.75.
La probabilità cercata è quindi
Bin10,p (9) + Bin10,p (10) ≈ 0.24, p := P (I).

547
ii) La probabilità che un individuo immune sia stato vaccinato è pari a
P (V | I) = P (X | I) + P (Y | I) =
(per la formula di Bayes)
P (I | X)P (X) P (I | Y )P (Y )
= + ≈ 0.93.
P (I) P (I)
La probabilità che tutti siano stati vaccinati è (0, 93)10 ≈ 0.5.
3. Posto
γλ (x, y) = λy1A (x, y), A := {(x, y) ∈ R2 | 0 < y < 2x < 2},
i) si determini λ ∈ R tale che γλ sia una densità e per tale valore si consideri (X, Y ) con tale densità;
ii) si trovino le densità di X 2 e Y ;
iii) X 2 e Y sono indipendenti?
iv) si determini la legge condizionata µX|Y riconoscendo di quale distribuzione notevole si tratta.
Soluzione.
i) Si ha
Z Z 1Z 2x
2λ
γλ (x, y)dxdy = λydydx = .
R2 0 0 3
Allora, essendo anche misurabile e non-negativa, la funzione γ 3 è una densità.

2
ii) Si ha, per x ∈ [0, 1],

Z 2x
γX (x) = γ 3 (x, y)dy = 3x2 1[0,1] (x),
2
0
Z 1
3y y

γY (y) = γ 3 (x, y)dx = 1 − 1[0,2] (y).
y 2 2 2
2
Inoltre, per z ∈ [0, 1], √

√
Z z
2
FX 2 (z) = P (X ≤ z) = P (X ≤ z) = 3x2 dx
0
da cui derivando
3√
γX 2 (z) =
z1[0,1] (z).
2
√
iii) Se X 2 e Y fossero indipendenti allora lo sarebbero anche X 2 ≡ X e Y ma ciò non è vero per il punto
ii), essendo la densità congiunta diversa dal prodotto delle marginali.
iv) Si ha
γλ (x, y) 1
γX|Y (x, y) = = y 1(0< 2 <x<1)
y
γY (y) 1− 2
da cui si riconosce che la legge condizionata è uniforme, µX|Y = Unif[ Y ,1] .
2
4. Sia (Xn )n∈N una successione di variabili aleatorie indipendenti con distribuzione di Bernoulli, Xn ∼
Bep = pδ1 + (1 − p)δ0 , e sia Sn = X1 + · · · + Xn , n ∈ N.
i) si determini la legge condizionata µX1 |Sn ;
ii) posto Yn = E [X1 | Sn ], si determini se e in quale senso Yn ha limite per n → ∞;
iv) si determini E [Xk | Sn ] per k > n.
Soluzione.
i) Sappiamo che X1 assume i valori 0, 1 e Sn Binn,p : calcoliamo
P (X1 = 1) ∩ (Sn = k) P (X1 = 1) ∩ (X2 + · · · + Xn = k − 1)

P (X1 = 1 | Sn = k) = =
P (Sn = k) P (Sn = k)
(per indipendenza)
pBinn−1,p (k − 1) k
= = .
Binn,p (k) n
Dunque µX1 |Sn = Be Sn .

n
Sn
ii) Dal punto precedente segue che Yn = n e quindi per la legge dei grandi numeri Yn converge a E [X1 ] = p
in norma L2 e quasi certamente.
iii) Se k > n allora Xk e Sn sono indipendenti e quindi E [Xk | Sn ] = E [Xk ] = p.
549

– Luglio 2021 –
1. L’urna U contiene 2 palline rosse e 3 nere; l’urna V contiene 2 palline rosse e 9 nere. Si lancia una
moneta: se si ottiene testa allora si estrae una pallina dall’urna U , la si mette nell’urna V e da que-
st’ultima si estrae una pallina p. Viceversa, se il risultato del lancio è croce allora si estrae una pallina
dall’urna V , la si inserisce nell’urna U e infine dall’urna U si estrae una pallina p. Determinare la
probabilità
i) che la pallina p sia nera;
ii) di aver ottenuto testa sapendo che p è nera;
iii) di ottenere testa e p nera.
2. Sia
X
Z=
min{X, Y }
dove X, Y ∼ Expλ sono variabili aleatorie indipendenti e λ > 0.
i) Provare che Z è ben definita quasi certamente;

ii) calcolare P (Z = 1);
iii) determinare la CDF di Z e disegnarne il grafico;
iv) Z ∈ AC? Z è una variabile discreta?
3. Sia (Xn )n∈N una successione di variabili aleatorie i.i.d. con distribuzione di Cauchy. Ricordiamo
l’espressione della densità e della CHF di Cauchy:
1
γ(x) = , ϕ(η) = e−|η| , x, η ∈ R.
π(1 + x2 )
i) posto
Yn = nX1 , Z n = X1 + · · · + Xn ,
usando la CHF si provi che, per ogni n ∈ N, Yn e Zn sono uguali in legge. Sono uguali anche
quasi certamente?
ii) si calcoli la CHF di
N
X
Wλ := Xk
k=1
0
P
dove N ∼ Poissonλ , con λ > 0, è indipendente da Xk per ogni k ∈ N e, per convenzione, Xk = 0;
k=1
iii) si determini se esistono i limiti in senso debole di Wλ per λ → 0+ e λ → +∞.

– Luglio 2021 –
1. L’urna U contiene 2 palline rosse e 3 nere; l’urna V contiene 2 palline rosse e 9 nere. Si lancia una
moneta: se si ottiene testa allora si estrae una pallina dall’urna U , la si mette nell’urna V e da que-
st’ultima si estrae una pallina p. Viceversa, se il risultato del lancio è croce allora si estrae una pallina
dall’urna V , la si inserisce nell’urna U e infine dall’urna U si estrae una pallina p. Determinare la
probabilità
i) che la pallina p sia nera;
ii) di aver ottenuto testa sapendo che p è nera;
iii) di ottenere testa e p nera.
Soluzione.
1
P (N ) = P (N | T )P (T ) + P (N | C)P (C) = (P (N | T ) + P (N | C))
2
dove N è l’evento “la pallina p è nera”, T è l’evento “il risultato del lancio della moneta è testa” e C è
l’evento “il risultato del lancio della moneta è croce”. Ancora per la formula della probabilità totale, se
NU indica l’evento “dall’urna U si estrae una pallina nera”, si ha
10 3 9 2 4
P (N | T ) = P (N | T | NU )P (NU ) + P (N | T | NUc ) (1 − P (NU )) = · + · = ,
12 5 12 5 5
4 9 3 2 7
P (N | C) = P (N | C | NV )P (NV ) + P (N | C | NVc ) (1 − P (NV )) = · + · = .
6 11 6 11 11
In definitiva
1 4 7 79

P (N ) = + = .
2 5 11 110
ii) Per la formula di Bayes
4 1
P (N | T )P (T ) 5·2 44
P (T | N ) = = 79
= .
P (N ) 110
79
iii) Si ha
2
P (N ∩ T ) = P (N | T )P (T ) = .
5
2. Sia
X
Z=
min{X, Y }
dove X, Y ∼ Expλ sono variabili aleatorie indipendenti e λ > 0.
i) Provare che Z è ben definita quasi certamente;
ii) calcolare P (Z = 1);
iii) determinare la CDF di Z e disegnarne il grafico;
iv) Z ∈ AC? Z è una variabile discreta?
551
Soluzione.
i) Z è ben definita se min{X, Y } , 0: ora si ha
P (min{X, Y } = 0) = P ((X ≤ 0) ∪ (Y ≤ 0)) ≤ P (X ≤ 0) + P (Y ≤ 0) = 0.
1
ii) si ha P (Z = 1) = P (X ≤ Y ) = 2 per simmetria oppure calcolando
Z +∞ Z y
1
P (X ≤ Y ) = λe−λx dxλe−λy dy = ;
0 0 2
1
iii) essendo Z ≥ 1 q.c. si ha P (Z ≤ t) = 0 per t < 1; abbiamo già provato che P (Z = 1) = 2 e per t > 1 si ha
P (Z ≤ t) = P (Z ≤ 1) + P (1 < Z ≤ t)
!
1 X
= +P 1 < ≤t
2 min{X, Y }
1
= + P (Y < X ≤ tY )
2
Z +∞ Z ty
1 t
= + λe−λx dxλe−λy dy = ;
2 0 y t + 1
iv) Z non è assolutamente continua per ii) e non è discreta poiché la sua CDF non è costante a tratti.
3. Sia (Xn )n∈N una successione di variabili aleatorie i.i.d. con distribuzione di Cauchy. Ricordiamo
l’espressione della densità e della CHF di Cauchy:
1
γ(x) = , ϕ(η) = e−|η| , x, η ∈ R.
π(1 + x2 )
i) posto
Yn = nX1 , Z n = X1 + · · · + Xn ,
usando la CHF si provi che, per ogni n ∈ N, Yn e Zn sono uguali in legge. Sono uguali anche
quasi certamente?
ii) si calcoli la CHF di
N
X
Wλ := Xk
k=1
0
P
dove N ∼ Poissonλ , con λ > 0, è indipendente da Xk per ogni k ∈ N e, per convenzione, Xk = 0;
k=1
iii) si determini se esistono i limiti in senso debole di Wλ per λ → 0+ e λ → +∞.
Soluzione.
i) Si ha
h i
ϕYn (η) = E eiηnX1 = ϕX1 (nη) = e−n|η| ,
h i
ϕZn (η) = E eiη(X1 +···+Xn ) =
(per indipendenza)
n
Y h i
= E eiηXk =
k=1
(essendo le Xk identicamente distribuite)
= (ϕX1 (η))n = e−n|η| .
Avendo la stessa CHF, per il teorema di inversione Yn e Zn hanno la stessa legge. Yn e Zn non sono
uguali q.c. Per esempio, nel caso n = 2, Y2 = Z2 q.c. equivale a X1 = X2 q.c. ma ciò non è vero: per
esempio, per l’indipendenza, P ((X1 < 0) ∩ (X2 > 0)) = P (X1 < 0)P (X2 > 0) > 0.
ii) Procediamo come nell’Esempio 3.5.4:
 P n 
∞
h
iηWλ
i X  iη Xk 
ϕWλ (η) = E e = E e k=1 1(N =n)  =

 
n=0
(per indipendenza di N , X1 , X2 , . . . )
 P n 
∞
X  iη Xk 
= E e  P (N = n)
 k=1 
 
n=0
∞
X e−λ λn
= (ϕX1 (η))n
n!
n=0

= exp λ(e−|η| − 1) .
iii) Per ogni η ∈ R si ha

lim ϕWλ (η) = 1
λ→0+
e quindi, per il Teorema di continuità di Lévy, Wλ converge debolmente ad una v.a. con distribuzione
delta di Dirac centrata in 0. D’altra parte, si ha

1 se η = 0,


lim ϕWλ (η) = 
λ→+∞ 0 se η , 0,

e dunque non si può avere convergenza debole perchè il limite delle CHF è una funzione discontinua
in 0 (si veda punto i) del Teorema di continuità di Lévy).
553

1. In Italia esistono tre gradi di giudizio: il primo grado, l’appello e la Cassazione. Statisticamente, la
probabilità di essere condannati in primo grado è pari al 70%; in caso di condanna, la probabilità che
la sentenza sia confermata in appello è pari al 80%; infine, la probabilità che la Cassazione confermi
la sentenza dei primi due gradi è pari al 90%. Consideriamo una successione di processi i cui esiti
siano, per ipotesi, indipendenti fra loro.
i) Si determini la probabilità che un imputato riceva la sentenza definitiva di condanna.
ii) Si determini la probabilità che un imputato condannato in primo grado sia poi assolto.
iii) Sia Xn la v.a. aleatoria che vale 1 se l’n-esimo imputato è condannato in via definitiva e 0
altrimenti. Determinare la distribuzione di Xn , di (Xn , Xn+1 ) e di Xn + Xn+1 .
iv) Sia N il numero corrispondente al primo imputato assolto. Determinare la distribuzione e la
media di N .
v) Si determini la probabilità che fra i primi 5 imputati almeno uno sia assolto.
2. Sia X = (X1 , X2 , X3 ) ∼ Nµ,C con

   
1  1 0 −1
µ = 2 , C =  0 1 −1 .
   
3 −1 −1 2
   
Si determini:
i) la legge di (X2 , X3 );
ii) la CHF e, se esiste, la densità di X;
iii) la legge di X2 − X3 .
3. Sia (X, Y ) ∼ UnifQ dove Q è il quadrato di vertici (±1, 0) e (0, ±1). Si determini:
i) la densità di X;
iii) la densità di Y condizionata a X;
h i h i
iv) E Y 2 e E Y 2 | X .
4. Data una successione (Xn )n∈N di variabili aleatorie definite su uno spazio di probabilità e con Xn ∼
Unif[0,n] , poniamo
X 1
Yn = n , Zn = (Xn ) n , n∈N
n+1
i) Si stabilisca se Yn , Zn ∈ AC e in tal caso se ne determini una densità.
ii) Si calcoli E [Yn ] e E [Zn ].
iii) Le successioni (Xn )n∈N e (Zn )n∈N convergono debolmente?
iv) La successione (Zn )n∈N converge in probabilità?

1. In Italia esistono tre gradi di giudizio: il primo grado, l’appello e la Cassazione. Statisticamente, la
probabilità di essere condannati in primo grado è pari al 70%; in caso di condanna, la probabilità che
la sentenza sia confermata in appello è pari al 80%; infine, la probabilità che la Cassazione confermi
la sentenza dei primi due gradi è pari al 90%. Consideriamo una successione di processi i cui esiti
siano, per ipotesi, indipendenti fra loro.
i) Si determini la probabilità che un imputato riceva la sentenza definitiva di condanna.
ii) Si determini la probabilità che un imputato condannato in primo grado sia poi assolto.
iii) Sia Xn la v.a. aleatoria che vale 1 se l’n-esimo imputato è condannato in via definitiva e 0
altrimenti. Determinare la distribuzione di Xn , di (Xn , Xn+1 ) e di Xn + Xn+1 .
iv) Sia N il numero corrispondente al primo imputato assolto. Determinare la distribuzione e la
media di N .
v) Si determini la probabilità che fra i primi 5 imputati almeno uno sia assolto.
Soluzione.
i) Sia Gi , i = 1, 2, 3, l’evento “si ha sentenza di condanna all’i-esimo grado”, e G = G1 ∩ G2 ∩ G3 . Per la
Formula di moltiplicazione si ha
70 · 80 · 90
P (G) = P (G1 )P (G2 | G1 )P (G3 | G1 ∩ G2 ) = = 50.4%.
1003
ii) Si ha
P (G)
P (G2c ∪ G3c | G1 ) = 1 − P (G2 ∩ G3 | G1 ) = 1 − = 28%.
P (G1 )
iii) Xn ∼ Bep con p = P (G). Per l’indipendenza, (Xn , Xn+1 ) ∼ Bep ⊗ Bep e Xn + Xn+1 ∼ Bin2,p .
1
iv) N ∼ Geom1−p e E [N ] = 1−p .
v) Per il Teorema 3.1.25 si ha
P (N ≤ 5) = 1 − p5 ≈ 96.7%.
2. Sia X = (X1 , X2 , X3 ) ∼ Nµ,C con

   
1  1 0 −1
µ = 2 , C =  0 1 −1 .
   
3 −1 −1 2
   
Si determini:
i) la legge di (X2 , X3 );
ii) la CHF e, se esiste, la densità di X;
iii) la legge di X2 − X3 .
Soluzione.
555
i) Si ha (X2 , X3 ) ∼ Nµ̄,C̄ con

! !
2 1 −1
µ̄ = , C̄ = .
3 −1 2
ii) Si ha
1
ϕX (η) = ei(η1 +2η2 +3η3 )− 2 ⟨Cη,η⟩ .
La matrice C è degenere (det C = 0) e quindi X non ha densità.
iii) Vale

X2 − X3 = AX, A= 0 1 −1
e quindi X2 − X3 ∼ N−1,ACA∗ = N−1,5 .
3. Sia (X, Y ) ∼ UnifQ dove Q è il quadrato di vertici (±1, 0) e (0, ±1). Si determini:
i) la densità di X;
iii) la densità di Y condizionata a X;

h i h i
iv) E Y 2 e E Y 2 | X .
Soluzione.
i) La densità congiunta è γ(X,Y ) = 12 1Q dove
Q = {(x, y) ∈ R2 | |x + y| ≤ 1, |x − y| ≤ 1}.
Quindi, osservando la Figura B.3 se x ∈ [0, 1] si ha
Z Z 1−x
1
γX (x) = γ(X,Y ) (x, y)dy = dy = 1 − x,
R 2 x−1
mentre se x ∈ [−1, 0] si ha
Z x+1
1
γX (x) = dy = x + 1
2 −1−x
e γX (x) = 0 per |x| > 1.

y=x+1
1.0
y=x-1
0.5
-1.5 -1.0 -0.5 0.5 1.0 1.5
-0.5
y=1-x
-1.0
y=-x-1
Figura B.3:
ii) Per simmetria si calcola anche γY e si vede facilmente che X, Y non sono indipendenti poiché la densità
congiunta non è il prodotto delle marginali.
iii) Se x ∈]0, 1] si ha
γ(X,Y ) (x, y) 1 1
γY |X (x, y) = = 1 (x, y) = 1 (y)
γX (x) 2(1 − x) Q 2(1 − x) [x−1,1−x]
e se x ∈ [−1, 0[
1 1
γY |X (x, y) = 1Q (x, y) = 1 (y).
2(x + 1) 2(x + 1) [−1−x,x+1]
iv) Si ha
h i Z1 Z 0
1
2 2
E Y = y (1 − y)dy + y 2 (1 + y)dy = .
0 −1 6
D’altra parte
h i Z
E Y2 | X = y 2 γY |X (X, y)dy
R
1−X X+1
y2 y2
Z Z
= 1[0,1] (X) dy + 1[−1,0] (X) dy
X−1 2(1 − X) −X−1 2(X + 1)
(X − 1)2 (X + 1)2
= 1[0,1] (X) + 1[−1,0] (X).
3 3
4. Data una successione (Xn )n∈N di variabili aleatorie definite su uno spazio di probabilità e con Xn ∼
Unif[0,n] , poniamo
X 1
Yn = n , Zn = (Xn ) n , n∈N
n+1
i) Si stabilisca se Yn , Zn ∈ AC e in tal caso se ne determini una densità.
557
ii) Si calcoli E [Yn ] e E [Zn ].

iii) Le successioni (Xn )n∈N e (Zn )n∈N convergono debolmente?
iv) La successione (Zn )n∈N converge in probabilità?
Soluzione.
i) Calcoliamo le CDF:
 


 0 se y ≤ 0, 

0 se z ≤ 0,
 n n
 1
FYn (y) = P (Xn ≤ (n + 1)y) =  1 se y ≥ n+1 , FZn (z) = P (Xn ≤ z ) = 1 se z ≥ n n ,
 

 n+1 
 zn
y altrimenti, altrimenti.

 

n n
Derivando tali funzioni, si trovano le densità:
n+1
γYn (y) = 1 n (y), γZn (z) = zn−1 1[0,n1/n ] (z).
n [0, n+1 ]
ii) Yn ∼ Unif[0, n
] da cui
n+1
n
E [Yn ] = .
2(n + 1)
Invece
1 n
Z nn
n n n+1
E [Zn ] = z dz = .
0 n+1
iii) Si ha 

 0 se y ≤ 0, 

 0

 se z ≤ 0,
FYn (y) −−−−−−→  1 se y ≥ 1, FZn (z) −−−−−−→ 

n→∞   n→∞  1 se z > 1,
y altrimenti,

e quindi, per il Teorema 4.3.3, Yn converge debolmente ad una v.a. con legge Unif[0,1] e Zn converge
debolmente ad una v.a. con legge delta di Dirac centrata in 1. Si noti che il limite puntuale delle FZn
non è continua a destra nel punto z = 1.
iv) Sı̀ per il Teorema 4.1.9-vi).
Appendice C
Tavole riassuntive delle principali

distribuzioni
Nome Simbolo Funzione di distribuzione µ̄(k) Attesa Varianza Funzione caratteristica Proprietà: vedi pag.
Delta di Dirac δx0 1{x0 } (k) x0 0 eix0 η 59, 65, 111


p
 se k = 1
1 + p eiη − 1

Bernoulli Bep p p(1 − p) 61, 93, 111, 156
1 − p se k = 0


1 n+1 n2 −1 eiη (einη −1)

Uniforme Unifn n 1In (k) 2 12 61
n(eiη −1)
n
n k n−k ,
Binomiale Binn,p k p (1 − p) 0≤k≤n np np(1 − p) 1 + p eiη − 1 38, 61, 94
iη −1
e−λ λk
Poisson Poissonλ k! , k ∈ N0 λ λ eλ(e ) 61, 95, 111, 115
1 1−p p
Geometrica Geomp p(1 − p)k−1 , k ∈ N p p2
96, 98
e−iη −1+p
(kb)(Nn−k
−b
) bn bn(N −b)(N −n)
Ipergeometrica Ipern,b,N N , 0 ≤ k ≤ n∧b N N 2 (N −1)
vedi file Mathematica 38, 98
(n)
559
560 APPENDICE C. TAVOLE RIASSUNTIVE DELLE PRINCIPALI DISTRIBUZIONI
Nome Simbolo Densità: γ(x) = Attesa Varianza Funzione caratteristica Pro
1 a+b (b−a)2 eibη −eiaη

Uniforme su [a, b] Unif[a,b] b−a 1[a,b] (x) 2 12 iη(b−a)
63,
1 1 λ
Esponenziale Expλ λe−λx 1R≥0 λ λ2 λ−iη 63,
1 x−µ 2 σ 2 η2
Normale reale Nµ,σ 2 √ 1 e− 2 ( σ ) µ σ2 eiµη− 2 63,
2πσ 2
λα e−λx λ α

α α
Gamma Gammaα,λ 1
Γ (α)x1−α R>0
(x) λ λ2 λ−iη 100
−x n
Chi-quadro a n gradi χ2 (n) = Gamma n , 1 n
1 e 2
1− n
1R>0 (x) n 2n (1 − 2iη)− 2 158
2 2 2 2 Γ n2
( ) x 2
Indice analitico
Bd , 58 congiunta, 125
F∞ , 287 del massimo, 159
Fτ , 293 di v.a., 92
G X , 228 marginale, 125
N , 24 Chapman-Kolmogorov, 245
σ -algebra, 20 CHF, 142
di Borel, 58 congiunta, 149
generata marginale, 149
da insiemi, 57 Cholesky, 123
da una v.a., 88 cilindro finito-dimensionale, 220
bC, 113, 162 coefficiente
bF , 88 di correlazione, 122
mF , 88 combinazioni, 34
mF + , 88 completamento, 57
continuità in media, 338
algebra, 25 convergenza
ampliamento standard, 288 debole, 162
arg max, 15 di distribuzioni, 162
arg min, 15 in Lp , 161
assenza di memoria, 96, 98 in probabilità, 161
assoluta continuità puntuale, 161
dell’integrale, 110
q.c., 90
assolutamente continua
convoluzione, 155
distribuzione, 63
correlazione, 122
funzione, 69, 439
campionaria, 124
attesa, 104
covarianza, 121
condizionata, 139, 186, 192, 194
campionaria, 124
funzione, 190, 200
criterio di Sylvester, 126
Bernstein, 171
Berry-Esseen, 183 decomposizione di Cholesky, 123
Blumenthal, 290 delta
Borel-Cantelli, 52 di Kronecker, 327
Burkholder-Davis-Gundy, 360 delta di Dirac, 59
densità
càdlàg, 257 condizionata, 139, 208
calore, 275 congiunta, 125
Cantor, 70 di transizione, 238
CDF, 65 marginale, 125
condizionata, 139 trasformazione lineare di, 98
561
562 INDICE ANALITICO
derivata di Radon-Nikodym, 434 massimale di Doob, 283, 284, 304, 305

deviazione standard, 114 triangolare, 109
diadici, 268 Doob, 127
differenza simmetrica, 57
disposizioni equazione
con ripetizione, 33 di Chapman-Kolmogorov, 245
semplici, 33 equazione del calore, 275
distribuzione, 56 erf, 67
χ2 , 102 esito, 21
χ2 (n), 158 esperimento aleatorio, 20
assolutamente continua, 63 esponente caratteristico, 255, 291
binomiale, 38, 61, 94 evento, 21
approssimazione, 179, 183
chi-quadro, 102, 158 famiglia
condizionata, 139, 186 ∩-chiusa, 20
funzione, 190, 207 ∪-chiusa, 20
versione regolare, 204 σ -∩-chiusa, 20
congiunta, 125 σ -∪-chiusa, 20
del massimo, 159 di prove ripetute e indipendenti, 53
delta di Dirac, 59, 178 monotona
di Bernoulli, 61 di funzioni, 433
di Cauchy, 144 di insiemi, 431
di Poisson, 62, 95, 179 Feller, 239
di transizione, 237 fenomeno aleatorio, 20
di Poisson, 238 filtrazione, 227
Gaussiana, 239 G X , 228
di un processo stocastico, 221 generata, 228
discreta, 60 standard, 288
esponenziale, 64, 178 formula
Gamma, 100, 101, 158 binomiale, 37
geometrica, 62, 96, 178 della probabilità totale, 45, 187, 196, 205,
ipergeometrica, 38, 98 210
log-normale, 103 di Bayes, 48, 212
marginale, 125 di moltiplicazione, 47
normale, 64, 99, 178 di Newton, 37
bidimensionale, 126, 137 Fourier, 143
multidimensionale, 149 freezing, 197, 198
standard, 64 funzione
uniforme a variazione limitata, 440
discreta, 61 assolutamente continua, 69, 439
multidimensionale, 64, 99 càdlàg, 257
distribuzioni finito-dimensionali, 221 caratteristica, 142
Disuguaglianza di distribuzione, 61
di Burkholder-Davis-Gundy, 360 condizionata, 190
di Cauchy-Schwarz, 120, 122 congiunta, 125
di Chebyschev, 163 marginale, 125
di Hölder, 119 di ripartizione, 65, 72
di Jensen, 117 congiunta, 125
condizionata, 196 marginale, 125
di Markov, 163 di Vitali, 70
di Minkowski, 120 errore (erf), 67
INDICE ANALITICO 563
Gamma di Eulero, 100 LSMC, 201

indicatrice, 15
integrabile, 108 Markov, 237
semplice, 105 martingala, 228
sommabile, 108 Browniana, 276
discreta, 228
Gamma di Eulero, 100 esponenziale, 276, 357
generatore infinitesimale, 250 quadratica, 276
grafico di dispersione, 123 matrice
definita positiva, 126
Hilbert-Schmidt, 365 di correlazione, 122
di covarianza, 122
i.i.d., 167 semi-definita positiva, 122
incrementi indipendenti, 243 media, 110, 113
indipendenza aritmetica
di eventi, 48 normalizzata, 181
di v.a., 127 campionaria, 123
insieme media aritmetica, 168, 180
di Cantor, 70 memoria, 96, 98
quasi certo, 24 metodo Monte Carlo, 170, 182
trascurabile, 24 minimi quadrati, 201
integrale astratto, 107, 108 misura, 21, 25
intensità, 188, 255 σ -finita, 21
stocastica, 188, 258 di probabilità, 21
intervallo di confidenza, 183 di Wiener, 273
isometria di Itô, 325 esterna, 79
Itô finita, 21
isometria, 325 prodotto, 130
modello binomiale, 157
Jensen, 117, 196 modificazione, 223
momento, 153
Kolmogorov, 225, 233 Monte Carlo, 170
Kronecker, 327 Least Square, 201
moto Browniano, 248, 271
Lévy, 176, 291, 369
con drift, 322
legge, 91
correlato, 370
condizionata, 186
dei grandi numeri, 180 norma di Hilbert-Schmidt, 365
del logaritmo iterato, 273
di transizione, 237 operatore
di un processo continuo, 265 del calore
di un processo stocastico, 221 backward, 275
legge 0-1 di Blumenthal, 290 forward, 275
legge debole di Laplace, 250
dei grandi numeri, 168 optional sampling, 283, 306, 312
legge forte
dei grandi numeri, 168 parte positiva, 15
Lemma partizione, 315
di Borel-Cantelli, 52 partizione diadica, 303
di Fatou, 108 permutazioni, 34
condizionato, 196 Poisson, 254
di freezing, 197, 198 polinomi di Bernstein, 171
pre-misura, 78 quasi certamente, 91

principio del massimo, 399
probabilità, 21 Radon-Nikodym, 434
condizionata, 44, 186 razionali diadici, 303
funzione, 190 regressione, 122
versione regolare, 203 retta di regressione, 122, 123
uniforme, 23 roulette, 169
procedura standard, 113
semianello, 78
processi
semigruppo, 248
indistinguibili, 224
simbolo di Kronecker, 327
modificazioni, 223
Skorokhod, 266
uguali in legge, 223
soluzione fondamentale, 275
processo
somma di variabili aleatorie, 155
a incrementi indipendenti, 243
spazio
adattato, 227
campionario, 21
continuo, 263
delle traiettorie, 219
legge, 265
continue, 264
versione canonica, 266
di Wiener, 264
di Feller, 239
di probabilità, 21
di Lévy, 291
completo, 24, 91, 224
di Markov, 237 discreto, 21
di Poisson, 247, 253, 254, 257 di Skorokhod, 266
a intensità stocastica, 258 misurabile, 20
compensato, 259 polacco, 203, 264
composto, 255 strategia del raddoppio, 169
Gaussiano, 221, 226 sub-martingala, 229
misurabile, 223 super-martingala, 229
moto Browniano, 271 Sylvester, 126
progressivamente misurabile, 293
stocastico, 219, 220 tempo
discreto, 219 d’uscita, 287
uniformemente integrabile, 442 tempo d’arresto
versione canonica, 226, 266 discreto, 279
processo stocastico, 442 Teorema
prodotto scalare, 15 centrale del limite, 181
progressivamente misurabile, 293 del calcolo della media, 114, 187, 205
proprietà della convergenza dominata, 109
della torre, 196 condizionato, 196
di assenza di memoria, 96 di Beppo-Levi, 107
di Feller, 239 condizionato, 196
forte, 248 di Berry-Esseen, 183
di Markov, 240, 273 di Carathéodory, 68, 78
estesa, 242 di continuità di Kolmogorov, 266, 267
forte, 295 di continuità di Lévy, 176
di martingala, 228 di convergenza di Vitali, 442
di semigruppo, 248 di Doob, 127
proprietà quasi certa, 91 di estensione di Kolmogorov, 225, 233
prove ripetute e indipendenti, 53 di Fubini, 131
di Helly, 175
q.c., 16, 91 di inversione, 146
q.o., 16 di optional sampling, 283, 306, 312
INDICE ANALITICO 565
valore atteso, 110, 113

di Radon-Nikodym, 434 variabile aleatoria, 88
di rappresentazione di Riesz, 435 assolutamente continua, 92
Teorema di varianza, 114, 121
Lévy, 369 campionaria, 123
tightness, 175 variazione
traiettoria, 221 prima, 315
trasformata di Fourier, 143 versione canonica
di un processo continuo, 266
uguaglianza di un processo di Markov, 242
in legge, 93 di un processo stocastico, 226
q.c., 91 versione regolare della distribuzione
uniforme integrabilità, 442 condizionata, 204
Vitali, 28, 442
v.a., 16, 88
assolutamente continua, 92 Wiener, 264
Bibliografia
[1] D. Applebaum, Lévy processes and stochastic calculus, vol. 93 of Cambridge Studies in Advanced
Mathematics, Cambridge University Press, Cambridge, 2004.
[2] P. Baldi, Introduzione alla probabilità con elementi di statistica - Seconda edizione, McGraw-Hill, 2012.
[3] , Stochastic calculus, Universitext, Springer, Cham, 2017. An introduction through theory and
exercises.
[4] M. T. Barlow, One-dimensional stochastic differential equations with no strong solution, J. London Math.
Soc. (2), 26 (1982), pp. 335–347.
[5] R. F. Bass, Probabilistic techniques in analysis, Probability and its Applications (New York), Springer-
Verlag, New York, 1995.
[6] , Stochastic processes, vol. 33 of Cambridge Series in Statistical and Probabilistic Mathematics,
Cambridge University Press, Cambridge, 2011.
[7] , Real Analysis for Graduate Students, 2013. Disponibile su http://bass.math.uconn.edu/real.
html.
[8] F. Baudoin, Diffusion processes and stochastic calculus, EMS Textbooks in Mathematics, European
Mathematical Society (EMS), Zürich, 2014.
[9] H. Bauer, Probability theory, vol. 23 of De Gruyter Studies in Mathematics, Walter de Gruyter & Co.,
Berlin, 1996. Translated from the fourth (1991) German edition by Robert B. Burckel and revised by
the author.
[10] M. Beiglböck, W. Schachermayer, and B. Veliyev, A short proof of the Doob-Meyer theorem, Stochastic
Process. Appl., 122 (2012), pp. 1204–1209.
[11] F. Biagini and M. Campanino, Elements of probability and statistics, vol. 98 of Unitext, Springer, [Cham],
2016. An introduction to probability with de Finetti’s approach and to Bayesian statistics, Translated
from the 2006 Italian original, La Matematica per il 3+2.
[12] P. Billingsley, Probability and measure, Wiley Series in Probability and Mathematical Statistics, John
Wiley & Sons, Inc., New York, third ed., 1995. A Wiley-Interscience Publication.
[13] , Convergence of probability measures, Wiley Series in Probability and Statistics: Probability and
Statistics, John Wiley & Sons, Inc., New York, second ed., 1999. A Wiley-Interscience Publication.
[14] P. Brémaud, Point processes and queues, Springer-Verlag, New York-Berlin, 1981. Martingale dynamics,
Springer Series in Statistics.
[15] F. Caravenna and P. Dai Pra, Probabilità - Un’introduzione attraverso modelli e applicazioni, Springer,
2013.
567
568 BIBLIOGRAFIA
[16] K. L. Chung and J. L. Doob, Fields, optionality and measurability, Amer. J. Math., 87 (1965), pp. 397–
424.
[17] D. Costantini, Introduzione alla probabilità, Testi e manuali della scienza contemporanea. Serie di
logica matematica, Bollati Boringhieri, 1977.
[18] J. Dieudonné, Sur le théorème de Lebesgue-Nikodym. III, Ann. Univ. Grenoble. Sect. Sci. Math. Phys.
(N.S.), 23 (1948), pp. 25–53.
[19] J. L. Doob, Stochastic processes, John Wiley & Sons, Inc., New York; Chapman & Hall, Limited, London,
1953.
[20] R. Durrett, Stochastic calculus, Probability and Stochastics Series, CRC Press, Boca Raton, FL, 1996.
A practical introduction.
[21] , Essentials of stochastic processes, Springer Texts in Statistics, Springer, Cham, 2016. Third edition
[of MR2933766].
[22] R. Durrett, Probability: theory and examples, vol. 49 of Cambridge Series in Statistical and Probabili-
stic Mathematics, Cambridge University Press, Cambridge, 2019. Disponibile su https://services.
math.duke.edu/˜rtd/PTE/pte.html.
[23] V. D’Urso and F. Giusberti, Esperimenti di psicologia - seconda edizione, Zanichelli, 2000.
[24] E. B. Fabes and D. W. Stroock, A new proof of Moser’s parabolic Harnack inequality using the old ideas of
Nash, Arch. Rational Mech. Anal., 96 (1986), pp. 327–338.
[25] A. M. Faden, The existence of regular conditional probabilities: necessary and sufficient conditions, Ann.
Probab., 13 (1985), pp. 288–298.
[26] W. Feller, An introduction to probability theory and its applications. Vol. II, Second edition, John Wiley
& Sons, Inc., New York-London-Sydney, 1971.
[27] A. Friedman, Partial differential equations of parabolic type, Prentice-Hall, Inc., Englewood Cliffs, N.J.,
1964.
[28] , Stochastic differential equations and applications, Dover Publications, Inc., Mineola, NY, 2006.
Two volumes bound as one, Reprint of the 1975 and 1976 original published in two volumes.
[29] P. Glasserman, Monte Carlo methods in financial engineering, vol. 53 of Applications of Mathematics
(New York), Springer-Verlag, New York, 2004. Stochastic Modelling and Applied Probability.
[30] P. Glasserman and B. Yu, Number of paths versus number of basis functions in American option pricing,
Ann. Appl. Probab., 14 (2004), pp. 2090–2119.
[31] I. Goodfellow, Y. Bengio, and A. Courville, Deep Learning, MIT Press, 2016. Disponibile su http:
//www.deeplearningbook.org.
[32] P. R. Halmos, Measure Theory, D. Van Nostrand Company, Inc., New York, N. Y., 1950.
[33] L. Hörmander, Hypoelliptic second order differential equations, Acta Math., 119 (1967), pp. 147–171.
[34] L. Hörmander, Hypoelliptic second order differential equations, Acta Math., 119 (1967), pp. 147–171.
[35] J. Jacod and P. Protter, Probability essentials, Universitext, Springer-Verlag, Berlin, 2000.
[36] J. Jacod and A. N. Shiryaev, Limit theorems for stochastic processes, vol. 288 of Grundlehren der Ma-
thematischen Wissenschaften [Fundamental Principles of Mathematical Sciences], Springer-Verlag,
Berlin, second ed., 2003.
BIBLIOGRAFIA 569
[37] O. Kallenberg, Foundations of modern probability, Probability and its Applications (New York),
Springer-Verlag, New York, second ed., 2002.
[38] I. Karatzas and S. E. Shreve, Brownian motion and stochastic calculus, vol. 113 of Graduate Texts in
Mathematics, Springer-Verlag, New York, second ed., 1991.
[39] A. Klenke, Probability theory, Universitext, Springer, London, second ed., 2014. A comprehensive
course.
[40] A. N. Kolmogorov, Selected works of A. N. Kolmogorov. Vol. III, Kluwer Academic Publishers Group,
Dordrecht, 1993. Edited by A. N. Shiryayev.
[41] J. Komlós, A generalization of a problem of Steinhaus, Acta Math. Acad. Sci. Hungar., 18 (1967), pp. 217–
229.
[42] N. V. Krylov, Controlled diffusion processes, vol. 14 of Stochastic Modelling and Applied Probability,
Springer-Verlag, Berlin, 2009. Translated from the 1977 Russian original by A. B. Aries, Reprint of the
1980 edition.
[43] O. A. Ladyzhenskaia, V. A. Solonnikov, and N. N. Ural’tseva, Linear and quasilinear equations of
parabolic type, Translations of Mathematical Monographs, Vol. 23, American Mathematical Society,
Providence, R.I., 1968. Translated from the Russian by S. Smith.
[44] E. Lanconelli, Lezioni di Analisi Matematica 1, Pitagora Editrice Bologna, 1994.
[45] , Lezioni di Analisi Matematica 2, Pitagora Editrice Bologna, 1995.
[46] , Lezioni di Analisi Matematica 2 - Seconda parte, Pitagora Editrice Bologna, 1997.
[47] P. Langevin, Sur la théorie du mouvement Brownien, C.R. Acad. Sci. Paris, 146 (1908), pp. 530–532.
[48] D. S. Lemons, An introduction to stochastic processes in physics, Johns Hopkins University Press, Balti-
more, MD, 2002. Containing “On the theory of Brownian motion” by Paul Langevin, translated by
Anthony Gythiel.
[49] G. Letta, Probabilità elementare. Compendio di teorie. Problemi risolti, Zanichelli, 1993.
[50] E. E. Levi, Sulle equazioni lineari totalmente ellittiche alle derivate parziali, Rend. Circ. Mat. Palermo, 24
(1907), pp. 275–317.
[51] P.-A. Meyer, Probability and potentials, Blaisdell Publishing Co. Ginn and Co., Waltham,
Mass.-Toronto, Ont.-London, 1966.
[52] P.-A. Meyer, Stochastic processes from 1950 to the present, J. Électron. Hist. Probab. Stat., 5 (2009), p. 42.
Translated from the French [MR1796860] by Jeanine Sedjro.
[53] D. Mumford, The dawning of the age of stochasticity, Atti Accad. Naz. Lincei Cl. Sci. Fis. Mat. Natur.
Rend. Lincei (9) Mat. Appl., (2000), pp. 107–125. Mathematics towards the third millennium (Rome,
1999).
[54] J. Neveu, Mathematical foundations of the calculus of probability, Translated by Amiel Feinstein, Holden-
Day, Inc., San Francisco, Calif.-London-Amsterdam, 1965.
[55] D. Nualart, The Malliavin calculus and related topics, Probability and its Applications (New York),
Springer-Verlag, Berlin, second ed., 2006.
[56] B. Oksendal, Stochastic differential equations, Universitext, Springer-Verlag, Berlin, fifth ed., 1998. An
introduction with applications.
570 BIBLIOGRAFIA
[57] O. A. Oleinik and E. V. Radkevic, Second order equations with nonnegative characteristic form, Plenum
Press, New York-London, 1973. Translated from the Russian by Paul C. Fife.
[58] A. Pascucci, PDE and martingale methods in option pricing, vol. 2 of Bocconi & Springer Series, Springer,
Milan; Bocconi University Press, Milan, 2011.
[59] J. A. Paulos, A mathematician reads the newspaper, Basic Books, New York, 2013. Paperback edition of
the 1995 original with a new preface.
[60] G. A. Pavliotis, Stochastic processes and applications, vol. 60 of Texts in Applied Mathematics, Springer,
New York, 2014. Diffusion processes, the Fokker-Planck and Langevin equations.
[61] N. Pintacuda, Probabilità, Zanichelli, 1995.
[62] P. E. Protter, Stochastic integration and differential equations, vol. 21 of Stochastic Modelling and
Applied Probability, Springer-Verlag, Berlin, 2005. Second edition. Version 2.1, Corrected third
printing.
[63] C. E. Rasmussen and C. K. I. Williams, Gaussian Processes for Machine Learning, MIT Press, 2006.
Disponibile su http://www.gaussianprocess.org/gpml/.
[64] D. Revuz and M. Yor, Continuous martingales and Brownian motion, vol. 293 of Grundlehren der Ma-
thematischen Wissenschaften [Fundamental Principles of Mathematical Sciences], Springer-Verlag,
Berlin, third ed., 1999.
[65] F. Riesz and B. Sz.-Nagy, Functional analysis, Frederick Ungar Publishing Co., New York, 1955.
Translated by Leo F. Boron.
[66] W. Rudin, Real and complex analysis, McGraw-Hill Book Co., New York, third ed., 1987.
[67] D. Salsburg, The Lady Tasting Tea: How Statistics Revolutionized Science in the Twentieth Century, Henry
Holt and Company, 2002.
[68] R. L. Schilling, Sobolev embedding for stochastic processes, Expo. Math., 18 (2000), pp. 239–242.
[69] A. N. Shiryaev, Probability. 1, vol. 95 of Graduate Texts in Mathematics, Springer, New York, third ed.,
2016. Translated from the fourth (2007) Russian edition by R. P. Boas and D. M. Chibisov.
[70] Y. G. Sinai, Probability theory, Springer Textbook, Springer-Verlag, Berlin, 1992. An introductory
course, Translated from the Russian and with a preface by D. Haughton.
[71] D. W. Stroock, Partial differential equations for probabilists, vol. 112 of Cambridge Studies in Advanced
Mathematics, Cambridge University Press, Cambridge, 2012. Paperback edition of the 2008 original.
[72] D. W. Stroock and S. R. S. Varadhan, Multidimensional diffusion processes, Classics in Mathematics,
Springer-Verlag, Berlin, 2006. Reprint of the 1997 edition.
[73] H. Tanaka, Note on continuous additive functionals of the 1-dimensional Brownian path, Z.
Wahrscheinlichkeitstheorie und Verw. Gebiete, 1 (1962/63), pp. 251–257.
[74] A. Tychonoff, Théorèmes d’unicité pour l’equation de la chaleur, Math. Sbornik, 42 (1935), pp. 199–216.
[75] G. Vitali, Sul problema della misura dei gruppi di punti di una retta, Bologna, Tip. Gamberini e
Parmeggiani., (1905).
[76] D. Williams, Probability with martingales, Cambridge Mathematical Textbooks, Cambridge University
Press, Cambridge, 1991.
[77] A. K. Zvonkin, A transformation of the phase space of a diffusion process that will remove the drift, Mat.
Sb. (N.S.), 93(135) (1974), pp. 129–149, 152.

Dispensa

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Dispensa

Caricato da

Copyright:

Formati disponibili

Teoria della Probabilità

1 Email: andrea.pascucci@unibo.it Dipartimento di Matematica, Università di Bologna, Piazza di Porta S. Donato 5,

I Variabili aleatorie e distribuzioni 17

4 Successioni di variabili aleatorie 161

5 Probabilità condizionata 185

II Processi e calcolo stocastico - Work in progress! 217

7 Processi di Markov 237

8 Processo di Poisson 253

9 Processi continui 263

10 Moto Browniano 271

11 Tempi d’arresto 279

12 Proprietà di Markov forte 295

13 Martingale continue 303

14 Teoria della variazione 315

15 Integrazione stocastica secondo Itô 333

16 Formula di Itô 355

16.3.2 Formula di Itô multi-dimensionale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 366

17 Equazioni differenziali stocastiche 375

18 Soluzioni forti 381

19 Problema di Cauchy per equazioni paraboliche 397

20 Soluzioni deboli di SDE: il problema della martingala 423

21 Relazione fra SDE e PDE 425

22 Metodi numerici stocastici 427

A.3 Uniforme integrabilità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 442

B Temi d’esame risolti 445

C Tavole riassuntive delle principali distribuzioni 559

Indice analitico 561

Riferimenti bibliografici 565

D. Mumford, The Dawning of the Age of Stochasticity [53]

V. D’Urso, F. Giusberti, Esperimenti di psicologia [23]

Una rivoluzione della matematica

La probabilità nel passato

La probabilità nel presente

• Telecomunicazioni: la NASA utilizza il metodo di Kalman-Bucy per filtrare i segnali provenienti da

• Giurisprudenza: il verdetto emesso da un giudice di un tribunale si basa sulla probabilità di colpe-

Alcuni simboli e notazioni usati frequentemente

• ♯A oppure |A| indica la cardinalità dell’insieme A. A ↔ B se |A| = |B|

• Bd = B(Rd ) è la σ -algebra di Borel in Rd ; B := B1

• mF (risp. mF + , bF ) la classe delle funzioni F -misurabili (risp. F -misurabili e non-negative, F -

• N famiglia degli insiemi trascurabili (cfr. Definizione 2.1.16)

– numeri naturali: N = {1, 2, 3, ...}, N0 = N ∪ {0}, In := {1, . . . , n} per n ∈ N

• Lebd indica la misura di Lebesgue d-dimensionale; Leb := Leb1

• funzione indicatrice di un insieme A

• prodotto scalare Euclideo:

• massimo e minimo di numeri reali:

x ∧ y = min{x, y}, x ∨ y = max{x, y}

• parte positiva e negativa:

• argomento del massimo e del minimo di f : A −→ R:

arg max f (x) = {y ∈ A | f (y) ≥ f (x) per ogni x ∈ A}

Segnaliamo l’importanza dei risultati con i seguenti simboli:

Variabili aleatorie e distribuzioni

Misure e spazi di probabilità

The philosophy of the foundations of

2.1 Spazi misurabili e spazi di probabilità

2.1.1 Spazi misurabili

i) Ω è un insieme non vuoto;

Di conseguenza, si dice che F è ∩-chiusa e σ -∩-chiusa.

(per il fatto che µ(∅) = 0)

2.1.2 Spazi di probabilità

i) A = “il risultato del lancio è un numero dispari”;

ii) B = “il risultato del lancio è il numero 4”;

iii) C = “il risultato del lancio è maggiore di 7”.

Ad ogni affermazione corrisponde un sottoinsieme di Ω: